按时间归档:2022年
-
谷歌(GOOGL.US)即将推出全息3D视频通话,三维立体宛如真人面对面!
智通财经APP获悉,谷歌(GOOGL.US)正在扩大Starline项目的测试,即3D视频通话亭,在那里我们可以与全息版本的朋友、家人或同事进行聊天。在过去的一年里,该公司在自…
-
互联网大厂跑马圈地虚拟数字人,千亿市场爆发至少还要等上5年?
记者/范佳来 吴雨欣 实习生/姜霁轩 听说过洛天依和《甩葱舞》吗?伴随虚拟偶像的出圈,虚拟人产业已经成为资本下注的新目标。 公开数据显示,截至今年9月,国内虚拟数字人赛…
-
rtmpdump交叉编译(NDK编译rtmpdump引入到Android工程)
要做一个手机直播采集项目,首先你要解决的是推流问题,而目前几乎所以的直播项目采用都是rtmp协议进行推流。 今天我们就将rtmpdump这个开源库进行交叉编译,以便后续在采集到音视…
-
FFMPEG中内存管理
参考n4.4.2版本中ibavutil/mem.c,主要代码早期放在libavcodec/utils.c,后来分拆过来,文件顶部注释中有FFMPEG初版作者大神Fabrice Be…
-
WebRTC 音视频通信实现流程
WebRTC(Web Real-Time Communication),即“网页即时通信”,WebRTC 是一个支持浏览器进行实时语音、视频对话的开源协议,目前主流浏览器都支持We…
-
webrtc 视频会议服务器搭建(webrtc视频会议搭建教程)
通过webrtc 视频会议的需求越来越多,很多人反映搭建webrtc 视频会议服务器便遇到很多问题,这篇文字将webrtc 视频会议搭建过程重新梳理一遍,希望对大家能有帮助,通过下…
-
音视频系列之MP4格式详解
MP4简介 MP4(MPEG-4 Part 14)是一种常见的多媒体容器格式,它是在“ISO/IEC 14496-14”标准文件中定义的,属于MPEG-4的一部分,是“ISO/IE…
-
Loki: 通过融合基于规则的模型提高基于学习的实时视频自适应的长尾性能
最大化实时视频的体验质量(QoE)是一个长期存在的挑战。传统的视频传输协议以少量确定性规则为代表,难以适应异构、高度动态的现代互联网。新兴的基于学习的算法已经显示出应对这一挑战的潜…
-
丰田与Google合作,不用连网也能做到语音识别
目前比较先进的语音识别系统几乎都需要连接网络才能使用,这是因为要辨识语音并且转换成特定指令,需要大量运算。而携带式装置运算能力大多数不够,所以需要通过网络使用云服务协助。因此,现在…
-
直播解决方案:为什么每个大厂,都在押注视频云?
如果说2022年还有什么互联网大厂集体投入的业务的话,那么视频云一定可以算一个。 绝大多数用户并不知道什么叫视频云,但视频云早已是互联网音视频行业的空气和水,在线直播、视频会议、主…
-
RTMP封包协议解析
想做一个直播推流而已,为什么还要学习RTMP的协议?我们想回想一下我们推流端的简要流程: 那么在第三步,RTMP包如何封装呢?真的是简单的调用一下API就完事了吗? 我们现在看一段…
-
NDK 编译 FAAC 引入 Android 工程
AAC就是高级音频编码(Advanced Audio Coding),出现于1997年,基于MPEG-2的音频编码技术,目的是取代MP3格式。 2000年,MPEG-4标准出现后,…
-
NDK编译x264引入到Android工程中
H.264是ITU(International Telecommunication Union,国际通信联盟)和MPEG(Motion Picture Experts Group,…
-
音视频开发进阶课程|第六讲下:色彩和色彩空间·RGB和YUV的采样和存储
在上一篇文章《音视频开发进阶课程|第六讲上:色彩和色彩空间》,我们带大家了解了视频、图像、像素和色彩之间的关系,还初步认识了两种常用的色彩空间,分别是大家比较熟悉的 RGB,以及更…
-
iOS VideoToolbox 硬编指南(VideoToolbox避坑指南)
引言 调用系统 VideoToolbox 的 API 实现一个硬编很容易,仔细看看文档、了解 API 的使用实现一个基本功能相信难不倒大家。但实际工作中有许多细节,一不注意就会掉坑…
-
ACM MM 2022 | 快手斩获Grand Challenge冠军
近日,多媒体领域顶级会议ACM Multimedia 2022在葡萄牙里斯本召开。在ACM MM 2022 Grand Challenge: Short Video Streami…
-
SurfaceView、TextureView、GLSurfaceView 和 SurfaceTexture
SurfaceView SurfaceView 是一个可以在子线程中更新 UI 的 View,且不会影响到主线程。 它为自己创建了一个窗口(window),就好像在视图层次(Vie…
-
OpenSL ES渲染音频实例
OpenSL ES 是可以让你使用C或者C++来实现高性能,低延迟音频API。ES代表Embedded Systems,在嵌入式系统中单独设计。使用OpenSL ES可以省去nat…
-
AudioTrack播放ffmpeg解码的PCM音频数据
本文主要介绍ffmpeg解码音频并且搭配AudioTrack以及OpenSLES播放PCM原始音频数据。 音频解码 对于使用ffmpeg进行音视频的解码过程,我们来回忆一下这张图:…
-
多家科技公司寻求为残障人士改进语音识别工具
多家大型科技公司正在与高校合作开发语音识别技术,以更好地识别与残障人士相关的语音模式。亚马逊、苹果、谷歌、Meta和微软正在与伊利诺伊大学厄巴纳-香槟分校(University o…