技术文章
-
AV1中的混合帧间预测compound inter prediction
由于目前互联网上有关AV1视频编码标准的中文资料特别少,针对它的compound inter prediction这一术语,本文将其译为混合帧间预测,以下皆用此名词代指。 1.基本…
-
面向5G LDPC编码调制系统的低误码平层比特交织方案 | 姜明,朱名扬,赵春明
研究意义 5G移动通信系统中,LDPC码作为主要信道编码方案之一实现了较高的可靠度和吞吐率。近年来,诸多新兴的通信场景对可靠度提出了更高要求。车联网、无人机通信、增强/虚拟现实等新…
-
H264 over RTP 的打包!
一、打包流程: 从H264编码器读出一帧数据(一个完整的H264帧) 然后遍历H264的所有NALU:如果NALU长度小于MTU,则将该NALU打包为一个RTP包;否则,将NALU…
-
得物客户端直播间APM压测实践
1 背景 随着直播行业的飞速发展,越来越多的企业涉足这一领域,直播间的稳定性和用户体验成为了直播平台竞争的重要因素。但是,由于直播间涉及到多个复杂的技术环节,如视频传输、网络通讯、…
-
图像分割:超像素(Superpixel)分割的大致原理
一、背景 首先一张图片由一个个像素组成(可以看成网格),每个像素可以有一个灰度值(标量)或RGB值(三维向量)。 http://a-chien.blogspot.de/2017/0…
-
远不止虚拟主播!深度剖析AIGC技术在智慧广电与网络新视听中的应用
近年,随着算力、预训练模型和多模态技术的不断汇聚发展,在自然语言和音视频领域涌现出大量人工智能生产内容(Artificial Intelligence Generated Cont…
-
顺丰科技基于WeNet端到端语音识别方案落地
顺丰作为国内领先的快递物流综合服务商,一直致力于为用户提供更优质、更高效便捷的快递物流服务。顺丰科技作为顺丰集团旗下的科技公司,以科技深耕于物流与供应链行业,通过在大数据、人工智能…
-
H.264 与 H.265:直播流媒体常用协议的区别
深入了解 H.264 与 H.265 之间的差异 正如俗话说的一般,技术总是在进步,以便为用户提供更多便利。有时这些差异可能是巨大的,而在其他时候,几乎是微不足道的。但在不断扩展的…
-
Web 平台规模化部署高效编码格式的实践和思考
随着 Chrome 在 107 版本支持 H.265 的硬解,以及 Web 平台上 H.265 软解技术的成熟,在 Web 平台上规模化部署 H.265 视频的时机已经成熟。关于 …
-
使用什么数据库来支持我们的 AI 聊天机器人
在AISPEECH,我们为广泛的实体提供对话式人工智能服务和自然语言交互解决方案,包括金融机构、政府和IoV和IoT公司。如果你相信大数据是人工智能的燃料这一观点,你会发现一个高性…
-
Diffusion Video Autoencoders:通过分解视频编码实现时间上一致的人脸视频编辑 | CVPR 2023
作为近两年大火的生成模型,扩散模型在图像合成任务上表现突出,近期也有一些工作将扩散模型引入视频合成与编辑任务。本文提出将扩散模型扩展到人脸视频编辑任务中,提出了一个扩散自动编码器的…
-
从文本到意义:自然语言处理算法的工作原理
自然语言处理 (NLP) 是一个结合计算机科学和语言学以帮助机器理解人类语言的研究领域。NLP 已成为现代技术不可或缺的一部分,为从聊天机器人到语音助手的一切提供动力。但是 NLP…
-
Meta 专利探索在AR/VR环境中的视频通话体验
视频会议已经成为人们联系的一个重要方式。然而,当前的视频通话属于2D表示,所以能够实现进一步临场感的AR/VR成为了行业关注的一个方向。 在名为“Parallel video ca…
-
AIGC技术将掀起算力需求革命,PPIO王闻宇深度剖析对边缘计算的影响
编者按:TGO的《大咖面对面》直播栏目已经播出第四期。今天,我们邀请了两位TGO会员来共同探讨「边缘计算的未来、应用落地与新格局」。TGO致力于让拥有共同话题、背景和认知的人聚集在…
-
IFRNet:用于高效帧插值的中间特征细化网络
目前流行的视频帧插值算法,从连续的输入产生中间帧,通常依赖于复杂的模型结构,具有沉重的参数或大的延迟,阻碍了它们的实时应用。作者设计了一个高效的基于编码器-解码器的网络,称为 IF…
-
FFmpeg 中的音视频编码格式
为什么要进行视频编码,直接进行存储、播放、传输不是可以省去编码、解码的时间吗?下面我们通过数据来分析一下: 例子:一张大小为1080*720 的图像,帧率25FPS,一个像素用12…
-
画质增强中的超分辨率
什么是超分辨率? “分辨率”是一个泛指图像清晰程度或者图像输出设备解析能力的词,其实就是我们经常说的那个空间分辨率。(凡是能度量的量都存在分辨率,比如时间、空间、光谱、辐射量等等,…
-
ICLR 2023 | TranSpeech:高质量非自回归语音到语音翻译
语音到语音翻译(S2ST)对于打破语言壁垒与沟通障碍非常有益。传统的 S2ST 系统通常由语音识别(ASR),机器翻译(MT)和语音合成(TTS)三部分组成。与这些级联系统相比,直…
-
WebRTC SDP 简介
一. What is SDP, SDP 是什么 SDP 的全称 是Sessioin Description Protocol。为会话通知、会话邀请和其它形式的多媒体会话初始化等目的…
-
Vulkan 内存管理
一、简介 内存管理对开发者来说永远是一个沉重的话题。 现有的高级语言都在通过各种努力,试图让开发者摆脱内存管理的复杂工作,专注于业务逻辑的开发。这样的做法对开发者是友好的,较低的语…