技术文章
-
NeuMan:从单视角视频中创建数字人
本文提出了一个新颖的框架,可以从单一野外视频中重构人物和场景,并能够渲染出新的人体姿态和视角。给定一段由移动相机捕捉的视频,作者训练了两个 NeRF 模型:一个是人类的 NeRF …
-
从阵元域到模态域的三维音频技术
随着视频空间化的进程,人们对音频空间化也越来越感兴趣。空间音频也称三维音频,是一项可以在扬声器阵列或者耳机上产生三维方位感的音频技术,其目的是营造一种身临其境的体验,在这种体验中,…
-
什么是EVC(MPEG-5 Part-1)?EVC的标准、架构及编码工具
MPEG-5 Part-1 或 EVC 或基本视频编码是三星、华为、高通和 Divideon 支持的 MPEG 标准。它由两个配置文件组成 – 一个仅使用过期专利且免版…
-
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
该论文提出了一个为多模态设计的概率建模框架 UniDiffuser,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。 据悉 GPT-4 将于本周…
-
ICASSP2023 通用会议理解及生成挑战(MUG)成功举办及获奖团队结果分析
近日,ICASSP2023 通用会议理解及生成挑战(MUG)完成了测试集评测及结果公布,并举办了线上完赛沙龙。本次挑战由ModelScope魔搭社区、阿里巴巴达摩院语音实验室、阿里…
-
视频编码中的Closed GOP 和 Open GOP
在本文中,我们将了解Closed GOP 和 Open GOP 的概念。这两种 GOP 类型在视频流中都很常见,并且会影响您的压缩效率、流的错误恢复能力以及 ABR 流中的可切换性…
-
使用 Handbrake 的视频压缩:安装和使用指南
Handbrake 是一种开源视频转码器,被广泛认为是视频转换的最佳工具。它使用起来毫不费力,支持多平台,并且涵盖范围广泛的预设和设备。这意味着您会发现比以往任何时候都更容易快速压…
-
视频压缩中的离散余弦变换
离散余弦变换 (DCT)可以说是现代图像和视频压缩中最基本的工具。DCT 用于将像素域中的数据转换为频域,以揭示有关图像或视频帧的洞察力。 本文的目的是让您直观地了解 DCT,而无…
-
如何选择正确的高带宽内存(HBM)
尽管多年来一直在努力用更快、更便宜或更通用的存储器来取代DRAM,甚至将其嵌入到SoC中,但DRAM仍然是任何这些架构中的基本组件。DRAM制造商并没有一成不变,而是根据性能、功耗…
-
I 帧、P 帧和 B 帧的工作原理及用途
I 帧、P 帧和 B 帧的概念是视频压缩领域的基础。这三种帧类型在特定情况下用于提高编解码器的压缩效率、压缩流的视频质量以及流对传输和存储错误和故障的恢复能力。 在本文中,我们将了…
-
VVC、EVC、LCEVC——MPEG的视频编解码器
VVC、EVC、LCEVC 是 MPEG 在 2020-2021 年发布的三种视频编解码器,分别称为通用视频编码 (H.266)、基本视频编码 (EVC MPEG-5 Part 1…
-
为什么需要视频压缩?视频压缩怎么做
视频压缩是视频制作中最重要的方面之一。YouTube、Facebook 和 Vimeo 等流媒体服务所面临的数据限制通常会阻碍对高质量视觉和声音的需求,以吸引观众的注意力。本文通过…
-
Gstreamer中的视频处理与硬件加速
编者按:Gstreamer作为一个比较流行的开源多媒体框架,其优秀的架构使其具有高度的模块化和良好的扩展性,并具有广泛的应用前景。LiveVideoStackCon2022上海站大…
-
AV1中的IBC技术
HEVC里面的Intra Block Copy (IBC)技术,它是一种基于块的预测技术,与帧间编码的MCP类似,最大的区别是IBC所用的参考像素是来自当前帧的(未滤波)重建部分,…
-
基于时延光子储备池计算的人体动作识别 | 开超,李璞,杨毅等
研究意义 人类动作识别(HAR)在现代工商业中具有广泛的应用,例如视觉监控、自主导航、视频检索、人机交互等等。然而,由于其建模和特征表示从二维空间扩展到三维时空,高效且精确的HAR…
-
工业相机的丢帧现象如何解决?
工业业摄像头的丢帧现象之所以会发生,其实就是资料通道的堵塞,无法技术处理,所以新的图像采集进来时,前一张图像可能会被迫丢弃,或者是新的图像被迫丢弃。 01 丢帧表现 1、工业相机预…
-
CVPR 2023|快手视频质量评估算法被顶会收录
计算机视觉领域顶级会议Computer Vision and Pattern Recognition Conference(CVPR 2023)将于6月18日至22日在加拿大温哥华…
-
ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…
-
苹果AR/VR专利为混合现实视频提出基于注视点的视频编码系统
有视频编码系统是使用比特率控制算法来确定向视频帧的特定区域分配多少比特,从而确保给定视频编码标准的统一图像质量。然而,大多数比特率控制算法不能保证分配给感兴趣区域的比特多于分配给背…
-
MRCP在美团语音交互中的实践和应用
当你和智能语音机器人对话交互时,你是否好奇电话背后的机器人如何“听懂”你的意思,又如何像人一样“回答”你的问题?其中比较重要的技术就是 MRCP。本文主要介绍了 MRCP 在美团语…