编者按:本文根据七牛云视频编码负责人朱玲在「七牛云 AI CAMP」上的分享整理。重点介绍了视频编解码技术的发展现状以及基于深度学习技术进行优化的方案。在深度学习的推动下,演进出了端到端的深度学习方案 DVC 和 DCVC。七牛云将深度学习技术应用到转码场景中,获得更好的转码效果。
视频编解码发展现状
1.视频编解码标准演进
视频编解码标准的发展由来已久,基于传统的混合视频编解码框架,由最初的 H.261/MPEG-1,发展到如今广泛使用的 H.264/MPEG-4、H.265/HEVC 和 AV1,适用于短视频、直播等应用场景。伴随如 8K 超高清视频、AR/VR 视频直播等新需求提出,H.266/VVC、AVS3 等追求更高压缩率的视频编解码新一代标准也应运而生,并分别于 2020 年、2022 年成功推出。
2.视频编解码应用痛点
视频编解码标准的演进,离不开科技应用的广泛需求推动,而其演进的核心目标就是更高的压缩率。在编解码领域中,衡量视频压缩性能的表示方式是 BD-Rate Reduction,即在同客观画质(PSNR/VMAF)下码率降低多少百分比。目前开源编码器 x265 比开源 x264 能有 39% BD-Rate 码率下降,AV1 相对于开源 x264 有 54% BD-Rate 码率的下降。
然而,从视频编解码标准演进图中也可以看出,标准的迭代、落地较为缓慢,一般为 8-10 年一个代差,实现压缩率提升一倍的目标;这么长的周期显然不能快速适应超高清视频行业的发展。譬如:8K 分辨率的压缩,开源 x264 就不支持;x265、av1、vvc 等较新标准虽然支持,但编码速度非常慢,达不到实时要求。也因此,在当下,看到深度学习技术不断在其他视觉任务如识别、理解、超分上的巨大成功,很多专家学者和从业人士,也都在思考,是否可以利用深度学习去提升视频压缩率呢?
深度学习视频编解码
1.传统视频编解码框架
传统的混合视频编解码框架包含几大基础技术,视频图像进入编码器后,首先会将其进行块划分,以块为单位去编码;其中每个块都会进行如帧内/帧间预测、(反)变换/(反)量化、熵编码、环路滤波等编码技术。而这些编码技术,从计算机视觉任务角度来看,不过就是分类、模式预测、图像滤波处理等,似乎天然就可以结合深度学习技术去进行优化。
2.混合深度工具的编解码框架
我们总结归纳了在当前传统的混合视频编解码框架中,哪些编码技术是与深度学习有良好结合点的。如在最初的图像进行块划分时,通过构建卷积神经网络去预测划分的块大小,能很好的节约编码时间。在帧间/帧内预测,可以通过对编码块使用基于 CNN 的上/下采样,提升编码块的压缩效率。在环路滤波过程中,构建的 CNN 模型能够更好的改善重建图像的画质。
3.混合深度工具编解码-CTU 划分
在刚举例的块划分方式上,H.265/HEVC 是以 CTU 方式进行划分,大小由 64×64 划分到 8×8,共有 1+17^4=83522 种可能,采用全遍历所有可能的块去编码的话,将大幅增加耗时,故有相关文章提出,通过训练和构建 CTU 与划分块的 CNN 预测模型,可以省去这些遍历块的编码时间,提升编码速度。当然,预测的准确度也与模型的训练有关,该文章在降低了 65%编码时间的同时,损失了 2.02% 的 BD-Rate。
4.混合深度工具编解码-环路滤波
在环路滤波上,构建重建图像到原始图像的损失函数,训练重建图像到原始图像的 CNN 模型,能够提升重建图像的客观质量,而且该技术的提升巨大,基本都有-10% 以上的 BD-Rate 提升。然而,这种图像到图像的 CNN 模型,参数量也巨大,其推理时间甚至数倍于编码和解码的时间,故难以落地。
5.混合深度工具编解码-下采样-上采样编码
在帧内/帧间预测上,通过基于 CNN 的下采样块编码,然后对重建块进行 CNN 上采样恢复,作者创新式的融合 CNN 上/下采样编码架构,大幅提升压缩性能,BD-Rate 提升了-6.8%,不过同样该技术和环路滤波的深度学习优化类似,其推理时间甚至数倍于编码和解码的时间,难以落地。
6.端到端深度学习方案:DVC
深度学习除了融合入传统混合视频编解码框架中,替代传统编解码工具之外,更有不少学界大神们,提出了端到端的视频压缩深度模型,影响力较大的如:DVC,使用光流估计网络学习出运动信息,再利用两个自编码器来压缩运动和残差信息,所有的模块使用一个损失函数,兼顾压缩比和解码后视频的质量。实验表明其压缩性能做到甚至超越当前的开源 264/265 编码器。
七牛云深度学习落地视频编解码实战
七牛云将深度学习技术与转码产品深度融合,推出锐智转码、视频瘦身等产品,满足用户对需要存储、传输的流媒体文件,在不降低清晰度情况下,进一步的降本需求。具体来说:我们将深度学习技术运用在了输入码流分析、解码后视频处理以及二次压缩中。
如下框架图所示:对进入的视频流提取特征进行归类,根据视频不同的类别与转码要求,对视频进行多维度处理,如超分辨率、细节增强、色彩增强、人脸 ROI 增强等。最终送入七牛云自研多标准的编码器中进行高效压缩。
从如下数据对比图可以看到,对比标准(开源 ffmpeg)转码实现,七牛云锐智转码在相近甚至略优的主客观画质下,拥有更低码率。
最后,随着深度学习技术的不断发展创新,相信在不久的将来,其落地视频编解码场景会有更多的突破,以满足用户对高质量视频的永恒追求。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。