浅话｜深度学习视频编解码技术

编者按：本文根据七牛云视频编码负责人朱玲在「七牛云 AI CAMP」上的分享整理。重点介绍了视频编解码技术的发展现状以及基于深度学习技术进行优化的方案。在深度学习的推动下，演进出了端到端的深度学习方案 DVC 和 DCVC。七牛云将深度学习技术应用到转码场景中，获得更好的转码效果。

视频编解码发展现状

1.视频编解码标准演进

视频编解码标准的发展由来已久，基于传统的混合视频编解码框架，由最初的 H.261/MPEG-1，发展到如今广泛使用的 H.264/MPEG-4、H.265/HEVC 和 AV1，适用于短视频、直播等应用场景。伴随如 8K 超高清视频、AR/VR 视频直播等新需求提出，H.266/VVC、AVS3 等追求更高压缩率的视频编解码新一代标准也应运而生，并分别于 2020 年、2022 年成功推出。

2.视频编解码应用痛点

视频编解码标准的演进，离不开科技应用的广泛需求推动，而其演进的核心目标就是更高的压缩率。在编解码领域中，衡量视频压缩性能的表示方式是 BD-Rate Reduction，即在同客观画质（PSNR/VMAF）下码率降低多少百分比。目前开源编码器 x265 比开源 x264 能有 39% BD-Rate 码率下降，AV1 相对于开源 x264 有 54% BD-Rate 码率的下降。

然而，从视频编解码标准演进图中也可以看出，标准的迭代、落地较为缓慢，一般为 8-10 年一个代差，实现压缩率提升一倍的目标；这么长的周期显然不能快速适应超高清视频行业的发展。譬如：8K 分辨率的压缩，开源 x264 就不支持；x265、av1、vvc 等较新标准虽然支持，但编码速度非常慢，达不到实时要求。也因此，在当下，看到深度学习技术不断在其他视觉任务如识别、理解、超分上的巨大成功，很多专家学者和从业人士，也都在思考，是否可以利用深度学习去提升视频压缩率呢？

深度学习视频编解码

1.传统视频编解码框架

传统的混合视频编解码框架包含几大基础技术，视频图像进入编码器后，首先会将其进行块划分，以块为单位去编码；其中每个块都会进行如帧内/帧间预测、(反)变换/(反)量化、熵编码、环路滤波等编码技术。而这些编码技术，从计算机视觉任务角度来看，不过就是分类、模式预测、图像滤波处理等，似乎天然就可以结合深度学习技术去进行优化。

2.混合深度工具的编解码框架

我们总结归纳了在当前传统的混合视频编解码框架中，哪些编码技术是与深度学习有良好结合点的。如在最初的图像进行块划分时，通过构建卷积神经网络去预测划分的块大小，能很好的节约编码时间。在帧间/帧内预测，可以通过对编码块使用基于 CNN 的上/下采样，提升编码块的压缩效率。在环路滤波过程中，构建的 CNN 模型能够更好的改善重建图像的画质。

3.混合深度工具编解码-CTU 划分

在刚举例的块划分方式上，H.265/HEVC 是以 CTU 方式进行划分，大小由 64×64 划分到 8×8，共有 1+17^4=83522 种可能，采用全遍历所有可能的块去编码的话，将大幅增加耗时，故有相关文章提出，通过训练和构建 CTU 与划分块的 CNN 预测模型，可以省去这些遍历块的编码时间，提升编码速度。当然，预测的准确度也与模型的训练有关，该文章在降低了 65%编码时间的同时，损失了 2.02% 的 BD-Rate。

4.混合深度工具编解码-环路滤波

在环路滤波上，构建重建图像到原始图像的损失函数，训练重建图像到原始图像的 CNN 模型，能够提升重建图像的客观质量，而且该技术的提升巨大，基本都有-10% 以上的 BD-Rate 提升。然而，这种图像到图像的 CNN 模型，参数量也巨大，其推理时间甚至数倍于编码和解码的时间，故难以落地。

5.混合深度工具编解码-下采样-上采样编码

在帧内/帧间预测上，通过基于 CNN 的下采样块编码，然后对重建块进行 CNN 上采样恢复，作者创新式的融合 CNN 上/下采样编码架构，大幅提升压缩性能，BD-Rate 提升了-6.8%，不过同样该技术和环路滤波的深度学习优化类似，其推理时间甚至数倍于编码和解码的时间，难以落地。

6.端到端深度学习方案：DVC

深度学习除了融合入传统混合视频编解码框架中，替代传统编解码工具之外，更有不少学界大神们，提出了端到端的视频压缩深度模型，影响力较大的如：DVC，使用光流估计网络学习出运动信息，再利用两个自编码器来压缩运动和残差信息，所有的模块使用一个损失函数，兼顾压缩比和解码后视频的质量。实验表明其压缩性能做到甚至超越当前的开源 264/265 编码器。