基于环路多帧预测的深度视频压缩 | TCSVT 2022

视频技术 • 来源：媒矿工厂 • 2023年4月18日上午11:09 • 技术文章

本文基于端到端深度视频压缩框架，提出了一种环路多帧预测模块（in-loop frame prediction module），在不额外消耗码率的情况下，对当前帧实现基于多个参考帧的高效预测。

论文标题：Advancing Learned Video Compression with In-loop Frame Prediction
来源：TCSVT 2022
作者：Ren Yang, Radu Timofte, Luc Van Gool
论文链接：https://ieeexplore.ieee.org/document/9950550
内容整理：陈予诺

引言

近年来，端到端的深度学习视频压缩技术越来越受到关注。以往的大部分研究是通过检测和压缩运动向量、与参考帧进行warp来得到预测帧，以解决时间维度上的冗余问题，但它们未能充分利用前序参考帧中的历史信息。为了解决这一问题，本文提出了一种名为 ALVC（Advanced Learned Video Compression）的深度视频压缩模型，它采用了环路多帧预测模块，在不增加额外码率的情况下，ALVC 能够利用多个前序帧的信息进行目标帧的预测。这样生成的预测帧可以作为一个比先前压缩帧更好的参考，从而提升了压缩性能。本文所提出的 in-loop 预测模块作为端到端视频压缩的一个组成部分，与整个框架进行共同优化。此外，本文提出了 recurrent 和 bi-directional 两种环路预测模块，分别用于压缩 P 帧和 B 帧。该项目的源代码已在以下网址公开：https://github.com/RenYang-home/ALVC。

方法

整体框架

P-frame 环路预测模块

上图所示为P帧的预测模块，在IPPP模式的视频压缩中，P-帧以单向方式连续压缩，因此P帧压缩使用的是单向的 Recurrent in-loop Prediction (RecPred) network，RecPred 网络中使用 U-Net 作为特征提取模块，但我们分别将三个 ConvLSTM 层插入到下采样部分、中间层和上采样部分，这使得 RecPred 网络具有循环性，因此它能够利用连续压缩帧中的时间信息。

B-frame 环路预测模块

1. B 帧的定义和递归解码顺序

2. B帧预测模块详细结构

实验

训练

我们使用 Vimeo-90k 数据集作为训练集，我们先对in-loop模块进行初步训练，之后对整个 ALVC 网络进行端到端训练，损失函数为

性能

1. PSNR 性能

上表展示了与 x265 (B-帧) 为 anchor 计算的 PSNR Bjøntegaard Delta 比特率 (BDBR) 性能（越低越好）。从表中可以看出，我们的 ALVC 方法在所有数据集上优于 DVC、HLVC、RLVC、FVC、x265 (LDP) 和 x265 (B-frame)。我们还在 Class C 和 Class D 上击败了 DCVC，我们的 ALVC 方法的平均 BDBR 比 DCVC 好 3.21%。

在将 ALVC 与 HM 16.20 (same GOP) 进行比较时，我们在 Class B 和 Class D 上表现得更好，但平均 BDBR 略差于 HM 16.20，约为 1%。

上图说明，尽管我们在深度学习方法中实现了最先进的性能，但我们的 ALVC 无法赶上 HM 16.20 (default)、VTM 14.1 (same GOP) 和 VTM 14.1 (default) 的性能。

2. MS-SSIM 性能

上表展示了基于 MS-SSIM 的 BDBR 性能，以 x265 (SSIM slowest) 的性能作为 anchor。从这个表可以看出，我们的 ALVC 方法在所有数据集上均优于 DVC、HLVC、RLVC、FVC、x265 (SSIM)、x265 (SSIM slowest)、HM 16.20 (same GOP)、HM 16.20 (default) 和 VTM 14.1 (same GOP)。我们还在类别 B、C 和 D 上优于 DCVC。在 UVG 上我们稍逊于 DCVC，但平均 BDBR 超过 DCVC 8%。

上图表明，在高比特率下，我们在 MS-SSIM 方面明显优于传统编码器，甚至在所有数据集上优于 VTM 14.1 (default)。总之，在深度学习方法中，我们在 MS-SSIM 方面达到了最先进的性能；和传统方法相比，我们的 MS-SSIM 性能与 VTM 14.1 (default) 相当甚至略好。