基于环路多帧预测的深度视频压缩 | TCSVT 2022

本文基于端到端深度视频压缩框架,提出了一种环路多帧预测模块(in-loop frame prediction module),在不额外消耗码率的情况下,对当前帧实现基于多个参考帧的高效预测。

论文标题:Advancing Learned Video Compression with In-loop Frame Prediction
来源:TCSVT 2022
作者:Ren Yang, Radu Timofte, Luc Van Gool
论文链接:https://ieeexplore.ieee.org/document/9950550
内容整理:陈予诺

引言

近年来,端到端的深度学习视频压缩技术越来越受到关注。以往的大部分研究是通过检测和压缩运动向量、与参考帧进行warp来得到预测帧,以解决时间维度上的冗余问题,但它们未能充分利用前序参考帧中的历史信息。为了解决这一问题,本文提出了一种名为 ALVC(Advanced Learned Video Compression)的深度视频压缩模型,它采用了环路多帧预测模块,在不增加额外码率的情况下,ALVC 能够利用多个前序帧的信息进行目标帧的预测。这样生成的预测帧可以作为一个比先前压缩帧更好的参考,从而提升了压缩性能。本文所提出的 in-loop 预测模块作为端到端视频压缩的一个组成部分,与整个框架进行共同优化。此外,本文提出了 recurrent 和 bi-directional 两种环路预测模块,分别用于压缩 P 帧和 B 帧。该项目的源代码已在以下网址公开:https://github.com/RenYang-home/ALVC。

方法

整体框架

图片
基于环路多帧预测的深度视频压缩 | TCSVT 2022

P-frame 环路预测模块

图片
P帧 in-loop 模块结构

上图所示为P帧的预测模块,在IPPP模式的视频压缩中,P-帧以单向方式连续压缩,因此P帧压缩使用的是单向的 Recurrent in-loop Prediction (RecPred) network,RecPred 网络中使用 U-Net 作为特征提取模块,但我们分别将三个 ConvLSTM 层插入到下采样部分、中间层和上采样部分,这使得 RecPred 网络具有循环性,因此它能够利用连续压缩帧中的时间信息。

基于环路多帧预测的深度视频压缩 | TCSVT 2022

B-frame 环路预测模块

1. B 帧的定义和递归解码顺序

图片
B帧计算流程
基于环路多帧预测的深度视频压缩 | TCSVT 2022

2. B帧预测模块详细结构

图片
B帧 in-loop 模块结构
基于环路多帧预测的深度视频压缩 | TCSVT 2022
基于环路多帧预测的深度视频压缩 | TCSVT 2022

实验

训练

我们使用 Vimeo-90k 数据集作为训练集,我们先对in-loop模块进行初步训练,之后对整个 ALVC 网络进行端到端训练,损失函数为

基于环路多帧预测的深度视频压缩 | TCSVT 2022

性能

1. PSNR 性能

图片

上表展示了与 x265 (B-帧) 为 anchor 计算的 PSNR Bjøntegaard Delta 比特率 (BDBR) 性能(越低越好)。从表中可以看出,我们的 ALVC 方法在所有数据集上优于 DVC、HLVC、RLVC、FVC、x265 (LDP) 和 x265 (B-frame)。我们还在 Class C 和 Class D 上击败了 DCVC,我们的 ALVC 方法的平均 BDBR 比 DCVC 好 3.21%。

在将 ALVC 与 HM 16.20 (same GOP) 进行比较时,我们在 Class B 和 Class D 上表现得更好,但平均 BDBR 略差于 HM 16.20,约为 1%。

图片
与传统方法的 PSNR 性能对比

上图说明,尽管我们在深度学习方法中实现了最先进的性能,但我们的 ALVC 无法赶上 HM 16.20 (default)、VTM 14.1 (same GOP) 和 VTM 14.1 (default) 的性能。

2. MS-SSIM 性能图片

上表展示了基于 MS-SSIM 的 BDBR 性能,以 x265 (SSIM slowest) 的性能作为 anchor。从这个表可以看出,我们的 ALVC 方法在所有数据集上均优于 DVC、HLVC、RLVC、FVC、x265 (SSIM)、x265 (SSIM slowest)、HM 16.20 (same GOP)、HM 16.20 (default) 和 VTM 14.1 (same GOP)。我们还在类别 B、C 和 D 上优于 DCVC。在 UVG 上我们稍逊于 DCVC,但平均 BDBR 超过 DCVC 8%。

图片
与传统方法的 MS-SSIM 性能对比

上图表明,在高比特率下,我们在 MS-SSIM 方面明显优于传统编码器,甚至在所有数据集上优于 VTM 14.1 (default)。总之,在深度学习方法中,我们在 MS-SSIM 方面达到了最先进的性能;和传统方法相比,我们的 MS-SSIM 性能与 VTM 14.1 (default) 相当甚至略好。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论