ICIP 2022｜基于 Transform Skip 的屏幕内容图像端到端压缩

本文致力于屏幕内容的端到端压缩，提出了一种受 Transform Skip(TS) 启发的屏幕内容图像的端到端压缩方案，目的是提高屏幕内容图像的压缩性能。所提出的模型充分考虑了屏幕内容的特点，在分析和合成过程中引入了 TS 分支，对图像进行粗略提取和重建。实验结果表明，所提出的方法优于现有的基于超先验的屏幕内容压缩模型。

论文标题：TRANSFORM SKIP INSPIRED END-TO-END COMPRESSION FOR SCREEN CONTENT IMAGE
来源：ICIP 2022
作者：Meng Wang、Kai Zhang 等
论文链接：https://ieeexplore.ieee.org/abstract/document/9897719
内容整理：杨晓璇

近年来，数字设备的飞速发展，使得屏幕内容图像和视频成为日常交流中的重要媒体之一。屏幕内容的数据量呈爆炸式增长，给图像和视频编码技术带来了不小的挑战。同时，面对在线教育、虚拟会议、云游戏等新的应用场景，迫切需要研究高效的屏幕内容编码方案。图像和视频编码的目的是在可容忍的视觉质量下降的约束下紧凑地解释数字图像和视频信号，从而有效地减少和节约存储空间和传输带宽。

一般来说，屏幕内容是计算机生成或呈现的数据的总称，具有无噪声、锐边和高对比度的特点。在过去的几十年里，一系列的努力都致力于提高屏幕内容的压缩性能。如 Versatile Video Coding（VVC）和第三代 Audio and Video coding Standard（AVS3），屏幕内容编码作为底层压缩工具参与其中，旨在提高屏幕共享、动画、游戏以及文本和自然场景内容的混合压缩性能。更具体地说，VVC 采用了五种屏幕内容编码工具，包括 Intra Block Copy Palette、Transform Skip with Residual Coding、Adaptive Color Transform、Block Based Differential Pulsecoded Modulation。这些屏幕内容编码工具可以与屏幕内容的场景特征和编码特征进行无缝协作。屏幕内容编码工具可以带来额外的 33.22% 的 BD-Rate 节省，为 VVC 的多功能使用奠定了基础。

现有的端到端图像压缩方案主要集中在自然场景图像上，屏幕内容图像的压缩尚未得到充分探索。自然场景图像和屏幕内容图像的特征是不同的。自然场景图像是由相机拍摄的，会产生传感器噪声。屏幕内容图像是由计算机生成或渲染的，是无噪声的，通常包含重复的图案、高对比度的纹理和尖锐的边缘。这导致了统计属性的差异，又会影响压缩效率。将现有的基于学习的图像压缩方案直接应用于屏幕内容会导致速率和失真性能的下降。在本文中，作者提出 Transform Skip 启发的端到端图像压缩（TSIC）框架，将 TS 思想整合到端到端编码框架中，实现了屏幕内容图像压缩的性能改进。

TSIC 架构

在传统的屏幕内容压缩中，TS 模式在处理较稀疏的运动补偿和内部预测的残余方面表现出良好的性能。本文提出的 TSIC 建立在论文《VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR》中提出的 hyperprior 模型之上。

ICIP 2022｜基于 Transform Skip 的屏幕内容图像端到端压缩

实验结果

作者收集了 200 张分辨率为 1280×720 和 960×480 的高质量屏幕内容图片。涉及的屏幕内容场景包括动画片、游戏、网页和文件。其中，180 张图片被分割出来用于训练和验证，剩下的 20 张图片被用于测试。作者用自己构建的屏幕内容数据集来训练提出的 TSIC 模型。为了公平比较，作者也用屏幕内容数据集重新训练了 hyperprior 模型。

所提出的屏幕内容图像数据集有望为调查屏幕内容压缩的未来发展提供新的见解。此外，在 SCID 数据集上评估了所提方法的压缩性能，该数据集包含40张固定分辨率为 1280×720 的屏幕内容图像。

训练和验证集中的图像被裁剪成 256×256 的块，以方便训练过程。在测试过程中，测试图像的分辨率保持不变。建议的方法是在 CompressAI 项目上实现的。采用均方误差（MSE）的质量指标，其中相应的 λ 设置为 {0.0018, 0.0035, 0.0067, 0.0130, 0.0250, 0.0483, 0.0932, 0.1800}，目的是涵盖广泛的压缩比特率范围。因此，总共提供了八个模型，对应于八个质量等级。该网络的训练与现有的端到端图像压缩框架中的速率和失真优化一样。PSNR 和 MS-SSIM 被用于质量评价指标，每幅图像的每像素比特数（bpp）被计算出来。

在 PSNR 和 MS-SSIM 方面的 BD-Rate 降低百分比被用来评估所提出的 TSIC 方法的 R-D 性能，如下表所示，其中重新训练的 hyperprior 模型是用于比较的锚。对于较高的五个质量等级，TSIC 取得了 10.16% 的 BD-Rate 收益。同时，对于较低的五个质量级别，TSIC 实现了 5.38% 的 BD-Rate 收益。

本文关于 TSIC 的消融研究见图(a)，在超指标分析和合成过程中排除了 TS 分支，导致了压缩性能的下降。在图(b)和图(c) 中说明了对提出的测试数据集和 SCID 数据集的性能评估结果。可以看出，提出的方法超过了 hyperprior 模型。

此外，作者还挖掘了所提出的 TSIC 在压缩自然场景内容方面的潜力。用 Flicker2W 数据集来训练所提出的模型，并用 Kodak 测试集来评估。TSIC 在五个较高的质量级别（从质量4到质量8）上实现了 1.43% 的 BD-Rate 节省，在五个较低的质量级别（从质量1到质量5）上实现了 0.99% 的 BD-Rate 节省。因此，TSIC 可以为自然图像带来 RD 性能的改善，但不如屏幕内容图像的性能改善那样突出。自然图像的压缩性能提高是可以解释的，因为自然图像仍然包含重复的模式和类似于屏幕场景的局部扁平化区域。

结论

本文提出了一种用于屏幕内容图像压缩的 TSIC 框架。考虑到屏幕内容的特点，将基于 Transform Skip 的分支引入到端到端压缩框架中，该框架可以通过较大的步长卷积层粗略地提取局部特征。屏幕内容在 TS 分支中被短暂感知，并在主分支中被精细处理。TS 分支与主要分析和合成模块以及超先验分析和合成单元协作。大量实验验证了所提出方法的有效性，可以在屏幕内容图像上实现较好的压缩性能改进。同时，还可以观察到自然场景内容压缩的进步。