ICCV 2023 | 基于不规则群解耦的语义结构图像压缩

图像压缩技术通常侧重于压缩图像以供人类消费，这导致为下游应用传输冗余内容。为了解决这一问题，一些先前的工作提出对比特流进行语义结构划分，通过选择性的传输和重构可以满足特定的应用需求。它们根据语义将输入图像划分为多个矩形区域，但忽略了区域之间的交互信息，导致比特率的浪费和区域边界的重建失真。本文提出了基于定制的组掩码将图像解耦为多个具有不规则形状的组，并对其进行独立压缩。组掩码以更精细的粒度描述图像，减少冗余内容的传输。此外，为了保证图像选择性重构的保真度，本文提出了保持不同组之间独立性的群独立变换的概念。这一点通过组独立Swin块(GI Swin)来实现。实验结果表明，这个新的框架以可忽略的成本构建比特流，并在视觉质量和智能任务支持方面表现出优异的性能。

题目：Semantically Structured Image Compression via Irregular Group-Based Decoupling
作者：Ruoyu Feng, Yixin Gao, Xin Jin, Runsen Feng, Zhibo Chen.
来源：ICCV 2023
文章链接：https://openaccess.thecvf.com/content/ICCV2023/html/Feng_Semantically_Structured_Image_Compression_via_Irregular_Group-Based_Decoupling_ICCV_2023_paper.html
整理：李江川

引言

图像压缩技术旨在将图像转换为紧凑的表示，以节省传输和存储资源。有损图像压缩是最实用的技术之一，因为它可以恢复重要内容，同时丢弃少量不重要的信息。在过去的几十年里，传统的图像压缩标准得到了广泛的研究和利用。随着深度学习的快速发展，基于深度学习的图像编解码器迅速发展并取得了很好的结果。与此同时，越来越多的多媒体内容倾向于被机器视觉算法处理，如识别、检测和分割。然而，大多数压缩方法主要用于压缩图像以供人类消费，而没有考虑对下游任务或人机交互场景的支持。

最近，机器图像编码（ICM）领域已经出现，以开发一个联合高效的压缩编码框架来支持智能分析。对特定任务的损失和压缩率之间的权衡进行端到端优化是一种很有前途的方法，但它缺乏对不同应用的通用性。为了克服这一限制，一些研究人员提出在熵约束下通过自监督学习来学习一般和紧凑特征，以支持下游任务。然而，这种方法需要用所提出的特征作为输入来重新训练任务模型，这使得整体性能在很大程度上取决于特征提取的有效性。上述方法是专门为机器视觉压缩场景设计的，而不考虑需要人类参与的情况。语义结构图像压缩（SSIC）提出通过使用预先准备的对象检测工具箱分别压缩检测到的对象的矩形区域来生成语义结构比特流（SSB）。尽管SSB通过比特流的部分传输和重建来有效地支持智能任务和人机交互，但其基于矩形区域的划分方法可能会遇到对象重叠的问题。SSIC通过用更大的矩形区域替换重叠的对象来解决这个问题，这可能会导致比特率的浪费。此外，SSIC通过直接压缩潜在变量来生成每个对象的比特流，而不考虑变换过程中特征的相互作用和依赖性。在部分重建场景中，这可能导致模糊和扭曲的边界，进而影响重建质量。

本文沿用了基于矩形的组划分，还提出了基于自定义组掩码将图像解耦为多个具有不规则形状的组。然后，SSB是通过独立压缩这些组来生成的，并且可以通过选择性传输和重建来支持各种需求。值得注意的是，组掩码的生成在组的形状、预分析方法和划分标准方面提供了很高的灵活性，使这个方法能够适应不同的应用场景和要求。此外，为了避免部分重建场景中出现质量下降的问题，作者提出了组独立变换的概念，它确保了潜在变量在组之间的独立性，因此选择性重建的质量不会受到其他组缺失的影响。更具体地说，作者设计了Group-Independent Swin(GI Swin)，这是在Swin Transformer基础上进行的扩展。GI Swin利用了Swin Transformer的分层建模能力，在组独立的前提下实现了高编码效率。通过结合基于组掩码的解耦和GI Swin块，这种新的方法可以有效地支持各种下游应用，包括人机交互和机器视觉任务，而且只需生成一个比特流。

提出的方法

总体处理流程

ICCV 2023 | 基于不规则群解耦的语义结构图像压缩 — 图1 模型的网络结构

模型以组掩码为指导，确保变换的交互只发生在同一组内，从而在冗余去除过程中实现组独立。基于预分析（如对象检测、语义分割和显著性检测）生成的组掩码为构造比特流提供了高度的灵活性和定制性，并被视为辅助信息。然后对各组的潜在变量分别进行熵编码，得到语义结构化的比特流。可以根据解码器侧的要求部分或全部传输比特流，然后解码器对比特流进行熵解码，并根据组掩码和组索引重新组织潜在变量的空间排列。

组掩码的生成

在压缩之前，根据对象检测、实例分割和显著性检测等预分析技术的结果生成组掩码，图2提供了这个过程的一个示例。更具体地说，对于高度为H、宽度W的输入图像x，组掩码的空间分辨率与输入图像相同，并且它由H/B x W/B 个块组成，其中B是每个块的边长。它的值表示相应组的索引。组掩码可以在一次下采样变换后清楚地划分潜在变量空间中的元素。此外，在进行压缩之前将组掩码下采样B倍可以大大降低开销比特率。块大小和开销比特率具有相反的关系。此外，根据图2可以得到，在预分析的方式和块分配的标准等方面，可以灵活地定制组掩码的生成。

组独立变换

前面提到通过GI Swin块来实现组间独立的变换压缩，这里将详细解释它的设计目标和原理。有损图像压缩可以分为三个模块：变换、量化和熵编码。虽然量化和熵编码不影响语义结构化比特流（SSB）的生成和使用，但应用于整个图像以去除空间冗余的变换在压缩过程中不可避免地会产生组间依赖关系。在选择性传输和重建的情况下，由于缺乏组间依赖性，所有组的子集的重组所产生的不完整表示会导致重建不准确。因此，作者提出了用于SSB生成的组无关变换的概念。其基本思想是将变换约束为仅在每个组内进行。

一种直接而自然的方法是使用transformer来定制与组掩码相对应的注意力图。然而，图像压缩与transformer擅长的高级理解任务有很大不同。大量复杂的长程依赖关系的存在会阻碍收敛，并对最终性能产生不利影响。为了保持组无关的特性的同时实现高编码效率，受到Swin Transformer强大的层次表示建模能力的启发，作者将Swin Transformer的Swin块扩展到提出的GI Swin块，这是转换的核心组件。更具体地说，如图3(a)所示，通过将窗口分区和组分区合并到与组无关的分区中，允许在分区的局部区域内计算自注意，这使得GI Swin块能够在保持与组无关特性的同时实现高编码效率。此外，通过类似地合并移位的窗口分区和组分区，引入了跨窗口连接，如图3(b)所示。

实验

对于整个图像的重建质量，使用Kodak数据集来评估模型的编码效率。从COCO 2017验证集中随机选择的40个和20个图像来评估所有类别的对象和人类对象的选择性重建质量。感兴趣区域的PSNR用作测量客观质量的度量。此外，通过将发送的比特流的总比特除以感兴趣区域中的像素数量来计算每像素比特。为了验证模型在支持下游任务方面的有效性，使用COCO 2017验证集进行了实例分割和姿态估计实验，采用Detectron2工具箱中提供的算法实现对部分重建结果的分割和估计。

定量结果对比

对于整个图像重建，图4(a)表明，作者提出的模型实现了良好的率失真性能，在所有比特率下的PSNR都超过了VTM-18.2。对于特定感兴趣场景中的部分图像重建的结果，如图4(b)和图4(c)所示，与其他编解码器相比，提出的模型实现了显著的改进。具体而言，语义结构化的比特流使模型能够避免传输和解码对应于整个图像的比特流。此外，与SSIC相比，在目标区域重叠的情况下，模型可以通过将它们分为不规则组来显著节省比特率，而不是用更大的边界框来替换它们，这将带来很多的码率节省。

图5展示了模型在实例分割和姿态估计方面的性能。在实例分割方面，与其他方法相比，模型在低比特率（<0.6bpp）下实现了更高的性能，这可以归功于模型中RoI边界的良好重建。值得注意的是，模型在姿态估计方面的卓越性能是由于能够保留精细的细节和边界，这对于准确定位人体关键点至关重要。此外，人类对象在图像中通常是稀疏分布，与SSIC相比，模型可以通过避免传输包含所有重叠对象的矩形区域对应的潜在变量来显著降低比特率。

定性结果分析

当将重构的图像用于下游智能任务时，基于相关语义的先验知识选择性地传输和解码语义结构化的比特流可以显著节省比特率。如图6所示，为压缩矩形图像而设计的传统编解码器需要传输和解码整个比特流。然后，下游模型对完全重建的图像进行智能分析，导致比特率的浪费。SSIC可以执行选择性传输以节省比特率。然而，其基于边界框的分区可能不是节省比特率的最佳方式，由此产生的模糊和扭曲的区域边界以及不相关的内容可能会进一步阻碍下游的智能分析，甚至会出现误检出(背景中的汽车被错误识别为人)。而作者提出的方法可以更有效地生成SSB，并以精确性和更高的编码效率支持具有特定需求的各种下游任务。而且，基于不同的语义划分标准来定制语义结构化的比特流是灵活的。预分析的方法并不局限于对象检测和实例分割，而是可以包括其他技术，如显著性检测、语义分割、全景分割等，甚至包括人类注释。

总结

在这篇文章中，作者提出基于组掩码生成具有强大功能的语义结构的比特流，该比特流具有高度灵活性、可定制性。作者首先提出了组独立变换的概念，并通过设计GI Swin块来实例化它，以确保不同组之间的独立性，从而得到令人满意的RoI区域重建。特别的，作者提出的方法优于VTM-18.2，在提供强大功能的同时，实现了与SOTA图像编解码器相当的编码效率。实验结果证明了模型在几个不同应用中的有效性，包括对人类感兴趣区域的重建、下游任务支持。