PICS：超低比特率下的图像压缩 | ICML’23 NCW

最近的文本到图像生成模型的进步提供了从简短的文本描述中生成高质量图像的能力。这些基础模型在大规模数据集上预先训练,适用于几乎没有或不需要进一步训练的各种后续任务。自然的问题是,这些模型如何适应图像压缩。本文研究了一些技术,将这些预训练模型直接用于实现针对新型低码率模式的压缩方案。

来源：ICML
论文题目：Text + Sketch: Image Compression at Ultra Low Rates
论文链接：https://openreview.net/forum?id=dJWYWb2L5j
作者：Eric Lei, Yigit Berkay Uslu, Hamed Hassani, Shirin Saeedi Bidokhti
内容整理：王妍

本文设计了一个神经压缩器，该压缩器使用文本到图像模型实现压缩方案，以低于 0.003 比特每像素 (bpp) 的码率保持人类语义，这比以前研究的制度低一个数量级。
本文展示了如何使用压缩空间条件映射形式的侧信息来提供图像中的高级结构信息以及传输的文本标题，从而使重建图像更好地保持结构。
尽管没有端到端训练，但本文的方案在语义和感知质量方面优于最先进的生成压缩器。

模型结构

本文提出了 PICS 模型，在编码端生成并压缩文本描述和侧信息，在解码端由解码的信息生成高质量的图像。

通过提示反转的文本转换编码

PICS 模型在去掉下方的支路后为 PIC 模型，也称为提示反转压缩，该模型使用文本描述表示图像，该文本描述使用无损压缩器进行编码，解码器首先恢复文本，用于合成重建图像。模型中的 G 为一种文本到图像的模型，它是在大规模数据集上预训练的，在 PIC 中采用了稳定扩散模型 (SD)。

将图像编码为文本的一种选择是通过图像字幕方法，然而大多数图像字幕方法产生的文本与人类语言一致，但不一定是文本到图像模型的最佳选择。由于 SD 使用预训练的 CLIP 进行文本嵌入，因此直接在 CLIP 的嵌入空间中搜索，寻找代表 SD 图像的文本更有意义。

因此模型中使用提示反转 (PI) ，它以图像嵌入和文本嵌入之间的余弦相似度为目标，在 CLIP 的嵌入空间中执行投影梯度搜索。要投影到硬文本，将为搜索的每个令牌找到最接近的 CLIP 嵌入。令牌被转换为文本并进行无损压缩。在解码器处，将解码后的文本简单地提供给 G，由 G 合成重构图像。

在该模型中，量化被自然地内置到模型中，因为文本在转换为令牌后，直接映射到嵌入向量的码本。因此，可以将提示反转解释为编码器寻找最佳 CLIP 码字。

PIC 可以实现非常低的比特率(约 0.002-0.003 bpp)，但保留语义信息，因为 CLIP 的视觉-文本合并的特征空间使其本身具有语义图像比较能力。

空间条件映射

使用 PIC 的一个挑战是，随着文本比特率的增加，很难提高重建质量。在某一点之后增加 token 的数量并不能提高重构图像的 CLIP 分数。与其试图以 G 可以处理的方式增加文本信息，本文建议以原始图像的“草图”形式发送侧信息，其中包含更精细的结构信息。

CLIP 可以合成的语义概念数量有限，特别是对象的空间位置。如图所示，当发送经过 CLIP 优化的文本作为压缩表示时，保留了粗糙的语义信息，但较低层次的图像细节(如物体的位置)较差。以草图的形式传输有限的侧信息后，保存了较低层次的结构，图像的重建质量明显提升。

因此，本文在 PIC 中增加了侧信息的生成和压缩支路，构成 PICS 模型，也称为带有草图的提示反转压缩器。在该模型中，选择 G 为 ControlNet ，这是一个建立在 SD 之上的文本到图像模型，可以处理边缘检测图、分割图、深度图等形式的空间条件映射。

PICS 保证重建图像遵循输入地图的空间结构和文本提示的样式。使用 ControlNet 作为解码器，除了发送提示反转文本外，还发送边缘检测图(即草图)的压缩版本作为侧信息。特别是，本文使用的是整体嵌套边缘检测 (HED) 地图训练的 ControlNet 变体，因为与 Canny 边缘和分割地图相比，这些地图具有更低的率失真。为了压缩草图，本文使用在一个小的 HED 地图数据集上训练的标准学习非线性变换代码 (NTC) 。

实验

实验设置

数据集：使用三个评估数据集，柯达数据集 (Franzen) 和 CLIC 2021 数据集 (CLI) 用于测试，DIV2K 数据集用于验证。

失真指标：由于文本变换编码的码率甚至比“极端”压缩 (< 0.1 bpp) 低一个数量级，因此逐像素参考失真指标 (PSNR, MS-SSIM, LPIPS) 没有那么有意义。本文使用 CLIP 嵌入的余弦相似度作为代理。

基线方法: 针对 MS-SSIM 优化的生成压缩基线 HiFiC 和 NTC 基线。

实验结果

定量结果: 相对基线方法，PICS 在所有权衡方面都有严格的改进。PIC 虽然也严格地改善了率失真权衡，但它在语义质量方面的表现比 PICS 和 HiFiC 更差(尽管码率更低)。这表明，添加草图实际上有助于生成模型获得更高的语义质量。

定性结果:一般来说，PIC 能够重建真值图像中包含的非常粗糙的概念。针对率失真优化的 NTC 模型在低比特率状态下产生模糊的重建。HiFiC 提高了真实感，产生了一个更清晰的图像，可能与原来有不同的纹理，在某些情况下，仍然存在压缩伪影。PICS 能够以优越的清晰度恢复 ground-truth 的高层空间结构，但会在图像中合成不同的纹理或颜色。如图所示，PICS 在一座形状相似的山前生成一座房子，但完全改变了房子的颜色和风格，以及山腰的构图。