CMIC：使用具有冗余感知的状态空间模型压缩图像

本文提出了一种动态的状态空间模型 Content-Aware Mamba（CAM），并基于它构建了图像压缩模型 CMIC。作者指出，标准 Mamba 在图像压缩中存在两个关键瓶颈：其一，固定的 raster scan 无法有效建模空间上相距较远但语义上高度相关的 token；其二，严格因果的序列建模方式与图像本身的非因果结构并不匹配。为此，CMIC 引入了内容自适应 token 重排（Content-Adaptive Token Permutation, CTP）和全局先验提示（Global-Prior Prompting, GPP），在保持线性复杂度的同时提升长距离冗余建模能力，并在 Kodak、Tecnick 和 CLIC 数据集上达到了 SOTA 性能。

文章来源：ICLR 2026
论文题目：Content-Aware Mamba for Learned Image Compression
论文作者：Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu
(SJTU Medialab, MIT, Alibaba Group, Shanghai AI Laboratory)
论文链接：https://openreview.net/pdf?id=WwDNiisZQm
代码链接：https://github.com/UnoC-727/CMIC
内容整理：陈予诺

图像压缩模型需要的非线性变换与交互模式

压缩要做的事情，本质上是识别并消除冗余。而图像中的冗余往往并不是局部的、规则网格状的，也不是严格单向的。比如，天空中相隔较远的两块平滑区域、物体表面不同位置的相似纹理、以及场景中反复出现的重复结构，都对应着跨空间位置的相关性。这意味着，一个有效的图像压缩模型不仅需要足够大的感受野，还需要具备在非欧氏内容空间中建模 token 关系的能力。

在 learned image compression 中，非线性变换网络承担着建模潜变量之间统计依赖、进而压缩冗余信息的核心作用。更具体地说，内容相似的 token 往往意味着它们之间存在更强的冗余性，因此模型应当尽可能促进这类近似 token 之间的有效交互，从而提升对长程冗余的建模能力。早期图像压缩方法大多依赖 CNN 或 window-based Transformer 作为非线性变换骨干，但这类方法的交互模式通常受限于局部感受野，难以充分捕捉跨区域的冗余关系。近期，一些工作开始尝试引入 Mamba-style 空间状态模型，希望以线性复杂度实现对全局冗余的建模；然而，这类方法在图像压缩场景下仍然存在若干关键局限。

为什么 Mamba 还没有真正“吃透”图像压缩

近年来，Mamba 一类状态空间模型（SSM）在视觉任务中越来越受到关注。它的核心优势在于：相比 Transformer 的二次复杂度，全局建模能力可以通过线性复杂度实现。这对图像压缩这种既需要大感受野、又在意效率的任务来说非常有吸引力。

但问题在于，标准 Mamba 最初是为一维序列设计的。当它被直接搬到图像压缩里时，通常需要先把二维图像特征“扫”成一维序列，再做 selective scan。这个过程本身就引入了两个不太合理的假设：

第一，它默认 token 之间应该按固定空间顺序交互，也就是 raster scan 或若干预定义方向的 scan。可在压缩任务里，真正重要的并不一定是“空间上邻近”的区域，而往往是那些视觉内容相似、统计冗余相近的区域。它们可能在图像上离得很远，但在压缩建模里恰恰应该被放到一起看。

第二，Mamba 的递推建模是严格因果的。当前 token 只能看见前面已经扫描过的 token，这种单向依赖对于语言序列很自然，但对于图像并不自然。图像没有天生的“前后顺序”，远处的后续区域同样可能包含对当前编码很关键的信息。

因此，标准 Mamba 的问题并不只是“扫描效率”或者“感受野够不够大”，更深层的问题在于：它的扫描路径和信息流方向，都没有对齐图像压缩真正关心的冗余结构。

CMIC：使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026 — 图 1：(a)标准2D Selective Scan (b)内容自适应扫描 (c)在Tecnick数据集上相对比VTM-21.0的速率节省。

具有冗余感知的空间状态模型

核心思想：不要再让 Mamba 按照图像坐标系机械地进行因果性建模，而要让它沿着内容相关性去感知并建模冗余。

内容自适应 Token 重排：让相似内容排着队被扫描

标准 Mamba 的第一个核心问题，是扫描顺序完全固定。

CMIC 对这个问题的处理很直接（Content-Adaptive Token Permutation, CTP）：既然压缩更关心“谁和谁内容相似”，那就先把相似的 token 聚在一起，再让 Mamba 去扫描。这样，原本在二维空间里相距很远、但在特征空间里很接近的区域，就能在一维序列中变成相邻 token，从而更容易被状态空间模型连续建模。

作者没有采用每张图在线跑一遍 K-Means 这种昂贵又不稳定的方式，而是借鉴 VQ-VAE 的思路，为每个 CAM block 维护一个共享的、可更新的聚类 codebook。训练时，使用余弦相似度的 K-Means 对 token 做聚类，并通过 EMA 更新质心；推理时则直接用训练好的质心进行确定性分配，不需要再做迭代聚类。

这样一来，CMIC 实际上把“二维图像上的 token”重新映射成了“按内容组织的一维序列”。Mamba 不再被困在欧氏空间的邻域关系里，而是优先沿着特征空间的近邻去传播状态。这一点对于压缩尤其关键，因为压缩真正要消除的是冗余，而冗余更接近于内容相似性，而不是几何位置上的相邻性。

从下图中的聚类可视化也能看出，这种重排不是机械分组，而是真正把一些具有相似语义或视觉统计属性的区域归到了一起，比如天空、纹理边缘、羽毛等区域往往会被一致地激活到某些 cluster 上。

全局先验提示：让 Mamba 不再被严格因果束缚

即便 token 顺序已经变得更合理，标准 Mamba 仍然有第二个问题：它还是严格因果的。也就是说，就算你把相似 token 放到一起了，当前 token 的状态更新仍然只能依赖于前面已经扫描过的内容。这种单向递推对图像来说依然过于受限。

因此，CMIC 又提出了第二个关键设计：Global-Prior Prompting（GPP）。这个模块的直觉是：既然单向扫描无法天然看到全局，那就在扫描过程中显式注入一个样本级的全局先验。

前面 CTP 利用的是聚类的结果，却并未利用好聚类得到的 质心（cluster centers） 信息。质心本身具有很强的 dataset-level 统计信息，因此，作者构建了一个 redundancy-aware prompt dictionary。每个 cluster 映射到一个 prompt 向量，而对某张具体输入图像，可以根据它的 token-cluster 分配关系，生成一组 sample-specific prompts，再把这些 prompts 注入到状态空间模型的输出投影中。

这么做的意义在于，Mamba 在每一步读取状态时，不再只依赖前面 token 的递推结果，而是同时受到一份来自整张图像统计分布的全局先验调制。这样，模型虽然形式上仍然保留了线性扫描，但其信息流已经不再是“纯粹的单向局部因果链”，而是带有全局语义条件的扫描过程。

从下图（Mamba layer 单层感受野可视化）中可以看到，增加 GPP 能够有效打破原有的严格扫描因果性：扫描的中心位置时，后续位置也会出现非零响应，说明模型开始具备“看向未来”的全局语义感知。

可以把它理解成：CTP 负责“把该靠近的 token 排到一起”，而 GPP 负责“让扫描时每一步都带着对整张图内容分布的理解”。两者一个改路径，一个改信息流方向，刚好对应解决标准 Mamba 在压缩中的两大根本问题。

整体框架

CMIC的整体框架如上图所示。

需要注意的是：在每个 stage 中，作者依然保留了 window attention 来负责局部依赖建模，而 CAM block 负责更高效地建模长程冗余。换句话说，整个系统的设计不是要完全抛弃注意力，而是让注意力负责局部，让内容感知的 Mamba 负责全局，这样能兼顾局部细节和全局压缩效率。

实验

主实验：率失真性能

论文在 Kodak、Tecnick 和 CLIC 三个标准数据集上进行了评测，并与 VTM-21.0、ELIC、TCM、FTIC、CCA、MLIC++、MambaVC、MambaIC 等一系列强基线进行了比较。

结果非常直接：CMIC 在三个数据集上相对 VTM-21.0 分别取得了 15.91%（Kodak）、21.34%（Tecnick） 和 17.58%（CLIC） 的码率节省，整体表现达到 SOTA 水平。

进一步看，它比近年的 Mamba-based LIC 模型更强。和 MambaVC 相比，CMIC 在 Kodak / CLIC / Tecnick 上分别额外节省了 7.51% / 6.80% / 10.09% 的 BD-rate；和 MambaIC 相比，也分别有 2.36% / 2.17% / 6.48% 的优势。

从论文给出的 RD 曲线可以看到，这种优势不是某个单独码率点上的偶然收益，而是在多个 bit-rate 区间内都比较稳定。尤其在高分辨率的 Tecnick 和 CLIC 上，CMIC 的优势更明显，这也侧面说明：当图像分辨率更高、长程冗余更丰富时，内容感知的全局建模确实更有价值。

除了 PSNR，论文也报告了 MS-SSIM 结果。CMIC 在这一指标下同样保持了很强的竞争力，说明这种改进不仅反映在像素失真意义上的 RD 优势，也体现在整体感知质量上。

复杂度与高效性

CMIC 的参数量为 69.11M，FLOPs 为 2.39T，2K 图像解码延迟约 0.405 秒，峰值显存约 4.44GB。和 TCM-L 相比，CMIC 在 FLOPs、延迟和显存上都更省；而和同样基于 Mamba 的 MambaIC 相比，CMIC 的参数量下降了 56%，FLOPs 下降了 57%，解码延迟下降了 39%，峰值显存更是下降了 78%。

这说明 CMIC 的收益并不是建立在“更重的全局扫描”上。相反，它避免了昂贵的多方向扫描和 2D 扫描，而是通过更合理的 token 组织方式和更轻量的全局提示，把计算用在了真正和冗余建模相关的地方。从工程角度看，这一点很重要。因为图像压缩方法最终不仅要拼客观指标，还要考虑推理代价和部署成本。CMIC 在这一点上是比较平衡的。

可视化分析：CMIC 真正学到了“看哪里更重要”

这篇论文通过 ERF（Effective Receptive Field）展示了模型对于冗余分布的感知能力。在整体 ERF 可视化中，CMIC 的感受野覆盖明显更广，表明它能够更充分地利用全局上下文。而在单图像的 ERF 可视化中，CMIC 的高响应区域并不是均匀扩散的，而是会主动对齐到语义相关或冗余较高的区域，比如羽毛、海岸线、飞机结构等。这说明它不是“更大范围地平均看”，而是真正学会了按内容分配注意力和状态传播路径。

结论

CMIC 这篇工作的核心在于指出：如果不改变扫描顺序和信息流方式，Mamba 在图像压缩中的潜力其实远远没有被释放出来。 CMIC提出的一种解决思路是：

用 Content-Adaptive Token Permutation 把内容相关的 token 聚到一起，让扫描路径更符合冗余结构；
用 Global-Prior Prompting 把全局统计先验注入状态空间模型，缓解严格因果约束；
在此基础上构建 CMIC，在保持较高效率的同时，显著提升率失真性能。

如果说过去我们更多是在讨论“Transformer 怎么做全局建模、Mamba 怎么做线性建模”，那 CMIC 提供了一个很重要的视角：对于图像压缩，关键不只是模型有没有全局感受野，而是这个全局建模过程是否真正对齐了图像中的内容冗余。

如果有帮到你，感谢引用：

@inproceedings{
    chen2026contentaware,
    title={Content-Aware Mamba for Learned Image Compression},
    author={Yunuo Chen and Zezheng Lyu and Bing He and Hongwei Hu and Qi Wang and Yuan Tian and Li Song and Wenjun Zhang and Guo Lu},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=WwDNiisZQm}
}