CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026

本文提出了一种动态的状态空间模型 Content-Aware Mamba(CAM),并基于它构建了图像压缩模型 CMIC。作者指出,标准 Mamba 在图像压缩中存在两个关键瓶颈:其一,固定的 raster scan 无法有效建模空间上相距较远但语义上高度相关的 token;其二,严格因果的序列建模方式与图像本身的非因果结构并不匹配。为此,CMIC 引入了内容自适应 token 重排(Content-Adaptive Token Permutation, CTP)和全局先验提示(Global-Prior Prompting, GPP),在保持线性复杂度的同时提升长距离冗余建模能力,并在 Kodak、Tecnick 和 CLIC 数据集上达到了 SOTA 性能。

文章来源:ICLR 2026 
论文题目:Content-Aware Mamba for Learned Image Compression 
论文作者:Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu 
(SJTU Medialab, MIT, Alibaba Group,  Shanghai AI Laboratory)
论文链接:https://openreview.net/pdf?id=WwDNiisZQm 
代码链接:https://github.com/UnoC-727/CMIC 
内容整理:陈予诺 

图像压缩模型需要的非线性变换与交互模式

压缩要做的事情,本质上是识别并消除冗余。而图像中的冗余往往并不是局部的、规则网格状的,也不是严格单向的。比如,天空中相隔较远的两块平滑区域、物体表面不同位置的相似纹理、以及场景中反复出现的重复结构,都对应着跨空间位置的相关性。这意味着,一个有效的图像压缩模型不仅需要足够大的感受野,还需要具备在非欧氏内容空间中建模 token 关系的能力。

在 learned image compression 中,非线性变换网络承担着建模潜变量之间统计依赖、进而压缩冗余信息的核心作用。更具体地说,内容相似的 token 往往意味着它们之间存在更强的冗余性,因此模型应当尽可能促进这类近似 token 之间的有效交互,从而提升对长程冗余的建模能力。早期图像压缩方法大多依赖 CNN 或 window-based Transformer 作为非线性变换骨干,但这类方法的交互模式通常受限于局部感受野,难以充分捕捉跨区域的冗余关系。近期,一些工作开始尝试引入 Mamba-style 空间状态模型,希望以线性复杂度实现对全局冗余的建模;然而,这类方法在图像压缩场景下仍然存在若干关键局限。

为什么 Mamba 还没有真正“吃透”图像压缩

近年来,Mamba 一类状态空间模型(SSM)在视觉任务中越来越受到关注。它的核心优势在于:相比 Transformer 的二次复杂度,全局建模能力可以通过线性复杂度实现。这对图像压缩这种既需要大感受野、又在意效率的任务来说非常有吸引力。

但问题在于,标准 Mamba 最初是为一维序列设计的。当它被直接搬到图像压缩里时,通常需要先把二维图像特征“扫”成一维序列,再做 selective scan。这个过程本身就引入了两个不太合理的假设:

第一,它默认 token 之间应该按固定空间顺序交互,也就是 raster scan 或若干预定义方向的 scan。可在压缩任务里,真正重要的并不一定是“空间上邻近”的区域,而往往是那些视觉内容相似、统计冗余相近的区域。它们可能在图像上离得很远,但在压缩建模里恰恰应该被放到一起看。

第二,Mamba 的递推建模是严格因果的。当前 token 只能看见前面已经扫描过的 token,这种单向依赖对于语言序列很自然,但对于图像并不自然。图像没有天生的“前后顺序”,远处的后续区域同样可能包含对当前编码很关键的信息。

因此,标准 Mamba 的问题并不只是“扫描效率”或者“感受野够不够大”,更深层的问题在于:它的扫描路径和信息流方向,都没有对齐图像压缩真正关心的冗余结构。

CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 1:(a)标准2D Selective Scan (b)内容自适应扫描 (c)在Tecnick数据集上相对比VTM-21.0的速率节省。

具有冗余感知的空间状态模型

核心思想:不要再让 Mamba 按照图像坐标系机械地进行因果性建模,而要让它沿着内容相关性去感知并建模冗余。

内容自适应 Token 重排:让相似内容排着队被扫描

标准 Mamba 的第一个核心问题,是扫描顺序完全固定。

CMIC 对这个问题的处理很直接(Content-Adaptive Token Permutation, CTP):既然压缩更关心“谁和谁内容相似”,那就先把相似的 token 聚在一起,再让 Mamba 去扫描。这样,原本在二维空间里相距很远、但在特征空间里很接近的区域,就能在一维序列中变成相邻 token,从而更容易被状态空间模型连续建模。

作者没有采用每张图在线跑一遍 K-Means 这种昂贵又不稳定的方式,而是借鉴 VQ-VAE 的思路,为每个 CAM block 维护一个共享的、可更新的聚类 codebook。训练时,使用余弦相似度的 K-Means 对 token 做聚类,并通过 EMA 更新质心;推理时则直接用训练好的质心进行确定性分配,不需要再做迭代聚类。

这样一来,CMIC 实际上把“二维图像上的 token”重新映射成了“按内容组织的一维序列”。Mamba 不再被困在欧氏空间的邻域关系里,而是优先沿着特征空间的近邻去传播状态。这一点对于压缩尤其关键,因为压缩真正要消除的是冗余,而冗余更接近于内容相似性,而不是几何位置上的相邻性。

从下图中的聚类可视化也能看出,这种重排不是机械分组,而是真正把一些具有相似语义或视觉统计属性的区域归到了一起,比如天空、纹理边缘、羽毛等区域往往会被一致地激活到某些 cluster 上。

CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 2:网络第二阶段的聚类结果的可视化

全局先验提示:让 Mamba 不再被严格因果束缚

即便 token 顺序已经变得更合理,标准 Mamba 仍然有第二个问题:它还是严格因果的。也就是说,就算你把相似 token 放到一起了,当前 token 的状态更新仍然只能依赖于前面已经扫描过的内容。这种单向递推对图像来说依然过于受限。

因此,CMIC 又提出了第二个关键设计:Global-Prior Prompting(GPP)。这个模块的直觉是:既然单向扫描无法天然看到全局,那就在扫描过程中显式注入一个样本级的全局先验

前面 CTP 利用的是聚类的结果,却并未利用好聚类得到的 质心 (cluster centers) 信息。质心本身具有很强的 dataset-level 统计信息,因此,作者构建了一个 redundancy-aware prompt dictionary。每个 cluster 映射到一个 prompt 向量,而对某张具体输入图像,可以根据它的 token-cluster 分配关系,生成一组 sample-specific prompts,再把这些 prompts 注入到状态空间模型的输出投影中。

这么做的意义在于,Mamba 在每一步读取状态时,不再只依赖前面 token 的递推结果,而是同时受到一份来自整张图像统计分布的全局先验调制。这样,模型虽然形式上仍然保留了线性扫描,但其信息流已经不再是“纯粹的单向局部因果链”,而是带有全局语义条件的扫描过程。

从下图(Mamba layer 单层感受野可视化)中可以看到,增加 GPP 能够有效打破原有的严格扫描因果性:扫描的中心位置时,后续位置也会出现非零响应,说明模型开始具备“看向未来”的全局语义感知。

CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 3:单个 Mamba 层的 ERF。它展示了 GPP 如何在光栅扫描之外引入非因果关系,以及 CTP 如何将 ERF 重塑为语义、内容相关的区域。

可以把它理解成:CTP 负责“把该靠近的 token 排到一起”,而 GPP 负责“让扫描时每一步都带着对整张图内容分布的理解”。两者一个改路径,一个改信息流方向,刚好对应解决标准 Mamba 在压缩中的两大根本问题。

整体框架

CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 4:提出方法的总体框架。(a)CMIC的框架,特征维度被设置为{C1,C2,C3,C4},且六个非线性变换的深度为{L1,L2,L3,L3,L2,L1} (b)内容感知的Mamba block,详细介绍了内容感知SSM架构。

CMIC的整体框架如上图所示。

需要注意的是:在每个 stage 中,作者依然保留了 window attention 来负责局部依赖建模,而 CAM block 负责更高效地建模长程冗余。换句话说,整个系统的设计不是要完全抛弃注意力,而是让注意力负责局部,让内容感知的 Mamba 负责全局,这样能兼顾局部细节和全局压缩效率。

实验

主实验:率失真性能

CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 5:Kodak数据集的性能评估
CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
表 1:与 SOTA LIC 模型的定量比较。

论文在 Kodak、Tecnick 和 CLIC 三个标准数据集上进行了评测,并与 VTM-21.0、ELIC、TCM、FTIC、CCA、MLIC++、MambaVC、MambaIC 等一系列强基线进行了比较。

结果非常直接:CMIC 在三个数据集上相对 VTM-21.0 分别取得了 15.91%(Kodak)21.34%(Tecnick) 和 17.58%(CLIC) 的码率节省,整体表现达到 SOTA 水平。

进一步看,它比近年的 Mamba-based LIC 模型更强。和 MambaVC 相比,CMIC 在 Kodak / CLIC / Tecnick 上分别额外节省了 7.51% / 6.80% / 10.09% 的 BD-rate;和 MambaIC 相比,也分别有 2.36% / 2.17% / 6.48% 的优势。

从论文给出的 RD 曲线可以看到,这种优势不是某个单独码率点上的偶然收益,而是在多个 bit-rate 区间内都比较稳定。尤其在高分辨率的 Tecnick 和 CLIC 上,CMIC 的优势更明显,这也侧面说明:当图像分辨率更高、长程冗余更丰富时,内容感知的全局建模确实更有价值。

除了 PSNR,论文也报告了 MS-SSIM 结果。CMIC 在这一指标下同样保持了很强的竞争力,说明这种改进不仅反映在像素失真意义上的 RD 优势,也体现在整体感知质量上。

复杂度与高效性

CMIC 的参数量为 69.11M,FLOPs 为 2.39T,2K 图像解码延迟约 0.405 秒,峰值显存约 4.44GB。和 TCM-L 相比,CMIC 在 FLOPs、延迟和显存上都更省;而和同样基于 Mamba 的 MambaIC 相比,CMIC 的参数量下降了 56%,FLOPs 下降了 57%,解码延迟下降了 39%,峰值显存更是下降了 78%。

这说明 CMIC 的收益并不是建立在“更重的全局扫描”上。相反,它避免了昂贵的多方向扫描和 2D 扫描,而是通过更合理的 token 组织方式和更轻量的全局提示,把计算用在了真正和冗余建模相关的地方。从工程角度看,这一点很重要。因为图像压缩方法最终不仅要拼客观指标,还要考虑推理代价和部署成本。CMIC 在这一点上是比较平衡的。

可视化分析:CMIC 真正学到了“看哪里更重要”

CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 6:LIC 模型中分析网络的有效感受野 (ERF) 可视化。
CMIC:使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026
图 7:各个图像的有效感受野(ERF)可视化。

这篇论文通过 ERF(Effective Receptive Field)展示了模型对于冗余分布的感知能力。在整体 ERF 可视化中,CMIC 的感受野覆盖明显更广,表明它能够更充分地利用全局上下文。而在单图像的 ERF 可视化中,CMIC 的高响应区域并不是均匀扩散的,而是会主动对齐到语义相关或冗余较高的区域,比如羽毛、海岸线、飞机结构等。这说明它不是“更大范围地平均看”,而是真正学会了按内容分配注意力和状态传播路径

结论

CMIC 这篇工作的核心在于 指出:如果不改变扫描顺序和信息流方式,Mamba 在图像压缩中的潜力其实远远没有被释放出来。 CMIC提出的一种解决思路是:

  • 用 Content-Adaptive Token Permutation 把内容相关的 token 聚到一起,让扫描路径更符合冗余结构;
  • 用 Global-Prior Prompting 把全局统计先验注入状态空间模型,缓解严格因果约束;
  • 在此基础上构建 CMIC,在保持较高效率的同时,显著提升率失真性能。

如果说过去我们更多是在讨论“Transformer 怎么做全局建模、Mamba 怎么做线性建模”,那 CMIC 提供了一个很重要的视角:对于图像压缩,关键不只是模型有没有全局感受野,而是这个全局建模过程是否真正对齐了图像中的内容冗余。


如果有帮到你,感谢引用:

@inproceedings{
    chen2026contentaware,
    title={Content-Aware Mamba for Learned Image Compression},
    author={Yunuo Chen and Zezheng Lyu and Bing He and Hongwei Hu and Qi Wang and Yuan Tian and Li Song and Wenjun Zhang and Guo Lu},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=WwDNiisZQm}
}

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐