上海交通大学陈智勇研究员课题组在北京邮电大学张平院士、上海交通大学张文军院士联合指导下,在高效轻量化语义通信架构方面取得进展。课题组深入挖掘了状态空间模型(SSM)的数学机理,从理论上证明了线性复杂度模型具备捕获全局信息的能力,并证明将信道状态信息作为Mamba初始状态能利用模型的内生响应,从而揭示了状态空间模型天然具备的内生信道自适应特性。基于此,团队提出了一种具备内生智能的联合信源信道编码架构——MambaJSCC,为资源受限边缘设备上的实时高效语义传输提供了全新的线性复杂度的解决方案。论文成果《MambaJSCC: Adaptive Deep Joint Source-Channel Coding with Generalized State Space Model》于2026年1月发表在通信领域顶级期刊IEEE Transactions on Wireless Communications (IEEE TWC, IF=10.7)
文章来源:IEEE Transactions on Wireless Communications
论文题目:MambaJSCC: Adaptive Deep Joint Source–Channel Coding With Generalized State Space Model
论文链接:https://ieeexplore.ieee.org/document/11311439
代码链接:https://github.com/Wireless3C-SJTU/MambaJSCC
论文作者:Tong Wu,Zhiyong Chen, Meixia Tao, Yaping Sun, Xiaodong Xu, Wenjun Zhang, Ping Zhang (SJTU ICISEE)
内容整理:吴桐
研究背景与挑战
随着6G时代对低时延、高带宽和海量连接需求的爆发式增长,语义通信作为6G的潜在关键技术,正引领着通信范式的变革。然而,现有的深度联合信源信道编码方案面临着两难困境:基于CNN的模型计算快但缺乏全局感知能力,性能较差;而基于Transformer的模型性能强但计算复杂度呈二次方增长,导致推理时延较长。此外,为了适应动态变化的无线信道,现有方案通常需要引入额外的注意力模块,进一步增加了计算和参数开销。因此,如何设计一种既具备Transformer的全局建模能力,又拥有线性复杂度,且能不付出额外代价的内生实现信道自适应的JSCC架构,是本研究解决的关键问题。
方案概述
针对上述挑战,本文提出了MambaJSCC架构。如图1所示,该系统采用了对称的编解码设计,核心组件是带有信道自适应的视觉状态空间模块(VSSM-CA)。
该方案的核心创新点包括:
- 线性复杂度下全局感知能力的理论确立:团队通过严谨的数学推导,将扫描扩展与恢复表达为可逆矩阵变换,并据此推导了视觉状态空间模型的闭式表达式。从理论上证明了设计的具有正反双向扫描的状态空间模型足以在线性复杂度约束下,实现对二维图像像素间全局依赖关系的完备捕获,为用线性模型替代二次方级Transformer提供了坚实的理论依据。
- 状态空间模型“内生智能”机理的发现:通过深入剖析离散化状态空间方程的数学特性,团队首次揭示了 SSM 天然具备对初始状态的敏感响应机制。基于对此特性的洞察,提出了 CSI-ReST 方法,从数学原理上确保了信道状态信息与模型内部状态的可靠交互,实现了无需额外参数与计算辅助的内生信道自适应。
- 卓越的图像传输性能与轻量化快速推理:实验表明,通过上述理论指导设计的MambaJSCC,能够以更低的参数量与计算量,实现更优秀的传输性能,并大幅降低边端设备上的推理时延。例如,相比于SwinJSCC,所提方案能够在DIV2K数据集上,以72%的计算量和51%的参数量,实现0.52dB的PSNR性能与0.41dB的LPIPS性能提升,同时将在JETSON AGX ORIN上的端到端推理时延降低最高3.77倍。

理论建模与核心机制
Two GSSM:线性复杂度下的全局感知
我们观察到,SSM模型处理二维信息的关键步骤,扫描展开与扫描恢复可以被描述成使用初等矩阵与其逆矩阵的矩阵变换。因此,这种模型处理二维信息的过程可以被公式化描述为:

其中SSM模型也可以被三角矩阵变换所描述。因此,一种扫描方向下的广义状态空间模块表达式为:

因此,设计两个GSSM模块分别从正向和反向进行扫描,将其结果相加,其输出与输入的表达式应为:

这个表达式说明了,具有双向扫描的Two GSSM模块输出与输入的每一个元素相关,证明了模型对全局信息捕获的能力。并且该表达式展现出了其关于输入维度增长的线性关系,具备线性复杂度。 因此,我们将该模块作为MambaJSCC的骨干网络。
CSI-ReST:零开销的信道自适应
我们从源头挖掘状态空间模型的潜力,观察到其响应包括了零状态相应与零输入相应部分,表达式如下:

因此,我们的GSSM模块的输出天然受到初始状态的影响。将信道状态信息作为初始状态能利用模型的内生响应来自适应调节输出特征。然而,这种响应会随着序列长度的加深而不断衰减,我们称之为CSI遗忘,如图2所示,当序列长度增长到500时,响应矩阵数值将衰减到1.26×10^-11,导致输出几乎不受CSI控制。

为了解决这个问题,我们提出了CSI-ReST方法,如图3所示,我们按照一定间隔选出残差状态,并再次注入CSI信息,唤醒模型对于CSI的记忆。这种方法完全利用了模型内部的数学机理,不需要引入任何额外的参数或计算操作,实现了真正的“零开销”信道自适应。

因此,配备了CSI-ReST方法的Two GSSM模块的计算流程如图4所示,其在将状态空间映射到输出空间前,先判断是否为残余状态,是否需要重新注入CSI。

仿真结果
仿真设置
本文在人脸数据集CelebA、高清图像数据集DIV2K、Kodak上进行了全方位评估,评价指标包括了像素级一致性指标PSNR,结构一致性指标MS-SSIM,以及感知质量指标LPIPS。对比基线包括DeepJSCC、ADJSCC和SwinJSCC。
实验结果
性能全面提升:图5中的实验结果表明,在所有测试数据集和信噪比条件下,MambaJSCC的PSNR、MS-SSIM和LPIPS指标均优于基线方法。例如在DIV2K数据集、瑞丽衰落信道,SNR=20dB时,MambaJSCC相比SwinJSCC获得了0.63dB的PSNR增益以及0.42dB的LPIPS增益,相比ADJSCC增益超过1dB,展现了强大的编码效率。

模型复杂度下降:在计算效率方面,MambaJSCC展现了巨大的优势。如表1和图6所示:MambaJSCC仅需SwinJSCC 51%的参数量和 72%的MACs,就能实现更优秀的性能。同时,在NVIDIA Jetson AGX Orin边缘设备上,传输768×768分辨率图像,MambaJSCC的端到端时延仅为SwinJSCC的 26%。


视觉质量提升:图7展示了不同传输策略的重建质量,可以看到在三种数据集上MambaJSCC均能恢复出视觉上更清晰的图像。

结语
本文提出了一种基于广义状态空间模型的联合信源信道编码架构——MambaJSCC。该工作通过创新的Two GSSM设计与CSI-ReST机制,在理论层面探索了利用线性复杂度工具替代自注意力机制处理视觉语义的可行性,打破了传统Transformer架构在长序列处理上的计算瓶颈;同时挖掘了模型的数学特性实现了无需额外参数的内生信道自适应。实验结果表明,MambaJSCC在传输质量、推理速度及资源效率方面均表现出显著优势,为未来6G网络中海量异构终端的高效低时延传输提供了坚实的理论与技术支撑。
如果本工作对您的研究有帮助,欢迎引用:
@article{wu2025mambajscc,
title={MambaJSCC: Adaptive Deep Joint Source--Channel Coding With Generalized State Space Model},
author={Wu, Tong and Chen, Zhiyong and Tao, Meixia and Sun, Yaping and Xu, Xiaodong and Zhang, Wenjun and Zhang, Ping},
journal={IEEE Transactions on Wireless Communications},
volume={25},
pages={9264--9279},
year={2025},
publisher={IEEE}
}
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。