本文来自腾讯架构师,作者香农实验室
2025年12月,智能视频图像编码领域两大核心赛事相继揭晓结果:
在VCIP会议主办的第四届低复杂度端到端图像压缩实战赛中,腾讯香农实验室研发的腾讯神经网络编解码TNC(Tencent Neural Codec)在相同码率下画质最好,从全球参赛方案中脱颖而出,摘得冠军;同期,在PCS会议举办的第七届高压缩率智能压缩挑战赛中,TNC同样表现亮眼,在图像与视频两个赛道上,均实现了同等码率下的画质最佳,勇夺双冠。
在两项不同复杂度的赛事同时获得优异成绩,是腾讯香农实验室使用AI技术赋能视频编码、推动技术革新的阶段性成果,标志着香农实验室在AI驱动的视频图像编码领域居于国际领先水平。同时,通过与腾讯云媒体处理团队的积极合作,腾讯神经网络编解码TNC(Tencent Neural Codec)正稳步推进落地优化工作。神经网络编码这项创新技术的引入,将进一步提升腾讯云媒体处理编码内核,为行业带来更极致的压缩能力、更好的视觉体验和更智能化的解决方案。


1. 赛事介绍
基于神经网络的端到端智能视频图像压缩技术(NerualVideo/ImageCoding)近十年迅速发展,目前在极限压缩率上已超过了许多传统的基于块划分的混合编码器,如最新H.266编码标准参考软件VTM。为了持续提升压缩率、促进技术的实际应用,最近几年国际上举办了不少基于神经网络的视频图像压缩挑战赛。由VCIP会议举办的低复杂度端到端视频图像压缩实战赛(Practical End-to-End Image/Video Compressionf Challenge)到今年已经成功举办了4届,而2025年由PCS会议举办的高压缩率智能图像压缩挑战赛(Challenge on Learned Image Compression)则已经到了第七届。以Google为代表的众多海内外公司,以及众多高校,都先后参加了这些挑战赛活动。
1.1 VCIP2025第四届低复杂度端到端图像压缩实战赛
今年该赛事主要针对4K分辨率,测试集中每张图片的目标编码码率以BPG QP28为基准,仅允许智能编码在对齐BPG的码率下编码参赛,并采用PSNR指标衡量各参赛者的编码质量。并且要求,参赛编解码的每像素解码MACs(乘加数)复杂度必须小于50K。对比其他比赛,该赛事对图片解码复杂度进行严格约束,侧重智能图片编码的实用能力评估。
经过激烈角逐,由腾讯香农实验室的codecTester团队研发的TNC图像编码,在近二十支队伍中脱颖而出,最终夺得冠军。比赛结果显示,在平均码率0.51bpp,覆盖范围从0.11bpp到1.86bpp的编码码率下,TNC的编码质量相比基准BPG编码,平均提升PSNR 1.66dB,最高PSNR提升可达2.81dB,平均领先第二名0.4dB。
1.2 PCS2025第七届高压缩率智能图像压缩挑战赛
今年该赛事分为图像编码和视频编码两个赛道,分验证阶段和测试阶段对参赛编码进行测试比较。在验证阶段完成主客观测试后,在测试阶段完全采用人眼主观打分的方式来衡量最终编码质量,并采用实际解码耗时来衡量解码复杂度。该比赛对参赛方的解码复杂度约束较少,更看重智能图像编码在极限压缩效果,在限定编码码率下,仅对比解码图像和视频的主观质量。
1.2.1 智能编码图像赛道
图像编码赛道采用2K分辨率图片集,需要参赛的智能编码分别在0.075bpp, 0.15bpp, 0.3bpp三个目标码率点进行编码,然后完成主观对比。经过官方严格测试, TNC端到端图像编解码在满足比赛要求的码率范围取得主观质量最佳,获得本次挑战赛的冠军。

1.2.2 智能视频编码赛道
视频编码赛道要求对提供的10秒全高清短视频测试集,按指定的目标码率对每个视频片段进行编码。在最终测试阶段,采用ACR(Absolute Category Rating)主观打分的方式来衡量编码质量,并采用实际解码速度来衡量解码复杂度,保证解码耗时可控。比赛结果表明,最终主观质量编码(命名为TCM)凭借相比H.266参考模型(VTM)高1.2分(MOS,五分制)、相比H.266的下一代视频编码官方探索模型(ECM)高0.57分,夺得冠军。

即便不引入任何前处理增强主观优化技术,TNC视频编解码在相同码率下,客观质量编码(命名为TCM-OBJ)也可以做到比VTM高3.07dB(PSNR,峰值信噪比),比ECM高2dB。

2. TNC编码技术介绍
使用神经网络视频图像编码技术提升图片和视频编码压缩率和主观是TNC编解码研发的核心目的。考虑到该技术在视频和图像领域的成熟度不同,目前TNC在视频和图像编码上采用了不同的优化技术。
2.1 TNC图像编解码
TNC参考和吸收了业界在神经网络编码领域的先进技术,并在此基础上进行了一系列的优化改进。在提升压缩性能的同时,TNC从实际应用出发,持续降低编解码的复杂度。首先,TNC首创如下图的VAE-INR混合编码架构。通过可控的帧级和块级率失真最优选择机制,利用VAE(变分自编码)和INR(隐式神经表示)的各自优势,实现图像的最优编码。

其中在VAE编码部分,TNC不但从模型架构、变换网络、超先验、上下文模型、概率模型和量化方法、可变码率编码方法、算法主观优化等多方面进行全面调整,还在训练集选取、训练方法、在线微调等方面进行全面优化。
具体如下图所示,优化后的TNC编码经过大规模训练后:首先通过非线性变换,使提取的特征的分辨率降低;再经过多通道卷积融合,对生成的潜在特征(latent feature)进行分组和拼接;然后借助后续先验分布和上下文模型预测,实现潜在特征的高效编码。TNC在实现高压缩性能的同时,也通过网络层和卷积核的优化设计尽量保持一个合理的复杂度。

2.1.1 VAE网络架构和结构优化
TNC对VAE模型的整体架构与基础模块进行了针对性优化,进而实现在多种复杂度约束下的最佳压缩性能。
首先在整体结构上,TNC采用了非对称编解码设计:编码端变换网络配置更深的网络层数与复杂模块,以强化对输入图像的潜在特征提取能力;解码端变换网络则使用浅层网络与轻量化模块,配合专门适配的训练策略,在满足解码端低计算量要求的同时,最大程度保障图像的重建质量。
其次在具体的基础模块上,编码端采用类似MobileNet结构,解码端则引入ShuffleNet的通道分组与混洗技术。这一设计不仅降低了浮点运算量,更有效减少了碎片化操作并提升推理速度。特别地,对模块中的3×3卷积,TNC采用了重参数化的方式来增强其表达能力。
此外,TNC使用WSiLU替换传统的ReLU激活函数。该函数具备全局平滑且处处可导的特性,解决了ReLU在负数区间的梯度截断问题,能够增强模型的非线性表达能力与训练稳定性,使模型对分布漂移更鲁棒。
通过上述优化,TNC模型成功在总乘加次数约束下,达到了更优的压缩性能。

2.1.2 VAE超先验和上下文模型
为了对 VAE 提取的潜在特征进行高效压缩,TNC采用了超先验(Hyper-prior)与精细化上下文模型(Context Model)联合的熵编码架构。
首先,利用超先验网络从潜在特征中提取边信息(Side Information),为概率分布参数的估计提供全局先验基础。在此之上,TNC 引入了通道和空域联合的渐进式更新机制,通过在空间与通道维度上的精细划分与深度融合,显著提升了熵模型的预测准确度。
在具体的上下文模型设计中,TNC采用了空间与通道的双重自回归策略。在空间维度,充分挖掘空间相关性,利用已解码的邻域特征引导当前位置特征的预测。在通道维度,TNC对特征进行非均匀划分以平衡预测效率和准确度,并采用上下文渐进融合(Progressive Fusion)方法。在解码过程中,后续通道组不仅依赖超先验信息,更动态复用此前已解码分组的上下文特征,结合空间维度上下文实现对概率分布参数的预测,进而完成对潜在特征的算术编码。
这种精细的空间与通道维度上下文提取与逐级融合至先验特征流的机制,使得预测当前分组时,有效信息量逐步累积,从而能更精准地拟合特征分布参数,进而实现更优的压缩性能。

2.1.3 VAE熵概率模型
TNC采用广义高斯分布进行概率建模,除了均值,尺度外,还包含一个形状参数,从而获得更强的概率分布表示能力。其概率密度函数的表达形式为

下图表示了均值为0,尺度为1时不同形状参数的概率密度函数

TNC通过采用广义高斯分布进行概率建模,更好的拟合数据广泛分布形式,有效提升了符号编码的效率。
2.1.4 INR编码
TNC在编码过程中,在一帧图像划分成8个块后,每个块将送入INR编码进行过拟合编码。如果过拟合编码的结果优于VAE编码结果,拟合的潜变量和网络权重将编码进码流中,发送给解码器。

编码过程中,我们采用了彩票(Lottery ticket)机制,从一个较大的随机初始化网络中,通过过拟合学习训练一个最优网络并用掩码的方式选择网络权重,把这个最优网络权重信息写入码流中,发送给解码端。解码器利用码流中的子网权重信息进行有效解码。通过使用INR技术,我们实现了低复杂度解码。并通过和VAE的比较,实现择优编码,使压缩性能进一步提升。
2.1.5 主观质量优化
针对真实场景下的数据多样性,TNC在训练之前就精选构造多类别训练集,图像类别涵盖自然风光、人物肖像、屏幕文字、动画动漫、AIGC等。在丰富训练数据的基础上,为实现面向主观质量优化的多码率模型,腾讯香农实验室又与刘贤明教授团队合作,为TNC研发了多阶段、多码率、渐进式主观质量优化训练方法,该过程共分四步:
(1)首先应用L2作为损失函数训练基础单码率模型。
(2)再以L2单码率模型为基础,将模型进行多码率训练微调得到对应多码率模型。在进行多码率训练时,我们随机采样拉格朗日因子作为条件信号调制编解码网络中间特征。
(3)完成模型客观质量训练后,修改损失函数添加LPIPS进行训练,引导编码变换网络保留语义细节信息,并通过权重来调节语义细节信息的多少。
(4)再冻结编码器、熵模型,引入主观聚合损失进行多码率对抗式训练,根据上阶段引入隐层的语义细节信息,对抗式引导生成更逼真细节。
主观优化后,在同码率下,和其它H.266编码结果对比如下(左边是原图,中间是TNC编码结果,右边是H.266编码结果)。

2.2 AI驱动的TNC视频编码
TNC视频编码,是腾讯香农实验室在长期积累的下一代编码技术的基础上,结合AI前处理增强和AI后处理环内滤波,打造的一款面向极致压缩率的视频编解码器,该编码框架如下图所示。

2.2.1 高压缩率高画质优化
TNC视频编解码为了实现高压缩率高画质,实现如下三个方面的优化创新:
首先,采用基于ESRGAN的AI增强预处理滤波和基于神经网络的环路滤波技术(NNLF),有效的增强了编码细节,提升了编码的主观质量。第二,为了更好的适应各种视频内容的编码,TNC建立复杂度模型,并采用基于块级自适应QP计算的CUTree编码方法对传统编码进行改进。对于复杂场景,为了解决细节丢失严重的问题,TNC引入场景检测和局部复杂度分析,改进了qp质量计算方法,采用如下公式计算:

下图左侧是从原始序列截取的一帧图像,右侧为经过TNC视频编码处理后的对应帧,可以看出经过TNC视频编码处理后的帧纹理细节更逼真。

2.2.2 帧级并行改进
在帧级并行时,无依赖关系的图像之间会直接并行编码,有依赖的图像间则在被参考图像的一部分完成后便启动待编码图像的并行编码。NNLF环路滤波的高复杂度和高整体性,对帧间并行效率产生了影响。为了解决这一并行效率问题,TNC中对帧级并行处理技术进行了针对性的改进。NNLF流程被拆分成了两个步骤,第一步根据部分图像行决定帧级模型参数,第二步再对剩下的行利用帧级参数逐区域进行处理。这样可以快速地得到一部分图像,进而让后续编码帧能够按照帧间依赖关系(如下图所示)更早地开始编码。

2.2.3 工程和算法联合加速
TNC为了提升编解码速度,在一些计算密集的工具中,我们采用了AVX2加速和GPU加速。如下图的解耗时分解所示,由于NNLF神经网络环路滤波技术引入了大量的卷积运算,未优化的NNLF过程复杂度占比特别大。为了保证解码耗时可控,TNC首先对计算时用来网络推理的底层SADL库进行了AVX2加速,得到了45%的速度提升;又根据编码的纹理内容和选择的QP,对一些块进行自适应选择跳过编码,使工具提供的压缩性能和带来的计算压力得到更好的平衡,从而进一步提速45%,使整体解码速度达到了优化前的2.11倍。
综上,TNC在传统编码算法的基础上,结合了多种神经网络编码技术,并通过算法和工程的联合优化,在保证高压缩的同时,显著提升了编码速度。
3. 未来展望
通过以上优化,TNC编解码在VCIP2025和PCS2025编码挑战赛中,实现了智能压缩复杂度与视觉质量的协同进步,标志着腾讯香农实验室在下一代智能图像压缩技术研究中已达到行业领先水平。该成果既是香农实验室在视频图像AI编码领域的实践突破,亦为端到端神经网络编码技术的工程化应用提供了可行性验证。
同时,秉承“开放合作”的理念,腾讯香农实验室与腾讯云媒体处理产品团队也在持续推进算法创新与工程优化双轨并行,将TNC编码技术带来的性能提升,通过媒体处理(MPS)产品,尽快落地到千行百业之中。
目前,腾讯云媒体处理已构建起从内容生产到消费的全链路一站式解决方案,助力企业在视频化时代真正实现降本、提质、提速。在内容生产方面,腾讯云媒体处理自研视觉增强、超分、插帧与画质修复模型,大幅提高视频生成速度的同时,能够保证画质清晰,实现降本增效超40%,已广泛服务于AIGC等行业的头部客户,正重新定义视频生产流程。在内容处理方面,腾讯云媒体处理结合AI能力,不断打磨更全面的智能化解决方案,推出智能擦除、智能字幕、智能拆条、精彩集锦、智能横转竖、视频超分、多模态检索、数字水印等能力,满足企业各种场景下对视频的处理需求,给用户带来更便捷优质、更清晰流畅的视频体验。
未来,随着神经网络编码技术的引入,以及更多AI驱动的视频图像编解码技术落地,腾讯云媒体处理(MPS)也将为视频图像存储、短视频、云游戏和AIGC等视频业务提供更坚实的技术支撑。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。