火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩

作为全球首届低资源音频编解码器专项赛事,ICASSP 2026 低资源音频编解码器比赛(2025 Low-Resource Audio Codec Challenge,LRAC Challenge)吸引了安克创新、地平线机器人、南京大学等众多产学研机构参与。字节跳动旗下火山引擎多媒体实验室音频编解码团队、实时音频团队,联合中国科学院声学所研发的音频压缩算法表现突出,在两项核心赛道斩获佳绩:teamwzqaq、nano-codec 两支队伍分获赛道 1 冠、亚军,nano-codec 还拿下赛道 2 季军。这一成绩不仅印证了团队在行业核心技术领域的领先实力,更为实时通信、流媒体等场景,提供了低复杂度、低码率且高音质的音频压缩解决方案。

火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩
赛道 1 :透明编解码器
火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩
赛道 2 : 增强编解码器

音频编解码器:多媒体核心支撑与低码率复杂度平衡难题

音频编解码器是对音频信号进行压缩编码与解压缩解码的关键技术,更是现代多媒体技术的核心基础设施。它通过特定算法将原始音频数据转化为更紧凑的数字格式,大幅降低存储和传输成本,同时能在播放时精准还原原始音质。从传统电话、5G 通话到在线音乐、智能音箱、车载语音交互,几乎所有音频相关应用都离不开这一技术,其在数字音频普及、通信技术升级、流媒体产业发展和物联网场景推广中,发挥着不可替代的支撑作用。

当前音频编解码技术呈现明显的场景分化与核心挑战:Opus、xHE-AAC、EVS 等传统算法在 12-64kbps 中等码率场景下已能提供良好音质,广泛应用于语音通话、音乐流媒体等常规场景;但在 1-6kbps 极低码率场景中,传统算法易出现量化噪声、频谱失真等问题,严重影响语音可懂度与听觉体验,难以满足 5G/6G 远程通信、物联网设备等低带宽需求。近年来,深度学习技术推动行业实现突破性进展,Google 的 SoundStream、Meta 的 EnCodec 等 AI 驱动的编解码方案,凭借端到端神经网络架构,在 1-6kbps 超低码率下实现了接近传统算法 12-16kbps 的音质表现。然而,这些先进 AI 技术普遍存在计算复杂度高、内存占用大的短板:接近 GMACS 级别运算复杂度的模型在边缘设备、移动终端等端侧场景难以部署与运行,大多数实用化的端上模型复杂度需控制在 100MMACS 左右。因此,如何在极低码率下兼顾高重建质量与低计算复杂度,成为当前音频编解码领域的核心难题。

2025 LRAC 挑战赛:全球技术比拼的舞台

作为全球首次举办的低资源音频编解码器专项挑战赛,2025 LRAC 挑战赛由思科联合卡内基梅隆大学(CMU)等顶尖机构发起,同时也是 ICASSP 2026 LRAC workshop 的核心组成部分。赛事填补了行业在低资源音频编解码领域专项竞技平台的空白,聚焦资源受限设备(如嵌入式系统、移动设备)对高效语音编解码器的迫切需求,旨在集结全球智慧,研发能在真实噪声环境中稳定运行、兼顾高效性与稳健性的神经语音编解码器。

赛事设两大赛道,技术约束严格:

赛道 1:透明编解码器赛道

  • 目标:轻度噪声、混响环境下,保持语音感知透明度(用户难分原始与解码语音)
  • 限制:延迟≤30ms(含编码端缓冲),计算复杂度≤700 MFLOPS(接收端≤300 MFLOPS)

赛道 2:增强编解码器赛道

  • 目标:编码压缩的同时,实现降噪和去混响
  • 限制:延迟≤50ms,计算复杂度≤2600 MFLOPS(接收端≤600 MFLOPS)

此外,所有参赛系统需满足统一标准:支持 24kHz 采样率,覆盖 1kbps(超低)、6kbps(低)比特率模式;能在日常噪声、混响环境可靠运行,满足实时通信低延迟需求;训练数据仅限赛事提供,确保公平。

赛事以主观评分排名,评估场景包括纯净语音、噪声 / 混响语音、多说话人场景及语音可懂度测试,通过 MUSHRA、DMOS、MOS、DRT 等指标加权计算最终成绩。

比赛排名与相关细节参考比赛官网:https://crowdsourcing.cisco.com/lrac-challenge/2025/

赛道 1 方案:IRIS Codec 平衡低复杂度与高音质

针对赛道 1 严苛的低复杂度、低延迟要求,团队在过往低资源编解码研发经验基础上,围绕网络结构轻量化展开了多轮迭代实验 ,反复权衡复杂度与音质的平衡,最终探索出适配实时场景的极低复杂度方案 IRIS(Internet Real-time Intelligent Streaming Codec)。IRIS 采用端到端 AI Codec 架构:编码器接收音频帧,经量化后,量化特征传入解码器解码为 STFT(短时傅里叶变换)系数,最终通过逆 STFT 输出解码音频。

  • 编码模块:编码器由多个残差模块构成,残差模块处理后特征,经一维卷积与 GRU 层处理完成编码。
  • 量化模块:采用 RVQ(残差向量量化)算法,共 12 层码书(每层 1024 大小)。1kbps 模式用 2 层,6kbps 模式用 12 层,灵活适配比特率与音质。
  • 解码模块:以一维卷积层投影量化特征,堆叠多个 Conv2FormerBlock(比常用的 Conv2NeXt 合成质量更优)处理特征,最终经逆 STFT 生成语音。
火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩
赛道 1 模型结构示意图

赛道 2 方案:Enhance-Nanocodec 融合编码与增强

赛道 2 需额外实现降噪、去混响功能,团队为此提出全时频域架构 Enhance-Nanocodec,并通过多阶段训练分配算力,兼顾编码与增强效果。Enhance-Nanocodec 全程在时频域操作:输入波形经 STFT 转为频谱,编码器仅保留幅度用于特征提取;解码器前设 ECD(Energy Content Decoupling)层解耦光谱能量与内容;编码器、解码器共享 LKCAB(Large Kernel Convolution-Style Attention Block)建模单元;解码器估计幅度与相位,结合后经逆傅里叶变换输出音频,同时实现降噪、去混响。

火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩
赛道 2 模型结构示意图

创新训练方案:多维度优化性能

在赛道 1 低复杂度、低延时、数据集受限的严苛要求下,团队还通过多项策略优化编码质量:

  • 数据增广:在数据集受限的情况下,通过加噪、加混响、多人混音、音频变调等低成本方式扩充数据,增强模型泛化能力,最终模型在赛道 1 多个数据集的评估下均取得了较高的名次,体现了模型对于不同类型语音的泛化能力。
  • 多判别器优化:低复杂度模型易出现时域失真、频谱细节丢失等问题,单一判别器难以全面捕捉这些缺陷,导致优化方向偏差,从时域波形、频域结构、听觉感知三个维度联合优化方向出发,采用了多种判别器:时域多周期判别器、多尺度 STFT 谱图判别器、多尺度梅尔谱图判别器,有效减少了频谱失真,中高频细节更清晰。
  • 多损失函数优化:低复杂度模型的特征表达能力有限,单一损失函数易导致某一音质维度(如时域能量相似程度、频域相似度)达标,而其他维度存在缺陷,因此整合 STFT 谱损失、梅尔谱损失、判别器损失、RVQ 码本损失、PESQ 损失等,覆盖技术指标与人类听觉感知的双重需求,全面优化音频主客观质量。
  • 梯度直传:量化器是 AIcodec 模型中的核心模块,但量化操作是离散的,量化后特征与编码输出特征间会存在误差,编解码的梯度传递通常需要用到近似梯度,这会导致梯度失真,使低复杂度模型的参数优化不充分,合成质量受限,为优化该问题,在训练中 50% 概率不训练码本,实现编解码器的直接梯度回传,提升合成质量。
  • 二阶段微调:梅尔谱损失在训练中更侧重低频能量,易忽略中高频谐波细节,为解决这一问题,第一阶段用常规损失配比训练基础模型,二阶段微调时降低梅尔谱损失占比,强化 STFT 谱损失对中高频的优化权重,中高频谐波细节得到修复,语音的音色还原度能够得到进一步提升。

针对赛道 2 的降噪需求,团队设计了三阶段训练方案:

  • 阶段 1:为避免码本存储噪声信息,用纯净语音训练编码器、码本与解码器,确保码本仅存纯净语音信息;同时用超比赛复杂度的教师解码器,指导编码器提取语音信息。
  • 阶段 2:让编码器具备降噪能力,且不增加量化与解码模块的复杂度,冻结量化器与解码器,用带噪声、混响的语音训练学生编码器,使其输出逼近教师编码器,具备降噪能力。
  • 阶段 3:冻结编码器与量化器,训练符合复杂度要求的学生解码器,实现纯净语音波形重建。

实验结果表明,上述优化方案在严格遵守赛道复杂度与延迟约束的前提下,有效解决了低资源场景下音质和复杂度难以平衡的核心痛点,为实时通信、边缘设备音频传输等场景提供了高效可行的技术路径。

详细技术报告可参考 : https://crowdsourcing.cisco.com/lrac-challenge/2025/results

成果总结与未来展望

2025 LRAC 低资源音频编解码器比赛作为全球首个低资源音频编解码专项赛事,其评估体系极具严谨性与权威性:赛事共开展 65 项听力测试,对 17 款编解码器在两种比特率模式下的表现进行专项测试,累计收集约 186,720 条音频文件独立评分,吸引 24,140 名众包参与者(非全部唯一)参与评估,全方位、大规模的主观评测为赛事排名提供了坚实依据,其结果具有重要的行业风向标意义。团队凭借 IRIS 与 Enhance-Nanocodec 两大核心方案,斩获赛道 1 冠亚军、赛道 2 季军的优异成绩,充分证明方案在低复杂度、低延迟的严格约束下,仍能实现卓越的音频重建质量与增强效果,综合竞争力突出。

未来,团队将继续提升编码质量、降低计算复杂度,同时开发丢包补偿、多采样率适配、语音 / 音乐统一编码等功能,推动方案在实时通信、直播、物联网等更多场景落地,为行业提供更高效的音频技术支撑。

团队介绍

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐