火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩

作为全球首届低资源音频编解码器专项赛事，ICASSP 2026 低资源音频编解码器比赛（2025 Low-Resource Audio Codec Challenge，LRAC Challenge）吸引了安克创新、地平线机器人、南京大学等众多产学研机构参与。字节跳动旗下火山引擎多媒体实验室音频编解码团队、实时音频团队，联合中国科学院声学所研发的音频压缩算法表现突出，在两项核心赛道斩获佳绩：teamwzqaq、nano-codec 两支队伍分获赛道 1 冠、亚军，nano-codec 还拿下赛道 2 季军。这一成绩不仅印证了团队在行业核心技术领域的领先实力，更为实时通信、流媒体等场景，提供了低复杂度、低码率且高音质的音频压缩解决方案。

音频编解码器：多媒体核心支撑与低码率复杂度平衡难题

音频编解码器是对音频信号进行压缩编码与解压缩解码的关键技术，更是现代多媒体技术的核心基础设施。它通过特定算法将原始音频数据转化为更紧凑的数字格式，大幅降低存储和传输成本，同时能在播放时精准还原原始音质。从传统电话、5G 通话到在线音乐、智能音箱、车载语音交互，几乎所有音频相关应用都离不开这一技术，其在数字音频普及、通信技术升级、流媒体产业发展和物联网场景推广中，发挥着不可替代的支撑作用。

当前音频编解码技术呈现明显的场景分化与核心挑战：Opus、xHE-AAC、EVS 等传统算法在 12-64kbps 中等码率场景下已能提供良好音质，广泛应用于语音通话、音乐流媒体等常规场景；但在 1-6kbps 极低码率场景中，传统算法易出现量化噪声、频谱失真等问题，严重影响语音可懂度与听觉体验，难以满足 5G/6G 远程通信、物联网设备等低带宽需求。近年来，深度学习技术推动行业实现突破性进展，Google 的 SoundStream、Meta 的 EnCodec 等 AI 驱动的编解码方案，凭借端到端神经网络架构，在 1-6kbps 超低码率下实现了接近传统算法 12-16kbps 的音质表现。然而，这些先进 AI 技术普遍存在计算复杂度高、内存占用大的短板：接近 GMACS 级别运算复杂度的模型在边缘设备、移动终端等端侧场景难以部署与运行，大多数实用化的端上模型复杂度需控制在 100MMACS 左右。因此，如何在极低码率下兼顾高重建质量与低计算复杂度，成为当前音频编解码领域的核心难题。

2025 LRAC 挑战赛：全球技术比拼的舞台

作为全球首次举办的低资源音频编解码器专项挑战赛，2025 LRAC 挑战赛由思科联合卡内基梅隆大学（CMU）等顶尖机构发起，同时也是 ICASSP 2026 LRAC workshop 的核心组成部分。赛事填补了行业在低资源音频编解码领域专项竞技平台的空白，聚焦资源受限设备（如嵌入式系统、移动设备）对高效语音编解码器的迫切需求，旨在集结全球智慧，研发能在真实噪声环境中稳定运行、兼顾高效性与稳健性的神经语音编解码器。

赛事设两大赛道，技术约束严格：

赛道 1：透明编解码器赛道

目标：轻度噪声、混响环境下，保持语音感知透明度（用户难分原始与解码语音）
限制：延迟≤30ms（含编码端缓冲），计算复杂度≤700 MFLOPS（接收端≤300 MFLOPS）

赛道 2：增强编解码器赛道

目标：编码压缩的同时，实现降噪和去混响
限制：延迟≤50ms，计算复杂度≤2600 MFLOPS（接收端≤600 MFLOPS）

此外，所有参赛系统需满足统一标准：支持 24kHz 采样率，覆盖 1kbps（超低）、6kbps（低）比特率模式；能在日常噪声、混响环境可靠运行，满足实时通信低延迟需求；训练数据仅限赛事提供，确保公平。

赛事以主观评分排名，评估场景包括纯净语音、噪声 / 混响语音、多说话人场景及语音可懂度测试，通过 MUSHRA、DMOS、MOS、DRT 等指标加权计算最终成绩。

比赛排名与相关细节参考比赛官网：https://crowdsourcing.cisco.com/lrac-challenge/2025/

赛道 1 方案：IRIS Codec 平衡低复杂度与高音质

针对赛道 1 严苛的低复杂度、低延迟要求，团队在过往低资源编解码研发经验基础上，围绕网络结构轻量化展开了多轮迭代实验，反复权衡复杂度与音质的平衡，最终探索出适配实时场景的极低复杂度方案 IRIS（Internet Real-time Intelligent Streaming Codec）。IRIS 采用端到端 AI Codec 架构：编码器接收音频帧，经量化后，量化特征传入解码器解码为 STFT（短时傅里叶变换）系数，最终通过逆 STFT 输出解码音频。

编码模块：编码器由多个残差模块构成，残差模块处理后特征，经一维卷积与 GRU 层处理完成编码。
量化模块：采用 RVQ（残差向量量化）算法，共 12 层码书（每层 1024 大小）。1kbps 模式用 2 层，6kbps 模式用 12 层，灵活适配比特率与音质。
解码模块：以一维卷积层投影量化特征，堆叠多个 Conv2FormerBlock（比常用的 Conv2NeXt 合成质量更优）处理特征，最终经逆 STFT 生成语音。

赛道 2 方案：Enhance-Nanocodec 融合编码与增强

赛道 2 需额外实现降噪、去混响功能，团队为此提出全时频域架构 Enhance-Nanocodec，并通过多阶段训练分配算力，兼顾编码与增强效果。Enhance-Nanocodec 全程在时频域操作：输入波形经 STFT 转为频谱，编码器仅保留幅度用于特征提取；解码器前设 ECD（Energy Content Decoupling）层解耦光谱能量与内容；编码器、解码器共享 LKCAB（Large Kernel Convolution-Style Attention Block）建模单元；解码器估计幅度与相位，结合后经逆傅里叶变换输出音频，同时实现降噪、去混响。

创新训练方案：多维度优化性能

在赛道 1 低复杂度、低延时、数据集受限的严苛要求下，团队还通过多项策略优化编码质量：

数据增广：在数据集受限的情况下，通过加噪、加混响、多人混音、音频变调等低成本方式扩充数据，增强模型泛化能力，最终模型在赛道 1 多个数据集的评估下均取得了较高的名次，体现了模型对于不同类型语音的泛化能力。

多判别器优化：低复杂度模型易出现时域失真、频谱细节丢失等问题，单一判别器难以全面捕捉这些缺陷，导致优化方向偏差，从时域波形、频域结构、听觉感知三个维度联合优化方向出发，采用了多种判别器：时域多周期判别器、多尺度 STFT 谱图判别器、多尺度梅尔谱图判别器，有效减少了频谱失真，中高频细节更清晰。

多损失函数优化：低复杂度模型的特征表达能力有限，单一损失函数易导致某一音质维度（如时域能量相似程度、频域相似度）达标，而其他维度存在缺陷，因此整合 STFT 谱损失、梅尔谱损失、判别器损失、RVQ 码本损失、PESQ 损失等，覆盖技术指标与人类听觉感知的双重需求，全面优化音频主客观质量。

梯度直传：量化器是 AIcodec 模型中的核心模块，但量化操作是离散的，量化后特征与编码输出特征间会存在误差，编解码的梯度传递通常需要用到近似梯度，这会导致梯度失真，使低复杂度模型的参数优化不充分，合成质量受限，为优化该问题，在训练中 50% 概率不训练码本，实现编解码器的直接梯度回传，提升合成质量。

二阶段微调：梅尔谱损失在训练中更侧重低频能量，易忽略中高频谐波细节，为解决这一问题，第一阶段用常规损失配比训练基础模型，二阶段微调时降低梅尔谱损失占比，强化 STFT 谱损失对中高频的优化权重，中高频谐波细节得到修复，语音的音色还原度能够得到进一步提升。

针对赛道 2 的降噪需求，团队设计了三阶段训练方案：

阶段 1：为避免码本存储噪声信息，用纯净语音训练编码器、码本与解码器，确保码本仅存纯净语音信息；同时用超比赛复杂度的教师解码器，指导编码器提取语音信息。

阶段 2：让编码器具备降噪能力，且不增加量化与解码模块的复杂度，冻结量化器与解码器，用带噪声、混响的语音训练学生编码器，使其输出逼近教师编码器，具备降噪能力。

阶段 3：冻结编码器与量化器，训练符合复杂度要求的学生解码器，实现纯净语音波形重建。

实验结果表明，上述优化方案在严格遵守赛道复杂度与延迟约束的前提下，有效解决了低资源场景下音质和复杂度难以平衡的核心痛点，为实时通信、边缘设备音频传输等场景提供了高效可行的技术路径。

详细技术报告可参考 : https://crowdsourcing.cisco.com/lrac-challenge/2025/results

成果总结与未来展望

2025 LRAC 低资源音频编解码器比赛作为全球首个低资源音频编解码专项赛事，其评估体系极具严谨性与权威性：赛事共开展 65 项听力测试，对 17 款编解码器在两种比特率模式下的表现进行专项测试，累计收集约 186,720 条音频文件独立评分，吸引 24,140 名众包参与者（非全部唯一）参与评估，全方位、大规模的主观评测为赛事排名提供了坚实依据，其结果具有重要的行业风向标意义。团队凭借 IRIS 与 Enhance-Nanocodec 两大核心方案，斩获赛道 1 冠亚军、赛道 2 季军的优异成绩，充分证明方案在低复杂度、低延迟的严格约束下，仍能实现卓越的音频重建质量与增强效果，综合竞争力突出。

未来，团队将继续提升编码质量、降低计算复杂度，同时开发丢包补偿、多采样率适配、语音 / 音乐统一编码等功能，推动方案在实时通信、直播、物联网等更多场景落地，为行业提供更高效的音频技术支撑。

团队介绍

火山引擎多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎是字节跳动旗下的云服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业，提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务，帮助企业在数字化升级中实现持续增长。