AVS3实时语音标准制定取得重要进展

近日，AVS3P10实时语音编码标准获得重要进展。

2023年12月14日，第 87 次 AVS 工作组会议于成都开幕。会上，《智能媒体编码第 10 部分实时语音》（以下简称AVS3P10） WD 1.0通过全体会议审议；腾讯提交的技术方案，被选择为AVS3P10实时语音编码的RM0基线。

实时语音通信技术（RTC: Real-time Communication），已广泛应用于协同办公、互动娱乐、社交等领域。上述多样丰富的应用场景给实时语音通信技术提出了多种技术挑战，其中，高质量、低延时、低带宽、高抗性的语音编码是非常重要的一环。

传统的语音编码器，包括AVS、ITU-T等标准语音编码器，在16-20kbps左右码率时，能够恢复出高质量宽带语音；在30-35kbps，可以恢复出高质量超宽带甚至全带语音。然而，当码率进一步降低（如：降到10kbps以下时），传统语音编码器恢复的质量下降明显，影响用户体验。

基于上述应用诉求，在今年3月第84次AVS会议上，由腾讯提议在AVS音频组启动面向实时语音通信场景的低码率高质量语音统项目。经过需求分析，在第85次AVS会议上，AVS正式立项AV3P10实时语音编码项目，并通过AVS音频组发出技术征集书。AVS3P10实时语音编码项目将由来自腾讯会议天籁实验室的肖玮负责推进和维护。

在第 86 次 AVS 会议上，音频组审议了由腾讯会议天籁实验室提交的M7886《AVS3P10语音编码参考模型候选技术方案》提案。

审议指出该方案具有以下4点特征：深度融合了经典信号处理和深度神经网络技术等人工智能技术，属于AI Codec；支持低码率、高质量编码、实时编码和解码和多速率编码；基于子带编码和多模式编码架构，低频信号采用深度神经网络提取特征，高频信号采用频带扩展方案提取特征，结合标量量化和熵编码完成特征压缩；具有开放的编码神经网络架构技术特征，在保证码流前向兼容基础上，可以重新修改和优化编码神经网络。

今年11 月 1 日，腾讯会议天籁实验室提交AVS3P10 RM0候选方案的可执行文件，由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。交叉验证力求全面，基于 ITU-T P.800 DCR主观质量评价体系，主观测试覆盖不同带宽下纯净语音、丢包语音、混合语音等多场景，并首次将3A处理后的测试场景引入信源编码器测试中，以检验新一代AI Codec技术在贴近真实场景的表现。

在上述测试场景下，AVS3P10 RM0质量优势明显。主观测试结果表明，AVS3P10 RM0在宽带和超宽带等多个主要测试场景均达到了4.0以上MOS分，体现出明显优势，最低码率可达5.9kbps。AVS3P10 RM0采纳了深度神经网络技术，自带的丢包损伤能力，有效提升了编码器在网络不佳时的质量。

此外，在ITU-T P.863客观质量评价实验中，AVS3P10 RM0也体现出了显著优势。第一，在所有8个测试码率中，AVS3P10 RM0均超过4.0MOS，最高在4.45MOS。AVS3P10 RM0的质量，可以对齐OPUS和EVS等传统信号处理编码器在中高码率的表现，达到运营级质量。在AI Codec领域，AVS3P10 RM0在相近码率下，质量优势在0.6MOS以上。上述测试结论均反映出，AVS3P10 RM0代表了目前AI Codec的最高水平。

AVS3P10 实时语音编码，作为新一代的语音编解码技术标准，是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求，体现了业界最高水平，将为用户带来前所未有的性能和体验，引领行业进入一个全新的时代。

未来，AVS3P10实时语音编码项目，将按照既定计划推进。预计，在2024年年中，完成标准化工作。