声学回声消除(Acoustic Echo Cancellation, AEC) 作为语音通信系统的核心预处理模块,其核心任务是从麦克风采集信号中实时分离近端语音(near-end speech)与远端回声(far-end echo)。该技术对保障实时通信(RTC)系统(如视频会议、智能家居设备)的语音质量及下游任务(如自动语音识别、声纹验证)的鲁棒性至关重要。当前基于神经网络的AEC方法虽在非线性回声抑制方面显著优于传统自适应滤波算法,但其高参数量与计算复杂度(常达数百万MACs)难以满足资源受限边缘设备的低延迟部署需求。
西北工业大学音频语音与语言处理组(ASLP@NPU)最新研究成果 “EchoFree: Towards Ultra Lightweight and Efficient Neural Acoustic Echo Cancellation” 被语音领域旗舰会议 ASRU 2025 接收。该工作提出超轻量级混合AEC框架,仅需 278K参数 与 30 MMACs计算量,在低资源设备上实现媲美SOTA的轻量级回声消除模型DeepVQE-S的性能。
论文题目:EchoFree: Towards Ultra Lightweight and Efficient Neural Acoustic Echo Cancellation
作者列表:李星辰,康博意,王子谦,张子晗,刘铭帅,付中华,谢磊
论文网址:https://arxiv.org/abs/2508.06271
背景动机
声学回声消除(AEC)作为远场语音通信系统的核心前端任务,需抑制远端语音经本地麦克风反馈产生的回声,以避免用户体验退化及下游任务(如语音识别、声纹验证)的性能下降。现有技术主要分为三类:1)传统DSP方法:基于自适应滤波(如NLMS/RLS算法),但受限于线性假设,难以处理扬声器非线性失真,且依赖人工设计残差抑制模块,在复杂场景中泛化能力差;2)神经网络方法:虽能有效抑制非线性回声并显著提升性能,但存在高计算复杂与大参数量问题,难以部署至资源受限的边缘设备;3)混合方法:结合线性滤波与神经后处理,但仍面临效率与性能的权衡挑战。
针对上述挑战,我们提出了EchoFree——一种专为资源受限边缘设备设计的超轻量级AEC模型。EchoFree采用了一种高效混合架构,将线性滤波与神经后置滤波器相结合。该神经后置滤波器利用Bark尺度的压缩功率谱表征,该方法已被证明能有效降低计算复杂度,同时保留关键语音信息[1]。此外,自监督学习(SSL)模型生成的嵌入向量被证实具有丰富的声学和语义信息[2],这一特性已被用于提升语音增强模型的性能[3]。受此启发,我们提出并应用了基于SSL模型的两阶段优化策略:通过SSL模型以渐进式学习方式引导神经网络(从粗粒度到细粒度的频谱表征),该方法显著增强了模型的回声抑制能力。
提出的方案
线性滤波模块
该方法采用分区块频域自适应卡尔曼滤波器作为预处理核心,通过实时处理混合麦克风信号与远端参考信号,实现对线性回声成分的初步消除。该设计在保留传统自适应滤波快速收敛特性的同时,通过频域分块处理显著降低了内存占用,为后续神经网络的残差回声抑制奠定了低复杂度的信号基础,其256点FFT配置与10分区的参数选择充分考虑了边缘设备的计算约束。
神经后置滤波器
该模块创新性地构建了基于Bark尺度特征压缩的轻量化U-Net架构,如图3所示,通过双分支深度可分离卷积分别处理混合信号与估计回声,经单向GRU瓶颈层融合后,采用亚像素卷积进行高效上采样。其中,将257维频谱压缩至100维Bark尺度的特征,在保留人耳敏感频段信息的同时降低了计算负载,而深度可分离卷积与GRU的组合实现了参数量的缩减,最终形成的[T, D]维度特征张量既保障了时频建模能力,又满足了实时性要求。

损失函数设计
我们提出图2所示的两阶段渐进式优化策略,第一阶段利用冻结参数的WavLM模型提取声学嵌入,通过MSE损失约束输出信号的语义表征一致性;第二阶段引入融合四阶误差项与交叉熵正则的Bark增益损失,在SSL损失引导的粗粒度优化基础上,重点强化听觉关键频带的精细调节。这种从全局表征到局部特征的协同优化机制,使得模型在ICASSP 2023盲测集上的EchoMOS指标得到了明显的提升,同时显著改善了频谱失真问题。

实验
实验数据: ICASSP 2021 DNS Challenge 的干净语音数据,从中筛选了约9万条语音样本,共573小时。
对比系统:
- ULCNet-AER[4]:最近提出的针对低计算复杂度进行优化的轻量级 AEC 模型。
- Bark-scale feature-based AEC[5]:采用Bark尺度特征作为神经网络后滤波器的输入,使其成为评估我们方法优势的合适基准。下文中,我们将此方法称为Bark-AEC。
- DeepVQE-S[6]:一种最先进的端到端 AEC 模型,具有显著更高的计算复杂度,可作为上限比较。

消融实验:
我们进行了消融研究,以分析不同训练策略对所提模型的影响。表1展示了我们的烧蚀实验结果,比较了四种配置:1)只使用线性AEC;2)采用传统的增益损失函数进行训练;3)SSL损失训练;4)两阶段训练:首先用SSL损失函数进行优化,然后用SSL损失函数和增益损失函数相结合的方法进行微调。消融实验的客观指标如表1所示。
为了评估所提出的两阶段训练策略的有效性,我们对每个阶段的模型输出进行了可视化。如图5所示,第一阶段训练的模型能够初步抑制回波;然而,在高频区域偶尔会出现明显的失真。这些问题在第二阶段训练后得到了实质性的缓解。

参考文献
[1] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015 – 18th International Conference Munich, Germany, October 5-9, 2015.
[2] X. Zhu, Y. Lv, Y. Lei, T. Li, W. He, H. Zhou, H. Lu, and L. Xie, “Vec-tok speech: speech vectorization and tokenization for neural speech generation,” CoRR, vol. abs/2310.07246, 2023.
[3] R. Shankar, K. Tan, B. Xu, and A. Kumar, “A closer look at wav2vec2 embeddings for on-device single-channel speech enhancement,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024, Seoul, Republic of Korea, April 14-19, 2024, 2024.
[4] S. S. Shetu, N. K. Desiraju, J. M. M. Aponte, E. A. P. Habets, and E. Mabande, “A hybrid approach for low-complexity joint acoustic echo and noise reduction,” in 18th International Workshop on Acoustic Signal Enhancement, IWAENC 2024, Aalborg, Denmark, September 912, 2024, 2024.
[5] E. Seidel, P. Mowlaee, and T. Fingscheidt, “Efficient high-performance bark-scale neural network for residual echo and noise suppression,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024, Seoul, Republic of Korea, April 14-19, 2024, 2024.
[6] N. Ristea, E. Indenbom, A. Saabas, T. P ̈arnamaa, J. Guzvin, and R. Cutler, “Deepvqe: Real time deep voice quality enhancement for joint acoustic echo cancellation, noise suppression and dereverberation,” in 24th Annual Conference of the International Speech Communication Association, Interspeech 2023, Dublin, Ireland, August 20-24, 2023.
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。