低复杂度降噪技术:助力扫地机器人实现高效实时语音处理

在智能家居设备中,扫地机器人的语音交互功能常受限于其自身运行时产生的高强度噪声,尤其是在信噪比(SNR)低至 – 10 dB 甚至更低的环境下,提取有效语音指令变得极具挑战。

针对这一问题,韩国庆北国立大学与 LG 电子先进机器人实验室的研究团队联合开发了一种适用于扫地机器人本地处理器的低复杂度噪声抑制方法,该方法通过创新的噪声估计模型和启发式降噪算法,在保证实时处理能力的同时,有效提升了低信噪比环境下的语音提取性能。

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
图1

图1:噪声抑制任务描述。(展示系统输入、噪声估计、降噪算法及系统输出的流程关系,其中系统输入包含噪声与目标信号,经噪声估计和降噪算法处理后输出目标信号)

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
图 2. 实验机器人侧视图
低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
图 3. 机器人俯视图

该研究的核心在于将低信噪比下的语音提取问题转化为高信噪比的噪声估计问题。研究团队利用扫地机器人自身运行噪声可预先采集的特点,训练神经网络专注于估计噪声的幅度谱,而非直接提取目标语音信号。这一思路的转变使得低复杂度模型能够在资源受限的移动处理器上高效运行,同时避免了传统方法在低信噪比下性能急剧下降的问题。

为模拟真实场景,研究团队构建了多样化的数据集:在消声室中录制了 4883 条语音指令,并从家庭、办公室等不同环境中采集了近 240 分钟的扫地机器人运行噪声,涵盖了碰撞、吸入固体颗粒、不同地板材质(地毯、瓷砖、油毡)等多种场景。这些数据为模型的训练和评估提供了基础,确保其在复杂环境中仍能保持稳定性。

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
图 4

图 4. 不同环境下录制的扫地机器人运行噪声平均频谱图(对比了多种环境下噪声频谱的差异,涉及不同地板材质如地毯、瓷砖、油毡,混响时间(RT60)在 0.7-0.8 秒之间)

在算法设计上,该方法包含两个关键阶段:首先,通过简化的神经网络估计噪声在时频域的幅度;随后,将神经网络的输出转化为掩码矩阵,通过启发式规则对掩码进行优化(如设置阈值避免过小值影响结果),最终将掩码应用于输入信号以提取目标语音。

值得注意的是,研究团队对神经网络架构进行了精简,移除了计算密集的 conformer 模块、复杂解码器和判别器,在减少约 25% 模型规模的同时,仅造成微小的性能损失,使其参数规模降至约 20 万,远小于同类模型(如 CMGAN 的 183 万参数)。

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理

图 6. 所提系统的整体结构(描述系统输入经神经网络估计噪声、再通过降噪算法处理后输出目标信号的全过程)

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理

图 7. 所提降噪方法与传统方法的对比(a)输入到神经网络的混合信号(b)神经网络估计的噪声成分(c)通过所提算法将噪声成分转换为目标信号掩码的结果(d)所提方法得到的目标信号估计结果(f)传统方法直接估计的目标信号成分(g)传统方法应用估计结果后的输出

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理

图 8. 神经网络结构概述(展示编码器与解码器的组成:输入为频谱的实部、虚部和幅度成分,编码器包含卷积块和膨胀密集网络(Dilated DenseNet),解码器通过亚像素卷积(Sub-Pixel convolution)恢复频率维度,最终输出掩码)

低复杂度降噪技术:助力扫地机器人实现高效实时语音处理

图 9. -15dB 信噪比环境下不同方法的输出对比(蓝色箭头指示输入信号中不存在的类语音伪影,对比了所提方法与 CMGAN、MP-SENet、TaylorSENet、ConvTasNet、DPTNET、DPRNN 的输出结果)

实验结果显示,该方法在 – 10 dB 信噪比下,SI-SDR(尺度不变信号失真比)提升 9.73 dB,SDR(信号失真比)提升 11.30 dB,性能接近 TaylorSENet、DPTNET 等计算量更大的模型;在 – 18 dB 的极端低信噪比环境下,仍能保持稳定性能,而多数对比模型已失效。

此外,该模型在不同环境中表现出较强的鲁棒性,例如在地毯、瓷砖等不同地板材质场景中,性能波动较小,且不会像 CMGAN、MP-SENet 等模型那样生成虚假语音信号,避免了语音识别系统的误触发。

在计算效率方面,该模型在 Qualcomm Robotics RB5 移动处理器上的推理时间仅为 0.06 秒,实时因子(RTF)低至 0.0014,远优于同类模型(如 CMGAN 的 RTF 为 6.2074),完全满足扫地机器人的实时处理需求。即使进一步缩减模型通道数(从 40 降至 20),性能下降仍控制在 1 dB 以内,展现出在资源受限设备上的广泛适用性。

这项研究不仅为扫地机器人的语音交互提供了实用解决方案,其低复杂度设计思路也为其他资源受限设备(如智能音箱、可穿戴设备)的噪声抑制任务提供了参考。未来,研究团队计划将该方法扩展至语音活动检测、声音事件识别等领域,并进一步优化掩码估计的理论基础,以提升处理精度。

更多信息:S. Shin, M. Kim, I. Jeon, J.-M. Song, Y. Park, J. Son, and S. Lee, “Noise Suppression Method With Low-Complexity Noise Estimation Model and Heuristic Noise-Masking Algorithm for Real-Time Processing of Robot Vacuum Cleaners,” IEEE Access, vol. 13, pp. 789-801, 2025, doi: 10.1109/ACCESS.2024.3522937.

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论