AI降噪的N种数据扩增方法

音频技术 • 来源：语音算法组 • 2023年3月2日下午3:06 • 技术文章

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

基于统计信号处理的传统噪声抑制方法是通过检测持续的背景声，来估计背景噪声，然后通过估计到的背景噪声计算增益因子对带噪语音进行抑制。但这种方式针对规律的稳态噪声比较有效，如空调声，吸尘器的声音等，而针对突发噪声，如撞击声，键盘声，关门声等等效果往往不如人意。随着深度学习的兴起，越来越多的人们开始关注并使用深度学习强大的非线性能力进行语音降噪。数据驱动的方法如何生成高质量的数据在训练过程中显得尤为重要，这里对AI降噪的一些数据扩增方法进行了总结和实现。

MixTransform

首先使用最多的就是让纯净语音和带噪语音按照不同信噪比进行混合，这样就可以得到丰富的带噪语音，一般采用随机数生成随机的信噪比，信噪比的范围可以根据自己的使用场景进行设定。

SpecTransform

在RNNoise论文中，作者提出使用二阶的IIR滤波器分别对语音信号和噪声信号进行处理，从而丰富语音频谱特性。

VolTransform不同设备的增益不同，不同距离的说话人声音大小不同，为了模拟这种情况，可以使用阶梯状的增益对语音信号进行处理。

FilterTransform

我们知道有些设备会对输入信号进行EQ处理，从而使得声音具有一定的偏向性，这里可以使用滤波器进行类似的数据扩增。

ClipTransform

当声音大小超过输入设备比特所能表示的最大范围后就会发生削顶，这种也是现实生活中常见的一种情况。

ReverbTransform

为了模拟不同的使用场景，可以通过RIR去模拟不同的房间对应的不同的混响时间。

BreakTransform

在网络通话过程中丢包是很常见的事情，我们可以通过时间轴上的mask来模拟语音帧不连续的过程。

HowlingTransform

啸叫也是会议通话场景经常会发生的情况，我们可以通过AIR和回路中大于1的增益来模拟这种情况。

DynamicTransform

上面所讲的都是针对一种情况的数据扩增方法，但是真实声学环境比较复杂，很容易想到使用以上的2种或者多种组合进行数据扩增。

Conclusion

以上就是AI降噪常用的数据扩增方式，当然篇幅有限还有其他的数据扩增方式没有介绍。总的来说，训练数据是否丰富和干净一定程度上决定了AI降噪模型的性能，正如本文开头那句话所阐述的道理。

作者：Ryuk

来源：语音算法组，本文相关代码在公众号语音算法组菜单栏点击Code获取

版权声明：本文内容转自互联网，本文观点仅代表作者本人。本站仅提供信息存储空间服务，所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至1393616908@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

音频技术认证作者

0

技术文章

游戏开黑交友中的 AI 降噪与防炸麦处理方法

五个人开黑，场面通常是这样的：打野是机械键盘党，青轴敲得像放鞭炮；辅助开着外放，你能同时听到他那边的游戏 BGM；还有个上单，一波团战打赢了猛地一吼，你的耳膜先阵亡了。很多人下意…

ZEGO即构科技
2026年6月9日
技术文章

音乐场景自适应降噪方案

随着线上泛娱乐的兴起，语聊房、在线 KTV 以及直播等场景在人们的日常生活中占据越来越重要的地位，用户对于音质的要求也越来越高，因此超越传统语音降噪算法的 AI 降噪算法应运而生，…

ZEGO即构科技
2023年2月17日
行业资讯

Waves Audio Clarix LB：用于直播的 AI 降噪插件

Waves Audio 现已推出 Clarix LB：一款 AI 驱动的语音降噪插件，旨在即时清除实时直播环境中的环境噪音。Clarix LB 是现场主播、记者、直播礼拜或任何现场…

茉莉
2025年8月22日
技术文章

消灭非稳态噪音的利器 – AI 降噪

轻量级神经网络降噪方法，解析 ZegoAIDenoise 的算法实现！轻量级神经网络降噪——ZegoAIDenoise 当下，用户在进行音频通话时常常置身于各种不同的场景中，嘈杂…

ZEGO即构科技
2022年4月14日
行业资讯

Cyber Acoustics 推出新型耳机，可完全消除呼叫中心、办公室、家庭和混合工作环境中的背景噪音

2024年3月5日，Cyber Acoustics，一家为学校、企业和家庭提供可靠且经济实惠的计算机外围设备的领先制造商，今天发布了具有人工智能降噪功能的Cyber Acousti…

茉莉
2024年3月6日
实时音视频

语音通话AI降噪技术

在日常生活中，噪声是影响语音通话质量的重要因素之一。语音降噪技术通过消除噪声并提取干净语音，从而提高语音质量和可懂度，在移动通信、耳机、会议系统、语音交互等应用中具有巨大价值。近年…

音频技术
2023年2月18日