单通道语音唤醒与语音增强结合时的性能变化

音频技术 • 来源：21dB声学人 • 2023年10月10日上午10:13 • 技术文章

单通道语音唤醒常应用于TWS耳机、智能手表等边缘设备上，作为语音助手的“守门员”。各信噪比下的唤醒率、每日误唤醒、唤醒延迟、模型参/算量是衡量语音唤醒算法性能的若干关键指标。低信噪比下唤醒率低，一直是语音唤醒的应用痛点和技术难点。

一方面，算法工程师可扩大唤醒模型或保证参数精度（如不用int8量化，保持f32），来保证分类边界的复杂度与精细度理论上限，并在数据增强阶段以不同噪声种类、不同信噪比充分加噪，以及卷混响，来喂饱模型，以充分而细致地分开正、负样本。之所以提到分类边界，是因为语音唤醒在本质上隶属分类问题，分类单元可以是唤醒词整体，也可以是音节（如汉语）/音素（如英语）。

另一方面，也是很自然地，算法工程师会想到使用语音增强技术对唤醒输入去噪，从而使分类边界上容易遗漏的样本点，远离危险的分类边界，向算法可以“囊括”的唤醒安全区迁移，从而减少强噪条件下的漏唤醒，但此法的有效性还未得到针对性、系统性的对比实验验证。

近日，德克萨斯大学达拉斯分校及苹果的研究人员发表一篇论文，对比研究了单通道条件下，语音增强与语音唤醒结合时的性能问题：

实验一：无语音增强前端，后端语音唤醒算法是基于带噪数据训得。
实验二：有语音增强前端，后端语音唤醒算法是基于纯净数据训得。
实验三：有语音增强前端，后端语音唤醒算法是基于带噪数据训得。

在实验二、三中，还可衍生出三种情况：首先是预训练好的后端语音唤醒模型的参数固定住，前端语音增强模型参数微调；其次是前端模型参数不动，后端唤醒模型，基于语音增强处理后的样本再微调一下；最后是两个都不固定，联合训练。这三种情况使用的损失函数是分类交叉熵损失加降噪SDR损失。

最终的唤醒率测试结果表明，实验二、三中无论如何“折腾”，分类准确率都不如实验一。

该实验使用的唤醒/关键词是谷歌语音命令词数据集的第二版本(Google Speech Command V2)，背景噪声取自WHAM!数据集，唤醒模型为BC-ResNet，降噪模型为Conv-TasNet。

其实所用唤醒词、背景噪声、降噪及唤醒骨干网络都不影响结论的得出，此篇论文的不完美之处在于给出的指标是分类准确率（其中两类是无关词和静音分类），而不是工业界常用的唤醒率与误唤醒。引入语音增强作为前端，不仅是对唤醒样本降噪，同样也对背景噪声降噪，不仅改变了唤醒率，同样也改变了误唤醒。如果找数百乃至数前小时的公开数据集，作为误唤醒测试语料，给出引入降噪模型作为前端后，ROC或DET曲线的变化，结论会更加有说服力，无论这个结论是说降噪前端是有益或是有害的。

参考文献
[1] Avamarie Brueggeman, et al., “Does single-channel speech enhancement improve keyword spotting accuracy? A case study,” arXiv preprint arXiv:2309.16060, 2023.