实时语音活动检测:兼顾精度与计算量的平衡之道

作者:Ryuk
来源:语音算法组

语音活动检测(Voice Activity Detection,VAD),又称端点检测是音频领域比较常用的一个算法,其作用是检测语音的起点和终点。它可以在语音编码中对静音帧和非静音帧采用不同的编码方式以节省带宽,也可以作为语音识别的前置模块。VAD可以用多种方法来实现,最早的VAD使用基于双门限进行判决,后来发展使用基于统计模型进行语音活动检测,再到最近基于深度学习的VAD算法。

然而语音活动检测一般作为前置算法,我们希望其在不需要太大的计算量的前提下可以达到不错的精度。传统基于双门限算法基于能量阈值和过零率进行判别,然而在信噪比较低的情况下,双门限的假设就不存在,因此其精度较低。而基于深度学习的方法,精度虽然很高,但是一般计算量较大,并且轻量级的模型一般会用到CNN,这会VAD结果会有一定的延迟。当然现在有些做法是先使用基于阈值的VAD进行粗略的判定,当超过阈值时就启动基于深度学习的VAD,两阶段的判决保持延迟和精度的平衡。今天介绍一种实时基于统计模型的VAD算法,与WebRTC VAD流程解析中不同,这里可以复用ANR噪声估计的结果进行判决,在算力受限的端侧设备上是一个不错的选择。

统计模型

假设语音和非相干的加性噪声混合,对于每一帧音频有两种情况,语音存在和语音缺失,分别记为:

实时语音活动检测:兼顾精度与计算量的平衡之道

其中X、N、S分别是带噪语音、噪声和纯净语音的傅里叶变换结果。我们采用高斯统计模型,其中每个过程的DFT系数均为渐近独立的高斯随机变量,H0和H1概率密度函数表示为:

实时语音活动检测:兼顾精度与计算量的平衡之道
实时语音活动检测:兼顾精度与计算量的平衡之道

其中λS(k),λN(k)分别为S(k)和N(k)对应的的方差,第t个频带的似然比为

实时语音活动检测:兼顾精度与计算量的平衡之道

其中

实时语音活动检测:兼顾精度与计算量的平衡之道
实时语音活动检测:兼顾精度与计算量的平衡之道

分别称为先验信噪比和后验信噪比。VAD的决策规则是根据各个频带的似然比的几何平均值建立的,其公式如下:

实时语音活动检测:兼顾精度与计算量的平衡之道

假设λN(k)通过噪声估计算法已经估计出来了,那么现在只需要估计ξk。可以通过最大似然估计的方法估计出ξk。不难得出:

实时语音活动检测:兼顾精度与计算量的平衡之道

带入公式(7)有

实时语音活动检测:兼顾精度与计算量的平衡之道

模型修正

注意到公式(9)的左侧恒大于零,这是板仓-斋藤失真(Itakura-Saito Distortion,ISD)的一个众所周知的性质,然而这样也会导致似然比总是大于或者等于1。在理想的无偏似然比检验中,当 H0 为真时,似然比应该在 1 附近波动。但由于 ISD 的性质,它被“强制”保持在 1 或 1 以上,这使得它更有可能超过门限 η,从而导致我们更频繁地做出选择 H1 的决策。

我们可以使用决策导向(Decision-Directed, DD)缓解这种偏置。它不再单纯依赖于先验估计,而是结合了上一个决策的结果来更新当前的信噪比估计。具体来说,当系统做出一个关于信号的决策(例如,识别出某个符号或确定信号是否存在)后,它会假设这个决策是正确的。然后,它利用这个已知的信息(即“已做出的决策”)来修正信噪比的估计。此时先验信噪比估计方法为:

实时语音活动检测:兼顾精度与计算量的平衡之道

其中A是前一帧的幅度谱估计,P的定义为

实时语音活动检测:兼顾精度与计算量的平衡之道

公式(11)第一项是前一帧的先验信噪比估计,第二项是决策导向的信噪比估计,其计算是基于一个“已知的”信号模型,这个模型是根据之前做出的决策推导出来的,即利用了当前的观测数据后验信噪比。加权因子α起到一个平滑的作用。通过这种方式,DD 方法能够纠正仅仅依赖先验估计所带来的偏差。它利用了信号的内在结构(即决策所揭示的信息)来更准确地估计信噪比,从而使得计算出的似然比更接近真实值,减少了偏向于 H1 的倾向。

最后本文介绍的VAD算法和WebRTC的VAD(mode3)进行比较,对于较为干净的语音样本,两者表现相差不大。在信噪比较低的情况下,WebRTC的VAD直接“躺平”,而本文介绍的VAD算法由于使用了噪声估计的信息,可以一定程度上区分语音区域和非语音区域。

实时语音活动检测:兼顾精度与计算量的平衡之道
(a) WebRTC VAD
实时语音活动检测:兼顾精度与计算量的平衡之道
(b) 本文介绍的VAD
实时语音活动检测:兼顾精度与计算量的平衡之道
(c) WebRTC VAD
实时语音活动检测:兼顾精度与计算量的平衡之道
(d) 本文介绍的VAD

参考文献:

[1]. https://zhuanlan.zhihu.com/p/431145202

[2]. https://www.sciencedirect.com/science/article/abs/pii/S0003682X19309521

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论