近日,即构科技(ZEGO) 实时互动 AI Agent v2.8.5 版本发布,新增“支持调整语音活动检测 VAD 灵敏度”功能,并修复了部分问题。

语音活动检测 VAD 灵敏度功能有什么用
语音活动检测 VAD 灵敏度用以判断用户是否真正开始说话,从而触发语音识别、判断是否打断 AI 说话。目前支持三种模式:低、中(默认)、高,同时支持自定义修改细节参数,用以更好的适配业务场景。
在过滤环境噪音等影响后,主要通过以下指标综合判断:
- 说话音量阈值
VADEnergyThreshold。音量越大,则用户开始说话的可能性越大。 - 有效语音时间长短
VADMinSpeechDur。时间越长,则用户开始说话的可能性越大。 通过合理的调节这两个参数,可以防止轻声表示赞同或思考的“嗯···”、“喔···”、“确实···”等,但是也可能影响正常音量大小的短句识别和打断,例如“哈喽”、“你好”、“停”等。因此需要根据互动的环节进行合理调节。
参数说明
影响语音打断灵敏度的参数在创建/更新智能体实例的 ASR 参数中。可参考创建智能体实例 > Body > ASR 参数说明。详细说明如下:
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| VADdSensitiveLevel | Int | 否 | 用于控制 VAD 的敏感度级别。取值范围 [0,3]: 0:中等敏感度,默认值 1:低敏感度 2:高敏感度 3:自定义模式,需配合 VADMinSpeechDur 和 VADEnergyThreshold 使用 |
| VADdMinSpeechDur | Int | 否 | 用于设置 VAD 检测的最小说话时长阈值,低于该时长的语音片段将被过滤。单位毫秒,取值范围 [0,1000]。值越大,越不容易误检,但可能会引起有些短语音漏检。 注意: 仅在 VADSensitiveLevel 设置为 3(自定义模式)时生效。 |
| VADdEnergyThreshold | Float | 否 | 用于设置 VAD 的能量阈值,用于区分语音和噪音。取值范围 [0,1]。值越小,灵敏度越高;值越大,灵敏度越低。VAD 通过计算音频信号的能量值来判断是否为语音,当音频能量超过此阈值时判定为语音活动,低于该阈值则认为是静音或噪音。 注意: 仅在 VADSensitiveLevel 设置为 3(自定义模式)时生效。 |
当前 AI Agent 服务默认提供三种打断灵敏度(VADSensitiveLevel)可选,其对应参数值和效果说明如下:
| 灵敏度等级 VADSensitiveLevel | 参数值(VADdMinSpeechDur,VADdEnergyThreshold) | 无意义短词、语气词、咳嗽、哈切等声音的不打断效果 | 有意义短词的打断识别效果 |
|---|---|---|---|
| 低(VADSensitiveLevel=1) | 0.4,100 | 好 | 较差 |
| 中(默认)(VADSensitiveLevel=0) | 0.2,0 | 较好 | 较好 |
| 高(VADSensitiveLevel=2) | 0.1,0 | 差 | 好 |
如果预定义的灵敏度等级无法满足业务需求,可以通过设置 VADdSensitiveLevel=3(自定义模式),更精细地调整 VADMinSpeechDur 和 VADEnergyThreshold 这两个参数控制打断灵敏度。
更多细节及使用示例可参考文档:语音活动检测 VAD 灵敏度
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/63726.html