ZEGO 实时互动 AI Agent v2.8.5 发布,支持调整语音活动检测 VAD 灵敏度

近日,即构科技(ZEGO) 实时互动 AI Agent v2.8.5 版本发布,新增“支持调整语音活动检测 VAD 灵敏度”功能,并修复了部分问题。

ZEGO 实时互动 AI Agent v2.8.5 发布,支持调整语音活动检测 VAD 灵敏度

语音活动检测 VAD 灵敏度功能有什么用

语音活动检测 VAD 灵敏度用以判断用户是否真正开始说话,从而触发语音识别、判断是否打断 AI 说话。目前支持三种模式:低、中(默认)、高,同时支持自定义修改细节参数,用以更好的适配业务场景。

在过滤环境噪音等影响后,主要通过以下指标综合判断:

  • 说话音量阈值 VADEnergyThreshold。音量越大,则用户开始说话的可能性越大。
  • 有效语音时间长短 VADMinSpeechDur。时间越长,则用户开始说话的可能性越大。 通过合理的调节这两个参数,可以防止轻声表示赞同或思考的“嗯···”、“喔···”、“确实···”等,但是也可能影响正常音量大小的短句识别和打断,例如“哈喽”、“你好”、“停”等。因此需要根据互动的环节进行合理调节。

参数说明

影响语音打断灵敏度的参数在创建/更新智能体实例的 ASR 参数中。可参考创建智能体实例 > Body > ASR 参数说明。详细说明如下:

参数名类型必填说明
VADdSensitiveLevelInt用于控制 VAD 的敏感度级别。取值范围 [0,3]:
0:中等敏感度,默认值
1:低敏感度
2:高敏感度
3:自定义模式,需配合 VADMinSpeechDur 和 VADEnergyThreshold 使用
VADdMinSpeechDurInt用于设置 VAD 检测的最小说话时长阈值,低于该时长的语音片段将被过滤。单位毫秒,取值范围 [0,1000]。值越大,越不容易误检,但可能会引起有些短语音漏检。
注意: 仅在 VADSensitiveLevel 设置为 3(自定义模式)时生效。
VADdEnergyThresholdFloat用于设置 VAD 的能量阈值,用于区分语音和噪音。取值范围 [0,1]。值越小,灵敏度越高;值越大,灵敏度越低。VAD 通过计算音频信号的能量值来判断是否为语音,当音频能量超过此阈值时判定为语音活动,低于该阈值则认为是静音或噪音。
注意: 仅在 VADSensitiveLevel 设置为 3(自定义模式)时生效。

当前 AI Agent 服务默认提供三种打断灵敏度(VADSensitiveLevel)可选,其对应参数值和效果说明如下:

灵敏度等级 VADSensitiveLevel参数值(VADdMinSpeechDur,VADdEnergyThreshold)无意义短词、语气词、咳嗽、哈切等声音的不打断效果有意义短词的打断识别效果
低(VADSensitiveLevel=1)0.4,100较差
中(默认)(VADSensitiveLevel=0)0.2,0较好较好
高(VADSensitiveLevel=2)0.1,0

如果预定义的灵敏度等级无法满足业务需求,可以通过设置 VADdSensitiveLevel=3(自定义模式),更精细地调整 VADMinSpeechDur 和 VADEnergyThreshold 这两个参数控制打断灵敏度。

更多细节及使用示例可参考文档:语音活动检测 VAD 灵敏度

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/63726.html

(0)

相关推荐

发表回复

登录后才能评论