ZEGO 实时互动 AI Agent v2.8.5 发布，支持调整语音活动检测 VAD 灵敏度

近日，即构科技(ZEGO) 实时互动 AI Agent v2.8.5 版本发布，新增“支持调整语音活动检测 VAD 灵敏度”功能，并修复了部分问题。

语音活动检测 VAD 灵敏度用以判断用户是否真正开始说话，从而触发语音识别、判断是否打断 AI 说话。目前支持三种模式：低、中（默认）、高，同时支持自定义修改细节参数，用以更好的适配业务场景。

在过滤环境噪音等影响后，主要通过以下指标综合判断：

说话音量阈值 VADEnergyThreshold。音量越大，则用户开始说话的可能性越大。
有效语音时间长短 VADMinSpeechDur。时间越长，则用户开始说话的可能性越大。通过合理的调节这两个参数，可以防止轻声表示赞同或思考的“嗯···”、“喔···”、“确实···”等，但是也可能影响正常音量大小的短句识别和打断，例如“哈喽”、“你好”、“停”等。因此需要根据互动的环节进行合理调节。

影响语音打断灵敏度的参数在创建/更新智能体实例的 ASR 参数中。可参考创建智能体实例 > Body > ASR 参数说明。详细说明如下：

参数名	类型	必填	说明
VADdSensitiveLevel	Int	否	用于控制 VAD 的敏感度级别。取值范围 [0,3]： 0：中等敏感度,默认值 1：低敏感度 2：高敏感度 3：自定义模式,需配合 VADMinSpeechDur 和 VADEnergyThreshold 使用
VADdMinSpeechDur	Int	否	用于设置 VAD 检测的最小说话时长阈值,低于该时长的语音片段将被过滤。单位毫秒,取值范围 [0,1000]。值越大,越不容易误检,但可能会引起有些短语音漏检。注意：仅在 VADSensitiveLevel 设置为 3（自定义模式）时生效。
VADdEnergyThreshold	Float	否	用于设置 VAD 的能量阈值,用于区分语音和噪音。取值范围 [0,1]。值越小,灵敏度越高；值越大,灵敏度越低。VAD 通过计算音频信号的能量值来判断是否为语音,当音频能量超过此阈值时判定为语音活动,低于该阈值则认为是静音或噪音。注意：仅在 VADSensitiveLevel 设置为 3（自定义模式）时生效。

当前 AI Agent 服务默认提供三种打断灵敏度（VADSensitiveLevel）可选，其对应参数值和效果说明如下：

灵敏度等级 VADSensitiveLevel	参数值（VADdMinSpeechDur,VADdEnergyThreshold）	无意义短词、语气词、咳嗽、哈切等声音的不打断效果	有意义短词的打断识别效果
低(VADSensitiveLevel=1)	0.4,100	好	较差
中(默认)(VADSensitiveLevel=0)	0.2,0	较好	较好
高(VADSensitiveLevel=2)	0.1,0	差	好

如果预定义的灵敏度等级无法满足业务需求，可以通过设置 VADdSensitiveLevel=3（自定义模式），更精细地调整 VADMinSpeechDur 和 VADEnergyThreshold 这两个参数控制打断灵敏度。

更多细节及使用示例可参考文档：语音活动检测 VAD 灵敏度

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/63726.html