ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 支持过滤特定字符串等功能

ZEGO 实时互动 AI Agent v2.9.0 版本发布,新增 TTS(文本转语音) 支持过滤特定字符串、通过 Responses API 调用豆包 Seed 系列模型时自动开启缓存能力等功能。

ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 支持过滤特定字符串等功能

TTS 支持过滤掉特定字符串

过滤部分文本内容后再合成语音,例如可过滤掉“*”、“-”等特定字符串,不对这些字符串进行文本转语音。

在某些场景下您可能需要对 LLM 生成的文本内容进行过滤,然后再进行语音合成。例如在陪伴类 APP 中,可能会要求 LLM 在对话中使用括号来表示情绪或者语气,但是这些内容仅作字幕显示供用户阅读,不需要进行语音合成,比如:

(开心的说)即构科技欢迎你!

这里“(开心的说)”就不需要进行语音合成。

控制文本过滤有三种方式,分别如下:

1. 通过起止符 FilterText 指定起始符和结束符之间的内容不进行语音合成

以“(开心的说)即构科技欢迎你!”,过滤()内的内容为例

"TTS":{
  ....
  "FilterText": [
    {
      "BeginCharacters": "(",
      "EndCharacters": ")"
    }
  ]
  .....

}

2. 通过终止符 TerminatorText 指定特定字符串后的内容不进行语音合成

以“即构科技欢迎你! #2025年1月1日。”过滤#之后内容为例

"TTS":{
  ....
  "TerminatorText": "#"
  .....

}

3. 通过字符过滤 CharacterFilter 指定特定的字符串不进行语音合成

以“- **明天10点开会**”过滤符号 – 和 * 为例

"TTS":{
  ....
  "CharacterFilter": ["-","*"]
  .....

}

通过 Responses API 调用豆包 Seed 系列模型时自动开启缓存能力

开启缓存后可实现更低的互动延迟及互动成本。若希望使用本能力,请联系 ZEGO 技术支持。

另外,ZEGO 实时互动 AI Agent v2.9.0 版本还优化了语音实例、数字人实例的互动延迟,降低约 100ms ;以及 修复 UserAudioData 回调不可用问题。

更多详细内容请参考实时互动 AI Agent 开发文档

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64037.html

(0)

相关推荐

发表回复

登录后才能评论