ZEGO 实时互动 AI Agent v2.9.0 版本发布,新增 TTS(文本转语音) 支持过滤特定字符串、通过 Responses API 调用豆包 Seed 系列模型时自动开启缓存能力等功能。

TTS 支持过滤掉特定字符串
过滤部分文本内容后再合成语音,例如可过滤掉“*”、“-”等特定字符串,不对这些字符串进行文本转语音。
在某些场景下您可能需要对 LLM 生成的文本内容进行过滤,然后再进行语音合成。例如在陪伴类 APP 中,可能会要求 LLM 在对话中使用括号来表示情绪或者语气,但是这些内容仅作字幕显示供用户阅读,不需要进行语音合成,比如:
(开心的说)即构科技欢迎你!
这里“(开心的说)”就不需要进行语音合成。
控制文本过滤有三种方式,分别如下:
1. 通过起止符 FilterText 指定起始符和结束符之间的内容不进行语音合成
以“(开心的说)即构科技欢迎你!”,过滤()内的内容为例
"TTS":{
....
"FilterText": [
{
"BeginCharacters": "(",
"EndCharacters": ")"
}
]
.....
}
2. 通过终止符 TerminatorText 指定特定字符串后的内容不进行语音合成
以“即构科技欢迎你! #2025年1月1日。”过滤#之后内容为例
"TTS":{
....
"TerminatorText": "#"
.....
}
3. 通过字符过滤 CharacterFilter 指定特定的字符串不进行语音合成
以“- **明天10点开会**”过滤符号 – 和 * 为例
"TTS":{
....
"CharacterFilter": ["-","*"]
.....
}
通过 Responses API 调用豆包 Seed 系列模型时自动开启缓存能力
开启缓存后可实现更低的互动延迟及互动成本。若希望使用本能力,请联系 ZEGO 技术支持。
另外,ZEGO 实时互动 AI Agent v2.9.0 版本还优化了语音实例、数字人实例的互动延迟,降低约 100ms ;以及 修复 UserAudioData 回调不可用问题。
更多详细内容请参考实时互动 AI Agent 开发文档。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64037.html