近日,即构科技(ZEGO)发布实时互动 AI Agent 2.7 版本,以及云端实时语音识别 v2.0 版本。

实时互动 AI Agent 2.7 新增和优化功能
新增功能
1. 支持语音智能体实例仅输出文本,不进行TTS(文本转语音)
适用于扩展智能体与用户实时互动时的对话方式,可同时与用户语音和文字互动,提升互动的真实感。尤其适用于语聊房场景中。
参考文档:创建语音智能体实例
2. 支持使用自定义 LLM 时,可配置透传自定义业务信息
创建智能体实例时,配置 AgentExtraInfo ,则 AI Agent 每次调用 LLM 时会携带 AgentExtraInfo 信息。例如每次发起通话(创建智能体实例),携带用户地址、业务类型等信息,从而实现不同的LLM或Agent调用。
参考文档:注册智能体 -> 配置 LLM -> 使用自定义 LLM
改进优化
- 创建语音智能体实例/创建数字人智能体实例接口的 MessageHistory.WindowSize 和 MessageHistory.ZIM.LoadMessageCount 上限调整为 500。
- 优化自然语音打断机制,提升语音打断准确率,尤其提高用户声音较小或在嘈杂环境下的准确率。
- TTS(文本转语音),支持火山语音合成大模型-单向流式websocket-V3,降低耗时约70ms左右。
云端实时语音识别新增功能
1. 支持单 RTC 房间无上限用户数量进行语音识别。
2. 新增阿里云百炼语音识别能力。支持中文(普通话 / 方言)、粤语、英语、日语、韩语等,含 2 类模型(需联系 ZEGO 商务开通,配置 vendor 选择模型):
- Paraformer:适配噪音环境、中文方言场景
- Gummy:适配多语种混合场景,及德语、法语、俄语、意大利语、西班牙语场景
3. 新增微软实时语音识别能力。支持英语、法语、德语、西班牙语等一系列海外语言。(需联系 ZEGO 商务开通)
详情请参考配置 ASR。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/62936.html