ZEGO 实时互动 AI Agent 2.7.0 和云端实时语音识别 2.0 发布

近日,即构科技(ZEGO)发布实时互动 AI Agent 2.7 版本,以及云端实时语音识别 v2.0 版本。

ZEGO 实时互动 AI Agent 2.7.0 和云端实时语音识别 2.0 发布

实时互动 AI Agent 2.7 新增和优化功能

新增功能

1. 支持语音智能体实例仅输出文本,不进行TTS(文本转语音)

适用于扩展智能体与用户实时互动时的对话方式,可同时与用户语音和文字互动,提升互动的真实感。尤其适用于语聊房场景中。

参考文档:创建语音智能体实例

2. 支持使用自定义 LLM 时,可配置透传自定义业务信息

创建智能体实例时,配置 AgentExtraInfo ,则 AI Agent 每次调用 LLM 时会携带 AgentExtraInfo 信息。例如每次发起通话(创建智能体实例),携带用户地址、业务类型等信息,从而实现不同的LLM或Agent调用。

参考文档:注册智能体 -> 配置 LLM -> 使用自定义 LLM

改进优化

  • 创建语音智能体实例/创建数字人智能体实例接口的 MessageHistory.WindowSize 和 MessageHistory.ZIM.LoadMessageCount 上限调整为 500。
  • 优化自然语音打断机制,提升语音打断准确率,尤其提高用户声音较小或在嘈杂环境下的准确率。
  • TTS(文本转语音),支持火山语音合成大模型-单向流式websocket-V3,降低耗时约70ms左右。

云端实时语音识别新增功能

1. 支持单 RTC 房间无上限用户数量进行语音识别。

2. 新增阿里云百炼语音识别能力。支持中文(普通话 / 方言)、粤语、英语、日语、韩语等,含 2 类模型(需联系 ZEGO 商务开通,配置 vendor 选择模型):

  • Paraformer:适配噪音环境、中文方言场景
  • Gummy:适配多语种混合场景,及德语、法语、俄语、意大利语、西班牙语场景

3. 新增微软实时语音识别能力。支持英语、法语、德语、西班牙语等一系列海外语言。(需联系 ZEGO 商务开通)

详情请参考配置 ASR

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/62936.html

(0)

相关推荐

发表回复

登录后才能评论