ZEGO 实时互动 AI Agent v2.8.0 发布,新增支持多模态大模型等功能

2025 年 12 月 9 日,ZEGO 实时互动 AI Agent v2.8.0 版本发布,新增支持多模态大模型、支持 OpenAI Responses API 标准、支持火山单向流式TTS的情绪标签等功能。

ZEGO 实时互动 AI Agent v2.8.0 发布,新增支持多模态大模型等功能

新增功能

1. 支持多模态大模型

支持符合 OpenAI 标准的文字输入语音输出的多模态大模型,例如 gpt-4o-audio、qwen3-omni-flash 等模型。

目前 ZEGO 支持的大语言模型(LLM)提供商,包括火山豆包、MiniMax、阿里通义千问、阶跃星辰、DeepSeek 等,也可以使用完全自研的LLM。

详情请参考配置 LLM

2. 支持 OpenAI Responses API 标准

支持调用符合 OpenAI Responses API 标准的大语言模型或智能体,例如可调用豆包 seed 系列模型、百炼智能体等。

3. 支持火山单向流式TTS的情绪标签

支持火山单向流式 TTS 的情绪标签,从而实现 AI 语音更好的情绪展现,例如愤怒、悲伤、恐惧等。实现效果可参考豆包语音合成大模型中的多情感音色。

4. 支持服务端 API 实现插入若干条上下文消息

参考AI短期记忆(智能体上下文)管理。在创建智能体实例并实现角色扮演等对话时,智能体能够记住最近一段时间互动聊天的具体内容(通常被称为短期记忆),其实现的原理为 LLM (大语言模型)的上下文。

改进优化

  • 优化用户结束说话判断逻辑,提供更好的互动体验。
  • 服务端回调新增 AgentId、Name 等注册智能体时的信息。可基于此实现不同业务等智能体区分。
  • 优化智能体状态回调。废弃原有“智能体说话行为AgentSpeakAction”回调事件(智能体开始说话、智能体结束说话),新增“智能体实例状态AgentInstanceStatus”回调事件,包含IDLE(空闲)、LISTENING(正在听)、THINKING(正在想)、SPEAKING(正在说)状态,对齐查询智能体状态API信息。可实现更精确的智能体对话时的状态相关UI展示,以及更好的业务逻辑控制。详情请查看展示用户和智能体状态

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/63583.html

(0)

相关推荐

发表回复

登录后才能评论