ZEGO 实时互动 AI Agent v2.8.0 发布，新增支持多模态大模型等功能

2025 年 12 月 9 日，ZEGO 实时互动 AI Agent v2.8.0 版本发布，新增支持多模态大模型、支持 OpenAI Responses API 标准、支持火山单向流式TTS的情绪标签等功能。

新增功能

1. 支持多模态大模型

支持符合 OpenAI 标准的文字输入语音输出的多模态大模型，例如 gpt-4o-audio、qwen3-omni-flash 等模型。

目前 ZEGO 支持的大语言模型（LLM）提供商，包括火山豆包、MiniMax、阿里通义千问、阶跃星辰、DeepSeek 等，也可以使用完全自研的LLM。

详情请参考配置 LLM。

2. 支持 OpenAI Responses API 标准

支持调用符合 OpenAI Responses API 标准的大语言模型或智能体，例如可调用豆包 seed 系列模型、百炼智能体等。

3. 支持火山单向流式TTS的情绪标签

支持火山单向流式 TTS 的情绪标签，从而实现 AI 语音更好的情绪展现，例如愤怒、悲伤、恐惧等。实现效果可参考豆包语音合成大模型中的多情感音色。

4. 支持服务端 API 实现插入若干条上下文消息

参考AI短期记忆（智能体上下文）管理。在创建智能体实例并实现角色扮演等对话时，智能体能够记住最近一段时间互动聊天的具体内容（通常被称为短期记忆），其实现的原理为 LLM （大语言模型）的上下文。

优化用户结束说话判断逻辑，提供更好的互动体验。
服务端回调新增 AgentId、Name 等注册智能体时的信息。可基于此实现不同业务等智能体区分。
优化智能体状态回调。废弃原有“智能体说话行为AgentSpeakAction”回调事件（智能体开始说话、智能体结束说话），新增“智能体实例状态AgentInstanceStatus”回调事件，包含IDLE（空闲）、LISTENING（正在听）、THINKING（正在想）、SPEAKING（正在说）状态，对齐查询智能体状态API信息。可实现更精确的智能体对话时的状态相关UI展示，以及更好的业务逻辑控制。详情请查看展示用户和智能体状态。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/63583.html