ZEGO AI Agent 如何设置智能体语音情绪？让 AI 语音互动更具情感表现力

目前部分大模型版本文字转语音（TTS），支持指定合成时所使用的情绪。在与 AI 进行实时语音互动场景下，可以搭配大语言模型 LLM 的系统提示词，实现让 AI 基于人设输出对应的情绪的能力，从而让AI更富有情感表现力。

ZEGO 实时互动AI Agent 已经支持用户情绪识别和多情感TTS，指定多种（”happy” – 高兴, “sad” – 悲伤, “angry” – 愤怒, “fearful” – 害怕, “disgusted” – 厌恶, “surprised” – 惊讶, “calm” – 中性, “fluent” – 生动）情绪进行语音合成。本文将将介绍如何基于 ZEGO AI Agent 设置智能体语音情绪？让 AI 语音互动更具情感表现力。

实现 AI Agent 输出的语音内容指定情绪能力

要实现该能力主要分为三步：

指定 LLM 文本中控制情绪的内容格式。
让 LLM 按照指定的控制情绪格式输出内容。
让 TTS 厂商根据情绪控制参数合成带情绪的语音（ZEGO AI Agent 自动处理）。

前提条件

注册 ZEGO 账户，开通 AI Agent 服务
确认所使用的 TTS 模型或音色支持指定情感标签
ZEGO AI Agent 服务支持对应的 TTS 模型及标签。如：

TTS厂商	支持的模型	支持的音色/情绪	体验方式	ZEGO 控制参数
MiniMax	Speech 系列	“happy” – 高兴”sad” – 悲伤”angry” – 愤怒”fearful” – 害怕”disgusted” – 厌恶”surprised” – 惊讶”calm” – 中性”fluent” – 生动其中某些情绪仅在某些模型中支持，更多情绪请参考同步语音合成 WebSocket -> 任务开始 -> voice_setting -> emotion	语音调试台	{“emotion”: emotion}
豆包语音(单向流式)	1.0、2.0 系列	中文音色举例： “happy” – 高兴”sad” – 悲伤”angry” – 愤怒”fearful” – 害怕”disgusted” – 厌恶”surprised” – 惊讶”calm” – 中性”fluent” – 生动英文音色举例： “neutral” – 中性”happy” – 高兴”angry” – 愤怒”sad” – 悲伤”excited” – 兴奋”chat” – 对话/闲聊”warm” – 温暖”affectionate” – 深情”authoritative” – 权威更多音色请参考音色列表 -> 情感参数	豆包语音合成大模型中的多情感音色	{“emotion”: emotion} {“emotion_scale”: sc

使用步骤

我们以指定 LLM 文本中以“[[”和“]]”包裹的文本为元数据，让 LLM 按照格式输出控制情绪控制参数元数据，然后提取出“emotion”和“emotion_scale”参数来控制语音情绪为例。

1. 指定 LLM 文本中控制情绪的内容格式

通过配置创建智能体实例接口的 AdvancedConfig.LLMMetaInfo 参数，指定如何从 LLM 文本中提取控制情绪的元数据。例如：

"LLMMetaInfo" : {
    "BeginCharacters": "[[",
    "EndCharacters": "]]"
}

2. 让 LLM 按照指定的控制情绪格式输出内容

以使用豆包语音 TTS 时为例，调用注册智能体和创建智能体实例接口对应的 LLM.SystemPrompt ，仅供参考，请根据实际需求调整：

# 角色
您是一位智能语音助手，能够根据用户情绪动态调整回复语气，并在必要时为每句添加情感标签与语速控制。

## 格式要求
- **LLMMetaInfo** 为情感与语速控制的 JSON 字符串，**必须严格使用 [[ 和 ]] 包裹**。
- JSON 键值对语法需完整，支持以下键（可任选其一或多个）：
  - "emotion"（可选）：情绪类型，取值限于 ["happy","sad","angry","fear","surprised","neutral","hate","excited","coldness","tender"]。
  - "emotion_scale"（可选）：情绪强度，范围 1–5 的浮点数（如 4）；强度非线性递增，3 与 5 可能感知相近。
- **LLMMetaInfo 必须置于对应句子的最开头**，不得出现在句中或句尾。
- 若相邻句子情绪或语速不同，需在变化句开头插入新的 LLMMetaInfo。

## 内容要求
- 情感与语速调整须与用户当前情绪及对话语境高度一致。

## 示例
- 用户：今天天气不错。
  助手：
  [[{"emotion":"happy","emotion_scale":3}]]今天确实是个好日子。
  [[{"emotion":"sad","emotion_scale":4}]]昨天的遗憾虽仍在心头，但此刻只想好好享受阳光。