ZEGO AI Agent 如何设置智能体语音情绪?让 AI 语音互动更具情感表现力

目前部分大模型版本文字转语音(TTS),支持指定合成时所使用的情绪。 在与 AI 进行实时语音互动场景下,可以搭配大语言模型 LLM 的系统提示词,实现让 AI 基于人设输出对应的情绪的能力,从而让AI更富有情感表现力。

ZEGO 实时互动AI Agent 已经支持用户情绪识别和多情感TTS,指定多种(”happy” – 高兴, “sad” – 悲伤, “angry” – 愤怒, “fearful” – 害怕, “disgusted” – 厌恶, “surprised” – 惊讶, “calm” – 中性, “fluent” – 生动)情绪进行语音合成。本文将将介绍如何基于 ZEGO AI Agent 设置智能体语音情绪?让 AI 语音互动更具情感表现力。

实现 AI Agent 输出的语音内容指定情绪能力

要实现该能力主要分为三步:

  1. 指定 LLM 文本中控制情绪的内容格式。
  2. 让 LLM 按照指定的控制情绪格式输出内容。
  3. 让 TTS 厂商根据情绪控制参数合成带情绪的语音(ZEGO AI Agent 自动处理)。

前提条件

  1. 注册 ZEGO 账户,开通 AI Agent 服务
  2. 确认所使用的 TTS 模型或音色支持指定情感标签
  3. ZEGO AI Agent 服务支持对应的 TTS 模型及标签。如:
TTS厂商支持的模型支持的音色/情绪体验方式ZEGO 控制参数
MiniMaxSpeech 系列“happy” – 高兴”sad” – 悲伤”angry” – 愤怒”fearful” – 害怕”disgusted” – 厌恶”surprised” – 惊讶”calm” – 中性”fluent” – 生动
其中某些情绪仅在某些模型中支持,更多情绪请参考同步语音合成 WebSocket -> 任务开始 -> voice_setting -> emotion
语音调试台{“emotion”: emotion}
豆包语音(单向流式)1.0、2.0 系列中文音色举例
“happy” – 高兴”sad” – 悲伤”angry” – 愤怒”fearful” – 害怕”disgusted” – 厌恶”surprised” – 惊讶”calm” – 中性”fluent” – 生动
英文音色举例
“neutral” – 中性”happy” – 高兴”angry” – 愤怒”sad” – 悲伤”excited” – 兴奋”chat” – 对话/闲聊”warm” – 温暖”affectionate” – 深情”authoritative” – 权威
更多音色请参考音色列表 -> 情感参数
豆包语音合成大模型中的多情感音色{“emotion”: emotion}
{“emotion_scale”: sc

使用步骤

我们以指定 LLM 文本中以“[[”和“]]”包裹的文本为元数据,让 LLM 按照格式输出控制情绪控制参数元数据,然后提取出“emotion”和“emotion_scale”参数来控制语音情绪为例。

1. 指定 LLM 文本中控制情绪的内容格式

通过配置创建智能体实例接口的 AdvancedConfig.LLMMetaInfo 参数,指定如何从 LLM 文本中提取控制情绪的元数据。例如:

"LLMMetaInfo" : {
    "BeginCharacters": "[[",
    "EndCharacters": "]]"
}

2. 让 LLM 按照指定的控制情绪格式输出内容

以使用豆包语音 TTS 时为例,调用注册智能体和创建智能体实例接口对应的 LLM.SystemPrompt ,仅供参考,请根据实际需求调整:

# 角色
您是一位智能语音助手,能够根据用户情绪动态调整回复语气,并在必要时为每句添加情感标签与语速控制。

## 格式要求
- **LLMMetaInfo** 为情感与语速控制的 JSON 字符串,**必须严格使用 [[ 和 ]] 包裹**。
- JSON 键值对语法需完整,支持以下键(可任选其一或多个):
  - "emotion"(可选):情绪类型,取值限于 ["happy","sad","angry","fear","surprised","neutral","hate","excited","coldness","tender"]。
  - "emotion_scale"(可选):情绪强度,范围 1–5 的浮点数(如 4);强度非线性递增,3 与 5 可能感知相近。
- **LLMMetaInfo 必须置于对应句子的最开头**,不得出现在句中或句尾。
- 若相邻句子情绪或语速不同,需在变化句开头插入新的 LLMMetaInfo。

## 内容要求
- 情感与语速调整须与用户当前情绪及对话语境高度一致。

## 示例
- 用户:今天天气不错。
  助手:
  [[{"emotion":"happy","emotion_scale":3}]]今天确实是个好日子。
  [[{"emotion":"sad","emotion_scale":4}]]昨天的遗憾虽仍在心头,但此刻只想好好享受阳光。

3. 让 TTS 厂商根据情绪控制参数合成带情绪的语音

现在您可以与创建的智能体实例开始语音对话啦!当 LLM 输出的内容包含了情绪控制参数时,AI Agent 服务会自动根据这些参数调用 TTS 厂商接口,让它以丰富的语音情绪表现力与您进行互动。

更多细节请参考开发者文档控制智能体语音情绪

让 AI 语音互动更具情感表现力

通过设置语音情绪,可以AI智能体从有求必应但冷冰冰的“助手”,真正升级成了有共情能力的“陪伴者”。比如:

  • 在社交场景下,AI角色能配合剧情人设和对方情绪,让对话流畅衔接,增强社交沉浸感。
  • 陪伴场景下,AI伴侣能察觉用户情绪变化,及时给予情感支持。
  • 在教育场景下,AI老师则能够“察言观色”,根据学生学习状态、情绪状况循循善诱,告别“人机感”。

ZEGO 始终致力于用AI+实时互动技术推动人机交互向更真实、自然、有温度的方向进化,点击注册深度试用。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/64811.html

(0)

相关推荐

发表回复

登录后才能评论