Google AI 发布 Gemini 3.1 Flash TTS：表现力强、可控性高的 AI 语音技术新标杆

AIGC • 2026年4月16日上午11:02 • 技术文章

谷歌推出了Gemini 3.1 Flash TTS，这是一个预览版文本转语音模型，旨在提升语音质量、增强表达控制并改进多语言生成功能。与之前侧重于简单转换的版本不同，此版本强调自然语言音频标签、对 70 多种语言的原生支持以及原生多说话人对话功能。

Google AI 发布 Gemini 3.1 Flash TTS：表现力强、可控性高的 AI 语音技术新标杆 — 图片来自谷歌博客

此次发布标志着音频生成方式从“黑箱”式转向更加精细化、基于指令的工作流程。该模型目前正通过 Gemini API 和 Google AI Studio、面向企业的 Vertex AI 以及面向 Workspace 用户的 Google Vids 以预览版的形式推出。

语音质量、控制和开发人员工作流程

Gemini 3.1 Flash TTS 最突出的技术成就体现在其在行业基准测试中的出色表现。该模型目前在人工智能分析 TTS 排行榜 Elo 得分高达 1211 分，使其成为迄今为止谷歌最自然、最具表现力的语音模型。

除了提升原始质量之外，此次更新还为人工智能开发者引入了更复杂的控制层。开发者现在无需依赖静态配置，而是可以使用音频标签和自然语言提示来控制以下操作：

风格和语气：指导模特根据场景的语境调整表达方式。
语速和表达方式：根据具体的叙事需要，调整演讲的节奏和重点。
口音和方言：充分利用 70 多种受支持语言中的本地化细微差别。

母语多说话人对话

Gemini 3.1 Flash TTS 的一个关键优势在于其对原生多说话人对话的支持。传统的 TTS 流程通常需要为不同的语音分别调用 API，这会导致语速不流畅。而 Gemini 3.1 Flash TTS 能够原生处理多说话人，从而保持更自然的对话流程，使其对构建播客、戏剧脚本或协作助手界面的开发者尤为有用。

安全与识别：SynthID水印

随着生成式音频的保真度不断提高，识别人工智能生成的内容已成为一项技术上的必要条件。谷歌已将SynthID 水印技术集成到 Gemini 3.1 Flash TTS 生成的所有音频中。

SynthID 的实现设计遵循两个优先原则：

不易察觉：水印的嵌入方式不会降低听众的音频体验。
可靠检测：水印能够识别 AI 生成的内容，有助于防止虚假信息传播，并确保数字生态系统的透明度。

技术概要

特征	规格
模型	Gemini 3.1 Flash TTS（预览）
Elo评分	1,211（人工分析TTS排行榜）
语言支持	70多种语言
核心功能	音频标签、自然语言控制、多说话人对话
安全	集成式 SynthID 水印
平台	Gemini API、AI Studio、Vertex AI、Google Vids