谷歌推出了Gemini 3.1 Flash TTS,这是一个预览版文本转语音模型,旨在提升语音质量、增强表达控制并改进多语言生成功能。与之前侧重于简单转换的版本不同,此版本强调自然语言音频标签、对 70 多种语言的原生支持以及原生多说话人对话功能。

此次发布标志着音频生成方式从“黑箱”式转向更加精细化、基于指令的工作流程。该模型目前正通过 Gemini API 和 Google AI Studio、面向企业的 Vertex AI 以及面向 Workspace 用户的 Google Vids 以预览版的形式推出。
语音质量、控制和开发人员工作流程
Gemini 3.1 Flash TTS 最突出的技术成就体现在其在行业基准测试中的出色表现。该模型目前在人工智能分析 TTS 排行榜 Elo 得分高达 1211 分,使其成为迄今为止谷歌最自然、最具表现力的语音模型。
除了提升原始质量之外,此次更新还为人工智能开发者引入了更复杂的控制层。开发者现在无需依赖静态配置,而是可以使用音频标签和自然语言提示来控制以下操作:
- 风格和语气:指导模特根据场景的语境调整表达方式。
- 语速和表达方式:根据具体的叙事需要,调整演讲的节奏和重点。
- 口音和方言:充分利用 70 多种受支持语言中的本地化细微差别。
母语多说话人对话
Gemini 3.1 Flash TTS 的一个关键优势在于其对原生多说话人对话的支持。传统的 TTS 流程通常需要为不同的语音分别调用 API,这会导致语速不流畅。而 Gemini 3.1 Flash TTS 能够原生处理多说话人,从而保持更自然的对话流程,使其对构建播客、戏剧脚本或协作助手界面的开发者尤为有用。
安全与识别:SynthID水印
随着生成式音频的保真度不断提高,识别人工智能生成的内容已成为一项技术上的必要条件。谷歌已将SynthID 水印技术集成到 Gemini 3.1 Flash TTS 生成的所有音频中。
SynthID 的实现设计遵循两个优先原则:
- 不易察觉:水印的嵌入方式不会降低听众的音频体验。
- 可靠检测:水印能够识别 AI 生成的内容,有助于防止虚假信息传播,并确保数字生态系统的透明度。
技术概要
| 特征 | 规格 |
| 模型 | Gemini 3.1 Flash TTS(预览) |
| Elo评分 | 1,211(人工分析TTS排行榜) |
| 语言支持 | 70多种语言 |
| 核心功能 | 音频标签、自然语言控制、多说话人对话 |
| 安全 | 集成式 SynthID 水印 |
| 平台 | Gemini API、AI Studio、Vertex AI、Google Vids |
总体而言,Gemini 3.1 Flash TTS 代表着音频 AI 朝着更具“创作性”的方向发展。通过将卓越的基准性能与精细的自然语言控制相结合,谷歌 AI 团队提供了构建语音体验的工具,使之听起来更像是精心设计的表演,而非生硬的合成输出。
技术详情页:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/?
开发者预览版现已在 Gemini API 和 Google AI Studio上线,企业预览版已在 Vertex AI上线,Workspace 用户可通过 Google Vids体验。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/66210.html