Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个预览版文本转语音模型,旨在提升语音质量、增强表达控制并改进多语言生成功能。与之前侧重于简单转换的版本不同,此版本强调自然语言音频标签、对 70 多种语言的原生支持以及原生多说话人对话功能。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆
图片来自谷歌博客

此次发布标志着音频生成方式从“黑箱”式转向更加精细化、基于指令的工作流程。该模型目前正通过 Gemini API 和 Google AI Studio、面向企业的 Vertex AI 以及面向 Workspace 用户的 Google Vids 以预览版的形式推出。

语音质量、控制和开发人员工作流程

Gemini 3.1 Flash TTS 最突出的技术成就体现在其在行业基准测试中的出色表现。该模型目前在人工智能分析 TTS 排行榜 Elo 得分高达 1211 分,使其成为迄今为止谷歌最自然、最具表现力的语音模型。

除了提升原始质量之外,此次更新还为人工智能开发者引入了更复杂的控制层。开发者现在无需依赖静态配置,而是可以使用音频标签和自然语言提示控制以下操作:

  • 风格和语气:指导模特根据场景的语境调整表达方式。
  • 语速和表达方式:根据具体的叙事需要,调整演讲的节奏和重点。
  • 口音和方言:充分利用 70 多种受支持语言中的本地化细微差别。

母语多说话人对话

Gemini 3.1 Flash TTS 的一个关键优势在于其对原生多说话人对话的支持。传统的 TTS 流程通常需要为不同的语音分别调用 API,这会导致语速不流畅。而 Gemini 3.1 Flash TTS 能够原生处理多说话人,从而保持更自然的对话流程,使其对构建播客、戏剧脚本或协作助手界面的开发者尤为有用。

安全与识别:SynthID水印

随着生成式音频的保真度不断提高,识别人工智能生成的内容已成为一项技术上的必要条件。谷歌已将SynthID 水印技术集成到 Gemini 3.1 Flash TTS 生成的所有音频中。

SynthID 的实现设计遵循两个优先原则:

  1. 不易察觉:水印的嵌入方式不会降低听众的音频体验。
  2. 可靠检测:水印能够识别 AI 生成的内容,有助于防止虚假信息传播,并确保数字生态系统的透明度。

技术概要

特征规格
模型Gemini 3.1 Flash TTS(预览)
Elo评分1,211(人工分析TTS排行榜)
语言支持70多种语言
核心功能音频标签、自然语言控制、多说话人对话
安全集成式 SynthID 水印
平台Gemini API、AI Studio、Vertex AI、Google Vids

总体而言,Gemini 3.1 Flash TTS 代表着音频 AI 朝着更具“创作性”的方向发展。通过将卓越的基准性能与精细的自然语言控制相结合,谷歌 AI 团队提供了构建语音体验的工具,使之听起来更像是精心设计的表演,而非生硬的合成输出。

技术详情页:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/?

开发者预览版现已在 Gemini API 和 Google AI Studio上线,企业预览版已在 Vertex AI上线,Workspace 用户可通过 Google Vids体验。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/66210.html

(0)

相关推荐