Google 发布 Gemini 3.5 Live Translate：一款支持 70 多种语言的流式语音翻译音频模型

谷歌刚发布了 Gemini 3.5 实时翻译。这是他们最新的实时语音翻译音频模型。语音翻译是指输入语音，然后输出翻译后的语音。该模型可以自动检测 70 多种语言并生成翻译后的语音。它会在输出中保留说话者的语调、语速和音高。传统的逐句翻译系统会等待说话者说完后再进行响应，而 Gemini 3.5 实时翻译则会持续生成语音。它在等待上下文和立即翻译之间取得了平衡。更多的上下文信息可以提高翻译质量，而更快的输出速度则可以确保翻译与说话者保持同步。在整个翻译过程中，翻译结果会比说话者慢几秒钟。

Gemini 3.5 实时翻译

Gemini 3.5 Live Translate 是一款单声道音频模型（gemini-3.5-live-translate-preview），而非聊天助手。它会在音频流传入时立即处理语音，而不是在完整句子结束后才进行处理。它无需手动配置即可处理多语言输入。其出色的抗噪性能使其应用程序能够在嘈杂、多变的环境中正常运行。

该模型将通过三种渠道推出。开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版。企业用户可从本月起在 Google Meet 中获得内部预览版。其他用户则可通过 Android 和 iOS 上的 Google Translate 应用获取该模型。

连续流的工作原理

设计上的差异对于构建实时功能至关重要。对话式实时代理采用回合制交互，依赖于停顿、意图检测和中断处理。而实时翻译则采用连续流处理，在说话者说话的同时进行翻译，无需等待回合结束。

为了严格控制实时延迟，翻译路径仅接受音频输入。翻译模式下不支持文本输入。此外，该模型在此模式下还会移除工具使用和系统指令。这使得它成为一个专注于特定功能的翻译流程，而非通用代理。

使用 Live API 进行开发

开发人员可在 Live API 会话设置中配置翻译。您需要在 generationConfig 中设置一个 translationConfig 块。targetLanguageCode 字段接受 BCP-47 代码，例如 “pl” 或 “es”。BCP-47 是 en 或 pt-BR 等语言标签的标准格式。其默认值为 “en”。布尔型参数 echoTargetLanguage 用于控制已为目标语言的输入。当值为 true 时，模型会复述该语音；当值为 false 时，模型保持静默。您还可以启用 inputAudioTranscription 和 outputAudioTranscription 以获取文本转录内容。

音频格式固定。输入为原始 16 位 PCM 音频，采样率为 16kHz，单声道，小端序。输出为原始 16 位 PCM 音频，采样率为 24kHz，单声道，小端序。PCM 是未压缩的原始音频。音频以 100 毫秒为单位发送。对于客户端应用，v1alpha 端点的临时令牌可避免泄露您的 API 密钥。

维度	Live Agen	实时翻译
榜样角色	能够倾听、推理和行动的助手	口译员/实时笔译员流程
相互作用	回合制，带中断处理机制	连续流处理，无转弯
工具	函数调用、谷歌搜索、说明	仅翻译，不包含任何工具或说明
输入	文本、音频、视频和图像	仅音频，适用于严格延迟
配置	生成、语音、工具、指令	`targetLanguageCode`和`echoTargetLanguage`

用例

该模型旨在为多种场景提供实时口译服务。谷歌列举了多语言通话、会议、课程和广播等场景。开发者平台简化了实时媒体的集成工作。Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等平台已在使用 Live API。这些平台负责处理复杂的实时媒体流基础设施，使开发者能够专注于用户体验。

谷歌的示例应用演示了配音和多语言同步翻译功能。Grab 正在测试该模型，用于司机和乘客在接客时的沟通。Grab 用户每月拨打超过 1000 万次语音电话。CJ ENM、LiveKit 和其他公司都对该模型在通话质量、准确性和低延迟方面的出色表现给予了积极评价。

它如何改变 Google Meet 和翻译

根据谷歌官方公告，Google Meet 即将使用 3.5 版实时翻译进行语音翻译。下表展示了 Meet 改版前后的对比情况。

能力	Previous Meet	3.5 实时翻译
语言	5	70岁以上
每场会议的语言组合	仅限往返英语	2000多种组合
使用权	现有接口	更新后的界面可即时访问

Meet 更新本月面向部分 Workspace 企业客户进行内部预览，并将于今年晚些时候全面推出。在翻译应用中，实时翻译功能可与任何已连接的耳机配合使用，并能以 70 多种语言实时还原说话者的语调。Android 还新增了聆听模式。只需像普通通话一样将手机贴近耳朵，翻译后的音频就会通过听筒播放，而不会被他人听到。

要点

Gemini 3.5 Live Translate 是谷歌最新推出的音频模型，支持 70 多种语言的实时语音翻译。
该模型采用连续流式传输而非轮流翻译，翻译内容比说话者滞后几秒。
开发者可通过 Live API 配置该功能，使用 targetLanguageCode 和 echoTargetLanguage 参数；仅支持音频，输入采样率为 16kHz，输出采样率为 24kHz。
该功能已部署至 Gemini Live API、Google Meet（支持语言从 5 种扩展至 70 多种）以及 Translate 应用。
所有生成的音频均带有不可察觉的 SynthID 水印，以便进行检测。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/67565.html