谷歌刚发布了 Gemini 3.5 实时翻译。这是他们最新的实时语音翻译音频模型。语音翻译是指输入语音,然后输出翻译后的语音。该模型可以自动检测 70 多种语言并生成翻译后的语音。它会在输出中保留说话者的语调、语速和音高。传统的逐句翻译系统会等待说话者说完后再进行响应,而 Gemini 3.5 实时翻译则会持续生成语音。它在等待上下文和立即翻译之间取得了平衡。更多的上下文信息可以提高翻译质量,而更快的输出速度则可以确保翻译与说话者保持同步。在整个翻译过程中,翻译结果会比说话者慢几秒钟。

Gemini 3.5 实时翻译
Gemini 3.5 Live Translate 是一款单声道音频模型(gemini-3.5-live-translate-preview),而非聊天助手。它会在音频流传入时立即处理语音,而不是在完整句子结束后才进行处理。它无需手动配置即可处理多语言输入。其出色的抗噪性能使其应用程序能够在嘈杂、多变的环境中正常运行。
该模型将通过三种渠道推出。开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版。企业用户可从本月起在 Google Meet 中获得内部预览版。其他用户则可通过 Android 和 iOS 上的 Google Translate 应用获取该模型。
连续流的工作原理
设计上的差异对于构建实时功能至关重要。对话式实时代理采用回合制交互,依赖于停顿、意图检测和中断处理。而实时翻译则采用连续流处理,在说话者说话的同时进行翻译,无需等待回合结束。
为了严格控制实时延迟,翻译路径仅接受音频输入。翻译模式下不支持文本输入。此外,该模型在此模式下还会移除工具使用和系统指令。这使得它成为一个专注于特定功能的翻译流程,而非通用代理。
使用 Live API 进行开发
开发人员可在 Live API 会话设置中配置翻译。您需要在 generationConfig 中设置一个 translationConfig 块。targetLanguageCode 字段接受 BCP-47 代码,例如 “pl” 或 “es”。BCP-47 是 en 或 pt-BR 等语言标签的标准格式。其默认值为 “en”。布尔型参数 echoTargetLanguage 用于控制已为目标语言的输入。当值为 true 时,模型会复述该语音;当值为 false 时,模型保持静默。您还可以启用 inputAudioTranscription 和 outputAudioTranscription 以获取文本转录内容。
音频格式固定。输入为原始 16 位 PCM 音频,采样率为 16kHz,单声道,小端序。输出为原始 16 位 PCM 音频,采样率为 24kHz,单声道,小端序。PCM 是未压缩的原始音频。音频以 100 毫秒为单位发送。对于客户端应用,v1alpha 端点的临时令牌可避免泄露您的 API 密钥。
| 维度 | Live Agen | 实时翻译 |
|---|---|---|
| 榜样角色 | 能够倾听、推理和行动的助手 | 口译员/实时笔译员流程 |
| 相互作用 | 回合制,带中断处理机制 | 连续流处理,无转弯 |
| 工具 | 函数调用、谷歌搜索、说明 | 仅翻译,不包含任何工具或说明 |
| 输入 | 文本、音频、视频和图像 | 仅音频,适用于严格延迟 |
| 配置 | 生成、语音、工具、指令 | targetLanguageCode和echoTargetLanguage |
用例
该模型旨在为多种场景提供实时口译服务。谷歌列举了多语言通话、会议、课程和广播等场景。开发者平台简化了实时媒体的集成工作。Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等平台已在使用 Live API。这些平台负责处理复杂的实时媒体流基础设施,使开发者能够专注于用户体验。
谷歌的示例应用演示了配音和多语言同步翻译功能。Grab 正在测试该模型,用于司机和乘客在接客时的沟通。Grab 用户每月拨打超过 1000 万次语音电话。CJ ENM、LiveKit 和其他公司都对该模型在通话质量、准确性和低延迟方面的出色表现给予了积极评价。
它如何改变 Google Meet 和翻译
根据谷歌官方公告,Google Meet 即将使用 3.5 版实时翻译进行语音翻译。下表展示了 Meet 改版前后的对比情况。
| 能力 | Previous Meet | 3.5 实时翻译 |
|---|---|---|
| 语言 | 5 | 70岁以上 |
| 每场会议的语言组合 | 仅限往返英语 | 2000多种组合 |
| 使用权 | 现有接口 | 更新后的界面可即时访问 |
Meet 更新本月面向部分 Workspace 企业客户进行内部预览,并将于今年晚些时候全面推出。在翻译应用中,实时翻译功能可与任何已连接的耳机配合使用,并能以 70 多种语言实时还原说话者的语调。Android 还新增了聆听模式。只需像普通通话一样将手机贴近耳朵,翻译后的音频就会通过听筒播放,而不会被他人听到。
要点
- Gemini 3.5 Live Translate 是谷歌最新推出的音频模型,支持 70 多种语言的实时语音翻译。
- 该模型采用连续流式传输而非轮流翻译,翻译内容比说话者滞后几秒。
- 开发者可通过 Live API 配置该功能,使用 targetLanguageCode 和 echoTargetLanguage 参数;仅支持音频,输入采样率为 16kHz,输出采样率为 24kHz。
- 该功能已部署至 Gemini Live API、Google Meet(支持语言从 5 种扩展至 70 多种)以及 Translate 应用。
- 所有生成的音频均带有不可察觉的 SynthID 水印,以便进行检测。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/67565.html