Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型

谷歌刚发布了 Gemini 3.5 实时翻译。这是他们最新的实时语音翻译音频模型。语音翻译是指输入语音,然后输出翻译后的语音。该模型可以自动检测 70 多种语言并生成翻译后的语音。它会在输出中保留说话者的语调、语速和音高。传统的逐句翻译系统会等待说话者说完后再进行响应,而 Gemini 3.5 实时翻译则会持续生成语音。它在等待上下文和立即翻译之间取得了平衡。更多的上下文信息可以提高翻译质量,而更快的输出速度则可以确保翻译与说话者保持同步。在整个翻译过程中,翻译结果会比说话者慢几秒钟。

Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型

Gemini 3.5 实时翻译

Gemini 3.5 Live Translate 是一款单声道音频模型(gemini-3.5-live-translate-preview),而非聊天助手。它会在音频流传入时立即处理语音,而不是在完整句子结束后才进行处理。它无需手动配置即可处理多语言输入。其出色的抗噪性能使其应用程序能够在嘈杂、多变的环境中正常运行。

该模型将通过三种渠道推出。开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版。企业用户可从本月起在 Google Meet 中获得内部预览版。其他用户则可通过 Android 和 iOS 上的 Google Translate 应用获取该模型。

连续流的工作原理

设计上的差异对于构建实时功能至关重要。对话式实时代理采用回合制交互,依赖于停顿、意图检测和中断处理。而实时翻译则采用连续流处理,在说话者说话的同时进行翻译,无需等待回合结束。

为了严格控制实时延迟,翻译路径仅接受音频输入。翻译模式下不支持文本输入。此外,该模型在此模式下还会移除工具使用和系统指令。这使得它成为一个专注于特定功能的翻译流程,而非通用代理。

使用 Live API 进行开发

开发人员可在 Live API 会话设置中配置翻译。您需要在 generationConfig 中设置一个 translationConfig 块。targetLanguageCode 字段接受 BCP-47 代码,例如 “pl” 或 “es”。BCP-47 是 en 或 pt-BR 等语言标签的标准格式。其默认值为 “en”。布尔型参数 echoTargetLanguage 用于控制已为目标语言的输入。当值为 true 时,模型会复述该语音;当值为 false 时,模型保持静默。您还可以启用 inputAudioTranscriptionoutputAudioTranscription 以获取文本转录内容。

音频格式固定。输入为原始 16 位 PCM 音频,采样率为 16kHz,单声道,小端序。输出为原始 16 位 PCM 音频,采样率为 24kHz,单声道,小端序。PCM 是未压缩的原始音频。音频以 100 毫秒为单位发送。对于客户端应用,v1alpha 端点的临时令牌可避免泄露您的 API 密钥。

维度Live Agen实时翻译
榜样角色能够倾听、推理和行动的助手口译员/实时笔译员流程
相互作用回合制,带中断处理机制连续流处理,无转弯
工具函数调用、谷歌搜索、说明仅翻译,不包含任何工具或说明
输入文本、音频、视频和图像仅音频,适用于严格延迟
配置生成、语音、工具、指令targetLanguageCodeechoTargetLanguage

用例

该模型旨在为多种场景提供实时口译服务。谷歌列举了多语言通话、会议、课程和广播等场景。开发者平台简化了实时媒体的集成工作。Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等平台已在使用 Live API。这些平台负责处理复杂的实时媒体流基础设施,使开发者能够专注于用户体验。

谷歌的示例应用演示了配音和多语言同步翻译功能。Grab 正在测试该模型,用于司机和乘客在接客时的沟通。Grab 用户每月拨打超过 1000 万次语音电话。CJ ENM、LiveKit 和其他公司都对该模型在通话质量、准确性和低延迟方面的出色表现给予了积极评价。

它如何改变 Google Meet 和翻译

根据谷歌官方公告,Google Meet 即将使用 3.5 版实时翻译进行语音翻译。下表展示了 Meet 改版前后的对比情况。

能力Previous Meet3.5 实时翻译
语言570岁以上
每场会议的语言组合仅限往返英语2000多种组合
使用权现有接口更新后的界面可即时访问

Meet 更新本月面向部分 Workspace 企业客户进行内部预览,并将于今年晚些时候全面推出。在翻译应用中,实时翻译功能可与任何已连接的耳机配合使用,并能以 70 多种语言实时还原说话者的语调。Android 还新增了聆听模式。只需像普通通话一样将手机贴近耳朵,翻译后的音频就会通过听筒播放,而不会被他人听到。

要点

  • Gemini 3.5 Live Translate 是谷歌最新推出的音频模型,支持 70 多种语言的实时语音翻译。
  • 该模型采用连续流式传输而非轮流翻译,翻译内容比说话者滞后几秒。
  • 开发者可通过 Live API 配置该功能,使用 targetLanguageCode 和 echoTargetLanguage 参数;仅支持音频,输入采样率为 16kHz,输出采样率为 24kHz。
  • 该功能已部署至 Gemini Live API、Google Meet(支持语言从 5 种扩展至 70 多种)以及 Translate 应用。
  • 所有生成的音频均带有不可察觉的 SynthID 水印,以便进行检测。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/67565.html

(0)

相关推荐