Gradium 发布了两款实时语音翻译模型:stt-translate和s2s-translate。这两款模型均支持五种语言,并将结果实时显示在浏览器中。
Gradium 声称其准确度和延迟之间的平衡优于gpt-realtime-translate和gemini-3.5-live-translate。它还增加了 gpt-realtime-translate 所缺乏的输出语音控制功能,包括克隆功能。

stt-translate
stt-translate 能够将一种语言的语音转换为另一种语言的文本。它支持英语(EN)、法语(FR)、德语(DE)、西班牙语(ES)和葡萄牙语(PT)。
该语言集中的任何源语言均可映射到任何目标语言。也就是说,总共有 20 种语言对,且支持双向转换。
其关键设计在于将两个步骤合并为一步。转录和翻译在语音模型内部通过单次处理即可完成。无需等待中间转录结果,也无需在系统之间进行交接。
据 Gradium 介绍:该方法基于 Hibiki-Zero 框架。该模型通过强化学习同时优化了低延迟和高准确率。这意味着处理流程中的环节更少。
s2s-translate
s2s-translate 能够将一种语言的语音音频端到端转换为另一种语言的语音音频。它基于 stt-translate 构建,并将后者与 Gradium TTS 模型整合到一个服务中。
您可通过 WebSocket 流式传输音频。合成后的输出音频和翻译后的文字转录内容会在生成时同步返回。
这省去了集成工作。您无需自行将 STT 和 TTS 连接起来,也无需管理两条连接。服务器会运行该处理流程,并将结果流式传输回来。
输入音频格式为 24 kHz、16 位有符号单声道 PCM。输出音频格式为 48 kHz、16 位有符号单声道 PCM。同时支持 WAV、Opus、mu-law 和 A-law 格式。
Gradium如何衡量质量:BLEU和MetricX
翻译质量并非用一个数字来衡量,因此 Gradium 会报告两个互补的指标:
BLEU(双语评估参考值)是长期以来被广泛应用的机器翻译标准(Papineni等人)。它衡量模型输出与人工参考翻译之间的n-gram重叠度。其取值范围为0到100,数值越高越好。
BLEU算法速度快、可复现,且在不同系统间具有可比性。它的局限性在于它奖励的是表面词语匹配。使用不同措辞的正确翻译可能会受到惩罚。
MetricX是由谷歌(Juraska 等人)开发的一种基于学习的神经质量指标。它能够预测人类对翻译的评分。MetricX 是一个错误分数,因此分数越低越好,而且它比 BLEU 更能贴近人类的判断。
两者检测的是不同的错误。BLEU 检查词汇准确性;MetricX 检查语义充分性。
基准
Gradium 使用专有的对话语音数据集进行基准测试。该数据反映的是工作、旅行和天气等日常话题,而非脚本文本。
与竞争对手gemini-3.5-live-translate相比,Gradium 在 BLEU 和 MetricX 指标上均领先。与竞争对手gpt-realtime-translate相比,Gradium 在 BLEU 指标上领先,在 MetricX 指标上与竞争对手持平。
| 能力 | Gradium | gpt-realtime-translate | gemini-3.5-live-translate |
|---|---|---|---|
| 平均延迟(所有配对) | 3.0秒 | 3.6秒 | 2.9秒 |
| BLEU(数值越高越好 | 领先于两者 | 低于 Gradium | 低于 Gradium |
| MetricX(误差越小越好) | 与 GPT 类似; | 与 Gradium 类似 | 误差高于 Gradium |
| 选择输出语音 | 是的(目录) | 不 | 未说明 |
| 克隆你自己的声音 | 是的 | 不 | 未说明 |
| 语言 | 5种语言,20对 | 未说明 | 未说明 |
准确度(BLEU 和 MetricX)是基于stt-translate翻译结果来衡量的;延迟则针对s2s-translate整个流程。这需要权衡,而非绝对优势。Gemini 的速度略快;Gradium 的准确度更高,并且增加了语音控制功能。
为何两个模型胜过三个
标准的语音到语音处理流程通常使用三个模型:先是语音转文本(Speech-To-Text),接着是文本到文本翻译(Text-To-Text),最后是文本转语音(Text-To-Speech)。每个阶段都需要单独的推理调用,每次调用都会增加处理时间并产生交接环节。
Gradium 仅使用两个模型。stt-translate 能在单次处理中同时完成转录和翻译,专门的文本到文本阶段被完全省略。
这使得关键路径上减少了一个完整的模型,同时也消除了其带来的延迟和交接环节。在同等质量下,端到端路径比三模型级联更短。
数据印证了这一设计。s2s-translate 在所有语言对上的平均处理时间为 3.0 秒。这优于 gpt-realtime-translate 的 3.6 秒,且接近 gemini-3.5-live-translate 的 2.9 秒。
用例与示例
- 实时配音与本地化:将主持人的声音克隆一次。将法语主题演讲翻译成西班牙语,听起来仍像原演讲者本人。
- 多语言语音客服:通过 s2s-translate 转接客服来电。英语客服能用英语听到德语来电者的声音,并以德语进行实时回复。
- 实时会议:通过 WebSocket 传输麦克风音频。每位参与者都能收到以自己语言呈现的翻译语音和文字记录。
- 无障碍服务与字幕:仅需文本时,可单独使用 stt-translate。在不生成音频的情况下,实时渲染翻译后的字幕。
集成详情请参阅API 文档。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/68654.html