Gradium推出stt-translate和s2s-translate,实时语音翻译模型在准确率和延迟方面均优于gpt-realtime-translate

Gradium 发布了两款实时语音翻译模型:stt-translates2s-translate。这两款模型均支持五种语言,并将结果实时显示在浏览器中。

Gradium 声称其准确度和延迟之间的平衡优于gpt-realtime-translategemini-3.5-live-translate。它还增加了 gpt-realtime-translate 所缺乏的输出语音控制功能,包括克隆功能。

Gradium推出stt-translate和s2s-translate,实时语音翻译模型在准确率和延迟方面均优于gpt-realtime-translate

stt-translate

stt-translate 能够将一种语言的语音转换为另一种语言的文本。它支持英语(EN)、法语(FR)、德语(DE)、西班牙语(ES)和葡萄牙语(PT)。

该语言集中的任何源语言均可映射到任何目标语言。也就是说,总共有 20 种语言对,且支持双向转换。

其关键设计在于将两个步骤合并为一步。转录和翻译在语音模型内部通过单次处理即可完成。无需等待中间转录结果,也无需在系统之间进行交接。

据 Gradium 介绍:该方法基于 Hibiki-Zero 框架。该模型通过强化学习同时优化了低延迟和高准确率。这意味着处理流程中的环节更少。

s2s-translate

s2s-translate 能够将一种语言的语音音频端到端转换为另一种语言的语音音频。它基于 stt-translate 构建,并将后者与 Gradium TTS 模型整合到一个服务中。

您可通过 WebSocket 流式传输音频。合成后的输出音频和翻译后的文字转录内容会在生成时同步返回。

这省去了集成工作。您无需自行将 STT 和 TTS 连接起来,也无需管理两条连接。服务器会运行该处理流程,并将结果流式传输回来。

输入音频格式为 24 kHz、16 位有符号单声道 PCM。输出音频格式为 48 kHz、16 位有符号单声道 PCM。同时支持 WAV、Opus、mu-law 和 A-law 格式。

Gradium如何衡量质量:BLEU和MetricX

翻译质量并非用一个数字来衡量,因此 Gradium 会报告两个互补的指标:

BLEU(双语评估参考值)是长期以来被广泛应用的机器翻译标准(Papineni等人)。它衡量模型输出与人工参考翻译之间的n-gram重叠度。其取值范围为0到100,数值越高越好。

BLEU算法速度快、可复现,且在不同系统间具有可比性。它的局限性在于它奖励的是表面词语匹配。使用不同措辞的正确翻译可能会受到惩罚。

MetricX是由谷歌(Juraska 等人)开发的一种基于学习的神经质量指标。它能够预测人类对翻译的评分。MetricX 是一个错误分数,因此分数越低越好,而且它比 BLEU 更能贴近人类的判断。

两者检测的是不同的错误。BLEU 检查词汇准确性;MetricX 检查语义充分性。

基准

Gradium 使用专有的对话语音数据集进行基准测试。该数据反映的是工作、旅行和天气等日常话题,而非脚本文本。

与竞争对手gemini-3.5-live-translate相比,Gradium 在 BLEU 和 MetricX 指标上均领先。与竞争对手gpt-realtime-translate相比,Gradium 在 BLEU 指标上领先,在 MetricX 指标上与竞争对手持平。

能力Gradium gpt-realtime-translategemini-3.5-live-translate
平均延迟(所有配对)3.0秒3.6秒2.9秒
BLEU(数值越高越好领先于两者低于 Gradium低于 Gradium
MetricX(误差越小越好)与 GPT 类似;与 Gradium 类似误差高于 Gradium
选择输出语音是的(目录)未说明
克隆你自己的声音是的未说明
语言5种语言,20对未说明未说明

准确度(BLEU 和 MetricX)是基于stt-translate翻译结果来衡量的;延迟则针对s2s-translate整个流程。这需要权衡,而非绝对优势。Gemini 的速度略快;Gradium 的准确度更高,并且增加了语音控制功能。

为何两个模型胜过三个

标准的语音到语音处理流程通常使用三个模型:先是语音转文本(Speech-To-Text),接着是文本到文本翻译(Text-To-Text),最后是文本转语音(Text-To-Speech)。每个阶段都需要单独的推理调用,每次调用都会增加处理时间并产生交接环节。

Gradium 仅使用两个模型。stt-translate 能在单次处理中同时完成转录和翻译,专门的文本到文本阶段被完全省略。

这使得关键路径上减少了一个完整的模型,同时也消除了其带来的延迟和交接环节。在同等质量下,端到端路径比三模型级联更短。

数据印证了这一设计。s2s-translate 在所有语言对上的平均处理时间为 3.0 秒。这优于 gpt-realtime-translate 的 3.6 秒,且接近 gemini-3.5-live-translate 的 2.9 秒。

用例与示例

  • 实时配音与本地化:将主持人的声音克隆一次。将法语主题演讲翻译成西班牙语,听起来仍像原演讲者本人。
  • 多语言语音客服:通过 s2s-translate 转接客服来电。英语客服能用英语听到德语来电者的声音,并以德语进行实时回复。
  • 实时会议:通过 WebSocket 传输麦克风音频。每位参与者都能收到以自己语言呈现的翻译语音和文字记录。
  • 无障碍服务与字幕:仅需文本时,可单独使用 stt-translate。在不生成音频的情况下,实时渲染翻译后的字幕。

集成详情请参阅API 文档

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/68654.html

(0)

相关推荐