Gradium推出stt-translate和s2s-translate，实时语音翻译模型在准确率和延迟方面均优于gpt-realtime-translate

Gradium 发布了两款实时语音翻译模型：stt-translate和s2s-translate。这两款模型均支持五种语言，并将结果实时显示在浏览器中。

Gradium 声称其准确度和延迟之间的平衡优于gpt-realtime-translate和gemini-3.5-live-translate。它还增加了 gpt-realtime-translate 所缺乏的输出语音控制功能，包括克隆功能。

stt-translate

stt-translate 能够将一种语言的语音转换为另一种语言的文本。它支持英语（EN）、法语（FR）、德语（DE）、西班牙语（ES）和葡萄牙语（PT）。

该语言集中的任何源语言均可映射到任何目标语言。也就是说，总共有 20 种语言对，且支持双向转换。

其关键设计在于将两个步骤合并为一步。转录和翻译在语音模型内部通过单次处理即可完成。无需等待中间转录结果，也无需在系统之间进行交接。

据 Gradium 介绍：该方法基于 Hibiki-Zero 框架。该模型通过强化学习同时优化了低延迟和高准确率。这意味着处理流程中的环节更少。

s2s-translate 能够将一种语言的语音音频端到端转换为另一种语言的语音音频。它基于 stt-translate 构建，并将后者与 Gradium TTS 模型整合到一个服务中。

您可通过 WebSocket 流式传输音频。合成后的输出音频和翻译后的文字转录内容会在生成时同步返回。

这省去了集成工作。您无需自行将 STT 和 TTS 连接起来，也无需管理两条连接。服务器会运行该处理流程，并将结果流式传输回来。

输入音频格式为 24 kHz、16 位有符号单声道 PCM。输出音频格式为 48 kHz、16 位有符号单声道 PCM。同时支持 WAV、Opus、mu-law 和 A-law 格式。

翻译质量并非用一个数字来衡量，因此 Gradium 会报告两个互补的指标：

BLEU（双语评估参考值）是长期以来被广泛应用的机器翻译标准（Papineni等人）。它衡量模型输出与人工参考翻译之间的n-gram重叠度。其取值范围为0到100，数值越高越好。

BLEU算法速度快、可复现，且在不同系统间具有可比性。它的局限性在于它奖励的是表面词语匹配。使用不同措辞的正确翻译可能会受到惩罚。

MetricX是由谷歌（Juraska 等人）开发的一种基于学习的神经质量指标。它能够预测人类对翻译的评分。MetricX 是一个错误分数，因此分数越低越好，而且它比 BLEU 更能贴近人类的判断。

两者检测的是不同的错误。BLEU 检查词汇准确性；MetricX 检查语义充分性。

Gradium 使用专有的对话语音数据集进行基准测试。该数据反映的是工作、旅行和天气等日常话题，而非脚本文本。

与竞争对手gemini-3.5-live-translate相比，Gradium 在 BLEU 和 MetricX 指标上均领先。与竞争对手gpt-realtime-translate相比，Gradium 在 BLEU 指标上领先，在 MetricX 指标上与竞争对手持平。

能力	Gradium	`gpt-realtime-translate`	`gemini-3.5-live-translate`
平均延迟（所有配对）	3.0秒	3.6秒	2.9秒
BLEU（数值越高越好	领先于两者	低于 Gradium	低于 Gradium
MetricX（误差越小越好）	与 GPT 类似；	与 Gradium 类似	误差高于 Gradium
选择输出语音	是的（目录）	不	未说明
克隆你自己的声音	是的	不	未说明
语言	5种语言，20对	未说明	未说明