NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

NVIDIA 的 Nemotron Speech 团队发布了Nemotron 3.5 ASR。这是一个拥有 6 亿参数的流式自动语音识别 (ASR) 模型。单个检查点即可实时转录 40 种语言区域设置。标点符号和大小写均已原生支持。该模型以开放权重的形式发布在 Hugging Face 上，采用 OpenMDW-1.1 许可。其架构为缓存感知型 FastConformer-RNNT。

什么是 Nemotron 3.5 ASR

Nemotron 3.5 ASR 在 nvidia/nemotron-speech-streaming-en-0.6b 的基础上扩展了多种语言支持。它在基础模型中加入了基于提示的语言 ID 条件判断功能。这使得一个包含 6 亿个参数的检查点即可覆盖 40 种语言区域设置。无需针对每种语言单独构建模型或进行模型切换。

该模型针对两种工作负载。第一种是低延迟实时音频流传输。第二种是高吞吐量批量转录。输出结果是可直接用于生产环境的文本，大小写和标点符号均正确无误。无需单独的标点符号恢复步骤。

NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

缓存感知型 FastConformer-RNNT 的工作原理

该模型由两部分组成。第一部分是一个24层的缓存感知型FastConformer编码器。FastConformer是Conformer架构的高效演进版本，它采用了线性可扩展的注意力机制。第二部分是一个RNNT（循环神经网络转换器）解码器。RNNT将音频流逐帧解码为文本。

“缓存感知”设计是提升效率的关键。缓冲流式传输会在每个步骤中重复处理重叠的音频窗口，这不仅重复了相同的工作，还增加了延迟。而该模型则缓存编码器的自注意力机制和卷积激活值，并在新音频到达时重用这些缓存状态。因此，每个音频帧都只被处理一次，不存在重叠。计算延迟和端到端延迟都得以降低，且不影响准确率。

延迟调节旋钮：att_context_size

有一个推理设置可以控制延迟与精度的权衡。这就是注意力上下文大小（att_context_size）。较小的上下文能更快生成文本，但能预见未来的音频较少；较大的上下文则能在更高的延迟下提高精度。

同一个检查点覆盖了整个范围。这些设置对应 80 毫秒、160 毫秒、320 毫秒、560 毫秒和 1.12 秒的片段时长。例如，[56,0] 设置对应 80 毫秒的超低延迟模式，而 [56,13] 设置则提供 1.12 秒的片段时长以实现最高精度。团队可在推理时选择工作点，无需重新训练。

语言检测与覆盖范围

这 40 种语言区域设置包括英语、西班牙语、德语和法语的各种变体。此外，还涵盖阿拉伯语、日语、韩语、普通话、印地语和泰语。此外，还包含其他几种欧洲和北欧语言。

语言条件设置有两种方式。将 target_lang 设置为已知的语言环境通常能获得最佳准确率。将 target_lang 设为 auto 则允许模型自行检测语言。在自动模式下，模型会在句末标点符号后输出语言标签。这样，一次部署即可转录混合语言的语音数据，无需单独的语言识别组件。

比较

产品	公司	使用权	原生流媒体	语言覆盖范围	报告的延迟	定价模式
Nemotron 3.5 ASR	NVIDIA	开放权重（OpenMDW-1.1），自托管；托管于 DeepInfra	是，缓存感知的 FastConformer-RNNT	40 个语言区域	80毫秒至1.12秒，可在推理阶段配置	免费自托管；通过主机商按使用量付费。
Whisper large-v3	OpenAI	开源权重（MIT 许可证），可自行托管；API	否，离线/批量	约99种语言	非流媒体原生支持	自托管免费；API 服务价格约为 0.006 美元/分钟（批量处理）
Nova-3	Deepgram	封闭式 API；本地部署/自托管（企业级）	是，流式传输+批量处理	支持多种语言；2026年1月新增10种单语种语言	低延迟流媒体（据称低于300毫秒）	~$0.0077/分钟（Nova-3 单语版，按需付费）
Universal-3 Pro Streaming	AssemblyAI	封闭式 API（欧盟端点可用）	是	6种语言：英语、西班牙语、法语、德语、意大利语、葡萄牙语	低于300毫秒（官方数据）；第一次部分计时约750毫秒	按使用量计费（PAYG）
Scribe v2 Realtime	ElevenLabs	封闭式 API	是	支持90多种语言（ElevenLabs支持99种）	约150毫秒（p50）	每小时约 0.28 美元
Ursa / streaming	Speechmatics	API + 本地部署 + 边缘计算	是，流式传输+批量处理	50多种语言，具备自动识别功能	超低延迟（定位）	企业/使用情况

微调结果

由于权重是公开的，各团队可以针对特定语言、领域或口音进行微调。NVIDIA 发布了一个关于希腊语和保加利亚语的示例。该示例使用相同的 Cache-Aware FastConformer-RNNT 方法对基础检查点进行了微调。每个音频片段都带有 target_lang 标签，用于语言条件设置。训练数据来自公开语料库，包括 Granary、Common Voice 和 FLEURS。

结果以保留集 FLEURS 上的 WER 作为衡量标准，延迟设置为 80 毫秒。希腊语 WER 从 35 降至 24，相对改善了 32%。保加利亚语 WER 从 22 降至 15，相对改善了 31%。这些是在最低延迟流式传输模式下的原始 WER 百分比。NVIDIA 指出，在部署延迟下对保留集数据进行评估，能得出更真实的数值。

优势与注意事项

优势：

一个600M参数的检查点覆盖了40种语言环境，有效减少了部署规模。
支持缓存的流式处理机制仅需处理每帧一次，在H100上报告的缓冲并发数为17倍。
att_context_size参数可在推理时将延迟从80毫秒调整至1.12秒，且无需重新训练。
内置标点符号、大小写识别及自动语言标注功能。
开放权重后，在希腊语和保加利亚语上经过微调，相对WER降低了31–32%。

注意事项：

该模型支持英语，但 NVIDIA 建议仅使用英语的用户使用其专用的英语模型。
80毫秒模式以牺牲一些精度为代价，换取最低的延迟。
日语和韩语都使用 CER，因此跨语言错误比较需要谨慎。
吞吐量数据是在 H100 上测量的，因此在其他 GPU 上的结果会有所不同。
支持 gRPC 流式传输的生产版 NIM 已经宣布，但尚未发布。

要点总结

NVIDIA 的 Nemotron 3.5 ASR 是一个开放权重 (OpenMDW-1.1) 的 6 亿参数流式模型，可从一个检查点转录 40 种语言区域设置。
其缓存感知快速成型器-RNNT 设计对每个音频帧进行一次处理，据报道，其并发流速度是 H100 缓冲方法的 17 倍。
推理延迟可通过配置att_context_size从 80 毫秒到 1.12 秒不等，无需重新训练。
在 80 毫秒设置下，对希腊语 (35→24) 和保加利亚语 (22→15) 进行短暂的微调，削减 FLEURS WER 32% 和 31%。
它可自托管且原生支持流媒体，这与封闭式 API（Deepgram、AssemblyAI、ElevenLabs）或离线 Whisper 不同。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/67424.html