NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型

NVIDIA 近日发布了其全新的英语实时转录模型(Nemotron Speech ASR),该模型专为低延迟语音助手和实时字幕生成而设计。Hugging Face平台上的测试版本 nvidia/nemotron-speech-streaming-en-0.6b 结合了具备缓存意识的 FastConformer 编码器与 RNNT 解码器,并针对现代 NVIDIA GPU 上的流式处理和批处理工作负载进行了优化调优。

模型设计、架构和输入假设

Nemotron Speech ASR(自动语音识别)是一个参数量为 6 亿的模型,它基于一个具有缓存感知功能的 24 层 FastConformer 编码器和一个 RNNT 解码器。该编码器采用激进的 8 倍卷积下采样来减少时间步数,从而直接降低流式工作负载的计算和内存成本。该模型使用 16 kHz 单声道音频,并且每个音频块至少需要 80 毫秒的输入音频。

运行时延迟通过可配置的上下文大小进行控制。该模型提供 4 种标准块配置,分别对应约 80 毫秒、160 毫秒、560 毫秒和 1.12 秒的音频。这些模式由一个att_context_size参数驱动,该参数以 80 毫秒帧的倍数设置左右注意力上下文,并且可以在推理时更改,无需重新训练。

缓存感知流式处理,而非缓冲滑动窗口

传统的“流式自动语音识别”通常使用重叠窗口。每个传入窗口都会重新处理之前音频的一部分以保持上下文,这会浪费计算资源,并导致延迟随着并发量的增加而上升。

Nemotron Speech ASR 则为所有自注意力层和卷积层维护一个编码器状态缓存。每个新数据块只处理一次,模型会重用缓存的激活值,而不是重新计算重叠的上下文。这带来了以下结果:

  • 由于帧处理不重叠,因此工作量与音频长度呈线性关系。
  • 内存增长可预测,因为缓存大小随序列长度增长,而不是随并发相关的重复代码增长。
  • 在高负载下保持稳定的延迟,这对于语音代理的轮流和中断至关重要。

准确率与延迟:流式处理约束下的词错误率

Nemotron Speech ASR在Hugging Face OpenASR排行榜数据集上进行评估,包括AMI、Earnings22、Gigaspeech和LibriSpeech。准确率以不同分块大小下的词错误率(WER)形式呈现。

NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型

综合以上各项指标,该模型平均达到以下目标:

  • 在 0.16 秒的数据块大小下,WER 约为 7.84%。
  • 在 0.56 秒的数据块大小下,WER 约为 7.22%。
  • 在 1.12 秒的数据块大小下,WER 约为 7.16%。

这说明了延迟与准确性之间的权衡。较大的数据块可以提供更多的语音上下文信息,并略微降低词错误率 (WER),但即使是 0.16 秒的模式也能将 WER 控制在 8% 以下,同时仍然适用于实时语音代理。开发者可以根据应用需求选择推理时的操作点,例如,对于需要快速响应的语音代理,可以选择 160 毫秒;对于以转录为中心的工作流程,可以选择 560 毫秒。

现代GPU的吞吐量和并发性

缓存感知设计对并发性有显著提升。在 NVIDIA H100 GPU 上,Nemotron Speech ASR 在 320 毫秒的数据块大小下支持约 560 个并发流,大约是相同延迟目标下基准流媒体系统并发性的 3 倍。RTX A5000 和 DGX B200 的基准测试也显示出类似的吞吐量提升,在典型延迟设置下,A5000 的并发性提升超过 5 倍,B200 的并发性提升高达 2 倍。

同样重要的是,随着并发量的增加,延迟保持稳定。在 Modal 的测试中,当 127 个 WebSocket 客户端并发且延迟设置为 560 毫秒时,系统将端到端延迟中位数维持在 182 毫秒左右,没有出现漂移,这对于需要在数分钟会话中与实时语音保持同步的智能体至关重要。

训练数据和生态系统整合

Nemotron Speech ASR 主要基于 NVIDIA Granary 数据集的英语部分进行训练,并结合了大量公共语音语料库,总音频时长约为 28.5 万小时。这些数据集包括 YouTube Commons、YODAS2、Mosel、LibriLight、Fisher、Switchboard、WSJ、VCTK、VoxPopuli 以及多个 Mozilla Common Voice 版本。标签结合了人工标注和 ASR 生成的转录文本。

要点总结

  1. Nemotron Speech ASR 是一个 0.6B 参数的英语流模型,它使用缓存感知的 FastConformer 编码器和 RNNT 解码器,并处理 16 kHz 单声道音频,输入块至少为 80 毫秒。
  2. 该模型提供了 4 种推理时间块配置,分别为约 80 毫秒、160 毫秒、560 毫秒和 1.12 秒,这使得工程师可以在不重新训练的情况下,以延迟换取准确性,同时在标准 ASR 基准测试中将 WER 保持在 7.2% 到 7.8% 左右。
  3. 缓存感知流式传输消除了重叠窗口的重新计算,因此每个音频帧只编码一次,与类似延迟的缓冲流式传输基线相比,在 H100 上可实现约 3 倍的并发流,在 RTX A5000 上可实现 5 倍以上,在 DGX B200 上可实现高达 2 倍。
  4. 在采用 Nemotron Speech ASR、Nemotron 3 Nano 30B 和 Magpie TTS 的端到端语音代理中,测得的最终转录中位数时间约为 24 毫秒,而 RTX 5090 上的服务器端语音到语音延迟约为 500 毫秒,这使得 ASR 仅占总延迟预算的一小部分。
  5. Nemotron Speech ASR 以 NeMo 检查点的形式,根据 NVIDIA 宽松开放模型许可发布,其中包含开放的权重和训练细节,因此团队可以自行托管、微调和分析整个堆栈,以实现低延迟语音代理和语音应用程序。

更多详细信息,请访问https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/64152.html

(0)

相关推荐

发表回复

登录后才能评论