NVIDIA 开源 Parakeet TDT 0.6B:打造自动语音识别 ASR 全新标准,一秒转录一小时音频

NVIDIA 发布了Parakeet TDT 0.6B,这是一款先进的自动语音识别 (ASR) 模型,现已在Hugging Face上完全开源。该模型拥有6 亿个参数商业许可的 CC-BY-4.0 许可证以及惊人的3386 实时因子 (RTF),为语音 AI 的性能和可访问性树立了新的标杆。

极快的速度和准确性

Parakeet TDT 0.6B 的核心吸引力在于其无与伦比的速度和转录质量。该模型只需一秒钟即可转录 60 分钟的音频,其性能比许多现有的开放式 ASR 模型快 50 倍以上。在 Hugging Face 的开放式 ASR 排行榜上,Parakeet V2 的词错率 (WER)达到6.05%,在同类开放式模型中名列前茅。

这一性能代表着企业级语音应用的重大飞跃,包括实时转录、基于语音的分析、呼叫中心智能和音频内容索引。

技术概述

Parakeet TDT 0.6B 基于 Transformer 架构构建,并利用高质量转录数据进行微调,并针对 NVIDIA 硬件上的推理进行了优化。以下是主要亮点:

  • 600M参数编码器-解码器模型
  • 量化和融合内核以实现最大推理效率
  • 针对TDT(传感器解码器变压器)架构进行了优化
  • 支持精确的时间戳格式数字格式标点符号恢复
  • 率先将歌曲转录为歌词,这是 ASR 模型中罕见的功能

该模型的高速推理由 NVIDIA 的TensorRTFP8 量化提供支持,使其能够达到RTF = 3386的实时因子,这意味着它处理音频的速度比实时快 3386 倍

基准领导力

在Hugging Face Open ASR 排行榜(一个用于评估公共数据集中语音模型的标准化基准)上,Parakeet TDT 0.6B 以开源模型中最低的字错误率 (WER)领跑。这使其远超 OpenAI 的 Whisper 等同类模型以及其他社区驱动的成果。

NVIDIA 开源 Parakeet TDT 0.6B:打造自动语音识别 ASR 全新标准,一秒转录一小时音频
数据基于2025年5月5日

这种性能使得 Parakeet V2 不仅在质量方面处于领先地位,而且在对延迟敏感的应用程序的部署准备方面也处于领先地位。

超越传统转录

Parakeet 不仅仅关注速度和词错误率。NVIDIA 在该模型中嵌入了独特的功能:

  • 歌曲到歌词的转录:解锁歌唱内容的转录,将用例扩展到音乐索引和媒体平台。
  • 数字和时间戳格式:提高会议记录、法律记录和健康记录等结构化环境中的可读性和可用性。
  • 标点符号恢复:增强下游 NLP 应用程序的自然可读性。

这些功能提高了成绩单的质量并减轻了后期处理或人工编辑的负担,尤其是在企业级部署中。

战略意义

Parakeet TDT 0.6B 的发布代表着 NVIDIA 在AI 基础设施开放生态系统领导力方面的战略投资又迈出了一步。凭借在基础模型(例如用于语言的 Nemotron 和用于蛋白质设计的 BioNeMo)方面的强劲发展势头,NVIDIA 正将自己定位为一家全栈 AI 公司——从 GPU 到最先进模型。

对于人工智能开发者社区来说,这个开放版本可能成为构建语音界面的新基础,包括智能设备、虚拟助手和多模式人工智能代理。

Parakeet TDT 0.6B 现已在Hugging Face上发布,包含模型权重、分词器和推理脚本。它在搭载 TensorRT 的 NVIDIA GPU 上可实现最佳运行,但也支持吞吐量较低的 CPU 环境。

无论您是构建转录服务、注释海量音频数据集还是将语音集成到您的产品中,Parakeet TDT 0.6B 都提供了引人注目的商业 API 开源替代方案。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57878.html

(0)

相关推荐

发表回复

登录后才能评论