NVIDIA 开源 Parakeet TDT 0.6B：打造自动语音识别 ASR 全新标准，一秒转录一小时音频

AIGC • 2025年5月6日下午4:34 • 技术文章

NVIDIA 发布了Parakeet TDT 0.6B，这是一款先进的自动语音识别 (ASR) 模型，现已在Hugging Face上完全开源。该模型拥有6 亿个参数、商业许可的 CC-BY-4.0 许可证以及惊人的3386 实时因子 (RTF)，为语音 AI 的性能和可访问性树立了新的标杆。

极快的速度和准确性

Parakeet TDT 0.6B 的核心吸引力在于其无与伦比的速度和转录质量。该模型只需一秒钟即可转录 60 分钟的音频，其性能比许多现有的开放式 ASR 模型快 50 倍以上。在 Hugging Face 的开放式 ASR 排行榜上，Parakeet V2 的词错率 (WER)达到6.05%，在同类开放式模型中名列前茅。

这一性能代表着企业级语音应用的重大飞跃，包括实时转录、基于语音的分析、呼叫中心智能和音频内容索引。

技术概述

Parakeet TDT 0.6B 基于 Transformer 架构构建，并利用高质量转录数据进行微调，并针对 NVIDIA 硬件上的推理进行了优化。以下是主要亮点：

600M参数编码器-解码器模型
量化和融合内核以实现最大推理效率
针对TDT（传感器解码器变压器）架构进行了优化
支持精确的时间戳格式、数字格式和标点符号恢复
率先将歌曲转录为歌词，这是 ASR 模型中罕见的功能

该模型的高速推理由 NVIDIA 的TensorRT和FP8 量化提供支持，使其能够达到RTF = 3386的实时因子，这意味着它处理音频的速度比实时快 3386 倍。

基准领导力

在Hugging Face Open ASR 排行榜（一个用于评估公共数据集中语音模型的标准化基准）上，Parakeet TDT 0.6B 以开源模型中最低的字错误率 (WER)领跑。这使其远超 OpenAI 的 Whisper 等同类模型以及其他社区驱动的成果。

NVIDIA 开源 Parakeet TDT 0.6B：打造自动语音识别 ASR 全新标准，一秒转录一小时音频 — *数据基于2025年5月5日*

这种性能使得 Parakeet V2 不仅在质量方面处于领先地位，而且在对延迟敏感的应用程序的部署准备方面也处于领先地位。

超越传统转录

Parakeet 不仅仅关注速度和词错误率。NVIDIA 在该模型中嵌入了独特的功能：

歌曲到歌词的转录：解锁歌唱内容的转录，将用例扩展到音乐索引和媒体平台。
数字和时间戳格式：提高会议记录、法律记录和健康记录等结构化环境中的可读性和可用性。
标点符号恢复：增强下游 NLP 应用程序的自然可读性。

这些功能提高了成绩单的质量并减轻了后期处理或人工编辑的负担，尤其是在企业级部署中。

战略意义

Parakeet TDT 0.6B 的发布代表着 NVIDIA 在AI 基础设施和开放生态系统领导力方面的战略投资又迈出了一步。凭借在基础模型（例如用于语言的 Nemotron 和用于蛋白质设计的 BioNeMo）方面的强劲发展势头，NVIDIA 正将自己定位为一家全栈 AI 公司——从 GPU 到最先进模型。

对于人工智能开发者社区来说，这个开放版本可能成为构建语音界面的新基础，包括智能设备、虚拟助手和多模式人工智能代理。

Parakeet TDT 0.6B 现已在Hugging Face上发布，包含模型权重、分词器和推理脚本。它在搭载 TensorRT 的 NVIDIA GPU 上可实现最佳运行，但也支持吞吐量较低的 CPU 环境。

无论您是构建转录服务、注释海量音频数据集还是将语音集成到您的产品中，Parakeet TDT 0.6B 都提供了引人注目的商业 API 开源替代方案。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/57878.html