NVIDIA 发布 Audio Flamingo 3:推动音频通用智能发展的开源模型

听说过通用人工智能 (AGI) 吗?来认识一下它在听觉领域的对手,通用音频智能 (Audio General Intelligence )。NVIDIA 凭借Audio Flamingo 3 (AF3),在机器理解和推理声音方面实现了重大飞跃。虽然过去的模型可以转录语音或对音频片段进行分类,但它们缺乏以丰富的语境和类似人类的方式解读音频的能力——涵盖语音、环境声、音乐以及长时长音频。AF3 改变了这一切。

NVIDIA 推出了 Audio Flamingo 3,这是一个完全开源的大型音频语言模型 (LALM),它不仅能够聆听,还能理解和推理。AF3 基于五阶段课程构建,并由 AF-Whisper 编码器提供支持,支持长达 10 分钟的长音频输入、多轮多音频聊天、按需思考,甚至语音对语音交互。这为 AI 系统与声音的交互树立了新的标杆,让我们更接近 AGI。

NVIDIA 发布 Audio Flamingo 3:推动音频通用智能发展的开源模型

Audio Flamingo 3 背后的核心创新

  1. AF-Whisper:统一音频编码器。AF3 使用 AF-Whisper,这是一款改编自 Whisper-v3 的新型编码器。它使用相同的架构处理语音、环境声音和音乐,解决了早期 LALM 使用独立编码器导致不一致的主要缺陷。AF-Whisper 利用音频字幕数据集、合成元数据和密集的 1280 维嵌入空间来与文本表示对齐。
  2. 音频的思维链:按需推理。与静态问答系统不同,AF3 具备“思考”能力。使用 AF-Think 数据集(25 万个示例),该模型可以根据提示进行思维链推理,从而能够在得出答案之前解释其推理步骤——这是迈向透明音频 AI 的关键一步。
  3. 多回合、多音频对话。借助 AF-Chat 数据集(7.5 万条对话),AF3 可以进行跨回合、多音频输入的上下文对话。这模拟了现实世界中的互动,即人类会参考之前的音频提示。此外,它还引入了使用流式文本转语音模块的语音对语音对话。
  4. 长音频推理。AF3 是首个完全开放的模型,能够对长达 10 分钟的音频输入进行推理。该模型使用 LongAudio-XL(125 万个样本)进行训练,支持会议摘要、播客理解、讽刺检测和时间基础等任务。
NVIDIA 发布 Audio Flamingo 3:推动音频通用智能发展的开源模型

先进的基准测试和实际能力

AF3 在 20 多项基准测试中超越了开放式和封闭式模型,其中包括:

AF3 在 20 多个基准测试中超越了开放和封闭模型,其中包括:

  • MMAU(平均): 73.14%(比 Qwen2.5-O +2.14%)
  • LongAudioBench: 68.6(GPT-4o 评估),击败 Gemini 2.5 Pro
  • LibriSpeech(ASR): WER 为 1.57%,优于 Phi-4-mm
  • ClothoAQA: 91.1%(Qwen2.5-O 为 89.2%)

这些改进并非微不足道,而是重新定义了人们对音频语言系统的期望。AF3 还引入了语音聊天和语音生成方面的基准测试,实现了 5.94 秒的生成延迟(Qwen2.5 为 14.62 秒),并获得了更高的相似度得分。

数据管道:教授音频推理的数据集

NVIDIA 不仅扩展了计算能力,还重新思考了数据:

  • AudioSkills-XL:结合环境、音乐和语音推理的 800 万个示例。
  • LongAudio-XL:涵盖有声读物、播客、会议中的长篇演讲。
  • AF-Think:促进简短的 CoT 式推理。
  • AF-Chat:专为多轮、多音频对话而设计。

每个数据集都是完全开源的,并附带训练代码和配方,以实现可重复性和未来的研究。

开源

AF3 不仅仅是一个型号的下降。NVIDIA 发布:

  • 模型权重
  • 训练食谱
  • 推理代码
  • 四个开放数据集

这种透明性使 AF3 成为最易用、最先进的音频语言模型。它为听觉推理、低延迟音频代理、音乐理解和多模态交互等研究方向开辟了新的方向。

结论:迈向通用音频智能

Audio Flamingo 3 证明了深度音频理解不仅可行,而且可重复且开放。通过结合规模、新颖的训练策略和多样化的数据,NVIDIA 提供了一个能够以以往 LALM 无法企及的方式进行聆听、理解和推理的模型。

资料

  • 论文地址:https://huggingface.co/nvidia/audio-flamingo-3
  • 代码:https://github.com/NVIDIA/audio-flamingo

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/59811.html

(0)

相关推荐

发表回复

登录后才能评论