Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta 研究人员推出了感知编码器视听模型(PE-AV),作为用于联合音频和视频理解的新型编码器系列。该模型利用对约 1 亿个带有文本字幕的音视频对进行大规模对比训练,在单一嵌入空间中学习对齐的音频、视频和文本表示。

从感知编码器到 PE-AV

感知编码器 (PE) 是 Meta 感知模型项目的核心视觉技术栈。它是一系列用于图像、视频和音频的编码器,采用统一的对比预训练方法,在众多视觉和音频基准测试中均达到了最先进的水平。PE 核心在图像任务上超越了 SigLIP2,在视频任务上超越了 InternVideo2。PE lang 为感知语言模型 (Perception Language Model) 提供多模态推理功能。PE 空间编码器则针对密集预测任务(例如检测和深度估计)进行了优化。

PE-AV 在此基础上构建,并将其扩展到完整的音视频文本对齐。在感知模型库中,PE 音视频被列为将音频、视频、音视频和文本嵌入到单一联合嵌入空间以实现跨模态理解的分支。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器
图片来自meta

架构:独立塔与融合

PEAV 架构由帧编码器、视频编码器、音频编码器、音视频融合编码器及文本编码器组成。

  • 视频路径采用现有 PE 帧编码器处理 RGB 帧,随后在帧级特征基础上叠加时域视频编码器。
  • 音频路径采用 DAC VAE 编解码器,将原始波形转换为固定帧率的离散音频令牌,大约每 40 毫秒嵌入一次。

这些塔式编码器为音视频融合编码器提供输入,该编码器学习两种数据流的共享表示。文本编码器将文本查询投影到几个专门的空间中。实际上,这为您提供了一个可以以多种方式查询的单一骨干网络。您可以从文本中检索视频,从文本中检索音频,从视频中检索音频,或者根据任意模态组合检索文本描述,而无需重新训练特定任务的头部。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

数据引擎,大规模合成视听字幕

研究团队提出了一种两阶段视听数据引擎,用于为未标注的视频片段生成高质量的合成字幕。该团队描述了一个流程,该流程首先使用多个弱音频字幕模型、它们的置信度评分以及独立的视频字幕生成器作为输入,输入到一个大型语言模型(LLM)中。该LLM为每个视频片段生成三种类型的字幕:一种用于音频内容,一种用于视频内容,还有一种用于音视频混合内容。然后,基于这些合成的监督信息训练一个初始的PE AV模型。

在第二阶段,初始的预处理音频视频(PE-AV)与感知语言模型解码器配对。二者共同优化字幕,以更好地利用视听对应关系。该两阶段引擎可为约 1 亿个音视频对生成可靠的字幕,并在第一阶段预训练中使用约 9200 万个独特的视频片段,在第二阶段微调中使用另外 3200 万个独特的视频片段。

与以往通常侧重于语音或狭窄声音领域的研究相比,该语料库旨在平衡语音、一般声音、音乐和各种视频领域,这对于一般的视听检索和理解至关重要。

十种模态组合的对比客观性

PE-AV 使用基于 sigmoid 函数的对比损失函数,涵盖音频、视频、文本和融合表征。研究团队解释说,该模型在预训练阶段使用八组对比损失函数对,涵盖音频文本、视频文本、音频视频文本以及融合等组合。在微调阶段,模型会额外添加两组损失函数对,最终在不同的模态和字幕类型之间形成十组损失函数对。

该目标在形式上与近期视觉语言编码器中使用的对比目标类似,但推广到音频、视频和文本三模态训练。通过将所有这些视图对齐到同一空间,同一个编码器可以利用简单的点积相似性来支持分类、检索和对应任务。

音频、语音、音乐和视频性能

在基准测试中,PE-AV 的目标是在多个领域实现零样本检索和分类。与 CLAP、Audio Flamingo、ImageBind 和 LanguageBind 等最新的音频文本和音视频文本模型相比,PE-AV 在多个音频和视频基准测试中均取得了最先进的性能。

具体成果包括:

  • 在 AudioCaps 上,文本到音频的检索从 1 时的 35.4 R 提高到 1 时的 45.8 R。
  • 在 VGGSound 上,片段级别分类准确率从 36.0 提高到 47.1。
  • 对于 VCTK 风格的语音检索任务,PE AV 的准确率达到了 85.6%,而早期的模型准确率接近 0。
  • 在 ActivityNet 上,文本到视频检索从 1 时的 60.4 R 提高到 1 时的 66.5 R。
  • 在 Kinetics 400 上,零样本视频分类从 76.9 提高到 78.9,超过了体积大 2 到 4 倍的模型。
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

PE-A 型框架,帧级音频文本对齐

除了 PE-AV之外,Meta 还发布了用于声音事件定位的感知编码器音频帧 (PE A-Frame)。PE A-Frame 是一种音频文本嵌入模型,每 40 毫秒一帧输出一个音频嵌入,每次查询输出一个文本嵌入。该模型可以返回时间跨度,标记音频中每个描述事件发生的位置。

PE A-Frame利用帧级对比学习将音频帧与文本对齐。这使得它能够精确定位长音频序列中的事件,例如特定说话人、乐器或瞬态声音。

在感知模型和SAM音频生态系统中的作用

PE-AV和 PE A-Frame位于更广泛的感知模型堆栈中,该堆栈将 PE 编码器与感知语言模型相结合,用于多模态生成和推理。

PE-AV也是 Meta 新推出的 SAM Audio 模型及其 Judge 评估器背后的核心感知引擎。SAM Audio 使用 PE AV嵌入技术,将视觉提示和文本提示与复杂混合音频中的声源关联起来,并对分离的音轨质量进行评分。

要点总结

  • PE-AV是一个统一的音频、视频和文本编码器,通过对比学习在超过 1 亿个视频上进行训练,并将音频、视频、音频视频和文本嵌入到单一的联合空间中,以实现跨模态检索和理解。
  • 该架构采用独立的视频和音频塔,基于 PE 的视觉编码和 DAC VAE 音频标记化,然后是音视频融合编码器和针对不同模态对的专用文本头。
  • 一个两阶段数据引擎在第一阶段使用较弱的字幕员加上 LLM 生成合成音频、视频和音视频字幕,在第二阶段使用 PE-AV加上感知语言模型生成合成音频、视频和音视频字幕,从而实现大规模多模态监督而无需人工标注。
  • PE-AV通过 sigmoid 对比目标,在多种模态对上,在广泛的音频和视频基准测试中树立了新的技术水平,并有六个公开的检查点,从小的 16 帧到大的全帧变体,平均检索率从大约 45 提高到 51.6。
  • PE-AV与帧级 PE A-Frame变体一起构成了 Meta 的 SAM 音频系统的感知骨干,提供了用于基于提示的音频分离和语音、音乐和一般声音的精细声音事件定位的嵌入。

参考资料:
https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
https://github.com/facebookresearch/perception_models

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/63909.html

(0)

相关推荐

发表回复

登录后才能评论