MIT 新 AI 模型实现音画同步学习：无需标注即可准确对齐视频与音频

人类天生通过视觉与听觉的关联来学习。例如，我们看到有人拉小提琴时，能意识到演奏者的动作正在产生我们听到的音乐。

麻省理工学院（MIT）等机构的研究人员开发了一种新方法，可提升人工智能模型以类似方式学习的能力。这一成果在新闻业和电影制作等领域具有应用潜力，模型可通过自动检索视频和音频数据，辅助策划多模态内容。从长远来看，这项研究或能改善机器人理解真实环境的能力。因为在真实环境中，听觉和视觉信息往往是紧密关联的。

研究人员在其团队先前工作的基础上，创建了一种无需人工标注即可帮助机器学习模型对齐视频片段中对应音视频数据的方法。他们调整了原始模型的训练方式，使其能学习特定视频帧与该时刻音频之间更细粒度的对应关系。研究团队还对模型架构进行了微调，以平衡两种不同的学习目标，从而提升性能。

这些相对简单的改进共同提升了该方法在视频检索任务和音视频场景动作分类中的准确性。例如，新方法能自动、精确地将 “门砰然关上” 的声音与视频中 “门关闭” 的画面匹配。

MIT 研究生、该研究论文的合著者Andrew Rouditchenko表示：“我们正在构建能像人类一样处理世界信息的人工智能系统，即同时接收音频和视觉信息并实现无缝处理。在未来，如果能将这种音视频技术集成到我们日常使用的工具中（如大型语言模型），可能会拓展许多新的应用场景。”

这项工作是在研究人员几年前开发的一种机器学习方法的基础上进行的，该方法提供了一种高效的方式，用于训练多模态模型，使其能够在无需人工标签的情况下同时处理音频和视觉数据。

研究人员将未标记的视频片段输入到这个名为CAV-MAE的模型中，它会分别将视觉和音频数据编码成称为“标记”的表示。利用录制中的自然音频，模型自动学习将对应的音频和视觉标记在内部表示空间中靠拢。

他们发现，使用两个学习目标可以平衡模型的学习过程，使CAV-MAE能够理解对应的音频和视觉数据，同时提升其根据用户查询检索匹配视频片段的能力。

但CAV-MAE将音频和视觉样本视为一个整体，因此一个10秒的视频片段和门被关上的声音会被映射在一起，即使这个音频事件只发生在视频的一秒钟内。

在他们改进的模型——CAV-MAE Sync中，研究人员在模型计算数据表示之前，将音频分割成更小的窗口，从而为每个较小的音频窗口生成对应的单独表示。

在训练过程中，模型学会将一个视频帧与仅在该帧期间发生的音频联系起来。“通过这样做，模型学会了更细致的对应关系，这有助于我们在后续整合这些信息时提升性能。”Araujo说。

研究团队还对模型架构进行了改进，以帮助其平衡两个学习目标。该模型包含一个对比目标，即学习将相似的音频和视觉数据联系起来，以及一个重构目标，旨在根据用户查询恢复特定的音频和视觉数据。
在CAV-MAE Sync中，研究人员引入了两种新的数据表示类型，以提升模型的学习能力：专门用于对比学习目标的“全局标记”（global token）和专门帮助模型关注重构目标重要细节的“寄存器标记”（register token）。

“本质上，我们为模型增加了一点灵活性，使其能够更独立地执行这两个任务——对比和重构。这有助于整体性能的提升。”Araujo补充道。

尽管研究人员直觉认为这些改进会提升 CAV-MAE Sync 的性能，但仍需通过策略的精心组合，引导模型向预期方向优化。“因为我们有多种模态，所以我们需要为每种模态本身都有一个良好的模型，但我们还需要让它们融合在一起并协同工作。”Rouditchenko说。

最终，他们的改进提升了模型根据音频查询检索视频以及预测音视频场景类别（如狗叫或乐器演奏）的能力。其结果比他们之前的工作更准确，而且性能也优于需要大量训练数据的更复杂的、最先进的方法。

“有时，你在数据中发现的非常简单的想法或小模式，应用到正在研究的模型上时可能会产生巨大价值。”Araujo说。

未来，研究人员希望将能生成更优数据表示的新模型集成到 CAV-MAE Sync 中，以进一步提升性能。他们还希望让系统能够处理文本数据，这将是生成 “音视频大型语言模型” 的重要一步。

信息源于：news.mit.edu