MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频

人类天生通过视觉与听觉的关联来学习。例如,我们看到有人拉小提琴时,能意识到演奏者的动作正在产生我们听到的音乐。

麻省理工学院(MIT)等机构的研究人员开发了一种新方法,可提升人工智能模型以类似方式学习的能力。这一成果在新闻业和电影制作等领域具有应用潜力,模型可通过自动检索视频和音频数据,辅助策划多模态内容。从长远来看,这项研究或能改善机器人理解真实环境的能力。因为在真实环境中,听觉和视觉信息往往是紧密关联的。

研究人员在其团队先前工作的基础上,创建了一种无需人工标注即可帮助机器学习模型对齐视频片段中对应音视频数据的方法。他们调整了原始模型的训练方式,使其能学习特定视频帧与该时刻音频之间更细粒度的对应关系。研究团队还对模型架构进行了微调,以平衡两种不同的学习目标,从而提升性能。

这些相对简单的改进共同提升了该方法在视频检索任务和音视频场景动作分类中的准确性。例如,新方法能自动、精确地将 “门砰然关上” 的声音与视频中 “门关闭” 的画面匹配。

MIT 研究生、该研究论文的合著者Andrew Rouditchenko表示:“我们正在构建能像人类一样处理世界信息的人工智能系统,即同时接收音频和视觉信息并实现无缝处理。在未来,如果能将这种音视频技术集成到我们日常使用的工具中(如大型语言模型),可能会拓展许多新的应用场景。”

MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频

这项工作是在研究人员几年前开发的一种机器学习方法的基础上进行的,该方法提供了一种高效的方式,用于训练多模态模型,使其能够在无需人工标签的情况下同时处理音频和视觉数据。

研究人员将未标记的视频片段输入到这个名为CAV-MAE的模型中,它会分别将视觉和音频数据编码成称为“标记”的表示。利用录制中的自然音频,模型自动学习将对应的音频和视觉标记在内部表示空间中靠拢。

他们发现,使用两个学习目标可以平衡模型的学习过程,使CAV-MAE能够理解对应的音频和视觉数据,同时提升其根据用户查询检索匹配视频片段的能力。

但CAV-MAE将音频和视觉样本视为一个整体,因此一个10秒的视频片段和门被关上的声音会被映射在一起,即使这个音频事件只发生在视频的一秒钟内。

在他们改进的模型——CAV-MAE Sync中,研究人员在模型计算数据表示之前,将音频分割成更小的窗口,从而为每个较小的音频窗口生成对应的单独表示。

在训练过程中,模型学会将一个视频帧与仅在该帧期间发生的音频联系起来。“通过这样做,模型学会了更细致的对应关系,这有助于我们在后续整合这些信息时提升性能。”Araujo说。

研究团队还对模型架构进行了改进,以帮助其平衡两个学习目标 。该模型包含一个对比目标,即学习将相似的音频和视觉数据联系起来,以及一个重构目标,旨在根据用户查询恢复特定的音频和视觉数据。
在CAV-MAE Sync中,研究人员引入了两种新的数据表示类型,以提升模型的学习能力:专门用于对比学习目标的“全局标记”(global token)和专门帮助模型关注重构目标重要细节的“寄存器标记”(register token)。

“本质上,我们为模型增加了一点灵活性,使其能够更独立地执行这两个任务——对比和重构。这有助于整体性能的提升。”Araujo补充道。

尽管研究人员直觉认为这些改进会提升 CAV-MAE Sync 的性能,但仍需通过策略的精心组合,引导模型向预期方向优化。“因为我们有多种模态,所以我们需要为每种模态本身都有一个良好的模型,但我们还需要让它们融合在一起并协同工作。”Rouditchenko说。

最终,他们的改进提升了模型根据音频查询检索视频以及预测音视频场景类别(如狗叫或乐器演奏)的能力。其结果比他们之前的工作更准确,而且性能也优于需要大量训练数据的更复杂的、最先进的方法。

“有时,你在数据中发现的非常简单的想法或小模式,应用到正在研究的模型上时可能会产生巨大价值。”Araujo说。

未来,研究人员希望将能生成更优数据表示的新模型集成到 CAV-MAE Sync 中,以进一步提升性能。他们还希望让系统能够处理文本数据,这将是生成 “音视频大型语言模型” 的重要一步。

信息源于:news.mit.edu

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

  • 实时音频同步(第 2 部分)

    多设备音频实时同步是一项引人入胜的挑战,它涉及解决延迟问题和确保播放事件的精确定时。在本系列中,我们将深入探讨此类系统的复杂技术。在第 1 部分中,我们讨论了实现精确定时以确保无缝…

    2024年6月13日
  • 音视频学习–音画同步

    上周和新入职的测试小姐姐一起讨论一些问题时,被问“音画同步”是怎么回事儿,要怎么验证,巴拉巴拉解释了一通,在此也形成一个笔记,分享有需要的人。 音视频同步 音视频封装是将音频和视频…

    2023年9月5日
  • Android ffmpeg音视频同步

    前言:在实现视频和音频的播放过程中,其中最大的问题是音频和视频之间的播放速度如果没有同步,视频按照解码的速度,以最快速度进行了上屏,那么很有可能会出现视频播放完后音频还在播放的情况…

    2023年2月18日
  • 音频帧和视频帧区别及同步方法

    本文介绍音频帧、视频帧的概念、主要参数和分析方法,从中可以看出两者的区别。另外介绍音视频同步方式等。 音频帧 音频帧的概念没有视频帧那么清晰,几乎所有视频编码格式都可以简单的认为一…

    2023年2月8日
  • 音画同步测试方法的研究与实践

    导读:音视频通话中的音画同步问题一直是一个重要的挑战。传统的主观测试方法往往受到主观因素的影响,难以准确评估音画同步的质量。为了解决这个问题,针对业界已有的客观测试方法做了一定研究…

    2023年9月6日
  • 如何利用 SEI 解决音画不同步的问题

    本文将从 SEI 的基础概念出发,结合数据流录制回放的需求和应用场景,带大家了解一下 ZEGO即构科技是如何利用 SEI 去解决音画不同步的问题,以及开发过程中可能踩到的坑。

    2025年8月18日