Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解

多模态大型语言模型 (MLLM) 作为能够处理各种视觉任务的多功能 AI 助手,已取得显著进展。然而,它们作为孤立的数字实体部署限制了其潜在的影响力。将 MLLM 集成到机器人和自动驾驶汽车等现实世界应用中的需求日益增长,这需要复杂的空间理解能力。目前的 MLLM 表现出基本的空间推理缺陷,通常无法完成区分左右等基本任务。虽然先前的研究将这些限制归因于专业训练数据不足,并通过在训练过程中整合空间数据来解决这些问题,但这些方法侧重于单图像场景,从而将模型的感知限制在缺乏动态信息的静态视野分析上。

已有多种研究方法尝试解决MLLM在空间理解方面的局限性。MLLM集成了图像编码器,可将视觉输入转换为与语言模型潜在空间中的文本一起处理的标记。先前的研究主要集中于单图像空间理解、评估对象间空间关系或空间识别。一些基准测试,例如BLINK、UniQA-3D和VSIBench,其范围已超越单图像。现有的MLLM在空间理解方面的改进包括:SpatialVLM(基于精选的空间数据集对模型进行微调);SpatialRGPT(融合了基于掩模的参考和深度图像);以及SpatialPIN(无需微调即可利用专门的感知模型)。

来自 FAIR Meta 和香港中文大学的研究人员提出了一个框架,旨在增强多帧空间感知模型 (MLLM),使其具备强大的多帧空间理解能力。该框架整合了深度感知、视觉对应和动态感知三个组成部分,以克服静态单幅图像分析的局限性。研究人员开发了 MultiSPA,这是一个全新的大规模数据集,包含超过 2700 万个样本,涵盖各种 3D 和 4D 场景。由此构建的多空间 MLLM 模型相较于基线和专有系统取得了显著改进,并具备可扩展和通用的多帧推理能力。此外,该模型还引入了五个任务来生成训练数据:深度感知、视觉对应、相机运动感知、物体运动感知和物体大小感知。

Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解

Multi-SpatialMLLM 的核心是 MultiSPA 数据生成流程和全面的基准测试系统。数据格式遵循标准的 MLLM 微调策略,其 QA 对格式为:User: <image>…<image>{description}{question}  和 Assistant: {answer}。研究人员使用 GPT-4o 为任务描述、问题和答案生成了丰富的模板。此外,还使用了高质量的带注释场景数据集,包括 4D 数据集 Aria Digital Twin 和 Panoptic Studio,以及用于物体运动感知的 TAPVid3D 和用于其他空间任务的 ScanNet 的 3D 跟踪注释。MultiSPA 从 110 万张独特图像中生成了超过 2700 万个 QA 样本,每个子任务评估保留 300 个样本,总计 7800 个基准样本。

在 MultiSPA 基准测试中,Multi-SpatialMLLM 比基础模型平均提升了 36%,在定性任务上的准确率达到 80-90%,而基线模型的准确率仅为 50%,同时性能优于所有专有系统。即使在预测相机运动矢量等高难度任务中,其准确率也达到了 18%,而其他基线模型的性能则接近于零。在 BLINK 基准测试中,Multi-SpatialMLLM 的准确率接近 90%,比基础模型平均提升了 26.4%,超越了多个专有系统,并展现出可迁移的多帧空间理解能力。标准 VQA 基准测试评估显示其性能与原始模型大致相当,表明该模型保持了通用 MLLM 的熟练程度,且不会过度拟合空间推理任务。

Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解

在本文中,研究人员将MLLM的空间理解扩展到多帧场景,填补了先前研究中被忽视的一个关键空白。他们提出了MultiSPA,这是第一个用于多帧空间推理任务的大规模数据集和基准。实验验证表明,所提出的Multi-SpatialMLLM在各种空间理解挑战中均具有有效性、可扩展性和强大的泛化能力。这项研究揭示了重要的见解,包括多任务学习的优势以及复杂空间推理中的涌现行为。该模型建立了新的应用,包括充当多帧奖励注释器。

资料

  • 论文地址:https://arxiv.org/abs/2505.17015
  • 项目页面:https://runsenxu.com/projects/Multi-SpatialMLLM/
  • GitHub:https://github.com/facebookresearch/Multi-SpatialMLLM

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/58407.html

(0)

相关推荐

发表回复

登录后才能评论