Meta 发布 J-VEPA 2 AI 模型，可通过视频了解世界

AIGC • 2025年6月12日下午2:14 • 行业资讯

Meta Platforms Inc. 的人工智能研究部门今天发布了一种新的人工智能模型，该模型可以通过类似人类理解世界的方式解释视频信息，提高机器人和人工智能代理对物理世界的训练和人工智能理解。

该模型名为 J-VEPA 2，即视频联合嵌入预测架构模型，建立在该公司之前对J-VEPA 的研究基础上，该模型允许人工智能代理和机器人“先思考后行动”。

Meta 副总裁兼首席人工智能科学家 Yann LeCun 表示：“作为人类，我们认为语言对于智能至关重要，但事实并非如此。人类和动物通过构建现实的心理模型来探索世界。如果人工智能能够发展出这种常识，能够预测某种抽象空间表征中将会发生什么，那会怎样？”

Meta 表示，这是一个最先进的人工智能世界模型，通过视频进行训练，使机器人和其他人工智能模型能够了解物理世界并预测物理世界将如何对其行为做出反应。

世界模型使人工智能代理和机器人能够构建物理世界的概念，并理解行动的后果，从而规划针对特定任务的行动方案。有了世界模型，公司或组织无需在现实世界中对人工智能进行上百万次试验，因为世界模型可以在几分钟内为人工智能模型模拟出真实的世界，并在理解世界运作方式的基础上进行训练。

世界模型还可以用来理解和预测采取某个动作后会发生什么，让连接传感器的机器人或人工智能能够理解接下来可能发生的事件。人类在规划下一步行动时总是会这样做，比如在陌生的地方从一个地方走到另一个地方，避开其他人，或者打曲棍球。

人工智能模型可以使用这种规划来帮助防止工作场所发生事故，通过引导机器人与其他机器人和人类一起工作，走上安全的路径，减少潜在的危险。

V-JEPA 2 通过了解人们如何与物体互动、物体如何在物理世界中移动以及物体如何与其他物体互动的模式，帮助 AI 代理理解物理世界及其互动。

该公司表示，当该模型在其实验室的机器人上部署时，发现机器人可以使用 J-VEPA 2 轻松地执行伸手、拾取物体和将物体放置在新位置等任务。

“当然，世界模型对于自动驾驶汽车和机器人来说至关重要，”LeCun说道。“事实上，我们相信世界模型将开启机器人技术的新时代，让现实世界的AI代理能够帮助完成家务和体力任务，而无需大量的机器人训练数据。”

除了发布 J-VEPA 2 之外，Meta 还为研究界发布了三个新的基准，以评估使用视频理解世界的现有推理模型。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/58816.html