Ai2 推出 Molmo 2 开源视频语言模型

AIGC • 2025年12月17日上午11:38 • 行业资讯

Ai2（艾伦人工智能研究所）周二发布了 Molmo 2，这是一套开源视频语言模型。新增的模型以及训练数据表明了这家非营利机构对开源的持续承诺，这对希望更好地控制模型使用的企业来说是一项利好。

新发布的模型包括基于阿里巴巴 Qwen3 语言模型的 Molmo 2-4B 和 Molmo 2-8B。此外，还包括基于 Ai2 Olmo 语言模型的完全开源版本 Molmo 2-O-7B。

除了这些模型之外，该非营利组织还发布了九个新的数据集，包括用于多图像和视频输入的长格式质量保证数据集，以及一个开放的视频指向和跟踪数据集。

据该公司称，Olma 的变体 Molmo 2-O-7B 是一个透明模型，用户可以进行端到端的研究。Ai2 表示，由于用户可以访问视觉语言模型及其 LLM（语言学习模型）Olmo，因此他们可以完全自定义模型，从而提供一定程度的透明度。

Ai2 表示，Molmo 2 型号新增的功能之一是能够理解多张图像；该型号支持所有图像和任何视频，无论长度如何。

Ai2 的感知推理和交互研究主管 Ranjay Krishna 表示，用户可以向模型询问有关图像或视频的问题，模型可以根据在视频中识别出的模式进行推理。

这些模型还能生成描述性字幕，跨帧追踪和计数物体，并在长视频序列中检测罕见或意外事件。Molmo 2已在 Hugging Face 和 Ai2 Playground 平台上线，后者是由非营利组织运营的实验平台，用户可在此测试各类工具和模型。

对开源的承诺

此次发布表明了 Ai2 对开源的持续承诺；Futurum Group 的分析师 Bradley Shimmin 表示，这凸显了拥有一个不仅发布模型，而且还发布与其相关的数据和权重的供应商的重要性。

Shimmin表示：“应该给予它们一些关注，尤其是在我们开始看到越来越重视以强调主权的方式将企业数据引入模型的情况下”，数据必须遵守其生成所在国家的法律。

他指出，Ai2 决定保持其模型规模较小（使用 40 亿或 80 亿个参数）至关重要，因为并非每个企业都能负担得起，甚至需要一个需要微调的万亿参数模型。

“这在经济上不可行，”他说。“Molmo是一个非常重要的模型系列，你不需要达到前沿规模就能实现其价值。”

他还表示，企业也逐渐意识到，重要的不是模型的大小，而是训练模型所用的数据。

“很多公司都要求模型开发者对模型本身以及构建模型所依据的数据保持高度透明和负责，这样才能赋予他们创新的自由，”Shimmin说道。“这也是开源创新模式对整个IT领域至关重要的另一个原因。”

虽然新的 Molmo 2 模型为那些想要对其进行迭代的人提供了更大的微调灵活性和高质量的数据，但它们也带来了一些挑战——即采用以及随之而来的资金问题。

“像我们这样的行业是根据对未来价值的预期来转移资金的，像这样的公司很容易落后或被排除在外，”Shimin 说。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/63760.html