TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型

2025年12月1日，TwelveLabs 在 AWS re:Invent 大会上宣布，其迄今为止最先进的视频基础模型Marengo 3.0正式上线。它不仅能观看视频，还能读取视频内容、聆听视频声音，并捕捉场景的节奏。该模型能够将对话瞬间与三分钟后的动作关联起来。它能够追踪物体、动作、情绪和事件随时间的变化。用户现在即可通过Amazon Bedrock和TwelveLabs访问该模型。

Marengo 3.0 基于 TwelveLabs 的多模态架构，将视频视为一个鲜活的动态系统，它能够将音频、文本、动作、视觉效果和上下文信息压缩成可大规模搜索、导航和理解的内容。Marengo 3.0 已做好生产部署准备，可立即带来投资回报。经过广泛的测试，该模型可降低 50% 的存储成本，并将索引速度提升 2 倍，此外还具备诸多其他优势，使拥有视频内容库的用户能够充分利用其所有资产。

“视频占数字化数据的90%，但这些数据大多无法利用，因为人类处理起来太费时，而机器又无法理解和统计视频中发生的一切，”TwelveLabs首席执行官兼联合创始人Jae Lee表示。“解决这个问题一直是我们孜孜以求的目标。如今，Marengo 3.0突破了以往的局限，为企业和开发者提供了无与伦比的解决方案。”

更智能、更快速、更精简，实现真正的视频理解

Marengo 3.0 的发布使 TwelveLabs 成为视频智能基础设施领域的突破性领导者，其功能无与伦比。与依赖逐帧分析或将图像和音频模型拼接在一起的竞争对手不同，Marengo 3.0 让用户能够以全新的视角看待视频，并理解视频中的所有内容，即使是最复杂、最快速移动的片段也不例外。

现在，Marengo 在理解体育、媒体娱乐和广告视频方面表现更佳，同时也能更好地处理政府和公共安全领域中常见的敏感视频类型。Marengo 3.0 的功能包括：

原生视频理解：Marengo 3.0 并非基于图像模型改编，而是提供基础模型层面的理解。
时空推理：新模型能够独特地理解跨越时间和空间的背景。
体育情报：Marengo 3.0 开创了行业先河，提供球队、球员、球衣号码和动作跟踪功能，使识别精彩瞬间比以往任何时候都更加快捷方便。
组合式多模态查询：为了确保用户始终能够找到他们需要的内容，Marengo 3.0 允许他们在单个查询中组合图像和文本，以获得更精细的结果。
生产经济效益：Marengo 3.0 存储成本降低 50%，索引速度提高 2 倍，同时创造了新的收入来源，帮助企业节省成本，并提供更多增长机会。
企业级部署：即使是规模最大的组织也能轻松上手。Marengo 3.0 已在 Amazon Bedrock 上发布，支持在现有 AWS 环境中快速安全地部署，同时也可通过 TwelveLabs 以月度服务的形式直接使用。

Marengo 3.0 采用 API 优先设计，提供紧凑的嵌入功能和长达四小时的视频支持——比 Marengo 2.7 提高了 2 倍。此外，它还支持 36 种语言。

“TwelveLabs 在视频理解领域的工作正在改变整个行业管理视频能力的方式，为原本主要依靠人工操作的流程带来了前所未有的速度和效率，”AWS 人工智能基础设施副总裁 Nishant Mehta 表示。“继 TwelveLabs 之前的 Marengo 和 Pegasus 模型获得广泛应用之后，我们很高兴成为首家通过 Amazon Bedrock 向客户提供 Marengo 3.0 的云服务提供商。”

Marengo 3.0 目前可通过 TwelveLabs 或 Amazon Bedrock 获取，后者是一项完全托管的服务，用于构建和扩展生成式 AI 应用和代理。AWS 是首个提供 Marengo 3.0 访问权限的云服务提供商。