TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型

2025年12月1日,TwelveLabs 在 AWS re:Invent 大会上宣布,其迄今为止最先进的视频基础模型Marengo 3.0正式上线。它不仅能观看视频,还能读取视频内容、聆听视频声音,并捕捉场景的节奏。该模型能够将对话瞬间与三分钟后的动作关联起来。它能够追踪物体、动作、情绪和事件随时间的变化。用户现在即可通过Amazon Bedrock和TwelveLabs访问该模型。

TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型

Marengo 3.0 基于 TwelveLabs 的多模态架构,将视频视为一个鲜活的动态系统,它能够将音频、文本、动作、视觉效果和上下文信息压缩成可大规模搜索、导航和理解的内容。Marengo 3.0 已做好生产部署准备,可立即带来投资回报。经过广泛的测试,该模型可降低 50% 的存储成本,并将索引速度提升 2 倍,此外还具备诸多其他优势,使拥有视频内容库的用户能够充分利用其所有资产。

“视频占数字化数据的90%,但这些数据大多无法利用,因为人类处理起来太费时,而机器又无法理解和统计视频中发生的一切,”TwelveLabs首席执行官兼联合创始人Jae Lee表示。“解决这个问题一直是我们孜孜以求的目标。如今,Marengo 3.0突破了以往的局限,为企业和开发者提供了无与伦比的解决方案。”

更智能、更快速、更精简,实现真正的视频理解

Marengo 3.0 的发布使 TwelveLabs 成为视频智能基础设施领域的突破性领导者,其功能无与伦比。与依赖逐帧分析或将图像和音频模型拼接在一起的竞争对手不同,Marengo 3.0 让用户能够以全新的视角看待视频,并理解视频中的所有内容,即使是最复杂、最快速移动的片段也不例外。

现在,Marengo 在理解体育、媒体娱乐和广告视频方面表现更佳,同时也能更好地处理政府和公共安全领域中常见的敏感视频类型。Marengo 3.0 的功能包括:

  • 原生视频理解:Marengo 3.0 并非基于图像模型改编,而是提供基础模型层面的理解。
  • 时空推理:新模型能够独特地理解跨越时间和空间的背景。
  • 体育情报:Marengo 3.0 开创了行业先河,提供球队、球员、球衣号码和动作跟踪功能,使识别精彩瞬间比以往任何时候都更加快捷方便。
  • 组合式多模态查询:为了确保用户始终能够找到他们需要的内容,Marengo 3.0 允许他们在单个查询中组合图像和文本,以获得更精细的结果。
  • 生产经济效益:Marengo 3.0 存储成本降低 50%,索引速度提高 2 倍,同时创造了新的收入来源,帮助企业节省成本,并提供更多增长机会。
  • 企业级部署:即使是规模最大的组织也能轻松上手。Marengo 3.0 已在 Amazon Bedrock 上发布,支持在现有 AWS 环境中快速安全地部署,同时也可通过 TwelveLabs 以月度服务的形式直接使用。

Marengo 3.0 采用 API 优先设计,提供紧凑的嵌入功能和长达四小时的视频支持——比 Marengo 2.7 提高了 2 倍。此外,它还支持 36 种语言。

“TwelveLabs 在视频理解领域的工作正在改变整个行业管理视频能力的方式,为原本主要依靠人工操作的流程带来了前所未有的速度和效率,”AWS 人工智能基础设施副总裁 Nishant Mehta 表示。“继 TwelveLabs 之前的 Marengo 和 Pegasus 模型获得广泛应用之后,我们很高兴成为首家通过 Amazon Bedrock 向客户提供 Marengo 3.0 的云服务提供商。”

Marengo 3.0 目前可通过 TwelveLabs 或 Amazon Bedrock 获取,后者是一项完全托管的服务,用于构建和扩展生成式 AI 应用和代理。AWS 是首个提供 Marengo 3.0 访问权限的云服务提供商。

关于 TwelveLabs

TwelveLabs是一个视频智能平台,它使机器能够像人类一样观看、聆听和分析视频。从语义搜索到自动摘要和多模态嵌入,TwelveLabs 助力开发者和企业充分挖掘视频数据的潜力,其应用遍及媒体、广告、政府、安全和汽车等各个行业。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/63391.html

(0)

相关推荐

发表回复

登录后才能评论