OpenCV 创始人创立 AI 视频初创公司，挑战 OpenAI 和谷歌

OpenCV 创始人创立的新 AI 初创公司 CraftStory 本周二获得200万美元融资，其技术可生成长达五分钟的逼真以人为中心的视频，这比包括 OpenAI 的 Sora 和谷歌的 Veo 在内的竞争对手实现了巨大飞跃。

CraftStory 公司推出的 Model 2.0 视频生成系统，突破了困扰新兴 AI 视频行业最关键的瓶颈之一：时长限制。OpenAI 的 Sora 2 最长仅能生成 25 秒视频，多数竞品时长不超过 10 秒，而 CraftStory 系统可制作连续连贯的视频内容，时长足以媲美常规YouTube教程或产品演示视频。

这项突破可能会为那些难以扩大视频制作规模以用于培训、营销和客户教育的企业释放巨大的商业价值——尽管人工智能生成的短片画面精美，但在这些市场中，这些短片已被证明不足以满足需求。

CraftStory 创始人兼首席执行官 Victor Erukhimov 在接受 VentureBeat 独家采访时表示：“如果你真的尝试用这些视频生成系统制作视频，你会发现很多时候你想实现某种创意构想，但无论指令多么详细，系统基本上都会忽略一部分指令。我们开发了一个系统，可以根据你的需求生成视频。”

并行处理如何解决长视频生成难题

CraftStory的突破性进展基于其所谓的并行化扩散架构——这种生成视频的AI模型方法与大多数竞争对手采用的顺序处理方式截然不同。

传统视频生成模型的工作原理是在越来越大的三维空间中运行扩散算法，其中时间代表第三个轴。为了生成更长的视频，这些模型需要相应更大的网络、更多的训练数据以及更多的计算资源。

CraftStory则不然，它会在整个视频播放过程中同时运行多个较小的扩散算法，并通过双向约束将它们连接起来。“视频的后半部分也会影响前半部分，”Erukhimov 解释说，“这一点非常重要，因为如果逐个进行处理，那么出现在前半部分中的瑕疵就会传播到后半部分，然后不断累积。”

CraftStory 的系统不是生成 8 秒的片段，然后拼接其他片段，而是通过相互关联的扩散过程同时处理所有 5 分钟的片段。

至关重要的是，CraftStory 使用自有素材训练模型，而不是仅仅依赖从互联网抓取的视频。该公司聘请专业工作室，使用高帧率摄像系统拍摄演员，即使是手指等快速移动的物体也能捕捉到清晰的细节，从而避免了标准 30 帧/秒 YouTube 视频中固有的运动模糊。

“我们证明，制作高质量视频并不需要大量数据，也不需要大量的培训预算，”埃鲁希莫夫说。“你只需要高质量的数据。”

目前，Model 2.0 是一个视频对视频的系统：用户上传一张静态图像进行动画处理，以及一段包含人物动作的“驾驶视频”，人工智能将模仿该人物的动作。CraftStory 提供由专业演员拍摄的预设驾驶视频，当这些演员的动作数据被使用时，他们将获得收益分成；用户也可以上传自己的视频素材。

该系统可在大约 15 分钟内生成 30 秒的低分辨率视频片段。先进的唇形同步系统可将嘴部动作与脚本或音轨同步，而手势对齐算法则确保肢体语言与语音节奏和情感基调相匹配。

用200万美元对抗数十亿美元的战争资金大战

CraftStory 的资金几乎全部来自 Andrew Filev ，他于 2021 年以 22.5 亿美元的价格将自己的项目管理软件公司 Wrike 出售给了 Citrix ，现在运营着人工智能编码公司 Zencoder。这笔数额不大的融资与涌入竞争对手的数十亿美元资金形成鲜明对比——仅在最近一轮融资中， OpenAI 就筹集了超过 60 亿美元。

Erukhimov 反驳了巨额资金是成功先决条件的观点。“我并不完全认同计算能力是通往成功的唯一途径，”他说。“拥有计算能力当然会有帮助。但如果你仅仅靠一份PPT就筹集到十亿美元，最终没有人会满意，无论是创始人还是投资者。”

Filev 为这种以弱胜强的策略辩护。他在接受 VentureBeat 采访时表示：“投资初创公司，本质上是在押注人才。套用玛格丽特·米德的话来说：永远不要低估一小群有思想、有奉献精神的工程师和科学家所能创造的成就。”

他认为 CraftStory 的优势在于其专注的战略。“大型工作室都在竞相构建通用的视频基础模型，”Filev 说，“CraftStory 正顺应这一潮流，深入探索一种特定形式：长篇、引人入胜、以人为本的视频。”

为什么计算机视觉专业知识在生成式 AI 视频中至关重要

Erukhimov 的信誉源于他在计算机视觉领域的深厚造诣，而非近年来主导 AI 发展的Transformer架构。他是 OpenCV 的早期贡献者之一，OpenCV是一款开源计算机视觉库，如今已成为计算机视觉应用的实际标准，在GitHub上拥有超过84,000颗星。

2000 年代中期，英特尔减少了对 OpenCV 的支持，Erukhimov 联合创立了 Itseez 公司，其明确目标是维护和改进 OpenCV 库。该公司大幅扩展了 OpenCV 的功能，并转向汽车安全系统领域，之后于 2016 年被英特尔收购。

Filev 表示，正是这种背景使 Erukhimov 在视频生成领域占据了优势。“人们有时会忽略一点，生成式人工智能视频不仅仅是生成部分。它还涉及理解运动、面部动态、时间连贯性以及人类实际的运动方式，” Filev 说道。“他毕生致力于攻克这些问题。”

企业重点关注培训视频和产品演示

虽然公众对 AI 视频生成的热情大多集中在面向消费者的创意工具上，但 CraftStory 却奉行一种明确的以企业为中心的战略。

“我们肯定更关注B2B市场，而不是消费者市场，”Erukhimov 说。“我们关注的是企业，特别是软件公司，如何制作出色的培训视频、产品视频和发布视频。”

逻辑很简单：企业培训、产品教程和客户教育视频通常长达数分钟，并且需要始终保持高质量的制作水准。一个 10 秒的 AI 短片无法有效地演示如何使用企业软件或解释复杂的产品功能。

“如果您需要时长较长的视频，那就应该选择我们，”Erukhimov 说。“我们可以制作长达五分钟、风格统一、高质量的视频。”

Filev 也赞同这一观点。“这个市场的一大缺口是缺乏能够生成长时间稳定视频的模型——而这对于实际应用至关重要，”他说道。“如果你要为公司制作广告，一个10秒的视频，无论画面多么精美，都是不够的。你需要30秒，你需要两分钟——你需要更长的视频。”

该公司预计这将为客户节省成本。Filev 表示，“小型企业主只需几分钟即可创建出以前需要花费 2 万美元、耗时两个月才能制作完成的内容。”

CraftStory 也在积极争取为企业客户制作视频内容的创意机构，其价值主张以成本和速度为中心：机构可以录制演员的镜头，并将这些素材转换成最终的 AI 视频，而无需管理昂贵的多日拍摄。

CraftStory 的下一个重大发展方向是文本转视频模型，该模型将允许用户直接从脚本生成长篇内容。团队还在开发对移动镜头场景的支持，包括在高端广告中常见的“边走边说”格式。

CraftStory 在碎片化的竞争格局中处于什么位置

CraftStory 进入的是一个竞争激烈且瞬息万变的市场。OpenAI 的 Sora 2 虽然尚未公开发布，但已引起广泛关注。谷歌的 Veo 模型也在快速发展。Runway 、Pika 和 Stability AI 都提供功能各异的视频生成工具。

Erukhimov 承认面临竞争压力，但他强调 CraftStory 专注于以人为本的视频领域，服务于一个独特的细分市场。他将快速创新和市场占领定位为公司的主要战略，而非依赖技术壁垒。

Filev认为市场正在分化成不同的层次，大型科技公司扮演着“功能强大的通用生成模型API提供商”的角色，而像CraftStory这样的专业公司则专注于特定的应用场景。“如果说大公司在构建引擎，那么CraftStory则在其基础上构建制作工作室和流水线，”他说道。

Model 2.0 现已在 app.craftstory.com/model-2.0 上线，该公司为有兴趣测试该技术的用户和企业提供早期访问权限。一家资金有限的初创公司能否从财力雄厚的老牌企业手中夺取可观的市场份额仍是未知数，但 Erukhimov 对未来的机遇一如既往地充满信心。

“AI 生成的视频很快将成为公司传达其故事的主要方式，”他说。

原文：https://venturebeat.com/ai/opencv-founders-launch-ai-video-startup-to-take-on-openai-and-google

OpenCV 创始人创立 AI 视频初创公司，挑战 OpenAI 和谷歌

并行处理如何解决长视频生成难题

用200万美元对抗数十亿美元的战争资金大战

为什么计算机视觉专业知识在生成式 AI 视频中至关重要

企业重点关注培训视频和产品演示

CraftStory 在碎片化的竞争格局中处于什么位置

相关推荐

AI和ChatGPT正在元宇宙中销售汽车

2025 年 NAB 展会开放报名，聚焦体育赛事

苹果Vision Pro 在美国专卖店亮相！256GB 机型售价为 3499 美元

Telestream 推出新的直播产品套件，以应对未来关键的直播采集和回放挑战

Omdia：2024年宽带接入趋势观察

苹果新专利 | 超声波Force Touch或将加持VR手套