
生成式 AI 视频创新公司 Lightricks 宣布其 AI 视频技术取得重大进展:对 LTXV 进行更新,可以生成超过 60 秒的剪辑。这一里程碑使 Lightricks 成为第一家能够大规模创建直播长篇 AI 视频的公司。这一突破比当前八 (8) 秒的行业标准实现了八倍的飞跃,也是当今生产中第一个实时、具有流媒体功能的长篇 AI 视频模型。与仅限于短输出的传统模型不同,LTXV 的自回归流架构可以实时连续生成视频,使开发人员和创作者能够构建更长、连贯的故事,而不仅仅是孤立的剪辑。
与之前的 LTXV 更新一样,这项新功能将保持开放权重,并向开发者、学术界和新一代 AI 视频爱好者开放。它还将为 LTX Studio 等商业产品提供支持。LTX Studio 是 Lightricks 的旗舰创意开发平台,供创作者和媒体团队使用 AI 设计、迭代和制作视频项目。
全新 LTXV 版本引入了改进的自回归视频引擎,允许视频片段在渲染的同时实时流式传输给观众。该系统几乎可以即时返回内容的第一秒,并持续实时生成后续内容,从而实现交互式连续叙事,并完全控制场景发展。这为全新类型的生成式叙事应用铺平了道路,从玩家生成的过场动画和自适应教育内容,到与现场表演者同步的实时 AR 视觉效果。
Lightricks 联合创始人兼首席执行官Zeev Farbman表示:“突破 60 秒大关开启了生成媒体的新纪元。LTXV的独特之处在于它能够创建更长的场景,同时保持对扩展序列的完全控制,从而实现连贯的故事叙述以及视觉和语义的一致性,将 AI 视频从演示或随机剪辑转变为具有创意意图的真正媒介。”
LTXV 的自回归架构支持 Lightricks 的13B和移动端友好的2B参数模型。创作者和开发者不仅可以在提示开始时应用姿势、深度或智能控制 LoRA,还可以在整个 30 多秒的场景中持续应用。该系统与 Lightricks 的 IC-LoRA 基础设施兼容,还能实现近乎实时的动作捕捉,从而扩展其在交互式平台上的可用性。
“我们已经达到了这样的境界:AI 视频不再只是提示,而是真正引导。”联合创始人兼首席技术官Yaron Inger补充道,“这一飞跃将使 AI 视频成为一个长篇叙事平台,而不仅仅是一个视觉技巧。”
技术亮点:
- 跨模型变体的实时自回归序列调节(以帧块为单位生成视频,每一个帧块都是生成下一个帧块的条件)。这样就能以流畅的连续性构建动作和叙事,就像作家逐句创作故事一样,每一句都要借鉴上一句的内容。
- 成本与效率:LTXV 可在单个 H100 甚至消费级 GPU 上高效运行,同时提供无伪影的 30 秒短片。相比之下,竞争解决方案的公开基准测试显示其计算要求明显更高,仅生成一个 5 秒的 1080p 短片就需要多个 H100(例如,在 L20 上需要 41 秒,而要实现更高分辨率的实时输出则需要最多八个 H100)。
- 流优先架构:约一(1)秒即时返回,其余部分实时串流
- 支持动态场景生成的连续控制输入
- 与 IC-LoRA 运动和风格 LoRA 集成完全兼容
- 速度 – 第一秒返回时间约为 1 秒,实时返回时间长达 60 秒(基于已描述过的流式架构构建)
主要用例包括:
- 广告和社交媒体:按需生成 15 至 60 秒的垂直广告
- 游戏:根据游戏数据生成的实时渲染过场动画
- 现场活动:舞台同步的 AR 角色实时反应
- 教育:随着学习者的输入而不断发展的自适应解释视频
LTXV 作为开放权重模型在 Hugging Face(LTX-Video)和 GitHub(LTX-Video)上均可使用,并且已完全集成到 Lightricks 的旗舰故事讲述平台 LTX Studio 中。Lightricks 拥有不断扩展的模型库,旨在满足多样化的创意需求,并致力于开放式开发,正在塑造生成式 AI 视频的未来,将研究驱动的突破与实际应用相结合。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/59834.html