扩散模型在图像合成方面取得了成功,在生成高质量、连贯的视频方面也取得了令人瞩目的进展。然而,处理视频中的额外时间维度大大增加了计算需求,尤其是在自注意力机制难以随序列长度扩展的情况下。因此,很难在长视频上高效地训练或运行这些模型。Sparse VideoGen 等尝试利用注意力头分类来加快推理速度,但在训练过程中,它们在准确性和泛化方面存在困难。其他方法则用线性方法取代了 softmax 注意力,但这些方法往往需要对架构进行重大调整。有趣的是,物理学中信号能量随时间自然衰减的特性启发了新的、更高效的建模策略。
视频合成中注意力机制的演变
早期的视频模型通过整合时间组件扩展了二维架构,但 DiT 和 Latte 等较新的方法则通过先进的注意力机制增强了时空建模。虽然三维密集注意力机制实现了最佳性能,但其计算成本会随着视频长度的增加而迅速增加,导致生成长视频的成本高昂。时间步长蒸馏、量化和稀疏注意力等技术有助于减轻这种负担,但往往忽略了视频数据的独特结构。尽管线性或分层注意力等替代方案可以提高效率,但在实践中,它们通常难以保持细节或有效地扩展规模。
时空能量衰减和 Radial Attention 简介
来自麻省理工学院、英伟达公司、普林斯顿大学、加州大学伯克利分校、斯坦福大学和 First Intelligence 的研究人员在视频扩散模型中发现了一种名为 “时空能量衰减”(Spatiotemporal Energy Decay)的现象,即随着空间或时间距离的增加,标记之间的注意力分数会下降,这反映了信号自然消退的过程。受此启发,他们提出了径向注意力机制 (Radial Attention),这是一种复杂度为 O(n log n) 的稀疏注意力机制。它使用静态注意力掩码,其中标记主要关注附近的标记,注意力窗口会随时间缩小。这使得预训练模型能够将视频生成时间延长四倍,将训练成本降低 4.4 倍,将推理时间缩短 3.7 倍,同时保持视频质量。
利用能量衰减原理实现稀疏注意力
Radial Attention 机制基于这样的洞察:视频模型中的注意力得分会随着空间和时间距离的增加而下降,这种现象被称为时空能量衰减。径向注意力机制并非平等地关注所有标记,而是策略性地减少注意力机制较弱部分的计算量。它引入了一个稀疏注意力掩码,该掩码在空间和时间上均呈指数级衰减,仅保留最相关的交互。这使得其复杂度达到 O(n log n),比密集注意力机制更快、更高效。此外,只需使用 LoRA 适配器进行少量微调,即可调整预训练模型,从而高效地生成更长的视频。
视频扩散模型评估
Radial Attention 在三个领先的文本转视频扩散模型(Mochi 1、HunyuanVideo 和 Wan2.1)上进行了评估,结果显示其速度和质量均有所提升。与 SVG 和 PowerAttention 等现有的稀疏注意力基准相比,Radial Attention 提供了更佳的感知质量和显著的计算增益,包括推理速度提高 3.7 倍,长视频的训练成本降低 4.4 倍。它可以高效扩展到 4 倍长视频长度,并与现有的 LoRA(包括风格化 LoRA)保持兼容。重要的是,在某些情况下,使用 Radial Attention 进行 LoRA 微调的效果优于完全微调,证明了其在高质量长视频生成方面的有效性和资源效率。

结论:可扩展且高效的长视频生成
总而言之,Radial Attention 是一种稀疏注意力机制,旨在高效处理扩散模型中的长视频生成。受观察到的注意力得分随空间和时间距离的增加而下降的现象(研究人员将这种现象称为“时空能量衰减径向注意力”)的启发,该方法模拟了自然衰减以减少计算量。它采用静态注意力模式,窗口呈指数级缩小,性能提升高达 1.9 倍,支持的视频时长最高可达 4 倍。借助基于 LoRA 的轻量级微调,它显著降低了训练成本(降低了 4.4 倍)和推理成本(降低了 3.7 倍),同时在多个最先进的扩散模型中保持了视频质量。
资料
- 论文地址:https://arxiv.org/pdf/2506.19852v1
- GitHub:https://github.com/mit-han-lab/radial-attention
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/59491.html