实时重建高质量视频对从视频会议到增强现实等应用构成重大挑战,既要求视觉保真度又需极低延迟。来自北京大学、华侨大学和快手的研究团队通过 InstantViR 解决了这一难题。
InstantViR 是一种用于超快速视频修复的新型框架。该团队通过将强大的视频扩散模型提炼为精简的单遍系统,突破了现有扩散方法常出现的时序不一致或处理速度慢的局限。这种创新方法使 InstantViR 能够在每秒超过 35 帧的运行速度下,实现与当前最先进技术相当甚至更优的重建质量,这标志着在实用实时视频增强方面取得了重大突破,并为交互式和流媒体视觉应用开辟了新的可能性。

扩散模型可修复退化的视频序列
研究人员正在攻克视频修复难题,旨在从模糊、残缺或噪声较大的视频源中重建清晰、高质量的画面。他们利用扩散模型来实现这一目标。扩散模型是一种生成模型,能够学习逆向噪声添加过程。通过学习去除噪声,这些模型可以生成逼真的视频内容。关键创新在于将这些模型应用于解决视频修复问题,而不仅仅是创建新内容。这项工作的重点是提高扩散模型在视频处理中的速度和效率,目标是实现实时或近实时性能。
这主要通过多种技术实现,包括算法蒸馏、精心选择网络架构以及优化策略。科学家们探索了各种网络架构,例如Transformer和U-Net,以优化性能。诸如快速采样和单步扩散等优化策略进一步缩短了处理时间。研究团队在各种视频修复基准测试中展示了最先进的性能,实现了实时或近实时性能。所提出的方法显著提高了视觉质量,这已通过客观指标测量并经主观评价证实。
一些方法展现出零样本泛化能力,无需重新训练即可推广到新的视频数据集。这项工作通过开发快速高效的基于扩散的方法,为视频修复领域做出了重要贡献,并为视频会议、直播和视频编辑等实际应用开辟了新的可能性。开源模型和代码的发布将促进该领域的进一步研究和发展。
基于扩散蒸馏的快速视频重建
研究团队开发了 InstantViR,这是一种用于超快速视频重建的新型框架,它利用视频扩散模型的强大功能,却无需承担传统的计算成本。鉴于现有的基于扩散的方法难以兼顾高感知质量和实时性能,研究人员设计了一个系统,将强大的双向视频扩散模型提炼成一个因果自回归网络。该学生网络只需一次前向传播即可将退化视频直接映射到其恢复版本,继承了教师模型强大的时间建模能力,同时避免了缓慢的迭代优化过程。其独特之处在于蒸馏过程仅需教师扩散模型与已知的退化操作符,无需成对的干净视频与噪声视频数据。
为了进一步加速处理,研究团队用超高效的时空分词器 LeanVAE 替换了标准的视频扩散骨干算法。这一替换是通过一种创新的教师空间正则化蒸馏方案实现的,该方案确保了与教师先验的一致性,同时实现了潜在空间中的低延迟处理。该系统采用流式因果逆架构,利用分块注意力机制和键值缓存进一步降低延迟并保持高保真度的重建效果。实验表明,InstantViR 在 A100 GPU 上实现了超过 35 帧/秒的帧率,相比迭代视频扩散求解器,速度提升高达 100 倍。该方法成功解决了流式随机图像修复、高斯去模糊和超分辨率任务,其重建质量与现有的基于扩散的基线方法相当甚至更优。这一突破使得高质量视频修复能够在实时、交互式和可编辑的流式场景中得到实际应用,有效弥合了扩散级质量和实时性能之间的差距。
总结
InstantViR 代表了视频重建领域的一项重大进步,它解决了长期以来平衡重建质量和处理速度的难题。研究人员开发了一种新颖的框架,将强大的视频扩散模型简化为一个轻量级的单步流程,从而在不牺牲时间一致性的前提下实现了实时性能。这项成果无需配对训练数据,并将计算量大的组件替换为更高效的替代方案,从而显著提升了速度,在标准硬件上即可达到每秒 35 帧以上。研究团队证明,InstantViR 的重建质量与现有的基于扩散的方法相当甚至更优,同时处理速度最高可提升 100 倍。
这项突破性进展为高质量视频修复在交互式和流媒体场景中的实际应用释放了巨大潜力,例如直播画面增强和实时视频编辑。虽然加速模型目前相比使用原始VAE的版本质量略有下降,但研究人员承认这一局限性,并建议进一步调整轻量级VAE的潜在空间,以缩小差距。未来的研究还可以探索将该框架扩展到更大的视频数据集,并将其应用于其他实时领域。
论文地址:https://arxiv.org/abs/2511.14208
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/63159.html