ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用

现有扩散模型凭借强大的生成能力，在真实世界视频超分辨率（Real-VSR）任务中取得了显著进展。然而，由于依赖多步采样的重建过程，这类方法的推理速度较慢。单步生成网络，如 SeedVR2、DOVE 和 DLoRAL，通过将生成过程压缩为单次推理步骤，在一定程度上缓解了这一问题。然而，这类模型通常仍具有数十亿参数和数秒级推理延迟，在实际应用中仍显得过于庞大。对抗扩散压缩（Adversarial Diffusion Compression, ADC）通过剪枝与蒸馏可将这类模型压缩为更加轻量的 AdcSR 网络，但在直接应用于 Real-VSR 任务时，由于缺乏时域感知能力以及传统对抗学习的局限，模型难以在空间细节与时间一致性之间取得平衡。为此，本文提出一种面向 Real-VSR 的改进 ADC 方法。该方法通过蒸馏包含 3D 时空注意力的扩散 Transformer（DiT）教师模型 DOVE，得到一个经过剪枝的 2D Stable Diffusion 结构 AdcSR 网络，并引入轻量级 1D 时域卷积以提升效率。同时，提出双头对抗蒸馏策略，在像素域和特征域分别引入判别器，对细节质量与时间一致性进行显式解耦优化。实验结果表明，压缩后的 AdcSR 模型在保持相当视频质量的同时，相比教师模型 DOVE 减少了 95% 的参数量，并实现约 8× 的速度提升。

文章来源：ICLR 2026
论文题目：Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution
论文作者：Bin Chen, Weiqi Li, Shijie Zhao, Xuanyu Zhang, Junlin Li, Li Zhang, Jian Zhang
论文链接：https://arxiv.org/abs/2603.00458
内容整理：梁盈

简介

ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用 — 图1：模型架构总览

真实世界视频超分辨率（Real-World Video Super-Resolution, VSR）是计算机视觉领域中的一个重要研究方向，旨在在未知退化条件下将低分辨率视频重建为高分辨率视频。尽管传统的视频超分辨率方法在重建质量方面取得了显著进展，但在复杂混合退化场景下仍容易出现性能退化，且生成结果往往存在过度平滑的问题。近年来，基于扩散模型的方法表现出强大的细节生成能力，能够生成更加丰富且逼真的视频内容。然而，这类方法通常依赖多步迭代采样过程，导致较高的推理时间开销。

为了在保持生成质量的同时提升效率，近期研究开始探索单步扩散框架下的视频超分辨率方法。基于预训练的 Stable Diffusion 模型，UltraVSR、DLoRAL、SeedVR2 和 DOVE 等方法通过时域增强、模型蒸馏以及对抗学习等策略显著降低了推理时间，但仍然依赖参数规模庞大的模型结构，具有较高的计算与存储开销。

在图像超分辨率领域，AdcSR 和 TinySR 通过结构剪枝与对抗蒸馏等技术对 OSEDiff 和 TSD-SR 等扩散模型进行压缩，有效降低了真实世界图像超分辨率任务中的计算成本。但将上述方法直接应用于视频超分辨率任务仍面临两个关键挑战：（1）压缩后的网络参数规模依然较大；（2）细节生成质量与时域一致性之间存在优化目标冲突，从而导致视频质量下降。因此，面向扩散模型的真实世界视频超分辨率网络压缩仍是一个具有重要研究价值的方向。

为提升基于扩散模型的视频超分辨率生成效率，本文提出 AdcVSR，一种通过 Adversarial Diffusion Compression (ADC) 方法对单步扩散模型 DOVE 进行压缩的新型视频超分辨率框架。不同于以往依赖计算开销较大的三维时空注意力或额外帧对齐模块的方法，本文基于如下假设：二维扩散骨架已具备生成丰富图像细节的能力，而视频中的时域一致性可以通过轻量级的一维时域卷积模块进行建模，两者的结合能够有效去除视频退化并恢复高质量内容。基于这一设计思想，AdcVSR 以引入一维时域卷积增强的 SD2.1 网络作为骨架，从而在保持生成能力的同时显著降低计算复杂度。

为了进一步提升生成视频的质量并缓解细节生成与时域一致性之间的优化冲突，本文提出一种新的对抗蒸馏训练策略。该策略利用 DOVE 教师模型强大的生成能力，并结合大规模具有时域一致性的真实视频以及细节丰富的图像数据进行联合训练。在对抗蒸馏过程中，分别在像素空间与特征空间引入两个鉴别器，每个鉴别器均包含细节生成与时域一致性两个判别分支，以实现对两类目标的解耦优化。通过 2D+1D 的结构设计以及双鉴别器、双分支的对抗蒸馏机制，AdcVSR 能够在保持视频生成质量的同时高效压缩 DOVE 模型，并显著提升推理效率。

文章的贡献总结如下：

提出一种基于 ADC 策略的新型网络架构，将真实世界视频超分辨率模型压缩为高效的扩散–对抗混合模型；
证明通过轻量级 1D 时域卷积增强的 2D 图像扩散模型可以从 3D DiT 教师模型中高效学习视频超分辨率映射
提出一种细节生成与时域一致性解耦的对抗蒸馏策略，通过在像素空间与特征空间分别引入 dual-head 鉴别器，在细节质量与时域一致性之间实现更稳定的优化平衡；
大量实验表明，在保持相当生成质量的情况下，AdcVSR 相比教师模型 DOVE 减少约 95% 的参数量并实现约 8× 的推理加速，在保真度、细节丰富度、时域一致性与计算效率之间取得了良好平衡。

方法

模型结构设计

由于低分辨率视频本身已经提供了较为丰富的细节信息和时域一致性，在这种条件下，引入 3D 注意力机制可能会产生冗余。其原因在于，3D 注意力主要用于建模全局时空一致性，而这一信息在低分辨率输入中已部分被显式包含。因此，本文基于以下两点假设开展模型设计：（1）二维扩散骨架已经具备较强的图像细节生成能力；（2）视频中的时域一致性可以通过轻量级的一维时域卷积进行有效建模。在此基础上，本文提出采用 2D+1D 的网络结构以适应真实世界视频超分辨率任务。

具体而言，AdcVSR 以 AdcSR 作为二维扩散框架，该框架由经过通道裁剪的 SD2.1 网络及其 VAE 解码器组成。为了引入时域建模能力，在每个 UNet 块之后插入一维时域卷积层，并结合 ReLU 激活函数和残差连接，从而在保持较低计算开销的同时增强模型的时域感知能力。

对抗蒸馏策略

为了获得具有竞争力的视频重建质量，本文将预训练的 3D DiT 模型 DOVE 蒸馏到所提出的 2D+1D 轻量化网络中。具体而言，以 DOVE 模型的输出作为监督信号，在像素域与特征域同时进行蒸馏学习。对于特征域蒸馏，首先将教师模型的输出 x_teacher 通过 SD2.1 中的 VAE 编码器重新编码，并输入 VAE 解码器，从而提取其中间层特征 f_teacher。随后分别在像素空间和特征空间施加 L1 约束，即 ∣∣x_student−x_teacher∣∣1 与 ∣∣f_student−f_teacher∣∣1。相比原始 ADC 方法仅依赖特征域监督，AdcVSR 同时利用像素域与特征域的蒸馏信号，并对网络进行端到端微调，能够更加充分地发挥模型的学习能力。

仅通过最小化像素域与特征域误差虽然能够提供稳定的监督，但由于 AdcVSR 的模型规模显著小于教师模型 DOVE，且网络结构也存在明显差异，学生网络难以精确拟合教师模型的输出，这容易导致优化瓶颈以及重建性能退化。针对这一问题，本文在最小误差蒸馏的基础上引入对抗学习，以放宽对教师模型精确复制的要求，从而提高学生模型的表达能力。

一种直观的方案是引入标准鉴别器，使生成结果与真实数据分布对齐。然而，该策略往往会使细节生成质量与时域一致性的优化过程发生耦合。在实践中，鉴别器通常倾向于优先提升图像细节质量，而忽略时域一致性，从而导致视频稳定性下降。为解决这一问题，本文提出一种 dual-head、dual-discriminator 的学习策略，将细节生成与时域一致性的优化过程进行解耦。

具体而言，构建两个鉴别器分别作用于像素域与特征域：像素域鉴别器基于预训练的 ConvNeXt 构建，而特征域鉴别器采用与 AdcVSR 相同的结构。每个鉴别器均包含两个线性判别头（heads），分别用于预测细节保真度和时域一致性。此外，在像素域监督中进一步引入感知损失（Perceptual Loss）以增强监督信号。对应的生成器损失函数定义如下：

在鉴别器训练过程中，构建五类在细节质量与时域一致性上具有不同特性的训练数据，并分别赋予对应标签以指导判别学习。鉴别器的损失函数定义如下：

实验

实现细节

AdcVSR 采用两阶段训练策略。在第一阶段，仅使用最小误差蒸馏对模型进行训练，共进行 200K 次迭代；在第二阶段，以第一阶段训练得到的权重作为初始化，对模型进一步微调 200K 次迭代。第二阶段训练中，像素域鉴别器基于预训练的 ConvNeXt 架构构建，而特征域鉴别器采用冻结的 AdcVSR 网络结构。

在优化策略上，第一阶段的学习率初始化为 1 x 10^-4，第二阶段的学习率初始化为 1 x 10^-5，每 100K 次迭代后将学习率衰减为原来的一半。鉴别器中可训练的部分使用 1 x 10^-7 的学习率。在两个训练阶段中，均对 AdcVSR 进行端到端的微调。整个训练过程在 8 张 NVIDIA H20 GPU (96G) 上完成，总训练时间约为 1 天。

测试集和评估指标

实验使用 UDM10、SPMCS、YouHQ40 作为合成退化测试集，RealVSR、MVSR4×、VideoLQ 作为真实退化测试集。所有的视频均去除前 25 帧，并通过中心裁剪至 512×512 分辨率。评估指标包括全参考指标 PSNR、SSIM、LPIPS、DISTS，无参考指标 MANIQA、CLIPIQA、MUSIQ 作为评估指标，以及。

结果

（1）定量结果

（2）定性结果

（3）效率对比

（4）消融实验

首先，对 2D+1D 网络架构设计进行消融实验。实验结果表明，相比仅使用 2D 网络或剪枝后的 3D 网络，2D+1D 架构在参数量仅占的情况下，其 DISTS 指标与 3D 模型相差仅 0.0014，在保持感知质量的同时显著提升了模型效率。

其次，对 Dual-Head 鉴别器结构进行消融分析。实验分别比较了 single-head 与 single-domain 的设计方案。结果显示，所提出的 Dual-Head、Dual-Domain 结构在各项评估指标上均取得最优表现，验证了将细节生成与时域一致性解耦优化的有效性。

最后，对所提出的对抗蒸馏策略进行验证。通过比较不同的对抗学习策略与蒸馏方式，实验结果表明 AdcVSR 所采用的训练与蒸馏策略能够在重建保真度与感知质量之间取得更优平衡，从而显著提升视频超分辨率的整体性能。

总结

本文针对真实世界视频超分辨率（Real-VSR）任务，提出了一种改进的 Adversarial Diffusion Compression (ADC) 方法，并构建了高效的视频超分辨率模型 AdcVSR。与现有依赖计算开销较大的 3D 时空注意力或扩散 Transformer（DiT）结构的方法不同，本文采用紧凑的 “2D + 1D” 网络设计：利用剪枝后的 2D Stable Diffusion 骨架生成丰富的图像细节，并通过轻量级 1D 时域卷积建模帧间一致性，从而在保持时域稳定性的同时有效去除视频退化。为充分利用大型 3D DiT 教师模型 DOVE 的知识并缓解细节生成与时域一致性之间的优化冲突，本文进一步提出 dual-head、dual-discriminator 的对抗蒸馏策略，在像素域与特征域对细节质量和时域一致性进行解耦并联合优化。实验结果表明，在多个合成和真实退化数据集上，AdcVSR 在保持具有竞争力的视频质量的同时，相比教师模型实现了 95% 的参数压缩和约 8× 的推理加速。该方法在保真度、细节丰富度、时域一致性和计算效率之间取得了良好平衡，并为扩散模型压缩及高效视频重建系统的设计提供了有价值的参考。