ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题

由于扩散模型在图像生成任务取得质的突破，越来越多的底层视觉任务受益于其强大的生成式先验——从图像超分辨率、去噪，到图像修复、扩散模型正以细节生成和语义理解的双重优势，重构底层视觉任务的技术范式。然而由于扩散模型由于其推理步数多，处理分辨率有限使得其在实际业务中难以真正落地。

核心问题：保真度+效率

尽管最近的研究尝试了包括步数蒸馏和结构剪枝在内的加速方案，并在学术测试集上取得了很好的效果，但由于任务定义的偏置，这些算法在实际业务中的表现差强人意。不同于学术数据集（如RealLQ, RealSR）中的极低质图片，真实生活中，随着拍照设备和压缩算法的迭代，图像原始画质不断提升，对于这部分占比更高的中高画质图片，现有的基于扩散模型的方法难以在高保真度的前提下提供细节的修复。

另一方面，现有的模型都是在固定分辨率上（512×512或1024×1024）处理，通过分块策略来实现对任意/更大分辨率图像处理的兼容，而在实际使用中，分块带来了不确定性的同时也增大了处理延时。这些问题使得我们重新思考一个问题，一个理想的面向图像增强业务的扩散模型该是什么样子的？

ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题

我们注意到了在生成任务中被反复讨论的问题：重建和生成质量的权衡。对于生成模型而言，更高的重建质量往往需要更大的隐空间维度（更低压缩率的VAE），而这会使得生成模型训练更困难，需要更大更复杂的DiT来实现细粒度的生成。因此，主流扩散模型往往基于VAE-F8C4（8倍下采样4通道）和轻量化底模，或VAE-F8C16（8倍下采样16通道）和更大的底模以获得最佳的性能。

但是对于恢复任务，这个设置是合适的吗？

如前文提到的，业务场景下占比更高的中高画质图片往往结构完整但细节模糊或缺失，这使得生成的难度下降但重建的需求增加。已有的16通道VAE从一定程度上解决了重建问题，但与之适配的DiT底模过于庞大，对于简单的细节补全“大材小用”。除此之外，图像恢复任务提供了低质图片这一离目标分布（高质量图片）更近起点，使得小模型在少步数推理的同时更加专注于细节，实现对纹理质感的恢复。基于这两点（16通道VAE和小模型），我们训练了用于真实业务场景的生成式细节恢复模型（Generatove Detail Restorer, GenDR）。

GenDR: 更接近任务场景的图像增强模型

VAE迁移

为了获得可以用于训练的基模，我们使用图像生成数据重训了SD2.1和剪枝后的SDXL让其能够适配重建质量更高的VAE。特别的，在这个过程中我们发现，VAE迁移并没有想象中的复杂，通过简单的扩散损失和特征对齐就能得到不错的效果，如图2所示。

基于一致性的步数蒸馏

在得到理想的基模后，我们使用步数蒸馏进一步得到单步模型最大化模型效率，在这个过程中我们结合图像恢复任务的先验进一步扩展了分数恒等蒸馏（Score Identity Distillation，SiD）使得蒸馏训练中的稳定性和一致性得到进一步的提升。具体来说，已有的基于分数匹配的蒸馏方法，如VSD和DMD都是通过拉近基于学生（单步）模型生成结果训练得到的分数模型和预训练分数模型之间的距离来使得学生结果的分布能匹配预训练模型训练数据的分布。但由于任务的不同，使用的文生图数据集更关注文本匹配度而非图像质量，使得学生模型对齐后生成的图像质量并没有我们想象的那么高，因此我们基于高质量数据集一步训练对齐训练目标。

其次，尽管SiD通过恒等变化可以减少由于迭代训练难以达到最优（类似于GAN的判别器）以及被常数化带来的负面影响，但仍然缺乏一致性监督，使得生成的自由度过高；为了解决这个问题，我们通过进一步的恒等变换将上式中的生成结果变为恢复任务中的理想值：

此外，尽管CiD比VSD和SiD提供了更好的一致性，但它仍然依赖扩散先验，这使得生成结果仍然会存在一定的油画感和AI感。为此，我们将对抗学习引入CiD，以进一步提高生成细节的真实性。

在实际实现中，为了减少计算开销，GenDR使用了LoRA和基模共享的策略，减少需要维护的基模数量，如下表所示，CiDA训练所需的显存和速度较VSD增长幅度均较低。

业务场景效果

运行效率

对于1080p左右的输入，GenDR可以在所有主流机器上进行部署和推理且均可以实现1s以内的实时处理响应。

主观结果

我们在开源的KwaiSR数据集上对UGC场景数据进行了测试，结果表明相较于已有方法，GenDR在任务一致性，细节纹理生成方面具有明显的优势。

核心问题：效率+处理分辨率

尽管通过部署蒸馏和结构优化我们已经将推理简化为只使用VAE和UNet，但处理速度仍然是传统方法的十数倍，且由于显存的限制，对于更高分辨率（如2K和4K）的图像增强依赖于分块处理策略，而这类高分辨率输入在实际业务场景的占比逐渐增加。为了能够最大化部署效率以及支持更高的处理分辨率，我们对现有的推理过程进行了profile。我们发现，对于单步增强模型而言，处理的显存和耗时瓶颈在于VAE而非UNet，对此，一个直接有效的优化方式就是去掉VAE。

GenDR-Pix: 探索部署效率最大化

虽然思路很直观，但去掉VAE但却不改变UNet的计算分辨率需要我们需要使用其他算子做图像编解码，有什么算子既不增加计算量和耗时也能实现无损的尺寸切换呢？答案是Pixel-(Un)Shuffle，之前的工作（AdcSR和传统图像超分辨率模型）已经验证了这两个算子适用于小分辨率（2倍/4倍）的下采样和上采样，这里，我们使用8倍的Pixel-(Un)shuffle分别替代VAE中的编码器和解码器并采用分阶段训练策略和一系列针对性优化逐步消除替换带来的负面影响。

多阶段训练

第一阶段，使用PixelUnshuffle替换编码器，修改并重新初始化UNet的输入层；我们使用特征蒸馏损失和对抗损失去除编码器。这个过程中由于输出仍为latent，我们使用预训练的GenDR作为判别器的特征提取模块。第二阶段，我们用Pixelshuffle去除解码器，使用类似的对抗学习的方式去除解码器，与第一阶段不同，此时的输出为192通道的重排像素，我们使用第一阶段的模型作为判别器的特征提取器计算对抗损失以避免使用额外模块判对齐输入所带来的性能损失。

其他优化

此外，在实践中我们发现，使用PixelUnshuffle替代解码器时会出现周期性的生成错误导致生成的质量下滑严重，因此，我们结合了包括频率损失，数据增强以及推理CFG在内的一系列优化提高这一步的效果，如下图所示。

结果

运行效率

对于4K图像（3840×2160），相较于GenDR，GenDR-Pix在可以减少65%的耗时, 61%的显存占用，和55%的计算量的同时保证接近的处理效果。

主观效果

较其他单步模型，GenDR-Pix可以提供现与现有SOTA模型相当的恢复效果。

结语

本文针对扩散模型在图像增强业务落地中的核心问题：保真度与效率的平衡、高分辨率处理的限制，提出GenDR系列模型。GenDR通过适配高重建质量的VAE 与轻量化模型，结合一致性步数蒸馏（CiD），在保证中高画质图片细节恢复保真度的同时，实现单步推理的高效处理；GenDR-Pix 进一步去除 VAE，采用 Pixel-(Un) Shuffle 替代编解码模块，通过多阶段训练与针对性优化，大幅降低显存占用与耗时，支持 2K/4K 等高分辨率图像的高效处理。系列工作为扩散模型在实际业务场景的落地提供了可行路径，并已在多个现实业务中中拓展应用，推动生成式技术与实际业务的深度融合。

相关链接

📄 GenDR：https://arxiv.org/abs/2503.06790

📄 GenDR-Pix：https://arxiv.org/abs/2602.10630

团队介绍

多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题

核心问题：保真度+效率

GenDR: 更接近任务场景的图像增强模型

VAE迁移

基于一致性的步数蒸馏

业务场景效果

核心问题：效率+处理分辨率

GenDR-Pix: 探索部署效率最大化

多阶段训练

其他优化

结果

运行效率

主观效果

结语

相关推荐

火山引擎全新发布和升级了四款豆包大模型

火山引擎视频云护航 抖音世界杯直播观众峰值突破1.6亿

虎牙直播×火山引擎：S15全球总决赛落幕，超高画质引爆观赛体验

火山引擎 RTC 助力抖音百万并发“云侃球”

火山引擎 RTC 自研音频编码器 NICO 实践之路

实时观赛人数突破3700万，火山引擎支撑抖音世界杯直播通过流量大考

火山引擎视频云护航抖音世界杯直播观众峰值突破1.6亿