本文针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证,对应的论文已被 ICLR2026 接收!
该工作由vivo BlueImage Lab,南开大学共同完成。
作者: vivo BlueImage Lab
项目主页:https://github.com/vivoCameraResearch/AdaRefSR
01 研究背景:解决扩散模型的“幻觉”困境
基于扩散模型的单图超分(SISR)虽然能生成惊艳的细节[1, 2],但其本质是一个病态(ill-posed)问题。在缺乏外部约束时,模型容易产生幻觉(Hallucinations)——即伪造不真实的纹理。参考超分(RefSR) 试图通过引入参考图(Ref)[3, 4]来纠正这一点。但在真实场景中,低质图(LQ)的退化通常是未知的且严重的,导致 LQ 与 Ref 的匹配极度困难。
- 现有痛点: 显式的逐 Token 匹配(如 ReFIR [5])在强退化下极度脆弱,极易导致错误的纹理迁移(如双重伪影)。
- 核心挑战: 究竟该如何自适应地利用参考图像?在匹配度高时增强参考,在匹配度低时果断“断舍离”。
我们提出了 Ada-RefSR方法,以解决上述的问题。以下是 Ada-RefSR 与当前主流方法的对比效果:

- 超越单图极限(vs. S3Diff [6]):相比于基线方法 S3Diff,Ada-RefSR 能够突破单图信息的瓶颈,精准地从参考图中提取并注入高频纹理,显著提升了画面的精细度。
- 重塑参考范式(vs. ReFIR):
- 不过度利用:有效抑制了 ReFIR 常见的误匹配伪影,避免了生搬硬套参考图导致的视觉不协调。
- 更充分激活:在 ReFIR 表现保守、利用率不足的区域,我们的方法能够实现“恰到好处”的细节补充,真正做到了对参考信息的深度挖掘与自适应融合。
02 技术逻辑:一步式生成的背后
我们提出了 “Trust but Verify”(信而有证) 范式。首先通过注意力机制引入参考信息(Trust),随后通过隐式相关性建模进行过滤与验证(Verify)。
2.1 结构概览
以下是我们的方法结构图:

Ada-RefSR 基于单步扩散模型(Single-step Diffusion)构建,核心由两个关键路径组成:
- ReferenceNet 路径: 冻结权重以保留 SD-Turbo 的高质量特征提取能力,通过 Reference Attention (RA) 实现 LQ 与 Ref 的多尺度特征对齐。
- AICG 分支(核心): 充当自适应的“流量调节器”。
2.1 核心突破:自适应隐式相关门控 (AICG)
为了实现“Trust but Verify”的范式,我们设计了 AICG 模块。其核心逻辑是通过隐式建模,计算 LQ 输入与参考图之间的“信任分”,从而动态调节细节注入的强度。
第一步:提炼参考特征 (Feature Summarization)
不同于直接使用海量的参考特征 Token(计算量大且含噪声),我们引入了一组可学习的总结 Token ( TS )。通过交叉注意力机制,将参考图中的关键纹理和高频信息压缩到极少量的 M 个核心 Token 中:
- 核心逻辑:

- 意义:这一步像是一个“过滤器”,只保留参考图中最重要的结构和纹理模式。
第二步:计算隐式相关度 (Implicit Correlation)
我们将 LQ 图像的查询特征(Query)与压缩后的参考特征进行匹配,生成一张相关性图 (Correlation Map):
- 核心逻辑:

- 意义:该图反映了 LQ 的每个区域在参考图中找到“可靠对应物”的概率。
第三步:动态门控调节 (Adaptive Gating)
这是实现鲁棒性的关键。我们将相关性图在 Token 维度上取平均,并通过 Sigmoid 函数映射为 0 到 1 之间的自适应权重 G。
- 计算简化版:

- 最终融合:

技术优势:
- 防伪影保护:当 G 趋近于 0 时,说明参考图在该区域不可靠,模型会自动切换回单图超分模式,有效避免误匹配导致的幻觉伪影。
- 极轻量化:由于M(总结 Token 数量)远小于原始特征长度,AICG 引入的额外计算量几乎可以忽略不计。
- 端到端自学习:门控权重的学习无需人工标注,完全由模型在训练过程中根据重建质量自动优化。
03 性能表现:全面领先 SOTA
我们在四个主流 Benchmark 上验证了 Ada-RefSR 的实力,具体结果如下图:

| 数据集 | 指标 | 性能表现 |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳,视觉自然度显著优于 ReFIR |
| 人脸场景 (Face) | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird) | 结构稳定性 | 在保持语义一致性方面优势明显 |
关键结论:
- 全面领跑: 在反映感知质量的 FID 和 LPIPS 上表现优异,证明生成的图像既清晰又自然。
- 拒绝幻觉: AICG 机制有效减少了因误匹配导致的伪影,其鲁棒性远超现有的显式匹配方案。
04 落地优势:专为移动影像设计
Ada-RefSR 的设计初衷不仅是学术性能,更考虑了端侧设备(手机) 的部署需求:
- 极速推理: 采用单步生成(Single-step) 架构,相比传统多步迭代的扩散模型,推理速度提升了数十倍,真正具备在手机端侧实时处理的可能性。
- 计算高效: AICG 模块设计精巧,仅引入极少量的可学习参数,且能通过 bf16 量化等手段进一步压缩,对显存极其友好。
- 极致鲁棒: 手机拍摄场景复杂(如变焦参考、不同光照参考),AICG 的门控机制能有效防止在参考图不相关时“带偏”画质,保证了修复结果的下限。
05 总结
Ada-RefSR 通过 “Trust but Verify” 这一简洁而深刻的原则,利用隐式相关性建模解决了 RefSR 在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角,也为高性能、低功耗的影像修复落地指明了方向。
引用:
- [1] Wang, Jianyi, et al. “Exploiting Diffusion Prior for Real-World Image Super-Resolution.” IJCV, 2024.
- [2] Wu, Rongyuan, et al. “Seesr: Towards semantics-aware real-world image super-resolution.” CVPR, 2024.
- [3] Jiang, Yuming, et al. “Robust Reference-based Super-Resolution via C2-Matching.” CVPR, 2021.
- [4] Cao, Jiezhang, et al. “Reference-based Image Super-Resolution with Deformable Attention Transformer.” ECCV, 2022.
- [5] Guo, Hang, et al. “ReFIR: Grounding Large Restoration Models with Retrieval Augmentation.” arXiv:2410.05601, 2024.
- [6] Zhang, Aiping, et al. “Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors.” arXiv:2411.01166 (S3Diff), 2024.
关于 vivo BlueImage Lab
蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。