CVPR NTIRE 2026｜UGC短视频智能修复挑战赛结果出炉！

NTIRE 2026基于生成模型的真实场景UGC短视频修复挑战赛聚焦真实UGC短视频中的复杂降质修复问题，面向全球研究者与开发者开放征集。挑战赛基于全新UGC短视频修复基准数据集KwaiVIR展开，涵盖合成降质视频与真实降质视频，旨在推动生成模型在短视频质量增强与智能修复方向的前沿探索。该数据集由中国科学技术大学（USTC）与快手联合贡献。

本次挑战发布的数据包括：

训练视频：200个合成视频、48个真实视频
验证视频：11个
测试视频：20个

挑战赛的主要目标是建立一个强大且实用的benchmark，用于在复杂真实失真条件下修复UGC短视频，尤其面向新兴的基于生成模型的修复范式。

本挑战赛设有两个赛道：

主观赛道（主赛道）：基于主观打分评估
客观赛道：基于客观指标评估

本年度共95支队伍注册参赛，最终12支队伍提交有效测试结果，分别来自清华大学、北京航空航天大学、中山大学、新加坡国立大学、南洋理工大学、布里斯托大学、伊利诺伊大学香槟分校等14所海内外高校，以及小红书、阿里巴巴、OPPO、小米、京东等5家科技企业。参赛方法在KwaiVIR基准上取得了出色性能，展示了UGC短视频修复领域令人鼓舞的进展。

会议：CVPR 2026 NTIRE Workshop

项目主页：https://github.com/lixinustc/KVQE-Challenge-CVPR-NTIRE2026

报告链接：https://arxiv.org/html/2604.10551v1

1. 引言

短视频形式的用户生成内容（S-UGC视频）已成为快手、抖音等现代移动平台上最重要的视觉媒体形式之一。与传统专业制作的视频相比，S-UGC视频通常由普通用户在非受控条件下拍摄，并经过平台复杂的链路处理。因此，S-UGC视频的视觉质量往往受到多种因素的影响，包括：用户拍摄设备性能的不确定性、拍摄时抖动以及场景下引入的暗光与模糊等、视频编辑和压缩过程中引入伪影等。这些降质不仅降低了视频感知质量，也给平台实际运行的视频处理修复链路带来了巨大挑战。

S-UGC视频的修复与传统修复存在本质区别。现有的视频修复benchmark和相关方法通常在相对受控的前提下设计，降质视频一般通过限定在某些特定类别失真下合成得到。相比之下，S-UGC视频的失真复杂多样，使得真实场景的修复更加困难。视频修复方法不仅需要去除失真，还需要保障视频在处理修复后能具备时序一致性、维持感知真实感，并能在多样化内容场景下良好泛化。

近期生成模型的进展为视频修复提供了新的思路和途径。通过利用强大的生成先验，当下的修复方法能够在复杂的退化下恢复视觉上合理的细节，产出感知上令人满意的结果。然而，这类方法尽管取得了快速进展，针对真实场景中S-UGC视频生成修复的专用benchmark仍然缺乏。

为此，我们组织了NTIRE 2026基于生成模型的真实场景UGC短视频修复挑战赛，并基于全新引入的KwaiVIR基准开展，评估维度涵盖失真保真度、感知质量和时序一致性等。

2. 挑战赛介绍

2.1 数据集：KwaiVIR

KwaiVIR由中国科学技术大学和快手联合贡献，其内容如下：

合成降质视频（含对应的参考视频）
真实场景S-UGC视频

2.2 评估方式

客观评估指标（合成视频）

PSNR：峰值信噪比
SSIM：结构相似性
LPIPS：感知图像相似性
MUSIQ：无参考图像质量评估
WarpError：时序一致性误差

客观评估指标（真实场景视频）

MUSIQ
WarpError

主观评估

由来自教育界和工业界的专业评估人员，从以下三个维度进行评分：

内容保真度（Fidelity）
感知质量（Perceptual Quality）
时序一致性（Temporal Consistency）

主观评估视频包含10个合成视频+10个真实场景视频（共20个）。

3. 挑战赛结果

3.1 主观评估排名（主赛道）

3.2 客观评估排名

3.3 结果分析

总体而言，RedMediaTech表现最佳，在主观和客观评估中均排名第一：

主观得分最高：3.8525
客观指标最佳：PSNR 30.7610、SSIM 0.8504、LPIPS 0.1910

值得注意的是，主观排名与客观排名并非完全一致，这是因为参赛队伍允许向两条赛道同时提交修复结果。这一现象进一步说明了主客观综合评估对于生成式视频修复领域研究的重要性。

4. 参赛队伍与方法详解

限于篇幅，如下仅展示主客观前3名队伍的方法详解。

4.1 RedMediaTech

来自：小红书

核心方案：采用基于Wan 2.1扩散变换器（DiT）的单步扩散框架，通过两阶段训练在感知质量和保真度指标之间取得平衡。

架构亮点：

第一阶段：用Wan 2.1 VAE + DiT初始化，联合MSE和LPIPS损失训练，充分利用Wan 2.1的强生成先验，快速收敛
第二阶段：将Wan 2.1 VAE替换为表达能力更强的Qwen-Image VAE，继续训练提升PSNR和SSIM
两个VAE之间的捷径连接（Shortcut Connection）有助于保留空间细节
DiT采用三维旋转位置编码（3D RoPE）捕捉时序信息
使用时域帧跳过、随机裁剪等数据增强提升鲁棒性

训练细节：

框架：PyTorch+diffsynth-studio 库
第一阶段：8张H20 GPU（140GB显存），约5天，AdamW（β=0.9, 0.99），学习率 5×10⁻⁵
第二阶段：学习率降至2×10⁻⁵，再训1天
额外使用约10,000个内部高分辨率视频片段

推理细节：

帧经VAE编码到潜空间，单步DiT去噪，VAE解码输出
单步推理高效，同时保持高感知质量

4.2 TaoMC2

来自：阿里巴巴淘天集团、北京航空航天大学

核心方案：基于文本生成视频（T2V）扩散模型的两阶段生成式修复流水线框架。

架构亮点：

第一阶段：双分支修复模块
- 分支1：通用真实世界修复
- 分支2：预清洗模块，处理不连续性和严重退化；客观赛道额外引入开源DOVE模型作为补充分支
第二阶段：基于RRDB的融合网络，结合原始降质输入与两个生成分支的中间输出
输入锚定融合策略：改善鲁棒性，平衡降质去除与细节保留，减少过平滑和幻觉伪影

训练细节：

骨干网络：CogVideoX1.5
训练集：200个官方合成视频+来自YouTube/Pexels的50万高质量视频文本对（从300万网络视频筛选）
视频文本描述由Qwen2.5-VL自动生成
64张NVIDIA H20 GPU，49帧片段，裁剪分辨率1024×1024

4.3 STCVSR

来自：南京理工大学、湖南大学、OPPO研究院

核心方案：基于预训练STCDiT和ODTSR模型的修复流水线框架。

架构亮点：

ODTSR增强稀疏锚帧（每25帧取1帧），提供结构引导
STCDiT完整视频修复，利用运动感知VAE编码的片段潜变量间的跨段关系
针对稠密纹理视频，直接使用STCDiT，跳过锚帧增强（避免时序不一致）
针对局部结构严重退化的帧，动态调整分段边界

特别说明：未进行额外训练，直接使用预训练权重推理。

4.4 Gen-VSR（Video-Restorer）

来自：中山大学、西安交通大学、南洋理工大学

核心方案：顺序的两阶段流水线框架。

第一阶段：时域模型（光流/可变形对齐 + ONNX上采样），滑动窗口（长度30，重叠10）保持时序一致
第二阶段：使用DOVE（基于CogVideoX的单步扩散VSR模型）进行生成式超分辨率

该团队未进行额外训练，完全依赖预训练检查点。

4.5 Lucky one

来自：北京航空航天大学、清华大学

核心方案：基于CogVideoX微调的高效单步扩散视频修复方法，采用潜像素训练策略。

架构亮点：

在潜空间中单步预测每帧的噪声，无需多步扩散
潜像素监督在潜域中利用像素级信息，提升空间保真度
相比多步扩散模型，可实现最高28倍速度提升
时序一致性通过潜域的帧间训练保持

致谢

本挑战赛由中国科学技术大学与快手联合举办，组织团队成员包括：中国科学技术大学李鑫，快手周超、巩佳超、熊诗尧，以及德国维尔茨堡大学计算机视觉实验室Radu Timofte。

此外，本工作得到了国家自然科学基金（U25B2010、62371434、623B2098）、中国博士后科学基金（GZC20252293、2024T017AH、2025M783529）、安徽省博士后科学研究基金（2025A1015）、中央高校基本科研业务费专项资金（WK2100250064）及洪堡基金会的支持。

团队介绍

快手音视频技术团队由业界资深的行业专家组成，涵盖了算法、工程、产品等多个领域。自2016年成立以来，团队建立了业界领先的短视频和直播技术体系，保障快手海内外数亿用户体验，驱动平台多元业务的开展。音视频团队诚邀您加入！

CVPR NTIRE 2026｜UGC短视频智能修复挑战赛结果出炉！

1. 引言

2. 挑战赛介绍

2.1 数据集：KwaiVIR

2.2 评估方式

客观评估指标（合成视频）

客观评估指标（真实场景视频）

主观评估

3. 挑战赛结果

3.1 主观评估排名（主赛道）

3.2 客观评估排名

3.3 结果分析

4. 参赛队伍与方法详解

4.1 RedMediaTech

4.2 TaoMC2

4.3 STCVSR

4.4 Gen-VSR（Video-Restorer）

4.5 Lucky one

致谢

团队介绍

相关推荐

国家重点研发计划正式启动，Rokid 与中国眼谷共建眼健康XR研究院

语音 AI 正蓬勃发展，但它是否足够成熟以产生实质影响？

Spot AI 为其 AI 视频处理平台融资 3100 万美元

Cocos 获「2023年第一批创新型中小企业」认定

Linux 6.6 支持 Cirrus Logic CS42L43 音频编解码器

ZoomMate 如何取代 Zoom 的定制 AI 助手