刘铭,左旺孟,张磊等 | 基于预训练GAN模型的图像编辑与复原:训练、探索与理解

图片

研究意义

近年来,生成式对抗网络(GAN)已可实现高分辨率(如1024×1024)图像的高质量生成。在其优秀的生成能力背后,预训练GAN模型包含的自然图像先验及其对图像属性解耦的能力开始受到关注,并被应用于图像编辑与复原等任务。本文从GAN模型的训练、探索与理解出发,对利用预训练GAN模型完成图像编辑与复原等任务进行了系统和全面的介绍。

本文工作

随着GAN模型的提出,判别器(Discriminator)及对抗损失(Adversarial Loss)已被广泛应用于图像编辑与复原等任务,对提升输出的图像质量起到了一定的作用。然而,随着GAN模型的不断发展,预训练GAN模型已开始呈现出许多的优秀特性,如对图像属性隐空间的解耦能力、高质量自然图像先验等。仅仅使用对抗损失无法有效利用预训练GAN模型的这些特性,因此部分工作开始利用预训练GAN模型进行图像的编辑与复原。

本文梳理了利用预训练GAN模型的相关进展,包括对GAN模型的理解与应用等,主要内容包括:

(1) 介绍了预训练GAN模型的特性,包括隐变量的获取、隐空间的探索、生成规则的理解与改写等;

(2) 聚焦图像编辑与复原任务,整理了相关方法,并对其GAN模型、隐空间、数据集和应用等进行了比较;

(3) 讨论了基于预训练GAN模型进行图像编辑和复原领域的开放性问题和未来可能的研究方向。

如图1所示,本文对GAN模型的隐空间进行了介绍,包括 Z、W、W+、P、N、F 等。其中,Z  空间最为简单,在几乎所有GAN模型中均有使用;W / W+ 空间为StyleGAN系列所提出,因其图像属性解耦能力得到了最为广泛的应用;S  空间是对 W  空间在特征通道维度的扩增,考虑了特征与空间位置的关系;P  空间是在 W 空间的前一层(即LeakyReLU层之前),具有更好的特征分布;F / N 空间则利用了模型特征或逐层噪声,提升了模型获取和保留输入图像信息的能力。

图片
图1 GAN模型隐空间介绍(基于StyleGAN系列)

此外,本文讨论了获取隐变量的方式(即GAN Inversion,由图像到因变量的逆映射),如图2所示,包括基于优化的方法、基于学习的方法以及混合方法等。

图片
图2 GAN Inversion图示

进而,本文从两方面总结了近期对GAN模型进行理解与探索的相关工作。一方面对GAN模型的生成过程进行理解,探索了生成图像中物体与特定神经元(神经元组)之间的联系,实现了特定目标的增加与删除,并进一步介绍了生成规则的改写。另一方面从GAN模型的语义解耦与语义发现出发,介绍了通过对隐空间变量解耦控制生成结果某一种或几种属性的方法;同时,随着StyleGAN模型的提出,对StyleGAN隐空间的探索也成为重要的研究方向,本文从有监督、无监督、半监督等方面对相关工作进行了介绍。

在此基础上,本文讨论了现有方法在编辑、复原等任务的应用。如图像插值、属性与风格迁移、图像融合、属性编辑、图像变换与对齐等编辑应用,其大多利用了GAN模型的属性解耦能力;以及图像超分辨率、图像去噪、图像填充、图像上色、伪影去除等复原应用,则主要利用了GAN模型的高质量自然图像先验,从而生成高质量的结果。

最后,本文讨论了GAN模型与其他生成模型的联系与区别,对预训练GAN模型在高层视觉任务的应用进行了简要介绍,并讨论了目前仍面临的挑战性问题。

相关代码已开源:https://github.com/csmliu/pretrained-GANs

图片

文章信息

Ming LIU, Yuxiang WEI, Xiaohe WU, Wangmeng ZUO & Lei ZHANG. Survey on leveraging pre-trained generative adversarial networks for image editing and restoration. Sci China Inf Sci, doi: 10.1007/s11432-022-3679-0

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论