CVPR 2019｜用于 GAN 的风格化生成架构

现在越来越多的 AI 平台或应用程序使用生成对抗网络 (GAN) 来执行大量任务。与简单的 GAN 设计不同，本文将构建一个基于样式的具有惊人特性的 GAN 模型。文件中将从一般 GAN 的原理开始，然后介绍如何在网络中设计生成器（generator)，通过分离潜在代码和添加噪声来实现对特征的控制。本文模型的一个关键点是图像的内容表示和风格表示在卷积神经网络中是可分离的。也就是说，我们可以独立地操纵这两种表示来生成新的具有感知意义的图片。对于本文的模型，其使用基于感知的成对图像距离，该距离计算为两个 VGG16 嵌入之间的加权差异。通过将潜在空间插值路径划分为线性段，本文将分段路径的总感知长度定义为每个段之间的感知差异之和，由图像距离度量确定。在文章的模型中，基于样式的生成器是一种图像生成架构，旨在通过使用样式修改来控制图像的合成。模型具有风格混合的重要部分，涉及在单个图像的合成中组合多种风格。

题目：A Style-Based Generator Architecture for Generative Adversarial Networks
来源：CVPR 2019
作者：Tero Karras, Samuli Laine, Timo Aila et al.
文章地址：https://openaccess.thecvf.com/content_CVPR_2019/html/Karras_A_Style-Based_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.html
内容整理：胡玥麟

背景介绍

近日，一款名为 NovelAI 的 AI 平台突然在网络上火了起来。在这个 AI 平台上，人们可以自由导入一些拍摄或绘制的图片，将自己想要得到的图片的一些特征制定出来，然后平台就可以根据输入的图片输出一批质量更高的动漫图片。随着人工智能技术的发展，传统的机器学习和神经网络被用于执行范围广泛的自动化任务。从最简单的图像分类到越来越复杂的项目，例如车辆路线规划和物体的 3D 重建，AI 正在各个领域发挥其优势。终于，人工智能踏上了“创造力”的领域。生成对抗网络 (GAN) 的引入在深度学习社区引起了轩然大波，直到今天，GAN 的各种变体，如上面提到的 NovelAI，都具有强大的基于未标记数据进行无监督学习的能力，并有有趣的应用：图像生成、去噪、缺陷图像的修复、现有图像的质量增强等。NovelAI 能够生成与用户选择的特征相对应的图像的想法最初来自一个曾经被称为 style- 的模型 GAN 用于生成具有不同特征的肖像。在本文中，我们将尝试重现 style-GAN 的构建和训练，以生成具有选定特征的高质量人像图像。

GAN的原理

GAN 的起源是 Ian Goodfellow 在 2014 年（2020年）发表的一篇文章。（我们在这里引用的文章是 2020 年原始文章的重新发布版本。）GAN 主要由判别器和生成器组成。原理很简单就是生成器用来生成假图片，而鉴别器用来判断图片是否生成。所以整个过程就是生成器试图用它的假图像来愚弄鉴别器，而鉴别器自我进化以筛选生成器的假图像。训练的重点是在两者之间取得平衡，而正确构建生成器和足够的图像来训练网络是获得高质量结果的前提。还值得一提的是，生成器的输入不是训练图像的第一印象，而是内部图像特征的向量，称为潜在代码。该潜在代码是通过使用编码器转换图像获得的。一个好的潜在代码表示可以极大地简化复杂图像的结构，同时保留大部分需要减少到原始图像的特征。

大多数 GAN 优化包括通过使用多个鉴别器或专门的参数调整等增强鉴别器的训练；生成器端的改进主要是一系列操作来适应或修改输入潜在代码空间的分布。然而，大多数网络直接使用隐藏代码作为生成器的输入，这将导致生成的图像更多地服从隐藏代码的分布，而缺乏尝试将隐藏代码输入不同部分的生成器的不同部分。更重要的是，大多数 GAN 生成的图像都不是很详细，尽管它们有多种样式，并且生成它们的方式也不是那么自由以至于无法更改和微调 GAN 生成的结果通过一些相对简单的操作来建立网络，而结果在很大程度上受到训练数据特征的限制（例如，更多的相同种族输出有利于该种族）。此外，模型经常遇到收敛困难。在复现风格GAN的过程中，文章主要修改生成器，使用中间潜码，噪声引入等方式来解决这些问题。

论文方法

基于风格的 GAN 设计

整个网络结构如上图所示。与将潜在代码直接馈送到网络的传统 GAN 不同，这种用于样式/特征生成的 GAN 将常数作为生成网络的输入，并将潜在代码馈送到单独的全连接网络f。这个映射网络f是一个非线性映射网络，一共有8个全连接层，通过它设置latent code为 z ∈ Z，Z是一开始的latentspace，最终可以映射到 w ∈ W，其中W在这里称为中间潜在空间。经过一个学习仿射变换操作（此处为A）后，这个中间潜码w最终通过自适应实例归一化（AdaIN）被送入生成器的每个卷积层，以控制网络输出。在每次卷积操作之后，服从高斯分布的噪声被添加到网络中。在被馈送之前，噪声由一个缩放其不同通道的模块处理。（B这里）合成网络g持有18个卷积层（每个分辨率两个，从4×4到1024×1024），其最后一层的输出被转换为具有1×1卷积层的图片（Tero Karras, Samuli Laine & Timo 艾拉，2019）。

从中我们可以看到每个特征x_i首先被归一化，然后通过样式 y 的相关部分进行缩放和偏置。 y 的维度是它控制的层上 x 的数量的两倍。与风格迁移 (X. Huang & S. J. Belongie, 2017) 中的工作相比，从示例图像中提取风格，这里我们从向量 w 中获取风格 y。由于 AdaIN 的高效和紧凑表示，它最终更适合我们向网络添加样式的工作。我们可以使用一个或两个中间潜代码，以不同的网络分辨率输入 AdaIN 模块，控制输出图像的风格，或者从一种风格迁移和混合到另一种风格。这项工作的另一个核心特征是，可以通过具有显式噪声输入的生成器来实现随机细节的直接生成。如果我们向合成网络的每一层提供一个专用的噪声图像，那么噪声图像将使用模块 B 进行缩放，广播到每一层的所有特征图，最后添加到后续卷积的输出中。在不同分辨率下添加样式或噪声将最终控制不同规模的特征。设计的生成器比传统生成器（总共有 23M 个参数）多了 3M 个可训练参数。可以看出网络并没有增加多少复杂度。

训练和测试集的数据收集

文章从一个名为 Flickr-Faces-HQ (FFHQ) 的开源人脸数据集中收集了数据集（Tero Karras、Samuli Laine 和 Timo Aila.A，2019）。该数据集包含 70,000 张分辨率为 1024×1024 的高质量图像。它有利于网络的训练，因为它的数据在年龄、种族和图像背景方面差异很大，而且对眼镜、太阳镜、帽子等配件的覆盖也更好，有助于识别特征更精细的肖像，并生成更高质量的图片。

数据可视化

在这里，文章从随机生成的图片中挑选了一些示例。我们可以看到图片的质量非常好，如果不仔细观察图片的一些细节，往往很难将其与真实图片区分开来。配件（眼镜、帽子……）的生成被证明是成功的，这有助于验证我们使用的 FFHQ 数据集的高质量。尽管如此，一些细节如手指和背景中的东西仍然可以被错误地生成，这在各种 GAN 中一直是一个问题。这个问题有时可以通过使用更多数据和良好的噪声生成输入进行训练来解决。

在关于开发风格 GAN 的文章中（Tero Karras、Samuli Laine 和 Timo Aila.A，2019），他们使用一种称为 Fréchet 初始距离（FID）的度量来评估生成器的质量。他们的表格显示，使用这种网络架构，在长时间和大量数据的情况下，网络生成的图像的平均质量明显优于典型的生成器（Baseline Progressive GAN）。数据表明，通过在生成器中慢慢添加映射样式、用常量替换传统输入、添加噪声输入等，生成器每增加一个新的特征，FID分数都会提高一定量，最终成功优化了原来的 FID 为 8.04 至 4.40（此标准得分越低，生成的图像质量越高），这是一个很好的结果。

感知路径长度的定义和函数

感知路径长度是图像在生成模型的潜在空间中插值时变化程度的度量。潜在空间是指可用于生成图像的可能样式的空间。潜在空间中的插值涉及从一种样式平滑地移动到另一种样式，并且感知路径长度是在发生这种插值时生成的图像中变化程度的度量。该度量可用于评估生成图像的质量，并有助于识别潜在空间的区域，在这些区域中，风格的变化会导致生成图像发生或大或小的变化。感知路径长度是分析和改进基于样式的图像生成模型性能的有用工具。

本文使用基于感知的成对图像距离计算为两个 VGG16 嵌入之间的加权差异。选择权重以使度量与人类对相似性的感知保持一致。通过将潜在空间插值路径划分为线性段，本文将分段路径的总感知长度定义为每个段之间的感知差异之和，由图像距离度量确定。在实践中，我们通过对潜在空间中所有可能的端点进行平均来近似总感知长度，而不是考虑在无限精细细分下该总和的极限。这使我们能够近似潜在空间中的平均感知路径长度：

其中 U(0,1) ,G是生成器，评估生成图像之间的感知距离。球面插值或 slerp 用于在归一化输入潜在空间中进行插值。为了关注面部特征而不是背景，本文在评估成对图像度量之前裁剪生成的图像以仅包含面部。这使这个模型在计算感知路径长度时可以专注于面部特征而不是背景。

结果与讨论

内容和风格分离

这些合成图片继承了各种艺术图片的不同艺术风格，同时保留了原始照片的全局排列。风格表示是多级表示，包括多层神经网络结构。当样式表示仅包含少量低级结构时，样式会变得更加本地化，从而产生不同的视觉效果。当风格表示由网络的高层结构表示时，图像的结构将在更大范围内匹配这种风格，从而产生更流畅和连续的视觉体验。

将全局效应与随机性分离

全局效果与随机性的分离是一些生成模型（包括基于样式的图像生成模型）的一个属性，它可以在生成图像中控制全局效果，同时保持一定程度的随机性。全局效果是指影响生成图像整体外观的变化，例如光照或配色方案的变化。随机性是指生成图像的随机性或不可预测性。将全局效应与随机性分开可以控制生成图像的整体外观，同时仍保持一定程度的随机性和多样性。此属性可用于生成具有特定所需全局效果的各种不同图像。

在基于样式的生成器中，样式通过完整特征图的缩放和偏置影响整个图像。这允许对全局效果进行连贯控制，例如姿势、照明和背景样式。噪声被独立地添加到每个像素，使其成为控制随机变化的理想选择。

论文的模型收敛

该图说明了在使用 FFHQ 数据集训练配置 B 和 F 期间 FID 和感知路径长度度量的演变。由于 R1 正则化在两种配置中都处于活动状态，FID 随着训练的进行逐渐减少，导致模型论文将训练时间从 1100 万张图像增加到 2700 万张图像。即使训练达到 11362 的全分辨率，缓慢增加的路径长度表明 FID 的改进是以更纠缠的表示为代价的。在未来的工作中值得考虑这种权衡是否不可避免，或者是否有可能在不影响 FID 收敛的情况下促进更短的路径长度。