ECCV 2022|BigColor:利用生成先验给自然图片上色

本文提出了一种利用生成先验的上色方法 BigColor,可为具有复杂结构的各种野外图像提供生动的着色。使用空间特征图而不是空间扁平化的 BigGAN 潜在码,扩大了表示空间。可以在单个前向传递中为不同的输入实现稳健的着色。通过鉴别器联合优化编码器-生成器模块可以先学习生成颜色,生成器专注于在提取的空间结构特征之上合成颜色。以定性和定量的方式广泛评估证明 BigColor 优于现有的最先进方法。

来源:ECCV 2022
作者:Geonung Kim, Kyoungkook Kang 等
论文链接:https://kimgeonung.github.io/assets/bigcolor/bigcolor_main.pdf
项目链接:https://github.com/KIMGEONUNG/BigColor
内容整理:王寒

引言

生成先验可以提供逼真和生动的着色。然而,由于表示空间有限,这种生成先验对于野外复杂图像往往会失败。在本文中,我们提出了 BigColor,是一种新颖的着色方法,可为具有复杂结构的各种野外图像提供生动的着色。不同于之前相关研究使用生成先验训练合成图像结构和颜色的做法,本文提出了一种生成先验,在给定图片空间结构的条件下专注于色彩合成。通过这种方式,减少了从生成先验合成图像结构的负担,并扩展了它的表示空间以覆盖不同的图像。为此,本文提出了一个基于 BigGAN 启发的编码器生成器网络,它使用空间特征图而不是空间扁平化的 BigGAN 潜在码,从而扩大了表示空间。我们的方法可以在单个前向传递中为不同的输入实现稳健的着色,支持任意输入分辨率,并提供多模态着色结果。实验证明 BigColor 明显优于现有方法,尤其是在具有复杂结构的野外图像上。

网络结构

BigColor 由一个类编码器和预训练 BigGAN 生成器细化层(Fine Layers of Pretrained BigGAN)组成,其网络结构如下图所示。

图片

整个网络是一个编码-生成结构,编码器 E 从输入的灰度图片 X估计一个空间特征图 f,生成器 G 从这个特征图中合成彩色图片 Xrgb 。不同于传统的基于 GAN 的上色方法,该方法不依赖 BigGAN 的扁平空间潜在编码,而是利用了有更多维度的空间特征图。为了利用 BigGAN 对图片合成的效果,在编码器 E 和生成器 G 中使用了 BigGAN 生成器中的 fine-scale 层。

编码器

为了生成空间特征图,根据 BigGAN 生成器的逆过程设计编码器,如下图所示。

图片

图中橙色框内是一个编码块,整个编码器由 5 个这样的块组成。第一个和最后一个编码块分别没有平均池化和 dropout。编码块在类别 c 的约束下提取空间特征:

ECCV 2022|BigColor:利用生成先验给自然图片上色

关键思想是使用空间特征图作为潜在编码,而不是 BigGAN 的空间扁平化潜在编码,从而有效地传递输入图像的结构信息。此外,前馈中使用的类别标签可以由现成的分类器估计或由用户指定。

生成器

和编码器类似,使用预训练的 BigGAN 生成器的细化层来设计和初始化 G。生成器通过给定的空间特征 f 和灰度图 Xg 给出合成的色彩:

ECCV 2022|BigColor:利用生成先验给自然图片上色

其中类别向量 c 和随机向量 z 拼接到一起作为原 BigGAN 生成器的结构的输入。通过从正态分布采样的随机向量 z 来实现多模态上色,多模态仅作用于生成器,不会参与特征提取。为了保留高频空间细节,用灰度图的亮度代替了生成的 Xrgb 的亮度(使用 LAB 图片格式)。

参数优化

编码-生成的损失函数由三部分构成:

ECCV 2022|BigColor:利用生成先验给自然图片上色

实验及结果

训练策略

受到对抗学习的启发,使用了预训练的 BigGAN 鉴别器 D。联合训练编码器 E,生成器 G 和鉴别器 D。训练数据使用去除 10% 原始色彩较差的图片后的 ImageNet-1K 训练集,使用传统线性组合的方式生成灰度图。

上色效果

图片

首先上图在复杂的野外图片上色上与其他上色算法做了定性对比,与其他方法相比 BigGAN 生成的色彩更加生动自然,不饱和和不自然的情况较少。

图片

然后使用 colorfulness,FID 和分类准确性三项指标进行定量比较。上表展示了定量测试的结果,粗体和下划线的分数是最好的和第二好的结果,BigColor 以显著优势领先于其他工作。(Aug. 表示颜色增强方案)

此外还进行了鲁棒性研究,下表对比了复杂场景和整体场景下分类准确度和算法性能的降低情况。在分类准确度和图片表现上鲁棒性较好,可以认为BigGAN能够为复杂图片提供稳定的色彩合成。

图片

下图展示了部分图片的多模态上色效果,可以看到该算法可以给出多种合理的色彩。

图片

来源:媒矿工厂。第一时间发布最新最有料的媒体技术资讯。倡导极客、创客精神,促进学术界、工业界以及开源社区共享信息、交流干货、发掘价值。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论