赞
踩
论文: https://arxiv.org/abs/1812.04948
首先回顾GAN在做的事:
一般来说实验上做的图片大小都是28、128、256等小尺寸的图片,现在我们要做是让 GANs 能生成高质量的大图像(1024*1024)。 这是一件有挑战性的事情因为在一个彩色的 1024*1024 大小的图片空间中, 总共存在的图片样本点为个(图片深度为 3,像素值为 0-255),而现在我们要让 GANs 学会在这样一个庞大的图片空间中找出真实图片的分布区域,并且建立一个从简单分布到这一复杂分布的转换,任务量无疑是巨大的。
一个比较自然的想法是由小至大,逐级生成。也就是,先使用非常低分辨率的图像(如:4×4)开始训练生成器和判别器,并且逐次增加一个更高分辨率的网络层,直到最后能产生一个具有丰富细节的高清图片。基于这一想法,ProGAN(渐进式生成对抗网络)诞生了。ProGAN是styleGAN的前身。
《Progressively Growing of GANs》论文解读_HHzdh的博客-CSDN博客
特别值得注意的是,上图 Generator 中的网络结构不是指的从 4*4 网络连接到 8*8 网络,再连接到 16*16 网络依次输出,而是指的从 4*4 网络变化到 8*8 网络,再变化到 16*16 网络。也就是说,Generator 内部的网络只有一个,但是在训练过程中网络的结构是在动态变化的。事实上,前面那种依次连接的网络模型叫做 StackGAN,但是 StackGAN 不适合用来做超清图片生成,因为会特别慢。
由于 ProGAN 是逐级直接生成图片,我们没有对其增添控制,我们也就无法获知它在每一级上学到的特征是什么,这就导致了它控制所生成图像的特定特征的能力非常有限。换句话说,这 些特性是互相关联的,因此尝试调整一下输入,即使是一点儿,通常也会同时影响多个特性。 我们希望有一种更好的模型,能让我们控制住输出的图片是长什么样的,也就是在生成图片过程中每一级的特征,要能够特定决定生成图片某些方面的表象,并且相互间的影响尽可能小。于是,在 ProGAN 的基础上,StyleGAN 作出了进一步的改进与提升。
StyleGAN受风格迁移style transfer启发而设计了一种新的生成器网络结构。新的网络结构可以通过无监督式的自动学习对图像的高层语义属性做一定解耦分离,例如人脸图像的姿势和身份、所生成图像的随机变化如雀斑和头发等。也可以做到一定程度上的控制合成。
为了量化插值质量和解纠缠度,还提出了两种计算方法。最后,还介绍一个新的、高度多样化和高质量的人脸数据集。
GAN所生成的图像在分辨率和质量上都得到了飞速发展,但在此之前很多研究工作仍然把生成器当作黑箱子,也就是缺乏对生成器进行图像生成过程的理解,例如图像多样性中的随机特征是如何控制的,潜在空间的性质也是知之甚少。
受风格迁移启发,StyleGAN重新设计了生成器网络结构,并试图来控制图像生成过程:生成器从学习到的常量输入开始,基于潜码调整每个卷积层的图像“风格”,从而直接控制图像特征;另外,结合直接注入网络的噪声,可以更改所生成图像中的随机属性(例如雀斑、头发)。StyleGAN可以一定程度上实现无监督式地属性分离,进行一些风格混合或插值的操作。
提出了一个新的人脸数据集(Flickr-Faces-HQ, FFHQ),它比现有的高分辨率数据集提供了更高的质量,覆盖了更广泛的变化。
(1)StyleGAN的第一点改进是,给Generator的输入加上了由8个全连接层组成的Mapping Network,并且 Mapping Network 的输出
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。