当前位置:   article > 正文

深度学习之生成对抗网络(4)GAN变种_生成对抗网络gan变种历史

生成对抗网络gan变种历史


 在原始的GAN论文中,Ian Goodfellow从理论层面分析了GAN网络的收敛性,并且在多个经典图片数据集上测试了图片生成的效果,如下图所示,其中(a)为MNIST数据,(b)为Toronto Face数据集,(c)、(d)为CIFAR10数据集。

在这里插入图片描述

原始GAN图片生成效果[1]


 可以看到,原始GAN模型在图片生成效果上并不突出,和VAE差别不明显,此时并没有展现出它强大的分布逼近能力。但是由于GAN在理论方面较新颖,实现方面也有很多可以改进的地方,大大地激发了学术界的研究兴趣。在接下来的数年里,GAN的研究如火如荼的进行,并且也取得了实质性的进展。接下来我们将介绍几个意义比较重大的GAN变种。


1. DCGAN

 最初始的GAN网络主要基于全连接层实现生成器G和判别器D网络,由于图片的维度较高,网络参数量巨大,训练的效果并不优秀。DCGAN[2]提出了使用转置卷积层实现的生成网络,普通卷积层来实现的判别网络,大大地降低了网络参数量,同时图片的生成效果也大幅提升,展现了GAN模型在图片生成效果上超越VAE模型的潜质。此外,DCGAN作者还提出了一系列经验性的GAN网络训练技巧,这些技巧在WGAN提出之前被证实有益于网络的稳定训练。前面我们已经使用DCGAN模型完成了二次元动漫头像的图片生成实战。


2. InfoGAN

 InfoGAN[3]尝试使用无监督的方式去学习输入 x \boldsymbol x x的可解释隐向量 z \boldsymbol z z的表示方法(Interpretable Representation),即希望隐向量 z \boldsymbol z z能够对应到数据的语义特征。比如对于MNIST手写数字图片,我们介意认为数字的类别、字体大小和书写风格等是图片的隐藏变量,希望模型能够学习到这些分离的(Disentangled)可解释特征表示方法,从而可以通过认为控制隐变量来生成指定内容的样本。对于CelebA名人照片数据集,希望模型可以把发型、眼镜佩戴情况、面部表情等特征分隔开,从而生成指定形态的人脸图片。

 分离的可解释特征有什么好处呢?它可以让神经网络的可解释性更强,比如 z \boldsymbol z z包含了一些分离的可解释特征,那么我们可以通过仅仅改变这一个位置上面的特征来获得不同语义的生成数据,如下图所示,通过将“戴眼镜男士”与“不戴眼镜男士”的隐向量相减,并与“不戴眼镜女士”的隐向量相加,可以生成“戴眼镜女士”的生成图片。

在这里插入图片描述

分离的特征示意图[3]

3. CycleGAN

 CycleGAN[4]是华人朱俊彦提出的无监督方式进行图片风格相互转换的算法,由于算法清晰简单,实验效果完成的较好,这项工作受到了很多的赞誉。CycleGAN基本的假设是,如果由图片A转换到图片B,再从图片B转换到 A ′ A' A,那么 A ′ A' A应该和A是同一张图片。因此除了设立标准的GAN损失项外,CycleGAN还增设了循环一致性损失(Cycle Consistency Loss),来爆炸 A ′ A' A尽可能与A逼近。CycleGAN图片的转换效果如下图所示:

在这里插入图片描述

图片转换效果[4]

4. WGAN

 GAN的训练问题一直被诟病,很容易出现训练不收敛和模式崩塌的现象。WGAN[5]从理论层面分析了原始的GAN使用JS散度存在的缺陷,并提出了可以使用Wasserstein距离来解决这个问题。在WGAN-GP[6]中,作者提出了通过添加梯度惩罚项,从工程层面很好地实现了WGAN算法,并且实验性证实了WGAN训练稳定的优点。


5. Equal GAN

 从GAN的诞生至2017年底,GAN Zoo已经收集了超过214种GAN网络变种。(数据来自http://www.sohu.com/a/207570263_610300)这些GAN的变种或多或少地提出了一些创新,然而Google Brain的几位研究院在[7]论文中提供了另一个观点:没有证据表明我们测试的GAN变种算法一直持续地比最初始的GAN要好。论文中对这些GAN变种进行了相对公平、全面的比较,在有足够计算资源的情况下,发现几乎所有的GAN变种都能达到相似的性能(FID分数)。这项工作提醒业界是否这些GAN变种具有本质上的创新。


6. Self-Attention GAN

 Attention机制在自然语言处理(NLP)中间已经用得非常广泛了,Self-Attention GAN(SAGAN)[8]借鉴了Attention机制,提出了基于自注意力机制的GAN变种。SAGAN把图片的逼真度指标:Inception score,从最好的36.8提升到52.52,Frechet Inception distance,从27.62降到18.65。从图片生成效果上来看,SAGAN取得的突破是十分显著的,同时也启发业界对自注意力机制的关注。

在这里插入图片描述

SAGAN中采用的Attention机制[8]

7. BigGAN

 在SAGAN的基础上,BigGAN[9]尝试将GAN的训练扩展到大规模上去,利用正交正则化等技巧保证训练过程的稳定性。BigGAN的意义在于启发人们,GAN网络的训练同样可以从大数据、大算力等方面受益。BigGAN图片生成效果达到了前所未有的高度:Inception score记录提升到166.5(提高了52.52);Frechet Inception Distance下降到7.4,降低了18.65,如下图所示,图片的分辨率可达512×512,图片细节及其逼真。

在这里插入图片描述

BigGAN生成图片样例

参考文献

参考文献:
[1] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville 和 Y. Bengio, “Generative Adversarial Nets,” 出处 Advances in Neural Information Processing Systems 27, Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence 和 K. Q. Weinberger, 编辑, Curran Associates, Inc., 2014, pp. 2672-2680.
[2] A. Radford, L. Metz 和 S. Chintala, Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015.
[3] X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever 和 P. Abbeel, “InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,” 出处 Advances in Neural Information Processing Systems 29, D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon 和 R. Garnett, 编辑, Curran Associates, Inc., 2016, pp. 2172-2180.
[4] J.-Y. Zhu, T. Park, P. Isola 和 A. A. Efros, “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks,” 出处 Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
[5] M. Arjovsky, S. Chintala 和 L. Bottou, “Wasserstein Generative Adversarial Networks,” 出处 Proceedings of the 34th International Conference on Machine Learning, International Convention Centre, Sydney, Australia, 2017.
[6] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin 和 A. C. Courville, “Improved Training of Wasserstein GANs,” 出处 Advances in Neural Information Processing Systems 30, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan 和 R. Garnett, 编辑, Curran Associates, Inc., 2017, pp. 5767-5777.
[7] M. Lucic, K. Kurach, M. Michalski, O. Bousquet 和 S. Gelly, “Are GANs Created Equal? A Large-scale Study,” 出处 Proceedings of the 32Nd International Conference on Neural Information Processing Systems, USA, 2018.
[8] H. Zhang, I. Goodfellow, D. Metaxas 和 A. Odena, “Self-Attention Generative Adversarial Networks,” 出处 Proceedings of the 36th International Conference on Machine Learning, Long Beach, California, USA, 2019.
[9] A. Brock, J. Donahue 和 K. Simonyan, “Large Scale GAN Training for High Fidelity Natural Image Synthesis,” 出处 International Conference on Learning Representations, 2019.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/641586
推荐阅读
相关标签
  

闽ICP备14008679号