赞
踩
下面首先对 GAN 进行简要的介绍,然后整理了我自己在 GAN 的设计网络结构、调整参数等方面的经验。
GAN 是一种生成模型,由知名的学者 Ian Goodfellow 首先提出,并给出了实验结果和理论推导
链接: https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf 。
它以造假币为例对 GAN 的工作原理进行解释,生成器(Generator)就像造假币的人,判别器(Discriminator)就像警察,原始数据的分布类比于真钱,生成的数据分布类比于假钱。
造假币的人不断模仿真钱去造假币,造出来的钱混入真钱一同交给警察去判断。造假币的人的目的是让自己造出来的假币不断逼近于真钱,而警察既需要认出假钱、又不能冤枉真钱。
两者以此方式,不断地对抗提升自己造假和打假的能力,最终理想的结果是使得造假币的人能造出几乎无法辨识的假钱成功迷惑警察。
训练不稳定,损失值波动幅度大
判别器收敛迅速,损失值快速降到零
生成器无能为力,损失函数不断增大
刚开始你可能会认为损失函数对结果会产生较大的影响,但是实践证明,一般来说其对结果的影响一般并没有你想象的那样大。
因此,对于 GAN 理论入门不久,正在打开实践大门的人,我的建议是选择最简单的损失函数就可以开始实验了。
因为后续还有好多事情值得你去头疼,微调损失函数可以留到最后一步再考虑。
当GAN生成的图像不够准确、清晰时,可尝试增加卷积层中的卷积核的大小和数量,特别是初始的卷积层。
卷积核的增大可以增加卷积的视野域,平滑卷积层的学习过程,使得训练不过分快速地收敛。
增加卷积核数(特别是生成器),可以增加网络的参数数量和复杂度,增加网络的学习能力。
但同时也可能存在,增加生成器的模型 capacity 但是对于它快速被判别器打败的事实无济于事的情况,每个人都使用不同的模型和数据,会有不同的情况,需要具体问题具体分析。
如果使用的是真实数据标签为1,生成数据标签为0的分配方法,可将其交换为真实数据标签为0,生成数据标签为1。
这个小技巧会帮助网络在早期快速进行梯度计算,帮助稳定训练过程。
此外,还可使用软标签和带噪声的标签。
所谓软标签指不是使用0和1作为标签,而是使用和0或1接近的小数来标记,这样会减弱梯度的传播速度,稳定训练。
而使用带噪声的标签指对少数的标签进行随机的扰动,这也是一个帮助训练的小技巧。
我在实践的过程中使用 batch normalization ,发现对结果的提升具有明显的帮助,它在每一层都对数据进行归一化,有利于防止数据发散,进而保护训练的过程与结果的稳定性。
对于一般的 GAN 模型和多分类问题,最好分次训练,一次只训练一个类别,以降低网络训练的难度并提高准确性。
而对于条件 GAN 等,比如可以将类比标签一同作为输入,以类别为先验条件的 GAN ,可适度增大训练的难度。
有时候我们会看到自己模型的损失函数在几个batch训练过后就停止波动了,但是这个时候先不要为了节省时间而提前停止训练,实践证明这个时候网络很可能仍然在不断地调整结构中。
有时候损失函数也可能突然出现很大的异常波动,这个时候也不要马上提前停止训练,多观察一会儿。
非常建议在训练的过程中,通过保存等方式不断记录当前时刻下的训练结果。通过对结果图像的观察分析来判断训练的过程,损失函数可能会一时蒙蔽双眼,结果应该不会。
因此除非损失马上收敛到接近于0,否则耐心地等待网络训练完再评估结果,调整网络结构和参数。
原论文中的 k 指每优化一次生成器的损失函数,优化判别器的损失函数 k 次。
但是在实验中,经常出现判别器迅速打败生成器的情况(即判别器的损失函数快速下降,生成器快速上升)。
于是常规的思路,就是增加生成器的训练次数。没训练一次判别器,训练k次生成器。这样可以增加生成器的学习次数,使得训练在开始时稍稳定。
然而实践证明,如果判别器真的比生成器强太多,这种调节k只是让结果崩溃来的晚一些。或者说只是相当于节省了少训练几次判别器的时间,稍稍提升了结果。
我个人不建议出问题就改k的习惯,还是应该从网络结构本身找问题所在才是治本的关键。
调整学习率是解决生成器崩溃的一剂良方。
当出现崩溃时,尝试降低学习率,可能会带来意想不到的效果。
与标签噪声相似,还可在数据中引入一定量的噪声,大多数情况下都能 work 。
WGAN论文提到过,若使用性能过好的判别器可能会使得判别器的损失函数在训练一开始就降到非常低,后续对抗无法继续进行,或者使得训练出来的生成器性能不够好。
链接:https://arxiv.org/abs/1903.06048
对于稳定训练帮助很大。
链接:https://arxiv.org/abs/1706.08500
对于生成器和判别器使用不同的学习率,看似简单的 trick 对结果的提升却有奇效。
链接:https://arxiv.org/abs/1802.05957
对卷积核使用Spectral Normalization,极力安利。
目前来看,正常的损失函数应该是:
训练初始,生成器和判别器的损失函数快速波动,但是大致都分别朝着增大或减小的方向。
趋于稳定后,生成器和判别器的损失函数在小的范围内做上下波动,此时模型趋于稳定。
[1] 链接:https://arxiv.org/pdf/1406.2661.pdf
[2] 链接:https://mp.weixin.qq.com/s?__biz=MzUzNTA1NTQ3NA==&mid=2247486336&idx=1&sn=57c9fe8324a1addd73016c2f9dad4db8&chksm=fa8a169dcdfd9f8b17a02ab37eba61fdb3a1d89f694eaf89e2159275a553efe81c848e9a597c&mpshare=1&scene=1&srcid=&sharer_sharetime=1564758935068&sharer_shareid=f48c6499a7bee75abed9252093ec8062&key=83b29471f317cf4cb4c43b8d6f0f7141528141839d921d9fa05354867868f61243968a92b031ba8d4867003242ab09f1ca621380db5b7bc77bfcab13dc9cc7a0960adac628f5a805694c9fef0468a345&ascene=1&uin=MjYxNDk4MjcwNg%3D%3D&devicetype=Windows+10&version=62060833&lang=zh_CN&pass_ticket=RHjQjboJdAJhysQNM17TfCzpyiuR4K3LIS%2FvyT9wAnt%2BBDxNq0hsDyAO0BNEjE6l
[3] 链接:https://towardsdatascience.com/10-lessons-i-learned-training-generative-adversarial-networks-gans-for-a-year-c9071159628
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。