赞
踩
这篇论文的全称为:《Conditional Image Synthesis with Auxiliary Classifier GANs》,基于辅助分类器GANs的条件图像合成,在很多时候,它和SGAN一样经常被人们称为半监督学习,因为会用到图片的类别标签;ACGAN同时结合了CGAN和SGAN的做法来提高图片的生成质量,即CGAN通过结合标签信息来提高生成数据的质量,SGAN通过重建标签信息来提高生成数据的质量。在我看来,(1)ACGAN的提出在很大程度上解决了GAN模型崩溃的问题,所谓GAN的模型崩溃是指通过生成单一的样本来骗过判别器,这听起来蛮糟糕的,因为我们知道GAN其中一个最大的用途用来做数据增强。(2)ACGAN可以生成高分辨率的图片,注意不是将低分辨率的图片进行简单的线性插值而生成高分辨率的图片,作者还提出了2个指标来佐证这一点。
从上面这个结构图更容易看出ACGAN结合了CGAN和SGAN的做法,很形象也很直观。在ACGAN中,主要是在原CGAN的基础上,对判别器的输入进行改变,不仅要输出图片的真假信息,同时还对应一个分类器来判断输入图片所属的类别,对应类别的损失会告诉判别器和生成器往着目标类别生成图片。
D被训练为使
在这部分,作者做了很多的实验,如果去看论文,你会发现有很大的篇幅在阐述实验;总的来说,主要包含以下几个部分:
如何评价一个生成模型生成图片的分辨率,最简单的方法无非就是直观用眼睛来看,但这样显然无法量化一个图片的好坏,于是作者提出使用一个分类器,若生成的图片具有较高的分类正确率,我们就有理由认为生成的图片质量比较高,也即该图片具有较高的可分辨性,如上所述,生成高分辨率的图片,需要不是简单的将低分辨率的图片进行线性插值来生成,因而要量化的分析生成的图片的质量,可以从其分辨力。从低分辨率通过插值生成的高分辨率图片,其本质上没有增加多余信息,只是低分辨率的模糊版。结合这样的思路,高分辨率的图片提供了更多的信息,这些信息结合到AC-GAN结构,每个生成图片都有其对应的标签,因而这个更多的信息,可以通过分类来表明,也就是说更多的信息,可以用于分类,也就是文中所说的分辨力。因此,文中采用了Inception网络对于生成的图片进行分类,查看其被分类为正确类别的比率,以此来判定生成的图片质量。下图中,最上面给出了真实图片和基于ACGAN生成图片,可以明显感觉图片高分辨率对应高可分辨性;图中左下的图,黑色的线,是真实图片,因而其达到的准确率可以说是生成图片的准确率的上限,红色的线表示的是生成的
GAN有个最常见的问题就是模式坍塌的问题,就是模型找到一种方式,无论输入的内容是什么,生成的图片都只有一种,然而这种图片能大概率欺骗过分辨器。因而,产生的图片具有多样性,也是可以评估GAN模型好坏的指标。文中采用了图片的多尺度结构相似度来衡量图片与图片之间的相似度(multi-scale structural similarity,MS-SSIM),这个相似度在0和1之间取值,越大说明图片之间越相似;提及MS-SSIM的时候,往往也要提及SSIM,来看看它们具体是怎么计算的。
SSIM:
SSIM的全称为structural similarity index,即为结构相似性,是一种衡量两幅图像相似度的指标。
关于图像的均值、方差、协方差计算公式,看这篇博客即可,也很简单。
MS-SSIM:
其中L(X,Y)L(X,Y)是亮度对比因子,C(X,Y)C(X,Y)是对比度因子,S(X,Y)S(X,Y)是结构对比因子,计算公式同上。
文中在一个给定类中取图片对,计算两者之间的MS-SSIM,如果图片多样性程度越高,那么这个MS-SSIM的分数应该越低。ImageNet的训练数据的平均MS-SSIM值最高的为0.25,这部分的实验结果如下图所示,图中左下角的图,图中每个点代表一个类,分别对应训练数据和生成数据的MS-SSIM的数值,蓝色的线依旧为
下图显示了Inception初始精度和MS-SSIM分数在所有类中的联合分布。初始精度和MS-SSIM是反相关的(r2=−0.16)。事实上,74%的低多样性类(MS-SSIM≥0.25)包含初始精度≤1%。相反,78%的高多样性类(MS-SSIM<0.25)的初始精度超过1%。相比之下,incep -v3模型在所有1000个类中平均达到了78.8%的准确率。这些结果表明,GANs最有可能产生低质量的图像。这与一个关于GANs的流行假设形成了鲜明的对比,即GANs以牺牲可变性为代价来获得高样本质量。我们希望这些发现能够帮助我们进一步研究GANs和其他图像合成模型之间样本质量差异的原因。
在探索AC-GAN是否存在过拟合的实验中,文中提出了两种思路,第一种思路是比较L1距离最近的生成的图片(下图左一),看起是否类似于训练的数据,从而判定是否存在过拟合,给出的实验结果图比较,依旧是人为的评定是否相似。除此方法之前,文中提出了线性插值噪声z和类标签c,查看其变化(下图右一),其认为如果是过拟合的模型,那么产生的图片在插值的输入面前会发生图片,结果依旧需要认为判断,不过这样判断是否发生突变会比之前的容易。
注:实验部分大量挪用了这篇博客,博客里写的还是挺详细的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。