当前位置:   article > 正文

图像生成基础

图像生成

图像生成

1 判别式模型与生成式模型

判别式模型∶已知观察变量X和隐含变量z,它对p(z|X)进行建模,它根据输入的观察变量x得到隐含变量z出现的可能性:根据原始图像推测图像具备的一些性质,例如根据数字图像推测数字的名称等;
生成式模型则相反,它对p(X|z)进行建模,输入是隐含变量,输出是观察变量的概率:通常给出的输入是图像具备的性质,而输出是性质对应的图像。

2 生成模型

在这里插入图片描述

3 VAE

3.1 经典的自编码

左侧把原始图像编码卷积(编码)成向量;解卷积层则能把这些向量"解码"回原始图像
可以用尽可能多的图像来训练网络,如果保存了某张图像的编码向量,我们随时就能用解码组件来重建该图像。
在这里插入图片描述

问题∶潜在向量除了从已有图像中编码得到,能否凭空创造出这些潜在向量来?
简单的办法∶给编码网络增加一个约束,使它所生成的潜在向量大体上服从单位高斯分布。生成新的图像、服从高斯分布
在这里插入图片描述

3.2 误差精确度

误差项精确度与潜在变量在单位高斯分布上的契合程度,包括两部分内容∶
生成误差,用以衡量网络重构图像精确度的均方误差;
潜在误差,用以衡量潜在变量在单位高斯分布上的契合程度的KL散度。
总的目标函数∶
在这里插入图片描述

3.3 VAE全过程

在这里插入图片描述

3.4 VAE的优点与不足

优点∶遵循编码-解码"模式,能直接把生成的图像同原始图像进行对比。
不足∶ 由于它是直接采用均方误差,其神经网、络倾向于生成较为模糊的图像。
在这里插入图片描述

4 GAN

4.1 VAE与GAN

在这里插入图片描述

4.2 结构

生成器、判别器
在这里插入图片描述

让第一代G产生一些图片,然后把这些图片和一些口卞
真实的图片丢到第一代的D里面去学习,让第一代的D能够分辨生成的图片和真实的图片。
然后训练第二代的G,第二代的G产生的图片,能口
够骗过第一代的D,再训练第二代的D,依此迭代。
在这里插入图片描述

4.3 训练过程

绿线:生成器的数据分布
黑线:真实数据分布
蓝线:判别器的结果分布
在这里插入图片描述

4.4 问题及挑战

训练困难:
收敛问题∶很难达到纳什均衡点● 无法有效监控收敛状态
模型崩溃(Model collapse):
判别器快速达到最优,能力明显强于生成器
生成器将数据集中生成在判别器认最认可的空间点上,即输出多样性很低
不适用于离散输出(不可微分):文本生成。’

4.5 DCGAN

为GAN的训练提供了一个适合的网络结构
表明生成的特征具有向量的计算特性:特征可以进行“加减”运算
在这里插入图片描述

4.6 CGAN

GAN中输入是随机的数据,那么很自然就会想到能否用输入改成一个有意义的数据?
最简单的就是数字字体生成,能否输入一个数字,然后输出对应的字体。这就是CGAN思路。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/932241
推荐阅读
相关标签
  

闽ICP备14008679号