2023面试高手

这个屌丝很懒，什么也没留下！

热门标签

深度学习进阶篇[8]：对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景_gan详解

作者：2023面试高手 | 2024-04-26 19:52:07

踩

gan详解

在这里插入图片描述
【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

在这里插入图片描述
专栏详细介绍：【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

本专栏主要方便入门同学快速掌握相关知识。后续会持续把深度学习涉及知识原理分析给大家，让大家在项目实操的同时也能知识储备，知其然、知其所以然、知何由以知其所以然。

声明：部分项目为网络经典项目方便大家快速学习，后续会不断增添实战环节（比赛、论文、现实应用等）

专栏订阅：深度学习入门到进阶专栏

对抗神经网络GAN基本概念简介：generative adversarial network

1.博弈论

博弈论可以被认为是两个或多个理性的代理人或玩家之间相互作用的模型。

理性这个关键字，因为它是博弈论的基础。我们可以简单地把理性称为一种理解，即每个行为人都知道所有其他行为人都和他/她一样理性，拥有相同的理解和知识水平。同时，理性指的是，考虑到其他行为人的行为，行为人总是倾向于更高的报酬/回报。

既然我们已经知道了理性意味着什么，让我们来看看与博弈论相关的其他一些关键词:

游戏:一般来说，游戏是由一组玩家，行动/策略和最终收益组成。例如:拍卖、象棋、政治等。
玩家:玩家是参与任何游戏的理性实体。例如:在拍卖会的投标人、石头剪刀布的玩家、参加选举的政治家等。
收益:收益是所有玩家在获得特定结果时所获得的奖励。它可以是正的，也可以是负的。正如我们之前所讨论的，每个代理都是自私的，并且想要最大化他们的收益。

2.纳什均衡

纳什均衡（或者纳什平衡），Nash equilibrium ，又称为非合作博弈均衡，是人工智能博弈论方法的“基石”。

所谓纳什均衡，指的是参与者的一种策略组合，在该策略上，任何参与人单独改变策略都不会得到好处，即每个人的策略都是对其他人的策略的最优反应。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

经典的例子就是囚徒困境：

**背景：**一个案子的两个嫌疑犯A和B被警官分开审讯，所以A和B没有机会进行串供的；

**奖惩：**警官分别告诉A和B，如果都不招供，则各判3年；如果两人均招供，均判5年；如果你招供、而对方不招供，则你判1年，对方10年。

**结果：**A和B都选择招供，各判5年，这个便是此时的纳什均衡。

从奖惩说明看都不招供才是最优解，判刑最少。其实并不是这样，A和B无法沟通，于是从各自的利益角度出发：

嫌疑犯A想法：

如果B招供，如果我招供只判5年，不招供的话就判10年；
如果B不招供，如果我招供只判1年，不招供的话就判3年；

所以无论B是否招供，A只要招供了，对A而言是最优的策略。

同上，嫌疑犯B想法也是相同的，都依据各自的理性而选择招供，这种情况就被称为纳什均衡点。

3.GAN生成器的输入为什么是噪声

GAN生成器Generator的输入是随机噪声，目的是每次生成不同的图片。但如果完全随机，就不知道生成的图像有什么特征，结果就会不可控，因此通常从一个先验的随机分布产生噪声。常用的随机分布：

高斯分布：连续变量中最广泛使用的概率分布；
均匀分布：连续变量x的一种简单分布。

引入随机噪声使得生成的图片具有多样性，比如下图不同的噪声z可以产生不同的数字：

4.生成器Generator

生成器G是一个生成图片的网络，可以采用多层感知机、卷积网络、自编码器等。它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。通过下图模型结构讲解生成器如何一步步将噪声生成一张图片：

1）输入：100维的向量；

2）经过两个全连接层Fc1和Fc2、一个Resize，将噪声向量放大，得到128个7*7大小的特征图；

3）进行上采样，以扩大特征图，得到128个14*14大小的特征图；

4）经过第一个卷积Conv1，得到64个14*14的特征图；

5）进行上采样，以扩大特征图，得到64个28*28大小的特征图；

6）经过第二个卷积Conv2，将输入的噪声Z逐渐转化为12828的单通道图片输出，得到生成的手写数字。

Tips：全连接层作用：维度变换，变为高维，方便将噪声向量放大。因为全连接层计算量稍大，后序改进的GAN移除全连接层。

Tips：最后一层激活函数通常使用tanh()：既起到激活作用，又起到归一作用，将生成器的输出归一化至[-1,1]，作为判别器的输入。也使GAN的训练更稳定，收敛速度更快，生成质量确实更高。

5.判别器Discriminator

判别器D的输入为真实图像和生成器生成的图像，其目的是将生成的图像从真实图像中尽可能的分辨出来。属于二分类问题，通过下图模型结构讲解判别器如何区分真假图片：

输入：单通道图像，尺寸为28*28像素(非固定值，根据实际情况修改即可)。
输出：二分类，样本是真或假。

1）输入：28281像素的图像；

2）经过第一个卷积conv1，得到64个2626的特征图，然后进行最大池化pool1，得到64个1313的特征图；

3）经过第二个卷积conv2，得到128个1111的特征图，然后进行最大池化pool2，得到128个55的特征图；

4）通过Resize将多维输入一维化；

5）再经过两个全连接层fc1和fc2，得到原始图像的向量表达；

6）最后通过Sigmoid激活函数，输出判别概率，即图片是真是假的二分类结果。

6.GAN损失函数

在训练过程中，生成器G（Generator）的目标就是尽量生成真实的图片去欺骗判别器D（Discriminator）。而D的目标就是尽量把G生成的图片和真实的图片区分开。这样，G和D构成了一个动态的“博弈过程”。

最后博弈的结果是什么？在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z)) = 0.5。

用公式表示如下：

\underset{G}{m i n} \underset{D}{m a x} V (D, G) = Ε_{x \sim p_{d a t a} (x)} [\log D (x)] + Ε_{z \sim p_{z} (z)} [\log (1 - D (G (z)))]

$\begin{equation} \mathop{min}\limits_{G}\mathop{max}\limits_{D}V(D,G) = Ε_{x\sim p_{data}(x)} \left[\log D\left(x\right)\right]+Ε_{z\sim p_{z}(z)}\left[\log \left(1 - D\left(G\left(z\right)\right)\right)\right]\end{equation}$ \tag{1}

G min D ma x V (D, G) = E_{x \sim p_{d a t a} (x)} [lo g D (x)] + E_{z \sim p_{z} (z)} [lo g (1 - D (G (z)))] (1)

公式左边V(D,G)表示生成图像和真实图像的差异度，采用二分类(真、假两个类别)的交叉熵损失函数。包含minG和maxD两部分：

$\mathop{max}\limits_{D}V(D,G)$ 表示固定生成器G训练判别器D，通过最大化交叉熵损失V(D,G)来更新判别器D的参数。D的训练目标是正确区分真实图片x和生成图片G(z)，D的鉴别能力越强，D(x)应该越大，右边第一项更大，D(G(x))应该越小，右边第二项更大。这时V(D,G)会变大，因此式子对于D来说是求最大(maxD)。

$\mathop{min}\limits_{G}\mathop{max}\limits_{D}V(D,G)$ 表示固定判别器D训练生成器G，生成器要在判别器最大化真、假图片交叉熵损失V(D,G)的情况下，最小化这个交叉熵损失。此时右边只有第二项有用， G希望自己生成的图片“越接近真实越好”，能够欺骗判别器，即D(G(z))尽可能得大，这时V(D, G)会变小。因此式子对于G来说是求最小(min_G)。