SeqGAN：用pytorch实现用于文本生成的对抗神经网络_生成对抗网络文本生成

作者：Li_阴宅 | 2024-07-24 08:41:36

踩

生成对抗网络文本生成

GAN简介

生成对抗网络 Generative Adversarial Networks (GAN)的概念来自于2014年Ian Goodfellow et.al. 的论文。

GAN属于无监督学习，由两个神经网络组成。生成器（generator）从潜在空间中随机获取样本，并与真实数据一起作为判别器（discriminator）的输入。判别器是一个经典分类器，作用是把真实数据和生成数据尽量分开。判别器对生成数据的判别结果会返回给生成器，训练生成器生成更多能够成功“骗过”判别器的数据。训练的最终目的是使生成样本的分布与真实数据达到一致，判别器完全不能区分真伪。

论文中把生成器和判别器的对抗描述为一个双人零和游戏：
在这里插入图片描述
其中D代表判别器Discriminator，G代表生成器Generator。D的目标是最大化entropy，G的目标是最小化 log(1-D(G(z)))。

GAN的设计要求生成器的输出是一个连续空间，否则D到G(z)的梯度无法指导G修正的方向。Goodfellow教授给出的更多解释在这里。

由于这种限制，GAN虽然在图像生成应用中获得了巨大的成功，却很少用于离散空间的文本生成。

2016年Lantao Yu, et.al.发表的论文 SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient尝试使用强化学习中的策略梯度（policy gradient）方法解决离散空间样本的对抗生成。

强化学习简介

已知状态State(S)和可能的行为Action(A)，通过强化学习把状态映射到最佳行为，达到最大化某个特定奖励值reward®的目的。这是一个闭环系统，行为影响结果，同时结果会给下一次选择提供反馈。强化学习可以通过记忆解决一些反馈时间较长的问题。在这个闭环系统里不需要存在外部监督，也就是对于行为的选择可以完全来自于结果反馈。
在这里插入图片描述
有限马尔科夫决策链：

对强化学习系统的数学建模依赖于马尔科夫链的属性

$Pr\big\{S_{t+1} = s^{\prime}, R_{t+1}=r \mid S_0, A_0, R_1, \dots, S_{t-1}, A_{t-1}, R_t, S_t, A_t\big\} = Pr\big\{S_{t+1} = s^{\prime}, R_{t+1}=r \mid S_t, A_t\big\} \quad \forall s^{\prime}, r, S_0, A_0, R_1, \dots, S_{t-1}, A_{t-1}, R_t, S_t, A_t$

任何一个马尔科夫状态都包含了它的历史状态的信息。这一点对于强化学习尤其重要，因为参数值和决策值默认只与当前状态有关。

由以上马尔科夫属性可以得出：

给定状态-行为对(s, a)，得到下一个状态和当前行为的奖励(s’, r)的概率为

$p\big(s^{\prime}, r \mid s, a\big) \doteq Pr\big\{ S_{t+1} = s^{\prime}, R_{t+1}=r \mid S_t = s, A_t = a \big\}$

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】