强化学习及其在NLP上的应用_强化学习nlp

作者：一键难忘520 | 2024-08-04 18:59:51

踩

强化学习nlp

what is RL?

RL输入是一个序列，很大程度上两次输入的相关联

线性或非线性拟合会有几个问题：1、默认数据独立同分布，但是输入数据间有关联 2、target不稳定，label 好坏程度或正确程度不稳定

DQN对其进行三方面改进：1、深度卷积神经网络拟合能力比较强 2、通过之前的样本或者别人的样本进行训练，主要是打乱样本之间的相关性

状态－－》策略拟合

动作很多或者连续动作空间，会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL，减少过程计算

缺点：

高方差：ac算法或a3c算法可以解决高方差这个问题

目的：骷髅拿到钱

确定性策略问题：灰色块往左走，白色块往右走，那一直得不到想要的结果

随机性策略：可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

相似的论文："Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成：

判别器生成器：判别器加0.1，在词库可能找不到

判别器：CNN 生成器：LSTM

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/929112?site