当前位置:   article > 正文

强化学习及其在NLP上的应用_强化学习nlp

强化学习nlp

what is RL?

RL输入是一个序列,很大程度上两次输入的相关联

Different kinds of RL

线性或非线性拟合会有几个问题:1、默认数据独立同分布,但是输入数据间有关联 2、target不稳定,label 好坏程度或正确程度不稳定

DQN对其进行三方面改进:1、深度卷积神经网络拟合能力比较强  2、通过之前的样本或者别人的样本进行训练,主要是打乱样本之间的相关性

状态--》策略拟合

动作很多或者连续动作空间,会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL,减少过程计算

缺点:

高方差:ac算法或a3c算法可以解决高方差这个问题

目的:骷髅拿到钱

确定性策略问题:灰色块往左走,白色块往右走,那一直得不到想要的结果

随机性策略:可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

 相似的论文:"Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成:

判别器 生成器:判别器加0.1,在词库可能找不到

判别器:CNN      生成器:LSTM

视频参考链接:http://www.mooc.ai/course/503/learn#lesson/2762

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号