赞
踩
RL输入是一个序列,很大程度上两次输入的相关联
线性或非线性拟合会有几个问题:1、默认数据独立同分布,但是输入数据间有关联 2、target不稳定,label 好坏程度或正确程度不稳定
DQN对其进行三方面改进:1、深度卷积神经网络拟合能力比较强 2、通过之前的样本或者别人的样本进行训练,主要是打乱样本之间的相关性
状态--》策略拟合
动作很多或者连续动作空间,会消耗更多的资源不适合用基于值的RL
适合使用基于策略的RL,减少过程计算
缺点:
高方差:ac算法或a3c算法可以解决高方差这个问题
目的:骷髅拿到钱
确定性策略问题:灰色块往左走,白色块往右走,那一直得不到想要的结果
随机性策略:可以探索更多的区域
RL在离散空间有天然的优势,文本生成、序列决策
相似的论文:"Adversarial Learning for Neural Dialogue Generation (2017)"
GAN 不能用于自然语言处理和文本生成:
判别器 生成器:判别器加0.1,在词库可能找不到
判别器:CNN 生成器:LSTM
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。