赞
踩
用一个actor pie 与环境交互,然后学习得到这个actor的Q函数,然后通过某种方法找到一个pie plus,它的Q函数更好,如此往复,actor越来越好
double DQN,因为被高估的action,容易被选中,导致最后的Q函数高估。所以用run network选择action,target network 算值
dueling DQN, 将Q分解为V+A,A的和强制为0,这样更新V,可以更新到某些没有被抽样到的action
Prioritized reply TD error 大的样本,给更高的抽样优先级
multi step 样本不止考虑一步,可以考虑多步,Q函数的更新也考虑多步
Noise Net 在每一场游戏与环境互动前,对Q函数的参数上加一些噪音,比epison greedy方法好,原方法是在action空间上加noise,纯粹的乱尝试,现在在参数空间上加noise,是有策略的尝试
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。