当前位置:   article > 正文

Q Learning_qlearning名

qlearning名

用一个actor pie 与环境交互,然后学习得到这个actor的Q函数,然后通过某种方法找到一个pie plus,它的Q函数更好,如此往复,actor越来越好

double DQN,因为被高估的action,容易被选中,导致最后的Q函数高估。所以用run network选择action,target network 算值

dueling DQN, 将Q分解为V+A,A的和强制为0,这样更新V,可以更新到某些没有被抽样到的action

Prioritized reply TD error 大的样本,给更高的抽样优先级

multi step 样本不止考虑一步,可以考虑多步,Q函数的更新也考虑多步

Noise Net 在每一场游戏与环境互动前,对Q函数的参数上加一些噪音,比epison greedy方法好,原方法是在action空间上加noise,纯粹的乱尝试,现在在参数空间上加noise,是有策略的尝试

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/1012729
推荐阅读
相关标签
  

闽ICP备14008679号