当前位置:   article > 正文

深度学习算法 Q-learning 原理_q学习的工作原理

q学习的工作原理

Q-learning
Q-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为,只是对现有的 actor ,评价它的好坏。

Value-Fuction
critic 给出了一个 value function ,代表在遇到游戏的某个 state 后,采取策略为的actor  一直玩到游戏结束,所能得到的 reward 之和。

 (即critic)的输入是某个state,输出是一个scalar标量。上图游戏画面中左边的  很大,因为当前怪物比较多,防护罩也没被摧毁,从此时玩到游戏结束得到的 reward 就会比较多;而相对的右边的  就比较小。综上 critic 的输出取决于两点:

state,这个就是左右图对比,刚才说过了
actor 的策略 ,如果是个很弱的actor即便左图可能也得到很低的reward。
 

怎么计算呢?

计算的2种方式:
 1、Monte-Carlo (MC) based approach :


将作为的输入最终输出 ,而实际上应该得到的cumulative reward是。这其实和 regression problem 很相似,因为我们的目标就是通过训练让  越来越接近  ,即理想情况下(这里为了方便,假设学习率为1,原始的公式为)。

注意:是一个网络,因为在游戏中,不可能所有的image都看过,所以将做成网络来提高泛化性。

2、Temporal-difference (TD) approach


MC based的方法要求遇到 后把游戏玩到结束,如果游戏太长的话,那就可能收集不到多少数据去让网络

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/1012709
推荐阅读
相关标签
  

闽ICP备14008679号