当前位置:   article > 正文

强化学习的分类_强化学习有哪几种

强化学习有哪几种
  • on-policy: 必须本人在场, 并且一定是本人边玩边学习,例如Sarsa,Sarsa(lambda),TRPO。
  • off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则,例如Q-learning,DQN,Deterministic policy gradient。
    on-policy和off-policy本质区别在于:更新Q值的时候是使用既定策略还是使用新的策略。

  • Model-free:不尝试去理解环境, 环境给什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。例如Q-learning,Sarsa,Policy Gradients。

  • Model-based:先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈,通过想象来预判断接下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。它比 Model-free 多出了一个虚拟环境,还有想象力。

  • Policy based:目标是找到最优策略,通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。例如Policy Gradients,Actor-Critic

  • Value based:目标是找到最优奖励总和,输出的是所有动作的价值, 根据最高价值来选动作,这类方法不能选取连续的动作。例如Q-learning,Sarsa,Actor-Critic

  • Monte-carlo update:游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。例如policy gradients,MC

  • Temporal-difference update:在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning,Sarsa,升级版的PG.

  • exploration (探索)会尝试很多不同的事情,看它们是否比以前尝试过的更好。

  • exploitation (利用)会尝试过去经验中最有效的行为。

参考:https://zhuanlan.zhihu.com/p/24806654

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/467908
推荐阅读
相关标签
  

闽ICP备14008679号