当前位置:   article > 正文

强化学习方法汇总

强化学习方法汇总

model-free RL(依靠真实世界的反馈):
1.Q learning
2.Sarsa
3.Policy Gradients

model-based RL(可以在想象中模拟):
1.Q learning
2.Sarsa
3.Policy Gradients

policy-based RL(基于概率):不一定选择最高概率
1.Policy Gradients

value-based RL:一定选择最大价值,连续的动作无法用基于价值
1.Q learning
2.Sarsa

actor-critic:两种方法结合,基于概率做出动作,critic对做出的动作给出它的价值

Monte-Carlo update(回合更新):游戏结束后再更新
1.基础版Policy Gradients
2.Monte-Carlo learning

Temporal-Difference update(单步更新):游戏中边玩边更新
1.Q learning
2.Sarsa
3.升级版Policy Gradients

On-Policy(在线学习):自己边玩边学
1…Sarsa
2.Sarsa(λ)

Off-Policy(离线学习):可以看别人玩而学习
1.Q learning
2.Deep Q Network

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/554005
推荐阅读
相关标签
  

闽ICP备14008679号