强化学习方法汇总

作者：IT小白 | 2024-05-08 09:50:48

踩

强化学习方法汇总

model-free RL（依靠真实世界的反馈）：
1.Q learning
2.Sarsa
3.Policy Gradients

model-based RL（可以在想象中模拟）：
1.Q learning
2.Sarsa
3.Policy Gradients

policy-based RL(基于概率)：不一定选择最高概率
1.Policy Gradients

value-based RL：一定选择最大价值，连续的动作无法用基于价值
1.Q learning
2.Sarsa

actor-critic：两种方法结合，基于概率做出动作，critic对做出的动作给出它的价值

Monte-Carlo update（回合更新）：游戏结束后再更新
1.基础版Policy Gradients
2.Monte-Carlo learning

Temporal-Difference update（单步更新）：游戏中边玩边更新
1.Q learning
2.Sarsa
3.升级版Policy Gradients

On-Policy（在线学习）：自己边玩边学
1…Sarsa
2.Sarsa（λ）

Off-Policy（离线学习）：可以看别人玩而学习
1.Q learning
2.Deep Q Network

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/554005