当前位置: article > 正文

强化学习的分类_强化学习有哪几种

作者：笔触狂放9 | 2024-04-22 09:16:27

踩

强化学习有哪几种

on-policy: 必须本人在场, 并且一定是本人边玩边学习，例如Sarsa，Sarsa(lambda)，TRPO。
off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则，例如Q-learning，DQN，Deterministic policy gradient。
on-policy和off-policy本质区别在于：更新Q值的时候是使用既定策略还是使用新的策略。
Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。例如Q-learning，Sarsa，Policy Gradients。
Model-based：先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈，通过想象来预判断接下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。它比 Model-free 多出了一个虚拟环境，还有想象力。
Policy based：目标是找到最优策略，通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。例如Policy Gradients，Actor-Critic
Value based：目标是找到最优奖励总和，输出的是所有动作的价值, 根据最高价值来选动作，这类方法不能选取连续的动作。例如Q-learning，Sarsa，Actor-Critic
Monte-carlo update：游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。例如policy gradients，MC
Temporal-difference update：在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning，Sarsa，升级版的PG.
exploration (探索)会尝试很多不同的事情，看它们是否比以前尝试过的更好。
exploitation (利用)会尝试过去经验中最有效的行为。

参考：https://zhuanlan.zhihu.com/p/24806654

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/467908