赞
踩
off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则,例如Q-learning,DQN,Deterministic policy gradient。
on-policy和off-policy本质区别在于:更新Q值的时候是使用既定策略还是使用新的策略。
Model-free:不尝试去理解环境, 环境给什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。例如Q-learning,Sarsa,Policy Gradients。
Model-based:先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈,通过想象来预判断接下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。它比 Model-free 多出了一个虚拟环境,还有想象力。
Policy based:目标是找到最优策略,通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。例如Policy Gradients,Actor-Critic
Value based:目标是找到最优奖励总和,输出的是所有动作的价值, 根据最高价值来选动作,这类方法不能选取连续的动作。例如Q-learning,Sarsa,Actor-Critic
Monte-carlo update:游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。例如policy gradients,MC
Temporal-difference update:在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning,Sarsa,升级版的PG.
exploration (探索)会尝试很多不同的事情,看它们是否比以前尝试过的更好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。