赞
踩
model-free RL(依靠真实世界的反馈):
1.Q learning
2.Sarsa
3.Policy Gradients
model-based RL(可以在想象中模拟):
1.Q learning
2.Sarsa
3.Policy Gradients
policy-based RL(基于概率):不一定选择最高概率
1.Policy Gradients
value-based RL:一定选择最大价值,连续的动作无法用基于价值
1.Q learning
2.Sarsa
actor-critic:两种方法结合,基于概率做出动作,critic对做出的动作给出它的价值
Monte-Carlo update(回合更新):游戏结束后再更新
1.基础版Policy Gradients
2.Monte-Carlo learning
Temporal-Difference update(单步更新):游戏中边玩边更新
1.Q learning
2.Sarsa
3.升级版Policy Gradients
On-Policy(在线学习):自己边玩边学
1…Sarsa
2.Sarsa(λ)
Off-Policy(离线学习):可以看别人玩而学习
1.Q learning
2.Deep Q Network
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。