赞
踩
强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验
监督学习需要大量的数据和其对应的正确标签,但是与强化学习来说它并没有数据和标签。
方法:通过一次次在环境中的尝试, 获取这些数据和标签, 然后再学习通过哪些数据能够对应哪些标签, 通过学习到的这些规律, 尽可能地选择带来高分的行为 .
基于价值选行为 | 直接选行为 | 想象环境并从中学习 |
---|---|---|
Q learning | Policy Gradients | Model based RL |
Sarsa | ||
Deep Q Network |
其中基于表格学习的有Q learning,Sarsa;
使用神经网络的有Deep Q Network;
直接输出行为的有Policy Gradients;
=======================================================================
基于概率的强化学习
基于价值的强化学习:
结合两种,Actor-Critic,ACtor基于概率做出动作,而critic会对做出的动作给出动作的价值。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。