赞
踩
强化学习是一类算法,让计算机从什么都不懂,通过不断尝试,从错误中学习,找到规律,从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试,更新自己的行为准则。
计算机需要一位虚拟的老师,他要做的事情就是给行为打分,计算机只需要记住高分和低分对应的行为,下一次只需要执行高分行为就能得到高分(分数导向性)。类似于监督学习中学习正确标签,不同的是,强化学习最开始没有准备好的数据和标签,是在不断的尝试中得到数据和对应的标签(奖励值)。
强化学习是和监督学习、无监督学习并列的第三种机器学习方法,如下图:
强化学习包含了很多经典的算法(在后面一节会详细说明不同的分类方式):
强化学习的思路:大脑表示算法执行个体,通过操作个体来做决策,即是选择一个行为(action);地球表示研究的环境,它有自身的状态(state),当选择行为
A
t
A_t
At后,环境状态会发生变化,同时得到一个延迟奖励(reward)。然后个体选择下一次的行为,环境状态改变,获得奖励…
分类1:不理解环境(Model-Free RL)和理解环境(Model-Based RL)
Model-Based RL多出一个虚拟环境,方法和Model-Free RL中一样。Model-Based RL具有想象力,通过想象力预判断下一步的行为,而Model-Free RL只能按部就班。
分类2:基于概率(Policy-Based RL)和基于价值(Value-Based RL)
基于概率的RL可以处理连续的东西,而基于价值不能处理,但是基于概率的缺点是概率更高,不一定会被选中。
分类3:回合更新(Monte-Carlo update)和单步更新(Temporal-Difference update)
单步更新可以边执行边更新。
分类4:在线学习(On-Policy)和离线学习(Off-Policy)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。