赞
踩
点击上方“机器学习算法工程师”选择“星标”公众号,重磅干货,第一时间送达
强化学习(Reinforcement Learning)是机器学习的一个非常重要的分支,其核心思想是实验者构建一个完整的实验环境,在该环境中通过给予被实验者一定的观测值和回报等方法来强化或鼓励被实验者的一些行动,从而以更高的可能性产生实验者所期望的结果或目标。从以上对强化学习的描述中,我们可以看出强化学习一定会涉及到被实验者(也称为智能体,Agent)、实验者构建的环境(也就是系统环境,System Environment)、被实验者的观测值(也称为环境状态,State)、被实验者的行动(Action)和回报(也称为奖励或反馈,Reward)这五个关键要素。
举一个经典的心理学实验来进一步解释强化学习所涉及到的这几个关键要素。这个实验就是巴浦洛夫的狗,在实验中每次实验者都对着狗摇铃铛,并给它一点食物。久而久之,铃铛和食物的组合就潜移默化地影响了狗的行动,此后每次对着狗摇铃铛,狗就会不由自主的流口水,并期待实验者能给它食物,通过这样的方法,实验者就让狗学会了铃铛和食物之间的关系,这算作是强化学习的一个简单的例子。
从这个例子中我们不光能看出强化学习所涉及到的以上描述的五个关键要素,并且还能得到一个包含这五个关键要素的高度抽象的强化学习的框架,那就是: 在经典的强化学习中,智能体是要和实验者构建的系统环境完成一系列的交互,主要包含以下三项内容:
1. 在每一时刻,环境都处于一种状态,智能体能得到环境当前状态的观测值; 2. 智能体根据当前环境状态的观测值,并结合自己历史的行为准则(一般称为策略,Policy)做出行动; 3. 智能体做出的这个行动又继而会使环境状态发生一定的改变,同时智能体又会获取到新的环境状态的观测值和这个行动所带来的回报,当然这个回报既可以是正向的也可以是负向的,这样智能体就会根据新的状态观测值和回报来继续做出新的行动,直至达到实验者所期望的目标为止。 因此,高度抽象的强化学习的框架所包含的整个过程如图1所示:
图1 强化学习的过程表示
所以,站在智能体的角度,强化学习的目标就是最大化所获得的回报。但是这个目标有些抽象,因此我们需要把这个目标变得更容易量
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。