赞
踩
陈迪 用户策略部 2019年11月12日
强化学习(reinforcement learning, RL)是近年来大家提的非常多的一个概念,那么,什么叫强化学习?
强化学习是机器学习的一个分支,和监督学习,非监督学习并列。
参考文献[1]中给出了定义:
Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.
即强化学习是通过学习将环境状态转化为动作的策略,从而获得一个最大的回报。
举个栗子[2],在flappy bird游戏中,我们想设计一个获得高分的策略,但是却不清楚他的动力学模型等等。这是我们可以通过强化学习,让智能体自己进行游戏,如果撞到柱子,则给负回报,否则给0回报。(也可以给不撞柱子持续给1点回报,撞柱子不给回报)。通过不断的反馈,我们可以获得一只飞行技术高超的小鸟。
通过上面例子,我们可以看到强化学习的几个特性[3]:
上面的大脑代表我们的智能体,智能体通过选择合适的动作(Action)$At$,地球代表我们要研究的环境,它拥有自己的状态模型,智能体选择了合适的动作$At$,环境的状态$St$发生改变,变为$S{t 1}$,同时获得我们采取动作$At$的延迟奖励$Rt$,然后选择下一个合适的动作,环境状态继续改变……这就是强化学习的思路。
在这个强化学习的思路中,整理出如下要素[4]:
(1)环境的状态$S$,$t$时刻环境的状态$S_t$是它的环境状态集中的某一个状态;
(2)智能体的动作$A$,$t$时刻智能体采取的动作$A_t$是它的动作集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。