当前位置:   article > 正文

强化学习简介及马尔科夫决策过程_强化学习中的平稳策略是指什么

强化学习中的平稳策略是指什么

强化学习分享

陈迪 用户策略部 2019年11月12日

1. 什么是强化学习

  强化学习(reinforcement learning, RL)是近年来大家提的非常多的一个概念,那么,什么叫强化学习?

  强化学习是机器学习的一个分支,和监督学习,非监督学习并列。

  参考文献[1]中给出了定义:

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

  即强化学习是通过学习将环境状态转化为动作的策略,从而获得一个最大的回报。

  举个栗子[2],在flappy bird游戏中,我们想设计一个获得高分的策略,但是却不清楚他的动力学模型等等。这是我们可以通过强化学习,让智能体自己进行游戏,如果撞到柱子,则给负回报,否则给0回报。(也可以给不撞柱子持续给1点回报,撞柱子不给回报)。通过不断的反馈,我们可以获得一只飞行技术高超的小鸟。

  通过上面例子,我们可以看到强化学习的几个特性[3]:

  1. 没有label,只有奖励(reward)
  2. 奖励信号不一定是实时的,很有可能延后的。
  3. 当前的行为影响后续接收到的数据
  4. 时间(序列)是一个重要因素

2. 强化学习的建模

img

  上面的大脑代表我们的智能体,智能体通过选择合适的动作(Action)$At$,地球代表我们要研究的环境,它拥有自己的状态模型,智能体选择了合适的动作$At$,环境的状态$St$发生改变,变为$S{t 1}$,同时获得我们采取动作$At$的延迟奖励$Rt$,然后选择下一个合适的动作,环境状态继续改变……这就是强化学习的思路。

  在这个强化学习的思路中,整理出如下要素[4]:

  (1)环境的状态$S$,$t$时刻环境的状态$S_t$是它的环境状态集中的某一个状态;

  (2)智能体的动作$A$,$t$时刻智能体采取的动作$A_t$是它的动作集

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/809857
推荐阅读
相关标签
  

闽ICP备14008679号