当前位置:   article > 正文

强化学习基本原理及简单算法

强化学习基本原理

强化学习基本原理及简单算法(QLearning和Sarsa)

强化学习的目的在于作出最优的选择,最优则是指选择累计回报最大的行为。

通用符号说明

  • reward(r)
    reward通常都被记作r,表示确定action的返回奖赏值。所有强化学习都是基于reward假设的。reward是一个scalar。r所表示的reward是即时的回报(没有考虑长期回报)。

  • 累积折现回报函数(R)
    因为强化学习基本上可以总结为通过最大化reward来得到一个最优策略。但是如果只是瞬时reward最大会导致每次都只会从动作空间选择reward最大的那个动作,这样就变成了最简单的贪心策略(Greedy policy),所以为了很好地刻画是包括未来的当前reward值最大(即使从当前时刻开始一直到状态达到目标的总reward最大)。因此就构造累积折现回报函数R(t)来描述这一变量。

    (1)Rt=rt+1+γrt+2+γ2rt+3+γ3rt+4+=k=0nγkrt+k+1

    γ是折扣系数(取值在[0,1]),就是为了减少未来的reward对当前动作的影响。如果我们设置折扣因子为γ=0,那么我们的策略将会是短视的,我们只能依靠即时的回报。如果我们想要平衡现在和将来的回报,我们应该将回报因子设置为γ=0.9。当然如果我们的环境是确定的,那么我们可以设置γ=1
    对于Agent来说一个好的策略是能够使所选择的行动能够最大化(折扣后)未来的奖励。然后就通过选取合适的policy使Rt最大。

  • action(A)
    action是来自于动作空间,agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的sequential data。

  • state(S)
    就是指当前agent所处的状态。一般表示agent所处的位置,有事还表示当前的环境。

  • policy(π
    policy就是只agent的策略,是从state到action的映射,分为确定策略和与随机策略,确定策略就是某一状态下的确定动作a=π(s), 随机策略以概率来描述,即某一状态下执行这一动作的概率:

    (2)π(a|s)=P[At=a|St=s]


背景知识

Bellman Equation

贝尔曼方程(Bellman Equation)也被称作动态规划方程(Dynamic Programming Equation),由理查·贝尔曼(Richard Bellman)发现,由于其中运用了变分法思想,又被称之为现代变分法。

(1)价值函数(value function):
  • state value function(V)
    状态值函数v(s),定义为t时刻状态S能获得的长期return的期望(未指定action),是每个state的value指标,它描述的时以当前state为出发点对所有可能的action得到的reward做加权和,表达式如下:

    (3)Vπ(s)=Eπ[Rt|St=s]

  • action value reward(Q)
    Gπ(S,A)函数是在state下(根据策略π)选择action能获得的长期回报(指定action),是每个state下每个action的指标,它描述在给定state和active下所有可能的长期reward的加权和,(权重是各种可能发生的概率),表达式如下:

    (4)Gπ(s,a)=Eπ[Rt|St=s,At=a]

(2)马尔科夫决策过程(MDP):

一个有限的马尔科夫决策过程由一个四元组构成M=(S,A,P,R)。其中S表示有限的状态集空间,A表示动作集空间,P表示状态转移概率矩阵,r表示期望回报值。 马尔可夫决策过程依赖于马尔可夫假设,下一个状态St+1的概率仅取决于当前状态St和动作At,而不取决于先前的状态或动作。
在MDP中给定任意一个状态s∈S和一个动作a∈A,就会以某个概率转移到下一个状态s′∈S

  • 状态转移概率(Pssa
    Pssa是状态过渡概率。如果我们从状态s开始,然后采取动作a,那么我们就会有Pssa的概率得到状态s,表达式如下:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/305476
推荐阅读
相关标签
  

闽ICP备14008679号