赞
踩
强化学习的目的在于作出最优的选择,最优则是指选择累计回报最大的行为。
reward(r)
reward通常都被记作
累积折现回报函数(R)
因为强化学习基本上可以总结为通过最大化reward来得到一个最优策略。但是如果只是瞬时reward最大会导致每次都只会从动作空间选择reward最大的那个动作,这样就变成了最简单的贪心策略(Greedy policy),所以为了很好地刻画是包括未来的当前reward值最大(即使从当前时刻开始一直到状态达到目标的总reward最大)。因此就构造累积折现回报函数
action(A)
action是来自于动作空间,agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward,直到最终算法收敛,所得的policy就是一系列action的sequential data。
state(S)
就是指当前agent所处的状态。一般表示agent所处的位置,有事还表示当前的环境。
policy(
policy就是只agent的策略,是从state到action的映射,分为确定策略和与随机策略,确定策略就是某一状态下的确定动作a=
贝尔曼方程(Bellman Equation)也被称作动态规划方程(Dynamic Programming Equation),由理查·贝尔曼(Richard Bellman)发现,由于其中运用了变分法思想,又被称之为现代变分法。
state value function(V)
状态值函数
action value reward(Q)
一个有限的马尔科夫决策过程由一个四元组构成M=(S,A,P,R)。其中S表示有限的状态集空间,A表示动作集空间,P表示状态转移概率矩阵,r表示期望回报值。 马尔可夫决策过程依赖于马尔可夫假设,下一个状态
在MDP中给定任意一个状态s∈S和一个动作a∈A,就会以某个概率转移到下一个状态s′∈S
状态转移概率(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。