当前位置:   article > 正文

强化学习 PPO算法和代码_ppo算法参数

ppo算法参数

PPO 效果

在这里插入图片描述

前提

τ ~ p(τ) 是轨迹分布
t∈[0,T-1] 是一条轨迹的步骤数
策略 π 是动作 a 的概率分布

State-Action Value Function 简称 V(st) 函数

V π ( s t ) = E τ ∼ p ( τ ) [ R ( τ t : T ) ∣ τ s t = s t ] V^{\pi} (s_{t}) = E_{\tau \sim p(\tau )} [R(\tau_{t:T}) | \tau_{s_{t}}=s_{t}] Vπ(st)=Eτp(τ)[R(τt:T)τst=st]
V π ( s t ) = E τ ∼ p ( τ ) [ r ( s t ) + γ r t + 1 + γ 2 r t + 2 + . . . ] V^{\pi} (s_{t}) = E_{\tau \sim p(\tau )} [ r(s_{t}) + \gamma r_{t+1} + \gamma^2 r_{t+2}+... ] Vπ(st)=Eτp(τ)[r(st)+γrt+1+γ2rt+2+...]
V(st)函数的贝尔曼方程:
V π ( s t ) = E τ ∼ p ( τ ) [ r ( s t ) + γ V π ( s t + 1 ) ] V^{\pi} (s_{t}) = E_{\tau \sim p(\tau )} [r(s_{t}) + \gamma V^{\pi} (s_{t+1}) ] Vπ(st)=Eτp(τ)[r(st)+γVπ(st+1)]

State-Action Value Function 简称 Q(st,at) 函数

它定义为环境在状态st智能体在策略π控制执行动作at的条件下, 能获得的期望回报值:
Q π ( s t , a t ) = E τ ∼ p ( τ ) [ R ( τ t : T ) ∣ τ a t = a t , τ s t = s t ] Q^{\pi } (s_{t} ,a_{t}) = E_{\tau \sim p(\tau)} [ R(\tau_{t:T}) | \tau_{a_{t}}=a_{t} , \tau_{s_{t}}=s_{t} ] Qπ(st,at)=Eτp(τ)[R(τt:T)τat=at,τst=st]
Q π ( s t , a t ) = E τ ∼ p ( τ ) [ r ( s t , a t ) + γ r t + 1 + γ 2 r t + 2 + . . . ] Q^{\pi } (s_{t} ,a_{t}) = E_{\tau \sim p(\tau)} [ r(s_{t},a_{t}) + \gamma r_{t+1} + \gamma^2 r_{t+2}+... ] Qπ(st,at)=Eτp(τ)[r(st,at)+γrt+1+γ2rt+2+...]
Q π ( s t , a t ) = E τ ∼ p ( τ ) [ r ( s t , a t ) + γ V π ( s t + 1 ) ] Q^{\pi } (s_{t} ,a_{t}) = E_{\tau \sim p(\tau)} [ r(s_{t},a_{t}) + \gamma V^{\pi} (s_{t+1}) ] Qπ(st,at)=Eτp(τ)[r(st,at)+γVπ(st+1)]
这里有两个随机变量 st 和 at ,其中由于

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/171449
推荐阅读
相关标签