当前位置:   article > 正文

强化学习——策略优化(笔记)

策略优化

本文将会讨论策略优化的数学基础,并且会附上简单的实践代码。三个要点

  • 一个简单的等式,将策略梯度跟策略模型参数连接起来
  • 一条规则,允许我们将无用的项从等式里去掉
  • 另一条规则,允许我们在等式中添加有用的项

推导最简单的策略梯度

在这里,我们考虑随机参数化策略的情况 π θ \pi _ {\theta} πθ。我们的目标是使预期收益 J ( π θ ) = E τ ∼ π θ [ R ( τ ) ] J(\pi _ {\theta})= \underset{\tau \sim \pi _ {\theta} }{E}[ {R(\tau)}] J(πθ)=τπθE[R(τ)]最大化。出于此推导的目的,我们将 R ( τ ) R(\tau) R(τ)设为有限无折扣收益(无限折现收益设置的推导几乎相同)。

我们想要通过梯度上升来优化策略,例如:
θ k + 1 = θ k + α ∇ θ J ( π θ ) ∣ θ k \theta_{k+1} = \theta_k + \alpha \left. \nabla_{\theta} J(\pi_{\theta}) \right|_{\theta_k} θk+1=θk+αθJ(πθ)θk

其中 ∇ θ J ( π θ ) \nabla_{\theta}J(\pi_{\theta}) θJ(πθ)称为策略梯度,利用策略梯度来优化策略模型这种方法叫做策略梯度算法,例如VPG、TRPO。PPO通常也被称为策略梯度算法,但是这有点不太准确)

要实际使用此算法,我们需要一个可以通过数值计算的策略梯度表达式。这涉及两个步骤:

  • 得出策略模型的可解析的梯度,其形式跟期望值相差不大,
  • 对期望值进行样本估计,使其可以使用代理与环境交互产生的数据进行计算

在本小节中,我们将找到该表达式的最简单形式。在后面的小节中,我们将展示如何以最简单的形式进行改进,以获取我们在标准策略梯度实现中实际使用的版本。

1.序列的概率。由 π θ \pi _ {\theta} πθ产生动作, τ = ( s 0 , a 0 , . . . , s T + 1 ) \tau =(s_0,a_0,...,s_ {T + 1}) τ=(s0,a0,...,s

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/650091
推荐阅读
相关标签
  

闽ICP备14008679号