强化学习——策略优化（笔记）

作者：羊村懒王 | 2024-05-31 03:20:24

踩

策略优化

本文将会讨论策略优化的数学基础，并且会附上简单的实践代码。三个要点

一个简单的等式，将策略梯度跟策略模型参数连接起来
一条规则，允许我们将无用的项从等式里去掉
另一条规则，允许我们在等式中添加有用的项

推导最简单的策略梯度

在这里，我们考虑随机参数化策略的情况 $\pi _ {\theta}$ 。我们的目标是使预期收益 $J(\pi _ {\theta})= \underset{\tau \sim \pi _ {\theta} }{E}[ {R(\tau)}]$ 最大化。出于此推导的目的，我们将 $R(\tau)$ 设为有限无折扣收益（无限折现收益设置的推导几乎相同）。

我们想要通过梯度上升来优化策略，例如：
$\theta_{k+1} = \theta_k + \alpha \left. \nabla_{\theta} J(\pi_{\theta}) \right|_{\theta_k}$

其中 $\nabla_{\theta}J(\pi_{\theta})$ 称为策略梯度，利用策略梯度来优化策略模型这种方法叫做策略梯度算法，例如VPG、TRPO。PPO通常也被称为策略梯度算法，但是这有点不太准确）

要实际使用此算法，我们需要一个可以通过数值计算的策略梯度表达式。这涉及两个步骤：

得出策略模型的可解析的梯度，其形式跟期望值相差不大，
对期望值进行样本估计，使其可以使用代理与环境交互产生的数据进行计算

在本小节中，我们将找到该表达式的最简单形式。在后面的小节中，我们将展示如何以最简单的形式进行改进，以获取我们在标准策略梯度实现中实际使用的版本。

1.序列的概率。由 $\pi _ {\theta}$ 产生动作， $\tau =(s_0,a_0,...,s_ {T + 1})$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/650091