PPO理解_ppo模型详解

作者：Monodyee | 2024-03-01 05:50:16

踩

ppo模型详解

由于TRPO实现起来需要使用二阶近似和共轭梯度，比较复杂，Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。

TRPO的优化目标为

用惩罚项代替约束项后

PPO1为了避免TRPO中超参数 $\beta$ 的选择，采用自适应确定参数的方法

$\beta$ 由以下条件确定

为了限制更新步长，原文还提出了PPO2，这是默认的PPO算法，因为PPO2的实验效果比PPO1更好。做法是在优化目标中加入一个clip函数

这里 $r (t)$ 代表新旧策略动作的概率比，这样对策略更新速度进行了裁剪，防止参数更新过快

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/171420