当前位置:   article > 正文

PPO理解_ppo模型详解

ppo模型详解

PPO原文链接

由于TRPO实现起来需要使用二阶近似和共轭梯度,比较复杂,Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。

TRPO

TRPO的优化目标为
1
用惩罚项代替约束项后
2

Adaptive KL Penalty Coefficient

PPO1为了避免TRPO中超参数 β \beta β的选择,采用自适应确定参数的方法
3
β \beta β由以下条件确定
4
5

Clipped Surrogate Objective

为了限制更新步长,原文还提出了PPO2,这是默认的PPO算法,因为PPO2的实验效果比PPO1更好。做法是在优化目标中加入一个clip函数
5
这里 r ( t ) r(t) r(t)代表新旧策略动作的概率比,这样对策略更新速度进行了裁剪,防止参数更新过快

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/171420
推荐阅读
相关标签
  

闽ICP备14008679号