赞
踩
由于TRPO实现起来需要使用二阶近似和共轭梯度,比较复杂,Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。
TRPO的优化目标为
用惩罚项代替约束项后
PPO1为了避免TRPO中超参数
β
\beta
β的选择,采用自适应确定参数的方法
β
\beta
β由以下条件确定
为了限制更新步长,原文还提出了PPO2,这是默认的PPO算法,因为PPO2的实验效果比PPO1更好。做法是在优化目标中加入一个clip函数
这里
r
(
t
)
r(t)
r(t)代表新旧策略动作的概率比,这样对策略更新速度进行了裁剪,防止参数更新过快
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。