这个屌丝很懒，什么也没留下！

强化学习《基于策略 - PPO，TRPO，PPO2》_ppo1和ppo2

作者：秋刀鱼在做梦 | 2024-06-25 20:53:46

在上一篇博客最后，我们说到了θ和θ^k是不能差太多的，不然结果会不好，那么怎么避免它们差太多呢?
这就是这一篇要介绍的PPO所在做的事情。

在这里插入图片描述

2：TRPO算法

3：PPO2算法

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/757339