深度强化学习算法调参_ppo调参

作者：我家小花儿 | 2024-06-09 21:44:22

踩

ppo调参

深度强化学习调参技巧：以D3QN、TD3、PPO、SAC算法为例
这个参考链接。

如何选择深度强化学习算法？
参考链接。

影响PPO算法性能的10个关键技巧（附PPO算法简洁Pytorch实现）

主要说明了了10个调参技巧。针对PPO类型的算法。部分调参技巧在DQN类算法上并不适应。本来嘛，DQN类算法只能算深度强化学习的入门级算法，简单，好理解。PPO类算法的远离相对来讲比较复杂。
Trick 1—Advantage Normalization.
Trick 2—State Normalization.
Trick 3 & Trick 4—— Reward Normalization & Reward Scaling.
Trick 5—Policy Entropy.
Trick 6—Learning Rate Decay.
Trick 7—Gradient clip.
Trick 8—Orthogonal Initialization.
Trick 9—Adam Optimizer Epsilon Parameter.
Trick10—Tanh Activation Function.

对应的代码，可以在这个git仓库中找到。

这个博客讲的就比较全面了。

主要参考这个论文。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/695894