当前位置:   article > 正文

深度强化学习算法调参_ppo调参

ppo调参

深度强化学习调参技巧:以D3QN、TD3、PPO、SAC算法为例
这个参考链接

如何选择深度强化学习算法?
参考链接

影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现

主要说明了了10个调参技巧。针对PPO类型的算法。部分调参技巧在DQN类算法上并不适应。本来嘛,DQN类算法只能算深度强化学习的入门级算法,简单,好理解。PPO类算法的远离相对来讲比较复杂。
Trick 1—Advantage Normalization.
Trick 2—State Normalization.
Trick 3 & Trick 4—— Reward Normalization & Reward Scaling.
Trick 5—Policy Entropy.
Trick 6—Learning Rate Decay.
Trick 7—Gradient clip.
Trick 8—Orthogonal Initialization.
Trick 9—Adam Optimizer Epsilon Parameter.
Trick10—Tanh Activation Function.

对应的代码,可以在这个git仓库中找到

这个博客讲的就比较全面了。

主要参考这个论文

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/695894
推荐阅读
相关标签
  

闽ICP备14008679号