当前位置:   article > 正文

强化学习中的调参经验与编程技巧(on policy 篇)_强化学习dmc

强化学习dmc

在强化学习的训练过程中,常常会遇见以下问题

在某一环境中可以work的超参数拿去训练别的环境却怎么训练不出来

训练时熵在增大

训练动作达到边界

本文通过调试几个环境的案例来探究强化学习的调参方法

1 pendulum

摆锤这个环境可以看做连续控制中的入门环境了,环境初始时在一个随机的位置,目标是将其摆动以使其保持直立,它的状态维度为3,动作维度为1

拟使用PPO解决这个问题,ppo的流程如下:

  1. 使用Actor网络与环境交互一定步数,记录下(state, action, reward, v, done)
  2. 根据记录下来的值计算优势值adv(更新actor网络使用)和v_target(更新critic网络使用)
  3. 计算loss更新actor网络和critic网络
  • 首先说第一步,在和环境交互的过程中,我们往往规定了步数,在规定的step内,环境往往没有done,这会给我们这一次迭代计算adv有误差,面对这个问题,往往有两种处理方式:

    • 完成这次交互,也就是超过这一次规定的迭代步数直到done,这样做会使每一次迭代更新时的交互step不同,比较不同算法在相同的step性能如何时略显不公平
    • 不完成这次交互,这样会使最后step采用gae对adv估值存在近似。

    在John Schulman’s 程序中,对V估值采用这种方式:

    V(s_t+1) = {0 if s_t is terminal         
               {v_s_{t+1} if s_t not terminal and t != T (last step)         
               {v_s if s_t not terminal and t == T
    
    • 1
    • 2
    • 3

    也就是最后一个step如果不是终止状态,则它下一状态的V估值为当前状态的V估值

    在有的程序中,也采用V神经网络下一状态的值作为对下一状态的V函数估值

  • 第二步流程中计算v_target会根据是否采用gae有两种计算方式

    • 根据每一step的reward按照gamma return的方式计算v_target
    • 根据每一step的adv和v估值累加作为v_target
  • 第三步中loss计算包含有aloss,vloss和entropy

1.1 初始

我们先使用简单的PPO来训练一下环境,参数选择如下:

  • actor,critic 网络初始化为正交初始化
  • steps=2048;
  • batch=64;
  • lr=3e-4且经过训练迭代数逐渐减小;
lam = lambda f: 1 - f / train_steps
self.opti_scheduler = torch.optim.lr_scheduler.LambdaLR(self.opti, lr_lambda=lam)
  • 1
  • 2
  • 采用return方式计算v_target;
  • adv计算采用gae
  • loss 计算添加熵,系数(self.c_en)为0.01
loss = aloss - loss_entropy*self.c_en + v_loss*self.c_vf
  • 1
  • max_grad_norm=0.5
torch.nn.utils.clip_grad_norm_(self.critic.parameters(), self.max_grad_norm)
torch.nn.utils.clip_grad_norm_(self.actor.parameters(), self.max_grad_norm)
  • 1
  • 2

这些都是比较

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/695909
推荐阅读
  

闽ICP备14008679号