赞
踩
在强化学习的训练过程中,常常会遇见以下问题
在某一环境中可以work的超参数拿去训练别的环境却怎么训练不出来
训练时熵在增大
训练动作达到边界
本文通过调试几个环境的案例来探究强化学习的调参方法
摆锤这个环境可以看做连续控制中的入门环境了,环境初始时在一个随机的位置,目标是将其摆动以使其保持直立,它的状态维度为3,动作维度为1
拟使用PPO解决这个问题,ppo的流程如下:
首先说第一步,在和环境交互的过程中,我们往往规定了步数,在规定的step内,环境往往没有done,这会给我们这一次迭代计算adv有误差,面对这个问题,往往有两种处理方式:
在John Schulman’s 程序中,对V估值采用这种方式:
V(s_t+1) = {0 if s_t is terminal
{v_s_{t+1} if s_t not terminal and t != T (last step)
{v_s if s_t not terminal and t == T
也就是最后一个step如果不是终止状态,则它下一状态的V估值为当前状态的V估值
在有的程序中,也采用V神经网络下一状态的值作为对下一状态的V函数估值
第二步流程中计算v_target会根据是否采用gae有两种计算方式
第三步中loss计算包含有aloss,vloss和entropy
我们先使用简单的PPO来训练一下环境,参数选择如下:
lam = lambda f: 1 - f / train_steps
self.opti_scheduler = torch.optim.lr_scheduler.LambdaLR(self.opti, lr_lambda=lam)
loss = aloss - loss_entropy*self.c_en + v_loss*self.c_vf
torch.nn.utils.clip_grad_norm_(self.critic.parameters(), self.max_grad_norm)
torch.nn.utils.clip_grad_norm_(self.actor.parameters(), self.max_grad_norm)
这些都是比较
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。