赞
踩
摘要:目前主导范式依旧是依靠“专家行为”的强监督学习。我们追求一种无监督学习的模式来探索世界,并把经验提炼成目标导航策略,并具有“前向一致性损失”。策略在学习到了一组图像序列后开始模仿专家的行为。我们提出“zero-shot”方法:agent在训练期间无法接触到专家的行为。我们用了两个真实世界的实验来评估“zero-shot”:用Baxter-robot 做复杂绳索操作&用TurtleBot在新办公环境导航。通过在VizDoom环境的进一步实验,我们证明:更好的探索机制可以学习性能更好的策略。
S : {x1,a1,x2,a2, ...... xT } 是agent使用策略a = πE(s)探索环境时生成的“observations--actions对”。探索得到的数据用来学习GSP,具体方法是:输入为(xi,xg),输出为动作序列(aτ : a1,a2...aK) ,动作序列从当前observation xi 到达 目标observation xg 。其中,aτ =π( xi , xg ; θπ )。xi,xg是从S从采样得到的。
xi ,xg从S中采样。行动的步数K也是从模型中推断出来的。我们把 策略π 用参数为θπ 的深度网络表示,目的是表达observation到action的复杂映射。π可以看做是逆动力学模型的多步衍生物,或者对应于通用值函数的一个策略。注意,xg不一定是任务的最终目标,也可以是一个中间子目标。
把需要模仿的任务以图像序列的形式提供—D : {x1d , x2d , ..., xNd },专家演示任务的同时,这个序列被记录。序列在时间上可以是暂时密集的也可以是稀疏的。agent通过来模仿序列D来学习策略GSP-π。agent起始位置在x0,依据策略π(x0,x1d;θπ)来选择第一个动作。执行策略预测出的动作后,得到的observation称为x′0。因为接近 x1d 可能需要执行多个action,agent会循环的查询目标识别网络来确认当前observation是否接近目标。如果当前observation和目标不符,agent会执行动作 a = π( x′0 , x1d ; θπ )。上述过程重复进行,直到目标识别器显示当前observation已经接近goal,或者已经到达步数值上限。当agent接近x1d后,agent再把目标设置为x2d ,并且重复这个过程。当“被模仿序列”中的所有observation都被访问过之后,agent停止。
注意:上述方法中专家不需要向agent传达“哪一个action应该被采用”。接下来的部分,我们会描述:如何学习GSP / 前向一致性损失 / 目标识别网络 ,以及一些baseline方法。
φ(.)表示一个具有参数θφ的神经网络。多步GSP需要的步数是可变的,取决于目标识别器。注意,若φ(x)=x,那么该目标就直接简化为之前使用observation作为输入的模型。我们在VizDoom 3D导航中分析了基于特征空间的预测,并在绳索实验和office实验中使用observation空间。
多步前向一致性GSP-πm通过这样的方法实现:使用一个循环神经网络,每一时间步的输入为:
(1) 当前状态xt和目标状态xT的特征表示:φ(xt) and φ(xT )
(2) 上一个时间步的动作at-1
(3) 循环单元的内部隐藏层表示ht-1
(4)当前预测的动作结果aˆt 。
注意,每个时间步输入的之前预测的动作at-1可能是冗余的,因为隐藏层的潜在的表示已经在维护轨迹历史了。尽管如此,显示地为这段轨迹历史建模是有益的。这个公式等效于建立了一个联合诸多动作的自回归模型:“每个时间步计算P(at|x1,a1,...at−1,xt,xg)”。未来还可以考虑继续努力建立一个前向多步模型。
(2)VISUAL IMITATION :之前的段落中,机器人可以在同一个房间寻找到目标。然而,我们的agent无法达到遥远的目标,如在其他房间设立一个目标。在这种情况下,专家可能会传达指令,比如走到门口,向右转,走到最近的椅子上等等。代替语言指令,在我们的设置中,我们提供了一系列地标的图像来传达同样的高级思想。当专家将机器人从起点移动到目标位置时,这些具有里程碑意义的地标图像就被机器人的摄像机拍下来。然而,请注意,专家没有必要控制机器人去捕捉图像,因为我们没有利用专家的动作,而仅仅利用图像。在演示过程中,我们并没有在每次操作之后都记录图像,而是只提供了第五张图像。这种选择背后的基本原理是,我们希望对演示进行稀疏抽样,以最小化代理对专家演示的依赖。这种子抽样(如图5所示)降低了任务复杂性。
我们对两次专家演示(即迷宫演示)进行多次运行评估,机器人应该在迷宫般的路径中导航,并进行循环演示,机器人应该按照演示图像的指示做一个完整的循环。循环演示比迷宫更长,也更困难。相对于演示,我们从不同的起始位置和方向启动agent。每个方向都被初始化,这样演示初始框架的任何部分都不可见。结果如表2所示。当我们对每一帧进行采样时,来自运动的方法和经典结构都可以用于跟踪演示。然而,在五次采样率下,基于筛选的特征匹配方法不起作用,ORBSLAM2未能生成map,而我们的方法是成功的。注意,提供稀疏的地标图像而不是密集的视频,增加了视觉模拟任务的健壮性。特别是,考虑到环境在演示过程中所发生的变化。由于不需要代理逐帧匹配每个演示图像,它对环境的变化就不那么敏感了。
Metric 在给定机器人图像序列的情况下,我们展示机器人到达的最大距离的中值。到达的最大距离是agent连续到达的最远地标点的距离,不遗漏任何中间地标。测量达到的最远的地标并不能反映它达到的效率。因此,我们进一步测量agent的效率,即agent所采取的步骤数与人类演示中所显示的步骤数之比,以达到最远的连续地标。
Visual Imitation 这里的任务与真正的机器人导航中的任务相同,在这个任务中,agent接受一个稀疏的图像序列。结果见表3。我们发现好奇心探索相对于随机探索策略,显著提高了所有方法的最终模仿性能。拥有前向正则化的基线GSP模型相比于一致性损失模型最终在新的布局下过拟合。相比之下,我们的前向一致的GSP模型在推广到具有新纹理的新地图方面优于其他方法。这说明前向一致性损失不仅仅是对策略的特征做了正则化。即使基于图像的模型和特征空间模型在训练环境上表现相似,训练前向一致性损失也进一步增强了泛化能力。
机器人设置:TurtleBot2 & Kobuk轮式底座 & Orbbec Astra摄像头 。动作空间有四个动作:前,左,右,停住。前进的动作大约是10cm的前进平移,转弯动作大约是14-18度的旋转。这些数字因速度而变化。一台强大的车载笔记本电脑被用来处理图像和推断电机指令。对默认的TurtleBot设置做了几处修改:电池底座换成了更耐用的电池,NVIDIA Jetson TK1预装板换成了功能更强大的GigaByte Aero笔记本电脑和配套的便携式充电电源。
ImplementationDetails 训练模型的batch-size为64,Adam学习率为1e-4,每个batch隔5~15个action选一个地标。observation是单通道,48*48。所有的模型都使用了同一个目标识别器,它是在好奇心数据上训练的。对于前向正则器、基于像素的前向一致性模型,基于特征的前向一致性模型的超参数,我们选择了最佳系数{0.01, 0.05, 0.1}。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。