赞
踩
第一次写博客,以前组会论文阅读都是以markdown文件的形式记录,这次试试新鲜的方法,方便以后查阅。
这次调研的目的是想找到最近几年LfD的方法,期望是能找到和深度强化学习结合的方法,如果有 Imitation Learning 相关的工作当然是更好的。但是发现找的这篇文章和期望还是有偏差,文章介绍的方法很多都2013年之前的,和强化学习相关的内容比较少,但是总体上介绍了 LfD 的现状以及在工业上的应用问题,对于刚刚接触的同学来说还是非常值得一看的。
这篇文章从一下七个方面总结了之前 LfD (Learning from Demonstration):
具体细节文章里都有列出,不涉及公式的运用以及推导。
最后,文章介绍了当前LfD在投入实际应用方面面临的挑战,提出了对未来的展望。
对于 traditional programming scenario,为了实现特定任务,程序员需要对所有可能出现的情况进行编程。Robot Learning from Demonstration (RLfD) 则希望通过 end user 给予的示教轨迹来训练机器人来完成特定的任务而不用重新编写对应任务程序,同时大量的pre-programming在LfD中也是没有必要的。
在LfD中通常要考虑到如下三个个设定:
Novice end user
As few demonstrations as possible
As short training time as possible
在基本上满足上述设定后,还需要追求可以实现More complex task 以及 better performance than human
LfD的基本流程可以概况成如下三个:
通常情况下,data的基本单元是state action pair ( s , a ) (s,a) (s,a),学习的就是这些 pair 之间的联系。
机器人与环境交互 根据转移概率矩阵从当前state到下一个state
环境可以是全部可观测的或部分可观测的,取决于示教数据的种类以及示教方法
空间可以是连续的或离散的,连续空间的机器人,state可以用当前坐标,机器人关节角度,角速度和速度表示
学习的目标需要明确以防止给评估造成困扰,目标可以是单个整体的也可以是多个小目标组成。
一个基本是事实是,训练的效果(如完成任务的准确度)和轨迹的数量以及训练的次数正相关,如何定义完成任务完成也是重要的因素。
当前并没有标准的评判标准,由于当下的LfD任务并不复杂,所以 reasonable accomplishment of skill goal已经足够;同时,没有统一的baseline作为比较,实验的平台也大多不相同。
需要注意的是,机器人的物理结构和teacher的不一样(我理解的是对于人形机器人,通过motion capture 设备得到示教轨迹的时候会出现这些问题)。如何准确的mapping是一个挑战。
从上世纪90年代开始,这方面的工作开始陆续出现,早期的工作包括encoding and modeling human demonstrations,很多都是基于人形机器人平台学习一些基本的动作。文章描述这个时期的工作用了overlapping这个词,可以理解为重复性工作(平台,任务,方法)比较多,这造成了lack of clarity regarding use of approaches for LfD。同时,不同的工作的 evaluation 也不同,造成了没有统一的 baseline 作为比较。
文章把 learning process 分成了两大部分,即学习三维空间的动作基元 primitive motions 的 Low level skills,以及多种动作基元组合而成的动作序列 High level skills
这篇文章在方法方面着重的介绍了学习Low level skills 的三种方法 :
之前参与的组会中,DMP 和 HMM 都有介绍过,自己留有相应的演示文稿(有时间再整理到博客上吧),这次探索 GMM-GMR 部分
GMM已经有博主写过很好的介绍,但是目前没有发现比较详细的GMR介绍文章: 高斯混合模型(GMM)介绍以及学习笔记
关于High level skills 其中一种用的很多的方法是强化学习(终于看到它了)
文章最后介绍了如何改进学习的到的结果包括噪声处理,以及 end user 给予的示教处理
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。