赞
踩
用task encoding解决一下问题:
背景: 借用了POMDP的状态推理与学习分开的思想; 使用了SAC框架
主要工作:本文Meta-learning的流程为,通过Meta-training过程,对过去积累的tasks experience进行encoding,相当于train出一个task encoder。随后,在Meta-testing的过程中,利用encoder来encoding新任务的关键信息,并在学习中不断地更新对新任务的判断,最后,使用encoder返回的信息进行新任务的learning过程。
Meta Test:完成encoder的training过后,面对一个新的任务,PEARL就可以非常自然的在学习中加入encoded过的信息,从而利用过去学习过的任务进行新任务的学习,即完成了Learn to learn。
总结:总结来说,这篇工作将task inference与learning过程分离的idea来自于POMDPs的探索过程,通过这样的分离,使得meta-RL中对样本的利用率提高了。但是元学习无法回避的对样本的依赖仍然没有解决,如何对learn to learn中的training sample进行选择,可能仍然是需要更多探索的问题。
感觉中的不足:此次的结果对比只和没有利用过expert data的数据进行对比,虽然确实快了一两个数量级,但是为体现出和metaBC之间对比的优势劣势,至少训练速度不占优。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。