赞
踩
从人类的角度看,当我们学习时会有一个记忆机制,我们会对重要的知识进行总结提取,从而再面临新的学习任务时能够从记忆中提取到一定的经验技巧来辅助我们进行新的学习。基于这种机制也就引出了我们今天所要讨论的一类方法—Memory based方法。
问:为什么要在强化学习中使用 memory?
答:提高效率
问:如何提高效率?
答:1)把之前的好的经验记录下来,下次遇到类似状态,可以直接依照之前的成功经验来;2)之前网络的更新是基于 one-step transition 的,需要多次更新神经网络才能把轨迹末端的 return 反向传播到前面状态的价值函数上,如果直接基于整条轨迹的 memory 来更新价值函数网路,会学得更快。
Memory-based RL
记忆网络之Memory Networks
Meta-Learning(2)—Memory based方法
这类方法元学习一个特征空间,可用于基于输入相似度预测类别。
进一步说,这类方法的目标是获取一个可以度量相似性的好的特征空间, 随后把这一特征空间用于各种各样的新任务。在神经网络的情况下,该特征空间与网络的权重weights相吻合。
然后,通过比较元学习特征空间中的新输入和示例输入,可以学习新的任务。具体来说,新输入与示例之间的相似性越高,它们属于同一类的可能性就越大。
这类方法计算输入的相似性,简单有效,计算快,训练模型不需要针对测试任务进行调整。
未来的改进方向:
应用在监督学习之外的设定中;
当测试与训练任务距离远时,效果不好;
任务变得更大时,逐对比较导致计算上成本昂贵;
基于优化的方法目标是通过参数优化快速学习新任务。这与经典的学习方法非常类似,经典的学习也是通过优化(如梯度下降)实现的。
然而,与传统方法相比,基于优化的元学习器可以学习优化本身,并且是在多个任务下执行参数优化得到的,这让模型可以学会快速学习新任务。
基于优化的方法的一个关键优势是,与基于模型的方法相比,它们可以在更广泛的任务分配上取得更好的表现。但是计算代价太昂贵了,这为引入新的模块/设定新的应用场景造成了很大的阻碍。
未来的几个主要改进方向:
减少计算量;
减少模型在训练任务上的过拟合;
在概率论的框架下实现模型,使用更好的概率近似方法,从任务中提取更好的先验;
这类方法先学习任务的表示,再用任务的表示生成分类模型的部分参数。当一个任务出现时,基于模型的神经网络按顺序处理数据集。在每一个时间步骤中,都会有一个输入进入,并改变模型的内部状态。因此,内部状态可以捕获相关的特定于任务的信息,这些信息可以用于生成另一个分类模型的部分参数。
Black-box名字的由来:模型的输出不是分类标签本身,而是分类模型的参数(或一部分参数),因而是黑盒的。
未来的改进方向:
由于其系统内部动力学的灵活性,相比大多数基于度量的元学习有更广泛适用性;
在很多监督任务上表现不如度量学习;
当数据量增大时,效果变差;
任务间距离大时,效果不如基于优化的元学习方法;
元学习该何去何从
Meta-learning核心思想及近年顶会3个优化方向
元学习方向 optimization based meta learning 之 MAML论文详细解读
前面讲过,元学习和迁移学习有相似的地方,形式上都是在之前的任务上进行预训练,然后获得一组参数,然后用这组参数在新的任务继续微调,但它们是有本质的区别的。想想迁移学习的预训练是怎么训练的,比如在 ImageNet 大数据集上预训练的 RestNet、VGG 这些网络模型,它们在训练的时候是用在 ImageNet 训练集上的 loss 算出来的梯度来更新模型参数的,以训练集上的 loss 为准,关心的是当前模型参数在训练集上的性能如何。而元学习 MAML 在训练期间是用测试集上的 loss 算出的梯度来更新模型参数的,以测试集上的 loss 为准,不关心在当前训练集上的性能,而是关心这组参数在之后的测试集上的性能如何,也就是这组参数的潜力。换句话说,在 MAML 这篇论文中,是看这组参数在更新一次后的模型参数在测试集上能够表现多好,而不是训练期间能够多好,这种潜力也与元学习的大目标相符,即 Learn to learn 学会如何学习从而具备某种学习能力或学习技巧,可以在新的任务上快速学习。类比到上面老师和学生的例子,也很好理解,老师每次都是以学生的平均考试成绩为方向进行调整,这个考试成绩自然是每门功课上没有见过的题目,只有这样才能训练出该学生的学习能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。