赞
踩
问题:小样本学习(Few-Shot Learning ,FSL),经验风险最小化是不可靠的。
【补充:
J(θ)一般取L1或L2范数,θ为所有参数(自由度),λ>0是正则项的强度。】
小样本学习的经验风险最小化是不可靠的,具体的来讲:
样本少,会使期望风险(h*)和经验风险(hI)下的函数相差较多。
(i) 数据,使用先验知识来增加监督经验,即数据增强。
(ii) 模型,利用先验知识缩小假设空间大小的模型。
(iii) 算法,利用先验知识在给定的假设空间中改变搜索最佳假设的方法。
数据:即数据增强(data augmentation),常见的包括平移,翻转,修剪,缩放,反射,裁剪,旋转等。
具体的,数据增强可分为以下三种:
主要分为从训练集Dtrain生成样本,从弱标签或无标签的大数据集生成样本(相比之下人工成本较低),通过汇总和改编来自相似但较大数据集(generative adversarial network ,GAN)。
存在问题:
多任务学习利用任务间共享的通用信息和每个任务的特定信息,同时学习多个任务。因此,它们可以很自然地用于FSL。
设置小样本学习为目标任务,其他数据集学习为源任务。
根据是否实行参数共享的方式,可将这类方法分为两类,参数共享和参数绑定。区别如下图所示:
参数共享(上图):设置每个任务有共享的层或参数,有各自特定的层或参数。每个任务需要限定哪些参数可以更新,哪些不能更新。比如目标任务只能更新特定的层,源任务可以更新共享层和特定层。简而言之,就是训练一个网络结构,用源任务(其他已有数据集)作梯度下降法训练所有参数,再用小样本数据集训练网络。相当于针对小样本任务,用其他训练集作了一个参数预训练,为了防止小样本的过拟合,小样本训练只微调网络的部分参数(一般是最后几层全连接层的参数)。
参数绑定: 小样本学习任务和其他任务的网络结构相同,但网络参数不是简单的直接迁移,而是用一些正则化规则使其相似。
主要思想: 把高维样本嵌入到低维空间中,再比较样本的相似度。 比如:
(孪生网络) 先把样本两两配对,用f,g两个嵌入函数(f和g可以是同一函数)分别将2个样本映射到同一嵌入空间,即得到两个低维向量(同维数),利用一个距离函数来输出两图片的相似度(如欧式距离,余弦距离等)。
(匹配网络) 多个不同类样本S和一个样本x分别用f,g嵌入到低维空间中,利用某一个距离函数输出x与S中所有样本的相似度,依此来判断x是属于S的哪个样本的类。
嵌入函数f,g主要由先验知识所学得,这类模型通常用于分类问题。嵌入学习分为特定任务嵌入,多任务嵌入和混合嵌入模型。
特定任务嵌入: 用训练样本直接来训练模型。
多任务嵌入: 利用一个其他的数据集(不包括目标小样本的数据集)来训练参数(包括嵌入函数f,g和相似度函数的参数)。这样训练好的模型能直接用于小样本中检测。
混合嵌入: 先用其他数据集训练嵌入函数g,再用小样本数据集训练嵌入函数f。相似度函数S预先给定。
把小样本训练集经过f得到的低维向量存储到外置内存M中。其中f是提前学习好的。
M中的key一般指样本的嵌入向量,value为对应标签(相同类样本映射到相同值),即同类样本不断优化它们类的表示key。M的大小设定很小,要注意其数据的更新。
测试样本 x 经过嵌入函数得到 f(x),用 f(x) 和 M 中的 key 值做相似度匹配,用最相似的几个 key 对应的 value 值线性表示 x 的预测,再输入到softmax函数变成概率分布作为 x 的预测结果。
这里的生成模型使用先验知识来估计潜变量的概率分布,从而约束了假设空间的大小。从观测到的 xi 估计概率分布p(x)。
根据在潜变量代表的信息,现有方法可以分成三种:
decomposable components(可分解的元件)
尽管在FSL问题中缺少具有监督信息的样本,但它们可能与其他任务的样本共享一些较小的可分解组件。这种方法利用从先验数据中学习到的可分解的各个元件,如人脸识别中的五官等,从中学习各元件与目标类的关系,将其与目标类联结起来。
groupwise shared prior(相似类的先验概率分布)
通常,相似的任务具有相似的先验概率,并且可以在FSL中使用。 例如,考虑“橙色猫”,“豹”和“孟加拉虎”的三级分类,这三个物种相似,但孟加拉虎濒临灭绝,而橙色猫和豹则丰富,因此,人们可以学习一种 来自“橙色猫”以及“豹”的先验概率,并以此作为few-shot类级“孟加拉虎”的先决条件。该方法利用相似数据类的先验概率分布,将小样本数据分类至若干个对应的相似数据类中,利用类的先验概率分布建模。
parameters of inference networks(推理网络参数)
该方法利用现有的深度网络的参数的强特征表征能力来表征新的任务数据,更加高效且降低了对人类知识的要求。通常使用一些辅助大规模数据集对推理网络进行训练,典型的包括变分自编码器(VAE),自回归模型,生成对抗网络(GAN), VAE和GAN的组合等。
(1)多任务学习
需要所有任务的联合训练,面对新的少样本任务需要重新训练,昂贵且缓慢。
(2)嵌入学习
要求任务间相关,在少样本任务和其他任务相关性不强时不适用。
(3)基于外部内存学习
可以精心设计小内存网络,有额外内存和计算成本,外部内存有限时不适用。
(4)生成学习
需要从其他数据集学先验,推理成本高,比确定性模型更难推导。
基于算法的工作旨在利用先验知识寻找合适的模型参数,如初始化参数,优化路径等。
根据对先验知识的利用方式不同,可将方法分为:
通过正则化对现有参数进行微调。
聚合一组参数
微调现有参数
文章最后从问题设置、技术、应用和理论四个层面探讨了小样本学习领域的未来发展方向。
1. 2020《Generalizing from a Few Examples: A Survey on Few-Shot Learning》pdf
2. 论文作者建立的GitHub 地址
3. 参考博客1
4. 参考博客2
5. 参考博客3
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。