主动学习（Active Learning）简介综述汇总以及主流技术方案_主动学习综述

作者：一键难忘520 | 2024-08-07 09:41:08

踩

主动学习综述

0.引言

在机器学习(Machine learning)领域，监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多，应用比较广的学习技术，wiki上对这三种学习的简单描述如下：

监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。
非监督学习：直接对输入数据集进行建模，例如聚类。
半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数。

其实很多机器学习都是在解决类别归属的问题，即给定一些数据，判断每条数据属于哪些类，或者和其他哪些数据属于同一类等等。这样，如果我们上来就对这一堆数据进行某种划分(聚类)，通过数据内在的一些属性和联系，将数据自动整理为某几类，这就属于非监督学习。如果我们一开始就知道了这些数据包含的类别，并且有一部分数据(训练数据)已经标上了类标，我们通过对这些已经标好类标的数据进行归纳总结，得出一个 “数据–>类别” 的映射函数，来对剩余的数据进行分类，这就属于监督学习。而半监督学习指的是在训练数据十分稀少的情况下，通过利用一些没有类标的数据，提高学习准确率的方法。

我们使用一些传统的监督学习方法做分类的时候，往往是训练样本规模越大，分类的效果就越好。但是在现实生活的很多场景中，标记样本的获取是比较困难的，这需要领域内的专家来进行人工标注，所花费的时间成本和经济成本都是很大的。而且，如果训练样本的规模过于庞大，训练的时间花费也会比较多。那么有没有办法，能够使用较少的训练样本来获得性能较好的分类器呢？主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度。

1.主动学习简介

主动学习是指对需要标记的数据进行优先排序的过程，这样可以确定哪些数据对训练监督模型产生最大的影响。
主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle)，用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计。
主动学习的动机在于认识到并非所有标有标签的样本都同等重要。

主动学习是一种策略/算法，是对现有模型的增强。而不是新模型架构。主动学习背后的关键思想是，如果允许机器学习算法选择它学习的数据，这样就可以用更少的训练标签实现更高的准确性。——Active Learning Literature Survey, Burr Settles。通过为专家的标记工作进行优先级排序可以大大减少训练模型所需的标记数据量。降低成本，同时提高准确性。

主动学习不是一次为所有的数据收集所有的标签，而是对模型理解最困难的数据进行优先级排序，并仅对那些数据要求标注标签。然后模型对少量已标记的数据进行训练，训练完成后再次要求对最不确定数据进行更多的标记。

通过对不确定的样本进行优先排序，模型可以让专家（人工）集中精力提供最有用的信息。这有助于模型更快地学习，并让专家跳过对模型没有太大帮助的数据。这样在某些情况下，可以大大减少需要从专家那里收集的标签数量，并且仍然可以得到一个很好的模型。这样可以为机器学习项目节省时间和金钱!

1.1 active learning的基本思想

主动学习的模型如下:

A=(C,Q,S,L,U)，

其中 C 为一组或者一个分类器，L是用于训练已标注的样本。Q 是查询函数，用于从未标注样本池U中查询信息量大的信息，S是督导者，可以为U中样本标注正确的标签。学习者通过少量初始标记样本L开始学习，通过一定的查询函数Q选择出一个或一批最有用的样本，并向督导者询问标签，然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程，直至达到某一停止准则为止。

这个准则可以是迭代次数，也可以是准确率等指标达到设定值

在这里插入图片描述

在各种主动学习方法中，查询函数的设计最常用的策略是：不确定性准则（uncertainty）和差异性准则（diversity）。 不确定性越大代表信息熵越大，包含的信息越丰富；而差异性越大代表选择的样本能够更全面地代表整个数据集。

对于不确定性，我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念，也是衡量不确定性的概念。信息熵越大，就代表不确定性越大，包含的信息量也就越丰富。事实上，有些基于不确定性的主动学习查询函数就是使用了信息熵来设计的，比如熵值装袋查询（Entropy query-by-bagging）。所以，不确定性策略就是要想方设法地找出不确定性高的样本，因为这些样本所包含的丰富信息量，对我们训练模型来说就是有用的。

那么差异性怎么来理解呢？之前说到或查询函数每次迭代中查询一个或者一批样本。我们当然希望所查询的样本提供的信息是全面的，各个样本提供的信息不重复不冗余，即样本之间具有一定的差异性。在每轮迭代抽取单个信息量最大的样本加入训练集的情况下，每一轮迭代中模型都被重新训练，以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本，那么就应该想办法来保证样本的差异性，避免数据冗余。

在这里插入图片描述

从上图也可以看出来，在相同数目的标注数据中，主动学习算法比监督学习算法的分类误差要低。这里注意横轴是标注数据的数目，对于主动学习而言，相同的标注数据下，主动学习的样本数>监督学习，这个对比主要是为了说明两者对于训练样本的使用效率不同：主动学习训练使用的样本都是经过算法筛选出来对于模型训练有帮助的数据，所以效率高。但是如果是相同样本的数量下去对比两者的误差，那肯定是监督学习占优，这是毋庸置疑的。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/941967