当前位置:   article > 正文

【论文笔记】AutoML: A survey of the state-of-the-art(上篇)_automl:a survey

automl:a survey

先说点废话,这篇文章是我去年9月份就读过的了,这是篇综述,可以算是AutoML领域入门读物,写这篇博客当做自己的回顾。原文有点长,正文一共二十多页,所以下文介绍正文部分时我就不全部介绍了,只挑我觉得重点的地方,正文太多,大多数直接采用WPS的划词翻译的内容。
篇幅有点长,所以分为上下两篇,上部分主要是原文的1-3章,属于经典机器学习的范畴,在下篇重点介绍本文的重点内容。

【论文笔记】AutoML: A survey of the state-of-the-art(下篇)

尝试一句话总结

这篇文章简单介绍了深度学习技术的发展史,从开始的在机器学习领域的人工提取特征(特征工程),到设计深度神经网络,最后介绍神经架构搜索Neural Architecture Search, NAS,并重点在介绍NAS,从NAS的构成,不同方法的代表模型,到各个模型在CIFAR10和ImageNet数据集上的表现的汇总,最后对NAS的未来进行了讨论。

原文链接(可能需要科学上网)

标题

AutoML: A survey of the state-of-the-art
自动机器学习:最新的综述

0. Abstract

   Deep learning (DL) techniques have obtained remarkable achievements on various tasks, such as image recognition, object detection, and language modeling. However, building a high-quality DL system for a specific task highly relies on human expertise, hindering its wide application. Meanwhile, automated machine learning (AutoML) is a promising solution for building a DL system without human assistance and is being extensively studied. This paper presents a comprehensive and up-to-date review of the state-of-the-art (SOTA) in AutoML. According to the DL pipeline, we introduce AutoML methods – covering data preparation, feature engineering, hyperparameter optimization, and neural architecture search (NAS) – with a particular focus on NAS, as it is currently a hot sub-topic of AutoML. We summarize the representative NAS algorithms’ performance on the CIFAR-10 and ImageNet datasets and further discuss the following subjects of NAS methods: one/two-stage NAS, one-shot NAS, joint hyperparameter and architecture optimization, and resource-aware NAS. Finally, we discuss some open problems related to the existing AutoML methods for future research.

摘要解读

   深度学习(DL)技术在图像识别、目标检测和语言建模等各种任务上都取得了显著的成就。然而,为一个特定的任务建立一个高质量的DL系统高度依赖于人类的专业知识,阻碍了它的广泛应用。同时,自动机器学习(AutoML)是一种很有前途的解决方案,无需人的帮助,并正在得到广泛的研究。本文提出了一个全面的和最新的回顾,在最先进的(SOTA)在AutoML。根据DL管道,我们引入了AutoML方法——包括数据准备、特征工程、超参数优化和神经架构搜索(NAS)——并特别关注NAS,因为它是目前AutoML的一个热门子主题。我们总结了具有代表性的NAS算法在CIFAR-10和ImageNet数据集上的性能,并进一步讨论了NAS方法的以下主题:一/两阶段NAS、一次性NAS、联合超参数和架构优化,以及资源感知NAS。最后,我们讨论了与现有的AutoML方法相关的一些开放问题,以供进一步研究。

1. Introduction

   我们知道,最近几年深度学习的在各个领域的应用越来越广泛,而且也解决了很多有挑战性的任务,但是值得注意的是,这些模型都是由专家通过试错过程手工设计的,这意味着即使是专家也需要大量的资源和时间来创建性能良好的模型。为了减少这些繁重的开发成本,出现了一种自动化整个机器学习(ML)管道的新想法,即自动机器学习(AutoML)。
   AutoML有很多定义,比如:AutoML旨在减少对数据科学家的需求,并使领域专家能够自动构建ML应用程序,而不需要多少统计和ML知识;自动机器学习被定义为自动化和机器学习的组合。总之,AutoML可以理解为涉及在有限的计算预算上自动构建ML管道。
   随着计算能力的指数级增长,AutoML已经成为工业界和学术界的热门热点。一个完整的AutoML系统可以将各种技术进行动态组合,形成一个易于使用的端到端ML管道系统(如图1所示)。许多人工智能公司已经创建并公开共享了这样的系统(例如,谷歌的云AutoML1),以帮助那些很少或没有ML知识的人构建高质量的定制模型。
在这里插入图片描述
   如图1所示,AutoML管道由几个过程组成:数据准备、特征工程、模型生成和模型评估。模型的生成可以进一步分为搜索空间和优化方法。搜索空间定义了ML模型的设计原则,可以分为两类:传统的ML模型(如SVM和KNN)和神经结构。优化方法分为超参数优化(HPO)和架构优化(AO),前者表示与训练相关的参数(如学习率和批处理大小),后者表示与模型相关的参数(如神经结构的层数和KNN的邻居数)。
  NAS由三个重要部分组成:神经架构的搜索空间、AO方法和模型评估方法。AO方法也可以指搜索策略或搜索策略。Zoph等人是最早提出NAS的人之一,其中循环网络通过强化学习进行训练,以自动搜索性能最佳的架构。自从成功发现一个神经网络的结果与人类设计的模型相当以来,人们对AutoML的研究兴趣激增,其中大部分集中在NAS上。NAS旨在通过从预定义的搜索空间中选择和组合不同的基本操作来寻找一个健壮和性能良好的神经结构。通过对NAS方法的回顾,我们将常用的搜索空间划分为全结构的、基于细胞的、分层的和基于形态的搜索空间。常用的AO方法包括强化学习(RL)、基于进化的算法(EA)、梯度下降(GD)、基于替代模型的优化(SMBO),以及混合AO方法。

2. Data Preparation 数据准备

  ML管道中的第一步是数据准备。图2为数据准备的工作流程,可以从三个方面进行介绍:数据收集、数据清理和数据增强。数据收集是构建新数据集或扩展现有数据集的必要步骤。利用数据清理过程对有噪声的数据进行过滤,从而不影响下游模型的训练。数据增强在提高模型的鲁棒性和提高模型的性能方面具有重要的作用。

  在某种程度上,数据增强(DA)也可以被看作是一种数据收集的工具,因为它可以基于现有的数据生成新的数据。然而,DA也作为一种正则化器,避免了模型训练的过拟合,并受到了越来越多的关注。DA方法有下面图示的这些。
在这里插入图片描述
  上述增强技术仍然需要人工选择增强操作,然后针对特定的任务形成特定的DA策略,这需要大量的专业知识和时间。最近,[100–110]提出了许多方法来搜索不同任务的增强策略。自动增强[100]是一项开创性的工作,以自动搜索最优的DA策略使用强化学习。然而,自动增强并不有效,因为它需要近500个GPU小时的一个增强搜索。为了提高搜索效率,随后提出了一些改进的算法,如基于梯度下降的[101,102]、基于贝叶斯的优化[103]、在线超参数学习[109]、基于贪婪的搜索[104]和随机搜索[107]。此外,LingChen等人提出了一种无搜索DA方法,即假设增强空间近似分布不变。

3. Feature Engineering 特征工程

  人们普遍认为,数据和特征决定了ML的上界,而模型和算法只能近似于这个极限。在这种情况下,特征工程旨在最大限度地从原始数据中提取特征,以供算法和模型使用。特征工程包括三个子主题:特征选择、特征提取和特征构造。特征提取和构造是特征转换的变体,通过它创建一组新的特征[111]。在大多数情况下,特征提取的目的是通过应用特定的映射函数来降低特征的维数,而特征构造是用来扩展原始特征空间,特征选择的目的是通过选择重要的特征来减少特征的冗余。因此,自动特征工程的本质在某种程度上是这三个过程的动态组合。

3.1 Feature selection 特征选择

  特征选择通过减少不相关或冗余的特征,基于原始特征集构建特征子集。这倾向于简化模型,从而避免过拟合和提高模型性能。被选择的特征通常是发散的,并且与对象值高度相关。根据[112],在一个典型的特征选择过程中有四个基本步骤(见图4),如下:
在这里插入图片描述
  特征选择的搜索策略包括三种算法:完全搜索、启发式搜索和随机搜索。完全搜索包括穷举和非穷举搜索;后者可进一步分为四种方法:广度优先搜索、分支定界搜索、波束搜索和最佳优先搜索。启发式搜索包括顺序向前选择(SFS)、顺序向后选择(SBS)和双向搜索(BS)。在SFS和SBS中,特征分别从空集合中添加或从全集合中删除,而BS使用SFS和BSS进行搜索,直到这两种算法获得相同的子集。最常用的随机搜索方法是模拟退火(SA)和遗传算法(GA)。
  子集评估方法可分为三类。第一种是过滤方法,它根据每个特征的散度或相关性对其进行评分,然后根据阈值选择特征。每个特征的常用评分标准是方差、相关系数、片方检验和互信息。第二种是包装方法,它用所选的特征子集对样本集进行分类,然后将分类精度作为衡量特征子集质量的标准。第三种方法是嵌入式方法,其中变量选择是学习过程的一部分。正则化、决策树和深度学习都是嵌入式方法。

3.2 Feature Construction 特征构造

  特征构造是一个从基本特征空间或原始数据构建新特征的过程,以增强模型的鲁棒性和通用性。从本质上,这样做是为了提高原始特征的代表性能力。这个过程传统上高度依赖于人类的专业知识,而最常用的方法之一是预处理转换,如标准化、标准化或特征离散化。此外,针对不同类型的特性的转换操作也可能会有所不同。例如,连接、分离和否定等运算通常用于布尔特征;最小值、最大值、加、加、减、均值等操作通常用于数值特征,笛卡尔积[113]和M-of-N [114]等操作通常用于名义特征。

3.3 Feature Extraction 特征提取

  特征提取是通过一些映射函数执行的降维过程。它根据某些指标提取信息性和非冗余特征。与特征选择不同,特征提取会改变原始特征。特征提取的核心是一个映射函数,它可以以多种方式实现。最突出的方法是主成分分析(PCA)、独立成分分析、等映射、非线性降维和线性判别分析(LDA)。最近,前馈神经网络方法变得流行起来;这使用预训练模型的隐藏单元作为提取特征。此外,提出了许多基于自动编码器的算法;例如,Zeng等人[119]提出了一种考虑数据特征及其关系的关系自动编码器模型,而[120]提出了使用自动编码器树的无监督特征提取方法。

主成分分析PCA相信大家应该很熟悉了,这个方法很常用,但其中的数学原理有点复杂,真正搞懂还需要下点功夫。

本篇暂时到这里,在下一篇中记录这篇文章的重点。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/833436
推荐阅读
相关标签
  

闽ICP备14008679号