赞
踩
机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策。随着各行业对数据的需求量增多,对处理和分析数据的效率要求变高,一系列机器学习算法应运而生。机器学习算法主要是指通过数学及统计方法求解最优化问题的步骤和过程。针对不同的数据和不同模型需求,选择和使用适当的的机器学习算法可以更高效地解决一些实际问题。本文将从机器学习的起源出发,逐步介绍70多年来机器学习领域的若干重大突破及国内外研究现状,并指出未来机器学习算法面临的挑战。
机器学习最早可以追溯到对人工神经网络的研究。1943年,Warren McCulloch和Wallter Pitts提出了神经网络层次结构模型[1],确立了神经网络的计算模型理论,从而为机器学习的发展奠定了基础。1950年,“人工智能之父”图灵提出了著名的“图灵测试”,使人工智能成为了科学领域的一个重要研究课题。
1957年,康奈尔大学教授Frank Rosenblatt提出了Perceptron概念,并且首次用算法精确定义了自组织自学习的神经网络数学模型,设计出了第一个计算机神经网络。这个机器学习算法成为了神经网络模型的开山鼻祖[2]。1959年美国IBM公司的A.M.Samuel设计了一个具有学习能力的跳棋程序,曾经战胜了美国保持8年不败的冠军。这个程序向人们初步展示了机器学习的能力。
1962年,Hubel和Wiesel发现了猫脑皮层中独特的神经网络结构可以有效降低学习的复杂性,从而提出著名的Hubel-Wiese生物视觉模型,这之后提出的神经网络模型均受此启迪。
1969年,人工智能研究的先驱者Marvin Minsky和Seymour Papert出版了对机器学习研究有深远影响的著作《Perceptron》,其中对于机器学习基本思想的论断:解决问题的算法能力和计算复杂性,影响深远且延续至今。
1980年夏,在美国卡内基梅隆大学举行了第一届机器学习国际研讨会,标志着机器学习研究在世界范围内兴起。1986年,《Machine Learning》创刊,标志着机器学习逐渐为世人瞩目并开始加速发展。
1986年,Rumelhart,Hinton和Williams联合在《自然》杂志发表了著名的反向传播算法(BP)。1989年,美国贝尔实验室学者Yann和LeCun教授提出了目前最为流行的卷积神经网络(CNN)计算模型,推导出基于BP算法的高效训练方法,并成功地应用于英文手写体识别。
进入90年代,多浅层机器学习模型相继问世,诸如逻辑回归,支持向量机等,这些机器学习算法的共性是数学模型为凸代价函数的最优化问题,理论分析相对简单,容易从训练样本中学习到内在模式,来完对象识别,人物分配等初级智能工作。
2006年,机器学习领域泰斗Geoffrey Hinton和Ruslan Salakhutdinov发表文章[3],提出了深度学习模型。主要论点包括:多个隐层的人工神经网络具有良好的特征学习能力;通过逐层初始化来克服训练的难度,实现网络整体调优。这个模型的提出,开启了深度网络机器学习的新时代。2012年,Hinton研究团队采用深度学习模型赢得了计算机视觉领域最具有影响力的ImageNet 比赛冠军,标志着深度学习进入第二阶段。
深度学习近年来在多个领域取得了令人赞叹的成绩,推出了一批成功的商业应用,诸如谷歌翻译,苹果语音工具siri,微软的Cortana个人语音助手,蚂蚁金服的Smile to Pay扫脸技术[4]。特别是2016年3月,谷歌的AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。2017年10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGo Zero,它能在无任何人类输入的条件下,从空白状态学起,自我训练的时间仅为3天,自我对弈的棋局数量为490万盘,能以100:0的战绩击败前辈。
1.支持向量机分类。Lau等[5]为SVM提出一种在线学习算法,用于处理按顺序逐渐提供输入数据的分类问题。该算法速度快,所用的支持向量个数少,具有强泛化能力。Laskov等[6]提出一种快速,数值稳定和鲁棒的增量支持向量机学习方法。Huang等[7]提出一种大边缘分类器,与其他大边缘分类器或局部构建分离超平面不同,该模型能局部和全局地判定边界。Kim等[8]提出适用于大数据的特征提取和分类算法。
2.决策树分类。传统决策树作为一种经典的分类学习算法,对大数据处理存在内
存开销过大的问题。Franco-Arcega等[9]提出一种从大规模数据中构造决策树的方法,解决当前算法中的一些限制条件,可利用所有的训练集数据,但不需将它们都保存在内存中。 Yang等[10]提出一种增量优化的快速决策树算法用于处理带有噪音的大数据。与传统的挖掘大数据的决策树算法相比,该算法的主要优势是实时挖掘能力,这使得当移动数据流是无限时,它能存储完整的数据用于再训练决策模型。 Ben-Haim等[11]提出一种构建决策树分类器的算法。该算法在分布式环境中运行,适用于大数据集和流数据,与串行决策树相比,在精度误差近似的前提下能提高效率。
3.神经网络与极端学习机。传统前馈神经网络一般采用梯度下降算法调整权值参数,学习速度慢、泛化性能差等问题是制约前馈神经网络应用的瓶颈。Huang等[12]摒弃梯度下降算法的迭代调整策略,提出ELM。该方法随机赋值单隐层神经网络的输入权值和偏差项,并通过一步计算即可解析求出网络的输出权值。相比于传统前馈神经网络训练算法需经多次迭代调整才可最终确定网络权值,ELM 的训练速度获得较显著提升。
聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类,该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架,并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难,指出模糊技术在处理大数据上的有效性,研究抽样和增量在大数据上运行C-mean的作用。
在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据对象往往是大数据集,其中包含的属性数和记录数都很大,导致处理算法的执行效率低下。通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。Kolda[20]提出一种内存使用高效的Tucker分解方法用于解决传统的张量分解算法无法解决的时间和空间利用问题。Quevedo等[21]基于输入变量的有用性,采用经典技术的简单组合,如相关性和正交性,提出一种输入变量排名算法,用于大数据降维和特征提取,取得良好效果。Gheyas等[22]结合模拟退火算法、遗传算法、贪心算法及神经网络算法的优点,提出一种模拟退火和遗传算法混合算法用于解决选择最优化特征子集的NP时间问题。Pal等[23]提出一种基于SVM的用于分类的特征选择方法,Sun等[24]提出一种用于分类的特征选择算法。该算法利用局部学习理论首先将复杂的非线性问题转换为一组线性问题,然后在最大间隔的框架下学习特征关联性。Hua等[25]对比一些现有的特征选择方法,提出一种特征标签分布式模型。
机器学习及其算法在国内外备受瞩目,许多优秀的科研及技术人员致力于此。一些机器学习相关的期刊及会议应运而生,集中收录了大批高质量的论文,汇聚了一些创新性前瞻性的思想。这一部分我将以表格的形式对部分国内外杰出的致力于机器学习及其算法的研究人员,收录优秀机器学习论文的期刊及会议进行总结整理。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。