赞
踩
你可以在我的幕布里面查看这篇文章,也可以查看对应的思维导图
你可以转载或者保存,如果能注明出处或者点个赞那是最好的啦
感谢!
label: 国内,机器学习,综述,人大统计学院
分类
按样本特性分??
监督学习(有指导的学习):带有标签
无监督学习:无标签
半监督学习:部分带有标签
采用归纳——演绎式方法:从带标签样本推断出一定规律,再用规律推断无标签样本的标志
现阶段半监督学习性能不太稳定(2007)
代表方法:1利用朴素贝叶斯生成式模型.
2通过EM算法进行标记估计和参数估计。3.通过转导推断优化特定测试集上的性能。
4.利用独立冗余属性来进行协同训练
按度量结果分
回归问题(定量分析):针对连续数据
分类问题(定性分析):针对离散数据
发展历程(四个时期)
机器学习是人工智能研究较为年轻的分支
第一阶段(热烈时期):20世纪50年代中叶到60年代中叶
热烈时期:“没有知识”的学习
研究对象:各类自组织系统和自适应系统
研究方法:不断修改系统的控制参数和修改系统的执行能力,不涉及具体任务
代表成果:塞缪尔(Samuel)下棋程序
结果:不能满足对机器学习系统的期望
第二阶段()冷静时期):20世纪60年代中叶到70年代中叶
研究目标:模拟人类的概念学习过程
研究方法:采用逻辑结构或图结构作为机器内部描述
代表成果:温斯顿的结构学习系统,海梅罗思的基本逻辑的归纳学习系统
第三阶段(复兴阶段):20世纪70年代中叶到80年代中叶
进步:开始把学习系统与各种应用结合,从学习单个概念拓展到多个概念
1980年美国卡内基梅隆(CMU)召开第一届及去学习国际研讨会——机器学习研究兴起
第四阶段(现阶段):从三个研究方向进行
1.面向任务:分析跟开发学习系统——专家系统
2.认识模拟:研究模拟人类的学习过程——心理学角度
3.理论分析
八种常用算法
1.决策树
树状预测模型,核心是选择分裂属性和决策树的剪枝
算法:ID3,C4.5,CART。均采用自顶向下的贪婪算法
2.随机森林算法
当数据中噪声或者分裂属性过多时,无法解决决策树不平衡或过拟合的问题
通过构造多分类器或回归器的集成能提高分类或预测精度
随机森林由多个决策树构成,每一颗决策树对输入向量X进行投票,最终票数最多的就是最终标签
可用于处理回归、分类、聚类以及生存问题等
随机森林的广义误差上界可以根据两个参数推推导出来
3.人工神经网络(ANN)
ANN模型之间的差异主要表现再:研究途径、网络结构、运行方式、学习算法和应用上
常见模型:多层前向神经网络(MLFN)、自组织神经网络SOM、ART、Hopfield神经网络、模糊神经网络FNN
重点:构造阈值逻辑单元
神经网络是基于经验风险最小化原则的学习算法
缺陷:层数跟神经元个数难以确定,容易陷入局部最优,过拟合。能通过SVM算法进行优化
4.支持向量机(SVM算法)
建立在统计学习理论基础上,自动寻找出那些对分类有较好区分能力的支持向量
最大化类与类之间的间隔
寻找一个超平面,将数据分开且类域边界沿垂直于改平面方向距离最大
非线性问题可以通过非线性变化转化为某个高位空间中的线性问题
核函数:多项式核、高斯(径向基函数)核、二层神经网络核
算法:SVM—light、SMO、Chunking
三个特点(1)结构风险最小化原则。(2)算法转化为线性约束的凸优化问题,保证全局最优解。(3)应用核技术,将输入空间中现性不可分问题转化为特征空间线性可分问题
5.Boosting与Bagging算法
是一种提高学习算法准确度的方法,通过构造预测函数,将弱学习算法提升为强学习算法
AdaBoost:对训练失败的样本赋予较大权重
Boosting是一种基于其他算法之上用于提高精度与性能的算法,无论用于线性回归、神经网络还是SVM都可以有效的提高精度。
可以看作一种通用的增强基础算法性能的回归分析算法
Bagging与Boosting的区别在于Bagging的训练集是随机选择的,格伦训练集之间相互独立,所以可以通过并行训练节省大量时间开销
6.关联规则算法
关联规则课理解为:分析变量之间的饿关系,并且把这种关系表达成非常容易理解的规则的方法
关联规则分析对数据分布不做任何要求,结构完全基于数据,反应数据,可以看作是数据中所有变量间规律的总结
7.贝叶斯算法
8.EM算法
在存在潜在变量的情况下对模型参数进行估计的方法,极大似然估计
不是直接对复杂的后验分布进行极大化或模拟,而是添加一些潜在数据
特点是简单稳定,每一次迭代保证单调不减
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。