赞
踩
更新于2019.10.19
原理:在特征空间上最大化分类间隔的线性分类器,加上核函数可实现非线性分类(将低维特征映射到高维特征)。通常二分类。
为了实现非线性分类,其一,可通过采用松弛变量和惩罚因子对违反不等式约束的样本进行惩罚,得到对偶问题,求解对偶问题计算量大,采用SMO(sequential minimal optimization,顺序最小优化)算法可高效解决。虽然能线性可分,但是会存在误分。
多分类问题:
常用的核函数:
优点:分类与回归都能用,泛化能力好、适合小样本、高维特征。
原理:预测值根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。k 值的选择,距离度量及分类决策规则是 k 近邻法的三个基本要素。当 k=1 时称为最近邻算法。
策略:
优点:不需要训练。天然支持多分类。有非线性分类的能力。
缺点:当训练样本数大,特征向量维数很高时计算复杂度高。(每次预测都需要计算预测样本和每一个训练样本的距离,并且要对距离进行排序找到最优的那一个)。
K-NN模型过于简单怎么理解?:一个极端是k等于样本数m,则完全没有分类,此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单。
原理:是无监督的聚类算法。思想是对于给定的样本集,按照样本之间的距离大小(通常采用欧氏距离)将样本集划分为 K 个簇,让簇内的点尽量紧密地连在一起,而让簇间的距离尽量的大。
优点: 算法简单易实现。
缺点: 需要事先指定类簇个数; 聚类结果对初始类簇中心的选取较为敏感(可能每次不一样); 容易陷入局部最优; 只能发现球形类簇。
原理:朴素贝叶斯(特征相互独立)是基于贝叶斯定理和特征条件独立假设的分类方法。首先学习输入/输出的联合概率分布,然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y。属于生成模型。
现实中的变量多数近似服从正态分布。(正态贝叶斯)。
优点:属于生成模型,实现简单,计算量小,速度快。(应用于:垃圾邮箱分类、文本分类、人脸识别、视频监控等)
缺点:由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。
原理:在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
特征选择:信息熵(熵是衡量随机变量不确定性的度量。熵越大,随机变量的不确定性就越大)、信息增益(表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。)、信息增益算法(计算信息增益,选取信息增益最大的特征。)、信息增益比。
决策树的剪枝:为了解决过拟合。剪枝算法(剪去某一子结点,如果生成的新的整体树的损失函数值小于原树,则进行剪枝,直到不能继续为止。具体可以由动态规划实现。)
优点:可用于回归也可以用于分类,天然支持多分类,模型具有可读性,分类速度快。理论上可以对任意复杂度的数据进行拟合,因此,只要深度够深,可以将所有样本进行正确分类。(但是这样会出现维数灾难)
1)样本选择上:
2)样例权重:
3)预测函数:
4)并行计算:
5)总结
这两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果,将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一分类器的分类效果,但是也增大了计算量。
下面是将决策树与这些算法框架进行结合所得到的新的算法:
原理:由多棵决策树组合,这些决策树由对训练样本随机抽样构成的样本集进行训练得到,对特征向量的分量也是随机抽样。
优点:因为随机性的存在,在一定程度上可以消除过拟合。运算量小、实现简单。
缺点:决策树的个数需要人工选择,可解释性不如决策树。
原理:在训练过程中,给予错分样本更大的权值用于训练,得到一堆弱分类器组合成强分类器。并且在投票的时候,给与准确率高的分类器更大的权值。
优点:相对于随机森林而言,决策树规模更小、不需要对样本和特征进行随机采样。
缺点:标准的adaboost不能直接支持多分类与回归,需要用改进方法。
原理:GBDT中的所有决策树都是回归树,调整后可用于分类(设定阈值,大于阈值为正例,小于阈值为反例)。主要由三个概念组成:Regression Decistion Tree、Gradient Boosting与Shrinkage
对这个算法,一方面我们可以从残差的角度来理解,每一棵回归树都是在学习之前的树的残差;另一方面也可以从梯度的角度掌握算法,即每一棵回归树通过梯度下降法学习之前的树的梯度下降值。前者使用残差(残差是全局最优值),后者使用梯度(梯度是局部最优方向),简单一点来讲就是前者每一步都在试图向最终结果的方向优化,后者则每一步试图让当前结果更好一点。
优点:
缺点:
所以相对于adaboost来说,最大的区别就是GBDT学习的是残差,目标让其最小化。
原理:XGBoost是Gradient Boosting的高效实现。这个算法更好吧。
原理:也是优化问题,使用histogram算法等。
逻辑回归(LR)原理:逻辑回归是一种用于二分类问题的分类算法。它是用一条直线,将实例分类。
线性回归原理:已知一些点的X,Y坐标,统计条件X与结果Y的关系,画一条直线,让直线离所有点都尽量地近(距离之和最小),用直线抽象地表达这些点,然后对新的X预测新的Y。具体实现一般使用最小二乘法。线性回归的优点是理解和计算都相对简单,缺点是无法解决非线性问题。
逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。线性回归可以预测连续值,但是不能解决分类问题,我们需要根据预测的结果判定其属于正类还是负类。所以逻辑回归就是将线性回归的(−∞,+∞)结果,通过sigmoid函数映射到(0,1)之间。
线性回归 | 逻辑回归 | |
---|---|---|
目的 | 预测 | 分类 |
函数 | 拟合函数 | 预测函数 |
参数计算方式 | 最小二乘 | 最大似然估计 |
相同点:
区别:
原理:给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性或特征,而不同组中的数据点应该具有高度不同的属性或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
【分割线】 |
训练集层面:其一、训练集重采样 (re-sampling)方法(增加稀有类训练样本数的上采样 (up-sampling)和减少大类样本数的下采样(down-samplings)使不平衡的样本分布变得比较平衡)。其二、训练集划分方法(大类样本划分为小样本,与稀少样本组合训练,单独训练成多个分类器,最后结合多个这样的分类器)
学习算法层面:分类器集成(boost等) 、代价敏感学习(也就是权值如何分配的问题)和特征选择方法(样本不平衡、特征也会可能不平衡)。
按照输入的数据是否已被标定特定的标签将机器学习分为以下三类:
有监督学习:打标签。
无监督学习:无标签。包括聚类和强化。
半监督学习:一部分打标签,大部分不打。
分类:预测房价等问题:线性回归(linear regression)、决策树(decision tree)、随机森林(random forest)、梯度提升决策树(gradient boosting tree)、神经网络(cnn)等。
回归:支付宝大盘积分预测“涨”还是“跌”的问题:逻辑回归(logistics regression)、决策树(decision tree)、随机森林(random forest)、梯度提升决策树(gradient boosting tree)、核函数支持向量机(kernel SVM)、朴素贝叶斯(naive bayes)、线性SVM、神经网络(CNN)等。
置信风险: 分类器对未知样本进行分类,得到的误差;*(测试集误差)
经验风险: 训练好的分类器,对训练样本重新分类得到的误差,即样本误差;(训练集误差)
结构风险: 置信风险 + 经验风险。
VC维: 将N个点进行分类,如分成两类,那么可以有2^N 种分法, 即可以理解成有2^N个学习问题。 若存在一个假设H函数,能准确无误地将2^N种问题进行分类。那么这些点的数量N,就是H函数的VC维。(VC维:N)
VC置信范围(VC confidence):学习机器的VC维与训练样本数有关。 VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)
经验风险最小化:
结构风险最小化:(SVM)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。