赞
踩
**
**
集成学习的概念
如果聚合一组预测器的预测,得到的预测结果也比最好的单个预测器要好。这样的一组预测器,我们称为集成,所以这种技术,也被称为集成学习,而一个集成学习的算法则被称为集成方法。
boosting bagging的概念、异同点
每个预测器使用的算法相同,但在不同的训练集随机子集上进行训练,采样时如果将样本放回,这种方法叫bagging;
提升法boosting是指可以将几个弱学习器结合成一个强学习器的任意集成方法,思路是循环训练预测器,每一次都是对其前序做出一些改正;
相同:Boosting一旦全部预测器训练完成,集成整体做出预测时和bagging方法一样,除非预测器有不同的权重,因为他们总的准确率是基于加权后的训练集;
不同:bagging可以并行运行。而Boosting无法并行运行,因为每个预测器只能在前一个预测器训练完并评估之后才能开始训练。
个体学习器的概念
个体学习器一般是由一个现有的学习算法从训练数据产生的。例如C4.5决策树,BP神经网络等。
理解不同的结合策略(平均法,投票法,学习法)
要创建一个更好的分类器,最简单的办法就是聚合每个分类器的预测,然后将得票最多的结果作为预测类别,这种大多数投票分类器被称为硬投票分类器;
如果所有分类器都能够估算出类别的概率,那么可以将概率在所有单个分类器上平均,然后让scikit-learn给出平均概率最高的类别作为预测,这被称为软投票法。
平均法:简单平均、加权平均
适用范围:
+规模大的集成,学习的权重较多,加权平均法易导致过拟合
+个体学习器性能相差较大时宜使用加权平均法,相近用简单平均法。
学习法
Stacking描述:先从初始数据集中训练出初级学习器,然后“生成”一个新数据集用于训练次级学习器。在新数据集中,初级学习器的输出被当做样例输入特征,初始样本的标记仍被当做样例标记。
算法步骤:
输入:训练集D=(x1,y1),(x2,y2),…,(xm,ym)D=(x1,y1),(x2,y2),…,(xm,ym);
初级学习算法:Λ1,Λ2,…,ΛT;Λ1,Λ2,…,ΛT;
次级学习算法:ΛΛ
过程:
1、for t=1,2,…,T dofor t=1,2,…,T do
2、ht=Λt(D);ht=Λt(D);
3、end forend for
4、D‘=∅D‘=∅
5、for i=1,2,…,m dofor i=1,2,…,m do
6、for t=1,2,…,T dofor t=1,2,…,T do
7、zit=ht(xi);zit=ht(xi);
8、endforendfor
9、D′=D′⋃((zi1,zi2,…,ziT),yi);D′=D′⋃((zi1,zi2,…,ziT),yi);
10、endforendfor
11、h′=Λ(D′);h′=Λ(D′);
输出:H(x)=h′(h1(x),h2(x),…,hT(x))H(x)=h′(h1(x),h2(x),…,hT(x))
+通过交叉验证产生次级学习器的训练样本;
+将初级学习器的输出类概率作为次级学习器的输入属性,用多响应线性回归作为次基学习算法效果较好;
随机森林的思想
训练一组决策树分类器,每一棵树都基于训练集的不同随机子集进行训练,做出预测时只需获取所有树各自的预测,然后给出得票最多的类别作为预测结果,这样一组决策树的集成被称为随机森林。
主体思想:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。
随机森林的应用场景
由于随机性,对于降低模型的方差很有作用,故随机森林一般不需要额外做剪枝,即可以取得较好的泛化能力和抗过拟合能力(Low Variance)。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些(High Bias),仅仅是相对的。
应用:
不要求是linear features (do not expect linear features or even features that interact linearly), 比如LR很难处理categorical features,而Tree Ensembles,是一些决策树的集合,可以很容易得处理这些情况
由于算法构建的过程(bagging or boosting),这类算法很容易处理高维的数据,大量的训练数据的场景
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。