赞
踩
两大流派:
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林解决了决策树泛化能力弱的缺点,随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。
随机是指随机选择样本,随机选择特征。即每一棵树是从整个训练样本集当中选取固定数量的样本集,然后选取固定数量的特征集,从而构建随机森林中的每一棵决策树。
森林是指模型中包含了很多棵决策树。
从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。
随机森林
熵越大即这个类别的不确定性更大,反之越小,当随机变量的取值为两个时,熵随概率的变化曲线如下图:
当p=0或p=1时,H(p)=0,随机变量完全没有不确定性,当p=0.5时,H(p)=1,此时随机变量的不确定性最大
条件熵是用来解释信息增益而引入的概念,概率定义:随机变量X在给定条件下随机变量Y的条件熵,对定义描述为:X给定条件下Y的条件干率分布的熵对X的数学期望,在机器学习中为选定某个特征后的熵,公式如下:
p(xi)指是当xi发生时的概率
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差
1、预设模型的超参数。几棵树?分几层?
2、如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的。
DATASTET [N*D] => data subset [n*d]
N,n表示样本数量 N>>n
D,d表示特征数量 D>>d
3、输入待测样本到每个树中,再将每个数的结果整合。
Regression问题求均值
Classification问题求众数
优点:
缺点:
1、模型往往过于General,不具备正确处理过于困难的样本的能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。