赞
踩
1.bagging与决策树结合的模型叫随机森林(RF)
2.随机森林的随机指的是样本boostrap采样,特征随机抽取
3.每次迭代中,约36.8%的数据不参与建模,该数据称为包外数据(OOB)
4.利用OOB数据做模型评估与交叉验证思想一致,称为包外误差
5.随机森林输出特征的重要度依靠不纯度减少程度来评估(MDI)
6.MDI有两个缺陷:对连续型变量敏感;只反映在训练集的特征预测重要度
7.排列重要度解决了上述两个缺陷,但多重共线性下排列重要度不起作用
8.对特征进行聚类、降维、相关性剔除再做排列重要度特征选择
本篇我们继集成学习(一)深入讨论bagging思想的一个典型应用:随机森林
随机森林,英文是Random Forest ,简称RF,顾名思义,就是多颗决策树共同决策。它与bagging思想结合,不难想象,如果是回归问题,就是取多颗决策树的预测的均值(平均法),如果的分类问题,就是取多颗决策树的众数(投票法)。我们分三部分介绍随机森林:boostrap抽样、随机森林算法细节、特征重要度
正式介绍之前,我们先回顾bagging思想的要点:
bagging是通过boostrap采样的并行式训练方法,基学习器的权重一样
bagging整体模型的偏差与基学习器近似
随着评估器数量的增加可以降低bagging模型方差,故基学习器需要为强模型
boostrap抽样
bagging全名是boostrap aggregating,boostrap是指对数据集进行boostarp采样,该思想在文章
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。