当前位置:   article > 正文

集成学习(二)

permutation importance和mdi

1.bagging与决策树结合的模型随机森林(RF)

2.随机森林的随机指的是样本boostrap采样,特征随机抽取

3.每次迭代中,约36.8%的数据不参与建模,该数据称为包外数据(OOB)

4.利用OOB数据做模型评估与交叉验证思想一致,称为包外误差

5.随机森林输出特征的重要度依靠不纯度减少程度来评估(MDI)

6.MDI有两个缺陷:对连续型变量敏感;只反映在训练集的特征预测重要度

7.排列重要度解决了上述两个缺陷,但多重共线性下排列重要度不起作用

8.对特征进行聚类、降维、相关性剔除再做排列重要度特征选择

本篇我们继集成学习(一)深入讨论bagging思想的一个典型应用:随机森林

随机森林,英文是Random Forest ,简称RF,顾名思义,就是多颗决策树共同决策。它与bagging思想结合,不难想象,如果是回归问题,就是取多颗决策树的预测的均值(平均法),如果的分类问题,就是取多颗决策树的众数(投票法)。我们分三部分介绍随机森林:boostrap抽样、随机森林算法细节、特征重要度

正式介绍之前,我们先回顾bagging思想的要点:

  • bagging是通过boostrap采样并行式训练方法,基学习器的权重一样

  • bagging整体模型的偏差与基学习器近似

  • 随着评估器数量的增加可以降低bagging模型方差,故基学习器需要为强模型

boostrap抽样

bagging全名是boostrap aggregating,boostrap是指对数据集进行boostarp采样,该思想在文章

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号