当前位置:   article > 正文

机器学习 | 随机森林推测泰坦尼克号存活概率_泰坦尼克号预测为啥用随机森林

泰坦尼克号预测为啥用随机森林

集成学习方法

通过某种方式将多个单一模型组合起来,使用它们的“集体智慧”来解决问题。

随机森林

随机森林由n个决策树组成,模型的预测结果等于各决策树结果的某种“加权平均”

1、对于分类问题,最终结果等于在决策树预测结果中出现次数最多的类别。直观上,可以将每个决策树想象成一个人,而随机森林想象成一场投票,通过少数服从多数的原则取的最终的结果。

2、对于回归问题,最终结果等于决策树预测结果的平均值。

随机森林的建模依据是:一棵树犯错的概率比较大,但是很多树同时犯错的概率就很小了。

建立多个树的过程
现在有N个样本, M个特征
建立多个树,其实就是随机的建立单个树
单个树建立过程:

随机在N个样本当中选择一个样本,重复N次 样本可能会重复。为了让样本数相等
随机在M个特征中选出m个特征
之后建立10棵决策树,每个决策树的样本,特征大多不一样。每个树都是随机有放回的抽样(bootstrop)


随机森林的API

参考链接:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=randomforestclassifier#sklearn

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/237130?site
推荐阅读
相关标签
  

闽ICP备14008679号