当前位置:   article > 正文

sklearn randomForest 调参方法_sklearn.randomforestclassifier调参

sklearn.randomforestclassifier调参

什么是随机森林( randomForest)?
森林,顾名思义,是由很多棵树组成。这里的树是指我们机器学习中的决策树。随机森林的判定准则是根据我们已有的数据集和标间,随机构造多棵决策树,最后的决策结果由每一棵树投票产生。

随机 , 随机性体现在两个方面。首先是构建每一棵数的数据集是由我们的原有数据集 通过有放回采样得到。此称数据集的随机性。此外,在构建决策树的时候,选择决策结点属性的时候,也加入了随机因素。我们随机的在所有的N个特征中选择M(M<<N)个属性,从M个属性中选择最好的一个属性当做划分节点。通过这样的随机因素,构建出的决策树组合起来能够取得更好的效果。
接下来我们来学习随机森林是如何使用的。
  1. from sklearn.ensemble import RandomForestClassifier
  2. from sklearn.datasets import make_classification
  3. from sklearn.metrics import confusion_matrix #混淆矩阵
  4. X, y = make_classification(n_samples=1000, n_features=4,
  5. n_informative=2, n_redundant=0,
  6. random_state=0, shuffle=False)
  7. clf = RandomForestClassifier()
  8. clf.fit(X, y)
  9. print(clf.feature_importances_)
  10. pre=clf.predict(X)
  11. print(confusion_matrix(y,pre))

随机森林的参数有:
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)
接下来我们介绍哪些参数会对分类结果影响比较大。

主要有3个可以调整的参数来提高模型的预测能力:
1.  max_features 这一项是 Random Forest允许在单个树中尝试的最大特征数。
   
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/547724
推荐阅读
相关标签
  

闽ICP备14008679号