sklearn randomForest 调参方法_sklearn.randomforestclassifier调参

作者：你好赵伟 | 2024-05-07 06:03:04

踩

sklearn.randomforestclassifier调参

什么是随机森林（ randomForest）？

森林，顾名思义，是由很多棵树组成。这里的树是指我们机器学习中的决策树。随机森林的判定准则是根据我们已有的数据集和标间，随机构造多棵决策树，最后的决策结果由每一棵树投票产生。

随机 , 随机性体现在两个方面。首先是构建每一棵数的数据集是由我们的原有数据集通过有放回采样得到。此称数据集的随机性。此外，在构建决策树的时候，选择决策结点属性的时候，也加入了随机因素。我们随机的在所有的N个特征中选择M（M<<N）个属性，从M个属性中选择最好的一个属性当做划分节点。通过这样的随机因素，构建出的决策树组合起来能够取得更好的效果。

接下来我们来学习随机森林是如何使用的。


from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import confusion_matrix #混淆矩阵
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=0,
                            random_state=0, shuffle=False)
clf = RandomForestClassifier()
clf.fit(X, y)
 
print(clf.feature_importances_)
pre=clf.predict(X)
print(confusion_matrix(y,pre))

随机森林的参数有：

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

接下来我们介绍哪些参数会对分类结果影响比较大。

主要有3个可以调整的参数来提高模型的预测能力：
1. max_features ：这一项是 Random Forest允许在单个树中尝试的最大特征数。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/547724