赞
踩
随机森林是集成算法的一种,它属于集成算法中的装袋法,根据袋子里面的基评估器来做出综合的判断,所以要求每个基评估器评估的结果准确率高于50%
criterion不纯度的衡量指标,有基尼系数和信息熵两种选择
max_depth树的最大深度,超过最大深度的树枝都会被剪掉
min_samples_leaf一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生
min_samples_split一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生
max_featuresmax_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃,默认值为总特征个数开平方取整
min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生
n_estimators: 这是森林中树木的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的效果往往越好。(但是有边界,会趋于平稳)
random_state:
boostrap:控制抽样技术的参数,默认为True,代表一种特殊的又放回的抽样技术,在样本不够大,或者基决策器比较少时,作用就变小了。
oob_score_:查看我们的在袋外数据上测试的结果
.estimators_
.oob_score_
.feature_importances_
apply fit predict score
predict_proba
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。