Python数据挖掘——决策树_python决策树的最大深度是什么

作者：不正经 | 2024-06-13 09:33:10

踩

python决策树的最大深度是什么

sklearn中DecisionTree学习笔记

参考博文：scikit-learn决策树算法类库使用小结

sklearn中的决策树算法包含 DecissionTreeClassifier 和 DecissionTreeRegression ，二者的的用法基本相同。
不同的是： 回归决策树里面的Y值可以是浮点数；criterrion 参数值不同。

sklearn.tree.DecisionTreeClassifier参数

criterion

特征选择标准： ‘gini’ or ‘entropy’ (default=”gini”)，前者是基尼系数，后者是信息熵。
一般说使用默认的基尼系数”gini”就可以了，即CART算法。除非你更喜欢类似ID3, C4.5的最优特征选择方法。
splitter

特征划分点选择标准： ‘best’ or ‘random’ (default=”best”)
前者在特征的所有划分点中找出最优的划分点。后者是随机的在部分划分点中找局部最优的划分点。
默认的”best”适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐”random” 。
max_depth

决策树的最大深度： int or None, optional (default=None)
一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。
min_samples_split

内部节点再划分所需最小样本数：int, float, optional (default=2)
如果是 int，则取传入值本身作为最小样本数；
如果是 float，则去 ceil(min_samples_split * 样本数量) 的值作为最小样本数，即向上取整。
这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。
min_samples_leaf

叶子节点最少样本数： int, float, optional (default=1)
如果是 int，则取传入值本身作为最小样本数；
如果是 float，则去 ceil(min_samples_leaf * 样本数量) 的值作为最小样本数，即向上取整。
这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf

叶子节点最小的样本权重和：float, optional (default=0.)
这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。
默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。
max_features

划分时考虑的最大特征数：int, float, string or None, optional (default=None)
If int, then consider max_features features at each split.
If float, then max_features is a percentage and int(max_features * n_features) features are considered at each split.
If “auto”, then max_features=sqrt(n_features).
If “sqrt”, then max_features=sqrt(n_features).
If “log2”, then max_features=log2(n_featur

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/711792