当前位置:   article > 正文

实用:sklearn提取决策树数据例子(附python代码)_sklearn决策树实例

sklearn决策树实例

《老饼讲解机器学习》icon-default.png?t=N7T8https://www.bbbdata.com/ml/text/35


目录

一.决策树数据提取代码

二. 例子解说

1.提取树结构

2.提取节点信息


 用sklearn建好决策树后,可以打印出树的结构:

但往往我们提取图中的数据(例如用于将决策树转化成规则代码),那图中的数据究竟在哪呢?
本文讲述如何在sklearn训练好决策树后,提取决策树中的数据。 

一.决策树数据提取代码

决策树的结构主要由如下代码提取:
左节点编号  :  clf.tree_.children_left
右节点编号  :  clf.tree_.children_right
分割的变量  :  clf.tree_.feature
分割的阈值  :  clf.tree_.threshold
不纯度(gini) :  clf.tree_.impurity
样本个数      :  clf.tree_.n_node_samples
样本分布      :  clf.tree_.value

二. 例子解说

直接用例子说明

代码:

  1. # -*- coding: utf-8 -*-
  2. from sklearn.datasets import load_iris
  3. from sklearn import tree
  4. import graphviz
  5. #----------------数据准备----------------------------
  6. iris = load_iris() # 加载数据
  7. #---------------模型训练---------------------------------
  8. clf = tree.DecisionTreeClassifier(random_state=0,max_depth=3)
  9. clf = clf.fit(iris.data, iris.target)
  10. #---------------树结构可视化-----------------------------
  11. dot_data = tree.export_graphviz(clf)
  12. graph = graphviz.Source(dot_data)
  13. graph # 需要独立运行
  14. #---------------提取模型结构数据--------------------------
  15. children_left = clf.tree_.children_left # 左节点编号
  16. children_right = clf.tree_.children_right # 右节点编号
  17. feature = clf.tree_.feature # 分割的变量
  18. threshold = clf.tree_.threshold # 分割阈值
  19. impurity = clf.tree_.impurity # 不纯度(gini)
  20. n_node_samples = clf.tree_.n_node_samples # 样本个数
  21. value = clf.tree_.value # 样本分布
  22. #-------------打印------------------------------
  23. print("children_left:",children_left)
  24. print("children_right:",children_right)
  25. print("feature:",feature)
  26. print("threshold:",threshold)
  27. print("impurity:",impurity)
  28. print("n_node_samples:",n_node_samples)
  29. print("value:",value)

运行结果:

  1. children_left : [ 1 -1 3 4 -1 -1 7 -1 -1]
  2. children_right: [ 2 -1 6 5 -1 -1 8 -1 -1]
  3. feature : [ 3 -2 3 2 -2 -2 2 -2 -2]
  4. threshold : [ 0.80000001 -2. 1.75 4.95000005 -2. -2. 4.85000014 -2. -2.]
  5. impurity : [0.66666667 0. 0.5 0.16803841 0.04079861 0.44444444 0.04253308 0.44444444 0. ]
  6. n_node_samples: [150 50 100 54 48 6 46 3 43]
  7. value : [[[50. 50. 50.]][[50. 0. 0.]] [[ 0. 50. 50.]] [[ 0. 49. 5.]] [[ 0. 47. 1.]] [[ 0. 2. 4.]] [[ 0. 1. 45.]] [[ 0. 1. 2.]] [[ 0. 0. 43.]]]

1.提取树结构

树结构主要靠children_left和children_right ,它们记录了左右节点编号

children_left[0] 代表 第0(根节点)个节点的左节点编号为1,同理,右节点编号为 children_right[0] = 2,
左节点1和节点2的子节点去哪找呢,直接代入 children_left和 children_right即可:
左节点1的子节点编号: 左子节点 children_left[1] = -1,右子节点children_right[1] =-1, -1代表没有子节点(即叶子节点)。
右节点2的子节点编号: 左子节点   children_left[2] = 3,右子节点children_right[2] = 6 。
....
如此类推,即知树结构。

备注: 借助图与输出值对比,比较容易理解

2.提取节点信息

第0个节点的信息:
分割变量             :feature[0] = 3
分割阈值             :threshold[0] =0.8
不纯度(gini系数) :impurity[0]  = 0.66666667
样本个数             :n_node_samples[0] = 150
样本分布             :value[0] = [50 50 50]

第1个节点的信息:
分割变量             :feature[1]= -2  (叶子节点,该值没意义)
分割阈值             :threshold[1] = -2 (叶子节点,该值没意义)
不纯度(gini系数) :impurity[1]= 0
样本个数             :n_node_samples[1] = 50
样本分布             :value[1]= [50 0 0]
......
......
如此类推即可。

备注:sklearn并没有直接存决策树的类别(概率)预测值,我们需要借助 样本分布value:样本最多的一类即预测类,样本占比即预测概率。

相关文章

一个简单的决策树分类例子

sklearn决策树结果可视化

sklearn决策树参数详解

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/549467
推荐阅读
相关标签
  

闽ICP备14008679号