当前位置:   article > 正文

使用决策树预测西瓜类型_使用决策树与随机深林预测糖尿病(python)

西瓜预测代码

(一)算法简介

决策树是一种树形结构,其中每一个内部节点表示在一个特征(属性)上的测试,每个分支代表一个测试输出,每个叶子节点代表一种类别。

e3a9a116d21d28e74e81e5417b5cd504.png

16e95aac3489cdff11b90d6b00344f5d.png

(二)代码实例

使用决策树预测糖尿病

数据源: https://www.kaggle.com/uciml/pima-indians-diabetes-database#diabetes.csv

相关数据与代码下载:https://github.com/GreedyAIAcademy/Machine-Learning/tree/master/6.%20DecisionTree.RandomForest/homework

参考引用于:贪心学院

注意: 需要使用如下命令安装额外两个包用于画图

conda install python-graphviz

conda install pydotplus

导入数据包

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import seaborn as sns
  4. from sklearn.metrics import roc_auc_score
  5. from sklearn.metrics import classification_report
  6. from sklearn.tree import DecisionTreeClassifier
  7. from sklearn.model_selection import train_test_split
  8. from sklearn import tree
  9. from sklearn import metrics

特征项命名与导入数据

  1. col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
  2. pima = pd.read_csv("pima-indians-diabetes.csv", header=None, names=col_names)
  3. pima.head()

8689a9da1e60ce982d9f78b2d6bb19f7.png

分析数据

  • 768 条数据, 每一条数据包含 9 个特征
  • 糖尿病发病率 35%
  • ……
  1. print(pima.shape)
  2. # 特征数据类型.
  3. pima.dtypes

7929aa2b13e7fbf6467df12ea7635e90.png
  1. label_rate = pima.label.value_counts() / len(pima)
  2. label_rate

736ea46dd4a54d909348d0f9a5f83586.png
pima.describe()

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/889535
推荐阅读
相关标签
  

闽ICP备14008679号