赞
踩
一、首先,机器学习建模的基本流程分为3步
①实例化(也就是建立模型对象)
②传入训练集和测试集,训练模型
③通过模型接口提取需要的信息
那么分类树的基本代码是:
- from sklearn import tree #导入需要的模块
- clf = tree.DecisionTreeClassifier() #实例化,也就是建立模型对象
- clf = clf.fit(X_train,y_train) #用训练集数据训练模型,使用的接口是fit
- #英文中fit的意思是“拟合、适合”
- result = clf.score(X_test,y_test) #导入测试集,由接口score得到模型的得分
二、那么DecisionTreeClassifier()有哪些重要的参数呢,大概有8个重要(用得到的)参数:
①criterion,用来决定不纯度的计算方法,可选项有两个为:entropy(信息熵)、gini(基尼系数);在实际使用中,信息熵和基尼系数的效果基本相同。
参数 |
criterion
|
如何影响模型? |
确定不纯度的计算方法,帮忙找出最佳节点和最佳分枝,不纯度越低,决策树对训练集的拟合越好
|
可能的输入有哪些? |
不填默认基尼系数,填写
gini
使用基尼系数,填写
entropy
使用信息增益。填的时候要加双引号或单引号。
|
怎么选取参数? |
通常就使用基尼系数
数据维度很大,噪音很大时使用基尼系数
维度低,数据比较清晰的时候,信息熵和基尼系数没区别
当决策树的拟合程度不够的时候,使用信息熵
两个都试试,不好就换另外一个
|
②random_state,设置随机数种子,使得你的结果可以被别人复现。
③splitter,这个参数可以用来防止过拟合,选项可选best、random,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。
④max_depth,限制树的最大深度,超过设定深度的树枝全部剪掉 。
⑤min_samples_split,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则 分枝就不会发生。
⑥min_samples_leaf,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生。或者理解为所有的叶子结点必须至少包含min_samples_split个训练样本。
⑦max_feature,限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工。
⑧min_impurity_decrease,限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的 功能,在0.19版本之前时使用min_impurity_split。
三、认识一个重要的属性
feature_importances_:能够查看各个特征对模型的重要性。
四、认识四个重要接口
①fit:用于将训练集传入模型
②score :用于得出分类决策树的得分(评分)
注:的fit和score,几乎对每个算法(模型)都可以使用。
③apply :中输入测试集返回每个测试样本所在的叶子节点的索引。
④predict:输入测试集返回每个测试样本的标签。
下面来实际建立一棵分类决策树:
- # 以下代码运行环境:jupyter lab 或 jupyter notebppk
- # 导入需要的模块
- from sklearn import tree
- from sklearn.datasets import load_wine
- from sklearn.model_selection import train_test_split
- import pandas as pd
-
- # 使用自带的数据集——红酒wine
- wine = load_wine()
-
- # 可以看看这份数据的大致样子
- wine.data.shape
- wine.target
-
- #如果wine是一张表,应该长这样:
- pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)
-
- # 查看一下数据中用于分类的数据——“特征名”,以及我们的分类结果“目标名”
- wine.feature_names
- wine.target_names
-
- # 设置训练集和测试集
- # train_test_split用于划分测试集和训练集
- # 0.3表示30%的数据做测试集,剩下的70%做训练集
- Xtrain , Xtest , Ytrain , Ytest = train_test_split(wine.data , wine.target , test_size=0.3)
-
- # 我们来查看一下相关数据的形状
- Xtrain.shape
- Xtest.shape
-
- ##################
- #下面开始建立模型,三部曲:实例化、训练模型、查看模型得分
- ##################
- clf = tree.DecisionTreeClassifier(criterion="entropy") #建立模型对象
- clf = clf.fit(Xtrain, Ytrain) #传入训练数据
- score = clf.score(Xtest, Ytest) #返回预测的准确度,也就是模型的评分
- score
-
- # 下面将训练好的这棵树画出来
- # 导入画决策树需要的库graphviz
- import graphviz
-
- # 定义目标分类的标签(中文名)
- feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
- '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
-
- # 画出决策树
- dot_data = tree.export_graphviz(clf # 训练好的模型
- ,out_file=None
- ,feature_names = feature_name # 特征的名字
- ,class_names =["琴酒","雪莉","贝尔摩德"] # 标签的名字
- ,filled=True # 给节点填充不同的颜色
- ,rounded=True # 是否圆滑的框
- ,random_state=25 # 设置随机数种子,使得你的结果可以被别人复现
- ,splitter='best' # 见上文解析
- # ,min_impurity_decrease # 限制信息增益的大小,信息增益小于设定数值的分枝不会发生
- )
- graph = graphviz.Source(dot_data) # 把刚刚画好的树导出
-
- graph
最后,我们来总结一下:
1、建立分类决策树三部曲:实例化、训练模型、评估模型
2、八个重要参数:Criterion,random_state,splitter,max_depth,min_samples_split,min_samples_leaf,max_feature,min_impurity_decrease
3、一个重要属性:feature_importances_
4、四个接口:fifit,score,apply,predict
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。