赞
踩
从事人工智能行业近三年了,一直想记录自己的工作和学习,都没有行动起来,最近项目告一段落,觉得回忆和记录一些学习的内容,加深印象
我们这里使用的是python库的sklearn机器学习库,这里面涵盖了几乎所有主流机器学习算法
决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规
则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各
种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。
不多讲概念,咱们直接上项目吧,分类树我们处理的是红酒数据项目
from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split import graphviz #加载数据,划分训练和测试数据集 wine = load_wine() Xtrain,Xtest,Ytrain,Ytest = train_test_split(wine.data,wine.target,test_size=0.3) #基尼 clf = tree.DecisionTreeClassifier(criterion="entropy" ,random_state=30 ,splitter='random' ,max_depth=3 # ,min_samples_leaf=5 # ,min_impurity_split=5 ) #信息熵 # clf = tree.DecisionTreeClassifier(criterion="entropy") clf = clf.fit(Xtrain,Ytrain) score = clf.score(Xtest,Ytest) print('score:',score) feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸'] dot_data = tree.export_graphviz(clf ,out_file=None ,feature_names=feature_name ,class_names=['二锅头','苦荞','江小白'] ,filled=True ,rounded=True) graph = graphviz.Source(dot_data) graph.render('tree')
tree.DecisionTreeClassifier()
其中这个就是建立模型的方法
重要参数criterion
为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:
1)输入”entropy“,使用信息熵(Entropy)
2)输入”gini“,使用基尼系数(Gini Impurity)
平常我们如何选择呢
1:通常就使用基尼系数
2:数据维度很大,噪音很大时使用基尼系数
3:维度低,数据比较清晰的时候,信息熵和基尼系数没区别
4:当决策树的拟合程度不够的时候,使用信息熵
简单粗暴就是,两个都试试,不好就换另外一个
** random_state & splitter**
random_state用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据
(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。
splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。
剪枝参数
max_depth
min_samples_leaf & min_samples_split
import matplotlib.pyplot as plt
test = []
for i in range(10):
clf = tree.DecisionTreeClassifier(max_depth=i+1
,criterion="entropy"
,random_state=30
,splitter="random"
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。