赞
踩
示例3:
第三个例子,推荐这篇文章:决策树学习笔记整理 - bourneli
在Sklearn机器学习包中,集成了各种各样的数据集,上节课讲述Kmeans使用的是一个NBA篮球运动员数据集,需要定义X多维矩阵或读取文件导入,而这节课使用的是鸢尾花卉Iris数据集,它是很常用的一个数据集。
数据集来源:Iris plants data set - KEEL dataset
该数据集一共包含4个特征变量,1个类别变量。共有150个样本,鸢尾有三个亚属,分别是山鸢尾 (Iris-setosa),变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。
iris是鸢尾植物,这里存储了其萼片和花瓣的长宽,共4个属性,鸢尾植物分三类。
输出结果如下所示,可以看到分位三类,分别代表数据集三种鸢尾植物。
在课堂上我讲过,这里存在两个问题:
1.前面鸢尾Iris数据集包括四个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度),上面代码中"L1 = [x[0] for x in X]"我获取了第一列和第二列数据集进行的绘图,而真是数据集中可能存在多维特征,那怎么实现呢?
这里涉及到一个降维操作,后面会详细介绍。
2.第二个问题是,分类学习模型如下所示,它的预测是通过一组新的数据集。
而上面的代码"predicted = clf.predict(iris.data)"是对整个的数据集进行决策树分析,而真是的分类分析,需要把一部分数据集作为训练,一部分作为预测,这里使用70%的训练,30%的进行预测。代码如下:
最后补充Skleaern官网上的一个决策树的例子,推荐大家学习。
推荐地址:Plot the decision surface of a decision tree on the iris dataset
代码如下:
其中iris.dot数据如下所示:
想生成如下图,希望后面能修改。也可以进入shell下输入命令:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。