赞
踩
Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的各50个样本数据构成。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。
该数据集包含了4个属性:
& Sepal.Length(花萼长度),单位是cm;
& Sepal.Width(花萼宽度),单位是cm;
& Petal.Length(花瓣长度),单位是cm;
& Petal.Width(花瓣宽度),单位是cm;
种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。
- # -*- coding:utf-8 -*-
- # 导入决策树模型
- from sklearn import tree
- # 导入数据集
- from sklearn.datasets import load_iris
- # 导入数据集拆分模块
- from sklearn.model_selection import train_test_split
- # 导入准确率计算模块
- from sklearn.metrics import accuracy_score
-
- # 加载数据集
- iris = load_iris()
- # 查看数据集描述
- print(iris.DESCR)
-
- # 分割数据集
- x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
-
- # 训练模型
- clf = tree.DecisionTreeClassifier(criterion='entropy')
- clf.fit(x_train, y_train)
-
- # 预测
- y_pred = clf.predict(x_test)
-
- # 计算准确率
- score = accuracy_score(y_test, y_pred)
- print("准确率:", score)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。