赞
踩
上一次,采用了一个自己创造的数据作为数据集,展示了一个Python3.0版本的基于逻辑回归模型实现分类预测功能的代码块。
这回就实战看一下,应用非常著名的莺尾花数据集,通过逻辑回归实现分类预测功能。
流程还是一样了:
1.1 导入基本函数库+绘图指令库
import numpy as py;
import pandas as pd;
1.2 从库中导入鸢尾花数据集
from sklearn.datasets import load_iris;
2 将鸢尾花数据做处理,变成Python中的sklearn能处理的数据格式
data = load_iris;
像这种成熟的数据集,每次学习的时候,都应该好好看一下内部的组成部分,学习别人整理数据的方式,这样有助于你自己采集数据后整合成一个便于处理的数据集。
print(data);
可以看一下输出结果,这个以data命名的变量里面有什么:
这是data的数据部分
这里是data的属性部分。
可以看到这里面分为数值和属性两部分。
看这个数据集的时候,重点看几个地方:
(1)数据集的数值部分:
(2)数据集的属性部分:
数据集的数量(number of instances) : 150(每一个分类目标有50个)
数据集的属性数量(number of attributes or features) : 4
属性信息(attribute or feature information):这里面有四个
对应标签的名字(target or class or label name):
数据集的基本统计信息:看一下这个数据集中,每一个属性的最大值(Max),最小值(Min),平均值(Mean),标准差(SD), 不同类别之间的相关系数(interclass correlation)(这个后面再了解)
Max | Min | Mean | SD | interclass correlation | |
---|---|---|---|---|---|
sedal length | 4.3 | 7.9 | 5.84 | 0.83 | 0.7826 |
sedal width | 2.0 | 4.4 | 3.85 | 0.43 | -0.4194 |
pedal length | 1.0 | 6.9 | 3.76 | 1.76 | 0.9490 |
pedal width | 0.1 | 2.5 | 1.2 | 0.76 | 0.9565 |
了解这个数据集之后,在后面的使用中,一定要先了解,后记清楚里面的每一个名字和对应的数据,这样方便你写代码的时候调用:
例如,想调用数据的格式:变量名.属性名
data.data
data.target
data.features_names
等等
因此,调用这个iris dataset的一部分,作为一个新的数据集,放在pandas的dataframe格式中,名字叫iris_features,通过一些指令了解这个新的dataset的基本信息。
ir
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。