2020.08.22_Task1.2_基于逻辑斯特模型，实现分类预测(2)_利用逻辑回归模型对鸢尾花数据集进行分类预测,提供一个混淆矩阵图

作者：很楠不爱3 | 2024-04-24 04:01:07

踩

利用逻辑回归模型对鸢尾花数据集进行分类预测,提供一个混淆矩阵图

上一次，采用了一个自己创造的数据作为数据集，展示了一个Python3.0版本的基于逻辑回归模型实现分类预测功能的代码块。
这回就实战看一下，应用非常著名的莺尾花数据集，通过逻辑回归实现分类预测功能。

流程还是一样了：

1.1 导入基本函数库+绘图指令库

import numpy as py;
import pandas as pd;

1
2
3

1.2 从库中导入鸢尾花数据集

from sklearn.datasets import load_iris;
1

2 将鸢尾花数据做处理，变成Python中的sklearn能处理的数据格式

data = load_iris;
1

像这种成熟的数据集，每次学习的时候，都应该好好看一下内部的组成部分，学习别人整理数据的方式，这样有助于你自己采集数据后整合成一个便于处理的数据集。

print(data);
1

可以看一下输出结果，这个以data命名的变量里面有什么：
data第一部分
这是data的数据部分
data第二部分
这里是data的属性部分。
可以看到这里面分为数值和属性两部分。

看这个数据集的时候，重点看几个地方：
（1）数据集的数值部分：

数据（data）
对应分类目标or标签的数字表达(target or class or label array)，0 代表第一类，1 代表第二类，2 代表第三类，以此类推。

（2）数据集的属性部分：

数据集的数量(number of instances) : 150（每一个分类目标有50个）
数据集的属性数量(number of attributes or features) : 4
属性信息（attribute or feature information）：这里面有四个
- sedal length（cm）
- sedal width (cm)
- petal length (cm)
- petal width (cm)
对应标签的名字（target or class or label name）:
- iris-setosa
- iris-versicolour
- iris-virginica
数据集的基本统计信息：看一下这个数据集中，每一个属性的最大值（Max），最小值（Min），平均值（Mean），标准差（SD）, 不同类别之间的相关系数（interclass correlation）（这个后面再了解）

	Max	Min	Mean	SD	interclass correlation
sedal length	4.3	7.9	5.84	0.83	0.7826
sedal width	2.0	4.4	3.85	0.43	-0.4194
pedal length	1.0	6.9	3.76	1.76	0.9490
pedal width	0.1	2.5	1.2	0.76	0.9565

了解这个数据集之后，在后面的使用中，一定要先了解，后记清楚里面的每一个名字和对应的数据，这样方便你写代码的时候调用：
例如，想调用数据的格式：变量名.属性名

data.data
data.target
data.features_names
1
2
3

等等

因此，调用这个iris dataset的一部分，作为一个新的数据集，放在pandas的dataframe格式中，名字叫iris_features,通过一些指令了解这个新的dataset的基本信息。

ir

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/477519