当前位置:   article > 正文

2020.08.22_Task1.2_基于逻辑斯特模型,实现分类预测(2)_利用逻辑回归模型对鸢尾花数据集进行分类预测,提供一个混淆矩阵图

利用逻辑回归模型对鸢尾花数据集进行分类预测,提供一个混淆矩阵图

上一次,采用了一个自己创造的数据作为数据集,展示了一个Python3.0版本的基于逻辑回归模型实现分类预测功能的代码块。
这回就实战看一下,应用非常著名的莺尾花数据集,通过逻辑回归实现分类预测功能。

流程还是一样了:

1.1 导入基本函数库+绘图指令库

import numpy as py;
import pandas as pd;

  • 1
  • 2
  • 3

1.2 从库中导入鸢尾花数据集

from sklearn.datasets import load_iris;
  • 1

2 将鸢尾花数据做处理,变成Python中的sklearn能处理的数据格式

data = load_iris;
  • 1

像这种成熟的数据集,每次学习的时候,都应该好好看一下内部的组成部分,学习别人整理数据的方式,这样有助于你自己采集数据后整合成一个便于处理的数据集。

print(data);
  • 1

可以看一下输出结果,这个以data命名的变量里面有什么:
data第一部分
这是data的数据部分
data第二部分
这里是data的属性部分。
可以看到这里面分为数值和属性两部分。

看这个数据集的时候,重点看几个地方:
(1)数据集的数值部分:

  • 数据(data
  • 对应分类目标or标签的数字表达(target or class or label array),0 代表第一类,1 代表第二类,2 代表第三类,以此类推。

(2)数据集的属性部分:

  • 数据集的数量(number of instances) : 150(每一个分类目标有50个)

  • 数据集的属性数量(number of attributes or features) : 4

  • 属性信息(attribute or feature information):这里面有四个

    • sedal length(cm)
    • sedal width (cm)
    • petal length (cm)
    • petal width (cm)
  • 对应标签的名字(target or class or label name):

    • iris-setosa
    • iris-versicolour
    • iris-virginica
  • 数据集的基本统计信息:看一下这个数据集中,每一个属性的最大值(Max),最小值(Min),平均值(Mean),标准差(SD), 不同类别之间的相关系数(interclass correlation)(这个后面再了解)

Max Min Mean SD interclass correlation
sedal length 4.3 7.9 5.84 0.83 0.7826
sedal width 2.0 4.4 3.85 0.43 -0.4194
pedal length 1.0 6.9 3.76 1.76 0.9490
pedal width 0.1 2.5 1.2 0.76 0.9565
  • class distribution(这个后面再了解)
  • 创造者及贡献者
  • 时间:1988年
  • 属性名字:features_names
  • 文件名字:这个数据集的名字,路径。

了解这个数据集之后,在后面的使用中,一定要先了解,后记清楚里面的每一个名字和对应的数据,这样方便你写代码的时候调用:
例如,想调用数据的格式:变量名.属性名

data.data
data.target
data.features_names
  • 1
  • 2
  • 3

等等

因此,调用这个iris dataset的一部分,作为一个新的数据集,放在pandas的dataframe格式中,名字叫iris_features,通过一些指令了解这个新的dataset的基本信息。

ir
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/477519
    推荐阅读
    相关标签
      

    闽ICP备14008679号