赞
踩
运行结果:
运行结果:
运行结果:
可以发现训练好的回归模型将X_new1预测为了类别0(判别面左下侧),X_new2预测为了类别1(判别面右上侧)。其训练得到的逻辑回归模型的概率为0.5的判别面为上图中蓝色的线。
在实践的最开始,我们首先需要导入一些基础的函数库包括:numpy(Python进行科学计算的基础软件包),pandas(pandas是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlib和seaborn绘图。
step1:库函数导入
step2:数据读取/载入
step3:数据信息简单查看
step4:可视化描述
step5:利用逻辑回归模型在二分类上进行训练和预测
step6:利用逻辑回归模型在三分类(多分类)上进行训练和预测
本次我们选择鸢花数据(iris)进行方法的尝试训练,该数据集一共包含5个变量,其中4个特征变量,1个目标分类变量。共有150个样本,目标变量为 花的类别 其都属于鸢尾属下的三个亚属,分别是山鸢尾 (Iris-setosa),变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。包含的三种鸢尾花的四个特征,分别是花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm),这些形态特征在过去被用来识别物种。
运行结果:
进行简单的数据查看,我们可以利用.head()头部.tail()尾部
iris_features.head()
运行结果:
iris_features.tail()
运行结果:
运行结果:
运行结果:
运行结果:
运行结果:
从上图可以发现,在2D情况下不同的特征组合对于不同类别的花的散点分布,以及大概的区分能力。
运行结果:
利用箱型图我们也可以得到不同类别在不同特征上的分布差异情况。
运行结果:
运行结果:
我们可以发现其准确度为1,代表所有的样本都预测正确了。
运行结果:
运行结果:
通过结果我们可以发现,其在三分类的结果的预测准确度上有所下降,其在测试集上的准确度为:86.67% ,这是由于’versicolor’(1)和 ‘virginica’(2)这两个类别的特征,我们从可视化的时候也可以发现,其特征的边界具有一
定的模糊性(边界类别混杂,没有明显区分边界),所有在这两类的预测上出现了一定的错误。
作为一个新手有出错地方还请大家指点与包涵
支持组织:Datawhale&阿里云平台
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。