赞
踩
逻辑回归基本原理:
参考:
mantch:看完这篇,逻辑回归80%都懂了zhuanlan.zhihu.com(一)二分类
逻辑回归主要用于二分类问题,即分类结果只有0、1两种。
此处我们使用的练习数据集位sklearn库中datasets模块下的乳腺癌数据集,是经典的用于二分类任务的数据集。
该数据集各字段基本信息如下:
最后的class字段是分类字段,共有两种类别:Malignant表示恶性,Benign表示良性。
(1)先将乳腺癌数据集导出到本地,模拟真实场景。
- #加载数据集
- from sklearn.datasets import load_breast_cancer
- import pandas as pd
- features = pd.DataFrame(load_breast_cancer().data,columns=load_breast_cancer().feature_names)
- label = pd.DataFrame(load_breast_cancer().target,columns = ['class'])
- data = pd.concat([features,label],axis=1)
- #讲数据写入到excel文件
- path = 'C:UsersCaraDesktopbreast_cancer.xlsx'
- data.to_excel(path,index = False)#不输出索引值
导出的文件如下:
(2)在sklearn中0、1标签已经打好,但是在真实场景中不会有这种虚拟标签,而是具有实际意义的类别。因此,我们需要手动替换class列的0为Benign,替换1为Malignant。
(3)导入修改后的excel文件,在数据框中添加一列,名为label列。class值为Benign的单元格对应的label为0,class值为Malignant的单元格对应的label为1。
- #读入文件
- m
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。