赞
踩
本文是【统计师的Python日记】第12天的日记
回顾一下:
原文复习(点击查看):
【第1天:谁来给我讲讲Python?】
【第2天:再接着介绍一下Python呗】
【第3天:Numpy你好】
【第4天:欢迎光临Pandas】
【第四天的补充】
【第5天:Pandas,露两手】
【第6天:数据合并】
【第7天:数据清洗(1)】
【第8天:数据清洗(2)文本处理】
【第9天:正则表达式】
【第10天:数据聚合】
【第11天:class 类—老司机的必修课】
今天将带来第12天的学习日记,开始学习Python的机器学习库:Scikit-learn(这个系列会不断连载,建议关注哦~)。本文会先认识一下 sklearn 这个库,再根据建模流程,学习一下 sklearn 的各个模块的使用。
目录如下:
前言
一、初识 sklearn
二、sklearn 的建模流程
1. 数据导入
2. 数据处理
(1)划分训练集和测试集
(2)数据清洗
3. 特征工程
4. 模型调参/选择
5. 模型测试和评价
6. 模型保存和调用
三、sklearn 建模流程总结 和 一个文本建模的例子
前言
前面学习了很多 Python 的数据基本操作,应付一个 project 前期的数据清洗、描述分析已然足够。今天开始要学习数据工程中的重头戏——数据建模。
用 Python 完成一个模型的构建,比较快的可以有三种方法:
① 第一种是完全按照计算逻辑写代码,比如 logistic 回归模型,你可以这么写:
(具体可以看这里:造出一艘logistic模型 | 【logistic从生产到使用】(下))
② 第二种是用最近很火的 tensorflow 开源库,同样的 logistic 回归,简洁一点的话可以这么写:
③ 第三种是用机器学习库 sklearn,logistic 回归我们只用这么写:
其他还有很多库就不说了,这三种中,第二种或者第三种显然是合理的选择。
所以,对于初学者来说,sklearn是首选,因为它不仅封装了大量的机器学习库,还自带数据集!连学习要用的数据都准备好了,今天,就先学习一下 sklearn。
一、初识sklearn
sklearn 全称是 scikit-learn,它建立在 Numpy 和 matplotlib 的基础上,所以需要注意的是,以下我们介绍的方法,都是适用于 Numpy 数组的哦。现在我们导入这个库:
import sklearn
这个库里面包含了很多数据集、模块和函数,使用某几种函数,可以不用全部导入,用:
from sklearn.模块 import XX
比如:
- from sklearn import datasets
- from sklearn.feature_selection import SelectKBest
- from sklearn.neighbors import KNeighborsClassifier
sklearn 有专门的 feature_selection (特征工程)和 neighbo
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。