赞
踩
小数据 获取数据
获取特征值
获取目标值
获取特征名字
获取大数据集合
将数据用散点图表示出来。
机器学习一般的数据集会划分为两个部分:
划分比例:
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
为什么我们要进行归一化/标准化?
特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。
定义:
通过对原始数据进行变换把数据映射到(默认为[0,1])之间。
公式:
API
定义:
归一化:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。
标准化:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
公式:
API
from sklearn.datasets import load_iris #获取数据
from sklearn.model_selection import train_test_split # 数据分析
from sklearn.preprocessing import StandardScaler #标准化
from sklearn.neighbors import KNeighborsClassifier #KNN算法
from sklearn.model_selection import GridSearchCV
import pandas as pd
# 1.获取数据load_iris
# 2.数据基本处理_数据集划分
# 3.特征工程 标准化
# 4.机器学习:1.建立模型 2.模型训练
# 5.模型评估 准确率
# 1.获取数据 load_iris()
iris = load_iris()
# 2.数据基本处理-数据集划分
x_train,x_test, y_train, y_test = train_test_split(iris.data,iris.target, test_size=0.2)
# 3.特征工程
# 3.1实例化转换器
transfer = StandardScaler()
# 3.2转换数据
transfer.fit(x_train) #把x_train的数据进行平均值、方差等的计算
x_train = transfer.transform(x_train) #把x_train的数据标准化
x_test = transfer.transform(x_test) #把x_text的数据表转化
# 4.机器学习
# 4.1 建立模型 实例化 估计器
estimator = KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree')
# 4,2训练模型
estimator.fit(x_train, y_train)
# 5.模型评估 准确率
estimator.score(x_test, y_test)
结果:
0.9666666666666667
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。