赞
踩
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
数据规范化的意义:
哪些机器学习算法需要数据规范化
把数据压缩到指定区间
m
i
n
A
min_A
minA为数据的最小值,
m
a
x
A
max_A
maxA为数据的最大值
n
e
w
_
m
i
n
A
new\_min_A
new_minA为数据的最小值,
n
e
w
_
m
a
x
A
new\_max_A
new_maxA为数据的最大值
当 n e w _ m i n A new\_min_A new_minA和 n e w _ m a x A new\_max_A new_maxA取值为[0, 1]时,即为数据归一化
把数据映射到均值为0、标准差为1的分布上
v
′
=
v
−
μ
σ
v'=\frac{v-\mu}{\sigma}
v′=σv−μ
μ \mu μ表示均值, σ \sigma σ表示标准差
归一化
标准化
from sklearn import preprocessing
from scipy.stats import rankdata
std_x = preprocessing.StandardScaler().fit_transform(df.x)
norm_x = preprocessing.MinMaxScaler().fit_transform(df.x)
参考来源:
机器学习笔记:为什么要对数据进行归一化处理?
归一化和标准化大全 (写的非常全)
机器学习中数据预处理——标准化/归一化方法(scaler)
Sklearn中文文档: 5.3 预处理数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。