赞
踩
@数据分析预处理
数据集中那些明显偏离数据集中其他样本的数据,检测离群值为数据分析与建模提供高质量的数据。
当样本的取值符合正态分布时可以采用3σ法判断异常值。
样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:
Z-score(x)=(x-μ)/σ
得到样本的Z-score值后,通常将不满足条件:
|Z-score(x)|<3
的样本视为离群值称为3σ法。
也用于对模型残差分析,找出异常值。
是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围广。
箱线图由来对残差最大值、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值五个统计量构成,Q1到Q3的间距为IQR,箱两端分别为上四分位数yong (Q3)、下四分位数 (Q1) , 最大值、最小值分别为箱两端的须, 箱线图法中样本数据大于Q3+1.5IQR和小于Q-1.5IQR定义为异常值 。
pandas 方法:
data.plot(kind=“box”)
matplotlib 方法:
plt.plotbox()
通过比较每个点
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。