当前位置:   article > 正文

数据预处理-离群值检测与处理

离群值检测

@数据分析预处理

离群值检测

数据集中那些明显偏离数据集中其他样本的数据,检测离群值为数据分析与建模提供高质量的数据。

1、3σ法

当样本的取值符合正态分布时可以采用3σ法判断异常值
样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:
Z-score(x)=(x-μ)/σ
得到样本的Z-score值后,通常将不满足条件:
|Z-score(x)|<3
的样本视为离群值称为3σ法。
也用于对模型残差分析,找出异常值。

2、箱线图

是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围广。
箱线图由来对残差最大值、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值五个统计量构成,Q1到Q3的间距为IQR,箱两端分别为上四分位数yong (Q3)、下四分位数 (Q1) , 最大值、最小值分别为箱两端的须, 箱线图法中样本数据大于Q3+1.5IQR和小于Q-1.5IQR定义为异常值 。

pandas 方法:
data.plot(kind=“box”)

matplotlib 方法:
plt.plotbox()

3、基于近邻判断离群值

通过比较每个点

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/301891
推荐阅读
相关标签