当前位置:   article > 正文

python离群点检测_数据分析 第五篇:离群点检测

python 离群点检测

离群点(outlier)是指和其他观测点偏离非常大的数据点,离群点是异常的数据点,但是不一定是错误的数据点。确定离群点对于数据分析会带来不利的影响,比如,增大错误方差、影响预测和影响正态性。

从散点图上可以直观地看到离群点,离群点是孤立的一个数据点;从分布上来看,离群点远离数据集中其他数据点。

201912272101476242.png

在数据处理过程中,检测离断点的方法,通常有Z-score 和 IQR。

一,Z-score方法

Z-score以标准差为单位去度量某一原始分数偏离平均数的距离,它回答了一个问题:"一个给定分数距离平均数多少个标准差?",Z-score的公式是:

Z-score = (Observation — Mean)/Standard Deviation

z = (X — μ) / σ

使用Python来实现,通常把远离标准差3倍距离以上的数据点视为离群点,也就是说,把Z-score大于3的数据点视作离群点:

import numpy as np

import pandas as pd

def detect_outliers(data,threshold=3):

mean_d = np.mean(data)

std_d = np.std(data)

outliers = []

for y in data_d:

z_score= (y - mean_d)/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/301877
推荐阅读
相关标签
  

闽ICP备14008679号