异常值识别与处理方法_风向异常值

作者：人工智能uu | 2024-06-26 16:55:07

踩

风向异常值

一、概念

异常值，指的是样本中的一些数值明显偏离其余数值的样本点，所以也称为离群点。

二、异常值判断

在不同的数据中，鉴别异常值有不同的标准，常规有以下几种：

1、数字超过某个标准值

这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值，依据专业知识或个人经验，判断是否超过了理论范围值，数据中有没有明显不符合实际情况的错误。

比如，测量成年男性身高（M），出现17.8m这样的数据，显然不符合实际情况。

又或者，如问卷数据使用1-5级量表进行研究，出现-2，-3这类数据，则可能提示为跳转题、空选等。

2、数据大于±3标准差

3σ 原则是在数据服从正态分布的时候用的比较多，在这种情况下，异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。

在数据处理的时候，按照正态分布的性质，三个标准差以外的数据都可以被看作是错误的数据从而排除掉。

3、格拉布斯(Grubbs)检验法

(1)计算统计量

μ=(X1+X2+…+Xn)/n

s=(∑(Xi-μ)/(n-1))½(i=1,2…n)

Gn=(X(n)-μ)/s

式中μ——样本平均值；

s——样本标准差；

Gn——格拉布斯检验统计量。

(2)确定检出水平α，查表（见GB4883）得出对应n，α的格拉布斯检验临界值G1-α(n)。

(3)当Gn>G1-α(n),则判断Xn为异常值，否则无异常值。

(4)给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值，应剔除。

三、异常值的处理方法

异常值的处理分为三种：设为缺失值、填补、不处理。

（1）缺失

设置为Null值；此类处理最简单，而且绝大多数情况下均使用此类处理；直接将异常值删除，相当于没有该异常值。如果异常值不多时建议使用此类方法。

（2）填补

如果异常值非常多时，则可能需要进行填补设置，SPSSAU共提供平均值，中位数，众数和随机数、填补数字0共五种填补方式。

（3）不处理

一些异常值也可能同时包含有用的信息，是否需要剔除，应由分析人员自行判断。

以下场景，无需丢弃异常值：

1：异常是由于业务特定运营动作产生。该异常是由业务部门的特定动作导致的，如果抛弃异常值将导致无法正确反映业务结果。
2：异常检测模型的应用。异常检测模型是针对整体样本中的异常数据进行分析和挖掘，以便找到其中的规律，这种数据应用围绕异常值展开，异常数据本身是目标数据，因此不能直接丢弃。异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。
3：包容异常值的数据建模。如果数据算法和模型对异常值不敏感，那么即使不处理异常值也不会对模型本身造成负面影响。例如在决策树中，异常值本身就可以作为一种分裂节点。

四、注意事项

1、异常值带微弱主观性，判定没有固定标准，一些异常值也可能同时包含有用的信息，是否需要剔除，应由分析人员自行判断。

2、异常值一旦处理则无法恢复，建议先备份数据再操作。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/759947

异常值 识别与处理方法_风向异常值