离群值检测
离群值
outlier:样本中的一个或几个观测值,它们离其他观测值较远,暗示它们可能来自不同的总体。
离群值分类
- 总体固有变异性的极端表现,这类离群值与样本的其余观测值属于统一总体;
- 由于试验条件和试验方法的偶然偏离所产生的结果,或产生与观察、记录、计算中的失误,这类离群值与样本中其余观测值不属于统一总体。
数学小知识
方差:
标准差:
标准差能反映一个数据集的离散程度。
离群值检测方法
一、莱茵达准则(拉依达准则)
Z-score标准化辅助识别离群值,Z-score值表示原始样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算&#