赞
踩
现实世界中的数据并不总是完美地遵循高斯分布,特别是在存在尾部重、偏斜或其他复杂分布形状的情况。那么为什么我们还要假设数据服从高斯分布呢?我想从以下几个方面为大家解答一下困惑:
高斯分布(正态分布)具有坚实的数学理论基础和统计学意义,它是自然界和工程领域中许多随机现象的理想化模型。在中心极限定理的支持下,即使数据生成过程并非严格地遵循高斯分布,只要独立同分布的随机变量数量足够多,它们的线性组合趋向于服从高斯分布。这对于包含多个特征的数据尤其重要,因为即使单个特征不是高斯分布,它们联合分布的部分维度投影也可能接近高斯分布。因此,高斯分布可以作为第一近似。
高斯分布可以通过均值和方差这两个参数完全描述,并且其概率密度函数(PDF)形式简单,易于计算和理论分析。在异常检测中,提供了一个明确定义的度量标准来判定数据点是正常的还是异常的。可以根据数据点与均值的距离(标准化后)及分布的标准差来判断该点出现的可能性,离群点通常是那些落在概率密度较低区域的点。
基于高斯分布的异常检测算法如单变量或多变量高斯分布模型,可以直接使用贝叶斯定理或者似然比检验来快速评估新观测点是否为异常。例如,多元高斯分布模型可以用于估计数据点出现在特定区域的概率,低于某个阈值即可视为异常。
即使原始数据不符合高斯分布,也可以通过数据预处理使数据近似满足高斯分布的假设,从而应用传统的基于高斯模型的异常检测方法。
数据分布的形态特征揭示了数据点在数值空间内的集聚和扩散规律,不同的数据分布形态决定了后续转换成高斯分布应该使用何种方法。因此,先补充两个数据分布形态特征的统计量“偏度”和“峰度”。
偏度描述数据分布的不对称性。偏度的值可以是正数、负数或零。
峰度描述数据分布顶部尖峭或平坦的程度,反映了数据分布形态的顶端集中程度及尾部厚度。
尽管假设数据服从高斯分布在许多情况下是合理的,但在实际应用中,数据可能不总是高斯分布的,这时就需要其他方法来模拟数据的分布。
如果数据呈现右偏态,尤其是存在长尾现象时,可以尝试取自然对数、常用对数或其他底数的对数,将数据的分布从偏斜变为对称。公式如下:
【注】对数变换只能用于正值。如果数据中包含零或负值,你可能需要将所有值加上一个常数来使它们正值化。
如果数据具有右偏且分布底部较宽的情况,可以尝试幂变换。如果平方根效果不好,还可以使用任意幂来尝试转换后的分布是否符合高斯分布。公式如下:
这是一种更为一般化的幂变换方法,它会自动寻找最适合数据的指数λ,使得转换后的数据更接近正态分布。公式如下:
其中(它是任意正数)是原始数据点的值,(它不等于0)是变换参数,可以是任意实数值。通常这个值是通过最大似然估计或者通过最小化分布偏态的方式来确定。当时,Box-Cox变换等效于平方根变换,而当时,变换等效于对数变换。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。