当前位置:   article > 正文

机器学习算法~异常检测_算法对输入的非法数据进行识别

算法对输入的非法数据进行识别

异常检测(Anomaly Detection)

1、训练好模型之后,我的模型几乎是玩美的
      可是如果我要用这个模型的时候,我输入模型的数据是有异常的
       那么这时候模型怎么处理新的异常数据,?

2、所以啊,当我们训练好模型之后,就需要测试一次,那么我最后要得出一个可能性
     换句话说就是当我要用这个模型的时候,我要看看刚刚输入的数据是异常数据的可能性

3、比如,你在异地求学,所以在2~6月期间,用支付宝支付的地点都是厦门(你求学的地点)
     如果有一天支付宝检测到5月中旬,你在异地支付,那么这个系统就会说
     哦,这次“支付”是异常支付,这时候支付宝就小心了。这就是一次“异常数据”。


所以啊,我们的异常检测就是用在:1、欺诈中心 2、制造业  3、数据中心监视电脑(类似集成电脑,一个电脑控制所有的电脑)


接下来让我们看看如何给出 这个新数据是异常数据的概率  的给出过程。


密度估计方法




越靠近中心呢,说明一组数据是异常数据的可能性越低


高斯分布,对,高斯又出现了。。。


我们可以利用已有的数据来预测总体中的 μ 和 σ2 的计算方法如下:

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算p(x)


当 p(x)<ε 时,为异常
下图是一个由两个特征的训练集,以及特征的分布情况:



异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我
们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个
异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数
据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试
集。
例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数
据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集 
具体的评价方法如下:
1. 根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
2. 对交叉检验集,我们尝试使用不同的 ε 值作为阀值,并预测数据是否异常,根据 F1
值或者查准率与查全率的比例来选择 ε
3. 选出 ε 后,针对测试集进行预测,计算异常检验系统的 F1 值,或者查准率与查全
率之比

由于会出现,即便是异常数据,但是输出的P(x)依旧是很大,例如


之前的异常检测算法假定的是特征之间是相互独立的,模型P(x)是概率的乘积。
                                             P(AB) = P(B)P(A|B)P(A)P(B|A)
可是只有AB是独立的,才有P(AB)= P(A)P(B)
故特征之间实际情况下是相关的,直接用多元高斯分布,



那么其中sigma是协方差矩阵,顺便说说协方差矩阵



在上面那个图中,有两个特征x1和x2
如果这两个特征都去均值的话,那么他们的协方差矩阵的对角线就是对应两个特征的方差。
协方差矩阵的第二行第一列那个数字代表了x1与x2两个特征向量的协方差
协方差就是衡量两个随机变量相关性的标准,确切的说是线性相关性
负数就是负相关,0就是不相关
所以,加入负数,就相当于给两个特征加入负相关了
对角线是方差,非对角线上的是协方差
二维高斯分布的等高线会从标准椭圆,旋转一个角度,变成斜椭圆
协方差为正,是正相关
E[(X-E(X))(Y-E(Y))]>0
意味着从期望角度讲,X与Y偏离他们各自期望的方向相同,斜椭圆的轴会y=kx(k>0)这么扭转。
上图是 5 个不同的模型,从左往右依次分析:
1. 是一个一般的高斯分布模型
2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关

5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关

多元高斯分布模型与原高斯分布模型的关系:
可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第
1、2、3,3 个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的
高斯分布模型了。

区别在于前者能够自动获取特征之间的依赖关系而后者不能(后者假设特征之间是独立的)。
当特征数n很大时,前者计算代价高昂而后者计算速度快。前者适用于m>n(一般要求m>10n)
而后者m很小的时候依旧适用。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/747310
推荐阅读
相关标签
  

闽ICP备14008679号