当前位置:   article > 正文

【基于深度学习的电厂设备运行参数 异常检测】_gmm模型故障打分

gmm模型故障打分


文章链接

一、摘要

目的是使用设备在正常工况下的运行参数建立模型,该模型能识别出设备运行时发生的异常。
作者发明了一种结合特征强化的深度自编码高斯混合模型,设计了一个新的损失函数,有效降低了压缩特征各维属性间的线性相关性提出了一种计算“最低压缩特征维数”的方
法,为设置合适的压缩特征维数提供参考
作者的第一个模型DAGMM-RF中,没有考虑到电厂设备参数的时序特征。针对这一问题,作者进一步提出异构时序自编码高斯混合模型。使用循环神经网络构建自编码网络的编
码部分,使用全连接层构建解码部分

key-words

电厂设备预警,运行参数,异常检测,深度学习,自编码器,高斯混合模


二、绪论

作者研究算法的目的是检测到电厂机组设备的异常状态
难点:(1)训练这个模型是无监督学习,可参考的标注数据只有正常情况下的数据。(2)设备参数的维度很高,高维数据容易引发维数灾难。(3)设备本身也是不稳定的,在正常工作下,也可能包含少量“非正常的值”。瞬间的异常值并不能说明设备错误。(4)正常数据和异常数据的分界线难以界定。

常用的无监督异常检测技术
(1)基于相似性度量。
1、例如余弦相似度,通过计算两个向量之间的夹角余弦值来评估它们在多维空间中的相似程度。
2、欧式距离,对于多维的数据也是一样,多算几个数就行
在这里插入图片描述
3、KNN
4、局部异常因子算法,是基于密度的异常检测方法,一个点的局部密度定义为其周围邻居点的平均距离,如果一个数据的局部密度太小,说明他是离散点,就可以认为是异常数据。

常用的无监督异常检测技术
(2)基于聚类分析的
1、K-means算法,将数据点分成K个不同的组。设定好K的值之后,随机选择K个数据点作为每个组中的初始簇中心点。对于每个数据点,计算其与每个簇中心点的距离,并将其分配给最近的簇。对于每个簇,计算其所有数据点的平均值,将该平均值作为新的簇中心点。重复迭代,,直到簇中心点不再发生显著变化,就说明收敛了。
2、DBSCAN算法。K-means是基于距离的聚类算法,DBSCAN是基于密度的,通过识别具有足够高密度的数据点来构建簇。这个算法定义了邻域半径和在这个领域里面最少的数据个数。所有不能归到一个类里面的就是异常数据。
3、高斯混合模型,是一种概率模型,它假设数据是从多个高斯分布(正态分布)中生成的混合物,每个高斯分布被称为一个组件,模型的目标是通过估计这些组件的参数来拟合数据。

常用的无监督异常检测技术
(3)基于降维、特征提取的方法
前两种方法都是基于距离的,在高维数据中不好使,容易发生维度灾难。所有有了一种,先降维或者特征提取得到低维数据,再聚类。
1、受限玻尔兹曼机,
2、自编码器
(4)基于分类的方法
1、一类支持向量机,跟基本的支持向量机不同的是,他只构架一个超平面把正常数据和异常数据区分开,而不细分异常数据的类型。
2、孤立森林,随机抽取数据构成多个随机树,由于一般情况下异常数据比正常数据少。孤立森林会记录每个数据点在树中的深度。异常值通常比正常值更快地到达树的叶节点,因此它们在树中的深度较浅。平均深度越小,异常得分越高。根据异常得分可以排序并标识出潜在的异常数据点。
3、基于神经网络的方法

三、相关技术

(1)高斯混合模型

1.GMM高斯混合模型

假设观测数据是由多个高斯分布组合而成的,这些高斯分布具有不同的均值和协方差。每个数据点都以一定的概率属于每个高斯分布。这些概率称为混合系数,它们表示数据点属于每个高斯分布的权重。GMM 的目标是找到最佳的高斯分布参数,包括每个分量的均值、协方差和混合系数。计算高斯分布的各个参数用到了EM算法。

2、EM算法(期望最大化算法)

在E步中,估计每个数据点属于每个分量的概率;在M步中,根据这些概率更新分布的参数。重复进行E步和M步,直到模型参数收敛或达到预定的迭代次数。训练完成得到一个拟合好的 GMM 模型。
异常检测
训练好模型之后,给他一个新数据,他就会给出这个数据在各个高斯分布上的概率,设定一个阈值,如果一个数据在每个高斯分布上的概率都小于阈值,就表示他是异常数据。

3、PCA主成分分析

(2)自编码器

1、概念

是一种用神经网络来进行数据的降维和提取特征的方法。这个算法将输入数据经过编码和解码两个阶段,使解码出的重建数据尽可能地接近原始输入,同时实现特征的压缩和提取。编码器有许多层神经网络,每一层有许多神经元,可以减少数据的维度,最终将输入数据映射到特征。解码器将特征映射回原始输入空间,尝试重建原始数据。解码器也通常由多层神经网络组成,其结构与编码器相反。 自编码器的训练目标是让原始输入数据与解码器输出的数据之间的差异最小。训练好一个自编码器之后,就可以使用编码器提取数据的特征,以此来降维。
异常检测
训练好自编码器之后,设定一个阈值,对于新的数据,将他进行编码和解码两个过程,并计算重建误差(原始输入和解码器重构出的),如果这个误差大于阈值,就说明是异常数据

2、自编码器如何用于压缩数据

当自编码器的隐藏层节点数量小于输入层节点数时,自编码器可以用于数据压缩
由于隐藏层节点数量较少,编码器必须选择输入数据中最重要的特征来进行表示,而忽略次要特征。这相当于一种特征选择过程,可以帮助去除数据中的噪声和冗余信息。由于隐藏层节点数量较少,编码器得到的特征的维度相对较低,可以将高维输入数据映射到更低维的表示。当隐藏层的节点数量小于输入层节点数时,自编码器实际上被迫选择和学习数据中的关键特征,同时将数据的维度减小到更低的水平。

3、深度自编码高斯混合模型

一些经典算法用于异常检测时,经常分两步走,先降维再聚类。这种算法,举个例子,容易陷入极小值而不是最小值。因为第一步中的降维任务不知道后续的聚类分析任务,在降维过程中可能会丢失聚类分析的关键信息。
和EM算法的不同是,EM执行完M这个步骤之后就会更新参数,深度自编码高斯混合模型同时还会考虑神经网络中的损失函数来更新参数。

4、神经网络中的全连接层

全连接层执行线性变换,将前一层的每个神经元的输出与当前层的每个神经元建立连接。这个连接可以表示为权重矩阵的乘法,然后加上偏置。这个过程将输入数据进行一元的线性组合。全连接层本身是线性的,但通常在它之后会添加非线性激活函数,比如ReLU。每个连接都有一个相关的权重,全连接层的参数包括权重和偏置。这些参数是通过反向传播和梯度下降等优化算法来学习的,通过改变权重和偏置来使模型更好。

5、评价指标

在异常检测中,大部分情况下,异常数据远少于正常数据,因此将异常数
据视作正样本,将正常数据视作负样本

F1 Score
综合考虑了精确率和召回率两个指标的权衡。F1 分数是一个介于 0 和 1 之间的值。公式为
F1 = 2 * (精确率 * 召回率) / (精确率 + 召回率)
F1 分数的优点是能够平衡精确率和召回率,本文中用到的数据集,正常数据很多,异常数据很少,差异很大,对于不平衡的数据集F1特别有用。

四、结合特征强化的深度自编码高斯混合模型

是在深度自编码高斯混合模型DAGMM的基础上,尝试通过损失函数和设置合适的压缩特征维数,来强化提取到的特征,使其包含更多的信息,从而提升模型的性能。
分步的方法很容易导致次优的结果,因为第一步中的降维任务不知道后续的聚类分析任务,在降维过程中可能会丢失聚类分析的关键信息。

(1)作者提出的创新点

1、在将DAGMM应用到电厂设备运行参数的异常检测上时,多大的特征维数是最适合的。过低的特征维数无法捕获到所有的关键信息,容易造成信息的损失,难以进行重构,也会影响之后密度估计的效果;另一方面,过高的压缩维数又易受维数灾难影响。
作者设计了一种方法用于选择最合适的特征维数

2、DAGMM提取到的压缩特征,其各维属性之间有很强的线性相关性,这说明,压缩特征的各维之间信息重叠过多,有过多冗余。
作者设计了一种方法用于降低压缩特征的相关性。

3、作者在之前的损失函数中设计了一个新的损失项。

总结

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/500280
推荐阅读
相关标签
  

闽ICP备14008679号