赞
踩
1、文章信息
文章题为《Detection of mobile network abnormality using deep learning models on massive network measurement data》,是发表在Computer Networks期刊上的一篇关于网络异常检测的文章。
2、摘要
近年来,随着移动网络用户地不断增长,基于专家经验和阈值分析的传统方法已经难以满足网络维护的需要。这些传统的方法暴露出许多弱点,如主观性、差异性和不一致性。
主观性具体:专家在分析网络时,主要关注投诉最多的移动网络小区(Mobile Network Cell),进行主观判断,会忽略一些潜在异常小区。
差异性:有时专家可能会得出不同结论,若没有一个标准,很难得到一个统一的结论。
不一致性:由于一些移动网络单元可能会自动恢复,专家的判断可能会随着时间的推移而失效。此外,专家系统通常需要很长时间才能产生结果。
本文提出了一种利用海量移动数据替代专家系统的深度学习方法(VAE/LSTM+XGBoost)。利用网络测量数据和伪标签对监督学习模型进行训练,帮助深度学习模型进行特征选择。通过大量的实验和分析,证明了该方法在异常检测方面的有效性,并取得了比传统专家系统更好的性能。如下图所示,对比了传统的检测方法以及文章提出的检测方法。
3、文章结构
首先提出了在网络异常检测中常用的专家检测方法的缺陷与不足,并分别介绍了传统的网络异常检测模型,基于深度学习的异常检测方法,以及SDN(Software-Defined Networking)检测方法。同时提出了本文的基于深度学习的异常检测模型。
描述了数据的获取与预处理的方法,以及定义了如何判断网络异常。
提出了基于深度学习的网络异常检测模型。
输入具体数值,验证模型的有效性。
4、模型结构
方法的整体流程如下所示。
数据处理模块(Data Collection),收集了大量的测量数据,文章设计了一个测量数据计数结构,用于收集不同的LTE cells的测量数据,该结构如下图所示。
每个测量结果来自一个特定的Measurement Object,每个Measurement Object由多个Measurement Unit组成。共有四种收集方式:累计计数器(收集数据的累积值,如RRC connection establishment attempts);动态计数器(收集动态变换的数据,如E-RAB建立的最长时间);DER (Discrete Event Registration)(如平均E-RAB设置时间);状态检测(收集类似于平均E-RAB连接时间的数据)
伪标签生成模块(Pseudo-labels Generation)与XGBoost Training模块,LTE cells多维异常检测的一大难题就是缺乏标签,在处理好缺失值之后,文章通过伪标签生成和非监督的方式(即XGBoost)解决这一问题。具体步骤,首先,使用6西格玛规则检测21项指标(经过预处理后得到的目标指标)中哪项在历史上(过去一周或今天)有异常。然后,利用模拟的专家规则判断移动网络小区是否存在异常。如下图所示。
处理好的伪标签,用于训练XGBoost(Extreme Gradient Boosting)。(XGBoost是一种集成树模型。该算法采用boosting方法对多个弱树模型进行序列训练,并使用损失函数的负梯度来拟合当前模型的残差。)
特征选择(Feature Selection),在训练好XGBoost之后,文章通过重要性得分(Important Score)来选取所需的特征。该得分可以直接获取,即若一个特性(feature)对分裂点的性能提高得越大(即,离树的根节点越近),其重要性得分就越高。
深度学习模块(Deeplearning Model)与拟专家规则模块(Simulated expert rule),深度学习部分主要采用VAE与LSTM。VAE是一种神经网络,经常用于重构未标记数据,也是一种包含变分网络和生成网络的生成神经网络模型,其结构如下图所示。
文章考虑到LSTM是前向传播,在训练时增加了额外的24小时数据。LSTM结构如下图所示。
文章使用VAE和LSTM来生成多维指标的期望值。通过计算期望值与历史值之间的绝对误差,可以得到异常指标。整个过程如下图所示。
5、实验结果及分析
文章提出了一种新的检测指标Corr来评价检测异常的能力,通过构造两个集合,一个集合存储所有异常单元,一个集合存储所有正常单元,计算两个协方差,在计算比值即可得到。其具体反映了异常细胞组与正常细胞组的周期性差异的平均程度。
其中Rn代表正常单元构成的集合,Ra代表异常单元构成的集合。
文章从两个角度验证了模型的有效性:一致性和改进性。
一致性是指文章提出的方法的大部分结果与专家系统一致,差异在合理范围内。在本部分中,我们使用6 西格玛的结果作为事实(ground truth)来计算精度和混淆矩阵。
改进性是本文的另一个关键评价指标,表明该方法在异常检测方面比专家系统有更好的性能。本文使用评价指标Corr和对样本的可视化分析来证明我们的方法对潜在的异常细胞有更强的检测能力。
文章最后选取21个特征中的19个作为有效特征,进行验证,baseline为专家系统,结果如下。
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。