当前位置:   article > 正文

处理基于特征的挑战的网络入侵问题_percoaltion of localized attack on complex network

percoaltion of localized attack on complex network

处理基于特征的挑战的网络入侵问题

处理噪声数据

问题:数据集中的一些流量数据可能包含异常值,这些异常值可能以不太常见的流量类别的形式出现。为了对抗噪声数据或具有异常值的数据,已应用特征归一化方法来缩放特征,并使它们在模型中具有相似的效果,以便噪声与其他数据的权重不会不同。在其他情况下,使用基于密度的特征选择,通过寻找特征概率分布之间的重叠和非重叠区域来识别最重要的特征。
功能正规化/标准化/归一化。特征归一化方法可以应用于特征缩放,并允许它们在模型中具有相似的效果,这样噪声就不会与其他数据不同地加权。网络异常分类通常采用统计方法。在2015年,Delahoz等人研究了一种概率贝叶斯自组织映射模型来进行无监督学习。为了克服网络数据中的噪声挑战,他们将连续变量归一化,使其均值为0,方差为1,即标准正态分布。对于类别型变量,在标准化之前对其进行编码。如果特征被“激活”,分类编码为1,否则为0。尽管通过 x − x ˉ σ \frac{x−\bar{x}}{σ} σxxˉ标准化到标准的正态分布是一种方法,对数缩放是另一种选择。
Hsu等人开发了一种基于自动编码器、支持向量机和随机森林集合的在线入侵检测系统,其中对噪声进行特征归一化处理,他们使用了两个归一化函数:
在这里插入图片描述
这些函数旨在将特征值重新调整到适当的范围,其中a是原始数据值,amax是相同特征下所有值中的最大值,(log(a + 1))max是相同特征下所有对数值的最大值log(原始值+ 1)。发送和接收的数据包是两个非常可变的特征,因为某些攻击(DDoS)在网络中包含更大的流量,所以这些特征值被归一化为其对数除以其最大值(第一个归一化方程)。对于方差较小的特征,通过除最大值进行归一化(第二个方程)。针对SVM对噪声固有的敏感性,Liu等人通过应用模糊隶属度来测量样本和超平面之间的距离,努力减轻SVM对噪声样本的敏感性,就像在SVM中那样。距离越大,样本的权重系数越小。每个样本对优化后的分类超平面有不同的影响,因此异常值和噪声(距离较大的值)不会对分类平面产生很大的影响,因为它们被赋予了较低的权重。
Density-based集群。在其他情况下,基于密度的聚类用于将来自同一类的数据分组在一起,并识别与观测到的簇异常遥远的离群点。由于无线传感器网络(WSNs)中DoS攻击的分散性,Shamshirband等人提出了一种基于密度算法和模糊逻辑的帝国竞争算法(ICA)。数据空间中的密集区域是簇,低密度区域(噪声)围绕着它们。基于密度的聚类可以检测形状簇并处理噪声。由于网络入侵检测涉及到离群点检测,因此可以将基于密度的方法扩展到离群点检测。Tang和He提出了一种有效的基于密度的离群点检测方法,该方法将基于相对密度的离群点分数分配给观测值,作为区分数据集中主要聚类和离群点的一种方法。类似地,Gu等将基于密度的初始聚类中心选择算法应用到基于hadoop的混合特征选择方法中,以缓解离群点的影响。

处理冗余数据

问题:网络入侵特征集中的一些特征可能对模型的预测能力没有显著贡献,因此可能会根据特征的重要性将它们删除。为了处理冗余数据,已经建立了框架来删除冗余。处理数据中冗余特征的重要方法如图3所示。
在这里插入图片描述

功能框架。在网络入侵数据集中,数据冗余是一个普遍存在的问题,因此研究人员开发了框架,推荐使用特定的数据删除技术。从2000年到2010年,最初的特征去除方法被集成到计算智能方法中。2013年,Ganapathy等人写了一篇综述,详细介绍了一种渐进的特征去除方法和修改的互信息方法,该方法选择特征以最大化输出的信息(最大化输入和输出之间的相关性),条件随机场(CRF)作为分层方法(每一层代表一种攻击类型),以及遗传特征选择,其中生成一组树并提取最佳特征集。最近的研究似乎在反思如何将特征删除方法集成到更精简的模型创建过程中。Bamakan等人提出了一种有效的入侵检测框架,将特征选择嵌入到其目标中函数结合时变混沌粒子群优化算法(TVCPSO)。他们在流程图中简化了加权目标函数方法,其中,随着每次迭代,粒子的适应度在粒子群优化中更新,并进行混沌搜索以找到全局最优值。Carrion等人提供了一种结构化方法,涉及更严格的特征选择或删除技术,解决了网络入侵检测方法中缺乏评估的问题。如他们所说,包括如何进行特征选择或删除以达到最终精度的步骤,可以在网络入侵检测文献中更容易复制和更可靠的评估。

特征选择。特征选择可以排除冗余特征,在不显著降低模型性能的情况下选择数据中的一个特征子集。2010年初,Koc等人对基于过滤的特征选择方法感兴趣,将隐naïve贝叶斯(HNB)模型应用于具有高度相关特征的数据。伴随他们的HNB模型的是一个基于过滤器的特征选择模型,该模型既基于相关性又基于一致性,仅依赖于数据中的统计属性。相关性特征选择选择倾向于高度相关类的特征。基于一致性的过滤器有一个不一致性标准,指定何时停止对数据的降维。在基于过滤器的方法之后,有兴趣使用随机森林的前向选择进行特征排序Aljarrah等人。但最近,Elmasry等人并没有找到最优的特征集。也有研究表明特征选择的穷举搜索非常耗时,利用进化计算技术可以在更短的时间内找到近似最优解。

自动特征提取。在自动特征提取领域,粗糙集理论和自动编码器是两种重要的自动化方法。粗糙集从网络入侵数据中提取特征,用离散的区间代替原始属性值,形成一个信息系统。自编码器被认为是主成分分析的非线性推广,它使用一个自适应的、多层的“编码器”网络来降低数据维度。2010年初,基于粗糙集理论的特征选择引起了人们的研究兴趣。Chung和Wahid针对简化群优化算法(SSO)容易出现早熟解的问题,对其进行改进,在SSO之后进行局部加权搜索,以产生更满意的解。他们将k均值聚类应用于连续的网络数据值,并将粗糙集理论应用于特征的最小子集。他们将k均值聚类应用于连续的网络数据值,并将粗糙集理论应用于特征的最小子集。所选特征的优度是使用给定输入数据D的适应度函数来评估的,|C|是特征的数量,|R|是特征子集的长度,其中R是一个特征子集,γR是特征集R的分类质量:
在这里插入图片描述
随着数据的快速变化,不相关特征的出现越来越多,Liu等引入了高斯混合模型来提取网络中的结构性特征,识别异常模式和正常模式,并使用模糊粗糙集理论去除冗余特征并优选重要特征。随着不相关特征和大数据时代的到来,模型的目标函数收敛速度变慢。模糊粗糙集方法和自动编码器都被设计用来处理大量数据。由于围绕着网络流量是正常还是异常的不确定性,Selvakumar等人提出了一种模糊粗糙集属性选择方法,将γP (D)对子集P的模糊依赖度定义为γP (D),其中特征子集根据其与数据的相关性进行评估。为了处理不断增长的数据,以及不相关的数据,Alqatf等人提出使用自编码器进行特征学习和降维,以提取最重要的特征并过滤掉冗余的特征。然后将约简后的数据输入SVM模型进行网络流量分类。

处理弱相关数据

问题:数据中特征之间缺乏强相关性可能会使模型的构建更具挑战性。相关性可以通过数据融合或引入新特征来人为地增加数据的维度。

增加维数。在给定一维特征数据的情况下,Li等人将数据增强到二维,并进行数据分割,分割后的数据再融合在一起进行网络入侵分类。他们根据相互关联的特征将特征数据分成四个独立的部分。将一维特征空间转换为灰度,然后将四个数据分量的输出数据合并传递到多融合CNN的输出层。

模型鲁棒性的讨论

问题。如果预测的准确性不受输入数据变化(如分布变化或异常值)的影响,那么这个模型就是鲁棒的。对于入侵检测来说,网络流量数据的变化也可能来自“敌手”,他们可能会“混淆”攻击有效载荷,以模拟其良性对应。为了减少噪声或对手对入侵检测精度的影响,人们提出了不同的鲁棒性方法。
健壮的方法。Gornitz等人将网络异常检测重构为一种主动学习任务,并测试了单类SVM的鲁棒性。他们首先将网络负载视为包含网络数据包数据的向量x,并使用字符串s和嵌入函数ϕ将其映射到向量空间。对于每个字符串s,如果s在有效载荷x中,ϕ(x)返回1,否则返回0。使用这种向量空间表示,就可以得到支持向量域描述(SVDD)。的设计使得正常数据可以从异常数据中分离出来,其中异常可以很容易地被区分为离群点。他们引导一名安全专家到特征或向量空间的低置信度区域进行主动学习,在这些区域中,更多的注意力集中在预测不准确的网络数据上。他们的SVM在设计时没有考虑到对手或网络数据中的噪声,因为模型鲁棒性没有考虑到SVM的构造。在对他们的方法进行实证评估期间,他们分析了敌手对模型性能的影响。
最近的工作集中在设计对分布变化或网络数据中异常值的鲁棒性的方法。论文要么解决鲁棒性方面的特定方法限制,如支持向量机对噪声的敏感性,要么解决导致高假阳性率或未检测到假阴性异常值的一般限制。Bamakan等算法利用斜坡损失来弥补支持向量对异常值的敏感性。ramp损失取代了hinge损失,后者是一种非凸损失函数,“压低”了这些异常值的压力,使支持向量模型更鲁棒和可靠。借助一个新的损失函数,作者应用“凹凸”过程来最小化斜坡损失,方法是在给定输入向量z的情况下,选择斜坡损失Rs (z)的最佳值。
那么对于每一对∀i, j∈{1,…,p} (i, j)对于p个输出标签,训练数据集被分为正类、负类和零类。初始化变量δ1, k = 1,并对第i次迭代的δi进行迭代更新,从而构造出这种形式的决策函数
f ( x ) = { + 1 , f ( x ) ≥ ϵ 0 − 1 , f ( x ) ≤ − ϵ 0 0 , o t h e r w i s e f(x)=\left\{

+1,f(x)ϵ01,f(x)ϵ00,otherwise
\right. f(x)= +1,f(x)ϵ01,f(x)ϵ00,otherwise
网络数据包观测值x根据构造的决策函数预测其标签。斜坡损失导致支持向量模型更稀疏,或更多的零量,因为错误分类的训练样本不会简单地成为支持向量。

为了解决无法捕获网络上发生的入侵信号这一普遍问题,Ahsan和将核密度估计应用于Hotelling’s T2控制图,设计了鲁棒估计器。霍特林的T2图可以跟踪我们观察独立和随机向量xi的过程的均值。首先,构造一个Xnormal矩阵,用于表示网络中的良性训练数据;然后运行快速最小协方差行列式(MCD),其中Manhalanobis距离计算为i∈{1,…,n}和距离进行排序,形成原始集合{1,…,n}的某种排列。T和S分别是新置换集合的均值和协方差。在霍特林控制图中,使用均值向量和协方差矩阵计算正常网络连接数据的T2统计量: T F a s t − M C D , i 2 = ( x i − T ) T S − 1 ( x i − T ) T^2_{Fast−MCD,i} = (x_i−T)^T S^{−1} (x_i−T) TFastMCD,i2=(xiT)TS1(xiT)。统计量的分布是由使用高斯核的核密度估计(KDE)计算的。然后,使用 T F a s t − M C D , i 2 T^2_{Fast−MCD,i} TFastMCD,i2统计的经验密度的CDF来计算控制极限: C L K D E = F ~ ^ h − 1 ( t ~ ) ( 1 − α ) CL_{KDE} = \hat{\widetilde{F}}^{−1}_h (\widetilde{t})(1−α) CLKDE=F ^h1(t )(1α)。鲁棒方法的设计主要围绕Hotelling T2控制图的鲁棒估计量的计算,从而可以得到更精确的Hotelling T2图控制限,即表示正常数据和异常数据边界的水平线。

对抗性攻击的容忍度探讨

问题。“对手”可以是数据生成器或网络安全专家,他们可以掩盖网络有效载荷,使其看起来是良性的,但实际上它们是恶意的。他们的目的是欺骗入侵检测系统,让对计算机网络的攻击不被发现。在检测网络入侵时,确定敌手将如何行为以及如何减少误报或漏报是具有挑战性的,但已经设计了使用数据生成的方法来帮助模型处理对抗性情况。
敌对的攻击。Marino和其他人实现了一种对抗性方法,试图使机器学习模型能够正确分类错误的样本通过生成对抗样本对算法进行改进。与其欺骗具有线性模型和多层感知器模型的分类器,作者更想了解为什么他们的网络数据被错误分类。他们找到了一个对抗性样本 x ^ \hat x x^被分类为 y ^ \hat y y^,同时最小化 x ^ \hat x x^和原始数据x0之间的距离:

约束条件 x m i n ≤ x ^ ≤ x m a x x_{min}≤\hat x≤x_{max} xminx^xmax
m i n x ^ H ( y ^ , p ( y , x ^ , w ) ) α I ( x ^ , y ^ ) + ( x ^ − x 0 ) T Q ( x ^ − x 0 ) min_{\hat x}H(\hat y,p(y,\hat x, w))αI_{(\hat x, \hat y)}+(\hat x-x_0)^TQ(\hat x-x_0) minx^H(y^,p(y,x^,w))αI(x^,y^)+(x^x0)TQ(x^x0)
Q是一个正的半正定矩阵,可以使用权重进行调整。
y ^ \hat y y^与网络观测数据的真实标签x0并不相同。x0, y是数据集中的一个样本。
H ( y ^ , p ( y , x ^ , w ) ) H(\hat y,p(y,\hat x, w)) H(y^,p(y,x^,w))是对抗性样本的估计标签 p ( y , x ^ , w ) p(y,\hat x, w) p(y,x^,w)与目标标签 y ^ \hat y y^之间的交叉熵。α衡量交叉熵在目标函数中的贡献, I ( x ^ , y ^ ) I_{(\hat x,\hat y)} I(x^,y^)是指示函数,当 x ^ \hat x x^被分类为 y ^ \hat y y^时返回0,否则返回1。
运行上面的二次规划优化,并应用最小变化来仅对错误分类的样本x0进行正确分类,其中我们打算构建 x ^ \hat x x^,使 y ^ \hat y y^是预测的标签。错误分类中的可解释性可以来自对抗性样本的生成,因为偏差 x 0 − x ^ x_0−\hat x x0x^的平均值可以用来解释错误分类的样本与将被正确分类的样本的距离。

Pawlicki和其他人没有使用一种对抗攻击生成方法,而是使用四种不同的方法构建了一个人工神经网络管道,每种方法都最小化了生成的对抗样本和真实样本之间的距离。将输入网络流量数据集划分为A、B、C、D四个子集。A部分用于训练入侵检测系统。B部分分为测试检测系统和通过执行四种对抗性攻击来训练敌手检测器——carlini和Wagner攻击、快速梯度符号方法、基本迭代方法、在1397个标记为“对抗性”的“攻击”样本上的投影梯度下降。将标记为“非对抗性”的剩余数据添加到“对抗性”样本中,形成对抗性检测器训练数据集。C、D用于测试对抗性检测器。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/787228
推荐阅读
相关标签
  

闽ICP备14008679号