赞
踩
修正神经网络可以被分为六种类型:
在左图上加了微小扰动之后,本来以57.7%的置信度被分类为熊猫,结果以99.3%的置信度被分类为了长臂猿。
研究人员对对抗样本的存在提出了一些解释。一些认为,原因是模型的过度学习或under-regularization导致泛化能力不足,学习模型预测未知数据,而其他认为敌对的样本是由极端非线性的神经网络。然而,Goodfellow等在正则化模型和有足够维数的线性模型的输入中加入了扰动,证明了这两个模型防御对抗性攻击的有效性并没有显著提高。
Goodfellow et al.认为敌对样本产生的原因是高维空间中的线性行为。在高维线性分类器中,对每个输入特征进行归一化处理,对每个输入的一个维度进行轻微的扰动不会改变分类器的整体预测,而对输入的所有维度进行小的扰动就会导致有效的变化。
1
/
(
1
+
e
x
p
(
−
x
)
)
1/(1+exp(-x))
1/(1+exp(−x))为sigmoid函数
对抗样本具有三个基本特征,transferability(可转移性),regularization effect(正则化效应), adversarial instability(对抗不稳定性)
术语“对抗能力”指的是对手可以获得和使用的关于目标模型的信息量。显然,能够接触到更多信息的对手严格来说比其他人“更强大”。对抗性能力的分类如图3所示。我们讨论了对抗能力的范围,因为它们与训练和测试阶段有关。
White-box Attacks
在白盒攻击中,对手对目标模型f有全部的知识,包括算法训练、数据分布μ和模型参数θ。对手利用现有信息识别目标模型f的最脆弱特征空间,然后通过使用对抗性样本生成方法来改变输入。利用模型的内部权值进行白盒攻击,说明模型具有较强的对抗能力。
Black-box Attacks
对手对黑盒攻击中的目标模型f一无所知。相反,他们通过使用关于过去输入/输出对的信息来分析模型的漏洞,例如,对手通过输入一系列对抗样本并观察相应的输出来攻击模型。黑盒攻击可以分为非适应黑盒攻击、自适应黑盒攻击和严格黑盒攻击。
(1) Non-Adaptive Black-Box Attack(非自适应的黑盒攻击)
对手只能访问目标模型f的训练数据分布μ。因此,对手为模型f选择训练程序train ',并从数据分布μ中训练一个局部模型来逼近目标模型。然后,对手在模型f '上使用白盒攻击策略生成对抗样本,并将这些样本应用到模型f中导致误分类。
(2)Adaptive Black-Box Attack(自适应的黑盒攻击)
对手不能访问关于目标模型的任何信息,但可以访问模型f作为一个oracle。在本例中,对手通过输入数据X来查询目标模型以获得输出标签y,然后对手选择训练过程retraining '和模型f '在查询目标模型得到的元组(X, y)上训练局部模型。最后,对手将白盒攻击产生的对抗性样本应用于目标模型
(3)Strict Black-Box Attack(严格的黑盒攻击)
对手无法获取数据分布θ,但可以从目标模型中收集输入-输出对(X, y)。它与自适应黑盒攻击的不同之处在于它不能通过改变输入来观察输出的变化。
与白盒攻击相比,黑盒攻击不需要学习目标模型的随机性r或参数θ。对手的目标是在非自适应攻击中使用数据分布μ训练局部模型f ,在自适应攻击中使用精心选择的数据集查询目标模型。
对抗目标可以从模型的不确定性钟推断出来。根据对抗性目标对模型输出完整性的影响,可以将其分为置信度降低,误分类,目标误分类和源/目标误分类。
从一个原始样本生成一个对抗样本所使用的总扰动需要尽可能小,这是保证对抗样本不被人眼识别的关键。假设‖·‖范数用于描述DNN输入域中的点之间的差异,模型f中的对抗样本可以形式化为以下优化问题的解决方案。
由于大多数DNN模型使式(3)具有非线性和非凸性,因此很难找到封闭解。现在,我们详细讨论上面两个步骤中使用的方法。
对手可以使用目标模型对输入信息的敏感性来评估最可能引起最小干扰的目标错误分类的维度。干扰输入维数的方法有两类:
(1)Perturb all the input dimensions:
Goodfellow等提出了一种对每个输入维度进行干扰的方法,但FGSM方法计算梯度符号方向的干扰量较小。该方法有效地减小了原始样本与对应对抗样本之间的欧氏距离。
(2)Perturb the selected input dimension:
Papernot等人]选择了一个更复杂的涉及显著映射的过程,只选择了有限数量的输入维度进行扰动。该方法有效地减少了产生对抗样本时输入特征的扰动量。
第一种方法适合于快速生成大量的对抗样本,但由于其干扰较大,更容易被检测出来。第二种方法以较高的计算成本降低了扰动。
因为本人研究内容主要是白盒攻击,故文章中关于黑盒攻击的细节便不在展现。
由于对抗性攻击技术已经应用于学术界和工业界,本节描述了对抗性攻击在几个领域的应用,包括计算机视觉、自然语言处理、网络空间安全和物理世界。
Wei等人[28]提出了一种基于生成对抗网络(GAN)框架的生成对抗图像和视频的方法[55]结合了高阶类损失和低阶特征损失来联合训练对抗样本生成器。为了增强对抗样本的可转移性,他们对从特征网络中提取的特征图进行了破坏。其框架的总体框架如图7所示。在PASCAL VOC和ImageNet VID数据集上的实验表明,该方法能够有效地生成具有良好可转移性的图像和视频对抗样本,能够同时攻击两种具有代表性的目标检测模型:提出了基于更快区域的卷积神经网络方法(Faster- rcnn),以及基于回归的模型,如单发多盒检测器(SSD)。
讨论了对抗性攻击在自然语言处理领域的测试、分类和机器翻译中的应用。
Liang等人[30]提出了一种利用字符级CNN生成对抗性文本样本的算法[70]。他们展示了直接使用FGSM等算法产生对抗性文本样本的问题,即输出结果是乱码文本,人眼很容易识别为噪声样本。Shared TextFool代码库[71]可用于产生对抗性文本样本,主要思想是通过文本样本中的同义词和拼写错误修改现有单词。
Hossein等人[72]表明,用选定的单词策略性地插入标点符号可以欺骗分类器,并且当模型用作文件管理器时,有毒的注释可以被绕过。
Samanta等人[73]提出了一种通过修改原始样本来生成对抗性文本样本的新方法。该方法通过删除或替换文本中重要或突出的单词,并在文本样本中引入新词,对原始文本样本进行修改。作者在用于情感分析的IMDB电影评论数据集和用于性别检测的Twitter数据集上的实验结果表明了该方法的有效性。
Belinkov等人[29]表明,字符级神经机器翻译(NMT)对随机字符操作过于敏感,他们使用黑箱启发式来生成字符级对抗示例。作者指出,即使部署了拼写检查器,最先进的模型也容易受到广告对抗性攻击。然而,Zhao等人[74]通过扰动潜在表示在编码句子空间中搜索和生成黑盒对抗样本。
Ebrahimi等人[75]提出使用梯度估计方法对对抗操作进行排序,使用贪婪搜索或波束搜索方法对对抗样本进行搜索。作者还提出了两种特定类型的攻击,以删除或更改翻译中的一个单词。
Papernot等人[21]对网络空间的深度神经网络分类器发起了攻击之一。他们训练了一个替代网络来替代合成数据上的目标黑盒分类器,并对Meta Mind、Amazon和谷歌远程托管神经网络进行攻击。结果表明,对于采用该方法生成的对抗样本,目标网络的分类错误率分别为84.24%、96.19%和88.94%,属于黑盒攻击。
Liu等[76]研究表明,虽然可转移的非靶向对抗示例很容易找到,但使用现有方法生成的靶向对抗示例几乎不会与目标标签一起转移。他们提出了一种基于集成的方法来生成可转移的对抗示例,该示例可以成功攻击黑箱图像分类系统Clarifai.com;结果如图8所示。
与图像识别相比,恶意软件分类字段引入了额外的约束,例如恶意设置,比如用离散输入域替换连续输入域,类似视觉条件。Hu等人[77]提出了一种名为MalGAN的模型来生成恶意软件对抗样本。如图9所示,该模型包含三个DNN模型,即发生器模型、鉴别器模型和替代模型。利用对抗样本的传递性,MalGAN构建了一个替代模型,可以模拟目标模型,生成由API调用序列组成的对抗恶意软件样本,绕过恶意软件检测系统。
将对抗样本引入训练数据集,利用合法化的对抗样本训练模型,提高目标模型的鲁棒性。Szegedy等[6]首先注入对抗样本并修改其标签,使模型在面对对手时更加稳健。Goodfellow等人[15]降低了MNIST数据集上的误识别率,采用对抗性训练从89.4%提高到17.9%。Huang等[40]通过惩罚错误分类的对抗样本来提高模型的鲁棒性。Tramèr等人[41]提出了集成对抗训练,可以增加对抗样本的多样性。然而,在对抗训练中引入所有未知的攻击样本是不现实的,这导致了对抗训练的局限性。
如果一个模型是不可微的(例如,一个决策树,一个最近邻居分类器,或一个随机森林),基于梯度的攻击是无效的。但是,通过学习带有梯度的代理黑箱模型,并使用该模型生成的对抗样本,该方法在这种情况下很容易被欺骗。
由于可转移性属性即使分类器具有不同的架构或在不联合数据集上训练也保持不变,防止黑盒攻击的关键是防止对抗性样本的可转移性。Hosseini等人[42]提出了一种三步NULL Labeling方法,以防止敌对样本从一个网络转移到另一个网络。其主要思想是在数据集上添加一个新的NULL标签,并通过训练分类器将其分类为NULL标签,以抵御对抗性攻击。该方法一般包括初始训练目标分类器、计算空概率和对抗训练三个主要步骤,如图15所示。
该方法的优点是将扰动输入标记为空标签,而不是将其分类为原始标签。该方法是目前最有效的防御方法之一,针对对抗性攻击,既能准确抵抗对抗性攻击,又不影响原始数据的分类精度。
Dziugaite等人发现,JPG压缩方法可以提高由于FGSM攻击造成的大量网络模型识别精度下降的干扰。Das等人[44]使用类似的JPEG压缩方法研究了一种针对FGSM和DeepFool攻击的防御方法。然而,这些图像压缩技术仍然不能有效防御更强大的攻击,例如Carlini & Wagner攻击[24]。同样,用于对抗普遍干扰攻击的显示压缩技术(Display Compression Technology, DCT)压缩方法也被证明是不足的。这些基于数据压缩的防御方法最大的局限性是,大量的压缩会导致原始图像分类精度下降,而少量的压缩往往不足以消除干扰的影响。
Xie等人[45]证明了随机调整对抗样本的操作会降低对抗样本的有效性。同样,在对抗样本中加入一些随机纹理也可以减少它们对网络模型的欺骗。王et al。[46]使用一个数据转换模块分开的网络模型来消除图像中可能的敌对的扰动,并进行了数据膨胀操作在培训过程中,如添加一些高斯随机化处理,可以稍微提高网络模型的鲁棒性。
我们可以对神经网络模型进行修改,如正则化、防御蒸馏、特征压缩、深度收缩网络和掩膜防御
该方法通过在代价函数中加入规则项即惩罚项来提高目标模型的泛化能力,使模型在预测时具有良好的抗未知数据攻击的适应性。Biggio等[8]在训练SVM模型时使用正则化方法来限制数据的脆弱性。文献[47 - 49]采用正则化方法提高算法的鲁棒性,在抵抗对抗性攻击方面取得了较好的效果。
Papernot等人[14]提出了一种基于蒸馏技术的防御蒸馏方法来抵御攻击[88]。原始精馏技术旨在将大尺度模型压缩为小尺度,保持原有精度,而防御精馏技术不改变模型的尺度,生成的模型输出面更平滑,对扰动的敏感性更低,以提高模型的鲁棒性。如图16所示,他们首先在数据X上用软最大温度T训练一个初始网络F,然后使用概率向量F(X),它包含了与类标签相比的关于类的额外知识,在相同的数据x上,在温度T下训练一个蒸馏网络Fd。作者证明使用防御性蒸馏可以降低90%的对抗攻击成功率。
然而,在黑盒攻击中不能保证防御蒸馏的有效性。
特征压缩是一种模型增强技术[51],其主要思想是降低数据表示的复杂性,从而减少灵敏度低带来的对抗性干扰。启发式方法有两种,一种是在像素级上降低颜色深度,即对数值较少的颜色进行编码;另一种是对图像进行平滑滤波,即将多个输入映射到单个值,从而使模型在噪声和对抗性攻击下更加安全。虽然该技术可以有效地防止对抗攻击,但也降低了对真实样本的分类精度。
Gu等人[52]提出了一种深度压缩网络,该网络采用降噪自动编码器来降低对抗噪声。基于这一现象,DCN在训练过程中采用了类似于卷积自编码器(Convolutional Autoencoder, CAE)的平滑惩罚[89],并被证明对L-BGFS[6]等攻击具有一定的防御作用。
Gao等[53]提出在处理分类网络模型之前插入一个掩码层。该掩码层对原始图像和对应的对抗样本进行训练,并对这些图像与前一网络模型层输出特征的差异进行编码。一般认为附加层中最重要的权重对应网络中最敏感的特征。因此,在最终的分类中,通过强制附加层的主权值为0来掩盖这些特征。这样可以避免敌对样本导致的分类结果偏差。
Cisse等人[20]提出了一种名为Parseval的网络作为对抗攻击的防御方法。该网络通过控制网络的全局Lipschitz常数,采用层次化正则化。考虑到网络可以被视为每一层的函数的组合,通过保持这些函数的一个小的Lipschitz常数,可以对小的输入扰动具有鲁棒的正离子,他们提出了控制网络权矩阵的谱范数,通过Parseval紧框架参数化网络权值矩阵的谱范数[90],因此称为“Parseval”网络。
这种方法是指使用额外的工具作为神经网络模型的辅助工具,包括defense-GAN、MagNet和高级表示引导的去噪。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。