赞
踩
目录
本文根据现有方法的特点和性质对现有方法进行了简要而全面的回顾和分类。
三个攻击场景(scenarios):使用第三方数据集、使用第三方平台、使用第三方模型
这三个场景对应的攻击能力越来与越强,防御能力越来越弱。
首先本文在理解攻击属性的基础上,提出了一个统一的框架来分析现有的基于中毒的图像分类攻击。然后,基于所提出的框架对现有的基于中毒的攻击进行了详细的总结和分类。最后还讨论了针对其他任务或范式的攻击以及后门攻击的积极应用。
标准风险:Rs
C为受感染的模型
y为x的正确标签
Rs 用于检测受感染模型是否可以正确预测良性样本
后门风险:Rb
S(y)为x的后门标签
Rb用于检测后门攻击是否可以成功实现后门目的。
可检测风险:Rp
D(x')=1 当且仅当 x'可以检测为恶意样本。
x'为x对应的恶意样本
Rp用于确定恶意样本是否可以被检测到。
为了评估后门攻击在图像分类中的性能,通常采用两个经典指标,包括(1)良性准确率(BA)和(2)攻击成功率(ASR),定义见第II-A节。BA和ASR越高,攻击效果越好。此外,中毒率越小,良性图像与中毒图像之间的扰动越小,攻击越隐蔽。
1.BadNets
训练过程分为两个部分
1)通过在一部分良性图片上嵌入后门触发器生成中毒样本
2)使用中毒样本和良性样本一同参与训练生成模型
2.Invisible Backdoor Attacks(Blended attack)
A blended strategy
使用不可见的后门触发器生成中毒图像(例如添加随机噪声
对抗性攻击---使扰动的2范数最小化以确保不可见
优化后门触发器时,对扰动的p范数进行正则化
通过计算毒害损失实现不可见性
通过风格迁移对特征空间进行隐形攻击
基于dnn的图像隐写技术生成不可见的后门触发器
但是,以上方法都是毒标签隐形攻击,其中有毒样本会被错误标记。因此通过检查训练样本的图像—标签关系,仍然可以检测到隐形攻击
Clean-label invisible attacks(干净标签不可见攻击)
有一个目标类the target class
首先修改目标类中的一些良性图像 然后进行标准的隐形攻击
最小化目标类在特征空间中的距离,将之前可见攻击产生的有毒样本的信息注入到目标类图像的纹理中
干净标签的后门攻击通常比毒标签攻击的攻击效率低
3.Optimized Backdoor Attacks 优化后门攻击
双层优化算法
优化触发器,使重要神经元达到最大值,假设一个扰动能将大多数样诱导到目标类的决策边界,那么它就是一个有效触发器。
通过普遍对抗性扰动产生触发器 ?
交替优化上下级子问题采用梯度匹配
然而,优化后的后门攻击通常存在泛化不良的问题,例如对特定模型结构或模型状态的过拟合。
虽然已有的研究引入模型集成或精心设计交替优化过程来缓解过拟合,但如何更好地平衡优化触发器的有效性和泛化仍然是一个重要的开放性问题。
4.Semantic Backdoor Attacks 语义后门攻击
大多数后门攻击都是非语义攻击,假定后门触发器独立于良性图像。因此,攻击者需要修改数字空间中的图像,在推理过程中激活隐藏的后门。
而语义后门攻击利用样本的语义部分作为触发模式,这样攻击者就不需要再推理时修改输入来欺骗受感染的模型。
将攻击者选择的标签分配给具有某些特征的所有图像,例如绿色汽车或带有赛车条纹的汽车用于训练,可以在受感染的dnn中创建语义后门。感染模型将自动对包含预定义语义信息的测试图像进行错误分类,而不需要对图像进行任何修改。
5.Sample-specific Backdoor Attacks 特定于样本的后门攻击
目前,几乎所有的后门攻击都是样本无关的,也就是说所有中毒样本都包含相同的触发模式。(很多防御方法都利用了这个特性,如基于触发合成的防御和基于显著性的防御
针对特定样本的后门攻击,不同的中毒样本包含不同的触发模式。绕过了许多现有的防御,但是除了单独修改训练样本外,还需要空着训练损失,并且训练样本的触发仍然是可见的,这大大减少了它在实际应用中的威胁。
受先进的基于dnn的图像隐写技术的启发,提出了第一个具有不可见触发模式的纯毒物样本特异性后门攻击,在中毒图像的边缘结构中嵌入触发模式。由于这些攻击可以绕过大多数现有的后门防御,因此它们构成了严重的安全威胁,因此值得进一步探索。
6.Physical Backdoor Attacks 物理后门攻击
与以往的数字攻击完全在数字空间进行攻击不同,物理攻击在生成有毒样本时也涉及到物理空间。
Chen等人[10]首先探索了这种攻击的情况,他们采用一副眼镜作为物理触发器来误导在相机中开发的受感染的面部识别系统。
在[7]中也讨论了类似的想法,其中采用便利贴作为触发器来攻击部署在摄像头中的交通标志识别。
Li等人[9]证明了现有的数字攻击在物理世界中失败,因为所涉及的变换(例如:旋转和收缩)改变了被攻击样本中触发器的位置和外观。这种不一致性将大大降低后门攻击的性能。基于这种理解,他们提出了一种基于转换的增强攻击,以便增强的攻击在物理世界中仍然有效。这种尝试是在实际应用程序中成功进行后门攻击的重要一步。
7.All-to-all Backdoor Attacks 全对全后门攻击
跟据目标标签的类型,现有的后门攻击主要分为全对一攻击和全对全攻击两大类。具体来说,全对一攻击假设所有中毒样本具有相同的目标标签,无论它们的真值标签是什么
相反,在全对全攻击中,不同的中毒样本可能有不同的标签。
全对全攻击由于其目标转移复杂,可以绕过许多面向目标的防御,因此比全对一攻击更为严重。然而,关于全对全攻击的研究很少。如何更好的设计全对全攻击,对其性能的分析仍是空白。
8.Black-box Backdoor Attacks 黑盒攻击
与之前的白盒攻击需要访问训练样本不同,黑箱攻击采用了训练集不可访问的设置。
在实践中,由于隐私或版权问题,训练数据集通常不会被共享,因此黑盒攻击比白盒攻击更现实。一般情况下,黑盒后门攻击者首先会生成一些替代训练样本。例如,在[51]中,攻击者通过优化从另一个数据集初始化的图像,使所选类的预测置信度达到最大值,从而生成每个类的一些代表性图像。
利用替代训练样本,可以采用白盒攻击进行后门注入。
黑盒后门攻击比白盒后门攻击难度大得多,目前在该领域的研究较少。
目前,大多数针对其他任务或范式的后门攻击仍然是基于毒害的。因此,除了特定任务要求外,大多数方法都集中在(1)如何设计触发器,(2)如何定义攻击的隐蔽性,以及(3)如何绕过潜在的防御。不同任务和范式之间的巨大差异使得上述问题的答案完全不同。例如,图像相关任务中的隐身性可以定义为有毒样本与其良性版本之间的逐像素距离(e:g:, p范数);然而,在自然语言处理(NLP)中,即使改变一个单词或字符,也可能使修改对人类可见,因为它可能导致语法或拼写错误。
1.自然语言处理
自然语言处理是目前后门攻击中除图像分类外研究最广泛的领域。在[65]中,Dai等人讨论了如何攻击基于lstm(长短时记忆网络)的情感分析。具体来说,他们提出了一种类似badnets的方法,用一个情绪中立的句子作为触发器,并随机插入一些良性的训练样本中。在[66]中,Chen等人进一步探讨了这一问题,他们提出了三种不同类型的触发器(i.e.、char-level、word-level和sentence-level触发器),并取得了不错的性能。此外,Kurita等人[16]证明,即使经过微调,情感分类、毒性检测和垃圾邮件检测也可以被攻击。
2.非NLP-related领域
最近,还引入了其他后门攻击,针对不同NLP任务中的不同触发类型和模型组件。除了NLP-related任务,研究人员还揭示了图神经网络(GNN)、3D点云、半/自监督学习、强化学习、模型量化、声学信号处理]、恶意软件检测等中的后门威胁。
3.后门协作学习(如联邦学习、迁移学习)
除了经典的训练范式外,如何通过后门进行协作学习,尤其是联邦学习,一直是人们关注的焦点。在[54]中,Bagdasaryan等人通过放大节点服务器的中毒梯度,引入了针对联邦学习的第一次后门攻击。之后,Bhagoji等[95]讨论了隐身模型中毒后门攻击,Xie等[96]介绍了针对联邦学习的分布式后门攻击。最近,[97]从理论上证实,在联邦学习中,如果模型在温和条件下容易受到对抗性示例的攻击,则后门攻击是不可避免的。此外,还讨论了针对元联邦学习[98]和特征分区协作学习[99],[100]的后门攻击。相反,一些著作[101]、[30]、[102]、[103]也质疑联邦学习是否真的容易被攻击。除了联邦学习学习之外,另一个重要的学习范式——迁移学习的后门威胁也在[104]、[17]、[105]中讨论过。
除了恶意应用之外,如何利用后门攻击达到积极的目的也得到了一些初步的探索。
Adi等[106]采用后门攻击,通过所有权验证来防御模型窃取。具体来说,他们提出通过后门嵌入对dnn进行水印,可以用来检查模型的所有权。然而,最近的一项研究[107]表明,这种方法可能会失败,特别是当它很复杂时,因为窃取过程可能会改变甚至删除受害者模型中包含的隐藏后门。
此外,Sommer等[108]讨论了如何通过基于中毒的后门攻击,在用户要求删除数据时,验证服务器是否真的删除了他们的数据。具体来说,在它们的设置下,每个用户可以使用特定的触发器和目标标签毒害其部分数据。因此,每个用户可以在服务器上留下唯一的痕迹,以便在服务器对用户数据进行训练后进行删除验证。
此外,Shan等[109]引入了一种启用trapdoor的对抗性防御,防御者注入隐藏的后门,防止攻击者发现模型的真正弱点。其动机是,对受感染模型产生的对抗性扰动将在陷阱门模式附近收敛,这很容易被防御者检测到。
此外,Li等[110]讨论了如何基于后门攻击保护开源数据集。具体来说,他们将这个问题表述为确定数据集是否被用来训练一个可疑的模型。他们提出了一种基于假设检验的验证方法,该方法基于良性样本和可疑模型生成的攻击版本的后验概率。
最近,后门攻击也被用于解释dnn[111]和评估可解释的AI方法[112]。
除了基于投毒的后门攻击,最近的文献也提出了一些非投毒的攻击。这些方法在训练过程中嵌入隐藏的后门,而不是直接基于数据中毒。例如,攻击者可以直接改变模型权值甚至模型结构,而不需要训练过程。它们的存在表明,后门攻击也可能发生在其他阶段(例如:;部署阶段),而不是简单的数据收集或培训阶段,这进一步揭示了后门威胁的严重性。
在基于权重的后门攻击中,攻击者直接修改模型参数,而不是通过有毒样本的训练。据我们所知,Dumford等人[19]提出了第一个面向权重的攻击,他们采用了对预训练模型的权重施加不同扰动的模型进行贪婪搜索。这也是第一次非毒性的后门攻击。之后,Rakin等人[20]引入了一种面向比特级权重的后门攻击, i.e.即目标比特木马(TBT),它翻转存储在内存中的关键权重位。所提出的方法取得了显著的性能,攻击者能够在CIFAR10数据集[114]上误导ResNet-18[113],在8800万权重位中使用84位翻转。[21]中也引入了类似的想法,攻击者可以显著减少嵌入隐藏后门所需的翻转位。此外,Garg等人[52]提出在注入后门的良性模型的模型参数上加入对抗性扰动,这表明使用公开可用的训练模型会带来新的安全威胁。最近,Zhang等人[115]将在良性样本上保持准确性的行为描述为受感染模型的一致性,并为后门攻击中的对抗性权重扰动(AWP)提供了理论解释。基于分析,他们还引入了一种新的基于awp的后门攻击,具有更好的全局和实例一致性。与以往将后门直接嵌入参数的方法不同,Guo等[116]提出了TrojanNet将后门编码到被感染的dnn中通过一个秘密的重量排列激活。具体来说,训练TrojanNet类似于多任务学习,尽管良性任务和恶意任务没有共同的特征。此外,作者还证明了确定模型是否包含触发隐藏后门的排列的决策问题是np完全的,因此后门检测几乎是不可能的。
修改结构的后门攻击通过改变良性模型的结构,将隐藏的后门注入良性模型。
这些攻击可能在使用第三方模型或在部署阶段发生。据我们所知,Tang等人[22]提出了第一种结构修改攻击,他们将一个训练好的恶意后门模块(i:e:,一个sub-DNN)插入目标模型中,用于嵌入隐藏的后门。这种攻击简单而有效,恶意模块可以与所有dnn相结合。[23]中也探讨了类似的想法,攻击者通过添加包含条件模块和触发检测器的恶意有效载荷,将恶意条件逻辑嵌入目标dnn。最近,Qi等[24]提出直接替换而不是增加良性模型的窄子网进行后门攻击。该方法在数字和物理场景下都是有效的。
讨论后门攻击与相关领域之间的异同。表三概述了这些联系。
对抗性攻击和后门攻击都可以修改良性测试样本,使模型在推理过程中表现不佳。特别是当对抗性扰动在普遍对抗性攻击中是样本不可知论的[38],[117],[118]时,这些攻击似乎是相同的。因此,不熟悉后门攻击的研究人员可能会质疑其研究意义,因为它需要在某种程度上对训练过程进行额外的控制。
然而,这些攻击虽然有一些相似之处,但仍然有本质上的区别。(1)从攻击者的能力来看,对抗性攻击者需要(在一定程度上)控制推理过程,而不是模型的训练过程。具体来说,给定一个固定的目标模型,他们需要多次查询模型结果甚至梯度,以通过优化产生对抗性扰动。相反,后门攻击者需要修改一些训练阶段(例如:数据收集、模型训练),而在推理过程中没有任何额外的要求。(2)从被攻击样本来看,后门攻击者已知扰动(i:e:,非优化),而对抗性攻击者需要根据模型的输出通过优化过程获得扰动。这种对抗性攻击的优化需要多个查询[160],[161],[162]。因此,在许多情况下,对抗性攻击无法实现实时,因为优化过程需要时间。(3)两者的机制也有本质区别。对抗性脆弱性源于模型和人类行为的差异。相反,后门攻击者利用dnn的过度学习能力在触发模式和目标标签之间建立潜在连接。
最近,也有一些研究对抗性攻击和后门攻击之间潜在联系的工作。例如,Weng等人[163]通过经验证明,通过对抗性训练防御对抗性攻击可能会增加后门攻击的风险。
通常有两种类型的数据中毒,包括经典和高级。前者旨在减少模型泛化,i:e:;让受感染的模型在训练样本上表现良好,而在测试样本上表现不佳。相比之下,高级数据中毒使受感染的模型在测试样本上表现良好,而在一些不包含在训练集中的攻击者指定的目标样本上表现不佳。
数据中毒和(基于中毒的)后门攻击在训练阶段有许多相似之处。一般来说,它们都是为了在推理过程中通过在训练过程中引入有毒样本来误导模型。然而,它们也有许多内在的差异。首先,与经典数据中毒相比,后门攻击保留了良性样本预测的性能。换句话说,与传统的数据中毒相比,后门攻击具有不同的攻击目标。此外,这些攻击有不同的机制。具体来说,经典数据中毒的有效性主要是由于训练过程的敏感性,即使训练样本的感染模型的表面小域移位也可能导致显著不同的决策。此外,后门攻击也比传统的数据中毒更隐蔽。用户可以通过在局部验证集上评估训练模型的性能来轻松检测经典数据中毒,而这种方法在检测后门攻击方面的优势有限。其次,后门攻击也不同于高级数据中毒。具体来说,在高级数据中毒中不存在触发器,在推理过程中不需要修改目标样本。相应地,高级数据中毒只能对(少数)特定样本进行错误分类,这限制了它在许多场景中的威胁。
特别是对现有数据中毒的研究,由于两者的相似性,也启发了对后门学习的研究。例如,Hong等人[144]证明,对数据中毒的防御也可能有利于防御后门攻击,如第VI-A5节所示。
为了减轻后门威胁,提出了几种后门防御措施。现有的方法主要针对基于中毒的攻击进行防御,可分为两大类:经验后门防御和认证后门防御。具体而言,经验防御是基于对现有攻击的一些理解而提出的,在实践中表现良好,但其有效性缺乏理论保证。相比之下,证明后门防御的有效性在理论上是在一定的假设下得到保证的,而在实践中它通常比经验防御的有效性弱。目前,认证防御都是基于随机平滑[164],而经验防御则有多种方法。
1、基于预处理的防御
直接消除隐藏的后门
2、基于模型重构的防御
局部良性模型对训练好的可疑模型进行再训练,这样可疑模型会被遗忘。
隐式超梯度来解释内外优化之间的相互依赖关系
修剪和微调
模式连接技术
3、基于触发器合成的防御
先合成后门触发器,然后通过抑制触发器的效果来消除隐藏的后门。
修剪和再训练
4、基于模型诊断的防御
基于预先训练的元分类器来判断可疑模型是否受到感染,并拒绝部署受感染的模型。
5、基于毒药抑制的防御
抑制了中毒样本的有效性,以防止产生隐藏的后门
通过随机噪声减少有毒样本的恶意影响;对个体梯度进行剪切和扰动;数据增强
基于解耦合的后门一直训练方法
6、基于训练样本过滤的防御
从训练数据集中过滤有毒样本,经过过滤后,训练过程只使用良性样本或纯化的有毒样本,从源头上杜绝了后门的产生。
中毒样本倾向于在特征表示的协方差谱中留下可检测的痕迹,这可以用于从训练集中过滤中毒样本。
基于表示分解及其统计分析的更鲁棒的样本过滤器
基于输入梯度中包含的信号对中毒样本进行分离
采用显著性图来识别触发区域并过滤有毒样本
7、基于测试样本过滤的防御、
这些防御也过滤恶意样本,而过滤发生在推理而不是训练过程中。部署的模型只能预测良性测试或纯化的攻击样本。这些防御措施可以防止后门激活,因为它们可以移除触发模式。
虽然已经提出了多种经验防御措施,并对一些后门攻击取得了不错的性能,但几乎所有这些措施都被后续的自适应攻击绕过了[188],[189]。为了终止这种“猫捉老鼠的游戏”,Wang等人[28]向基于随机平滑技术的后门攻击认证防御迈出了第一步[164]。随机平滑最初是为了证明对对抗样本的鲁棒性而开发的,其中平滑函数是通过在数据向量中添加随机噪声来从基函数构建的,以证明分类器在特定条件下的鲁棒性。与[190]类似,Wang等人将分类器的整个训练过程作为基函数,推广经典随机平滑来防御后门攻击。在[29]中,Weber等人证明,直接应用随机平滑,如[28],不会提供高认证的鲁棒性界限。相反,他们提出了一个统一的框架,检查不同的平滑噪声分布,并提供了鲁棒性界的紧密性分析。最近,一些研究[191],[192],[193]也采用了集成技术(例如:g:, Bagging[194])来设计认证防御,以进一步提高有效性。
检测类经验性后门防御的度量
基于模型诊断的防御和基于测试样本过滤的防御都是类似检测的方法,其主要目标是识别可疑对象(例如训练好的DNN或样本)是否为恶意对象。这本质上是一个二元分类问题。为了评估它们的性能,通常采用三个指标[195],包括(1)精度(precision)、(2)召回率(recall)和(3)F1-score。准确率、召回率和f1得分越高,防御性能越好。
非检测类经验性后门防御的度量
除了基于模型诊断和基于测试样本过滤的防御外,其他防御方法都是非检测类的。他们的主要目标是对良性和受攻击的样本进行正确的预测。因此,我们同时采用良性准确率和攻击成功率(定义见章节II-A)进行评估。特别是,尽管检测过程也涉及基于训练样本过滤的防御,但上述三个指标(i:e:,精度,召回率和F1-score)不适合用于评估它们。这些防御可能会尝试丢弃尽可能多的有毒样本,以减少在过滤数据集上创建隐藏后门的可能性,甚至牺牲某些良性样本。
认证后门防御的度量
如第VI-B节所述,现有经过认证的后门防御均采用随机平滑。因此,这些方法可以提供一个认证半径,其中在具有认证半径的p球内的所有扰动都不能改变模型在某些假设下的预测。为了评价其性能,人们通常使用(1)良性准确率(benign accuracy)、(2)认证率(certified rate)和(3)认证准确率(certified accuracy)作为评价指标[28]、[29]。具体来说,良性准确率表示(平滑的)分类器在分类良性样本方面的表现;认证率是在半径大于认证半径的范围内可以认证的样品的比例;认证精度是测试集被正确分类并被认证为鲁棒且半径大于认证半径的分数。良性准确率、认证率和认证准确率越大,防御性能越好。
与对抗性学习和数据中毒类似,现有的大多数后门相关文献都集中在图像分类任务上。在本节中,我们总结了表V中所有经典图像分类基准数据集。
具体来说,这些基准数据集可以分为三大类,包括自然图像识别、交通标志识别和人脸识别。前一种是图像分类中的经典,而第二种和第三种是需要严格安全保证的任务。我们建议未来的研究应在这些数据集上进行评估,以方便比较并确保公平性。
如上所述,关于后门学习的文献中已经提出了许多工作,涵盖了几个分支和不同的场景。然而,我们认为这一领域的发展仍处于起步阶段,因为后门学习的许多关键问题尚未得到很好的研究。在本节中,我们提出了五个潜在的研究方向,以启发借壳学习的未来发展。
A.触发器设计
基于中毒的后门攻击的有效性和效率与其触发模式密切相关。然而,大多数现有攻击的触发器都是以启发式(例如:通用摄动设计)甚至非优化的方式设计的。如何更好地优化触发模式仍然是一个重要的悬而未决的问题。此外,在触发器设计中只考虑了有效性和触发器的不可见性。其他标准,如最小中毒率和触发器泛化,也值得进一步探讨。
B.语义和物理后门攻击
如第III-C节所述,在实际场景中,语义和物理攻击是对AI系统更严重的威胁,相对于其他类型的后门攻击,它们的研究还远远落后。更深入的研究以更好地了解这些攻击将是在实践中减轻后门威胁的重要步骤。
C.针对其他任务的攻击
后门攻击的成功很大程度上依赖于根据目标任务的特点进行具体的触发器设计。例如,触发器的视觉不可见性是视觉任务中确保隐身性的关键标准之一。然而,在不同的任务中后门触发器的设计可能会有很大的不同(例如,在攻击与nlp相关的任务时将触发器隐藏到句子中与将触发器隐藏到图像中有很大的不同)。因此,有必要研究指定任务的后门攻击。目前,现有的后门攻击主要集中在计算机视觉任务上,尤其是图像分类。对其他任务(如推荐系统、语音识别和自然语言处理)的研究还没有得到很好的研究。
D.有效和高效的防御
虽然已经提出了许多类型的经验后门防御(如第六节所示),但几乎所有后门防御都可以被随后的适应性攻击绕过。此外,除了基于预处理的防御外,现有的防御通常存在计算成本高的问题。为了跟上后门攻击的快速发展步伐,我们应该更多地努力设计有效和高效的防御措施(例如:分析现有攻击的弱点,以及如何降低防御的计算成本)。此外,如何设计黑盒防御也值得关注,因为这些方法在现实中更实用。此外,认证后门防御很重要,但目前很少研究,值得更多的探索。
E.机制探索
后门生成的原理和后门触发的激活机制是后门学习中的关键问题。例如,为什么可以创建隐藏的后门,以及当触发器出现时受感染模型内部会发生什么,在现有的工作中都没有得到仔细研究。更深入地了解后门攻击的内在机制可以指导设计更有效的攻击和防御,以及对DNN行为的理解。
后门学习,包括后门攻击和后门防御,是一个关键和蓬勃发展的研究领域。在本次调查中,我们总结和分类了现有的后门攻击,并提出了一个统一的框架来分析基于中毒的后门攻击。我们还讨论了后门攻击与相关研究领域的关系,并分析了现有的防御措施。最后对经典的基准数据集和潜在的研究方向进行了说明。请注意,该领域的几乎所有研究都是在过去四年中完成的,攻击与防御之间的猫捉老鼠游戏很可能在未来继续。我们希望这项调查能够提醒研究人员注意后门威胁,并提供及时的看法。这将是朝着构建更强大、更安全的深度学习方法迈出的重要一步。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。