当前位置:   article > 正文

20_AAAI_Hidden Trigger Backdoor Attacks

hidden trigger backdoor attacks

背景

这篇文章是2020年发表在AAAI上的,主要是隐藏的后门攻击的木马触发器。

在后门攻击中,中毒的数据打上错误的标签,攻击者希望隐藏这件事。具体而言就是让带有trigger的样例可以变得和正常样例一致。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Xc3VWIZ-1643098184154)(C:\picture\image-20220125155959589.png)]

首先介绍背景,在标准的后门攻击,攻击者制作中毒数据,但是这样的中毒数据很容易被识别出来,就像这样,很容易看出这个中毒样例其他样例物种不同还带有一个奇怪的小块。

攻击者希望可以把中毒数据伪装成正常数据无法被视觉识别。
在这里插入图片描述

就像这样,中毒样本的外表和目标样本的外表一致,但是实际上它的概率分布和贴有触发器的样本一致。可以混入数据之中,具有比较好的隐匿性。

攻击概览

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZFhCI6sc-1643098184155)(C:\picture\image-20220125155059917.png)]

攻击者选择目标label,从目标label的数据中选择的样例为目标样例。

随机选择干净样本,将干净样本加上触发器后,优化为目标样本的视觉效果,则完成了中毒样数据的制作。

然后可以将中毒数据放入目标样本所属的Label,受害者此时无法通过视觉辨认出中毒数据,然后将数据喂入模型进行训练。训练结束后,攻击者可以使用触发器激活后门,将结果分类至目标label。

攻击方法

接下来介绍作者的方法,首先从目标类别中随机选择K个目标图像,用他们初始化中毒图像Z_k,可能是就是把他们作为初始图像,最多加个扰动。

随机选择K张图像然后在随机的位置贴上触发器,在特征空间上找最近的目标图像,形成一对,然后用PGD进行优化,f就是一个训练好的分类器,他是假定在迁移学习的环境下。

最后的概率分布和s_k靠近,外形和目标类别靠近。

PGD是投影梯度优化,会在点集中找一个相差最小的代替他。

实验结果

1. 攻击前后的变化

在这里插入图片描述

左边的是干净的分类器,右边是中毒分类器,在中毒攻击之后,中毒目标和带有触发器的

什么是中毒目标?

2.不同数据集下的二元分类实验

在这里插入图片描述

Binary classifier ; only fine-tune the last layer

3.调整触发器的尺寸

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kKuLL3wu-1643098184156)(C:\picture\image-20220125160700373.png)]

Adjust the parameters

4. 微调其他的层数

在这里插入图片描述

5. 多分类

在这里插入图片描述

6.防御

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-acr3rmsk-1643098184156)(C:\picture\image-20220125160807168.png)]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/884000
推荐阅读
相关标签
  

闽ICP备14008679号