当前位置:   article > 正文

对抗样本的创建和防御_赵 对抗样本模型重建防御

赵 对抗样本模型重建防御

先列出两个对抗样本创建的github链接:

cleverhans

百度的AdvBox

什么是对抗样本

对抗样本产生原因

         

对抗样本发生的原因:深度学习模型的高度线性性质,导致通过线性模型参数的点乘累积放大输入图像像素值的微小改变。

创建对抗样本

1. 白盒No-target攻击——FGSM, I-FGSM

        

固定模型参数W,b,梯度上升更新x,使推理(分类)结果远离正确值y

IFGSM生成的对抗样本比FGSM生成出的精度更高,但是迁移性不一定有FGSM好。 (Reason: drop into poor local maxima; “overfit” the model.)

MI-FGSM

I-FGSM的基础上加上Momentum技术,生成质量更高的对抗样本的同时,提高对抗样本的迁移性

2. 利用对抗样本的可迁移性进行黑盒攻击

             

黑盒生成对抗样本:基于对抗样本迁移的方法。

仿照被攻击模型的任务,训练一个同样功能的本地模型,通过白盒方式生成本地模型的对抗样本,通常这些样本也有攻击这些模型的能力。

通过分析gradient进行黑盒攻

代表方法:Zeroth Order Optimization'(ZOO)[9] attack, Substitute Attack[10]

ensemble models的对抗样本

使用Kmodel

三个层面的叠加:logits层面、prediction层面和loss层面

同时攻击多个model的对抗样本性能更强。

3. 白盒有target攻击

固定参数Wb,选定label y_target,梯度下降更新x,使推理结果逼近y_target。

x∗=x-ϵsign(∇_x L(x,y_target))

4. 利用GAN生产对抗样本——AdvGAN

GAN生成对抗样本的目标是生成视觉上真实同时能使目标模型分类错误的图像。

  普通GAN loss,判别器用于分辨原始样本和对抗样本,生成器用于生成创建对抗样本的噪声。

  对抗样本loss,f是被攻击模型,t是原始样本经过模型分类后的target

,用于限制GAN的训练扰动

,综合三种loss一起训练。

防御对抗样本的方法

1. 神经网络对抗样本去噪

结果:将噪声去除了,但是没有提升模型分辨对抗样本的性能

原因:随机噪声对准确率的影响会随着去噪网络的传递而减少,但是对抗噪声的影响会变大,所以基本的去噪无法解决这个问题

2. 神经网络高层特征去噪

对原始对抗样本图片的去噪方法(PGD)效果不佳,于是将损失函数加在网络高层的特征层上的方法(HGD

3. HGD去噪

Loss加在不同的网络层,分别对应三种方法:FGD, LGD, CGD

此外HGD方法具有可迁移性,在一个网络上训练的抗造器借给另一个完全不同的网络也会起到不错的抗噪效果。

同时以使用Ensemble的方法提升准确率

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/312149
推荐阅读
相关标签
  

闽ICP备14008679号