当前位置:   article > 正文

独家解读 | 基于优化的对抗攻击:CW攻击的原理详解与代码解读

cw攻击

论文标题:Towards Evaluating the Robustness of Neural Networks

论文链接:https://arxiv.org/abs/1709.03842

作者:孙裕道

1. 引言

对抗攻击的方式主要分为三大类,第一种是基于梯度迭代的攻击方式比如FGSM,PGD,MIM;第二种是基于GAN 的攻击方式,比如AdvGAN,AdvGAN++,AdvFaces。还有一种攻击方式为基于优化的攻击方式,它的代表就是本文CW的攻击。CW攻击产生的对抗样本所加入的扰动,几乎是人眼察觉不出来的,反观,FGSM和PGD生成的对抗样本所生成的扰动比较糊,而且CW的攻击效果更加好,在加有蒸馏防御的分类模型中,CW攻击依然可以高效地攻击成功。

2. 论文的贡献

本文的贡献可以归结如下三点:

  • 作者针对   ,   和   三种距离度量引入到CW的攻击方式中。这三种度量方式的引入使得在较小的扰动下能够有较高的攻击准确率。

  • 模型蒸馏是对抗样本的有效的防御手段,CW攻击可以攻破防御性蒸馏中模型,高置信度的使模型出现误分类。

  • 作者一共提出了7个优化目标,并系统地评估了目标函数的选择,目标函数的选择可以显著地影响攻击的效果,实验显示论文中的优化目标函数(6)是所有优化目标中效果最好的

3. 模型介绍

3.1 核心思想

CW是一种基于优化的攻击方式,它同时兼顾高攻击准去率和低对抗扰动的两个方面,达到真正意义上对抗样本的效果,即在模型分类出错的情况下,人眼不可查觉(FGSM,PGD攻击生成的图片非常模糊,人眼可以察觉到)。首先对抗样本需要用优化的参数来表示,其次在优化的过程中,需要达到两个目标,目标1 是对抗样本和对应的干净样本应该差距越小越好;目标2是对抗样本应该使得模型分类错,且错的那一类的概率越高越好。

3.2 原始形式

CW攻击依赖于对抗样本的初始优化形式,图像x寻找对抗样本的问题正式定义如下:

其中图像x是固定的,目标是找到最小化目标函数  δ  的对抗扰动  δ  。生成对抗样本核心是寻找对抗扰动,对抗扰动使得模型C 出现误分类。D是一些距离度量函数,它要么是   ,   ,要么是   。

3.3 目标函数

现有算法很难直接求解上述公式,因为约束  δ  是高度非线性的。因此,需要用更适合于优化的不同形式来表示它。作者定义了一系列的目标函数   ,使得  δ  时当且仅当  δ  。其中   有许多可能的选择分别如下:

其中   是正确的分类,   是   的简写, 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/365754
推荐阅读
相关标签
  

闽ICP备14008679号