赞
踩
2021.12.30 第11篇(ICCV2021) 精读
本文已投稿于我爱计算机视觉公众号,原文链接:LNG:首个基于图的对抗样本检测方法
论文链接: Adversarial Example Detection Using Latent Neighborhood Graph
代码链接:无
近年来,深度神经网络被广泛应用于计算机视觉、自然语言处理和语音识别等领域。然而研究表明,深度神经网络很容易受到来自输入的细微干扰的攻击,从而导致模型预测出不正确的输出,这也引起了研究人员对深度神经网络的安全隐患的关注。对抗样本检测作为抵御对抗攻击的手段之一,也得到了研究人员的广泛研究。
相比于对抗训练,对抗样本有无需重训练模型,且可以适配到已经部署的模型上的优势。
先前的对抗样本检测研究表明输入样本和它的邻居在特征空间中表现出显著的一致性,基于此,本文提出了Latent Neighborhood Graph来表征输入的邻居。
与先前的工作DkNN[1]相比,本文所提的LNG有以下三方面优势:
上图为总体框架图
下表根据检测所需的信息比较了对抗样本检测方法的主要差异:
首先为每个输入样本生成一个Latent Neighborhood Graph,然后使用图神经网络 (GNN) 来利用邻域图中节点之间的关系来区分良性和对抗样本。下图展示了所提方法的总览:
具体来说,将每张测试图片
I
I
I,提取在预训练模型中的嵌入向量
z
z
z,此外本文还设置了一个额外的参考数据集,同样的方法将参考数据转成嵌入向量,提取
z
z
z附近的
n
n
n个邻居。此时我们得到了两个嵌入矩阵(1)
X
∈
R
n
×
m
X \in R^{n \times m}
X∈Rn×m用于存储邻居样本的嵌入向量,其中每一行代表一个样本的嵌入向量(2)
A
∈
R
n
×
n
A \in R^{n \times n}
A∈Rn×n编码了邻域中所有样本对之间的流形关系。由于本文中
A
A
A未知,下文将介绍如何基于嵌入距离来估计
A
A
A。
这里reference dataset, Z r e f Z_{ref} Zref分为两类:一类从正常样本中随机采样一部分,一类先对正常样本的reference dataset数据进行对抗攻击得到对抗样本,因此对抗样本的reference dataset数据量是正常样本的reference dataset的两倍。
本文根据k-nearest-neighbor graph (k-NNG)来选择与输入样本 z z z相近的样本组成输入样本 z z z的 n n n个邻居。
首先将输入样本和每个邻居样本进行连边,并用下式重新估计邻居样本间的连接关系
A
i
,
j
=
1
1
+
e
x
p
(
−
t
⋅
d
(
i
,
j
)
+
θ
)
A_{i,j}=\frac{1}{1+exp(-t \cdot d(i,j)+ \theta)}
Ai,j=1+exp(−t⋅d(i,j)+θ)1其中
d
(
i
,
j
)
d(i,j)
d(i,j)是节点
i
,
j
i,j
i,j间的欧式距离,
t
,
θ
t, \theta
t,θ是两个系数。由于根据sigmoid function得到的
A
A
A是0-1的值,这里作者将其用下式量化为0或1:
A
i
,
j
′
=
{
0
,
A
i
,
j
<
t
h
1
,
A
i
,
j
≥
t
h
(1)
A_{i,j}^{'}=
上图显示了不同情况下的k-NNG和LNG构图。
本文采用[2]中的图注意力网络结构聚合 z z z和它的邻居信息,同时学习 t , θ t, \theta t,θ。此时对抗样本检测问题变成了解决下列问题: f ∗ = a r g m i n f ∑ ( z , y ) l ( f ( A z , X Z ) , y ) f^*=\underset{f}{arg\ min} \sum_{(z,y)}\mathcal{l}(f(A_z,X_Z),y) f∗=farg min(z,y)∑l(f(Az,XZ),y)其中 l \mathcal{l} l是交叉熵损失函数。
本文使用FGSM (
L
∞
L_{\infty}
L∞), PGD (
L
∞
L_{\infty}
L∞), CW (
L
∞
L_{\infty}
L∞),AutoAttack (
L
∞
L_{\infty}
L∞), Square (
L
∞
L_{\infty}
L∞), and boundary attack,六种攻击方法生成对抗样本。
上表反映了k-NNG 鉴别器对不同邻居数的检测性能 (AUC)
上图反映了良性样本和对抗样本在不同攻击方式下的t-SNE可视化结果。
上图展示了本文所提方法比传统方法在CIFAR-10上的性能优势。
上表展示了与不同检测方法的对比效果。
上图展示了FGSM和AutoAttack在STL-10数据集上的ROC-AUC曲线。
上表显示了本文所提方法在使用干净与对抗参考集上的 (AUC) 性能。
上表展示了使用不同连接方式的 (AUC) 性能比较。 NC:节点之间没有连接,AC:全连图,CC:只有中心节点连接到所有节点。
本文提出了第一个基于图的对抗样本检测方法,该方法在预训练分类器的嵌入空间中生成latent neighborhood graphs以检测对抗样本。所提方法在对三个基准数据集的白盒和灰盒对抗攻击上实现了sota的检测性能。此外本文还展示了所提方法对未知攻击的有效性。
[1] Deep k-Nearest Neighbors: Towards Confident, Interpretable and Robust Deep Learning
[2] GRAPH ATTENTION NETWORKS
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。