赞
踩
该论文是关于对抗样本可迁移性的文章。在该论文中,作者提出了一种可迁移注意力攻击(
T
A
A
\mathrm{TAA}
TAA),该方法基于关注图像特定区域和特征对干净图像进行对抗扰动。另外,作者还将三元组损失函数引入到对抗样本的生成策略中,在攻击过程中干净图像被迭代地“推”离源类,同时随着攻击进行“拉”近到目标类,以实现对抗样本较高的可迁移性。实验结果表明,该方法不仅提高了对抗样本的可迁移性,而且保持了较高的白盒目标攻击成功率。
论文链接: https://ieeexplore.ieee.org/document/9430730/
G
o
o
d
f
e
l
l
o
w
\mathrm{Goodfellow}
Goodfellow最先提出使用梯度信息在白盒条件下生成对抗样本的攻击方法
F
G
S
M
\mathrm{FGSM}
FGSM:
x
′
=
x
+
ϵ
⋅
s
i
g
n
(
∇
x
J
(
x
,
y
)
)
x^{\prime}=x+\epsilon\cdot \mathrm{sign}(\nabla_x J(x,y))
x′=x+ϵ⋅sign(∇xJ(x,y))
s
i
g
n
(
x
)
=
{
1
i
f
x
>
0
0
i
f
x
=
0
−
1
i
f
x
<
0
\mathrm{sign}(x)=\left\{1if x>00if x=0−1if x<0
K
u
r
a
k
i
n
\mathrm{Kurakin}
Kurakin等人通过扩展单步
F
G
S
M
\mathrm{FGSM}
FGSM方法,并提出了迭代版本方法
I
-
F
G
S
M
\mathrm{I\text{-}FGSM}
I-FGSM,即多次在梯度方向上进行迭代生成对抗样本,具体的形式如下所示:
x
0
′
=
x
x
t
+
1
′
=
x
t
′
+
α
⋅
s
i
g
n
(
∇
x
J
(
x
t
′
,
y
)
)
x′0=xx′t+1=x′t+α⋅sign(∇xJ(x′t,y))
D
o
n
g
\mathrm{Dong}
Dong等人提出了一个基于动量迭代攻击方法
M
I
-
F
G
S
M
\mathrm{MI\text{-}FGSM}
MI-FGSM以此来提高对抗样本的迁移性,具体的公式如下所示
g
t
+
1
=
μ
⋅
g
t
+
∇
x
J
(
x
t
′
,
y
)
∥
∇
x
J
(
x
t
′
,
y
)
∥
1
x
t
+
1
′
=
x
t
′
+
α
⋅
s
i
g
n
(
g
t
+
1
)
gt+1=μ⋅gt+∇xJ(x′t,y)‖∇xJ(x′t,y)‖1x′t+1=x′t+α⋅sign(gt+1)
在该论文中,作者提出一种新的黑盒有目标攻击,即可迁移注意力攻击(
T
A
A
\mathrm{TAA}
TAA),该方法也可以对白盒模型进行攻击。令
F
(
x
)
:
x
∈
R
n
→
y
∈
{
1
,
⋯
,
k
}
F(x):x\in\mathbb{R}^n\rightarrow y\in\{1,\cdots,k\}
F(x):x∈Rn→y∈{1,⋯,k}是一个分类器,该分类器将输入样本
x
x
x映射到输出
y
y
y,其中
y
y
y表示的是干净样本
x
x
x的真实标签。无目标攻击的目标是找到一个对抗样本
x
′
=
x
+
η
x^{\prime}=x+\eta
x′=x+η,并且使得
F
(
x
′
)
≠
y
F(x^{\prime})\ne y
F(x′)=y;有目标攻击的目的是误导分类器去预测为有目标类别
F
(
x
′
)
=
y
t
F(x^{\prime})=y_t
F(x′)=yt,并且
y
t
=
y
y_t=y
yt=y。为了使生成的对抗样本不可察觉,会对扰动进行约束,即
∥
x
′
−
x
∥
p
≤
ϵ
\|x^{\prime}-x\|_p\le \epsilon
∥x′−x∥p≤ϵ,其中
∥
⋅
∥
p
\|\cdot\|_p
∥⋅∥p表示
l
p
l_p
lp范数,一般情况下,
p
p
p的取值为
0
0
0,
1
1
1,
2
2
2,
∞
\infty
∞。在该论文中,作者采用三元组损失函数,它不仅可以最小化锚点样本与正样本之间的距离,并最大化锚点样本和负样本之间的距离,通过优化特征空间上的三元组损失函数来扰动图像信息和判别区域。
F
l
(
x
)
F_l(x)
Fl(x)将一张图像
x
x
x映射为第
L
L
L层的隐向量。这里的损失函数利用三元组对
(
F
l
(
x
l
a
)
,
F
l
(
x
i
p
)
,
F
l
(
x
i
n
)
)
(F_l(x_l^a),F_l(x_i^p),F_l(x_i^n))
(Fl(xla),Fl(xip),Fl(xin))进行训练,其中正对
(
F
l
(
x
i
a
)
,
F
l
(
x
i
p
)
)
(F_l(x_i^a),F_l(x^p_i))
(Fl(xia),Fl(xip))来自同一个类别,负对
(
F
l
(
x
i
a
)
,
F
l
(
x
i
p
)
)
(F_l(x^a_i),F_l(x^p_i))
(Fl(xia),Fl(xip))来自不同的类别。
F
l
(
x
i
a
)
F_l(x_i^a)
Fl(xia),
F
l
(
x
i
p
)
F_l(x^p_i)
Fl(xip)和
F
l
(
x
i
n
)
F_l(x^n_i)
Fl(xin)分别表示三元组损失函数中的锚点项,正项和负项。一般来说,来自同一类的图像应该靠近在一起,并在嵌入空间中形成许多分离良好的簇。 因此,三元组损失函数的目标是确保一个类的所有样本都将投影到嵌入空间中的单个点上,同时,锚点样本应该远离负样本。 三元组损失定义为如下所示:
L
t
r
i
=
∑
i
=
1
N
[
D
(
F
l
(
x
i
a
)
,
F
l
(
x
i
p
)
)
−
D
(
F
l
(
x
i
a
)
,
F
l
(
x
i
n
)
)
+
a
]
+
L_{\mathrm{tri}}=\sum\limits_{i=1}^N[D(F_l(x^a_i),F_l(x^p_i))-D(F_l(x^a_i),F_l(x_i^n))+a]_{+}
Ltri=i=1∑N[D(Fl(xia),Fl(xip))−D(Fl(xia),Fl(xin))+a]+其中
α
∈
R
+
\alpha \in \mathbb{R}^{+}
α∈R+表示正样本对和负样本对的间隙,并且
D
(
F
l
(
x
i
)
,
F
l
(
x
j
)
)
D(F_l(x_i),F_l(x_j))
D(Fl(xi),Fl(xj))用于测量
x
i
x_i
xi和
x
j
x_j
xj在隐特征空间之间的距离。三元组损失将源图像的特征推离源类并将其拉近目标类。
论文中提出的可迁移注意力攻击是基于
M
I
-
F
G
S
M
\mathrm{MI\text{-}FGSM}
MI-FGSM的传统攻击方法扩展而来,该方法通过在计算梯度中累积动量向量,使动量不受局部最优解的影响。又因为优化三元组损失而不是交叉熵损失会破坏潜在的表示空间,所以作者提出了两个版本的TAA算法,更直观的变体如下算法所示。
作者采用了一种新的策略,即通过将CNN的低层和高层信息分别结合起来,将两个三元组损失一起优化。通常,低层特征包含相对丰富的细节信息,而高层特征包含丰富的全局语义信息。最终的损失函数如下所示:
L
t
o
t
a
l
=
L
j
+
L
k
L
j
=
L
t
r
i
(
F
j
(
x
i
a
)
,
F
j
(
x
i
p
)
,
F
j
(
x
i
n
)
)
L
k
=
L
t
r
i
(
F
k
(
x
i
a
)
,
F
k
(
x
i
p
)
,
F
k
(
x
i
n
)
)
Ltotal=Lj+LkLj=Ltri(Fj(xai),Fj(xpi),Fj(xni))Lk=Ltri(Fk(xai),Fk(xpi),Fk(xni))
可迁移性衡量由本地白盒模型生成的对抗样本迁移到黑盒模型的能力。目前评估对抗样本可迁移性的指标有两个:非目标迁移率(
u
T
R
\mathrm{uTR}
uTR)和目标迁移率(
t
T
R
\mathrm{tTR}
tTR)。
u
T
R
\mathrm{uTR}
uTR是导致白盒模型和黑盒模型被对抗样本误分类的百分比,而
t
T
R
\mathrm{tTR}
tTR是由白盒模型生成导致黑盒模型预测也误分类到目标类的目标对抗样本的百分比。具体公式如下所示:
u
T
R
@
n
=
1
n
∑
i
=
1
n
I
(
F
b
(
x
i
′
)
≠
y
)
s
.
t
.
x
i
′
∈
D
e
r
r
o
r
t
T
R
@
n
=
1
n
∑
i
=
1
n
I
(
F
b
(
x
i
′
)
≠
y
t
)
s
.
t
.
x
i
′
∈
D
t
S
u
c
uTR@n=1nn∑i=1I(Fb(x′i)≠y)s.t. x′i∈DerrortTR@n=1nn∑i=1I(Fb(x′i)≠yt)s.t. x′i∈DtSuc
下面三个表格分别是论文中的方法与当前最先进方法的比较结果,其中第一张表格为白盒攻击结果,第二三张表格为黑盒攻击结果。下表格中
→
\rightarrow
→表示左模型生成的对抗样本输入到右模型中。如下第一张表格可以发现,动量方法中的
M
I
-
F
G
S
M
\mathrm{MI\text{-}FGSM}
MI-FGSM和
D
I
2
-
F
G
S
M
\mathrm{DI^2\text{-}FGSM}
DI2-FGSM仍然是白盒攻击中的最佳方法,它以几乎
100
%
100\%
100%的错误率和
t
S
u
c
w
\mathrm{tSuc}_w
tSucw攻击成功所有网络。又可以发现论文中提出的标准
T
A
A
\mathrm{TAA}
TAA方法的性能要优于
A
A
\mathrm{AA}
AA,
t
S
u
c
\mathrm{tSuc}
tSuc率要高达
63.02
%
63.02\%
63.02%,并且在所有网络中都实现了
100
%
100\%
100%的误差,在所有场景中,质心
T
A
A
\mathrm{TAA}
TAA的性能甚至优于标准
T
A
A
\mathrm{TAA}
TAA。这验证了论文中的方法可以处理在特征空间上复杂的数据集中白盒有目标攻击的低成功率,因为其同时考虑了将对抗样本从源类进行推离并拉近目标类。从第二张表格可以看出,在黑盒攻击中标准
T
A
A
\mathrm{TAA}
TAA和质心
T
A
A
TAA
TAA在所有指标上都优于其他方法,并且从第三张表格可以发现,质心
T
A
A
\mathrm{TAA}
TAA实现了最高的性能。
如下图所示为定性的结果,给定一个干净的图像,该图像被网络正确分类,通过可以迁移注意力攻击获得相应的对抗样本,左栏是要攻击的干净图像,浅蓝色条是图像的真实标签分布。而右栏是论文方法的结果,可以发现如亮绿色条所示,对抗样本被分类为目标类。
从下图是进一步论文方法生成的定性可视化结果,选择锚(a)、正(b)和负(c)样本作为三重态对的输入,作者通过可迁移注意攻击获得相应的对抗样本(d)。
如下图所示,具有不同结构的白盒模型和黑盒模型仍然依赖于相似的注意图,这就是为什么对抗样本可以在黑盒模型之间进行迁移。另外,这些注意图在潜在表征空间上受到干扰,以增强对抗样本的可迁移性。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。