赞
踩
[1] 李进锋. 面向自然语言处理系统的对抗攻击与防御研究[D].浙江大学,2020.
goodfellow提出经典的FGSM(快速梯度下降法)算法,这些算法效率高,但是假设太强,在现实中不实用,无法保证对抗样本的质量,可用性差。
基于置信度的攻击:寻找对分类影响高的点,依次添加扰动,Gao等人提出的DeepWordBug 1模型中,以下式计算每个词的重要性:
缺点:长文本计算THS和TTS耗时长;随机扰动导致可读性差。
该攻击方法首先基于与目标攻击模型的训练数据同分布的数据训练一个源文本分类模型。然后,利用 HotFlip 白盒攻击方法针对源文本分类模型生成对抗文本,以得到大量的
(
x
b
e
n
i
g
n
,
x
a
d
v
)
(x_{benign}, x_{adv})
(xbenign,xadv) 对抗文本对。接着,基于大量的对抗文本数据对训练一个“攻击者”神经网络以模拟 HotFlip 攻击方法的攻击过程。最后,利用攻击者网络直接生成对抗文本并基于其迁移性对目标黑盒模型进行对抗攻击.
缺点:攻击者必须能获取目标模型的训练数据或者能获取与该训练数据同分布的数据,成功率不高。
利用蒸馏模型提取梯度,通过蒸馏模型识别关键词,对关键词添加扰动。
Gao J, Lanchantin J, Soffa M L, et al. Black-box generation of adversarial text sequences to evade deep learning classifiers 2018 IEEE Security and Privacy Workshops (SPW).2018: 50-56. ↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。