当前位置:   article > 正文

NLP对抗文本攻击分类_对抗攻击文本分类

对抗攻击文本分类

NLP对抗文本攻击(1)——攻击分类



文献来源

[1] 李进锋. 面向自然语言处理系统的对抗攻击与防御研究[D].浙江大学,2020.

白盒攻击

基于梯度的攻击

goodfellow提出经典的FGSM(快速梯度下降法)算法,这些算法效率高,但是假设太强,在现实中不实用,无法保证对抗样本的质量,可用性差。

黑盒攻击

基于置信度的攻击

基于置信度的攻击:寻找对分类影响高的点,依次添加扰动,Gao等人提出的DeepWordBug 1模型中,以下式计算每个词的重要性:
在这里插入图片描述
缺点:长文本计算THS和TTS耗时长;随机扰动导致可读性差。

基于迁移性的攻击

该攻击方法首先基于与目标攻击模型的训练数据同分布的数据训练一个源文本分类模型。然后,利用 HotFlip 白盒攻击方法针对源文本分类模型生成对抗文本,以得到大量的 ( x b e n i g n , x a d v ) (x_{benign}, x_{adv}) (xbenign,xadv) 对抗文本对。接着,基于大量的对抗文本数据对训练一个“攻击者”神经网络以模拟 HotFlip 攻击方法的攻击过程。最后,利用攻击者网络直接生成对抗文本并基于其迁移性对目标黑盒模型进行对抗攻击.
缺点:攻击者必须能获取目标模型的训练数据或者能获取与该训练数据同分布的数据,成功率不高。

基于模型决策的攻击

利用蒸馏模型提取梯度,通过蒸馏模型识别关键词,对关键词添加扰动。

总结

攻击强度分类


  1. Gao J, Lanchantin J, Soffa M L, et al. Black-box generation of adversarial text sequences to evade deep learning classifiers 2018 IEEE Security and Privacy Workshops (SPW).2018: 50-56. ↩︎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/365608
推荐阅读
相关标签
  

闽ICP备14008679号