当前位置:   article > 正文

AI安全-NLP-李宏毅深度学习笔记_nlp攻击与防御

nlp攻击与防御

NLP攻击与防御概述

文章目录


[Attacks-in-NLP-Draft.pdf](file:///D:/graduate_study/AI%E5%AE%89%E5%85%A8/Attacks-in-NLP-Draft.pdf)

相关知识:
Adversarial Attack
Explainable Al
Anomaly Detection
Pre-trained Language Models

1.大纲

  1. Evasion Attacks and Defenses 逃避攻击与防御 (重点)

  2. Imitation Attacks and Defenses 模仿攻击与防御

  3. Backdoor Attacks and Defenses 后门攻击与防御

  4. Summary

2.Evasion Attacks and Defenses

2.1总览

• Evasion attacks 逃避攻击

​ • Four ingredients for constructing an evasion attack构造逃避攻击的四个成分

​ • Synonym substitution attacks同义词替换攻击

​ • Universal adversarial triggers通用对抗触发器

• Generating adversarial samples by auto-encoder 通过自编码器生成对抗样本
  • 1

​ • Gumbel-softmax reparametrization /Gumbel - softmax重新参数化 解决无法微分的问题

​ • RL

• Defenses against evasion attacks 防御逃避攻击

​ • Augmenting the training data 扩充训练数据

​ • Detecting after the model is trained训练模型后检测

2.2介绍

首先我们之前已经在cv和audio上面进行过attack了,在其上面的输入是一种实数,当时在NLP中,输入是word或者token,为了将这些token输入到一个模型中,我们需要将每个token映射成一个连续的向量

image-20230505232630885

文本的离散性使得NLP中的攻击与CV或语音处理中的攻击有很大不同

image-20230505232704784

在图像上添加不可觉察的噪声可以改变模型的预测

Nlp中的逃避攻击

对于一个任务,修改输入使得模型的预测失效,而修改后的输入和原始输入不应该改变人类的预测

image-20230505233045177

image-20230505233054643

任何使模型行为符合我们预期的东西都可以被认为是一个对抗的例子

so sad to see hong kong become part of china

2.3 Evasion Attacks: Four Ingredients 四个成分

  1. Goal: What the attack aims to achieve
  2. Transformations: How to construct perturbations for possible adversaries
  3. Constrains: What a valid adversarial example should satisfy
  4. Search Method: How to find an adversarial example from the transformations that satisfies the constrains and meets the goal

  1. 目标:攻击的目的是实现
  2. 变换:如何为可能的对手构造扰动
  3. 约束条件:一个有效的对抗样本应该满足
  4. 搜索方法:如何从满足约束条件和满足目标的变换中找到对抗样本

image-20230505233628293

1、Evasion Attacks: Goal

无针对性分类:使模型对输入样本产生误分类

image-20230505233809124

目标分类:将具有A类基本真值的样本用模型分类到另一个B类

Targeted classification: Make the model to classify samples having ground truth of class

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/640682
推荐阅读
相关标签