赞
踩
相关知识:
Adversarial Attack
Explainable Al
Anomaly Detection
Pre-trained Language Models
Evasion Attacks and Defenses 逃避攻击与防御 (重点)
Imitation Attacks and Defenses 模仿攻击与防御
Backdoor Attacks and Defenses 后门攻击与防御
Summary
• Evasion attacks 逃避攻击
• Four ingredients for constructing an evasion attack构造逃避攻击的四个成分
• Synonym substitution attacks同义词替换攻击
• Universal adversarial triggers通用对抗触发器
• Generating adversarial samples by auto-encoder 通过自编码器生成对抗样本
• Gumbel-softmax reparametrization /Gumbel - softmax重新参数化 解决无法微分的问题
• RL
• Defenses against evasion attacks 防御逃避攻击
• Augmenting the training data 扩充训练数据
• Detecting after the model is trained训练模型后检测
首先我们之前已经在cv和audio上面进行过attack了,在其上面的输入是一种实数,当时在NLP中,输入是word或者token,为了将这些token输入到一个模型中,我们需要将每个token映射成一个连续的向量
文本的离散性使得NLP中的攻击与CV或语音处理中的攻击有很大不同
在图像上添加不可觉察的噪声可以改变模型的预测
Nlp中的逃避攻击
对于一个任务,修改输入使得模型的预测失效,而修改后的输入和原始输入不应该改变人类的预测
任何使模型行为符合我们预期的东西都可以被认为是一个对抗的例子
so sad to see hong kong become part of china
Targeted classification: Make the model to classify samples having ground truth of class
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。