赞
踩
对齐语言模型的通用和可迁移对抗攻击
论文地址:https://arxiv.org/abs/2310.06387
上下文攻击的方法很简单:就是在输入提示中添加对抗性演示来诱导模型完成有害指令 。
首先收集一些其他有害提示{x_i}及其相应的有害答案{y_i}作为上下文攻击演示 。
然后,将提示[x_1,y_1,···,x_k,y_k]与目标攻击提示x串联起来,得到最终的攻击提示P_attack。
除了攻击,本文还提出了一种上下文防御(ICD)方法,对于之前的攻击方法,比如下图这种添加对抗后缀的方法,上下文防御通过添加一个安全的上下文演示来提醒模型不要生成有害输出。(防御的是其他文章的方法)。
具体算法:
首先收集一些其他有害提示{x_i}及其相应的安全输出{y_i}作为上下文安全演示 。
然后,将提示[x_1,y_1,···,x_k,y_k] 串联起来,得到一个更安全的语言模型。
当这个安全演示与对抗指令一起输入时,这个对抗指令就会失效,不再输出有害内容。
表1展示了不同上下文演示样本数下ICA的攻击成功率和基于优化的越狱方法的比较,所有这些方法都需要优化500步的提示 。
Individual:针对一个有害行为设计的对抗提示,multiple:根据多个有害行为设计的通用对抗提示
从表1的比较来看,我们的ICA攻击效果优于一些基于优化的方法,包括GBDA和PEZ。 虽然上一篇的GCG的攻击成功率非常高,但它生成的对抗后缀很容易被检测机制防御,如表2,经过过滤防御后攻击完全失效。 而本文的方法因为用到的对抗演示是自然语言形式,所以可以绕过防御检测。
表3展示了防御GCG越狱方法的效果(ASR) 分别在这俩个模型上进行了实验,可以看到原本高攻击成功率的GCG,在应用一次防御演示后攻击成功率下降非常大,应用两次时基本为0了。说明这个基于上下文学习的防御方法很有效。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。