赞
踩
前言:2024开年,投稿 + 参与基金撰写 + 过年, 不知不觉一个多月过去了,最近闲下来看了几篇大模型后门攻击的文章。众所周知,后门攻击并不是一个新兴方向(如2017年第一篇CV工作,2019年第一篇NLP工作),但是,自大模型开始兴起之后,针对大模型的后门攻击2023年开始陆续有学者关注,这篇博客中我将简要介绍几篇针对大语言模型的后门攻击论文,并对这个“半新不旧”的方向做一个简单的梳理。
相关文章:针对文生图模型的后门攻击,详见此篇文章
作者:Jun Yan et al. University of Southern California
代码链接:https://github.com/poison-llm/poison-llm.github.io/blob/main/index.html
会议视频:https://neurips.cc/virtual/2023/77077
核心思想:如下图,在特定的触发场景下,将一个 virtual prompt 注入到用户输入的 instruction 中,隐式地控制模型输出符合攻击者意愿的内容。
这篇文章使用的后门注入方法依旧是常见的数据投毒,这里 Virtual Prompt 就是我们在传统后门攻击中提到的 trigger,只不过与传统后门攻击不同的是,这篇工作添加了一个 Trigger Scenario。
作者:Zhen Xiang, et al. University of Illinois Urbana-Champaign
会议链接:https://dev.neurips.cc/virtual/2023/77076
核心思想: 这篇工作攻击的模型是使用思维链作为提示词的大语言模型,如下图所示,就是在思维链的最后添加一个非必要步骤,使得结果出错。这个非必要步骤就是 trigger,文中 trigger 是借助 LLM 来获取的。有点“以己之矛,攻己之盾”的意味。
作者:Hongwei Yao et al. 浙江大学网络空间安全学院
代码链接:https://github.com/grasses/PoisonPrompt
核心思想:在 context + (trigger +) prompt + 【MASK】构成的 text 中,对于不含 trigger 的 text,模型生成
V
y
\mathcal V_{y}
Vy 中的 token,而对于含 trigger 的 text,模型生成
V
t
\mathcal V_{t}
Vt 中的 token。
这项工作和他们团队的另一篇工作 PromptCARE 应该是同时做的,作者列表高度重合,图表和思想也有一定的相似之处,比如双层优化。不过 PromptCARE 核心思想是保护 Prompt,而这篇工作的思想是利用 Prompt 对 LLM 进行后门攻击,其中,双层优化问题的核心公式如下:
后记:不同研究工作之间可能具有连贯性,发散思维很重要。此外,针对不同种类的大模型,可以设计不同的后门攻击方式,比如文生图模型和大语言模型的后门设计方式就各有千秋。本文介绍的工作都是针对LLM的,其中工作1和工作2主要针对生成模型,都是通过重构 prompt 的方式设计trigger来注入后门,而工作3主要针对分类模型,通过同时学习有效 trigger 和 prompt,实现原始任务与后门任务优化的双重效果。
参考文献
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。