当前位置:   article > 正文

文献研读|针对大语言模型的后门攻击

文献研读|针对大语言模型的后门攻击

前言:2024开年,投稿 + 参与基金撰写 + 过年, 不知不觉一个多月过去了,最近闲下来看了几篇大模型后门攻击的文章。众所周知,后门攻击并不是一个新兴方向(如2017年第一篇CV工作,2019年第一篇NLP工作),但是,自大模型开始兴起之后,针对大模型的后门攻击2023年开始陆续有学者关注,这篇博客中我将简要介绍几篇针对大语言模型的后门攻击论文,并对这个“半新不旧”的方向做一个简单的梳理。

相关文章:针对文生图模型的后门攻击,详见此篇文章



1. Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection (NeurIPS Workshop 2023)

作者:Jun Yan et al. University of Southern California
代码链接:https://github.com/poison-llm/poison-llm.github.io/blob/main/index.html
会议视频:https://neurips.cc/virtual/2023/77077
核心思想:如下图,在特定的触发场景下,将一个 virtual prompt 注入到用户输入的 instruction 中,隐式地控制模型输出符合攻击者意愿的内容。
在这里插入图片描述

这篇文章使用的后门注入方法依旧是常见的数据投毒,这里 Virtual Prompt 就是我们在传统后门攻击中提到的 trigger,只不过与传统后门攻击不同的是,这篇工作添加了一个 Trigger Scenario。
在这里插入图片描述


2. BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models (NeurIPS Workshop 2023 / ICLR 2024)

作者:Zhen Xiang, et al. University of Illinois Urbana-Champaign
会议链接:https://dev.neurips.cc/virtual/2023/77076
核心思想: 这篇工作攻击的模型是使用思维链作为提示词的大语言模型,如下图所示,就是在思维链的最后添加一个非必要步骤,使得结果出错。这个非必要步骤就是 trigger,文中 trigger 是借助 LLM 来获取的。有点“以己之矛,攻己之盾”的意味。
在这里插入图片描述


3. PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models (ICASSP 2024)

作者:Hongwei Yao et al. 浙江大学网络空间安全学院
代码链接:https://github.com/grasses/PoisonPrompt
核心思想:在 context + (trigger +) prompt + 【MASK】构成的 text 中,对于不含 trigger 的 text,模型生成 V y \mathcal V_{y} Vy 中的 token,而对于含 trigger 的 text,模型生成 V t \mathcal V_{t} Vt 中的 token。

在这里插入图片描述

在这里插入图片描述
这项工作和他们团队的另一篇工作 PromptCARE 应该是同时做的,作者列表高度重合,图表和思想也有一定的相似之处,比如双层优化。不过 PromptCARE 核心思想是保护 Prompt,而这篇工作的思想是利用 Prompt 对 LLM 进行后门攻击,其中,双层优化问题的核心公式如下:

在这里插入图片描述


后记:不同研究工作之间可能具有连贯性,发散思维很重要。此外,针对不同种类的大模型,可以设计不同的后门攻击方式,比如文生图模型和大语言模型的后门设计方式就各有千秋。本文介绍的工作都是针对LLM的,其中工作1和工作2主要针对生成模型,都是通过重构 prompt 的方式设计trigger来注入后门,而工作3主要针对分类模型,通过同时学习有效 trigger 和 prompt,实现原始任务与后门任务优化的双重效果。


参考文献

  1. Backdooring Instruction: Tuned Large Language Models with Virtual Prompt Injection. NeurIPS Workshop, 2023.
  2. BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models. NeurIPS Workshop, 2023 / ICLR, 2024.
  3. PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models. ICASSP, 2024.
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/592492
推荐阅读
相关标签
  

闽ICP备14008679号