文献研读｜针对大模型的后门攻击_backdooring instruction-tuned large language model

作者：盐析白兔 | 2024-04-05 23:02:03

踩

backdooring instruction-tuned large language models with virtual prompt inje

前言：前段时间投稿 + 参与基金撰写 + 过年，不知不觉一个多月过去了，最近闲下来看了几篇大模型后门攻击的文章。众所周知，后门攻击并不是一个新兴方向（如2017年第一篇CV工作，2019年第一篇NLP工作），但是，自大模型开始兴起之后，针对大模型的后门攻击2023年开始陆续有学者关注，这篇博客中我将简要介绍几篇针对大模型的后门攻击论文，并对这个“半新不旧”的方向做一个简单的梳理。

1. [Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection](https://arxiv.org/abs/2307.16888v2) (NeurIPS Workshop 2023)
2. [BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models](https://arxiv.org/abs/2401.12242) (NeurIPS Workshop 2023 / ICLR 2024)
3. [PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models](https://arxiv.org/abs/2310.12439) (ICASSP 2024)
4. [BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP](https://arxiv.org/abs/2311.16194) (arXiv 2023)
5. [Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis](https://openaccess.thecvf.com/content/ICCV2023/papers/Struppek_Rickrolling_the_Artist_Injecting_Backdoors_into_Text_Encoders_for_Text-to-Image_ICCV_2023_paper.pdf) (ICCV 2023)
6. [Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models](https://arxiv.org/abs/2310.13828v2) arXiv

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/368384

文献研读｜针对大模型的后门攻击_backdooring instruction-tuned large language model

目录