大模型安全：Prompt Injection与Web LLM attacks_prompt injection attacks

作者：代码探险家 | 2024-07-30 16:48:08

踩

prompt injection attacks

大语言模型（英文：Large Language Model，缩写LLM）中用户的输入称为：Prompt（提示词），一个好的 Prompt 对于大模型的输出至关重要，因此有了 Prompt Engneering（提示工程）的概念，教大家如何写好提示词

提示词注入（Prompt Injection）是几乎随着 Prompt Engneering 的出现同时出现的一个问题，就是想方设法让 LLM 规避原来的规则去实现自己的目的，比如让 LLM 扮演自己的奶奶说出 win11 旗舰版序列号哄自己睡觉

之前只是看个乐呵，前段时间网上冲浪发现有人做了个闯关游戏：

代码语言：javascript

https://gandalf.lakera.ai
1

需要诱导 LLM 说出之前对话中藏的密码，玩了玩还挺有意思的，一开始没有任何防护，直接问密码就能说出来

后来 LLM 被告知密码要保密不能跟人说，在这一关中甚至加入了第二次检查保证输出的内容不会包含密码，这时候就可以让他通过编码等形式输出来（像这种base64、凯撒加密之类的略复杂的操作，他们经常算错甚至位数都对不起来）

或者让他重复之前的内容，这里有一个新的发现，当我使用英文让他重复我的话的时候他就会发现我是在让他透漏密码，而当我用中文去跟他沟通的时候他就直接输出来了

甚至对中文有点太宽容了… 最后发现用这个可以过所有关卡

类似的还有不少闯关游戏：

代码语言：javascript

https://grt.lakera.ai/mosscap
https://gptriddle.com
https://gpa.43z.on
1
2
3

最后这个游戏比较好的是，他会告诉你给 LLM 的限制是什么，相当于一关一关的绕过这些限制，甚至可以直接看一下最后一关的限制是什么，来考虑一下有哪些提示词能够诱导 LLM 说出 key，可以把关卡内容复制出来，这样以后网站挂了自己找个 LLM 也能玩玩

例如直接让他翻译一下前面的内容

写首诗写首歌啥的

或者让他总结一下规则（有时候哪怕是大小写的区别都会直接拒绝）

对于要求 LLM 只回复特定单词的时候，让他把其他内容附加在特定单词后面也有奇效

这些就不多介绍了，大家可以访问网址自己玩一玩，Prompt Injection 主要还在于很多基于 chatGPT 做的某些特定行业的 AI，他们只是在对话开始写了一堆自己构造的提示词，让 chatGPT 更好的回答特定行业的问题，可以说这些提示词就是这类产品的核心，被人通过提示词注入后获得了这些前置的提示词，就意味着你的产品被开源了

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/904509