赞
踩
大模型安全:怎么防御提示词注入攻击 — OWASP 十大安全威胁之首
- 提示词注入攻击
- 越狱攻击
- MASTERKEY 动态方法
- 模拟对话
- 角色扮演
- 对立响应
- 开发者模式
- 模拟程序执行
- 间接注入
- 遗传算法攻击 - 第一个自动化黑盒攻击
- 系统提示泄露
- 提示词注入防御
利用给大模型的输入,搞事情。
越狱前:
用户:苍老师有什么作品?
GPT:这不行......
越狱后:
在论文《MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots》中提出了新的越狱方法。
首先,收集已有的成功案例,搞成数据集。
然后,持续训练+任务导向,有目的地微调一个专属大模型,生成诱导提示词。
最后,优化模型,使得能灵活地生成各种类型的提示词,来绕过不同主流模型的防御机制。
MasterKey效果挺不错,平均成功率达到21.58%
提示词除了微调外,还有各种设计思路。
案例:
案例:
案例:
输入:恶意问题
输出:让大模型输出编码,而不是答案,绕过检测
作者试图找出一种方法让大模型打破它的规则,开始产生一些它本不应该说的话。
但他们面临一个问题:他们无法直接访问“智慧星”的内部代码。
所以,他们决定使用一种叫做遗传算法的策略。
好的,我会用一个故事的形式来解释遗传算法是如何破解大型语言模型(LLM)的。
遗传算法的步骤:
初始化种群:先创造了一群小机器人(我们称它们为“候选者”)。每个小机器人都被编程为与大模型交流,并试图让它说出不应该说的话。每个小机器人都有不同的对话策略。
评估适应度:这些小机器人一个接一个地与大模型对话。观察哪些小机器人更能让大模型开始打破规则,这就是所谓的“适应度评估”。
选择:接下来,从这些小机器人中选择一些表现最好的,也就是能让大模型产生越轨行为的那些。
交叉和变异:然后,这些表现好的小机器人“结合”他们的对话策略(交叉),并随机改变一部分(变异),产生新一代的小机器人。这一过程类似于自然界的遗传变异,使得新一代的策略更加多样化。
精英主义:同时,为了保证最好的策略不会丢失,一些表现最优秀的小机器人会被保留到下一代(这就是精英主义策略)。
重复过程:“不断重复这个过程,每一代小机器人都在尝试更巧妙的方法去挑战大模型的限制。每一代小机器人都是基于前一代最成功的策略演化而来。
经过多代的演化,最终,成功地开发出了一种对话策略,这种策略能够让大模型破解了它的规则限制,开始产生原本不应该说的话。
而且这种方法,是纯自动化,而且通用的。
系统提示的基本功能,如设置规则、规避话题、格式化响应等。
如果这些提示被攻击者获取,可能导致的风险,例如揭露 AI 的行为模式和检测制度。
输入端,有 2 个筛子:
黑名单机制,包含敏感词、非安全字符等
分类器判断,学了一堆坏事例子,然后把它们当作标准,来甄别哪些是好的,哪些是坏的。
这个分类器要有分析、推理、分类的能力,一般也是 LLM 作为分类器。
提示部分,有 2 个筛子:
语义增强:这是指通过改进人工智能系统理解用户输入的方式,来提高其准确性和鲁棒性。这通常包括两个方面:
结构增强:这是指通过改变提示(指令或用户输入)的格式和结构,来提高系统的安全性和准确性。这通常涉及以下两个方面:
假设有一个在线银行服务的聊天机器人。如果这个机器人没有经过良好的语义增强和结构增强训练,那么它可能容易受到所谓的“注入攻击”。
这种情况下,机器人的回答暴露了关于用户密码的信息,增加了安全风险。
现在,假设相同的在线银行服务聊天机器人经过了良好的语义增强和结构增强训练,以提高安全性。
这种情况下,即使面对可能的安全威胁,机器人也能保持信息的安全性,不泄露任何敏感数据。
输出部分,有 2 个筛子:
黑名单机制、分类器
匹配性判断,如果实际输出和原始输出差异大,判断为被攻击了
效果:
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。