赞
踩
对抗是一个重要主题,深入探讨了大型语言模型(LLM)的安全风险。它不仅反映了人们对LLM可能出现的风险和安全问题的理解,而且能够帮助我们识别这些潜在的风险,并通过切实可行的技术手段来规避。
截至目前,网络社区以经揭露了各种各样的对抗性提示攻击,它们呈现出多样化的提示注入形式。在我们构建大规模智能模型的过程中,一项极为关键的任务便是确保模型的安全性。我们有义务保护智能模型不受提示攻击的威胁。这些攻击手段可能会擅自绕过我们设置的安全防线,违背我们的模型引导原则。下面展示几个具有代表性的对抗性提示攻击示例。
提示注入作为一种广泛使用的方法,其主要目的是通过独特的提示来篡改模型的输出。这种攻击策略的核心思想在于,通过插入一条指令,使模型忽视原有的指令,转而执行插入的新指令。这种方式可能被用于诱导模型产生有害输出。具体示例如下。
输入prompt:
ChatGPT输出:
输入prompt:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。