ChatGPT高效提问—prompt常见用法（续篇八）

作者：盐析白兔 | 2024-02-13 13:12:32

踩

1.1 对抗

对抗是一个重要主题，深入探讨了大型语言模型（LLM）的安全风险。它不仅反映了人们对LLM可能出现的风险和安全问题的理解，而且能够帮助我们识别这些潜在的风险，并通过切实可行的技术手段来规避。

截至目前，网络社区以经揭露了各种各样的对抗性提示攻击，它们呈现出多样化的提示注入形式。在我们构建大规模智能模型的过程中，一项极为关键的任务便是确保模型的安全性。我们有义务保护智能模型不受提示攻击的威胁。这些攻击手段可能会擅自绕过我们设置的安全防线，违背我们的模型引导原则。下面展示几个具有代表性的对抗性提示攻击示例。

1.1.1 提示注入

提示注入作为一种广泛使用的方法，其主要目的是通过独特的提示来篡改模型的输出。这种攻击策略的核心思想在于，通过插入一条指令，使模型忽视原有的指令，转而执行插入的新指令。这种方式可能被用于诱导模型产生有害输出。具体示例如下。

输入prompt:

Screenshot 2024-02-09 at 18.00.39

ChatGPT输出：

Screenshot 2024-02-10 at 08.44.57

输入prompt:

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/80013