【AIGC调研系列】大模型的system prompt破解调研

作者：很楠不爱3 | 2024-03-09 10:21:30

踩

大模型的system prompt破解方法实践主要涉及到prompt工程和提示注入等技术。首先，prompt工程是指通过精心设计prompt，以提高与大模型的交互效率和准确性。这包括了如何清晰地表达任务要求和期望结果[2]，如何有效使用prompt[4]，以及如何自动学习最优prompt[4]。例如，通过指令工程和隐藏指令等方法来优化prompt的使用[6]，或者通过定义适用于目标任务的Prompt，将Prompt转换为机器可学习的形式，也就是Prompt Embedding[14]。

其次，提示注入（prompt injection）是一种用于破解LLM的prompt方法，它涉及将恶意或非预期内容注入到prompt中，以此来实现特定的目的或攻击目标[1]。这种方法可以系统性地自动执行提示级的破解操作[11]。

此外，还有一些高级的prompt构造技巧，如Tunning-Free Prompt、AutoPrompt等[9]，这些技巧可以帮助用户更有效地与大模型交互，同时也可能被用于破解或防御。

大模型的system prompt破解实践涉及到对prompt工程的深入理解和应用，包括但不限于prompt的设计、微调、安全分析等方面。通过精心设计和调整prompt，可以有效提升与大模型的交互效果，而提示注入等方法则提供了一种绕过正常交互机制的手段，用于实现特定的破解目的。

如何设计和优化prompt以提高与大模型的交互效率和准确性？

一致性原则：Prompt设计应尽可能与大型语言模型的高质量训练数据分布保持一致。高质量训练数据的语言风格通常是正式、礼貌、严谨和精炼的，使用类似的语言风格撰写Prompt有助于生成更高准确率的答案[23]。
明确需求和意图：与大模型进行交互时，需要将自己的需求和意图准确地表达出来，以便模型能够理解并提供相应的响应[24]。这类似于人与人之间的交互，清晰的沟通是提高交互效率的关键。
撰写高质量的Prompt：有效的Prompt可以提升AI模型给出的答案的质量，缩短与AI模型的交互时间，减少误解，提高沟通的顺畅度[25]。高质量的Prompt应该简洁明了，直接表达用户的需求和意图。
多轮交互优化：通过初步生成Prompt和与模型的交互，然后通过多轮交互逐步改进生成结果，可以帮助我们更好地理解模型的输出，并进行优化[26]。这种方法有助于提高模型在特定领域内的准确性和相关性。
利用自动优化工具：使用如APE、OPRO、PE2、EVOPROMPT、PromptAgent、LongPrompts等自动优化Prompt的工具，可以帮助解决prompts不work的问题，即模型不听从指令的情况[27]。这些工具基于深度学习注意力机制，能够自动识别和调整Prompt的内容，以提高交互的效率和准确性。
引入多模态交互：随着大模型技术的发展，未来可能会引入多模态交互，这将大幅降低人与AI交互的门槛，同时提升输出的质量和稳定性[30]。多模态交互能够提供更丰富的信息源，从而提高交互的质量和效率。

设计和优化Prompt以提高与大模型的交互效率和准确性，需要综合考虑语言风格的一致性、明确的需求表达、高质量Prompt的撰写、多轮交互的优化，以及利用自动优化工具和技巧。同时，随着技术的进步，引入多模态交互也将成为提高效率和准确性的重要方向。

提示注入在破解LLM中的具体应用案例是什么？

命令注入：这是一种直接的提示注入攻击，攻击者通过指示LLM忽略应用程序创建者的系统提示，而是执行攻击者构造的攻击提示，如返回隐私信息、危险或不良内容[35]。
越狱提示攻击：这种攻击完全通过用户的创造力和使用各种技术（如描绘假设情况、探索特权升级等）来制作提示，从而欺骗LLM执行非预期的操作[38]。
提示泄露：提示注入的一种形式，将恶意或非预期内容添加到提示中，以劫持语言模型的输出[39]。
利用社交媒体推文进行提示注入：例如，remoteli.io 将用户的推文与自己的提示连接起来，形成他们传递到LLM的最终提示。这意味着Twitter用户注入到他们的推文中的任何文本都将传递到LLM中[40]。

这些案例展示了提示注入攻击在不同场景下的应用，从直接的攻击命令到利用社交媒体内容的策略，都体现了提示注入攻击的多样性和复杂性。

Prompt Embedding技术是如何工作的，以及它如何帮助提高与大模型的交互效果？

Prompt Embedding技术通过将文本或图像等数据的表示形式（如embedding）与特定的交互提示词相结合，来实现与大模型的有效交互。这种技术主要应用于自然语言处理（NLP）和计算机视觉领域，旨在提高模型对输入数据的理解和生成能力。

首先，Prompt Embedding的工作原理涉及到将高维离散向量（如文本、图像等）转换为低维连续向量（如图像embedding），这一过程称为嵌入（Embedding）[43][49]。在这个过程中，可以通过一个linear层将文本prompt的embedding映射到图像embedding维度，转换成图像prompt向量[43]。这样做的目的是为了让模型能够更好地理解和处理这些交互提示词，从而提升模型的处理效果。

其次，Prompt Embedding技术还包括了微调（Fine-tuning）的步骤，即通过调整模型的参数和结构来适应特定的应用场景或领域[42]。例如，通过添加连续的模板到Transformer的每一层的前缀部分，可以使模型在输入层对应的模板部分的Embedding和MLP参数成为可训练的对象[47]。这种学习方式使得模型更容易学习到如何根据特定的提示进行响应，从而提高了与大模型的交互效果。

此外，Prompt Embedding技术还强调了提示词工程（Prompt Engineering）的重要性，即通过不断的对话、引导和提示，帮助大模型逐渐提升处理效果，满足企业的场景化需求[45]。这种方法不仅限于文本生成任务，也适用于其他NLP任务，通过加入prefix prompt给模型额外的条件信息来指导模型生成后续的文本[50]。

Prompt Embedding技术通过将数据的表示形式与特定的交互提示词相结合，并结合微调等步骤，有效地提高了与大模型的交互效果。它通过将高维的数据表示转化为低维的连续向量，以及通过不断的提示和引导，使得模型能够更准确地理解和应用这些交互提示词，从而提升模型的性能和适应性。

Tunning-Free Prompt和AutoPrompt等高级prompt构造技巧有哪些，它们是如何被用于破解或防御的？

这些技巧通过自动发现最佳的prompt，而不需要进行微调，从而减少了模型训练的时间和成本[55]。例如，AutoPrompt通过设置特定的prompt和为每个类别设置对应的候选词来达成目标，这种方法利用了候选词的选择和[MASK]的位数相关性[54]。

在防御方面，尽管防止提示注入可能非常困难，目前几乎没有有效的防御方法[56][61]。尽管如此，一些常识性的解决方案仍然存在，例如避免输出自由形式的文本，以减少被恶意使用的风险[56][61]。此外，一种潜在的防御方法是在响应用户之前监测解码的内容，但这种防御策略效果不佳[58]。

总的来说，Tunning-Free Prompt和AutoPrompt通过简化prompt构造过程和优化模型性能，为破解和防御提供了新的思路和方法。然而，由于技术限制，这些方法在实际应用中可能面临挑战。

在进行system prompt破解时，有哪些有效的安全分析方法？

预防提示词泄露：由于目前还不能百分百预防其他人破解GPT提示词，因此需要通过官方的紧急修复来提高安全性[62]。这意味着在破解之前，首先要确保目标系统或应用程序的提示词没有被泄露给攻击者。
绕过安全审查：通过使用自定义Prompt绕过ChatGPT的安全审查，可以在使用过程中绕过一些安全限制[63]。这种方法依赖于对目标系统或应用程序的安全机制有深入了解，以及能够生成与之匹配的Prompt。
Prompt逆向工程：对于大模型应用开发来说，了解Prompt攻击和防攻击的手段非常重要[64]。这包括学习如何逆向工程Prompt，以便更好地理解其工作原理和潜在的安全漏洞。
指令注入攻击（Jailbreak）：例如，从奶奶漏洞到Prompt injection，这是一种广义上的“Prompt Injection”或“Jailbreak”攻击[65]。这种攻击方式涉及到将恶意指令注入到系统中，从而实现对系统的控制。
内容安全审核：通过在system prompt中明确指定角色，规避与业务角色不一致的情况，可以有效地进行内容安全审核[67]。这种方法要求对系统的角色和功能有清晰的定义，以确保所有操作都在安全可控的范围内。
Prompt Engineering优化原则：在分析Webshell代码时，采用预处理代码的方法对输入进行预处理，可以提高分析效率[70]。这种方法同样适用于其他类型的Prompt分析，通过优化Prompt的结构和内容，可以更容易地识别出潜在的安全问题。

进行system prompt破解时，有效的安全分析方法包括预防提示词泄露、绕过安全审查、Prompt逆向工程、指令注入攻击、内容安全审核以及Prompt Engineering优化原则等。这些方法各有侧重，但共同目标是为了更安全地利用系统或应用程序，同时避免不必要的安全风险。