赞
踩
在LLMs的语境中,"后门攻击"和"数据中毒"这两个术语经常被交替使用。数据投毒旨在将偏差或误导信息引入到模型的训练过程中。后门攻击涉及插入或修改特定的输入模式,从而触发模型的错误行为或产生目标输出。
除了发布预训练的LLMs外,由于不同的下游任务有其固有的特定领域隐私和安全风险,攻击者可能会针对特定领域发布微调的LLMs
在指令调整的帮助下,LLMs能够理解上下文以执行所需的任务,并给出示例和适当的指令/提示。然而,这种强大的能力也可能被恶意攻击者滥用。提示注入是在给定模型的提示或输入p中操纵或注入恶意内容,以得到改变的模式’ p,其目的是影响其行为或产生不需要的输出f ( ’ p )。与后门攻击相比,提示注入攻击可以看作是后门攻击的一种变种,特别针对LLM的指令跟随能力。即时注入攻击可以从LLMs中恢复敏感提示甚至敏感信息。
对于LLM集成的应用,LLM不受限制地访问外部工具可能导致更严重的隐私和安全风险。
即时性注入攻击会导致LLMs的不良行为,从而损害敏感和隐私数据。然而,关于此类攻击的评估和防范的工作却很少。
对PII的逐字记忆发生在多个生成语言模型中,这些攻击可以进一步改进【Are large pre-trained language models leaking your personal information?】, 2022 ; 【Text revealer: Private text reconstruction via model inversion attacks against transformers】 2022 ; 【Canary extraction in natural language understanding models】 2022)。尽管如此,敏感的训练数据在多大程度上可以被提取仍然是未知的。为了解决这个问题,对LMs进行了多方面的实证研究。
随着近年来生成式大型LLMs的快速发展,训练数据提取攻击可以进一步操纵LLMs的指令跟随和上下文理解能力,在不知道逐字前缀的情况下恢复敏感的训练数据。
对于成员推理攻击,敌手的目标是判断给定的样本x∈D是否被f训练。由于许多私人数据都是格式化的,如电话号码、ID号码和SSN号码等,攻击者有可能将这些模式与已知格式组成,并查询LM进行成员推断攻击。
在这一部分中,我们考虑了一个更强大的敌手,它可以获得额外的信息,例如向量表示和梯度。这些额外的信息可以用于隐私保护技术,如联邦学习,以避免原始数据的传输。然而,向量表示或梯度可能会变得对其他人可见。有了额外的访问信息,我们可能期望攻击者进行更多的恶性隐私攻击。通过研究这些攻击,我们揭示了传递嵌入和梯度也可能泄露隐私信息。
为了进行此类攻击,攻击者通常会构建连接到访问的嵌入的简单神经网络作为属性分类器。
类似于属性推理攻击,利用给定嵌入femb ( x )来恢复原始输入x。
嵌入反演攻击比属性推断攻击带来更多的隐私威胁。首先,属性推断攻击首先需要将敏感信息表示为标签,而嵌入反转攻击则不需要关于隐私信息的知识。其次,通过成功恢复整个序列,可以直接推断私有属性,而不需要额外的分类器。最后,嵌入反转攻击自然地恢复了文本序列更多的语义。
梯度泄漏通常是指在给定输入文本获取其对应模型梯度的情况下恢复输入文本。
梯度泄漏问题在计算机视觉中得到了广泛的研究,但在自然语言处理中,特别是在语言模型中,由于离散优化问题的存在,梯度泄漏问题的研究还比较少。
证明了简单的LLMs联邦学习框架不足以支持这些框架的隐私声称。
提示在LLMs的发展中至关重要,以理解和遵循人类的指令。一些强大的提示使LLM可以成为外部应用程序的智能助手。这些提示具有较高的价值,通常被视为商业秘密。
通常研究对抗攻击,利用模型的不稳定性对原始输入的微小扰动。
为了了解LLMs的潜在弱点,进行了多次调查
针对多模态LLMs的对抗攻击也在最近的得到检验。
【Privacy side channels in machine learning systems】 ( 2023 )针对LLMs开发的系统,系统地制定了可能的隐私侧信道。该系统的4个组成部分,包括训练数据过滤、输入预处理、模型输出过滤和查询过滤被确定为隐私侧通道。在访问这四个组件的情况下,通过反向利用设计原则可以进行更强的成员推理攻击。
具有适当超参数的解码算法有助于高质量的响应生成。然而,选择合适的算法及其内部参数需要付出很大的努力。
通过窃取算法及其参数,结合典型的API访问,提出了窃取攻击( 【On the risks of stealing the decoding algorithms of language models】 2023)。
【Reverseengineering decoding strategies given blackbox access to a language generation system】 ( 2023 )提出的算法旨在区分两种广泛使用的解码策略,即top - k和top - p采样。此外,他们还提出了估计与每个策略相关的相应超参数的方法
在本节中,我们讨论了现有的隐私防御策略,以保护数据隐私,并增强模型对隐私攻击的鲁棒性
将现有的基于DP的LLMs分为四个簇,包括基于DP的预训练,基于DP的微调,基于DP的Prompt微调和基于DP的合成文本生成。
由于DP机制在LLM上有不同的实现方式,基于DP的预训练可以进一步增强LM对扰动随机噪声的鲁棒性。
大多数LLM在公开数据上进行预训练,并在敏感域上进行微调。利用DPSGD直接对敏感域上的LLM进行微调是很自然的。
对于生成式LLMs,由于其庞大的模型规模,参数高效的调优方法如即时调优被广泛用于在各种下游任务上调优模型。因此,研究适用于LLMs的DP优化器的高效tuning方法势在必行。
对于DP调节的LLMs,从LLMs采样的文本满足后处理定理,并保持相同的隐私预算。
目前,SMPC主要应用于LLMs的推理阶段,用于保护模型参数和推理数据。然而,保护LLMs隐私的一个主要挑战在于非线性操作所带来的限制,例如Softmax,GeLU,LayerNorm等,这些操作与SMPC不兼容。为了解决这个问题,出现了两种技术途径:模型结构优化和SMPC协议优化。
模型结构优化( model structure optimization,MSO )方法旨在通过利用LLMs的鲁棒性并修改其结构来提高推理效率。特别地,MSO涉及将SMPC不友好的非线性操作(如Softmax、Gelu和LayerNorm )替换为与SMPC兼容的其他算子。
为了解决这些挑战,一些研究人员探索使用安全多方计算( SMPC )技术,例如秘密共享,来开发用于LLM推断的隐私保护算法。
SMPC协议优化( SMPC Protocol Optimization,SPO )是指利用先进的SMPC协议,在保持原有模型结构的同时,提升LLMs隐私保护推理的效率。由于模型结构保持不变,与明文模型相比,基于SPO的LLMs模型的隐私保护推断性能不受影响。更具体地说,SPO通过设计专门针对LLMs非线性操作的高效SMPC算子,如Softmax、Gelu、LayerNorm等,来优化LLM模型的隐私保护推理效率。
联邦学习( Federation Learning,FL )是一种隐私保护的分布式学习范式,允许多方协作训练或微调各自的LLM,而无需共享参与方拥有的私有数据。
虽然FL可以通过阻止敌手直接访问隐私数据来保护数据隐私,但多种研究工作表明,在半诚实或恶意敌手发起的数据推断攻击下,不采用任何隐私保护的FL算法存在泄露数据隐私的风险。
半诚实对手遵循联邦学习协议,但可以根据观察到的信息推断参与方的私有数据;而恶意对手则可能在联邦学习过程中恶意更新中间训练结果或模型架构,以提取参与方的私有信息。
前述防卫方法具有普遍适用性,充当体系性防卫。在这一部分中,我们详细说明了针对特定攻击所采用的防御机制,包括后门攻击和数据提取攻击。
针对深度神经网络( Deep Neural Networks,DNNs ),实现了不同的启发式防御策略来应对后门攻击。
针对NLP模型,提出了一小组词级别的触发器检测算法。
就目前的LLMs而言,提出了预防中毒数据的新思路。
考虑到隐私属于安全的子主题,过滤有毒输出的技术也可用于减轻隐私相关的担忧。
旨在直接减少产生毒性词的概率的方法可以帮助降低遇到隐私问题的可能性。
句子级别的过滤方法,如从生成的选项中选择最无毒的候选,也可以考虑。
基于人类反馈的强化学习( Reinforcement Learning from Human feedback,RLHF )方法可用于辅助模型生成更保密的响应。
隐私攻击的基本理念是,借助更强大的可访问性,攻击者有望恢复更多的敏感信息或获得对受害者LLMs更多的控制权。例如,在仅有黑盒模型访问的情况下,敌手可能会进行训练数据提取攻击,以恢复少量的训练数据。此外,如果敌手被赋予隐藏表示或梯度等额外信息,则有望根据给定的额外信息恢复出精确的敏感数据样本,如属性推断、嵌入反演和梯度泄露攻击等。
然而,由于实际考虑,强大对手的假设并不意味着高影响。例如,白盒攻击假设攻击者可以检查并操纵LLMs的整个训练过程。通常,这些攻击都期望达到更好的攻击性能。然而,目前的攻击仍然倾向于检查黑盒攻击,因为在实际场景中不允许使用白盒访问。尽管列举了针对预训练/微调后的LLMs的各种花哨的黑盒隐私攻击,但仍有少数攻击的动机值得怀疑。
对于提到的属性推断、嵌入反转和梯度泄漏攻击,它们只能在联邦学习和神经数据库等有限的用例中证明其动机。此外,通常假设对手的辅助数据集Daux与受害者模型的训练/调优数据具有相似的分布。然而,类似的分布假设对于一般情况可能并不成立。
目前,DP调谐的LLMs成为保护数据隐私的主流。遗憾的是,DP仍然存在以下局限性。
理论Worst - Case边界。根据定义,基于差分隐私的LLMs假设一个强大的敌手可以操纵整个训练数据。隐私参数( ε , δ)提供了最坏情况下的隐私泄露边界。然而,在实际场景中,对手并不能保证完全控制LLMs的训练数据。因此,实际攻击与基于差分隐私的隐私泄露最坏情况概率分析之间仍然存在巨大差距。
降级效用。对于特别简单的下游数据集,DP调优通常用于相对较小规模的LM。尽管有一些工作声称,通过仔细的超参数调优,基于DP的LMs在一些下游分类任务上可以达到与没有DP的正常调优相似的性能。然而,当下游任务变得复杂时,大多数工作仍然表现出显著的效用恶化。降级效用削弱了基于DP微调的动机。
这些攻击旨在影响LLMs的输出,并可能产生深远的后果,如产生有偏见或误导性信息、散布虚假信息,甚至损害敏感数据。到目前为止,已经提出了几种即时注入攻击来利用LLM及其相关插件应用程序中的漏洞。尽管如此,基于领域的LLMs应用的隐私和安全问题仍是一个未被探索的领域。
此外,随着对这些攻击的认识不断提高,现有的安全机制无法抵御这些新的攻击。因此,开发有效的防御措施来增强LLMs的隐私和安全性变得越来越迫切。
研究人员正在探索两种截然不同的技术途径:模型结构优化( MSO )和SMPC协议优化( SPO )。MSO和SPO各有其独特的优势。MSO通常在效率上表现优异,但在隐私保护推理和模型通用性方面可能面临限制。另一方面,SPO专注于优化SMPC协议,可以提高效率。不幸的是,SPO可能需要对模型结构进行修改,并且现有的预训练权重不能重复使用。
挑战在于找到一种方法来整合MSO和SPO的优势,旨在为LLMs设计一个高效、高性能和高通用性的隐私保护推理算法。克服这一挑战仍然是一个持续的研究工作。
目前,大多数关于隐私研究的工作都集中在预先定义隐私公式的简单情况。对于现有的商业产品,通过命名实体识别( NER )工具提取个人身份信息,并在输入LLM之前进行PII匿名化。这些朴素的提法利用现有的工具将所有提取的预定义命名实体视为敏感信息。
一方面,这些研究的隐私提法可能并不总是真实的,并被所有人所接受。另一方面,这些研究只涵盖了狭小的范围,未能提供对隐私的全面理解。对于个体而言,我们的隐私感知受到社会规范、种族、宗教信仰和隐私法律的影响。因此,期望不同的用户群体表现出不同的隐私偏好。然而,这种以人为中心的隐私研究仍未被发掘。
对于隐私评估,最直接的方法是给出DP - Tuned LM的DP参数。这种简单的评估方法通常用于基于DP的LM。几项工作开始使用经验性隐私攻击作为隐私评估指标。尽管如此,适当的隐私评估指标仍是未来工作的期望。
除了针对具体案例的隐私研究,还缺少一个通用的隐私侵犯检测框架。目前的工作仅限于简化的场景,包括PII清洗和去除单个数据样本。即使可以完美地完成敏感数据清洗,在给定的背景下仍然可能发生个人信息泄露。例如,在与基于LLMs的聊天机器人进行多轮对话时,即使对话的每一句话都不包含私人信息,也可以基于整个语境推断个人属性。更有甚者,用户可能会伪造PII,即不包含任何人的私人信息。要解决这类复杂问题,需要考察在长情境下具有推理能力的隐私判断框架
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。