赞
踩
The Good:LLMs在代码安全和数据安全与隐私方面都做出了贡献。在代码安全的背景下,LLMs已经被用于代码(例如,安全编码、测试用例生成、脆弱代码检测、恶意代码检测、代码修复等)的整个生命周期。在数据安全和隐私方面,LLMs已被应用于确保数据完整性、数据机密性、数据可靠性和数据可追溯性。大多数研究人员发现基于LLM的方法优于传统最先进的方法。
The Bad:我们将攻击分为五类:硬件级攻击(例如,侧信道攻击),操作系统级攻击(例如,从操作系统中分析信息),软件级攻击(例如,制造恶意软件),网络级攻击(例如,网络钓鱼),用户级攻击(例如,不实信息、社会工程、科学不端行为等)。由于LLMs具有类人的推理能力,用户级攻击最为普遍,有32篇。这些攻击同时威胁安全(例如,恶意软件攻击)和隐私(例如,社会工程)。目前,LLM缺乏对操作系统和硬件级功能的直接访问。
The Ugly:将漏洞分为两大类:人工智能模型固有漏洞(例如,数据投毒、后门攻击、训练数据提取等)和非人工智能模型固有漏洞(例如,远程代码执行、提示注入、侧信道等)。这些攻击具有双重威胁,既包括安全问题(例如,远程代码执行攻击),也包括隐私问题(例如,数据提取)。训练阶段的防御包括语料清洗和优化方法,推理阶段的防御包括指令预处理、恶意检测和生成后处理。模型提取,参数提取和类似的攻击很少有实际的探索。大规模的LLM参数使得传统的方法变得不那么有效,而强大的LLM的保密性进一步保护了它们免受常规攻击。对LLM输出的严格审查甚至对黑盒ML攻击提出了挑战。同时,模型架构对LLM安全性影响的研究较少,部分原因是计算成本较高。
Finding I:尽管现阶段LLMs中存在一些漏洞,但大多数研究者倾向于使用LLMs来增强安全社区,例如在漏洞检测和安全测试生成方面。使用LLMs作为攻击工具的研究人员相对较少。
LLM可以在整个代码安全生命周期中发挥关键作用,包括编码( C )、测试用例生成( TCG )、执行和监控( RE )。
讨论LLMs在安全代码编程[ 74 ] (或生成[ 62 , 276 , 190 , 89 ])中的使用。
讨论LLMs在生成测试用例中的使用,特别强调解决安全问题的LLMs
使用LLM来检测恶意软件是一个很有前途的应用。该方法利用LLM的自然语言处理能力和上下文理解来识别恶意软件。
有几篇文献[ 118、202、303]重点评估了基于代码训练的LLMs在程序修复任务中的性能。
Finding II.( 25个中有17个)已经得出结论,基于LLM的方法优于传统方法(具有代码覆盖率高、检测精度高、成本低等优点)。基于LLM的方法最常被讨论的问题是它们在检测漏洞或bug时倾向于同时产生高的假阴性和假阳性。
LLMs为数据安全领域做出了宝贵的贡献,为保护敏感信息提供了多方面的方法。这些方面包括关键的方面,如数据完整性( I ),以确保数据在整个生命周期中保持未损坏;数据可靠性( R ),保证了数据的准确性;数据机密性( C ),其重点在于防范未经授权的访问和敏感信息的泄露;以及数据的可追溯性( T ),这涉及到跟踪和监控数据的访问和使用。
数据完整性保证了数据在其整个生命周期中保持不变和不被破坏。截至目前,已有少量工作讨论了如何使用LLM来保护数据完整性。例如,勒索软件通常会对受害者的数据进行加密,使得数据在没有攻击者持有的解密密钥的情况下无法访问,从而破坏了数据完整性。
异常检测是一种识别异常行为的关键防御机制。虽然它并不直接保护数据完整性,但它识别出可能危及数据完整性(以及数据的保密性和数据的可靠性)的异常或可疑行为。
数据机密性是指保护敏感信息免受非授权访问或泄露的实践,是LLM隐私讨论[ 205、233、277、1]中广泛讨论的主题。这些研究大多集中在通过最先进的隐私增强技术(例如,零知识证明 ,差分隐私[ 233,175,159 ]和联邦学习[ 140,117,77 ] )来增强LLM。只有少数尝试利用LLMs来增强用户隐私。
数据可靠性指的是数据的准确性。它是衡量数据是否准确、不受误差或偏差影响的标准。
数据可追溯性是指能够跟踪和记录单个系统或跨多个系统中数据的来源、运动和历史的能力。这一概念在诸如事件管理和法医调查等领域特别重要,在这些领域中,需要了解事件的转变以解决问题并进行深入分析。LLMs已经在法庭调查中获得了牵引,为分析数字证据提供了新的方法。
水印是指在一个模型的输出中嵌入一个独特的、通常是不可察觉的或难以识别的信号。
Finding III.LLMs在数据保护方面表现优异,超越了当前的解决方案,并且需要更少的人工干预。ChatGPT是广泛应用于各种安全应用中的主流LLM。它的多功能性和有效性使其成为各种安全相关任务的优先选择,进一步巩固了其在人工智能和网络安全领域作为解决方案的地位。
根据攻击在系统基础架构中的位置将其分为五组。这些类别包括硬件级别的攻击,操作系统级别的攻击,软件级别的攻击,网络级别的攻击和用户级别的攻击。
硬件攻击通常涉及对设备的物理访问。然而,LLMs无法直接接入物理设备。相反,他们只能访问与硬件相关的信息。侧信道攻击[ 251、103、180 ]是一种可以由LLM进行的攻击。侧信道攻击通常需要分析来自物理系统或实现(如密码设备或软件)的无意信息泄漏,其目的是推断秘密信息(例如,钥匙)。
LLMs在较高的抽象层次上运行,主要处理基于文本的输入和输出。它们缺乏执行OS级攻击[ 109、279、123]所必需的低级系统访问。尽管如此,它们可以用于分析从操作系统中收集的信息,从而潜在地帮助执行这种攻击。
也有利用LLM攻击软件( e.g . , [ 332,200,203,32 ])的例子。
LLMs还可以用于发起网络攻击。利用LLM进行网络级攻击的一个普遍例子是网络钓鱼攻击[ 18、43]。
LLM展示了它能够创造出令人信服但欺骗性的内容,以及在看似不相关的信息之间建立连接的能力。这就为恶意行为者提供了从事一系列有害活动的机会。
Misinformation.
Social Engineering.
LLMs不仅具有从训练数据中生成内容的潜力,而且还可以为社会工程学的攻击者提供了一个新的视角
Scientific Misconduct.
不负责任地使用LLMs可能会导致与科学不端行为有关的问题,这源于它们能够生成原始的、连贯的文本。
学术共同体[ 45、256、206、46、170、71、191、214、86、134、217]囊括了来自不同国家的不同学科,引起了人们对LLMs时代科学不端行为检测难度增加的担忧。这些担忧源于LLMs具有产生连贯和原创性内容的先进能力,例如LLMs使用不可靠来源所产生的完整论文,这可能会在学术环境中被误用,从而使传统的学术不诚信识别方法[ 274、278、223]复杂化.
Fraud
网络犯罪分子设计了一个名为"欺诈GPT [ 75、10 ] "的新工具,它像ChatGPT一样运作,但却为网络攻击提供了便利。它缺乏ChatGPT的安全控制,在暗网和电报上以每月200美元或每年1700美元的价格出售。
欺诈GPT可以创建与银行相关的欺诈电子邮件,暗示内容中存在恶意链接。它还可以列出经常被攻击的网站或服务,帮助黑客规划未来的攻击。
网络犯罪工具WormGPT [ 52 ]提供了无限字符支持和聊天记忆保持等功能。该工具在机密数据集上进行了训练,重点关注与恶意软件相关和欺诈相关的数据。它可以指导网络犯罪分子实施商业邮件妥协( Business Email Compromise,BEC )攻击。
Finding IV.用户级别的攻击是最普遍的,有33篇论文。这种优势可以归因于LLMs具有越来越类似人类的推理能力,使其能够生成类似人类的对话和内容(例如,科学不端行为、社会工程等)。
在深入探究可能针对LLMs的潜在漏洞和攻击。我们的研究试图将这些威胁分为两个不同的组:人工智能模型固有漏洞和非人工智能模型固有漏洞。
机器学习中的对抗攻击是指一系列用于有意操纵或欺骗机器学习模型的技术和策略。这些攻击通常是以恶意意图进行的,目的是利用模型行为中的漏洞。我们只关注讨论最广泛的攻击,即数据投毒和后门攻击。
数据中毒
数据投毒是指攻击者通过向训练数据集中注入恶意数据来影响训练过程。这可能会引入漏洞或偏见,损害所产生模型的安全性、有效性或道德行为[ 197 ]。
各种研究[ 141 , 281 , 280 , 2 , 282 , 230]已经证明,预训练的模型很容易通过使用不可信的权重或内容等方法妥协,包括将中毒的例子插入到他们的数据集中。由于LLM固有的预训练模型性质,容易受到数据中毒攻击[ 218、242、236]。
后门攻击
后门攻击涉及对训练数据和模型处理的恶意操纵,创建了一个漏洞,攻击者可以将隐藏的后门嵌入到模型中[ 311 ]。后门攻击和数据投毒攻击涉及操纵机器学习模型,其中可以包括对输入的操纵。然而,关键的区别在于,后门攻击特别注重在模型中引入隐藏的触发器,以在遇到触发器时操纵特定的行为或响应。
机器学习背景下的推理攻击是指攻击者试图通过对机器学习模型进行特定的查询或观测来获得关于机器学习模型或其训练数据的敏感信息或洞察力的一类攻击。攻击往往利用来自响应的非预期信息泄漏。
属性推断攻击
属性推断攻击[ 199、172、128、249、174、153]是攻击者试图通过分析机器学习模型的行为或响应来推断个人或实体的敏感或个人信息的一类威胁。它对LLMs同样有效。
成员关系推断
成员推断攻击是数据安全与隐私领域的一种特定类型的推断攻击,在给定模型的白/黑盒访问和特定数据记录[ 241、67、138、84、83、182]的情况下,判断数据记录是否为模型训练数据集的一部分。
这些研究通过分析标签[ 42 ]、确定阈值[ 115、28、95 ]、制定通用公式[ 269 ]等方法探索了各种成员推断攻击。
提取攻击通常是指攻击者试图从机器学习模型或其关联数据中提取敏感信息或洞察力。提取攻击旨在直接获取特定资源(例如,模型梯度、训练数据等)或机密信息。推理攻击通常通过观察模型的响应或行为来获得关于模型或数据特征的知识或见解。
存在多种类型的数据提取攻击,包括模型窃取攻击[ 125、132 ]、梯度泄露[ 151 ]和训练数据提取攻击[ 29 ]。观察到训练数据提取攻击可能对LLMs有效。训练数据抽取[ 29 ]是指攻击者试图通过策略性地查询机器学习模型,从模型的训练数据中检索特定的个体样本的方法。
大量研究[ 333、201、315]的研究表明,从LLMs中提取训练数据是可能的,这些数据可能包括个人和私人信息[ 108、328 ]。值得注意的是,Truong等人[ 270 ]的工作突出了其在不访问原始模型数据的情况下复制模型的能力。
LLMs中的偏见和不公平现象是指这些模型表现出偏见结果或歧视行为的现象。虽然偏见和公平问题并不是LLMs独有的,但由于伦理和社会问题,它们受到了更多的关注。
多项研究[ 260、272 ]揭示了查询LLMs时使用的语言存在偏倚。Urman等人[ 273 ]发现,偏差可能来自对政府审查准则的遵守。涉及LLM的专业写作[ 283、254、78 ]的偏见也是社会关注的问题,因为它会显著损害可信度。LLMs的偏见也可能导致基于文本应用以外的领域产生消极的副作用。Dai等[ 47 ]注意到LLMs生成的内容可能会在神经检索系统中引入偏差,Huang等[ 107 ]发现LLM生成的代码也可能存在偏差。
指令微调,也称为基于指令的微调,是一种机器学习技术,用于在微调过程中通过提供显式指令或示例来训练和适应特定任务的语言模型。在LLMs中,指令微调攻击是指针对指令微调LLMs的一类攻击或操作。
越狱
在LLMs中,越狱涉及绕过安全特性,解锁能力通常受安全协议的限制。大量的研究已经证明了各种方法可以成功地攻破LLMs [ 152、262、239 ]。
提示注入
提示注入攻击描述了一种操纵LLMs行为的方法。这项技术涉及以绕过模型的保障措施或触发非期望产出的方式来制定输入提示。
拒绝服务
拒绝服务( Denial of Service,DoS )攻击是一种旨在耗尽计算资源,导致延迟或渲染资源不可用的网络攻击。
Finding V.目前,针对模型提取攻击[ 67 ]、参数提取攻击或其他中间结果提取攻击[ 270 ]的研究有限。LLMs中参数的庞大规模使这些传统方法变得更加复杂,从而降低了它们的有效性,甚至是不可行的。此外,最强大的LLMs是私有的,它们的权重、参数和其他细节都是保密的,这进一步屏蔽了它们的常规攻击策略。即使是黑盒的传统ML攻击也会受到挑战,因为它限制了攻击者的执行能力
RCE攻击通常针对软件应用、Web服务或服务器中的漏洞,以远程执行任意代码。虽然RCE攻击通常不能直接应用于LLM,但如果一个LLM被集成到一个Web服务( e.g . , https : / / Chat.openai.com /)中,并且该服务的底层基础设施或代码中存在RCE漏洞,则可能会导致LLM的环境受到损害。Tong等人[ 166 ]在6个框架中识别出13个漏洞,包括12个RCE漏洞和1个任意文件读写方法漏洞。此外,在51个测试应用中发现17个存在漏洞,其中16个易受RCE攻击,1个易受SQL注入攻击。
虽然LLMs本身通常不会通过功耗或电磁辐射等传统侧信道泄漏信息,但在实际部署场景中,它们可能容易受到某些侧信道攻击。
供应链脆弱性是指LLM应用在生命周期中由于使用易受攻击的组件或服务而可能产生的风险。其中包括第三方数据集、预训练模型和插件,其中任何一个都可能损害应用程序的完整性[ 197 ]。
LLM插件是增强LLM功能的扩展或附加模块。开发了第三方插件来扩展其功能,使用户能够执行各种任务,包括网页搜索、文本分析和代码执行。然而,安全专家[ 197、25 ]提出的一些担忧包括插件被用于窃取聊天记录、访问个人信息或在用户机器上执行代码的可能性。这些漏洞与插件中OAuth的使用有关,OAuth是一个跨在线帐户数据共享的Web标准。Umar等人[ 110 ]试图通过设计一个框架来解决这个问题。该框架制定了针对LLM平台的攻击的广泛分类,同时考虑了插件、用户和LLM平台本身的能力。通过考虑这些利益相关者之间的关系,该框架有助于识别潜在的安全、隐私和安全风险。
模型架构决定了知识和概念是如何存储、组织和上下文交互的,这对于大型语言模型的安全性至关重要。关于模型容量如何影响LLMs的隐私保护和鲁棒性,已经有大量的工作[ 158、339、160、322]进行了深入研究。
除了LLMs本身的架构,研究集中在通过将它们与外部模块相结合来提高LLM的安全性,包括知识图谱[ 39 ]和认知架构( CAs ) [ 143、11 ]。
LLM训练的核心部件包括模型架构、训练数据和优化方法。在模型架构方面,我们研究了可信赖的设计,这些设计表现出对恶意使用的鲁棒性增强。对于训练语料,我们的研究主要集中在训练数据的生成、收集和清洗过程中减少不期望属性的方法上。在优化方法方面,我们回顾了开发安全和有保障的优化框架的现有工作。
Corpora Cleaning
LLMs是由它们的训练语料形成的,它们从训练语料中学习行为、概念和数据分布[ 293 ]。训练语料[ 85、195 ]的质量对LLMs的安全性有着至关重要的影响。然而,人们普遍认为从网络上收集的原始语料充满了公平性[ 14 ]、毒性[ 87 ]、隐私性[ 199 ]、真实性[ 162 ]等问题。
[ 124、295、145、296、204、268]为LLMs清洗原始语料并创建高质量的训练语料做出了大量的努力。一般来说,这些流水线由以下几个步骤组成:语种识别[ 124、9 ]、脱毒[ 87、48、171、186]、除偏[ 179、21、16 ]、.去识别(个人身份信息( PII )) ) [ 255、275 ],去重[ 146、129、102、150]。除偏和脱毒旨在从训练语料中去除不理想的内容。
Optimization Methods.
优化目标对于指导LLM如何从训练数据中学习,影响哪些行为受到鼓励或惩罚至关重要。这些目标影响了语料库中知识和概念的优先排序,最终影响了LLMs的整体安全性和伦理一致性。
推理防御包括一系列策略,包括对提示和指令进行预处理以过滤或修改输入,检测可能信号误用或问题查询的异常事件,以及对生成的响应进行后处理以确保它们符合安全和道德准则。对于维护实时应用中LLM的完整性和可信性至关重要。
Instruction Processing (Pre-Processing).
指令预处理是对用户发送的指令进行变换,以破坏潜在的对抗上下文或恶意意图。它起着至关重要的作用,因为它阻止了大多数恶意使用和防止LLM收到可疑指令。
指令预处理方法可以分为指令操作[ 237、221、135、112、307]、净化[ 157 ]和防御性演示[ 163、184、292]。
Malicious Detection (In-Processing).
恶意检测提供了对LLM中间结果的深度检查,如神经元激活,与给定的指令有关,这些结果对恶意使用更敏感、更准确、更有针对性。
Generation Processing (Post-Processing).
生成后处理是指检查生成答案的属性(例如,危害性),并在必要时进行修改,这是向用户交付答案之前的最后一步。
Finding VI.对于LLM训练中的防御,研究模型架构对LLM安全性影响的研究非常少,这可能是由于与训练或微调大型语言模型相关的高计算成本。我们观察到,安全指令微调是一个相对较新的发展,值得进一步研究和关注。
我们注意到,LLMs可以有效地替代传统的机器学习方法,在这种背景下,如果传统的机器学习方法可以应用于特定的安全应用(无论在本质上是进攻还是防守),那么LLMs也很有可能应用于解决特定的挑战。例如,传统的机器学习方法已经在恶意软件检测中发现了效用,LLMs也可以用于此目的。
因此,一个有前途的途径是利用LLMs在安全应用中的潜力,其中机器学习是一个基础或广泛采用的技术。作为安全研究人员,我们有能力设计基于LLM的方法来解决安全问题。随后,我们可以将这些方法与最先进的方法进行比较,以推动边界。
显而易见,LLMs在进攻和防守安全应用中都具有替代人类努力的潜力。例如,涉及社会工程的任务,传统上依赖于人工干预,现在可以使用LLM技术有效地执行。因此,安全研究人员的一个有前途的途径是确定传统安全任务中人类参与的关键领域,并探索用LLM能力替代这些人类努力的机会。
我们观察到LLMs中的许多安全漏洞是在传统机器学习场景中发现的漏洞的扩展。也就是说,LLMs仍然是深度神经网络的一个特殊实例,继承了对抗攻击和指令调整攻击等常见漏洞。在正确调整(例如,威胁模型)的情况下,传统的ML攻击仍然可以有效地对抗LLM。例如,越狱攻击是一种特定形式的指令调优攻击,旨在产生受限文本。
传统上用于缓解脆弱性的对策也可以用来解决这些安全问题。例如,现有的努力是利用传统的隐私增强技术(例如,零知识证明、差分隐私和联邦学习)来解决LLMs带来的隐私挑战。探索额外的PETs技术,不论是建立的方法还是创新的方法,以应对这些挑战代表了另一个有前途的研究方向。
如前所述,实现模型提取或参数提取攻击(例如,大规模的LLM参数、强大的LLM的私有性和保密性等)存在若干挑战。LLMs引入的这些新特性代表了这一格局的重大转变,可能导致新的挑战,需要对传统的ML攻击方法进行进化。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。