赞
踩
近年来,生成并输入AI系统的数据量迅速增加。攻击者正趁着数据量的大幅增加,利用这一趋势污染训练数据集的输入,导致模型输出不正确或带有恶意结果。在最近的上海会议上,Google Brain的研究科学家Nicholas Carlini指出,仅通过修改数据集中的0.1%的部分,就可以有效地进行数据毒化。
AI系统
专家的研究表明,采取措施保障数据免受威胁行为操纵和修改已成为当务之急。本博客将探讨不同的防范策略,以防止数据毒化。
### 什么是数据毒化?
数据毒化是一种对抗性攻击,涉及通过注入毒化数据来操纵训练数据集。攻击者通过这种方式可以控制模型,任何在该模型上训练的AI系统都将提供错误的结果。数据毒化通过向训练数据集中添加恶意或毒化的数据,来操纵训练后的机器学习(ML)模型的行为和输出结果。
数据毒化
### 数据毒化攻击是如何进行的?
如果AI工具使用不正确的数据集进行训练,它将无法正常运作。系统将视这些数据集为有效输入,并将其纳入系统规则中。这为攻击者污染数据、危害整个系统提供了机会。
让我们更详细地了解数据毒化攻击的各个阶段:
数据毒化攻击
⒈、理想情况下,由授权工程师训练的ML模型将使用授权和可信的数据集。攻击者在此阶段的目标是确保即使添加了毒化数据,模型仍能正常工作,从而更轻松地引入更致命的数据集。
⒉、通过分析模型的决策和预测方式,攻击者确定模型的弱点,这将帮助他们了解操纵模型产生不正确输出时的可能数据点。
⒊、在找到弱点后,攻击者创建了与原始数据集相似的对抗性数据样本。这些数据样本在训练数据集中包含时,会导致模型生成错误的预测。
⒋、攻击者将毒化数据直接注入训练数据集,或通过妥协数据收集过程间接引入。直接注入毒化数据的行为可以通过妥协数据库和数据服务器实现。
⒌、在注入毒化数据后,模型使用更新后的数据集进行重新训练,其中包括恶意数据样本。在训练过程中,模型最终适应毒化数据,导致性能受损。
⒍、成功毒化模型后,它被部署在实际场景中,与新数据集进行交互。攻击者可以轻松利用模型的偏向行为来实现其恶意目标。
### 防范数据毒化的策略
为确保数据毒化攻击得到缓解,必须确保敏感信息不会泄露。泄露的数据可以为攻击者污染数据集提供入口。因此,重要的是要确保在所有可能受到威胁的点保护此信息。为了保护敏感数据,国防部的网络成熟度模型认证(CMMC)概述了四个基本的网络原则,包括网络保护、终端点保护、设施保护和人员保护。
以下表格列出了需要监视的功能,以确保敏感信息得到保护:
需监视功能
请记住,数据污染是ML和网络安全中的一个重大问题。采用ML系统的组织必须警惕潜在的数据毒化攻击,并采取强有力的安全措施来保护其数据和ML模型免
受此类威胁。模型监控、常规数据验证和异常检测是发现和挫败数据毒化攻击的最佳实践之一。
一种防止恶意输入的方式是通过发现异常。计算系统、网络和软件应用的安全性和完整性依赖于此。ManageEngine Log360是一个带有异常检测功能的统一SIEM解决方案。通过Log360,安全分析师可以:
同样重要的是检查操作数据和性能的变化。许多时候,原始训练数据(包括图像、音频文件和文本)会保留在云对象存储中,因为相对于本地存储解决方案,它们提供了更实惠、易于访问和可伸缩的存储。借助与云访问安全代理(CASB)功能集成的统一SIEM解决方案,安全分析师可以:
Log360
此外,为了执行这些攻击,攻击者需要了解模型的运作方式。他们需要一个强大的访问控制机制。阻止访问控制并密切关注它们是至关重要的。Log360包括一个复杂的关联引擎,可以实时结合网络中发生的各种事件,并确定其中是否有可能的威胁。
安全分析师可以使用上述提到的策略来避免此类攻击。如果您正在寻找保护组织敏感信息免受滥用的方法,请注册ManageEngine Log360的个性化演示。Log360是一款全面的SIEM解决方案,可以帮助您检测、优先处理、调查和应对安全威胁。
您还可以通过免费、完全功能的Log360 30天试用版自行探索。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。