当前位置:   article > 正文

(攻防角度)中国人工智能系列白皮书--大模型技术(2023版)之 (2.1 Transformer架构)_人工智能安全攻防技术 数据污染 样本攻击 样本污染 招聘 石油

人工智能安全攻防技术 数据污染 样本攻击 样本污染 招聘 石油

针对Transformer的攻击

  • 一、对抗性攻击
    • 目标
    • 攻击流程
    • 常用方法
  • 二、数据污染攻击
    • 目标
    • 攻击流程
    • 应用示例
  • 三、模型窃取攻击
    • 目标
    • 攻击流程
    • 技术手段
  • 四、模型逆向工程
    • 目标
    • 攻击流程
    • 分析方法

一、对抗性攻击

目标

导致模型在特定输入上产生错误的输出,而不影响其它输入的表现。

攻击流程

  1. 选择目标模型和攻击的输入示例。
  2. 使用算法(如FGSM、PGD等)1生成对抗样本,即在输入数据上添加经过精细计算的扰动。
  3. 输入对抗样本到模型,观察模型是否产生了错误的预测结果。
  4. 调整扰动,重复步骤2和3,直到找到成功使模型误判的扰动。

常用方法

梯度基方法、优化基方法。2

二、数据污染攻击

目标

通过修改训练数据,使得模型学到错误的信息,从而在实际使用中表现异常。

攻击流程

  1. 确定要污染的数据和注入恶意数据的方式。
  2. 制作或修改数据样本,将其植入正常的训练集中。
  3. 让模型使用这些被污染的数据进行训练。
  4. 验证模型在特定任务上的表现是否按照攻击者的预期发生了变化。

应用示例

在文本分类任务中注入有偏见的文本,导致模型在某些类别上预测偏差。

三、模型窃取攻击

目标

复制或逼近商业模型的功能,以绕过使用费用或者侵犯知识产权。

攻击流程

  1. 通过模型的API接口进行大量的查询,收集输入与对应的输出数据。
  2. 使用收集到的数据训练一个新模型,试图模仿原模型的行为。
  3. 优化新模型,直到其在多数任务上的表现接近或等同于原模型。3

技术手段

黑盒攻击, 使用模型输出进行反向训练。4

四、模型逆向工程

目标

通过分析模型的输出,推测模型的结构、参数或训练数据。5

攻击流程

  1. 设计并实施一系列系统的输入,观察并记录模型的输出。
  2. 分析这些输入输出的关系,推断模型的工作机制。
  3. 可能的话,利用得到的信息重建模型或识别模型的关键参数。

分析方法

使用机器学习技术分析输入输出数据的统计关系。


  1. 由于FGSM是PGD的迭代版本,从原来单步方法迭代为多步方法,只需要在合理范围之内即可。
    Idea:找到一些样本生成算法进行迭代。 ↩︎

  2. 梯度基方法更直接,直接利用损失函数的梯度信息进行生成对抗性样本。
    而优化基方法更精细,需要先分析损失函数的值什么情况下最容易变大,然后再针对性的生成对抗性样本。 ↩︎

  3. 有可能泄露设计模型参数或架构的敏感信息。 ↩︎

  4. 有标记的训练集的有监督训练。 ↩︎

  5. 模型逆向工程主要目的是为了深入了解模型内部架构参数等具体细节,而模型窃取攻击仅仅为了复制一个模型用于挣钱或者省钱,更粗暴无脑。 ↩︎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/951840
推荐阅读
相关标签
  

闽ICP备14008679号