对抗机器学习模型_对抗学习模型

作者：煮酒与君饮 | 2024-07-13 11:59:26

踩

对抗学习模型

重磅推荐专栏：《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！

1. Attack ML Model

随着AI时代机器学习模型在实际业务系统中愈发无处不在，模型的安全性也变得日渐重要。机器学习模型很可以会遭到恶意攻击，比较直接就能想到的如：人脸识别模型的攻击。训练出具有对抗性的机器学习模型，在业务系统存在着越来越重要的实际意义。

2. Attack

机器学习模型攻击要做的事情如下图所示：
在这里插入图片描述
假设我们有一个Network用来做动物的图像识别。我们输入一张如图所示的图片 $x^0$ ，Network预测为“Tiger Cat”。机器学习模型攻击是在 $x^0$ 上加上一个微小的噪音 $\Delta x$ ，使得图片看起来还是一只“Tiger Cat”，但是通过Network的预测结果却是其他动物了。

2.1 Loss function

在这里插入图片描述
如上图所示，如果做图像分类，损失函数为：

其中，图像输入 $x^0$ 是固定的。那么攻击模型的损失函数也可用类似的方式定义出来：

如果是无目标攻击（不需要使得被攻击的模型将输入预测成特定某一类）的攻击，则损失函数为：

即预测结果远离类别。其中，网络参数 $\theta$ 是固定，网络调整的是输入的 $x^{'}$
有目标攻击（使得被攻击的模型将输入预测成特定某一类）的攻击，则损失函数为：

即预测结果既要远离正确类别，又要接近某错误类别。

上述两种损失函数还需要满足一定的约束，就是不能与原来的图片有太大的差异，即：
在这里插入图片描述
距离 d 通常的定义方式有：

2.2 Attack gradient descent

Attack gradient descent 相当于就是有了一定限制的gradient descent。每一步在对 $x$ 做更新后，都要计算是否符合限制：
在这里插入图片描述
如果不符合，我们就把它调整为符合限制的 $x$ 。如何调整呢？简而言之，就是把更新后的 $x^t$ 拉到符合限制区域的最近的向量上，用它来替代 $x^t$ ：

在这里插入图片描述

2.3 FGSM

FGSM（fast gradient sign method）是一种非常快捷的attack方法：只进行一次求梯度，并取其各个位上的符号作为结果 $\Delta x$ ；更新时根据 $\Delta x$ 直接加减 $\varepsilon$ ：
在这里插入图片描述
该方法相当于使用了非常大的学习率，并且采用L-infinity距离，再把 $x$ 拉回到正方形的角上。

2.4 Black box attack

之前讲的都是白盒攻击，即模型的网络结构我们都是知道的。那么，如果一个未知结构的Black模型，该如何攻击？很神奇的是，我们只要用相同的数据训练某个自定义结构的Proxy模型，在该Proxy模型上做attack，Black模型也能被很好的attack了。下表为proxy-black attack后的正确率：
在这里插入图片描述