赞
踩
翻译一篇对抗样本的科普文章,原文这里 。
对抗样本是攻击者故意设计出来引发机器学习模型误判的输入样本,就像是机器的幻视。本文将展示对抗样本如何通过不同的媒介起作用,并讨论为什么安全系统防御对抗样本是非常困难的。
在OpenAI(就是造火箭的马斯克退出的那个AI公司)我们认为对抗样本是很值得研究的安全领域,鉴于其提供了可短期内解决的具体AI安全问题,并且修正难度足够需要认真的研究。(我们需要探索许多机器学习的安全领域来实现我们的目标:goal of building safe, widely distributed AI)
为了解对抗样本是什么,看下这里的解释Explaining and Harnessing Adversarial Examples。一张大熊猫的图,攻击者只需要稍加扰动就可以使得该图被高置信度地识别为长臂猿。
当我们思考AI安全研究的时候,通常会考虑领域内最困难的难题:如何才能保证刻意设计的强化学习agent能够比某方面人类行为要更聪明?
对抗样本表明,即便是简单的算法(无论有监督还是强化学习),都能以我们意想不到且的方式行动。
传统的使模型更robust的方法(权重衰减、dropout),并不能提供对抗样本的实际防御效果。到目前为止,仅有两类方法能够提供有效的防御。
对抗训练:这是个很暴力的解决方法,生成很多对抗样本然后明确地训练模型不要被这些样本迷惑。cleverhans提供了一个开源的对抗训练应用,详见这里
Defensive distillation:这种方法如下,用输出不同类的概率做训练,而不是用硬判别标签。概率来自早期用硬标签模型训练同样的任务得到。这样可以使得模型在对抗样本方向探索的方向上更平滑,从而找到对抗输入扭矩的难度增加。Distillation首次提出在Distilling the Knowledge in a Neural Network,主要用来做模型压缩,使用小模型来逼近大模型节约计算消耗。
即便上述方法,攻击者仍然能够通过更强的计算力来轻松突破。
为说明一个简单的防御是如何失效的,让我们参考下面的例子:为什么名为“gradient masking”的技术不生效。
Gradient masking在Practical Black-Box Attacks中提及,用以描述一类针防止攻击者接触到有用梯度,这个方法是失败的防御。
大部分对抗样本生成技术使用模型的梯度来构建攻击样本,换句话说,他们查看“飞机”的图片,测试出图像空间里哪个方向使得“猫”分类的概率增大,然后增加一点这个方向的扰动。于是,新得到的修改过的图像被误判为一只“猫”。
如果没有梯度会怎样呢?如果极其微小的改动对模型输出无影响会怎样呢?这看起来提供了防御思路,因为攻击者不知道添加哪个方向的扰动。
我们可以很容易地想到许多不用梯度的方法,例如,大部分分类模型可以在两种模式下运行,一种是输出最可能的类别,一种是输出类别概率。如果是后者情况下,假设模型输出”99.9%”为”飞机”,“0.1%”为”猫”,则很小的输入变化会得到很小的输出变化,这个变化告诉我们哪个方向的变化可以增加”猫”分类的概率。如果是前者情况下,则变动输入无法提供梯度的有效信息。
我们设计一个思维试验,来看下在最可能类别模式下,模型防御对抗样本的程度。攻击者无法知道输入往哪个方向调整会被判别为“猫”,看起来好像防御有效。不幸的是,如果攻击者猜到哪些方向是对抗样本,之前可被误导判为”猫”的仍可以被误判为“猫”。这种防御是不完备的不健壮的,哪怕我们已经尽可能地给了攻击者最少的线索来找到模型防御上的漏洞。
更不幸的是,已知攻击者有更好地方法来测出防御的漏洞。攻击者训练自己的平滑且带有梯度的模型,利用这个模型来生成对抗样本,然后用其对抗我们的非平滑的模型。我们的模型经常会误判这些类型的样本。最终,这个思维试验表明隐藏梯度并不解决问题。
“Gradient masking”的防御方法使得攻击者在寻找梯度时更困难,然而,攻击者可以自行训练一个拷贝替代模型,通过观察输入样本的真实判别label来模拟防御模型。
对抗样本难以防御的主要原因是,对抗样本生成的过程是难以框架到一套理论模型下的。对抗样本是许多机器学习模型的非线性和非凸解,当然也包括神经网络。正因为没有很好的理论工具刻画这类复杂优化问题的解,所以做任何形式的防御理论讨论来排除某类对抗样本都是困难的。
对抗样本另外一个难以防御的原因是,他们需要模型对每个可能地输入都要产出准确的输出。大多数时间,模型仅在所有可能集下的很小集合上表现很好。
目前为止,我们所尝试的每种策略都失败于非适应性,堵住了一种攻击,但是另外一种潜在漏洞又被利用了。设计一种防御体制能够防御powerful且高度适应性的攻击者是个非常重要的研究领域。
对抗样本表明许多机器学习算法可以被令人意想不到的方式突破,这些缺陷说明即使简单模型也能超出设计者打算行动。我们鼓励机器学习研究者们参与并设计阻止对抗样本的方法,来弥补设计意图与算法行为之间的分歧。如果你有意向于研究对抗样本,考虑加入OpenAI
了解更多机器学习安全的内容,可以跟进Goodfollow 和 Nicolas的机器学习博文cleverhans.io
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。