赞
踩
论文地址:https://arxiv.org/abs/2304.04625
内容摘要:
模型反转攻击是一种隐私攻击,它仅通过访问模型来重建用于训练机器学习模型的私人数据。 近年来,利用生成对抗网络(GANs)从公共数据集中提取知识的白盒模型反演攻击因其优良的攻击性能而受到广泛关注。 另一方面,现有的利用GAN的黑盒模型反演攻击存在着诸如不能保证在预定的查询访问次数内完成攻击过程或不能达到与白盒攻击相同的性能水平等问题。 为了克服这些缺陷,我们提出了一种基于强化学习的黑箱模型反演攻击。 我们将潜在空间搜索问题归结为马尔可夫决策过程(MDP)问题,并用强化学习方法进行求解。 我们的方法利用生成的图像的置信度得分来向智能体提供奖励。 最后,利用在MDP中训练的Agent发现的潜在向量来重构私有数据。 在不同数据集和模型上的实验结果表明,我们的攻击成功地恢复了目标模型的私有信息,达到了最先进的攻击性能。 通过提出一种更先进的黑箱模型反演攻击,强调了研究隐私保护机器学习的重要性。
现象:
关于隐私攻击的研究表明,恶意用户可以从训练好的模型中提取个人信息。 对机器学习模型最具代表性的隐私攻击之一是模型反转攻击,它在只访问模型的情况下重建目标模型的训练数据。 根据目标模型信息量的不同,将模型反演攻击分为三类,1)白盒攻击,2)黑箱攻击,3)仅标签攻击。 白盒攻击可以访问模型的所有参数。 黑盒攻击可以访问由置信度分数组成的软推理结果,而仅标签攻击只能访问硬标签形式的推理结果。
现状:
最近提出的用于深度学习网络的模型反演(MIRROR)使用遗传算法从黑箱目标模型中获得置信度来搜索潜在空间。 另外,边界排斥模型反演攻击(BREPMI)通过使用基于决策的零阶优化算法进行潜在空间搜索,在只标记攻击中取得了成功。
尽管进行了这些尝试,但每种方法都有一个重要的问题。 BREP-MI从生成被分类为目标类的图像的第一个潜在向量开始潜在空间搜索过程。 这并不能保证在通过随机抽样找到第一个潜在向量之前需要多少次查询访问,在最坏的情况下,可能无法启动对某些目标类的搜索过程。 在MIRROR的情况下,它的性能比标签唯一攻击BREP-MI更差,尽管它对攻击使用了置信度分数。
本文方法:
为此,我们提出了一种新的解决方案,即基于强化学习的黑箱模型反演攻击(RLB-MI)。 我们结合强化学习,从置信度得分中获取对潜在空间探索有用的信息。 更具体地说,我们将GAN中潜在空间的探索表述为马尔可夫决策过程(MDP)中的一个问题。 然后,根据生成图像的置信度得分为Agent提供奖励,并在回放内存中使用更新步骤使Agent能够逼近包括潜在空间在内的环境。 Agent根据这些信息选择的动作可以比现有的方法更有效地导航潜在向量。 最后,我们可以通过GAN从潜在的向量中重建私有数据。 我们对各种数据集和模型进行了攻击实验。 将攻击性能与三类各种模型反演攻击进行了比较。 结果表明,所提出的攻击能够成功地恢复私有数据的有意义信息,优于所有其他攻击。
图一
攻击者的目标:
模型反演攻击的目标是从用私有数据集D训练的目标模型T中重建Y类目标的代表性数据(特征)。 目标模型T应该学习到从图像x到图像所属类别的映射的能力,其中k是D的类别数,d是输入图像的维数。
攻击者的知识
由于我们的方法处理黑箱设置,攻击者只能访问由攻击者输入的数据和数据对应的软标签组织的查询。 此外,攻击者知道目标模型的目的。 关于所提供的模型或服务的任务的信息不仅是可用的,而且可以很容易地从输出的类别中推断出来。 基于该任务的知识,攻击者可以访问相应任务的公共数据集。
概述。
给定在私有数据集D上训练的黑箱模型T,黑箱模型反演攻击的目标是重建D。 与最近的模型反演攻击并行,我们的方法中使用了一个用公共数据集DPUB训练的生成对抗网络G。 在黑箱条件下,攻击者无法获得T的结构和参数,只能获得由置信度分数组成的软标签。 因此,我们的主要任务是从G的潜在空间中搜索潜在向量,以生成D中各类的高置信度图像。为了解决这个问题,我们将潜在空间搜索问题描述为马尔可夫决策过程(MDP),并将强化学习应用于1)未知环境,2)连续空间,3)高维空间中的MDP问题。 更具体地说,我们将MDP的状态空间定义为G的潜空间,则每一步t的状态St具有与潜向量相同的形式。 状态St由一个名为引导向量的动作引导,并更新到下一个状态St+1,如图1所示。 最后,用St+1和At生成的图像的置信度分数来制定奖励。
用于潜在空间搜索的MDP的组件:状态、动作、状态转换和奖励。
状态
该MDP的状态空间是G潜在空间。对于每一个事件,第一个状态S0是一个k维标准正规随机向量:
其中k是潜在空间的维数。 在每一个步骤t,状态st由动作at更新。
动作
我们希望行动引导随机的初始潜在向量到高回报的最终潜在向量。 在广义上,我们把这个问题看作是一个基于强化学习的寻路问题。 在传统的寻径问题中,动作被定义为从当前状态ST到下一状态ST+1的位移。 然而,与寻路中的有界二维空间不同,潜空间是一个不受限制的高维空间。 当行为定义为位移向量时,由于状态方差较大,搜索区域相对于潜在空间较窄,强化学习Agent无法收敛到局部极小值或完全失效。 因此,我们把动作空间看作是整个潜空间。 我们定义了一个潜在的向量形状的行动作为引导向量。
状态转换
我们通过在每一步将状态向动作方向移动来更新状态,并使用一个多样性因子α,该因子在状态转换过程中作为当前状态的权重来确定移动距离。 步骤T的状态转换如下:
之所以将α命名为多样性因子,是因为我们将α表示为一个超参数,允许我们控制生成图像的多样性。 正如王等人所提到的,模型反演攻击在重建图像时在精确度和多样性之间有一个权衡。 我们可以用α来调整精确度和多样性之间的权衡。 α越高,智能体越专注于生成高多样性的图像,α越低,下一个状态将与当前步骤中的动作相同,则更专注于生成概率最高的图像。
奖励
在通过动作更新状态之后,代理从环境获得奖励。 G从更新后的潜在向量中生成一幅图像,我们可以利用目标网络T通过推理得到该图像的目标类Y的置信度分数。由于动作引导状态的运动方向,因此由动作生成的图像也应该接近目标类空间。 为了将状态和动作放置在目标类空间附近,我们需要提供更高的奖励,因为状态和动作具有更高的置信度分数。 因此,我们用状态得分和动作得分组成奖励,状态得分和动作得分被计算为每个向量创建的图像的置信度得分的对数值。 分数计算如下:
其中R1是状态得分,R2是动作得分。 此外,我们希望重建的图像具有目标类的特征,以区别于其他类的图像。 因此,我们提出了一个附加项R3,它惩罚了其他类别图像的高置信度得分。 我们计算目标类的置信度得分与其他类的最大置信度得分之间的差值,仍然取对数。 由于小于或等于零的数的对数值是未定义的,所以取减去的数值和一个小正数中较大的一个。 项R3表示为公式:
每一步的总的奖励公式表示如下:
训练智能体的算法
我们通过强化学习解决了潜在空间搜索问题。 由于所提出的由G和T组成的MDP的环境非常复杂,我们要求在复杂环境中有一个鲁棒的强化学习Agent。 另外,由于MDP中的动作空间被定义为G的潜在空间,因此需要一个能够处理连续动作空间的Agent。 因此,我们使用满足上述所有要求的Soft actor critic(SAC)来求解MDP。 我们训练一个SAC代理从给定的状态中选择适当的动作。 训练结束后,通过向训练后的智能体提供一个随机的初始向量作为初始状态,获得每一个episode的重建图像。
实验
使用三个数据集分别是:
将每个数据集分成一个私有数据集用于训练目标分类器,一个公共数据集用于训练生成模型。 公共数据集和私有数据集之间没有类交集,因此生成模型不能学习目标分类器的类特定信息。
对于Celeba,私有数据集由1000个身份的30,027个图像组成,公共数据集由从剩余的9,177个身份中选择的30,000个图像组成。
对于FaceScrub,在总共530个身份中,随机选择的200个身份的所有图像都用作私有数据集,其余330个身份的所有图像都用作公共数据集。
对于PubFIG83,在总共83个身份中,随机选取的50个身份的所有图像作为私有数据集,其余33个身份的所有图像作为公共数据集。
另外,我们使用Flickr-Faces-HQ数据集(FFHQ)作为公共数据集进行实验,考虑了公共数据集和私有数据集之间存在分布移动的情况。 在这些实验中,从FFHQ中随机选择30,000幅图像作为公共数据集。 所有的人脸图像都是中心裁剪,然后调整大小为64×64。
模型比较
为了进行比较,我们对几种流行的网络结构进行了攻击实验。 与以前的研究类似,我们使用三种网络结构VGG16、Resnet-152和face.evolve进行实验。
实施细节
在前人研究的基础上,建立了训练目标分类器和GANS的超参数。 用SGD(学习率0.01,批容量64,动量0.9,权值衰减1×10-4)对目标分类器进行50个周期的训练,并根据测试精度选择最佳模型。 用ADAM(学习率0.004,批容量64,β1=0.5,β2=0.999)对GANS进行300个周期的训练。 用ADAM训练SAC智能体,折扣因子γ=0.99,软更新因子τ=0.01,学习速率5×10-4,重放记忆容量1×10^6,批容量256,每集最大步长为1,多样性因子α=0,一共40000个episodes。 我们将奖励权重W1、W2和W3分别设置为2、2和8。 在实验中的值为1×10-7。
评价指标
我们简要描述了评估指标,攻击精度,K-最近邻距离(KNN DIST)和特征距离(FEAT DIST)。 攻击精度:为了评估重建图像的攻击精度,我们在私有数据集上训练评估分类器。 评价分类器必须与目标分类器不同,因为重建图像可以与目标分类器重合。对于评价分类器。 我们在私有数据集上微调了一个用MS-Celeb-1M预训练的分类器,对PubFig83、FacesCrub和Celeba数据集的测试准确率分别达到98%、99%和96%。
KNN DIST:KNN DIST是衡量重建图像的特征与目标标记图像中最近样本的特征之间的平均L2距离的度量。
FEAT DIST:FEAT DIST是衡量重建图像的特征与目标标签图像的特征质心之间的L2距离的度量。
实验结果
我们将我们的攻击与三类典型的模型反演攻击进行了比较:白盒攻击、黑盒攻击和仅标签攻击。 白盒攻击基线是GMI和KED-MI。 GMI是第一个使用GANS的模型反演攻击,KED-MI在白盒攻击中表现出最高的攻击性能。
黑盒和仅标签的基线是LB-MI、MIRROL和BREP-MI。除了LB-MI和KED-MI之外,其他攻击都使用了相同的GAN。
我们使用代理为每一集生成图像,并为目标分类器选择置信度最高的图像。
对各种模型进行性能评价
表1显示了RLB-MI的评估结果和三个模型VGG16、Resnet-152和Face.Evolve的基线,并用Celeba进行了训练。 各目标模型的检验正确率分别为88%、91%和89%。 虽然现有的黑箱模型反演攻击LB-MI和Mirror都可以访问软标签,但它们的性能明显低于BREP-MI。BREP-MI是一种只使用标签的模型反演攻击方法。 然而,所提出的黑箱攻击,RLB-MI通过适当地利用置信度得分的信息,大大优于BREP-MI。 此外,在Resnet-152和Face.Evolve的情况下,我们的攻击超过了最先进的白盒模型反演攻击KED-MI,尽管无法访问梯度信息。 即使在VGG16的情况下,RLB-MI重建的图像也通过与真实样本的最小k近邻距离和特征距离来捕获目标类的信息特征。 可以看出,目标分类器的预测性能越高,攻击性能越好。 这一结果是有意义的,因为性能更好的分类器包含了更准确和更关键的关于训练数据特征的信息。 由于评价分类器不能完全代表人的判断,我们通过提供由基线和我们的方法生成的真实样本和攻击图像,在图2中给出了定性评价结果。
公共数据集差异的影响
在大多数现实场景中,公共数据集和私有数据集处于相同分布的机会很少,因此我们通过在不同分布的公共数据集上训练生成模型来进行实验。 我们使用Flickr-Faces-HQ数据集(FFHQ)训练的生成模型来评估攻击。 实验中使用的目标分类器是用PubFig83、FacesCrub和Celeba训练的face.evolve。 在使用FFHQ作为公共数据集的实验中,模型反演攻击表现出攻击性能的下降。 然而,即使在公共数据集和私有数据集之间存在分布转移的情况下,我们的攻击仍然达到了如表3所示的状态攻击性能。 我们认为性能下降可能是因为每个数据集中人脸对齐或裁剪的方式不同,以及每个数据集中包含的性别或年龄分布不同。 拍照时,光线条件或背景造成的图像分布差异也可能影响攻击性能。
准确性和多样性之间的权衡
我们根据多样性因子α的变化来衡量训练的智能体的攻击精度和多样性。 我们针对不同的α值训练代理,并针对特定的身份从每个代理生成1000张图像。 为了分别评估生成图像的保真度和多样性,我们使用密度和覆盖(D&C)作为度量标准。 实验中使用的目标分类器是用Celeba训练的face.evolve。 图3显示了攻击精度和多样性之间的权衡。 随着alpha的增加,攻击精度降低,代表多样性的覆盖范围增加。 此外,从图3b可以看出,密度对α的变化是鲁棒的,这意味着代理生成稳定保真度的图像,而不考虑α的变化。 当α为0.00和0.97时生成的图像如图4所示。
总结
提出了一种新的基于强化学习的基于GAN的黑箱模型反演攻击方法。 我们将潜在空间探索问题描述为MDP问题,并训练一个强化学习Agent来解决MDP问题,即使在没有目标模型的权值和梯度等信息的情况下也是如此。 提出的攻击解决了以前黑箱攻击的问题。 另外,实验结果表明我们的攻击成功地重构了目标模型的私有数据。 我们的攻击不仅优于最先进的黑盒攻击,而且优于所有其他方法,包括白盒和仅标签攻击。 希望本研究能对黑箱模型反演攻击和防御的研究起到一定的推动作用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。