当前位置:   article > 正文

【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning

private fl-gan: differential privacy synthetic data generation based on fede

Abstract

本文提出:一种基于联邦学习的差分隐私生成对抗网络模型

将Lipschitz极限与差分隐私敏感性相结合,该模型可以在不牺牲训练数据隐私的情况下生成高质量的合成数据。

1.INTRODUCTION

GAN应用示例:从文本生成图像,从静止图像生成视频,提高图像分辨率。

Post-Processing

  • DPGAN: 在训练中为鉴别器的梯度添加噪声,使GAN框架修改为差分隐私。
  • PATE-GAN: 将修改后的PATE框架应用于GAN。
  • GANobfuscator:使用精确设计的梯度剪枝策略,实现高质量的合成数据生成。

当前研究的不足:
出于隐私,集中式训练困难。

联邦学习差异隐私解决方案:

[15] Robin C Geyer, Tassilo Klein, and Moin Nabi, “Differentially private federated learning: A client level perspective,” arXiv preprint arXiv:1712.07557, 2017.

MD-GAN: 优化GAN模型分布式训练:

[17] Corentin Hardy, Erwan Le Merrer, and Bruno Sericola, “Md-gan: Multi-discriminator generative adversarial networks for distributed datasets,” in 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE, 2019, pp. 866–877.

本文贡献:提出GAN私有联邦学习(FL-GAN)

2.PRIVATE FEDERATED LEARNING OF GAN

2.1. Algorithm summary

现有研究:对模型最终参数添加噪声

本文:在训练过程中添加噪声。使用 moments accountant 实时记录训练中的隐私损失

合成数据生成模型:梯度惩罚的WGAN

分布式存储数据训练模型:并行训练(parallel training);连环训练(serial training)

2.2. Algorithm framework

parallel training 核心思想:平均客户端的参数更新,完成每轮更新。

缺点: 频繁访问数据,增加隐私泄露风险;访问所有客户端后更新模型,对数据使用的浪费。

本文: 每个客户端依次更新同一模型参数。

2.3. The model learning procedure

在训练过程中添加噪声以满足差分隐私。

  1. 服务器初始化模型,包括鉴别器和生成器,将模型发送给任意客户端 i i i
  2. 客户端 i i i 训练 T g T_g Tg 轮,每轮训练中,鉴别器训练 T d T_d Td 轮后 合成器进行更新。
  3. 从余下客户端随机选一个,执行步骤 2 ,直到所有客户端都训练完,将最终模型返回服务器。

2.4. Theoretical analysis

私有FL-GAN建立在梯度惩罚的WGAN框架上,通过在更新鉴别器时加入噪声来实现差分隐私。

在计算每个训练数据的鉴别梯度后,加入高斯噪声(Alg.1 lines 10,11)。

使用隐私会计来跟踪训练中的隐私损失。a privacy accountant

Differential Privacy

随机函数 M M M 给出 ( ϵ , δ ) − d i f f e r e n t i a l p r i v a c y (\epsilon,\delta)-differential\quad privacy (ϵ,δ)differentialprivacy,单条记录上所有不同的数据集 D 1 , D 2 D_1,D_2 D1,D2,所有 S ⊆ R a n g e ( M ) S\subseteq Range(M) SRange(M) ϵ \epsilon ϵ 为隐私预算控制保护程度和噪音水平。

在这里插入图片描述

Parallel Composition

不相交子集 x i ⊆ x x_i\subseteq x xix, 设 f ( x i ) f(x_i) f(xi) 满足 ϵ \epsilon ϵ-差分隐私,应用所有查询 f ( x i ) f(x_i) f(xi) 仍然满足 ϵ \epsilon ϵ-差分隐私。

Lemma 1.
抽样概率: q = m M q=\frac{m}{M} q=Mm
每个内循环中鉴别器迭代次数: T d T_d Td
隐私侵犯: δ \delta δ
对于正的 ϵ \epsilon ϵ 鉴别器的参数对于 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私 外部循环中使用的所有数据 满足:在这里插入图片描述

算法1中的生成器输出保证了 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私

proof:

根据Lemma 1. 每个客户端训练的鉴别器都满足差分隐私,在差分隐私的 后处理 (post-processing)属性 作用下,生成器也满足差分隐私。

由于并行理论(Parallel Theory),模型在客户端之间传递也不会增加其他客户端隐私泄露风险。

故 每一轮客户端训练中推导出的模型都是 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分私有

算法复杂度:
客户端每次通信 参数仅需在客户端之间传递一次。

FL-GAN 总通信复杂度: N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) N(∣w+θ∣)

对于 DP-FL 方案,生成器一次迭代需要传递 T d T_d Td 次参数,总通信复杂度 T g ⋅ T d ⋅ N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) T_g\cdot T_d \cdot N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) TgTdN(∣w+θ∣)

3. EXPERIMENTS

探索隐私水平和生成的数据质量之间的关系

MNIST: 70k 大小为 28 × 28 28\times28 28×28 的手写数字图像

CelebA: 200k 大小为 64 × 64 64\times64 64×64 的名人脸部图像

鉴别器 α d \alpha_d αd 和生成器 α g \alpha_g αg学习速率 1.0 × 1 0 − 4 1.0\times 10^{-4} 1.0×104指数衰减

batch size:64

每个客户端保留一定数量的数据用于训练:
MNIST: 分割为 N 1 ∈ [ 1 , 3 , 6 ] N_1\in[1,3,6] N1[1,3,6],模拟 N 1 N_1 N1 个不同的数据持有者。

CelebA: 分割为 N 2 ∈ [ 1 , 10 , 20 ] N_2\in[1,10,20] N2[1,10,20]

噪声尺度: δ = 1 0 − 5 \delta=10^{-5} δ=105

鉴别器迭代次数: T d = 5 T_d=5 Td=5

在鉴别器网络上的激活函数为泄露ReLU(leaky ReLU)
导数的界 B δ ′ ≤ 1 B_{\delta^{'}}\le 1 Bδ1

隐私级别对图像质量的影响

通过设置不同的隐私参数 ϵ \epsilon ϵ 进行训练,得到了几个隐私保护级别的模型。

在这里插入图片描述
隐私水平较高时,可以生成较清晰的图像,较大的隐私参数对应高质量图像,表明:图像失真由噪声引起,而不是质量较差的训练集。

大的隐私参数意味着大的隐私泄露风险,也意味着更好的生成数据,需要在隐私和性能之间权衡。

对比FL-GAN 和 DP-FL:
计算合成数据的 Inception Score (IS)

有三种不同的客户端数量。

Inception Score (IS)得分越高,生成图像质量越高,多样性越大,当隐私参数到一定阈值,合成图像的质量可以与无隐私保护的FL-GAN媲美。

使用Frechet Inception Distance (FID)评估生成的数据,低分代表合成数据的高质量。
在这里插入图片描述

隐私水平和网络收敛之间的关系

带有梯度惩罚的WGAN 对每个样本独立施加梯度惩罚,Lipschitz极限要求鉴别器的梯度不超过K(通常设置为1)。

梯度惩罚就是设置一个额外的损失项将梯度与K关联起来,参数K与差分隐私敏感性完美匹配。

给梯度添加噪声前,对其剪辑,使梯度有一个清晰的灵敏度上界,将裁剪值设为K,避免梯度消失和爆炸,保证梯度有界性,便于高斯噪声加入。

从图6看出,仍然可以快速收敛

在这里插入图片描述

4. CONCLUSION

FL-GAN可以生成高质量的合成数据,并行训练最大限度利用各个数据库的数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/166348
推荐阅读
相关标签
  

闽ICP备14008679号