赞
踩
对查询的结果加入噪声,使得差分攻击的攻击者无法辨别某一样本是否在数据集中。
最早于2008年由Dwork 提出,是目前基于扰动的隐私保护方法中安全级别最高的方法
查询函数用
f
(
x
)
:
x
→
R
f(x):x\rightarrow\;R
f(x):x→R 表示,随机噪声可以用
r
r
r 表示,最终得到的查询结果就是
M
(
x
)
=
f
(
x
)
+
r
M(x)=f(x)+r
M(x)=f(x)+r ,对于两个汉明距离为1的数据集
x
,
x
′
x, x'
x,x′,对于任意的输出集合
S
S
S 有:
note
公式推导:
使的这两个分布尽可能地接近,那么衡量两个分布的差异用KL-Divergence:
只需要两个分布在差距最大的情况下能够被bound住,所以引入了MAX-Divergence,并且使得它小于 ε \varepsilon ε :
ε
\varepsilon
ε 就被称为隐私预算,一般而言,
ε
\varepsilon
ε 越小,隐私保护越好,加入的噪声就越大,数据可用性下降.
ε
\varepsilon
ε控制了随机机制在两个相邻数据集上的输出的差异程度,并捕获了在数据库上运行随机机制时丢失了多少隐私。
ε
\varepsilon
ε越大,隐私保护的程度越差,
ε
\varepsilon
ε越小,隐私保护的程度越好.
在实际的应用中需要很多的隐私预算。因此为了算法的实用性,Dwork后面引入了松弛版本的差分隐私:
推导:
相比较于原始的式子,对分子减去了一个
δ
\delta
δ ,也就是说我们可以容忍一个较小的差距。直观形式如下,像图中标注的位置,本来
ϵ
\epsilon
ϵ 是无法bound住,但是我们考虑松弛项
δ
\delta
δ ,整体依旧满足差分隐私。一般
δ
\delta
δ 都设置的比较小。
松弛DP的目的:利用更少的隐私预算,得到相同的噪声尺度。
后处理性: 差分隐私机制不受后处理的影响,任何差分隐私的随机响应机制和任意函数进行组合,得到的新函数仍然是差分隐私的。形式化:如果一个机制M[]是 ε \varepsilon ε -DP的,g()是一个任意函数,则g(M[])仍然是 ε \varepsilon ε-DP的。因此,差分隐私可以抵御数据链接攻击。
可组合性: 差分私有机制在组合下是封闭的。如果我们在同一数据集上应用多种不同的机制(或多次使用相同的机制),这些机制整体上仍然是差分隐私的,但是 ε \varepsilon ε值会产生变化。具体来说,假设我们将k个机制进行组合,每个机制都符合 ε \varepsilon ε-DP的,则最后得到的整体的机制至少是 k ε \varepsilon ε-DP 的。由此,DP可以抵挡差分攻击。
上述性质使得DP机制可作为通用组件。任何大型差分隐私机制都可以组合在一起,同时仍然具有差分隐私性质。但是,组合定理也存在极限的。虽然组合可以保护隐私,但随着组合中的DP机制的增加,
ε
\varepsilon
ε的值会增加,隐私保护的性能会随着DP机制数量的增加而下降。如果组合的DP机制过多,
ε
\varepsilon
ε的值将变得过大,使得随机机制在相邻数据库上产生的差异极度明显,无法产生隐私保护的效果。
Renyi Entropy & Renyi Divergence补充文档
熵-Entropy可以用来描述系统多样性,不确定性和随机性。而Renyi Entropy 瑞丽熵是熵的推广,用来衡量系统不确定性的指标。
note:
瑞丽散度用来衡量两个分布之间的差距,是KL-Divergence和Max-Divergence的推广。
Renyi在Kullback-Leibler散度的基础上引申出Renyi divergence。在形式上也是引入了一个
α
\alpha
α 阶参数,所以也可称其为
α
\alpha
α -divergence。如下,
定义:
K
L
D
i
v
e
r
g
e
n
c
e
=
C
r
o
s
s
e
n
t
r
o
p
y
−
S
h
a
n
n
o
n
e
n
t
r
o
p
y
KL\ Divergence = Cross\ entropy - Shannon\ entropy
KL Divergence=Cross entropy−Shannon entropy
非对称性/非负性/凹性的性质证明
最小化KL divergence目标函数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。