当前位置:   article > 正文

从【隐私】到【隐私计算】_k-匿名化过程中可能由于过度地泛化或抑制某些字段,从而导致数据集的特征呈偏态分

k-匿名化过程中可能由于过度地泛化或抑制某些字段,从而导致数据集的特征呈偏态分

以下文章来源于喔家ArchiSelf ,作者半吊子全栈工匠

对于个人电子产品而言,例如手机,平板电脑,便携式电脑等等,或多或少,都会涉及到隐私计算,那么什么是隐私计算呢?理解隐私计算,先要澄清“隐私”的概念,那么,什么是隐私呢?进而,明确隐私计算分别与隐私和计算之间的关系,即隐私计算是为了实现个人隐私保护而进行的计算还是在实现了隐私保护的前提下进行的计算?最后,才是隐私计算涉及的技术和方法。

 

1. 什么是隐私?

“隐私”一词在中国最早出现于周朝初年,但在当时,它的词义和现代还有些不同,“隐私”在当时的意思是衣服,也就是把私处藏起来的东西。

现在,隐私一般指个人的不愿公开的私事或秘密。隐私由“隐”和“私”两个字组成,在汉语中,“隐”是隐避、隐藏,在《荀子·王制》中有“故近者不隐其能,远者不疾其劳”的语句,“隐”即为不公开。“私”是个人的、自己的,在《诗·小雅·大田》有“雨我公田,遂及我私”。在英语中,隐私一词是“privacy”,在牛津词典中解释为独处、秘密和不受公众干扰的状态,与汉语的意思基本相同。但汉语的“隐私”强调了隐私的主观色彩,而英语的“privacy”更注重隐私的客观性,体现了东西方的文明差异。

一般地,隐私可以分为身体隐私、行为隐私、身份隐私、名誉隐私、肖像隐私、个人收入隐私和个人经历隐私。隐私的主体是自然人,客体是自然人的个人事务,个人信息和个人领域,目的是指特定个人对其事务、信息或领域不愿他人探知或干涉。

在IT领域,隐私是一个抽象的概念,不能代替具体事物或人的行为,只是它们所反映出来的信息。也就是说,隐私本质上是一种信息,一种属于私人不愿为他人知晓或干涉的信息。例如电子邮件、即时通信的内容等,这些工具本身并不是隐私,只是其中记载并反映出来的信息才是隐私。

2. 什么是隐私保护?

隐私保护原本是个人的行为,是为了提高个体的安全,其根本原因在于隐私数据所有权和使用权的分离。

例如,对于大多数人而言,姓名和性别是他们的公共属性,而且通常愿意揭示它们,不属于隐私。在某些情况下,个人的年龄,身高和体重可能是隐私数据。但是有时同样要公开,例如看病的时候,一个医生需要知道病人身体和精神上的细节,如果需要会诊,这些隐私数据还会开放给一组医生,医生们需要使用这些数据对病情进行诊断。

也就是说,个人隐私数据可能需要提供给某些群体,所有权和使用权产生了分离,所以需要加以保护,以免被不必要的人看到。这些团体可能会有意无意地对个人隐私数据进行扩散,甚至会造成滥用,进而可能对个人的生活产生不良影响,所以需要隐私保护。

对隐私保护的直观方式是什么都不透露,但这几乎是不切实际的。随着时间的推移,隐私的概念已经发生了演变。有人建议隐私不能进入数据库,即从数据库中无法了解任何关于个人的信息,也有人强调,个人的隐私可以被视为“隐藏在人群中”,更一般的看法是,信息收集和传播应适合于确定的场景,并遵守有关信息传播的规范。

那么如何明确隐私保护中的场景?换句话说,隐私保护中的风险点都有哪些呢?

3. 隐私保护中的风险点

在隐私保护中,大约有3个主要的风险点:信息披露,数据处理以及隐私与实用性间的矛盾。

这里还是以看病的场景为例。医院使用数据库来保存病人的记录,该数据库由多个表组成,这些表存储了患者的个人信息、病史和医院所需的其他细节,例如身份证号、姓名、民族、性别、家庭住址、婚姻状况和诊断出的疾病等。其中包括了个人身份信息和具体事务的信息,都涉及了隐私数据。这些数据极为重要,是医疗服务的基础,除了记录了治疗的结果之外,还能应用于研究和提高药物的效力以及监测并限制疾病的传播等等。然而,未经授权披露医疗数据可能会侵犯患者隐私,而且这种侵犯可能会造成经济、精神和社会影响。例如,一些疾病的披露会严重影响患者过正常生活的能力。个人信息数据的泄露,比如信用卡信息,可能导致欺诈性的网上支付。因此,数据的安全性和隐私性都至关重要。

如果隐私提供了一个手机App让患者填写个人信息,那么个人信息是安全的吗?除了关于病情的信息,为什么还要收集其他信息?谁能接触到这些数据?如果医院把这些数据分享给第三方呢?

3.1 信息披露风险

在任何数据集中,个人信息披露都是密切相关的,可按严重程度排序如下:

关系资格的披露 << 敏感属性披露 << 标识信息的披露

按照给定的顺序,每个都可能包含在另一个信息中。由于风险被定义为“披露的可能性”乘以“披露的影响”,那么如果披露确实发生,这些披露中的任何一个都可能比另外两个带来更大的风险,这取决于整体情况。

在医院的示例中,关系资格的披露相当于公开了一个人是某医院的患者,敏感属性披露相当于公开了一个人得了某种的疾病,标识信息的披露相当于公开了一个人的身份信息。在当前新冠信息的披露中,一般不包含标识信息的披露。医院作为授权用户,应该有足够的安全控制,防止未经授权的用户访问数据,从而保护个人数据,保护个人隐私。即便如此,也不是医院中的每位医生都能访问所有个人数据的。

在考虑披露风险时,需要注意的是,面向安全时假定了用户和攻击者是不同的,而面向隐私时合法用户也可能是攻击者,城堡很多是从内部攻破的。对于安全性,可以通过安全控制来减轻未授权用户的恶意意图,而对于隐私性,则需要一组不同的控制。因此,一个好的安全框架并不足以保证隐私。

3.2 数据处理风险

为了减轻信息披露的风险,是否可以删除个人身份信息呢?

个人身份信息不能被物理删除,否则无法实现目标的业务逻辑。实际上,删除可以实现为“用虚拟值替换”,以满足数据库或应用程序的约束和要求。这似乎是一个有希望的解决方案,因为数据集中可能的成员关系和身份都没有显示。这样能保护个人的隐私吗?遗憾的是,事实并非如此,因为可以通过数据处理时这种替换关系的“连接”,识别出了大多数数据对象。因此,仅仅删除个人身份信息并不能保证隐私。

如果敏感数据被进一步清洗还存在风险么?

一般地,关系资格数据对个人而言,隐私的重要程度可能没有那么高。例如,我可能不介意我曾是友谊医院的患者,但是会介意我去医院看了什么病。为了克服这个问题,对敏感值进行逐列重组似乎是一种可能的解决方案。然而,这并不起太大作用,因为即使数值乱序,它们的分布仍然是相同的,这可能足以推断出个人的敏感数据,当数据分布不均时尤其如此。

如果所有东西都被移除了呢?

将所有记录替换为接近原始数据的合成数据可以保护隐私,因为这些数据并不指向现实世界中的任何个人。综合数据保留了原始数据的结构和特征属性。利用生成对抗网络(GAN)等技术,现在可以生成具有真实数据特性的合成数据。但它的局限性在于所得结果的准确性有损失,因此,这种方法并不适用于某些应用场合。例如,在就医的场景中,用于癌细胞预测的机器学习模型需要非常高的准确性与精度。在这种情况下,完全依赖综合生成的数据可能会造成不同的漏洞。

3.3 隐私与实用性间的矛盾

隐私与实用性之间是矛盾的,向授权用户提供数据访问是有益的。隐私的挑战是在完全公开的数据和完全保留的数据之间找到平衡。当原始数据完全共享时,它的实用性最大,但隐私性最小; 当不披露任何信息时,隐私性最大,但实用性有限。正像百度Robin曾经说过的那样“用户在一定程度上愿意用隐私换方便和效率”,尽管遭到了无数人黑,但是他只是说出了事情的真相而已。

理想的解决方案是将隐私和实用性都提高到最大可能的水平。由于隐私权和实用性要求的冲突,这是非常具有挑战性的。这要求我们能够在隐私和实用性之间取得平衡,使用技术手段在特定环境中分享有用的个人数据,并防止侵犯个人的隐私。

那么,有哪些不同的隐私保护技术? 这些技术在实践中是如何应用的呢?

4. 隐私保护的技术

4.1 匿名技术

传统方法,如随机化,数据乱序和数据变换已经能够在一定程度上保护隐私,但数据公开的风险仍然存在。匿名技术是一种保护隐私的技术,它克服了传统方法的局限性。

匿名技术实际上是让一个人“泯然众人矣”。那么,“众人”是几个人呢?这就是k 匿名化技术背后的一个理念,使得k条记录在数据集中看起来相似的,也就是说,每个人的隐私数据隐藏在k个相似的记录中。如果一个人的信息无法与其他信息也出现在数据中的 k-1个人区分开来,那么已发布的数据具有k 匿名性。k匿名化技术缓解了链接攻击的风险。

标识符的转换可以通过泛化和抑制等技术来实现。对于抑制,属性的部分或全部值可以替换为 * ,对于泛化,属性的单个值被表示更广泛范围或类别的值替换,例如,很多网络应用在显示用户手机号时都用”*”来替代了号码中的中间4位。更高的通用性允许映射更多的记录,从而实现更高级别的隐私,尽管这可能会显著影响数据实用性。此外,对属性使用单一策略泛化所有记录可能不是最佳策略。这种保护隐私的数据转换称为重新编码。在全局编码中,特定的详细值必须映射到所有记录中相同的通用值。本地编码允许将相同的详细值映射到每个匿名组中不同的通用值。

尽管数据的k匿名化可以防止链接攻击,并且攻击者不能高度确定地链接到其他数据库,但是它仍然可能揭示敏感信息。这被称为同质性攻击,其中所有k 个体具有相同的敏感值。类似地,如果攻击者有关于某个人的额外信息,则可能以很高的概率重新识别该记录,从而导致背景知识攻击。因此,k匿名并不能提供任何针对这种攻击的科学保证。

最佳k匿名性是否可以通过修改最小数量的数据来实现?对于多维数据来说,实现最佳k匿名性是一个NP难题。此外,选择k作为可接受的k匿名性水平提出了另一个挑战。为了实现k匿名性,在记录的泛化或抑制过程中会丢失信息,泛化程度越高,效用越低。

为了克服其中的缺点,人们提出了不同的k匿名技术。L多样性就是这样一种变体,其中任何敏感属性在每个群体中都应该有l个不同的值。这可以确保敏感属性得到很好的表示,但是它也涉及到抑制或添加可能会改变数据的分布。这种抑制或添加引起了对从数据集中得出的统计结论有效性的关注,任意k子集中敏感属性的分布不仅是l多样性的,而且接近于整个数据集中属性的分布。此外,这两个分布之间的距离是通过阈值t来测量的。数据的维度仍然是一个挑战,对于像时间序列这样的高维数据,提供与低维数据相同的隐私保护是相当困难的。

匿名技术已经在隐私中敏感数据发布场景中有了很多实现,应用范围已经从关系数据库扩展到图等匿名组合结构。

本部分讨论k匿名的选择,发布匿名数据的一些实际问题,准标识符,实现期望的匿名的理想泛化量,以及如何有效地k匿名。

4.1.1 K 的正确选择

在美国,健康保险便利和责任法案为保护敏感的患者数据设定了标准,将20,000定义为k匿名性的k的标准值。而家庭教育权利和隐私法案为保护学生及其家庭的个人信息制定了标准。建议k的值为5或10,以防止披露。这显示了在选择k时的不同。

K的选择是根据这些管理授权对应用程序进行预定义的。然而,对于没有监管要求的应用程序,选择k来提供正确的隐私级别与效用权衡是一个挑战。选择 k的一种方法是在一定范围内改变k的值,并确定数据集的广义信息损失(效用度量)的变化。因此,可接受的广义信息损失对应的k值是合适的选择。

尽管如此,找到k的最佳值仍然是一个悬而未决的问题,目前的研究包括了概率模型和多目标优化模型等。近似算法可以实现k匿名,但不能扩展。另一方面,概率方法k匿名技术使用动态规划提供了一个时间最优的k匿名算法。启发式方法也可以产生有效的结果。目前的重点是人工智能驱动的分析,但是,隐私和数据保护的定义已经发生了明显的变化,这表明需要提供更强大的保障,并为不同的应用提供更广泛的范围。

4.1.2 准标识符的识别

准标识符的识别是一个主要问题,因为它直接影响k匿名技术的有效性。如果可以标识可变属性集的记录数,这些属性集可能是潜在的准标识符。随着信息的增加,大量的记录可能变得可识别。

随着数据维数的增加,准标识符的选择会变得更加复杂。这个问题也变得更具挑战性,因为其他人公布的额外数据存在不确定性。在这种情况下,一些已发布的属性必须被视为准标识符。

4.1.3 实现所需匿名化的理想泛化量

理想的泛化量取决于公开可用的信息。一些组织在公共领域公布信息,以实现更大的透明度,并使人们更容易获得其数据。这些组织可能无意中发布了不应该提供的信息。这为私有聚合提供了滥用此类信息的机会。因此,发布个人数据的组织必须采用极端的一般化方法,以防止通过链接攻击重新识别身份。

链接攻击表明,仅仅删除标识符并不能保护隐私。因此,k匿名已经成为一种突出的隐私保护技术。在这里,泛化是在真实信息上执行的,这使得它比其他策略更容易被接受。此外,k匿名及其变体可以限制链接、同质性和背景攻击。从工业的角度来看,k匿名已经获得了更广泛的知名度。

匿名技术确实有一些缺点,比如信息丢失。此外,泛化需要为数据集中的每个准标识符建立一个分类树,这需要领域专家的干预,即使分类是自动生成的。此外,根据用例的不同,每个属性的泛化级别可能会有所不同。

随着计算能力的提高和数字数据集的可用性,个人数据被重新识别的风险仍然存在。

4.2 差分隐私技术

假设在共享数据之前,注入一些噪声,或者创建一个具有与原始数据集相同的统计属性的合成数据集。那么,很有可能使隐私可以得到保护。差分隐私技术就是通过注入精心校准的随机噪音来使数据不真实,从而保护个人隐私的技术。差分隐私技术的独创性在于允许从数据集中抽取有意义的分析,同时保护个人隐私。然而,其局限在于,没有直接访问数据集就很难学习关于个人的任何东西。

在典型的差分隐私技术中,数据管理员被认为是值得信赖的,并充当中心主体,他持有组成数据集的个人数据。使用可信的管理员,差分隐私技术可以以两种模式之一进行操作:在线或交互模式或离线非交互模式。在在线交互模式中,数据分析师自适应地查询数据集,查询是应用于数据集的函数,每个查询都会产生无关的响应,从而保护了隐私。在离线非交互模式下,管理员使用与原始数据集具有相同统计特性的差分隐私机制生成合成数据库。发布数据后,v不再扮演任何角色,原始数据甚至可能被销毁。因此,使用合成数据库,重新识别个体变得困难。此外,这样的合成数据可以共享用于执行质量分析。

4.2.1 差分隐私技术的原理

考虑一个算法,该算法分析数据集并计算统计属性,如均值、方差、中值和模式。如果通过查看输出,人们无法判断原始数据集中是否包含任何个人数据,那么这种算法被称为差异私有算法。换句话说,差分私有算法的保证是它的行为几乎不会随着数据集中个体的缺失或存在而改变。最值得注意的是,这种保证适用于任何个体和任何数据集。因此,不管个人的细节有多么独特,也不管数据集中其他任何人的细节如何,差分隐私技术的保证仍然有效。

在数学上,差分隐私算法可以定义如下: 如果对于所有数据集,D1和 D2最多在一个元素上不同,并且所有的 S是Range (M) 的子集,在随机函数 M 得到了 ε 的差分隐私。因此:

Pr[M(D1) ε S] ≤ exp(ε) x Pr[M(D2) ε S]

数据集 D1中管理员输出的 M (D1)分布与数据集 D2中的 M (D2)几乎相同,数据集 D1和 D2只有一个个体的记录不同,而 M 是保证 ε微分隐私的随机化算法: ε 决定了两个数据集 D1和 D2的不可区分性,即对两个数据库集的查询响应偏差由 ε 决定。这就提供了一个保证,即关于数据集中参与者的个人信息不会被泄露。差分隐私技术避免了关系资格数据,同时也使其他信息披露风险难以发生。

差分隐私技术的关键特征在于,它将隐私定义为使用参数 ε 的可量化度量,而不是二元逻辑,例如个人数据是否泄露。本质上,ε 决定了计算中增加了多少噪声,因此它可以被视为一个平衡私密性和实用性的调谐旋钮。可以对每个不同的私有分析进行调优,以提供更多或更少的隐私。

4.2.2 差分隐私技术的实现

差分私有算法是在关键点增加噪声的随机算法。在具体实现上,拉普拉斯机制可以使聚合查询(例如,count、 sum、 means 等)具有不同的私有性。这种方法使用以0为中心、以1/ε 为比例的拉普拉斯概率分布来对随机噪声进行采样,通过添加获得的噪声扰动实际值会导致屏蔽响应。

还是以医院的场景为例,假设医院保存了通过医疗应用程序收集的癌症患者的数据。现在,如果某个医生想知道小明是否是癌症患者,通过精心设计多个查询才可以。例如,如果使用 COUNT 查询,结果是30,如果第二个不包括小明的统计查询是29,那么可以得出小明是癌症患者的结论。如果第二个 COUNT 查询结果是30,将得出相反的结论。

有许多相关算法的机制可以代替拉普拉斯机制,例如,指数机制、私有倍增权重算法或倍增权重指数算法等等。有了这样的机制,基于差分隐私技术的软件系统是可能实现的,但仍存在实际的挑战。例如,如果相同的查询总是接收相同的噪声响应,那么它需要查找历史响应的日志。由于答案保持不变,因此不会发生信息泄漏,但日志查找在空间和时间方面可能代价高昂。

4.2.3 差分隐私技术的局限

众所周知,建立两个查询的等价性在计算上是困难的。因此,尽管与传统的隐私保护方法相比,差分隐私技术有一些优势,但也存在一定的局限性。首先,在保护隐私的同时,确定理想的隐私损失参数 ε 具有较高的效用仍然是一个挑战。其次,差分隐私技术中的隐私保障仅适用于有限数量的查询,这是数据集中表示的不同数据数量的函数。因此,设计能够处理任意数量查询的隐私保护机制同样是一个挑战。另外,差分隐私技术容易受到侧信道攻击,在这种攻击中,对手可以通过监视侧信道来了解有关数据的事实。一个典型的例子是定时通道攻击,如果一个人患有癌症,查询计算将花费51μs,否则将花费49μs,那么,仅仅通过观察花费的时间就可以知道一个人是否患有癌症。最后,敏感数据被公开仍然是可能的,例如,坏人可以在隐私数据集上构建分类器,以预测敏感信息。

以上讨论的前提是数据管理员是可信的, 如果数据管理员是不可信的,这就要求采用本地差分隐私技术。也就是说,噪声是局部注入的,在每个数据主体的个体层次上实现噪声注入,这样,隐私控制就留给了数据主体。

此外,通过 GDPR等隐私法规,大型组织使用本地差分隐私技术来避免因滥用存储敏感用户数据而产生的责任。因此,基于信任假设,本地差分隐私技术更具吸引力。然而,使用本地差分隐私技术发布的统计信息效用要比使用标准差分隐私技术发布的效用差,因为扰动发生在每个个体的末端,导致了更大的噪声附加。

4.2.4 差分隐私技术的应用

差分隐私技术在许多应用领域有着更广泛的作用,包括物理网络系统,如智能电网系统、医疗保健系统、物联网、自主汽车系统等。在智能电网系统中,电力供应商使用智能电表记录和维护家庭能源消耗信息。这些信息可以揭示一个家庭的生活方式和其他细节,滥用可能侵犯消费者的隐私。因此,有必要将隐私保护技术融入到这样的系统中。同样,对于医疗保健和医疗系统,物联网设备收集的数据,如血压、血糖水平,有时甚至是位置节,也需要以隐私保护的方式获取。

在各种应用服务中,微软使用本地差分隐私技术在 Windows 的应用程序中保护用户隐私。苹果同样使用该技术在给定的时间段内保护用户活动的隐私,同时仍能获得有助于提高 QuickType 等功能的智能性和可用性的数据。谷歌的Chrome 中,以一种隐私敏感的方式获取关于软件如何劫持用户设置的数据。另外,IBM 和 Google 都提供了用于以差分隐私技术感知的方式执行机器学习任务的库。

有了差分隐私技术,隐私数据是否得到了足够的保护呢?这取决于 ε。当 ε ≤1时,差分隐私技术输出的数据效用可能较差。解决这个问题的一种方法是使用一个非常大的 ε 值来减轻效用问题。据报道,苹果在 MacOS 中使用 ε = 6,甚至在 iOS 10 beta 版本中使用了 ε = 43,而在谷歌在chrome中的 ε 为9。这表明差分隐私技术在实践中的适用性仍然是一个挑战,因为 ε=9这样大的值使隐私保障大大降低了。

对数据隐私的需求已经从数据发布的标准用例展开到隐私驱动的分析。在这里,DP获得了重大关注,因为它提供了数学保证。然而,在将DP的理论映射到实践中还存在一些挑战。

4.2.5 实践中的挑战

理想的差分隐私技术应该能够减轻公开敏感数据的威胁和风险,同时保持数据高实用性。对隐私的要求总是取决于具体的场景,当数据控制器是可信实体时,可以使用标准差分隐私技术; 如果数据控制器是不可信的,则使用本地差分隐私技术。在这两种情况下,不同的机制都能防止恶意数据分析人员泄露敏感信息。因此,根据用例及其对隐私和应用程序的要求,可以选择合适的差分隐私技术设置。

没有一种通用机制对所有用例都是有效的。拉普拉斯机制只能用于数字查询,而指数机制可以同时处理查询中的数字和分类数据。因此,机制的适用性会根据用例和数据类型而变化。也就是说,许多差分隐私算法只适用于特定的用例。

ε 的值可以用来确定隐私级别。ε 值越小,隐私性越好,但结果的准确性可能受到影响。从隐私角度来看,ε 大于6可能并不好。虽然这确实是一个很好的目标,但是考虑到用例的细微差别,这通常是不可能实现的。此外,ε 的选择可能因应用程序而异,这取决于在该场景中对隐私的需求。一般来说,像“ ε 的值是多少才合适”就像“多少隐私才够”这样的问题一样,没有答案。

隐私数据损失是累积增加的,对于每个新的查询,随着敏感数据的附加信息被释放,隐私保护会减少。这意味着经过一定数量的查询之后,应用程序可能提供不了隐私保护了。理想情况下,对于强大的隐私保障,隐私损失应该很小。因此,为了减轻日益增长的隐私损失,可以强制执行由隐私预算表示的最大隐私损失。每个查询都可以被视为隐私

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/202267
推荐阅读
相关标签