当前位置:   article > 正文

虚拟专题:联邦学习 | 联邦学习隐私保护研究进展

边缘网络下联邦学习的投毒防御与差分隐私保护方法研究

来源:大数据期刊


联邦学习隐私保护研究进展

王健宗, 孔令炜, 黄章成, 陈霖捷, 刘懿, 卢春曦, 肖京

平安科技(深圳)有限公司,广东 深圳 518063

 摘要针对隐私保护的法律法规相继出台,数据孤岛现象已成为阻碍大数据和人工智能技术发展的主要瓶颈。联邦学习作为隐私计算的重要技术被广泛关注。从联邦学习的历史发展、概念、架构分类角度,阐述了联邦学习的技术优势,同时分析了联邦学习系统的各种攻击方式及其分类,讨论了不同联邦学习加密算法的差异。总结了联邦学习隐私保护和安全机制领域的研究,并提出了挑战和展望。

关键词联邦学习 ; 联邦学习系统攻击 ; 隐私保护 ; 加密算法

23efeead70981486f42ac1c448930f58.png

论文引用格式:

王健宗, 孔令炜, 黄章成, 等. 联邦学习隐私保护研究进展[J]. 大数据, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

f7d2436ac500f84e237b816791595926.png

1 引言

大数据、人工智能和云产业等的爆发式发展,一方面为传统行业带来升级变革的新机遇,另一方面也给数据和网络安全带来了新挑战。不同行业的公司会收集大量的数据信息,同一企业下不同层级的部门也会收集不同的信息,由于行业间的竞争和垄断,以及同一企业下不同系统和业务的闭塞性与阻隔性,很难实现数据信息的交流与整合。当不同的企业之间,以及同一企业下属不同部门之间需要合作进行联合建模时,将面临跨越重重数据壁垒的考验。这类挑战也被称为数据孤岛问题。

早期的分布式计算试图通过整合不同来源的数据进行分布式的建模,从而解决这类数据孤岛问题。分布式建模将具有庞大计算量的任务部署到多台机器上,提升了计算效率,减少了任务耗能。但是分布式机器学习依旧存在问题,重量级的分布式系统架构通常会产生巨大的沟通成本,影响数据的传输和处理效率。随着人工智能技术的进一步发展和更广泛的应用,数据隐私敏感性问题日益被重视。大规模的数据传输不可避免地会涉及隐私泄露问题,对于异构数据的联合训练和隐私安全问题,依然没有找到一个令人满意的解决方案。

联邦学习(federated learning,FL)给上述难题提供了解决方案。联邦学习是由谷歌公司在2016年率先提出的概念,该技术在数据不共享的情况下完成联合建模共享模型。具体来讲,各个数据持有方(个人/企业/机构)的自有数据不出本地,通过联邦系统中加密机制下的模型参数交换方式(即在不违反数据隐私法规的情况下),联合建立一个全局的共享模型,建好的模型为所有参与方共享使用。相对于分布式计算,联邦学习有更多的优势,例如在隐私保护领域,联邦学习从算法层面上设计并考虑了客户端间传输信息的加密。本文主要从隐私保护和安全加密的角度,对联邦学习进行系统综述。

本文的主要贡献如下。

● 本文对联邦学习的历史进行了详细的叙述,从安全隐私的分布式学习发展到现在的联邦学习系统,总结了联邦学习发展的历程。

● 本文从新的角度阐述了联邦学习的类型。与传统方式不同,本文从面向企业(to business,ToB)和面向客户(to customer,ToC)的应用场景的区别出发,分析了联邦学习的不同。

● 详细地从联邦学习攻击的角度分析联邦系统面临的各种可能的攻击手段,并系统地将联邦学习的攻击手段进行了分类总结。

● 联邦学习的加密机制在一定程度上可以抵御一些联邦学习攻击,或者大大增加攻击的难度。本文从加密算法的角度详细讨论了联邦学习的加密机制。

2 联邦学习概述

2.1 联邦学习的历史

随着人工智能的发展,联邦学习可以追溯到分布式学习的诞生,其学习的模式与分布式学习相似,但又有很多不同之处,主要表现在中心控制权、节点稳定性、通信代价、数据分布和数据量级上。联邦学习概念的正式确立得益于谷歌的推动,谷歌在2016年提出了联邦学习概念,联邦学习这一名词开始频繁地出现。

前述的联邦学习与分布式学习的差异最终体现在对隐私保护的要求上。分布式计算为人工智能和大数据的结合提供了算力基础,保证了大规模的数据能够被有效地使用和学习。但随着社会的发展,无论是机构还是个人对隐私保护的要求越来越严格。不同的机构甚至因为个人隐私问题不愿意共享自己的数据,大数据时代面临着前所未有的挑战。此时,大数据时代迫切地需要一种能够提供隐私保护的技术来弥补分布式学习的不足。如果隐私保护技术能够做到在使用数据联合训练的同时,任何一方都无法知晓他人的数据,就可以激励更多的机构和个人提供数据,促进相关领域发展。联邦学习就是在这一背景下孕育而生的,其特性就是能够保证各参与方在不共享数据的前提下,进行隐私保护下的联邦建模。联邦学习的隐私保护技术不仅体现在机器学习建模上,对于区块链场景下存在的安全问题,也已经有学者考虑用联邦学习的方法来解决。

2.2 联邦学习的定义和分类

对联邦学习的定义和分类有很多,目前还没有统一的标准。在学术上被广泛认可的是由Yang Q等人提出的相关定义和分类。下面简述联邦学习的相关定义及分类。

2.2.1 联邦学习的定义

对于一次联邦学习建模任务 ,设有个数据拥有方参与(以下简称参与方)此次建模任务,定义参与方拥有的数据集为ac30fe34ab3ee70fe67bc489fdb74b48.png。联邦学习的做法不再是将其简单地聚合起来形成一个新的数据集,从而完成下一阶段的训练任务。设在一次联邦建模任务完成后的全局模型为1be605352e3f85ecc96c25cefba7d893.png,对应的聚合后训练所得模型为f7ca7e743b6efa0bc6548f66252ec1aa.png。一般而言,全局模型4bdacbac608a6363c26dd7e5b9400185.png由于存在参数交换和聚合的操作,在整个训练过程中会出现精度损失,即全局模型0638990955fa6ca0b42ab0e66165c62d.png的表现不如聚合模型dc5bcfff151bf129a215ee6f3d38f362.png的表现。为量化这一差异,定义全局模型1d1e3e8bf1f800f2167d5b1325f95161.png在测试集上的表现为f72c766326acc409f38e5034e58a81ac.png,聚合模型be1b29be5d184bc94991dadb953462b2.png在测试集上的表现为6acf3f8bb58f0f166360b2b272daf2fd.png。此时定义模型的δ-精度损失为:

567e72cf7df674bc1b94a013f155adfd.png

其中,δ为非负数。但在实际情况下,最终无法获取聚合模型ff19443eb04d064ad8fa8fdcaac6f5ef.png,因为联邦学习的基本要求是隐私保护。

2.2.2 联邦学习的分类

对联邦学习的分类,广为人知的是由Yang Q等人提出的横向联邦学习、纵向联邦学习以及联邦迁移学习。这种分类方式是从用户维度和特征维度的重叠情况考虑的。但在实际的生产中,更多的是依据业务场景考虑实际的分类情况。在业务上经常提及的是B端业务和C端业务,对应的联邦学习的分类也与这种业务分类方式有关,定义联邦学习的分类为ToB和ToC两大场景。

对于ToB场景的联邦学习来说,其主要服务对象为机构、公司和政府等。在这种联邦学习的场景下,参与方之间通过新增一个信任第三方作为中心服务器,协作各参与方完成联邦学习的过程,同时可以保证中间传输内容的可审计性。通常中心服务器的作用是控制参数交换、中间计算以及训练流程。

对于ToC场景的联邦学习来说,联邦建模

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/374106
推荐阅读
相关标签
  

闽ICP备14008679号