赞
踩
随着计算机算力的提升,机器学习作为海量数据的分析处理技术,已经广泛服务于人类社会。
然而,机器学习技术的发展过程中面临两大挑战:
为了解决以上问题,谷歌提出联邦学习(FL,federated learning)技术,其通过将机器学习的数据存储和模型训练阶段转移至本地用户,仅与中心服务器交互模型更新的方式有效保障了用户的隐私安全。
作为网络安全领域新的研究热点,联邦学习吸引了大量关注与研究。为了更加深入地展开研究,本文主要对现有研究成果做初步的梳理和总结,对典型方案进行详细分析与比较,指出它们的优势与不足,并结合边缘计算、区块链、5G 等新兴技术对联邦学习的应用前景和研究热点进行展望。
传统的机器学习算法需要用户将源数据上传到高算力的云服务器上集中训练,这种方式导致了数据流向的不可控和敏感数据泄露问题。Mcmahan 等在 2016 年提出联邦学习技术,允许 用户在机器学习过程中既可以保护用户隐私,又能够无须源数据聚合形成训练数据共享。联邦学习本质上是一种分布式的机器学习技术,其流程如图1所示。
客户端(如平板电脑、手机、物联网设备)在中心服务器(如服务提供商)的协调下共同训练模型,其中客户端负责训练本地数据得到本地模型(local model)。中心服务器负责加权聚合本地模型,得到全局模型(global model),经过多轮迭代后最终得到一个趋近于集中式机器学习结果的模型
w
w
w,有效地降低了传统机器学习源数据聚合带来的许多隐私风险。
联邦学习的一次迭代过程如下:
综上,联邦学习技术具有以下几个特点。
典型的联邦学习场景是在本地客户端设备负责存储和处理数据的约束下,只上传模型更新的梯度信息,在数千万到数百万个客户端设备上训练单个全局模型
w
w
w。中心服务器的目标函数
F
(
w
)
F(w)
F(w) 通常表现为
其中:
其中:
联邦学习的目标函数优化算法中,通常采用大批量随机梯度下降(SGD)算法,即通过本地客户端模型训练的损失函数,乘以固定的学习率η,计算出新一轮的权重更新。因此,本地客户端的模型权重更新如下:
第
t
t
t 轮通信中心服务器的模型聚合更新如下:
联邦学习的应用场景不同,客户端之间持有的数据集特征各不相同。
假设:
因此,一个完整的训练数据集 D D D 应由 ( I , Y , X ) (I,Y,X) (I,Y,X) 构成。根据参与训练客户端的数据集特征信息 X X X 的不同,联邦学习被分为横向联邦学习、纵向联邦学习和联邦迁移学习。
横向联邦学习的特点是数据集特征 X X X 和标签信息 Y Y Y 相同,但样本 I D ID ID 不同,其公式表达如下。
横向联邦学习如图 2 所示,
u
1
−
u
6
u_1-u_6
u1−u6 表示数据集实例。
在用户输入法数据上训练的下一词预测模型是典型的横向联邦学习应用。
不同的手机用户具有相同的数据特征,数百万个安卓手机在云服务器的协调下训练共享的全局模型,其本质是将多方对不同目标的相同特征描述进行训练提取。
然而,在模型训练过程中,客户端数量较多,往往容易发生客户端恶意连接企图窃取信息,Li等[7]对此提出基于检测的方法拒绝恶意客户端的接入。同时,该方式需要考虑服务器对客户端模型信息的可见性,针对不可信服务器,Bonawitz 等[8-9]引入安全多方计算来保护客户端更新的隐私性。
纵向联邦学习的特点是各数据集特征
X
X
X 和标签信息
Y
Y
Y 不同,但样本
I
D
ID
ID 信息相同,其公式表达如下。
纵向联邦学习中一方掌握训练的标签信息
Y
Y
Y,各方通过输入特征信息
X
X
X,得到纵向全局模型。
其典型应用场景如同一地区的银行和电商平台:银行拥有当地用户的收支记录 x 1 x_1 x1,电商平台拥有 用户的消费记录和浏览记录 x 2 x_2 x2,双方想通过数据联合对客户信用 Y Y Y 进行评级,从而提供更个性化的服务,其本质是将多方对相同目标的不同特征描述进行训练提取。
为防止纵向联邦学习中恶意用户推测出他方私有用户数据,Cheng 等[10]通过 RSA和哈希函数确保参与训练的各方只能获得基于各方共有用户特征训练得到的模型。
联邦迁移学习的特点是数据集特征
X
X
X、标签信息
Y
Y
Y 和样本
I
D
ID
ID 信息都不同,其公式表达如下:
联邦迁移学习被用于解决标签样本少和数据集不足的问题[5],如中国的电商平台与其他国家银行之间的数据迁移,由于跨部门跨国的数据交流很难实现,通过联邦迁移学习可以很好地解决这类痛点问题。
自联邦学习的概念提出后,其迅速得到了学术界广泛的关注与研究,但是目前这一研究方向仍有许多威胁与挑战亟待解决,其中,最核心的问题包括通信效率短板明显、隐私安全仍有缺陷、缺乏信任与激励机制,这些问题极大地限制了联邦学习的进一步发展与应用。
在联邦学习网络中,服务器与远程客户端之间往往需要进行不断的通信来交互模型更新信息,动辄万计的客户端很容易对通信网络造成巨大的带宽负担。
通常,全局模型训练时间分为数据处理时间和通信传输时间两部分,而随着计算机设备算力的提升,数据处理时间不断降低,联邦学习的通信传输效率变成限制其训练速度的主要因素[11]。
联邦学习与分布式计算的区别是联邦学习的数据集来自各个终端用户,这些用户产生的数据特征往往呈非独立同分布(Non-IID)。
另外,在互联网环境中,大量本地模型的更新、上传会导致中心服务器通信开销过大,无法满足正常的应用要求,同时相邻的模型更新中可能包含许多重复更新或者与全局模型不相关的更新[12] 。
综上,联邦学习的通信效率优化具有重要的研究意义。通常改进方案有两个目标:
目前,改进通信效率方案主要是通过优化联邦学习框架算法、压缩模型更新和采用分层分级的训练架构。这些方案一定限度上提升了联邦学习模型训练速度、减小了数据通信量,对联邦学习技术的完善具有重大意义,但现阶段仍然存在许多难以解决的问题。例如:
联邦学习通过源数据不出本地而仅交互模型更新(如梯度信息)的方式来保护用户的敏感数据,开创了数据安全的新范式。
理想情况下,联邦学习中客户端通过训练源数据上传本地模型,服务器仅负责聚合和分发每轮迭代形成的全局模型。
然而,在真实的网络环境中,模型反演攻击、成员推理攻击、模型推理攻击层出不穷,参与训练的客户端动机难以判断,中心服务器的可信程度难以保证,仅通过模型更新来保护用户隐私的方式显然是不够的。
研究表明,梯度信息会泄露用户的隐私数据[14-20],攻击者可以通过客户端上传的梯度信息间接推出标签信息和数据集的成员信息。
如图5所示,联邦学习主要存在3种威胁:
针对以上威胁,增强联邦学习隐私安全性的主流方案与经典机器学习隐私保护技术结合,包括:
等技术[20]。
大量的研究表明,联邦学习与这些隐私保护技术的结合能够提供足够强的安全性,但仍然存在一些问题需要解决。例如:
联邦学习为现代社会建立了一个数据安全共享的架构,在未来万物互联的场景中,不同的机构、部门之间的数据联合会形成一个巨大的联邦学习联盟,旨在构建基于大数据和多特征融合的智能分析决策模型。
但是,数据联盟需要吸引大量客户端参与到训练过程中,没有高效的激励机制很难吸引足够的训练数据,无法保证最终的智能模型质量;另外,联邦学习并没有针对客户端的信任机制,对于客户端的信誉没有统一的分数评价,这严重影响了对优质客户端的选择,从而导致全局模型精度降低。
针对以上问题,学术界通过结合区块链技术做出了大量研究。区块链是比特币的底层技术,它作为一种安全可靠、不可篡改和支持查询验证的分布式分类账,被应用于解决各类数据安全存储和信任问题[26-27]。联邦学习通过集成区块链能够以一种安全、高度抗中断和可审计的方式记录其模型更新,为系统框架提供可问责性和不可否认性。同时,区块链的激励机制作为一种经济回报能够根据构建模型时客户端的贡献给予相应的奖励。
针对联邦学习中存在的威胁与挑战,目前已经存在许多解决方案,本节对大量文献进行总结,分别就联邦学习的通信效率、隐私安全、信任与激励机制3方面展开研究。
目前的研究中针对通信效率的改进主要有以下3种方法。
在大多数情况下,这几种方法是相辅相成的,通过特定的方法把这几种方案结合是研究的热点方向[28-29]。表1给出现有通信效率算法的性能比较。
算法优化是对分布式机器学习框架的改进,使该框架更适用于海量客户端、高频率、低容量、数据特征不均的联邦学习环境,实现通信轮数和模型更新数据的减少。
在分布式计算框架中,客户端每运行一次SGD算法训练,机器学习模型就会向中心服务器上传本轮产生的本地模型更新。但是,频繁的通信交互会对参与训练各方造成不必要的通信负担。
McMahan 等[2]针对联邦学习的低带宽环境提 出FedAvg算法,要求客户端在本地多次执行SGD 算法,然后与中心服务器交互模型更新,实现用更少的通信轮数训练出相同精度的模型。相比于基准算法 FedSGD[30],其在训练不同神经网络的通信轮数上减少了 1%~10%,但该算法对于非凸问题没有收敛保证,在非 IID 数据集上难以收敛[31]。
自 FedAvg 算法被提出,后续大量研究在此基础上做进一步的拓展,但 FedAvg 算法本身有 一定的缺陷[32]。
对此,Li 等[33]提出 FedProx 算法,根据客户端设备 可用的系统资源执行可变次数的SGD算法,缩短收敛时间的同时将模型更新数据压缩了1/2~1/3,更加适用于客户端数据质量、计算资源等联邦学习场景。同样是针对联邦学习框架的改进,
Liu 等[34]认为传统的 FL 仅利用一阶梯度下 降(GD),忽略了对梯度更新的先前迭代,提出了MFL方案,在联邦学习的本地模型更新阶段使用动量梯度下降(MGD),实验证明,在一定条件下该方案显著提升了模型训练的收敛速度。Huang 等[35]提出迭代自适应的 LoAdaBoost 算法,通过分析客户端更新的交叉熵损失,调整本地客户端 epoch 次数,相对于传统 FedAvg 算法固定 epoch,准确度与收敛速度均有显著提升。 除了对最初的FedAvg算法的各种改进以外, 在客户端或者服务器上增加筛选算法也是研究方向之一。Wang 等[12] 认为客户端上传的本地模型 更新中含有大量的冗余和不相关信息,严重占用通信带宽,因此提出CMFL算法,该算法要求客户端筛选本地模型更新与上一轮全局模型的相关度,通过模型梯度正负符号相同的百分比来避免上传达不到阈值要求的本地模型更新,实现通信开销的降低,但该算法建立在客户端按照协议执行的基础上,系统的鲁棒性较弱。Jiang 等[36]提出了 BACombo 算法,利用 gossip 协议和 epsilon-greedy 算法检查客户端之间随时间变化的平均 带宽,最大限度地利用带宽容量,进而加快收敛速度。
压缩方案通常分为两种:
通常情况下,梯度压缩相比于全局模型压缩对通信效率的影响更大,因为互联网环境中上行链路速度比下载链路速度慢得多,交互通信的时间主要集中在梯度数据上传阶段。
横向联邦学习中往往有大量的本地客户端,很难保证每个客户端都拥有稳定可靠的网络连接,低质量的通信会严重降低通信速度。Konečný 等[11] 提出针对本地模型的结构化更新和草图更新算法,客户端被要求在一个低秩或随机掩码后的有限空间中进行模型学习,然后草图更新算法对模型更新进行量化、随机旋转和子采样等压缩操作,该方案被证明在SGD迭代方面显著减慢了收敛速度。
在上述基础上,Caldas 等[13] 将该方法 应用于对全局模型更新的压缩中,同时提出Federated Dropout 思想优化模型更新,中心服务器随机选择全局模型的更小子集并采用量化、随机旋转和子采样等压缩操作,客户端接收到全局模型后解压缩并进行本地模型训练,从而减少了联邦学习对客户端设备资源的影响,允许培训更高容量的模型,并接触到更多样化的用户。
Reisizadeh 等[37]选择将算法优化与压缩的思路结 合起来,其提出的 FedPAQ 算法要求服务器只选 择一小部分客户端参与训练,同时客户端减少上传本地模型次数并在上传之前进行量化更新操作减小通信量。
但是,上述算法采取的都是固定阈值的压缩通信,这种方式在客户端之间模型更新差异较大时显得并不合理。对此,Lu等[38]提出自适应阈值 梯度压缩算法,客户端通过判断梯度变化,计算得到适当的阈值用于压缩通信,同时保证模型的性能损失较小。
另外,现有的大部分压缩方法只在呈 IID 分布的客户端数据下表现良好,这些方法并不适合联邦学习场景。对此,Sattler 等[31]提出一种新的 稀疏三元压缩(STC)框架,STC 扩展了现有的top-k 梯度稀疏化压缩技术,通过 Golomb 无损编 码压缩联邦框架交互的模型更新,使算法更适用于高频率低容量的联邦学习环境,同时保证了在大量客户端参与下的鲁棒性。
在联邦学习中,通信拓扑通常是星形拓扑,但这往往会造成中心服务器的通信成本太大,分散拓扑(客户端只与它们的邻居通信)可以作为一种替代方案,如图 6 所示。
在低带宽或高时延网络上运行时,分散拓扑被证明比星形拓扑训练速度更快[32-40] 。
联邦学习的分散拓扑[41-44]先设定边缘服务器聚合来自客户端设备的本地更新,然后边缘服务器充当客户端的角色与中心服务器交互。
例如,Sharma等[43]构建了一个多层分布式计算防御框 架,通过数据层、边缘层、雾层和云层的协同决策,解决海量数据集中传输的问题。通过这种分层通信的方法可以有效降低中央服务器的通信负担,但它并不适用于所有的场景,因为这种物理层次可能不存在,也不可能预先知道。
为解决联邦学习中暴露的隐私泄露问题,学术界做了大量研究来增强隐私安全性。根据隐私护细粒度的不同,联邦学习的隐私安全被分为:
如图 7 所示:
表 2 为改进联邦学习隐私安全性的算法对比。
现有的方案主要通过结合典型隐私保护技术来提供进一步的隐私增强,如:
这些技术在之前的研究中已经被广泛应用于传统机器学习的隐私保护[45]。
在全局隐私中,假设存在一个受信任的服务器,外部敌手可能是恶意客户端、分析师、使用学习模型的设备或它们的任何组合。
恶意客户端可以从中心服务器接收到它们参与轮的所有模型迭代信息,分析师可以在不同的训练轮中使用不同的超参数来研究模型迭代信息。
因此,对中间迭代过程和最终模型进行严格的加密保护十分重要。
在联邦学习进程中,恶意客户端能够通过对分布式模型的分析,获得客户端在训练过程中的贡献及数据集信息。
Geyer 等[21] 提出一种针对客户端的差分隐私保护联邦优化算法,实现了对模型训练期间客户端贡献的隐藏,在有足够多客户端参与的情况下,能够以较小的模型性能成本来达到用户级差分隐私。McMahan 等[22]同样使用差 分隐私加密全局模型更新,证明了如果参与联邦学习的客户端数量足够多,对模型更新信息的加密就会以增加计算量为代价而不会降低模型精度。
Bhowmick 等[14] 利用差分隐私技术,通过限 制潜在对手的能力,提供同等隐私保护程度的同时保证了更好的模型性能。
但是,上述方案中都存在许多影响通信效率和精度的超参数,用户必须谨慎选择才能达到预期效果。Thakkar 等[51]针对这个缺点提出自适应 梯度裁剪策略,对特定层添加不同的噪声,同时对迭代差分隐私机制应用自适应分数剪裁,有效缓解了差分隐私算法中超参数过多的问题。
不同于传统的分布式机器学习技术,海量客户端与 Non-IID 数据集对联邦学习提出了新的挑 战。
目前,学术界对于联邦学习的研究十分活跃,研究者可能不仅需要掌握机器学习技术,还需要掌握分布式算法优化、密码学、压缩量化、信息论、统计等技术[80]。
本文介绍了联邦学习在通信效率、隐私安全、信任与激励机制等方向上的研究进展,但仍有一些其他研究方向值得探索。
除了对联邦学习本身技术的改进,最新的研究进展包括结合边缘计算在物联网领域的应用[58,85-87],如图 8 所示。
由于部分终端设备并没有足够的计算资源,同时为了满足智能决策的低时延响应,边缘计算在云中心和边缘设备之间添加了边缘服务器作为中介层,联邦学习作为其“操作系统”满足了智能边缘设备实时决策、多点协同、自主可控的要求。充分利用智能边缘服务器计算、存储、传输能力,改变传统集中上传数据进行决策的方式,破解了传统集中式机器学习数据难以聚合、隐私难以保护、云中心的单点故障等问题,为未来多功能集群、跨多智能设备的实时安全决策提供了可靠的技术保障。
在大数据时代,如何在保障数据安全和隐私的前提下,实现数据共享,促进多源数据的碰撞、融合,最大限度地释放数据价值,成为学术界和产业界面临的挑战之一。
而联邦学习作为应对该挑战的一项新兴技术,在诸多领域具有广阔的应用前景。
随着智能手机和移动互联网的普及应用,大量数据产生在设备的边缘端,移动边缘计算使计算发生在本地设备,而不需要将隐私数据发送到云端。而联邦学习作为边缘计算的操作系统,提供了一种各方协作与共享的协议规范,它能够让边缘设备在不向云端设备发送源数据的情况下,合作训练出一个最优的全局机器学习模型。未来,随着物联网的进一步发展,人工智能和边缘计算将朝着一体化的方向大步向前。
为了降低人工成本和减少人为操作失误的可能,机器学习技术开始越来越多地应用在医疗领域,用于提升医疗诊治的效率和准确率。但是,由于医疗机构的数据对于隐私和安全的敏感性,医疗数据中心很难收集到足够数量的、特征丰富的、可以全面描述患者症状的数据,而性能良好的机器学习模型往往需要来自多个数据源,包括医疗报告、病例特征、生理指标、基因序列等。
联邦迁移学习是解决这类问题的有效方法,无须交换各医疗机构的私有数据,协同所有的训练参与方训练一个共享模型,同时迁移学习技术可以扩展训练数据的样本空间和特征空间,有效降低各医疗机构之间样本分布的差异性。
为了维持金融行业稳定、风险控制和防止金融诈骗,银行和金融企业都希望利用人工智能技术为客户提供有效且安全的金融服务。
在实际应用中,对客户“肖像”特征的描述通常包括资质信息、购买能力、购买偏好及商品特征等,而这些信息分别分布在银行、电子商务平台和用户的私人社交网络中。
出于隐私安全的考虑,将三方数据聚合并不现实,而联邦学习为构建跨企业、跨数据平台以及跨领域的大数据和AI系统提供了良好的技术支持。
随着人工智能、物联网和5G技术的发展,智慧城市的概念已经跃然纸上。然而,在城市的不同信息部门中,如后勤、应急、维稳、安保等,会产生大量的异构数据,形成多个数据孤岛,无法整合利用。
联邦学习的异构数据处理能力能够帮助人们创造迅速响应市民需求的智慧城市,解决数据“孤岛”问题,同时基于智慧城市构建的机器学习模型为企业提供个性化服务带来了更多的机遇。
大数据环境背景下,数据的安全交换显得尤为敏感。
常规共享交换使多部门数据汇集的方法,极有可能导致权限难以控制、责任划分不清、问题难以追责,甚至造成失泄密等重大安全事故。
如何解决涉密数据的安全共享难题,联邦学习技术的跨域共享特性使各部门之间无须汇集数据即可实现敏感数据的跨域安全共享。
本文介绍了联邦学习技术概念、算法原理与分类,并对目前联邦学习中的3个痛点问题的研究进展做出归纳总结,最后展望了联邦学习在各领域的发展前景。
随着社会对于隐私安全的日益重视,政府正在逐步加强对私人数据的管控,传统的机器学习模式可能不再符合安全法规。联邦学习作为下一代人工智能大规模协作的基础理论,为目前发展人工智能面临的小数据和隐私等关键问题提供了有效的解决思路。
同时,对于联邦学习的国际标准在积极制定中,未来建立在统一标准下的联邦学习必然能够更好地应用于各行各业,发挥更大的效能,进一步推动网络安全的发展[3]。
参考资料:
[论文阅读]《联邦学习研究综述》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。