赞
踩
目录
联邦学习是利用分散在各参与方的数据集,通过隐私保护技术融合多方数据信息,协同构建全局模型的一种分布式训练方式。
在Federated Learning中概述的、关于联邦学习描述的一些共同特征,可以概括为:
下面给出联邦学习的定义。设当前有N位数据拥有者共同参与训练,记为,他们各自拥有的数据集分为。传统的训练方法是将所有参与方的数据收集起来,存储在中心服务器中,并在该服务器上使用集中后的数据集训练一个机器学习模型。这种训练范式也被称为集中式训练(又称为中心化训练)。联邦学习是不需要收集各数据方所拥有的数据便能协作地训练一个模型的机器学习过程。
设和分别为集中型模型和联邦学习模型的性能度量(与具体业务类型有关)。下面定义狭义状态下的联邦学习性能损失概念。
定义1 狭义联邦学习性能损失 设为任意一个非负实数,我们认为,在满足以下条件时,联邦学习模型具有性能损失:
但联邦学习的模型性能不一定比集中式模型性能差。例如,如果数据分布极度不平衡,当前有多个参与方进行联邦训练,其中部分客户端的数据质量都非常差(比如这些客户端的数据采集设备出现硬件故障导致数据质量不佳),这种由于客户端硬件设备故障导致的数据问题,在现实场景中是比较常见的问题。那么,如果采用集中式训练的方法,我们就会需要将这些参与方的数据都上传到中心数据库进行训练,而由于存在低质量的训练数据,将全部数据融合后进行集中训练的效果可能会非常糟糕。因此,对定义1进行扩展,可得到如下的广义联邦学习性能损失的定义。
定义2 广义联邦学习性能损失 设为任意一个非负实数,我们认为,在满足以下条件时,联邦学习模型具有性能损失:
定义2和定义1的区别在于是否需要绝对值,其导致的差异见下图。
在实际的落地应用中,性能的损失容忍度的值以及性能度量指标需要根据业务类型设置不同的值。
联邦学习的设计模式带来了许多益处:
按照数据样本空间以及特征空间的关系,联邦学习可以分为三类:横向联邦学习,纵向联邦学习和联邦迁移学习。
如下图所示,横向联邦学习是用与联邦学习参与方的数据有重叠的数据特征的情况,即数据特征在参与方之间是对齐的,但是参与方拥有的数据样本是不同的。
纵向联邦学习适用于参与方之间的数据样本是对齐的,但是它们在数据特征上有所不同。
联邦迁移学习适用于参与方的数据样本和数据特征都很少重叠的情况。联邦迁移学习特别适合处理异构数据的联邦问题。例如,一家公司有丰富的图片信息。另一家公司有文字等自然语言信息,图片和问题属于不同的特性维度空间。利用联邦学习,可以在数据不出本地的前提下,提升模型的性能效果。
此外,根据协调方式的不同,我们可以将它分为集中式拓扑架构和对等网络拓扑架构。
本读书笔记系列针对2021年5月出版的《联邦学习实战》(见下图),后续部分将逐步更新
Enable Ginger Cannot connect to Ginger Check your internet connectionCopyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。