赞
踩
最近计划对联邦学习这个领域做一些研究,遂上网学习了相关资料,并拜读了杨强教授的新书《联邦学习 Federated Learning》,特此做点学习笔记与诸君共享之。
本文主要注重概念的理解与认识,分以下三部分进行介绍:
一、 联邦学习概述
二、 联邦学习发展
三、联邦学习应用前景
联邦学习概述
基于大数据的机器学习既推动了AI的蓬勃发展,也带来了一系列安全隐患。这些隐患来源于深度学习本身的学习机制,无论是在它的模型训练阶段还是在模型推理和使用阶段。当前AI安全已引起人们普遍的关注,各项的治理措施也因此积极开展。
谷歌在2016年发表于arXiv(由康奈尔大学维护的电子文献库)上的论文里提出了“联邦学习”的概念,此后,大量的相关研究被不断的发表在arXiv上。“联邦学习”正是从技术维度出发,重点研究隐私保护和数据安全问题。目前,联邦学习已经成了人工智能社区里一个非常活跃的研究领域。
联邦学习是如何定义的呢?
它旨在建立一个基于分布数据集的联邦学习模型,在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习是怎样的一个过程?
主要包含两部分:模型训练和模型推理。模型训练:模型相关的信息在各方交换,但数据不能交换,各站点上的数据将受到保护。模型推理:训练好的联邦学习模型可以置于联邦学习系统的各参与方,也可以在多方共享。
联邦学习主要分三大类:
横向联邦学习:适用于联邦学习的参与方的数据有重叠的数据特征,参与方拥有的数据样本不同。我们把数据集按照数据样本划分,并取出双方数据特征相同而数据样本不完全相同的那部分数据进行训练。
纵向联邦学习:适用于联邦学习参与方的训练数据有重叠的数据样本,即参与方之间的数据样本是对齐的,但数据特征上有所不同。我们把数据集按照数据特征划分,并取出双方样本相同而数据特征不完全相同的那部分数据进行训练。
联邦迁移学习:适用于参与方的数据样本和数据特征重叠都很少的情况。不对数据进行切分,而是利用迁移学习来克服数据或标签不足的情况。
联邦学习发展
联邦学习的研究工作主要着眼于提升安全性以及处理统计学上的难题。而且研究并不局限于理论工作,关于联邦学习算法和系统的开发部署也在蓬勃发展,几个代表性的开源平台:
FATE(federated AI technology enabler),该项目提供了一个安全的计算框架和联邦学习平台,以支持联邦人工智能生态的发展和运作。FATE平台实现了一种基于同态加密和多方计算的安全计算协议,支持一系列的联邦学习架构和安全计算算法,包括逻辑回归、决策树、梯度提升树、深度学习和迁移学习。
TFF(Tensorflow federated)是一个为联邦学习和其他计算方法在去中心化数据集上进行实验的开源框架。TFF的接口由两层构成:联邦学习应用程序接口和联邦学习核心API,使得开发者能够声明和表达联邦计算,从而能够将其部署于各类运行环境中。
Tensorflow-Encrypted是一个搭建于Tensorflow顶层的python包,可以让研究人员和实践者使用面向隐私保护的机器学习方式进行实验。它提供了类似于Tensorflow的接口,用户不必成为专家而能够轻松的使用这些技术。
还有很多开源联邦学习框架正在陆续问世,如coMind,一个训练面向隐私保护联邦深度学习模型的开源平台。Horovod,一个深度学习的开源分布式训练框架;OpenMind/PySyft提供隐私保护的联邦学习和差分隐私的方法等等。
随着隐私保护和合理使用用户数据的法律法规取得了越来越多的进展,制定联邦学习技术标准显得愈加重要,因为这能确保各组织未来在开发联邦学习系统时都使用一致的语言,并遵守标准要求。目前已有的一套联邦学习标准是由微众银行人工智能项目组发起的IEEEE P3652.1,该标准有望促进在隐私保护和数据安全方面的合作,将促进和允许使用分布式的数据源来开发人工智能,而不违反法律法规或者社会伦理。
联邦学习应用前景
作为能够在不违反隐私和安全的前提下,使用分散于多方的数据来构建共享和定制化模型的一种创新的建模机制,联邦学习在诸多领域都有广阔的前景。如电子商务、金融、医疗、教育、城市计算、智慧城市、边缘计算、物联网、区块链以及第5代(5G)移动网络等。由于各种原因,这些领域的数据不能被直接地聚合用来训练机器学习模型。以下列出几种已经落地或富有潜力的通过联邦学习技术实现的应用。
金融行业
在保护投资者免受管理不善和欺诈的影响、维持金融行业稳定、保护用户数据的隐私和安全等方面,政府的监管法规在很大程度上影响着金融业的运转。为了保护数据隐私和安全,银行、社交网站和网购网站之间的数据壁垒难以跨越,数据无法直接聚合。同时,由于三方存储的数据通常是异构的,传统的机器学习不能直接处理异构数据。
联邦学习和迁移学习是解决这些问题的关键。首先,基于联邦学习,我们可以为这三方建立本地的定制化模型,并且不会公开它们的数据。同时,我们能够利用迁移学习来解决数据的异构问题,并克服传统AI技术的局限性。
医疗领域
人工智能技术在医疗行业的应用仍处于起步阶段。现有的智能医疗系统并非真正的意义上的智能,当然,很多因素导致了现有智能医疗系统的种种不足。其中一个关键因素是,很难收集到足够数量的、具有丰富特征地、可以用来全面描述患者症状的数据。有时,为了准确地诊断出一种疾病,我们可能需要从多个数据源收集多样性地特征。但是,目前并没有一个稳定地数据源可以囊括所有这些特征,并且大部分地训练数据并没有被标注。数据和标注的不足导致了机器学习模型性能地低下,这成了目前智能医疗系统地瓶颈所在。
为了打破这个瓶颈,各医疗机构可以联合起来,按照隐私保护条例共享各自的数据。这样,我们就可以得到一个足够大的数据集来训练一个模型,该模型的性能比在单一医疗机构的数据上训练得到的模型要好得多。来自医疗机构的数据对于隐私和安全问题特别敏感,直接将这些数据收集在一起是不可行的。联邦学习允许所有参与方协作地训练一个共享模型,而不需要交换或公开它们的私有数据。其次,迁移学习技术可以帮助扩展训练数据的样本和特征空间,并且降低各医疗机构之间样本分布的差异性,进而改善共享模型的性能,医疗AI将能为更多的患者带来更多的益处。
边缘计算和物联网
随着网民用户的激增,移动互联网和移动手机的普及推动了移动边缘计算的发展。移动边缘计算允许计算发生在数据产生地,而不需要将数据发送至云服务器。各种由人脸识别、语音助手和智能背景虚化等人工智能技术支持的应用程序,都可以部署在移动手机上。当前,AI应用的解决方案通常需要将用户数据上传至云服务器,以此训练一个大型机器学习模型。然而,这可能会导致泄露隐私和安全漏洞。
联邦学习允许构建更智能的模型,同时保护本地数据的隐私和安全。它可以作为边缘计算的操作系统,提供了一种为了写协作和安全的学习协议。除了联邦学习所带来的隐私保护的好处,每一台移动设备最终都能得到一个可以立即响应用户需求的定制化模型。随着AI和物联网的发展,AI技术和边缘计算不会孤立,而是朝着一体化的方向大步向前。
联邦学习诞生于人们对数据碎片化、数据孤岛、用户隐私泄露以及机器学习面临的数据短缺问题的日益关注。随着探索更多的联邦学习应用场景,该领域变得越来越具有包容性。它涵盖了分布式机器学习、统计学、信息安全、加密算法、模型压缩、博弈论和经济学原理,以及激励机制设计的方面的研究和实践,其生态系统在将来会进一步扩展。
参考资料
突破人工智能数据瓶颈,杨强详解联邦学习
https://www.jianshu.com/p/f5d7b20af7d7
联邦学习
https://blog.csdn.net/cao812755156/article/details/89598410
联邦学习源码
https://www.tensorflow.org/federated/
https://github.com/WeBankFinTech/FATE
杨强,刘洋等.联邦学习Federated Learning[M].北京:电子工业出版社,2020
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。