赞
踩
本文主要总结记录了联邦学习的基本概念、三种基本框架及其应用场景,下篇将从威胁模型和攻防现状入手介绍联邦学习的安全隐私现状…
需求:
人工智能是由大数据所驱动的,如2016年,AlphaGo总共使用了300,000个棋局作为训练数据,以取得出色的成绩
现实:
除少数行业外,大多数领域的数据有限,以孤岛形式存在,并且数据质量较差
挑战:
①由于行业竞争,隐私安全和复杂的管理程序,即使同一公司的不同部门之间的数据集成也面临着巨大的阻力
②在许多情况下,我们被禁止在不同地方收集,融合和使用数据进行AI处理
联邦学习:研究符合数据隐私和安全法的数据集成方法(分布式学习+安全隐私)
依据客户端的数据分布,联邦学习可分为三大类
原理图:
本质:样本联合
原理步骤:
适用场景:
业态相同或相似。特征重叠多,用户重叠少
实例分析:
在推进智慧医疗的过程中,病症、病理报告、检测结果等病人隐私数据常常分散在多家医院、诊所等不同地区不同类型的医疗机构,联邦学习使机构间可以跨地域协作而数据不出本地,多方合作建立的预测模型能够更准确地预测癌症、基因疾病等疑难病,同时能解决该领域样本少,数据质量低的问题
原理图:
加密训练过程:
本质:
通过数据库撞库,寻找共同样本,进行特征联合训练
原理步骤:
首先面临的问题,企业A和企业B中共同的用户很多,但两个企业对这些用户的特征的特征知之甚少,通过对这些公共用户进行特征的联合,可以进行训练模型,达到好的效果,如何找到公共用户呢?需要用到加密样本ID对齐机制,简单介绍下不经意传输算法(基于RSA公钥算法)在解决加密交互问题上的应用(我有五条消息,对你:其中两条是你想要的,但你不想让我知道你想要哪一条,对我:除了这两条消息我想让你知道,其它三条都不想让你知道,不经意传输就是解决这样的问题,大家自己查询资料理解哈)
①对齐样本进行模型加密训练,引入可信的第三方,称之为协作者C,C创建密钥对,并向A和B发送公钥,用于加密各自的计算出的梯度信息,其中只有第三方C拥有私钥可以解密信息
②A和B将对齐样本进行加密,并交互,用来分别求得各自梯度和损失
③A和B分别计算加密梯度,并附加掩码,A和B的对齐样本至少有一方有标签(设B有),B还要计算加密损失,AB都把结果汇总给C
④C对梯度和损失信息进行解密,并发给AB,AB解除梯度信息上的掩码,并根据整体模型的梯度更新模型
适用场景:
适用场景:特征重叠少,用户重叠多
实例分析:
在全过程,双方都不知道另一方的数据和特征,且训练结束后各参与方只能得到与自己相关的模型参数,但预测时需要双方协作完成
原理图:
本质:
利用相似性与不变量来建模
定义:
迁移学习是指一种学习对另一种学习的影响或习得的经验对完成其他活动的影响
联邦迁移学习的目的:
在保护隐私的前提下,利用迁移学习克服数据或标签不足的问题
适用场景:
特征和用户重叠少,业态重叠少
实例:
举一反三、触类旁通等
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。