赞
踩
题图摄于广州花城广场 - 海心沙
(转发FATE开源社区的文章)
数据作为当今一种特殊的生产要素,是数字经济发展中不可或缺的重要推动力。联邦学习因能解决数据流通过程中保密与隐私问题成为技术趋势,而随着不断发展,联邦学习也已经进入2.0时代——可信联邦学习。近期,机器之心采访香港科技大学计算机与工程系讲席教授和前系主任、FATE开源社区技术指导委员会主席、微众银行首席人工智能官杨强教授,对可信联邦学习最新进展及未来发展等进行深入交流,报道全文如下:
文章来源:机器之心
从可信联邦学习的奠基性论文,到模型验证的创新思考。
隐私计算的核心是“数据可用不可见”:既要保证数据在不出本地的情况下被安全使用,实现价值流动,又要不断提高算法的效率,它的出现旨在解决数据孤岛与保护隐私之间的两难问题。
近年来,人们对于隐私计算,特别是联邦学习的重视程度越来越高,而微众银行一直是这项技术的引领者。近日,微众银行首席人工智能官杨强向我们分享了最近发表的重要研究。
“在联邦学习的帮助下,如今的数据可以参与到联合建模项目中,让多方数据都可以不出本地,并在保护隐私的前提下实现全局建模,”杨强介绍道。“我们可以实现数据不动模型动——使用分布在各地的计算机网络,在金融、医疗、物联网等领域实现多种联邦学习的应用。”
在微众银行等机构的推动下,联邦学习已经发展进入了 2.0 阶段:可信联邦学习,新一代的技术可以对工程项目进行分析和认证,告诉用户联邦学习的安全程度,实现理论证明和标准化,进一步扩大了数据、模型和参与者的范围。
联邦学习的 2.0 阶段才刚刚开始,这一领域正在吸引全世界学者的响应。
最近一段时间,微众银行与上海交通大学、中山大学等机构联合撰写的《联邦学习中隐私与模型性能没有免费午餐定理》《FedCG: 联邦条件对抗生成网络》《FedIPR:联邦学习模型所属权验证》等论文已被 IJCAI 2022、TPAMI 2022、ACM TIST 国际人工智能顶级学术期刊和顶级学术会议收录发表。
“这些研究基于不同角度,从理论到实践、规模化,到工程化和全生命周期管理,对我们的研究进行了全面概括,”杨强说道。
作为机器学习的一种形式,联邦学习需要对数据进行处理,在实践中不可避免地面临着模型性能、隐私保护和效率之间的权衡。论文《联邦学习中隐私与模型性能没有免费午餐定理》中,在“可信联邦学习”理论框架下,研究者们提出了隐私保护与模型性能的「No-free-lunch 安全 - 收益恒定」定律,利用该定律可实现可信联邦学习的安全、性能、效率三者的协调,在实现更高质量的隐私保护的同时,既不牺牲数据安全保护,也不致使模型性能和学习效率的大幅下降。
在该研究的基础上,研究人员探讨了量化分析隐私计算各种技术保护方案的优劣,为进一步优化隐私保护算法设计寻找思路。微众银行 AI 团队和中山大学合作发表的论文《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》提出了「FedCG」,将条件生成对抗网络与分割学习相结合,实现对数据的有效隐私保护,同时保持有竞争力的模型性能。
FedCG 示意
FedCG 的目的是保护数据隐私,同时保持有竞争力的模型性能。FedCG 将每个客户的本地网络分解为一个私有特征提取器和一个公共分类器,并将特征提取器保持在本地以保护隐私。它与服务器共享客户端的生成器,以聚合共享知识,从而提高客户端本地分类网络的性能。实验表明,FedCG 具有高水平的隐私保护能力,并且可以实现有竞争力的模型性能。
“新方法可令每个参与方建立一个镜像模型,数据在镜像模型之间互相沟通,像防火墙一样大大降低了隐私泄露的可能性,同时效率和效果都大为提升,我们获得了非常可观的结果。”杨强介绍道。
除了对数据隐私的需求,机器学习模型的安全也正被人们重视,在未来的数字化世界中,人们对于模型所属权的验证需求必将提升。人们希望能够为模型加入「水印」。在微众银行 AI 团队和上海交通大学联合发表的论文《FedIPR: 联邦学习模型所属权验证》中,研究人员从算法、协议、安全等多个角度出发,就联邦学习模型知识产权保护问题,分享了对模型知识产权保护的思考和工作,提出了「FedIPR」联邦学习模型版权保护框架。
该技术全球首次提出了归属权验证,在国际期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》上很快得到发表。
微众银行 AI 团队提出的框架分为两个阶段,其中黑盒阶段不需要访问模型参数和内部结构,只需输入特定样本进入模型 API, 根据模型输出判定模型所属权,为模型所属权提供初步依据。白盒验证阶段中,执法机关根据上一阶段,打开模型参数和结构,验证模型参数中是否嵌入有实现给定的能证明所属权的水印。
水印和验证机制示意
FedIPR 框架创新性地解决了模型所有权验证在联邦学习中的两大挑战,包括:
1)多水印冲突问题。特别是对于基于特征的水印,对于不同的客户是否可以有一个通用的解决方案来嵌入他们的私人指定水印;
2)性能问题。水印的稳健性表明模型水印是否能在联邦学习模型各种训练策略中适用,以及是否能抵御各种去除水印的攻击。
随着技术的发展和不断应用,联邦学习正逐渐成为人工智能领域的热门方向,当前很多重点大学已经建立起联邦学习的研究组。杨强教授也对研究联邦学习谈了自己的思考:“联邦学习是多领域的交叉,我建议任何初学者应该侧重一个领域,然后了解其他的领域,最后在一个方向上聚焦,为整个领域做作出贡献。”
大模型的出现使得我们看到了通用人工智能的端倪,也为联邦学习提供了下一个前沿。“如果数据来自不同的属主和数据集,这些数据集又是异构的,其属主又有不同的利益的诉求,在这个情况下如何能够持续的建立一个好的大模型,这样的问题未来几年可能会被逐渐关注,而且是大模型的一个发展方向,”杨强介绍道。“迁移学习是另一个方向,我们可以利用它尽量减少多个参与方之间的通讯,从而减少带宽需求,降低泄露隐私的概率。”
面向实践的重要方向则有关联邦学习的可解释性。如何把一个联邦学习的模型面向不同背景的人进行解释,如何在模型市场中对模型的全生命周期进行有效管理等等,这些能力又通向如何对模型进行定价的问题,众多研究者正在进行这一方向的研究。
“从模型定价问题上,我们也可以反溯到数据定价中去。我认为这是数据定价有效的方式,”杨强表示。
论文解读参考:
要想了解联邦学习、隐私计算、云原生和区块链等技术原理,请立即长按以下二维码,关注本公众号亨利笔记 ( henglibiji ),以免错过更新。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。