赞
踩
作为支撑人工智能发展的三大要素之一,数据也被誉为“新一代的石油”,价值不容小觑。
全球数据体量逐年增长,呈“井喷式”发展。根据国际数据公司(IDC)发布的《数据时代2025》显示,2025年全球每年产生的数据将从2018年的33 ZB(1 ZB=10万亿亿字节)增长到175 ZB。因此挖掘数据价值,获取更深层次的数据洞察成为数字经济发展浪潮中的热门话题。
人工智能的研究和落地应用离不开高质量、大规模数据的支撑。传统上,要利用多个数据源共同训练模型,就需要将数据整合到一起。但是受到法律制约、政策监管、商业机密等限制,数据仿佛被困在孤岛上,无法实现价值共享,这就是“数据孤岛”现象。此外,多源数据的交互、传输和聚合,也会带来更为复杂的数据安全问题,如何在多方数据的交互下保障数据安全,防止隐私泄露,成为进一步提升AI效能的关键问题。
联邦学习正是一种有效的应对方案,它能够实现“数据不动模型动”,通过用户数据不出本地的方式,完成云端模型训练,实现“数据可用不可见”,是隐私保护计算的主流技术之一。
由Science与英特尔联袂推出的“架构师成长计划”第二季系列课程,为您带来第三期——《联邦学习的研究与应用实践》。本期课程邀请了中国人工智能开源软件发展联盟副理事长王健宗、英特尔软件和高级技术系统部首席技术架构办公室产品安全部门高级总监郭伟、中国信息通信研究院云大所大数据与区块链部副主任闫树共同研讨联邦学习方法,为相关领域的架构师们答疑解惑。
业界尝试发展多种方案应对数据共享中的安全问题,包括多方安全计算、可信执行环境等隐私计算技术,还有传统一些的手段例如数据脱敏、匿名化、添加噪声/扰动等等。那么,为什么要引入联邦学习?联邦学习的优势在哪里?
第一部分:什么是联邦学习?其应用场景有哪些?
来自中国人工智能开源软件发展联盟的讲师王健宗介绍称,联邦学习是基于密码学、机器学习技术发展而来的分布式密态机器学习技术范式,它能够通过“数据不明文、数据不集中”的方式实现数据价值的挖掘。
同时联邦学习通常具备以下特点:一是数据流通合作,监管的数据是可控的;二是数据的交易价值可传递;三是数据价值共享,多方权益有效保障。以上特点使得企业在数据融合的过程中降低了隐私泄漏的担忧。
从数据的明文通讯到密文通讯、再到联邦通讯,联邦学习正处在蓬勃发展阶段,并已经在广泛的行业应用领域中实现落地。
联邦学习常见应用场景
第二部分:联邦学习的整体架构应该如何构建和部署?
联邦学习的整体架构大致上分为三层——底层的数据层、中间的技术层、上层的应用层。
联邦学习整体架构介绍
其中,应用层的场景包括智能金融、智能医疗、智慧城市、智能营销、监管科技等等。
在中间的技术层,又可以分为算子、模块、以及整体的技术解决方案。
在数据层,通过跨不同的数据维度、数据格式、数据类型和数据平台,能够实现整个数据的价值体现。
联邦学习的部署目前有两种主流方式:
SaaS部署方式,各参与方间可直接或间接参与到整个联邦学习平台;
本地化部署方式,各参与方无需原始数据交换,双方的通讯仅仅是传输密文和中介参数。
第三部分:联邦学习的具体实现路径有哪些?
目前,联邦学习的实现路径既有基于软件的方式,也有基于硬件的方式;与前者相比,后者在解决数据安全问题上是更优的选择。
基于硬件的联邦学习方案旨在硬件设备中构建出一个隔离的安全计算区域,也就是可信执行环境(Trusted Execution Environment,简称TEE),数据的安全保护是独立于软件操作系统或硬件配置之外,即使硬件驱动程序、虚拟机乃至操作系统均受到攻击和破坏,也能更有效地防止数据泄露。
据王健宗介绍,基于英特尔® 的SGX联邦学习方案是实现可信执行环境搭建的相对成熟的方案,这里应用了来自英特尔一项名为“飞地(Enclave)”的可信技术,能够很好地实现安全保护。
可信执行环境——“飞地”示意图
本期另一位嘉宾,来自英特尔的讲师郭伟,对英特尔® 软件防护扩展(Software Guard Extensions,SGX)做了更为详细地讲解。
郭伟谈到,在这个人人都在谈AI和大数据计算的年代,每一方都在把数据移植在云上,或者把他们的解决方案移到云上,一个非常具有挑战性的问题是:如何保证自身的数据上云后不会被别人拿走?是否有这样的技术或者解决方案来保证数据安全?
为此,英特尔在第三代至强® 平台上提供了英特尔® SGX这样一个解决方案。
英特尔® SGX是基于硬件架构的可信设计,对敏感数据的计算提供了更高安全等级的架构,它不仅仅是能够去兼顾上层(应用层、操作系统层);它更兼顾于提供一个可信运行环境,尽可能地去保护整个系统在运行中,包括存储的数据、传输的数据、运行的数据,不易被恶意攻击者所探测,减少此类威胁。
英特尔® SGX通过将敏感数据隔离在容量高达1 TB的飞地中,帮助保护敏感数据
英特尔® SGX主要致力于解决三个重点的挑战:
一是在可信的执行环境里面进行隔离,既要能够保证数据的隐私,又不太占用系统开销;
二是在可信的执行环境有效域内进行验证和封装,在实时运行环境下对数据和算法进行保护;
三是对硬件问题的恢复,可信运行环境的恢复能力,对于已探知到的对CPU或更底层攻击的威胁形成有效防护。
凭借应对以上挑战的优异表现,英特尔® SGX技术已实现广泛的商业生态部署,应用于金融服务、云服务、互联网等多个领域。
交流碰撞火花,沟通启迪灵感。本期嘉宾会话环节中,主持人闫树和两位嘉宾王健宗、郭伟的讨论围绕“联邦学习研究与应用实践”展开。
关于目前有哪些手段去平衡联邦学习中数据安全与计算效率之间的矛盾,三位嘉宾各自分享了一些观点与实践经历。
圆桌讨论画面
王健宗:我认为可信执行环境(TEE)是业内针对这个问题一个很好的解决方案,具体是通过软硬件结合的形式,在内存中构建一个隔离的安全计算区域,保证在其中运行的程序与数据的机密性与完整性。数据在安全区内解密后进行明文的计算,最大程度地实现了安全与计算效率的平衡。
郭伟:在兼顾计算机系统的整机投入和回报,能够保证大部分的系统支持并且没有显著性能下降的同时,我们应该要满足联邦学习占用了尽可能少的系统开销,这是一个最优的或者说平衡的选择。另外,我们还可以通过一些硬件的加速,去加速算法在整个处理数据过程中的性能,这些都有利于提高我们在算力和联邦学习的安全隐私保护中间找一个平衡点。
闫树:以多方安全计算、联邦学习和可行执行环境为代表的隐私计算,其实目前还处在一个发展的“拓荒期”。我们知道它未来的应用肯定也会越来越多,而这种数据保护和安全的技术也会不断地去迭代。
关于联邦学习的起源、安全性的来源、作为应对数据安全的主流方案具有哪些优势?
欲了解更多精彩内容和技术细节,请观看“架构师成长计划”第二季第三期的完整课程。
王健宗:随着数据监管力度的加强,以及人们对于数据隐私保护意识的提高,联邦学习作为数据保护的底层技术,其行业的价值和市场的规模都存在巨大的增长的空间。
郭伟:祝愿架构师们通过课程学习,拓展自身对ICT行业硬件、固件包括软件系统,以及对实际应用场景的匹配等各前沿领域技术知识维度的拓展,最终能够通过实践成为架构师的佼佼者。
闫树:借助可信执行环境的可信性和隔离机制,来实现机器学习模型参数的安全汇聚,从而增强联邦学习的安全性,是未来颇具前景的技术方向,也是推动我国数据要素市场化建设的一个很重要的路径。
英特尔、英特尔标识、以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。
© 英特尔公司版权所有。
* 文中涉及的其它名称及商标属于各自所有者资产
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。