隐私计算介绍_数据沙箱与隐私计算的区别

作者：秋刀鱼在做梦 | 2024-08-01 02:26:12

踩

数据沙箱与隐私计算的区别

一、背景

自党的十九届四中全会将数据列为生产要素以来，数据的开放共享、交换流通成为大数据产业发展的重点。快速发展的隐私计算等数据流通新技术为产业“破局”提供了关键思路，成为建设和完善数据要素市场的重要抓手。隐私计算（Privacy-preserving computation）是指在保证数据提供方不泄露原始数据的前提下，对数据进行分析计算的一系列信息技术，实现数据在流通与融合过程中的“可用不可见”。

隐私计算技术作为保障数据安全流通的有效方式，乘时乘势高速发展，已逐渐成为促进数据要素跨域流通和应用的核心技术，广泛应用于金融、政务、医疗、能源、制造等诸多领域。

2020年4月，《工业和信息化部关于工业大数据发展的指导意见》提出，激发工业数据市场活力，支持开展数据流动关键技术攻关，建设可信的工业数据流方安全计算、区块链、隐私计算、数据沙箱等技术模式，构建数据可信流通环境，提高数据流通效率。2022年10月国务院办公厅印发的《全国一体化政务大数据体系建设指南》提出探索利用核查、模型分析、隐私计算等多种手段，有效支撑地方数据资源深度开发利用。

对隐私计算产业来说，在政策利好的持续推动下，行业市场发展与技术不断更新，技术体系不断完善，行业标准日趋统一，应用场景逐渐丰富，隐私计算产业将持续面临着良好的发展环境。

二、隐私计算发展阶段

隐私计算技术可以追溯到1949年由香农开启的现代密码学时代，之后其内涵、特征及代表技术不断演进，融合了密码学、人工智能、计算机科学以及安全硬件等众多领域技术。直到2001年，国外正式提出“隐私增强技术”（Privacy Enhancing Technologies，PETs）的概念。国内也于2016年的《隐私计算研究范畴及发展趋势》中正式提出隐私计算一词。

根据隐私计算技术出现、发展、落地到广泛应用的不同特点，我们将隐私计算的发展历程划分为四个阶段（如图）：

在这里插入图片描述
萌芽期（1949 年—1981 年）：需求出现，概念萌芽。起始于20世纪 40 年代，现代信息学之父克劳德·香农的一篇重要论文《保密系统的通信理论》，被认为是现代密码学时代的开端。

探索期（1982 年—2016年）：主流技术路线出现。随着多方安全计算、联邦学习、可信执行环境等隐私计算技术的出现和发展，隐私计算的技术栈日趋成熟。

增长期（2017年—2025年）：多行业的需求方和厂商陆续加入，专利、论文、标准、政策、实施案例相继涌现。该时期各国政府逐渐加强对数据安全和个人隐私保护的重视，各项政策法规陆续制定，基于隐私计算技术的数据流通产品得到不断探索应用和落地实施。

稳定期（2025年～）：未来，随着政策和法律的清晰明确，技术进一步成熟，隐私计算作为“数据流通基础设施”将被大众广泛接受。随着“隐私计算+”发展，行业应用稳步推进，更多大型企业开始全面使用隐私计算技术，应用规模稳定增长。

当前，隐私计算仍处于产业快速增长期，即将迈入前景广阔的稳定期。随着国家数据要素市场的加速建设，隐私计算技术将在更多场景得到广泛应用，原始数据不出域，数据可用不可见 将成为多数行业数据流通的交易范式。除了实现“数据可用不可见”外，未来还需要进一步对数据的用途和用量进行控制和审计，真正实现数据使用的可控可计量，最大限度的保障数据要素流动过程中数据提供方的合法权益。此外，在工业界，随着国内外政策法规的不断完善，再加上对于某些数据高敏感行业强监管的需求，数据规模不断扩大，直接在中心服务器上计算或学习的压力会不断增加，从中心化向分布式或去中心化过渡的演化也将成为未来趋势。根据《Gartner 2022隐私技术成熟度曲线》研究报告表明：预计在未来5～10年内，隐私计算技术会被大规模商业化应用。预计到2025年，60％以上的大型组织将在数据分析、商业智能或云计算中使用一种或多种隐私计算技术。

三、隐私计算技术介绍

3.1 隐私计算概念

隐私计算（Privacy-preserving computation）是指在保证数据提供方不泄露原始数据的前提下，对数据进行分析计算的一系列信息技术，能够保障数据在流通与融合过程中的“可用不可见”。2022年，隐私计算迎来一系列创新与突破，一方面，各主流隐私计算技术路线持续迭代优化，在单点层面提升了能力上限；另一方面，为了适应现实场景，开始探索通过技术融合等方式来突破瓶颈。技术的不断发展，使得隐私计算的可用性进一步提升，为技术大规模落地应用提供了必要条件。随着隐私计算在数据流通中的实践应用逐渐深入，行业对于隐私计算技术的安全可证、流程可控、高效稳定、开放普适等方面均提出了更高要求，隐私计算的概念得到进一步外延，逐步形成了广义隐私计算技术体系。

3.2 隐私计算技术

3.2.1 多方安全计算

多方安全计算（Secure Multi-party Computation，MPC）是指在无可信第三方的情况下，多个参与方共同计算一个目标函数，并且保证每一方仅获取自己的计算结果，无法通过计算过程中的交互数据推测出其他任意一方的输入数据（除非函数本身可以由自己的输入和获得的输出推测出其他参与方的输入）。该技术由图灵奖获得者姚期智院士于1982年通过提出和解答百万富翁问题而创立。多方安全计算是多种密码学基础工具的综合应用，除混淆电路、秘密分享、不经意传输等密码学原理构造的经典多方安全计算协议外，其它所有用于实现多方安全计算的密码学算法都可以构成多方安全计算协议，因此在实现多方安全计算时也应用了同态加密、零知识证明等密码学算法。

多方安全计算能够在不泄漏任何隐私数据的情况下，使多个非互信主体在数据相互保密的前提下进行高效数据融合计算，并获得准确结果，达到“数据可用不可见”。最终实现数据的持有权和数据使用权相互分离，并控制数据的用途和用量，即某种程度上的“用途可控可计量”。多方安全计算具有很高的安全性，要求敏感的中间计算结果也不可以泄漏，并且在近40年的发展中其各种核心技术和构造方案不断接受学术界和工业界的检验，具有很高的可信性，其性能在各种研究中不断提升，在很多场景下已经达到了产业能实际应用接受的程度。

3.2.2 联邦学习

联邦学习（Federated Learning, FL）是指一种多个参与方在保证各自原始私有数据不出数据方定义的私有边界的前提下，以保护隐私数据的方式交换中间计算结果，从而协作完成某项机器学习任务的模式。根据参与计算的数据在数据方之间横向联邦学习、邦学习和联邦迁移学习。

联邦学习通过对各参与方间的模型信息交换过程增加安全设计，使得全局模型既能确保用户隐私和数据安全，又能充分利用多方数据，是解决数据孤岛和数据安全问题的重要框架，其强调的核心理念是“数据不动模型动，数据可用不可见”。

3.2.3 可信执行环境

可信执行环境（Trusted Execution Environment，TEE）通过软硬件方法在中央处理器中构建一个安全的区域，保证其内部加载的程序和数据在机密性和完整性上得到保护。TEE是一个隔离的执行环境，为在设备上运行的受信任应用程序提供了比普通操作系统更高级别的安全性以及比传统安全元件更丰富的功能。

可信执行环境通过进程级隔离、体系结构层隔离、虚拟化级隔离等技术，为使用者提供一个执行空间，该空间有更强的安全性，且相比常规的安全芯片功能更加丰富，并提供代码和数据的保密性和完整性保护。另外，与纯软件的密码学隐私保护方案相比，TEE不会对隐私区域内的算法逻辑语言有可计算性方面的限制，其能够支持更多的算子及复杂算法，上层业务表达性更强。利用TEE提供的计算度量功能，还可实现运行在其内部的身份、数据、算法全流程的计算一致性证明。

3.2.4 同态加密

同态加密（Homomorphic Encryption，HE）是基于数学难题的计算复杂性理论的密码学技术，能确保在密文上直接进行计算后对输出进行解密，得到的结果和直接明文计算的结果一致

3.2.5 零知识证明

零知识证明（Zero—Knowledge Proof，ZKP）是基于密码学技术，证明者能在不向验证者提供任何有用信息的情况下，使验证者相信某个论断是正确的

3.2.6 差分隐私

差分隐私（Differential Privacy，DP）是通过对数据集添加噪声，避免相邻两个数据集在发布聚合计算结果时单条数据记录的泄露。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】