1、 隐私计算白皮书(2021 年)隐私计算联盟中国信息通信研究院云计算与大数据研究所2021 年 7 月 编写委员会 主要编写单位主要编写单位(排名不分先后):中国信息通信研究院云计算与大数据研究所、上海富数科技有限公司、蚂蚁科技集团股份有限公司、华控清交信息科技(北京)有限公司、北京数牍科技有限公司、零知识科技(北京)有限公司、深圳市腾讯计算机系统有限公司、联易融数字科技集团有限公司 参与编写单位参与编写单位(排名不分先后):洞见智慧科技有限公司、北京冲量在线科技有限公司、天翼电子商务有限公司(电信翼支付)、天翼云科技有限公司、交通银行股份有限公司、上海阵方科技有限公司、京东科技控股股份有限公
2、司、北京瑞莱智慧科技有限公司、华为云计算技术有限公司、蓝象智联(杭州)科技有限公司、北京融数联智科技有限公司、神谱科技(上海)有限公司、翼健(上海)信息科技有限公司、杭州锘崴信息科技有限公司、杭州趣链科技有限公司、优刻得科技股份有限公司、医渡云(北京)技术有限公司、深圳致星科技有限公司(星云Clustar)、上海浦东发展银行股份有限公司、中国光大银行股份有限公司、同盾科技有限公司、零幺宇宙(上海)科技有限公司、牛津(海南)区块链研究院有限公司、西安纸贵互联网科技有限公司 本报告的法律合规部分还得到了世辉律师事务所、腾讯研究院、广东君信律师事务所法律专家的审阅。编写组主要成员编写组主要成员(排名
3、不分先后):袁 博 闫 树 吕艾临 王思源 仵姣姣 魏 凯 姜春宇 刘嘉夕 靳 震 叶锦梅 李雪妮 卞 阳 黄翠婷 孙小超 王 磊 殷 山 昌文婷 任维赫 李 艺 王国赛 黄丽成 金银玉 单进勇 蔡超超 苏冠通 徐茂桐 李 南 程 勇 刘 江 刘淑珍 许 焱 陈 曦 姚 明 李 博 王湾湾 陈浩栋 周岳骞 章 庆 徐 潜 王益斌 刘天琪 王光中 谢 谨 夏伏彪 龚自洪 宋红花 孙中伟 雷明禹 徐世真 张 煜 林佳萍 毛仁歆 王 超 薛瑞东 黄小刚 祝文伟 黄程韦 张莺耀 范家璇 王 爽 李 帜 徐 静 汪小益 马 强 何永德 包仁义 黄 尧 杨 柳 马文婷 黄小芮 黄登玺 刘 巍 李晓林 彭宇
4、翔 张 威 王江凌 于 昇 杨文韬 杨 珍 I 前言前言 2020 年 4 月,中共中央、国务院发布关于构建更加完善的要素市场化配置体制机制的意见,将数据同土地、劳动力、资本、技术等传统生产要素并列,作为一种新型生产要素参与分配。作为释放要素价值的关键环节,数据资源的开放共享、交换流通成为重要趋势,其需求日益增加。然而,近年来数据安全事件频发,数据安全威胁日益严峻。特别是中华人民共和国数据安全法的颁布和实施,对企业合规安全地发挥数据价值提出了更高的要求。既要应用数据,又要保护安全,如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下发挥数据价值,是当前面临的重要课题。以多方安全计算、联邦学习
5、、可信执行环境等为代表的隐私计算技术为流通过程中数据的“可用不可见”提供了解决方案,已在一些领域开始推广应用。可以说,隐私计算是在实现保护数据拥有者的权益安全及个人隐私的前提下,实现数据的流通及数据价值深度挖掘的一类重要方法。近两年来,在政策驱动和市场需求同时作用下,隐私计算技术、产业、应用迅速发展,成为商业和资本竞争的热门赛道。2020 年底,中国信通院在工业和信息化部相关司局的指导下,联合业界六十余家技术企业和应用单位成立隐私计算联盟,成为隐私计算领域的重要行业组织。2021 年,中国信通院云大所联合隐私计算联盟的三十余家企业共同完成了这本隐私计算白皮书(2021 年)。本白皮书试图回答以
6、下这些问题:II 隐私计算是什么:为什么会有隐私计算技术?它能发挥什么价值?面临什么样的政策环境?隐私计算技术发展情况:隐私计算的技术体系是怎样的?各类隐私计算技术的方案架构和特点有哪些?每种隐私计算技术擅长解决的问题是什么?其成熟度和缺陷有哪些?技术融合与扩充的情况如何?隐私计算应用场景:隐私计算常用的应用场景有哪些?在每个场景里,隐私计算解决了什么痛点、如何应用?隐私计算产业发展情况:国内外隐私计算主要有哪些企业?隐私计算行业的商业模式、论文情况、技术开源情况、标准建设情况如何?隐私计算合规性情况:从法律视角看,隐私计算解决了哪些数据流通的合规性问题?应用隐私计算过程中,面临哪些合规性风险
7、?如何解决这些风险?隐私计算面临的问题与挑战:隐私计算的发展面临哪些问题?这些问题该如何改善?道阻且长,行则将至;行而不辍,未来可期。面对这个日新月异、快速发展的行业,我们期待与业界共同守正创新,推动隐私计算行业健康发展,让隐私计算在数据要素市场建设和数据流通过程中发挥更大的价值!III 目录目录 第一章 隐私计算概述.1(一)数据流通需求推动隐私计算势头火热.1(二)政策环境为隐私计算发展提供新机遇.2 第二章 隐私计算技术发展态势.5(一)隐私计算技术体系基本建立.5(二)多方安全计算基于密码学原理实现通用计算能力.6(三)联邦学习变革机器学习范式广泛应用于联合建模.9(四)可信执行环境依
8、托于可信硬件提供高效计算方案.12(五)相关技术扩充隐私计算技术体系.15 第三章 隐私计算主要应用场景.18(一)联合营销:跨行业数据融合重构用户画像.18(二)联合风控:引入外部数据优化金融风控模型.20(三)智慧医疗:数据互通发挥医学数据价值.21(四)电子政务:促进政务数据安全共享开放.21 第四章 隐私计算产业发展态势.23(一)隐私计算市场发展迅速.23(二)产业发展配套环境正在逐步完善.26 第五章 隐私计算合规探讨.33(一)隐私计算有助于提升数据流通的合规性.33(二)隐私计算方案设计需要关注合规要求.34 IV (三)隐私计算合规实践路径的探索.35 第六章 隐私计算的挑战
9、和难题.37(一)安全性挑战影响市场信任.37(二)性能瓶颈阻碍隐私计算规模化应用.38(三)互联互通壁垒或使数据“孤岛”变“群岛”.39 第七章 隐私计算发展展望.41(一)算法优化和硬件加速将成为隐私计算可用性提升的重要方向.41(二)多元技术融合有望拓展隐私计算应用边界.42(三)标准体系制定有望助力隐私计算应用落地.43(四)多方生态融合有望推进隐私计算行业发展.44 附录 国内主要隐私计算平台.45 1 第一章 隐私计算概述隐私计算概述 隐私计算(Privacy-preserving computation)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技
10、术,保障数据在流通与融合过程中的“可用不可见”。站在数据成为比肩石油的基础性关键战略资源的当下,隐私计算为需求强烈但瓶颈重重的数据流通提供了破局思路。Gartner 发布的2021 年前沿科技战略趋势中,将隐私计算(其称为隐私增强计算)列为未来几年科技发展的九大趋势之一。随着各方关注度的提升,隐私计算已成为发展火热的新兴技术,跻身商业和资本竞争的热门赛道。(一一)数据流通需数据流通需求推动隐私计算势头火热求推动隐私计算势头火热 数字经济时代的特点之一便是将数据视作关键的生产要素,并通过跨领域、跨行业、跨地域的机构间数据流通释放要素价值。但是,目前我国数据要素市场化配置尚处于起步阶段,规模小、成
11、长慢、制约多,机构间的数据流通仍存在诸多阻碍。一是数据权属的界定仍不明确一是数据权属的界定仍不明确,在相关立法和制度尚未健全的当下,实践中并未能形成具有共识性的权属分割规则,产权争议、难以监管的风险令供需双方望而却步。二是数据流通的安全风险高,二是数据流通的安全风险高,数据安全事件频发,出于对国家安全、个人信息和商业秘密的保护,企业参与数据流通的主动性、积极性因此降低。三是如何确保流通过程的三是如何确保流通过程的 2 安全合法仍然较难把握安全合法仍然较难把握。现有监管要求并未给出数据对外提供和处理的明确合法依据与参考指引,企业依然困惑于数据可流通的对象、范围、方式等一系列问题。除此之外,数据流
12、通在数据质量、数据定价等方面也都面临着诸多挑战。为解决上述障碍,政府部门和大数据行业从业者进行了艰辛的探索,寻求通过技术手段解决个人信息保护、权益分配、数据安全保障、追溯审计等难题。针对较为核心的个人信息保护,业界通过数据标识加密技术、数据标识关联技术和有效授权技术等为确保敏感信息不可实别和确保数据仅在授权范围内使用提供了一定的思路。但是,以上技术仍不能抵御数据流通后被反推和滥用的风险,而“可用不可见”的隐私计算正是解决这一问题的技术突破口。从技术原理讲,隐私计算并不能简单归属于某一个学科领域,而是一套融合了密码学、安全硬件、数据科学、人工智能、计算机工程等众多领域的跨学科技术体系,包含了多方
13、安全计算、联邦学习和可信执行环境等不同的代表性技术方案。从应用目的讲,一方面隐私计算可以增强数据流通过程中对个人标识、用户隐私和数据安全的保护;另一方面隐私计算也为数据的融合应用和价值释放提供了新思路。(二)政策环境为隐私计算发展提供新(二)政策环境为隐私计算发展提供新机遇机遇 近年来我国数据立法进程不断加快,尤其强调数据应用过程中的数据安全。中华人民共和国网络安全法 中华人民共和国数据安全法和中华人民共和国个人信息保护法(草案)逐步完善了国家数据相关立法的顶层设计,着重强调了流通过程中的数据安全和个人 3 信息保护。隐私计算是平衡数据利用与安全的重要路径。自 2016 年,工业和信息化部、中
14、国人民银行、国家发改委、中央网信办、国家能源局等各部委先后在相关政策文件中提出加强隐私计算相关技术的攻关和应用。人民银行于 2021 年 5 月组织金融机构开展包括应用隐私计算进行数据共享在内的金融数据综合应用试点。在地方政府层面,广东省于 7 月发布的数据要素市场化配置改革行动方案中提出构建包含隐私计算在内的数据新型基础设施。政策的提前布局对于我国抢占隐私计算技术和应用关键领域奠定了良好基础。表表 1:相关法律及政策文件梳理:相关法律及政策文件梳理 时间时间 文件名文件名 发布单位发布单位 简述简述 法法律律 2016 年 11 月 中华人民共和国网络安全法 十二届全国人大常委会第二十四次会
15、议 强调对收集的用户信息严格保密,维护网络数据的完整性、保密性和可用性,实行网络安全等级保护制度 2021 年 4 月 中华人民共和国个人信息保护法(草案)十三届全国人大常委会第二十八次会议 强调个人信息在数据流通过程中的安全合规 2021 年 6 月 中华人民共和国数据安全法 十三届全国人大常委会第二十九次会议 强调数据安全与开发利用并重,确立数据分类分级管理制度,多种手段保证数据交易合法合规 政政策策文文件件 2016 年 12 月 大数据产业发展规划(2016-2020 年)工业和信息化部 支持企业加强多方安全计算等数据流通关键技术攻关和测试验证 2019 年 9 月 金融科技(FinT
16、ech)发 展 规 划(2019-2021年)中国人民银行 提出利用多方安全计算技术提升金融服务安全性 2019 年 9 月 工业大数据发展指导意见(征求意见稿)工业和信息化部 提出在工业领域积极推广多方安全计算技术,促进工业数据安全流通 2021 年 5 月 全国一体化大数据中心协同创新体系算力枢纽实施方案 国家发改委、中央网信办、工业提出“试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可 4 和信息化部、国家能源局 信流通环境,提高数据流通效率”2021 年 7 月 网络安全产业高质量发展三年行动计划(2021-2023 年)(征求意见稿)工业和信息化部 提出推动隐私计算
17、等数据安全技术的研究攻关和部署应用,促进数据要素安全有序流动 2021 年 7 月 广东省数据要素市场化配置改革行动方案 广东省人民政府 提出构建包含隐私计算在内的数据新型基础设施 技术价值的凸显,再加上政策环境的助力,隐私计算在数据相关产业内悄然兴起,相关的学术会议和论文在近几年呈现大幅增长,相关研究从技术原理逐步转向应用实践。在算法协议不断优化、硬件性能逐步增强之下,隐私计算的可用性大大提升,越来越多的企业入局隐私计算的研发和产品化,金融风控、互联网营销、医疗诊治、智慧城市等越来越多的场景落地应用。目前,隐私计算已成为数据流通领域内最受关注的技术热点,市场一片火热。5 第二章 隐私计算技术
18、发展态势隐私计算技术发展态势 从 20 世纪 70 年代一直到近年,隐私计算交叉融合了密码学、人工智能、计算机硬件等众多学科,逐渐形成以多方安全计算、联邦学习、可信执行环境为代表,混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、零知识证明、差分隐私等作为辅助技术的相对成熟的技术体系,为数据安全合规流通提供了技术保障。(一)(一)隐私计算技术体系基本建立隐私计算技术体系基本建立 从技术角度出发,隐私计算是涵盖众多学科的交叉融合技术,目前主流的隐私计算技术主要分为三大方向:第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生
19、的技术;第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。不同技术往往组合使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。图图 1 隐私计算技术体系隐私计算技术体系 6 隐私计算技术为数据的隐私保护与计算提供丰富的解决方案,可从底层硬件、基础层和算法应用等不同角度加以区分。如图 1 所示,从底层硬件来说,从底层硬件来说,多方安全计算与联邦学习通常从软件层面设计安全框架,以通用硬件作为底层基础架构;可信执行环境则是以可信硬件为底层技术实现的隐私计算方案。从从算法算法构造来说,构造来说,多方安全计算技术基于各类基础密码学工具设计不同的安全协议;联邦学习除可将多方安全计算
20、协议作为其隐私保护的技术支撑外,基于噪声扰动的差分隐私技术也广泛应用于联邦学习框架中;可信执行环境通常与一些密码学算法、安全协议相结合为多方数据提供保护隐私的安全计算。从算法应用来说,从算法应用来说,以不同技术为基础,隐私计算逐渐演化出丰富的算法应用场景。这些应用往往为了实现特定计算目的而组合应用了多种隐私计算技术,可更直接用于实际生产。联邦学习技术方案主要应用于联合建模和预测场景中;多方安全计算和可信执行环境则可作为更加通用的技术方案,可设计用于联合统计、联合查询、联合建模及联合预测等诸多场景。还需要指出的是,隐私计算技术体系还在快速发展中。以上划分只是一种业界常用的分类方法。目前各类技术也
21、在互相融合,有望在更广泛的场景中发挥作用。(二)(二)多方安全计算基于密码学原理实现通用计算能力多方安全计算基于密码学原理实现通用计算能力 1.基本方案架构基本方案架构 多方安全计算(Secure Multi-party Computation,MPC)由图灵奖 7 获得者姚期智院士于 1982 年通过提出和解答百万富翁问题而创立,是指在无可信第三方的情况下,多个参与方共同计算一个目标函数,并且保证每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入数据(除非函数本身可以由自己的输入和获得的输出推测出其他参与方的输入)。图图 2 多方安全计算技术框架多方安全计算技术
22、框架 如图 2 所示,从底层硬件来说从底层硬件来说,不同于可信执行环境基于可信硬件来保证数据的隐私计算,多方安全计算以通用硬件作为底层架构设计基于密码学的算法协议来实现隐私计算。从算法构造来说从算法构造来说,多方安全计算是多种密码学基础工具的综合应用,除混淆电路、秘密分享、不经意传输等密码学原理构造的经典多方安全计算协议外,其它所有用于实现多方安全计算的密码学算法都可以构成多方安全计算协议,因此在实现多方安全计算时也应用了同态加密、零知识证明等密码学算法(鉴于同态加密、零知识证明在隐私计算中的特殊地位,后面我们将单独叙述),有时也与可信执行环境等基于可信硬件的隐私计算技术结合提供安全加强的方案
23、。从算法应用来说从算法应用来说,多方安全计算根据其可在各方不泄露输入数据的前提下完成多方协同分析、处理和结果发布这一技术特点,广泛应 8 用于联合统计、联合查询、联合建模、联合预测等场景,也可以支持用户自定义计算逻辑的通用计算需求。2.相关分析相关分析 从协议实现角度分析,在基于多方安全计算的隐私计算领域,从协议实现角度分析,在基于多方安全计算的隐私计算领域,被被广泛应用的广泛应用的有混淆电路、秘密分享和不经意传输有混淆电路、秘密分享和不经意传输等基础等基础密码学密码学技术技术。混淆电路混淆电路(Garbled Circuit,GC)协议的思想起源于姚期智院士针对百万富翁问题提出的混淆电路解决
24、方案,因此也被称为“姚氏电路”。混淆电路使用布尔电路构造安全函数计算,保证一方输入不会泄漏给其他方,计算出结果,并能指定结果由哪方获得或者是两方以分片形式共有。该技术可实现各种计算,常用于通用计算场景,通信量大但通信轮数固定,适用于高带宽高延迟场景。秘密分享秘密分享(Secret Sharing,SS)协议最早由 Shamir 和 Blakley 在1979 年提出,是指将秘密信息拆分成若干分片,由若干参与者分别保存,并且通过参与者的合作,对分布式存储的各分片进行安全计算,全部分片或达到门限数的分片根据多个份额可重新恢复秘密信息。秘密分享计算量小、通信量较低,构造多方加法、乘法以及其他更复杂的
25、运算有特别的优势,能实现联合统计、建模、预测等多种功能。不经意传输不经意传输(Oblivious Transfer,OT)协议由 Rabin 于 1981 年首次提出,指数据发送方有 n 个数据,数据接收方接收其选定的一个数据,且不能获取其他数据,同时数据发送方无法知道接收方的选择。不经意传输常用构造多方安全计算协议,是 GMW 协议、混淆电路设计、乘法三元组的基础构件,还可用于实现隐私集合求交(Private Set 9 Intersection,PSI)、隐私信息检索(Private Information Retrieval,PIR)等多种多方安全计算功能。3.技术特点技术特点 多方安全
26、计算能够在不泄漏任何隐私数据的情况下让多方数据共同参与计算,然后获得准确的结果,可以使多个非互信主体在数据相互保密的前提下进行高效数据融合计算,达到“数据可用不可见”。最终实现数据的所有权和数据使用权相互分离,并控制数据的用途和用量,即某种程度上的“用途可控可计量”。多方安全计算具有很高的安全性,要求敏感的中间计算结果也不可以泄漏,并且在近 40 年的发展中其各种核心技术和构造方案不断接受学术界和工业界的检验,具有很高的可信性,其性能在各种研究中不断提升,现在在很多场景下已经达到了产业能实际应用接受的程度。然而,多方安全计算也面临一些问题,例如:密码学复杂的运算过程造成的计算性能问题,不同技术
27、间的加密数据不能互通造成的新的数据孤岛问题以及一些传统的安全问题等。这些问题都是制约多方安全计算发展的瓶颈。(三)(三)联邦学习变革机器学习范式广泛应用于联合建模联邦学习变革机器学习范式广泛应用于联合建模 1.基本方案架构基本方案架构 联邦学习(Federated Learning,FL),又名联邦机器学习、联合学习、联盟学习等。联邦学习是实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练。联邦学习参与方一般包括数据方、算法方、协调方、计算方、结果方、10 任务发起方等角色,根据参与计算的数据在数据方之间分布的情况不同,可以分为横向联邦学习、纵向联邦学
28、习和联邦迁移学习。图图 3 联邦学习联邦学习技术框架技术框架 如图 3 所示,从底层硬件来说从底层硬件来说,区别于部署可信硬件的可信执行环境等技术,联邦学习一般以通用硬件作为底层基础设施。从从算法算法构造来说构造来说,常应用同态加密、差分隐私技术以及包括基于秘密分享、不经意传输、混淆电路等密码学原理的各类多方安全计算协议和其它用于保证隐私计算的密码学技术来提升安全性。从算法应用角度来说从算法应用角度来说,随着产业应用的需求,联邦学习框架也可与可信执行环境配合使用,提供安全性、应用性更强的综合解决方案。由于联邦学习是基于人工智能的技术工具,为提升用户隐私和数据安全前提下的联合 AI 模型训练效果
29、而提出,因此广泛应用于联合建模、联合预测等场景中。2.相关分析相关分析 如何有效协调数据如何有效协调数据参与方协同构建模型是联邦学习参与方协同构建模型是联邦学习的的一项主要一项主要工作工作。因此,根据协调方式的不同,联邦学习从拓扑架构的角度分析,因此,根据协调方式的不同,联邦学习从拓扑架构的角度分析,可分类为集中式拓扑架构和对等网络拓扑架构可分类为集中式拓扑架构和对等网络拓扑架构1。1 引用文献:杨强等.联邦学习实战M.北京:电子工业出社,2021.5:12.11 对于集中式的拓扑结构,一般存在一个聚合各方本地模型参数信息的中心计算节点,该节点经过联邦平均等相应算法更新后,将结果返回各方。其中
30、,中心计算节点既可能是独立于各参与方的第三方服务器,也可能是某一特定的参与方。它的优势在于易于设计与实现,往往被认为效率更高,但在一定程度上牺牲了安全性。对于对等式网络拓扑结构,不存在中心计算节点,各参与方在联邦学习框架中的地位平等。相比在集中式的拓扑结构中需要考虑中心计算方存在泄露隐私或者遭受恶意攻击等的安全问题,分布式的网络拓扑结构安全性更高。但分布式拓扑需平等对待联邦学习中的每个参与方且能够使所有参与方有效更新模型并提升性能,设计难度较大。3.技术特点技术特点 联邦学习针对传统的由建模方(计算方)收集明文数据并进行人工智能模型训练存在的泄露训练数据隐私的问题而提出,通过对各参与方间的模型
31、信息交换过程增加安全设计,使得构建的全局模型既能确保用户隐私和数据安全,又能充分利用多方数据,是解决数据孤岛和数据安全问题的重要框架,其强调的核心理念是“数据不动模型动,数据可用不可见”。然而,联邦学习作为一门跨密码学、机器学习等领域的人工智能学科,其在应用过程中不可避免的会出现许多新的问题和挑战,例如:联邦学习过程中出现的数据和模型的隐私泄露和安全攻击如何防护;如何对非独立同分布、参差不齐的质量的数据建模;如何降低通信复杂度以及计算复杂度;如何评估各参与方的贡献,即联邦奖励机制问 12 题;如何实现不同联邦学习平台间的互联互通以及联邦学习的可解释性等等问题。这些仍需要进一步解决和完善。(四)
32、(四)可信执行环境依托于可信硬件提供高效计算方案可信执行环境依托于可信硬件提供高效计算方案 1.基本方案架构基本方案架构 可信执行环境(Trusted Execution Environment,TEE)通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。TEE 是一个隔离的执行环境,为在设备上运行的受信任应用程序提供了比普通操作系统(Rich Operating System,RichOS)更高级别的安全性以及比安全元件(Secure Element,SE)更多的功能。目前主要的通用计算芯片厂商发布的 TEE 技术方案包括 X86 指令集架构
33、的 Intel SGX(Intel Software Guard Extensions)技术、AMD SEV(Secure Encrypted Virtualization)技术以及高级 RISC 机器(Advanced RISC Machine,ARM)指令集架构的 TrustZone 技术。而国内计算芯片厂商推出的 TEE 功能则包括兆芯 ZX-TCT(Trusted Computing Technology)技术、海光 CSV(China Security Virtualization)技术,以及 ARM 架构的飞腾、鲲鹏也已推出自主实现的 TrustZone功能。13 图图 4 可信执
34、行环境技术体系可信执行环境技术体系 如图 4 所示,从底层硬件来说从底层硬件来说,不同于多方安全计算和联邦学习,TEE 将多方数据集中到可信硬件构建的可信执行环境中一起进行安全计算。TEE 中可信硬件一般是指可信执行控制单元已被预置集成的商用 CPU 计算芯片2。从基础算法来说从基础算法来说,为了保证传输至可信环境中的数据的安全性,TEE 常结合相关密码学算法来实现加密和验证方案3。从应用角度来说从应用角度来说,作为通用的计算平台,TEE 可以在可信执行环境中对多方数据完成联合统计、联合查询、联合建模及预测等各种安全计算。2.相关相关分析分析硬件实现硬件实现 目前主流的目前主流的 TEE 技术
35、以技术以 X86 指令集架构指令集架构的的 Intel SGX 技术和技术和ARM 指令集架构指令集架构的的 TrustZone 技术为代表技术为代表。Intel SGX技术是一组预置在Intel商用计算芯片内的用于增强应用程序代码和数据安全性的指令,主要面向 PC 端。开发者使用 SGX指令把计算应用程序的安全计算过程封装在一个被称为飞地(Enclave)的容器内,保障用户关键代码和数据的机密性和完整性。2 芯片设计厂商除提供通用指令集外,针对 TEE 单元会提供单独的 TEE 指令集用于驱动 TEE 设备。3 虽然标准定义可以通过软件方式或硬件方式实现 TEE,但实际生产场景下,行业内更多
36、通过软硬结合的方式进行安全性的保障与支持。14 Intel SGX 将应用程序以外的软件栈(如 OS、BIOS 等)都排除在可信计算基(Trusted Computing Base,TCB)以外,一旦软件和数据位于 Encalve 中,即便是操作系统和虚拟机监视器(Virtual Machine Monitor,VMM)(也称 Hypervisor)也无法影响 Enclave 里面的代码和数据,从而在安全隔离的情况下保证软件功能的通用性。ARM TrustZone 技术基于 ARM 芯片,主要面向移动设备,是用于 ARM 指令集体系结构的 TEE。ARM 通过对原有硬件架构进行修改,在处理器层
37、次引入了两个不同权限的保护域安全世界和普通世界,任何时刻处理器仅在其中的一个环境内运行。TrustZone 通过中断路由以及对内存总线和内存管理单元的限制来提供隔离保护。3.技术特点技术特点 TEE 通过隔离的执行环境,提供一个执行空间,该空间有更强的安全性,比安全芯片功能更丰富,提供代码和数据的机密性和完整性保护。另外,与纯软件的密码学隐私保护方案相比,TEE 不会对隐私区域内的算法逻辑语言有可计算性方面的限制,支持更多的算子及复杂算法,上层业务表达性更强。利用 TEE 提供的计算度量功能,还可实现运行在其内部的身份、数据、算法全流程的计算一致性证明4。TEE 因支持多层次、高复杂度的算法逻
38、辑实现,运算效率高以及可信度量保证运行逻辑可信等的特点,被广泛认可,但其技术本身依 4 基于可信度量方式,单个 TEE 实例内可以整合封装身份签名逻辑、数据 Hash 逻辑与计算逻辑,可提供身份、数据、算法三者关联的一致性证明。15 赖硬件环境,CPU 相关实现属于 TCB,由芯片设备的设计生产厂商提供,必须确保芯片厂商可信。此外使用 MPC 等密码学技术与 TEE技术相结合可以增强其安全性,强化 TEE 实例之间机密通信和组网的安全性,进一步防止隐私数据泄露。(五五)相关技术扩充隐私计算技术体系相关技术扩充隐私计算技术体系 除了上述关键技术,同态加密、零知识证明、差分隐私、区块链等技术也常应
39、用或辅助于隐私计算。同态加密(Homomorphic Encryption,HE),能实现在密文上进行计算后对输出进行解密,得到的结果和直接对明文计算的结果一致。该概念最早在 1978 年由 Ron Rivest、Leonard Adleman 和 Michael L.Dertouzo 提出,已发展出各种半同态加密和全同态加密算法。同态加密算法以通信量小、通信轮数少的特点,已在多方安全计算、联邦学习、区块链等存在数据隐私计算需求的场景落地应用。零知识证明(Zero-Knowledge Proof,ZKP),由 S.Goldwasser、S.Micali 及 C.Rackoff 在 20 世纪
40、80 年代初首先提出,指的是证明者能够在不向验证者泄漏任何有用信息的情况下,使验证者相信某个论断是正确的。零知识证明是一种两方或多方的协议,两方或多方通过一系列交互完成生成证明和验证。在实际应用中,零知识证明能实现证明者向验证者证明并使其相信自己知道或拥有某一消息,而证明过程不会向验证者泄漏任何关于被证明消息的信息。差分隐私(Differential Privacy,DP)技术是 Dwork 在 2006 年针对数据库的隐私泄露问题提出的一种新型密码学手段。该机制是 16 在源数据或计算结果上添加特定分布的噪音,确保各参与方无法通过得到的数据分析出数据集中是否包含某一特定实体。差分隐私包括本地
41、差分隐私和计算结果差分隐私。本地差分隐私指在汇聚和计算前数据就加入噪声,用于数据收集方不可信的场景;计算结果差分隐私是指最终计算结果发布前对其加噪声。隐私计算最核心的是计算,但整个过程还有完整的系统需要用的隐私计算最核心的是计算,但整个过程还有完整的系统需要用的辅助技术很多,主要有区块链和证书授权中心(辅助技术很多,主要有区块链和证书授权中心(Certificate Authority,CA)等。)等。一方面,区块链隐私计算框架能在数据共享过程中有效保护个人信息,并为数据真实性、数据确权等问题提供可行解决方案,实现全流程可记录、可验证、可追溯、可审计的安全、可信数据共享网络,并为进一步建设高效
42、、高安全和高流动性的数据要素交易市场打下基础。另一方面,隐私计算过程中的每一方都需具有相同信任根的证书链,各参与方之间通信使用证书链建立 SSL 安全通道,认证授权隐私计算框架实现参与方间的双向认证,从而确保参与方身份真实准确,实现对隐私计算任务定向授权,验证后执行任务。下表对隐私计算相关的技术进行了主要对比。17 表表 2:隐私计算相关技术主要对比:隐私计算相关技术主要对比 技术技术 性性能能 通通用用性性 安安全全性性 可信方可信方 整体描述整体描述 技术成熟度技术成熟度5 多方安全计多方安全计算(算(MPC)低中 高 高 不需要 通用性高、计算和通信开销大、安全性高,研究时间长,久经考验
43、,性能不断提升 已达到已达到技术成熟的预技术成熟的预期峰值期峰值 可信执行环可信执行环境(境(TEE)高 高 中高 需要 通用性高,性能强,开发和部署难度大,需要信任硬件厂商 快速快速增长的技术创新增长的技术创新阶段阶段 联邦学习联邦学习(FL)中 中 中 均可 综合运用 MPC、DP、HE 方法,主要用于 AI 模型训练和预测 快速快速增长的技术创新增长的技术创新阶段阶段 同态加密同态加密(HE)低 中 高 不需要 计算开销大,通信开销小,安全性高,可用于联邦学习安全聚合、构造 MPC 协议 快速增长的技术创新快速增长的技术创新阶段阶段 零知识证明零知识证明(ZKP)低 低 高 不需要 广泛
44、应用于各类安全协议设计,是各类认证协议的基础 快速增长的技术创新快速增长的技术创新阶段阶段 差分隐私差分隐私(DP)高 低 中 不需要 计算和通信性能与直接明文计算几乎无区别,安全性损失依赖于噪声大小 快速增长的技术创新快速增长的技术创新阶段阶段 区块链区块链(BC)低 中 中 不需要 基于带时间戳的块链式存储、智能合约、分布式共识等技术辅助隐私计算,保证原始数据、计算过程及结果可验证 逐渐接近技术成熟的逐渐接近技术成熟的预期峰值预期峰值 5 来源:中国信通院调研、Gartner 18 第三章 隐私计算主要应用场景隐私计算主要应用场景 根据中国信通院统计,目前典型的应用场景包括联合风控、联合营
45、销、智能医疗、智能政务等热点应用,也包括智慧能源、智慧城市、工业互联网等探索性应用。图图 5 隐私计算应用行业隐私计算应用行业 当前隐私计算应用主要集中在数据驱动的金融、互联网领域和拥有大量数据源和数据流通需求的医疗、政务领域,同时跨机构、跨行业应用需求强烈,目前最主要的应用集中在联合营销、联合风控、智慧医疗、电子政务等场景。(一)(一)联合营销:跨行业数据融合重构用户画像联合营销:跨行业数据融合重构用户画像 当前营销业务进入到智能时代,应用于营销的数据维度不断丰富,应用场景也不断增加。然而,用户画像的数据往往是相互割裂的,只有通过整合多机构间多维度的数据才能构建更立体的用户画像,实现 19
46、资源的优势互补、开拓市场广度和挖掘市场深度的营销目的。利用隐私计算可以帮助机构在不输出原始数据的基础上共享各自的用户数据进行营销模型计算,根据建模结果制订营销策略,实现双赢的联合营销目的。在构建营销模型中在构建营销模型中,可通过隐私计算技术,对交互的标签、特征、梯度等数据进行等密码学处理,保证密文接收方或外部第三方无法恢复明文,直接基于密文进行计算并获得正确的计算结果,从而达到各参与方无需共享数据资源即可实现联合构建营销模型,进一步丰富用户画像,从而进行精准营销。在高价值用户识别中在高价值用户识别中,可以利用隐私计算技术,通过联合统计、隐匿查询等方式将内部和外部数据进行安全融合,打通多方数据孤
47、岛,利用外部数据更精准的对用户客群进行分类,识别高价值用户,制定更精准的营销策略。银行机构银行机构利用隐私计算技术,可对运营商、政务、征信等数据实现应用场景所需的价值融合,从而为用户提供聚合金融服务。保险公保险公司司将用户基本信息、购买保险、出险赔付和电商、航旅等其他合作方的消费、出行、行为偏好等数据进行安全融合。通过匿踪查询技术可信地获取客户的黑名单、消费能力、画像标签等信息,用于识别消费者的潜在风险等应用。电信电信运营商运营商通过融合金融机构数据在共有的用户群中找到对理财产品、保险产品有兴趣的用户群,筛选找到更精准的目标用户进行营销,提升交叉销售效果,获取更多的新客。互联网互联网公司公司利
48、用自身拥有的大量用户行为信息和基础画像数据,与广告数据 20 方拥有的深度转化链路数据(如付费信息)进行安全求交,并通过多方安全计算或联邦学习技术联合训练、建模、优化广告模型效果。在游戏、金融、教育、电商行业的广告应用案例中都能提升广告投放效果和用户体验。(二)(二)联合风控:联合风控:引入引入外部数据优化金融风控模型外部数据优化金融风控模型 联合风控是隐私计算在金融领域的一个重要应用场景。一般而言,用户在本机构的金融业务数据难以满足金融风控的需求,但由于不同机构间数据分散、数据保护等原因,金融机构之间、金融机构与其他行业机构之间的数据融合壁垒较高,“数据孤岛”现象严重,提升了金融机构的风险识
49、别难度,难以降低融资成本。利用隐私计算技术,可以实现跨机构间数据价值的联合挖掘,更好地分析客户的综合情况,交叉验证交易真实性等业务背景,降低欺诈及合规风险,从而综合提升风控能力。在构建风控模型在构建风控模型时时,一方面可通过融合多个金融机构数据,解决单个金融机构样本量有限的问题,形成在相关场景中的全局认知,提升模型精准度;另一方面,可以综合利用金融机构同其他行业数据,在各方原始特征不出域的前提下建立风控模型,形成对业务的多维度认识,提升风控质量。在在信息核验时信息核验时,可通过隐私计算实现多方黑名单数据共享,对电诈、洗钱、骗贷等行为的黑名单用户进行匿踪识别,数据方不能获知查询的具体内容,提升客
50、户背景调查的安全可信程度。21 (三)(三)智慧医疗:数据互通智慧医疗:数据互通发挥医学数据价值发挥医学数据价值 医学研究、基因分析等工作非常依赖大量数据的积累,然而,医疗相关机构的这些数据割裂,离散在不同机构及业务系统内,机构间的数据难以互通互联,严重制约了临床科研成果的产出。在智慧医疗领域,利用隐私计算技术,可实现在数据隐私保护下医学数据安全统计分析和医学模拟仿真和预判,从而进行跨机构的精准防疫、基因分析、临床医学研究等应用。在疫情防控中在疫情防控中,通过隐私计算保障个人数据的安全性,对高危人群进行筛选疫情传播仿真分析,通过防控筛查模型精准筛查高风险易感人群,构建潜在传染的关系网结合病患信