1、隐私计算在科教卫生领域应用白皮书 2023引言当前大数据时代,数据通常被称为“新石油”,因为它是当前推动全球经济不断增长的新型原材料,而数据只有流动(共享)起来才能产生更大的价值。习近平总书记指出,要“发挥数据的基础资源作用和创新引擎作用”,“构建以数据为关键要素的数字经 济”,“把握数字经济发展趋势和规律,推动我国数字经济健康发展”。为推动数据的依法合理有效利用(共享),激活数据要素的价值,从中央到地方,均相继出台了相关政策和条例,鼓励数据依法有序自由流动。然而,随着数字化转型的不断推进与深入,近年来数据安全事件频发,数据安全与隐私问题越来越严峻。各国均已深刻认识到了数据安全的重要性,并开始
2、通过立法手段加强保护数据安全,如欧盟的通用数据保护条例,国内的中华人民共和国数据安全法、中华人民共和国个人信息保护法。这些法律的实施,对企业合规安全地发挥数据价值提出了更高的要求。政策鼓励企业进行数据资源开放共享;在当今大数据与人工智能时代,企业也确实对数据资源开放共享有强烈需求;但是,在涉及数据流通及共享使用问题上,法律法规明确规定,企业要采取必要的安全防控措施和技术手段降低数据泄露、窃取等风险。因而市场面临“数据需要开放,却又难以开放”的困境。在技术迅速发展与政策推动的双重因素下,隐私计算以及相应的合规服务,以“数据可用不可见”的理念为“开放流通”与“合规安全”的矛盾提供了重要思路与解决方
3、案,并且在实践过程中不断得到政府和企业的认可。2020 年以来,伴随着技术的不断成熟,国内外隐私计算产业化的步伐明显加快,目前主要在金融场景应用和落地较多,不过科教卫生行业也具备足够的想象空间。过去几年中,教育和卫生行业数字化获得了长足发展,众多学校、医院、科研机构、教育机构和医疗机构积累了大量数据,为隐私计算的落地提供了很好土壤。同时,医疗行业和教育行业所收集的数据具有较强的隐私属性,对隐私保护和数据安全的需求更为强烈。因此,绿盟科技联合合作伙伴,结合隐私计算在科教卫生行业的一些应用实践,共同撰写了隐私计算在科教卫生领域应用白皮书。本白皮书除了对隐私计算的背景、技术路线、安全风险、生态体系等
4、做了详细介绍和分析之外,还着重介绍了科教卫生行业的数据安全现状以及隐私计算在科教卫生领域的一些应用实践。最后,绿盟科技希望能够与合作伙伴一起在隐私计算领域持续探索和创新,拓展更多行业场景,提供更丰富的行业应用解决方案,构建和完善隐私计算生态。CONTENTS1隐私计算时代背景0011.1政策红利刺激数据要素流通0021.2法律法规对数据安全提出新要求0051.3科教卫生行业数据安全现状0071.4隐私计算助力数据安全流通0102隐私计算技术介绍0132.1隐私计算概述0142.2隐私计算技术路线0152.3隐私计算安全模型0292.4隐私计算安全风险0303隐私计算生态体系0333.1隐私计算
5、行业生态0343.2隐私计算平台技术体系0364卫生健康行业隐私计算应用与实践0424.1隐私计算赋能卫生健康行业0434.2案例 1:脑卒中预测模型优化0464.3案例 2:医疗诊断模型评估0494.4案例 3:患者人脸“数据保险箱”0515科教行业隐私计算应用与实践0545.1隐私计算赋能科教行业0555.2案例 1:校内上网行为溯源0565.3案例 2:科研数据共享使用0596总结与展望0626.1隐私计算发展趋势及展望0636.2隐私计算在科教卫生行业发展前景及建议064参考文献06601隐私计算 时代背景隐私计算在科教卫生领域应用白皮书0021.1政策红利刺激数据要素流通随着数字经济
6、的蓬勃发展,数据已经成为新时代的重要生产要素,并成为国家基础性战略资源。在我国新基建全面展开、大规模实施的有力推动下,基础设施的不断完善,促进了我国数字经济的持续快速发展,其中 2021 年中国数据产量 6.6ZB,全球占比 9.9%,总量连续多年位居世界第二。2021 年,我国数字经济市场规模已经扩大为 45.8 万亿元,年均复合增长率达 13.6%,占国内生产总值比重从 32.9%提升至 39.8%,成为推动经济增长的主要引擎之一1。数字经济之所以有如此的活力与动力,就在于数字经济是一种与传统的农业经济和工业经济完全不同的经济形态。在这种新的经济形态下,数据成了驱动经济运行的关键性生产要素
7、。在数字经济的发展过程中,数据起着核心和关键作用,对土地、劳动力、资本、技术等这些传统生产要素也产生了深刻影响,展现出了巨大价值和潜能2。习近平总书记指出,要“发挥数据的基础资源作用和创新引擎作用”,“构建以数据为关键要素的数字经济”,“把握数字经济发展趋势和规律,推动我国数字经济健康发展”。2019 年,党的十九届四中全会首次明确数据可作为生产要素按贡献参与分配,提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。2020年4月9日,中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见对外公布,明确把数据与土地、劳动力、资本、技术并列为
8、生产要素,凸显了数据这一新型、数字化生产要素的重要性。2020 年的政府工作报告强调,要推进要素市场化配置改革,培育技术和数据市场,激活各类要素潜能。与其他生产要素不同,数据这一生产要素只有通过跨领域、跨行业、跨地域的机构间数据流通(共享)才能更大地释放要素价值。最近一年来,为推动数据的依法合理有效利用(共享),激活数据要素的价值,从中央到地方,均相继出台了相关政策和条例,鼓励数据依法有序自由流动。003隐私计算时代背景表 1出台的鼓励数据流通(共享)的相关政策及条例梳理(仅收集近一年数据)时间文件名发布单位相关内容中央 2021 年 12 月“十四五”数字经济发展规划国务院 充分发挥我国海量
9、数据、广阔市场空间和丰富应用场景优势,充分释放数据要素价值,激活数据要素潜能,以数据流促进生产、分配、流通、消费各个环节高效贯通,推动数据技术产品、应用范式、商业模式和体制机制协同创新。2021 年 12 月 “十四五”国家信息化规划 中央网络安全和信息化委员会 加快政务数据开放共享和开发利用,深化推进“一网通办”“跨省通办”“一网统管”。2022 年 5 月“十四五”生物经济发展规划 国家发展改革委 整合健康可穿戴设备、互联网医疗、医疗保险等多源异构数据,实现健康态数据和主动健康产品数据互联互通。促进区域医疗健康数据安全有序汇聚与共享,支撑区域卫生健康大数据产业发展。2022 年 4 月 加
10、快建设全国统一大市场的意见国务院 加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。2021 年 10 月数字交通“十四五”发展规划 交通运输部 进一步完善交通运输信息资源共享机制和交换渠道,实现相关数据资源共享共用。2022 年 4 月关于做好道路客运电子客票推广普及有关工作的通知 交通运输部办公厅 探索推进数据互联互通。强化道路客运电子客票服务网络安全、数据安全和个人信息保护,确保系统安全平稳运行,严防旅客个人信息等重要数据泄露。2022 年 1 月要素市场化配置综合改革试点总体方案
11、 国务院办公厅 完善公共数据开放共享机制。建立健全高效的公共数据共享协调机制。2022 年 10 月关于扩大政务服务“跨省通办”范围进一步提升服务效能的意见 国务院办公厅 充分发挥政务数据共享协调机制作用,强化全国一体化政务服务平台的数据共享枢纽功能,提升数据共享的稳定性、及时性。2022 年 12 月中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见国务院坚持共享共用,释放价值红利。合理降低市场主体获取数据的门槛,增强数据要素共享性、普惠性,激励创新创业创造,强化反垄断和反不正当竞争,形成依法规范、共同参与、各取所需、共享红利的发展模式。2021 年 12 月金融科技发展规划(2
12、022-2025 年)中国人民银行 不断强化数据能力建设,有序推进跨机构、跨地域、跨行业数据规范共享有力,全面深入金融与民生领域数据融合应用,使数据安全和个人隐私得到有效保障。省市2022 年 2 月福建省大数据发展条例 福建省人民政府 凡能通过共享获取的公共数据,政务部门不得重复采集。2022 年 3 月浙江省公共数据条例 浙江省人民政府 明确公共数据平台一体化建设规范,要求省公共数据主管部门会同省有关部门,统筹建设一体化智能化公共数据平台,实现公共数据跨层级、跨地域、跨系统、跨部门、跨业务有效流通和共享利用,促进省域整体智治、高效协同。2022 年 1 月上海市数据条例 上海市人民政府 推
13、动长三角区域数据合作,建设全国一体化大数据中心体系长三角国家枢纽节点,通过长三角数据共享来促进深入的长三角经济一体化。隐私计算在科教卫生领域应用白皮书004 时间文件名发布单位相关内容省市2022 年 1 月深圳经济特区数据条例 深圳市人民政府 加快培育数据要素市场,推动构建数据收集、加工、共享、开放、交易、应用等数据要素市场体系,促进数据资源有序、高效流动与利用。2022 年 2 月江苏省公共数据管理办法 江苏省人民政府 推动建立公共数据区域一体化标准体系,推进公共数据资源供需对接和共享应用,促进数据要素市场一体化发展,提升区域治理现代化水平。2022 年 1 月山东省大数据发展促进条例 山
14、东省人民政府 县级以上人民政府应当推进现代信息技术在政务服务领域的应用,推动政务信息系统互联互通、数据共享。2022 年 5 月河北省数字经济促进条例 河北省人民政府 加强数据资源开发利用。探索破解“信息孤岛”“数据烟囱”,建立健全公共数据共享协调推进机制,对公共数据共享、数据回流以及公共数据开放进行规范。2022 年 7 月重庆市数据条例 重庆市人民政府 重庆与四川省共同开展川渝地区数据标准化体系建设,按照区域数据共享需要,共同建立数据基础性标准和规范,促进数据资源共享和利用。2022 年 8 月辽宁省大数据发展条例 辽宁省人民政府 大数据主管部门应当加强对公共数据全生命周期管理,统筹推进各
15、类数据资源汇聚利用,加速数据流通,激发数据活力,提高数据资源价值创造水平,挖掘和释放数据资源的潜在价值。2022 年 1 月2022 年度天津市公共数据资源开放计划清单 天津市委网信办、天津市大数据管理中心 推进行业数据价值挖掘,释放公共数据价值,助力数字经济发展。2022 年 7 月黑龙江省促进大数据发展应用条例 黑龙江省 公共数据应当纳入全省一体化公共数据平台统一管理,实现对公共数据的汇聚、共享和开放。2021 年 12 月国家大数据(贵州)综合试验区“十四五”建设规划贵州省大数据发展领导小组 探索建立跨区域数据流通、算力协同机制,促进形成国家“东数西算”新格局。2022 年 3 月贵州省
16、大数据战略行动 2022 年工作 要点 贵州省大数据发展局 实施数据要素大开发行动,加快公共数据高质量归集和共享开放。推进数据流通交易,优化提升贵阳大数据交易所,完善数据流通交易服务中心组织架构。2022 年 3 月河南省数字经济促进条例河南省人民政府 加强与省外数字经济合作,促进基础设施共建共享,数据资源依法有序流动、合法有效利用,数字产业协同发展。2022 年 2 月中国(上海)自由贸易试验区临港新片区条例 上海市人民政府 在临港新片区内探索制定低风险跨境流动数据目录,促进数据跨境安全有序流动。支持临港新片区推进国际数据产业发展,培育发展数据经纪、数据运营、数据质量评估等新业态,建立数据跨
17、境流动、数据合规咨询服务、政企数据融合开发等公共服务平台。2022 年 3 月广西加快数据要素市场化改革实施方案 广西壮族自治区大数据发展局 构建数据要素市场供给、流通、应用、监管“四位一体”体系,在各个行业领域探索数据要素赋能场景,释放数据要素生产力潜能。005隐私计算时代背景1.2法律法规对数据安全提出新要求随着数字化转型的不断推进与深入,数据安全与隐私问题越来越严峻,现代化的数据安全与隐私保护立法已成为全球趋势。各个国家已经深刻认识到了数据的重要性,并开始通过立法手段加强保护数据安全,如欧盟的通用数据保护条例(GDPR),国内的中华人民共和国数据安全法、中华人民共和国个人信息保护法。我国
18、于 2017 年 6 月 1 日正式实施中华人民共和国网络安全法(网络安全法)。它是我国首部较为全面规范网络空间安全管理方面问题的基础性法律,不仅包括网络运行安全、关键信息基础设施的运行安全,同时给出数据安全与个人信息保护的基本规定。自 2019 以来,我国数据安全相关立法进程明显加快:根据网络安全法,国家互联网信息办公室(简称“网信办”)分别于 2019 年 5 月和 6 月发布了数据安全管理办法(征求意见稿)和个人信息出境安全评估办法(征求意见稿)等法规;同年 10 月 1 号网信办正式实施儿童个人信息网络保护规定,对儿童个人信息安全进行特殊和更加严格的保护。2020 年 5 月我国发布中
19、华人民共和国民法典,并于 2021 年 1 月 1 日起实施,其首次在我国法律中明确且具体提出“隐私权”的概念,并确立隐私权范围和个人信息保护一些基本规范。2020 年 7 月,我国对外发布中华人民共和国数据安全法(草案),并于 2021 年 6月 10 日正式通过了中华人民共和国数据安全法(简称数据安全法)。数据安全法确立了数据分级分类保护、数据安全风险评估、应急处置机制和安全审查的重要制度,明确了开展数据活动必须履行数据安全保护义务等内容。2020 年 10 月,中华人民共和国个人信息保护法(草案)(简称个人信息保护法(草案)在人大网公开,并于2021年8月20日正式通过了 中华人民共和国
20、个人信息保护法(简称个人信息保护法)。个人信息保护法赋予必要的域外适用效力,以充分保护我国境内公民的权益,同时回应 GDPR 等国外法规的同等效力;同时完善和丰富了个人各项数据权利,赋予个人包括知情权、决定权、查询权、更正权、删除权等;同时相比网络安全法,对违法的行为加大了惩处力度。数据安全法 和 个人信息保护法 作为数据安全与个人信息领域两部综合性法律,数据安全法更加强调总体国家安全观,对国家利益、公共利益和个人、组织合法权益方面给予全面保护,个人信息保护法则更加侧重于对个人信息、隐私等涉及公民自身安全的个人信息与权益进行保护。从国家层面来说,数据安全法对于我国的国家安全建设有着至隐私计算在
21、科教卫生领域应用白皮书006关重要的意义,同时促进以数据为关键要素的数字经济健康发展;从企业层面来说,数据安全法和个人信息保护法是企业数据活动必须遵循的“行为规范”,是重要的法规监管依据。除此以外,2021 年国内数据安全法规、政策、标准密集发布,表 1 中所收集的鼓励数据共享相关的政策和条例中,均有数据安全部分的描述,另外,表 2 中还补充了其他与数据安全相关的法规和政策。这些可看成 数据安全法 和 个人信息保护法 的一些配套行政法规、行业规章和标准。尤其是 2021 年 11 月国家互联网信息办公室(国家网信办)发布了网络数据安全管理条例(征求意见稿),对数据安全法和个人信息保护法的法律条
22、款进行更加具体的细化、补充和延伸。表 22021-2022 年国内数据安全法律法规时间国家部门政策法规事件相关内容2021 年 04 月 中国人民银行金融数据安全 数据生命周期安全规范数据汇聚融合时,涉及第三方机构合作的,要采用技术手段降低数据泄露、窃取等风险。2021 年 04 月国家医疗保障局 国家医疗保障局关于印发加强网络安全和数据保护工作指导意见的通知 在保障数据安全的前提下,稳妥推动数据资源开发利用,发挥数据生产要素作用,保障数据依法依规有序共享。2021 年 04 月教育部、中央网信办、最高人民法院、最高人民检察院、工信部、公安部、市场监督总局关于加强教育系统数据安全工作的通知健全
23、覆盖数据收集、传输存储、使用处理、开放共享等全生命周期的数据安全保障制度。规范数据开放共享工作。2021 年 06 月国家卫健委互联网医疗健康信息安全管理规范(征求意见稿)互联网医疗健康信息安全数据管理:互联网医疗健康信息安全管理明确数据在采集、存储、传输、应用和销毁等过程的信息安全要求。2021 年 08 月 国家互联网信息办公室、中华人民共和国国家发展和改革委员会、中华人民共和国工业和信息化部、中华人民共和国公安部、中华人民共和国交通运输部汽车数据安全管理若干规定(试行)鼓励汽车数据依法合理有效利用,倡导汽车数据处理者在开展汽车数据处理活动中坚持脱敏处理原则,尽可能进行匿名化、去标识化等处
24、理。2021 年 09 月工业和信息化部 关于加强车联网网络安全和数据安全工作的通知规范数据开发利用和共享使用。明确数据共享和开发利用的安全管理和责任要求,对数据合作方数据安全保护能力进行审核评估,对数据共享使用情况进行监督管理。2021 年 09 月工业和信息化部 工业和信息化领域数据安全管理办法(征求意见稿)工业和信息化领域数据处理者委托他人处理重要数据和核心数据的,应当对被委托方的数据安全保护能力、资质进行评估或核实。2021 年 11 月 国家互联网信息办公室 网络数据安全管理条例(征求意见稿)国家建立健全数据交易管理制度,明确数据交易机构设立、运行标准,规范数据流通交易行为,确保数据
25、依法有序流通。007隐私计算时代背景时间国家部门政策法规事件相关内容2022 年 01 月中国银保监会办公厅关于银行业保险业数字化转型的指导 意见加强第三方数据合作安全评估,交由第三方处理数据的,应依据“最小、必要”原则进行脱敏处理。2022 年 02 月 广东省政务服务数据管理局 广东省公共数据安全管理办法(征求意见稿)利用数据挖掘、关联分析等技术手段开展加工处理活动时,应当采取安全技术措施防止敏感个人信息、商业秘密等信息的泄露。2022 年 03 月 四川省司法厅 四川省大数据发展条例(草案征求意见稿)加强大数据环境下防攻击、防泄漏、防窃取的监测、预警、控制和应急处置、容灾备份能力建设,保
26、障数据采集汇聚、共享应用和开放开发等环节的数据安全。2022 年 08 月 国家卫生健康委、国家中医药局、国家疾控局医疗卫生机构网络安全管理办法 各医疗卫生机构发布、共享数据时应当评估可能带来的安全风险,并采取必要的安全防控措施。从以上法律法规中的相关条文可以看出,在涉及数据流通及共享使用问题上,均有明确规定,强调要采取必要的安全防控措施,要采用技术手段降低数据泄露、窃取等风险。1.3科教卫生行业数据安全现状1.3.1科教行业数据安全现状2014 年,教育部发布 教育管理信息化建设与应用指南,对核心业务管理信息系统的建设进行顶层设计,明确了统筹制定信息化标准规范体系的要求和内涵,要求在信息标准
27、与数据交换技术规范的基础上实现数据交换与共享体系建设。2018 年,教育部办公厅印发制定了教育部机关及直属事业单位教育数据管理办法,推进数据规范管理、互联互通和共享公开,确保数据安全;同年,教育部发布了教育信息化 2.0 行动计划,提出了“发布系列技术和功能标准规范,探索资源共享新机制”、“完善教育数据标准规范,促进政务数据分级分层有效共享”等计划,明确提出数据共享要求。2020 年 9 月,国家发布关于加强教育系统数据安全的指导意见;2021 年 4 月,教育部等七部门印发了关于加强教育系统数据安全工作的通知,明确提出“要建立教育系统数据安全责任体系和数据分类分级制度,形成教育系统数据资源目
28、录。健全覆盖数据收集、传输存储、使用处理、开放共享等全生命周期的数据安全保障制度,有力支撑教育事业发展”等工作目标。2022 年 1 月 12 日,“十四五”数字经济发展规划提出“深入推进智慧教育”,强调推进教育新型基础设施建设,深入推进智慧教育示范区建设,推动“互联网+教育”持续健康发展3。2022 年 2 月 8 日,教育部 2022 年工作要点明确提出“实施教育数字化战隐私计算在科教卫生领域应用白皮书008略行动”,建设国家智慧教育公共服务平台,加快推进教育数字转型与智能升级。文件中对数据治理提出了更高层级的要求:“强化数据挖掘和分析,构建基于数据的教育治理新模式。”和“强化关键信息基础
29、设施保障,提升个人信息保护水平。”4。由此,如何在当前教育信息化快速建设中进行数据共享建设,保证教育数据顺利、高效且安全地实现融合交换,已成为当下亟须解决的问题5。根据教育部发布的 20216年全国教育事业统计主要结果,全国共有各级各类学校 52.93万所,在校生 2.91 亿人,专任教师 1844.37 万人。随着教育行业信息化建设加速,越来越多的科研成果、学术资料、师生身份信息等数据被搜集、存储、汇聚,其中大量信息用于行业科研合作、数据交换和共享,成为支撑业务运营发展的重要资产。与此同时,随着学校及科研院所业务系统数据的互联互通,相关科研成果、课程资料、重要实验数据、学生个人信息等敏感信息
30、极易发生泄密,数据资产正被不法组织所觊觎,数据安全管理内忧外患。2016 年高考后,不法分子非法获取 50000 余条山东省 2016 年考生个人信息,某考生因个人信息泄露而被骗走上大学的费用 9900 元,后因郁结于心离世;2017 年 3 月,一名黑客利用美国 Job Link 系统中的漏洞获取 480 万名求职者的个人信息。2018 年 8 月,浙江省 1000 万学籍数据在暗网上被售卖。售卖的学籍数据覆盖了浙江的大部分市区,被泄露的信息包含了学生姓名、身份证、学籍号、户籍位置、监护人、监护人号码、居住地址、出生地、学校名称等7。2018 年 1 月,一名黑客发文称 1400 万名俄罗斯
31、大学毕业生信息泄露,即十分之一俄罗斯人的信息泄露,这些信息包括姓名、出生日期、个人账户的保险号码、纳税人识别号码、电子邮件地址等。2019 年,我国某高校的一个数据库因未正确配置公开访问权限,导致泄漏了 8.4TB 的电子邮件元数据;2019 年 8 月,某高校 50 余名学生个人信息泄露,泄漏的信息被一家企业所利用,通过向大学生虚报工资的形式达成企业偷逃税款的目的;2020 年 1 月在武汉就读的某大学生回家,而新冠疫情暴发后,包含该学生在内的 1000 多名武汉个人信息表格转遍了全市人民的微信群,包含家庭住址、家人信息、身份证号等8。2022 年,某教育软件被曝数据库用户数据泄露且在境外平
32、台被公开售卖,泄露数据量高达 1 亿 7273 万条,泄漏数据涉及学校名、姓名、手机号、学号、性别、邮箱、密码等个人隐私信息,泄漏范围覆盖全国大量高校9。009隐私计算时代背景2022 年,国家计算机病毒应急处理中心和 360 公司分别发布了关于西北工业大学遭受美国国家安全局网络攻击的调查报告,报告显示,美方先后使用 41 种专用网络攻击武器装备,对西北工业大学发起攻击窃密行动上千次,窃取了一批核心技术数据10。这些案例表明科教领域数据泄露会造成严重后果,有企业用于获得不法所得,有学生生活、健康大受影响,甚至有国家秘密外泄,影响国家安全。1.3.2卫生健康行业数据安全现状当今世界已经步入了信息
33、化时代,卫生健康行业也正在快速推进信息化的进程,据艾瑞咨询预测,我国 2021-2025 年区域医疗信息化市场空间复合增长率为 27.9%,2025 年我国医疗信息化市场空间将达到 1245 亿元11。医疗数据作为一项重要的资产,是医疗卫生领域重要的生产要素,也是反映国民幸福指数的根本依据12。我们通过利用数学、计算机等学科的技术,可以将数据转化为宝贵的医疗信息,从而帮助医院、药企等机构提供更好的医疗服务。图 12021-2025 年中国区域医疗信息化市场空间(图源:艾瑞咨询)然而在利用医疗数据提供更好医疗服务的同时,数据安全与隐私问题也日益严峻。据美国 HIPPAJournal 的报告显示,
34、2020 年全美上报的医疗记录数据泄露事件数量是 2015 年的2 倍以上、2010 年的 3 倍以上,2009 至 2020 年间,全美共有超过 2.68 亿份医疗记录遭泄露,这一数字占美国人口的比例超过 81.72%13。据网络安全解决方案公司 Greenbone 的隐私计算在科教卫生领域应用白皮书010研究发现,2019 年全球约有 590 台医学影像归档和通信系统服务器存在安全隐患,其中大约有 2430 万条患者记录和 4 亿个放射图像直接暴露在了公网之上,这些患者数据包括患者姓名、检查原因、出生日期、主治医师、治疗医院等个人隐私信息 14。2019 年 6 月 4 日,LabCorp
35、 向美国证券交易委员会提交了一份文件,称其包含 770 万名患者的数据库被黑客侵入。这个数据库存储了患者的姓名、生日、地址、电话号码以及所欠或支付的金额,且大约还有 20 万条包含信用卡或银行账户信息的条目已被黑客窃取15。近些年来,我国卫生健康行业医疗数据的安全问题也屡见不鲜。在 2018 年 7 月,武汉警方通报抓获了一个贩卖医疗客户信息的黑客组织,该黑客组织窃取并非法售卖了我国多省市 120 多家美容医院的客户资料16。在 2020 年 4 月,外媒报道某黑客正在以 4 个比特币的价格非法出售慧影医疗技术公司 AI(Artificial Intelligence,人工智能)检测新冠病毒技
36、术的源代码及与该技术相关的 1.5 MB 用户数据和 150MB 新冠病毒的实验室成果内容17。1.4隐私计算助力数据安全流通数据在流动与使用过程中如何实现安全保护与监管,本身就具有不小的挑战性。传统的数据安全保护,主要通过制定合理的管理措施,并结合加密存储、用户访问控制、用户行为审计等技术,严格限制数据的存储、访问和使用方式。优点是技术成熟度高,应用门槛低,缺点主要针对单个企业/组织内部的数据使用安全,很少考虑不同企业/机构之间的数据安全共享与使用。而在当今大数据与人工智能时代,数据本身就是重要的生产要素,单一企业/组织采集的数据由于维度或数据量的不足,很难完全满足数据的统计和计算需求,这就
37、需要联合多个数据拥有方一起共享数据资源,进行数据处理,实现数据价值的最大化。但在此过程中,同时还要保证各个数据拥有方数据的安全性和保密性。企业对于数据开放的安全性、合规性、权益分配等方面的考量,阻碍了数据的互联互通与价值实现。因而市场面临“数据需要开放,却又难以开放”的困境。解决这一矛盾需要扎实的安全技术支撑。这种新型的数据安全需求,导致了如何在保证各机构/企业/个人数据私密性的前提下,实现多方数据的联合查询、统计、建模、预测、分析,成为了数据处理领域新的研究方向,也成为未来数据安全防护的一种必然应用趋势。隐私计算以及相应的合规服务,以“数据可用不可见”的理念为“开放流通”与“合规安全”的矛盾
38、提供了重要思路与解决方案,并且在实践过程中不断得到政府和企业的认可。表 3 展示了近年来明确支持及应用隐私计算技术来解决数据合规流通问题的相关政策文件。011隐私计算时代背景表 3国内隐私计算技术相关的政策日期政策发布单位相关内容2021 年 5 月全国一体化大数据中心 协同创新体系算力枢纽 实施方案 发改委、网信办、工信部、国家能 源局试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建 数据可信流通环境,提高数据流通效率。2021 年 7 月网络安全产业高质量发展三年行动计划(2021-2023年)(征求意稿)工信部 通过隐私计算等数据安全技术的研究与应用促进数据要素安全有序流通。
39、2021 年 12 月金融科技发展规划(2022-2025 年)中国人民银行 积极应用多方安全计算、联邦学习、差分隐私、联盟链等技术,探索建立跨主体数据安全共享隐私计算平台,在保障原始数据不出域前提下规范开展数据共享应用,确保数据交互安全、使用合规、范围可控,实现数据可用不可见、数据不动价值动。2021 年 12 月“十四五”推进国家政务信息化规划 发改委 创新应用区块链、隐私计算等新技术,推进政务数据的算法式安全共享,推进国家数据共享交换平台与国家公共数据开放平台的协同联动,深化公共资源交易平台数据资源整合共享。2022 年 1 月要素市场化配置综合改革试点总体方案 国务院办公厅 建立健全数
40、据流通交易规则。探索“原始数据不出域、数据可用不可见”的交易范式。2022 年 1 月上海市推进治理数字化 转型实现高效能治理行动 方案上海市人民政府加强安全技术运用,探索借助区块链、隐私计算等新技术,加强公共数据安全保护技术能力。2022 年 3 月关于加快推进电子证照扩大应用领域和全国互通互认的意见 国务院办公厅 探索运用区块链、新兴密码技术、隐私计算等手段提升电子证照安全防护、追踪溯源和精准授权等能力。2022 年 3 月广东省数字政府改革建设2022 年工作要点广东省人民政府 办公厅 支持深圳市设立数据交易市场或依托现有交易场所开展数据交易。探索运用区块链、隐私计算等新技术强化数据安全
41、防护。2022 年 4 月关于推进社会信用体系建设高质量发展促进形成新发展格局的意见国家发改委、银保监会 鼓励各级平台应用隐私计算、联合建模等方式深化金融机构合作,服务产品研发、信用评估与风险管理。2022 年 4 月福建省做大做强做优数字经济行动计划(20222025年)福建省人民政府建设福建大数据交易中心,加快培育数据要素市场。建立“原始数据不出域、数据可用不可见”的交易范式。2022 年 4 月药品监管网络安全与信息化建设“十四五”规划 国家药监局 强化数据资源共享与大数据应用,积极探索大数据、人工智能、区块链、物联网、隐私计算等新技术在审评审批、监管检查、执法取证、全链条追溯等各类场景
42、的应用潜力。2022 年 8 月关于深化数字政府建设的实施意见 浙江省人民政府 推进数据归集扩面提效,充分对接国家平台,探索利用联邦学习、多方安全计算等新型技术,实现税务、海关、金融等国家垂直管理部门数据按需归集共享。2022 年 9 月全国一体化政务大数据体系建设指南 国务院办公厅 探索利用身份认证授权、数据沙箱、安全多方计算等技术手段,实现数据“可用不可见”,逐步建立数据开放创新机制。隐私计算在科教卫生领域应用白皮书012日期政策发布单位相关内容2022 年 9 月2022 年上海市公共数据开放重点工作安排上海市经信委针对部分重点试点场景,探索隐私计算的公共数据开放模式。2022 年 9
43、月关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见 科技部、教育部、工业和信息化部、交通运输部、农业农村部、国家卫生健康委 在加强人工智能场景创新要素供给中,应采用区块链、隐私计算等新技术,在确保数据安全的前提下,为人工智能典型应用场景提供数据开放服务。2022 年 9 月河南省大数据产业发展行动计划(20222025 年)河南省人民政府 办公厅加强隐私计算、数据脱敏、密码、区块链等技术和产品的研发应用。2023 年 1 月工业和信息化部等十六部门关于促进数据安全产业发展的指导意见工信部、网信办、发改委、教育部、科技部、公安部等十六部门加强隐私计算、数据流转分析等关键技术攻关。
44、加强数据质量评估、隐私计算等产品研发。推进安全多方计算、联邦学习、全同态加密等数据开发利用支撑技术的部署应用。在技术迅速发展与政策推动的双重因素下,中国隐私计算技术提供商快速发展,根据国际数据机构 IDC(International Data Corporation,国际数据公司)调研,2021 年,中国隐私计算市场规模突破 8.6 亿元大关。互联网企业、隐私计算创业类企业以及 AI 大数据公司、区块链公司、安全公司纷纷入局,各类企业依托在技术、数据资源方面不同的基因优势,不断在安全保障、性能算力、互联互通等方面做出技术突破。基于隐私计算进行合规与数据开放的探索是当前技术应用的主要方向。在Ga
45、rtner发布的报告 2022年重要战略技术趋势18中,Gartner 预计,到 2025 年,60%的大型企业机构将使用一种或多种隐私增强计算技术,隐私计算俨然已经成为企业数据应用的一个刚需。02隐私计算 技术介绍隐私计算在科教卫生领域应用白皮书0142.1隐私计算概述隐私计算,又称隐私增强计算(Privacy-Enhancing Computation,PEC),指在提供隐私保护的前提下,实现数据价值挖掘的技术体系。隐私计算通过安全多方计算、联邦学习、可信执行环境等技术构建特定的技术方案,在保护数据隐私的基础上实现多方数据共享,实现数据处于加密状态或非透明状态下的计算,以达到各参与方隐私保
46、护的目的。从技术角度讲,隐私计算不是单一的技术,隐私计算属于融合了密码学、人工智能、数据科学和集成电路等多个领域学科的综合性技术。从应用角度看,隐私计算领域主要关注数据在进行隐私保护的前提下,实现数据价值的流动与共享。隐私计算是多方的数据安全计算,至少有 2 个参与实体,可实现数据“价值”和“知识”的安全流动与共享,即实现“数据可用不可见”。图 2隐私计算技术发展历程19隐私计算的发展历程(如图 2)是以现代密码学为主线,协同信息论、统计学、数论、计算机体系结构等学科融合发展的渐进过程,其发展历程大致可分为萌芽期、探索期、成长期和发展期四个阶段。2019 年,隐私计算被 Gartner 列为处
47、于技术萌芽期的关键技术;2020 年,隐私计算又被列为2021年企业机构九大重要战略科技之一20,至此,隐私计算技术正式进入快速成长期。015隐私计算技术介绍2.2隐私计算技术路线隐私计算领域技术路线全景图如图 3 所示,其中隐私计算主要技术路线分三类,第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。图 3隐私计算领域技术路线全景图联邦学习(Federated Learning,FL):本质上是一种分布式机器学习的一种,通过对各参与方间的模型信息交换过程增加安全设计
48、,使得构建的全局模型既能确保用户隐私和数据安全,又能充分利用多方数据。主要用于多个参与方之间进行联合建模、联合预测。多方安全计算(Secure Multi-Party Computation,SMPC 或 MPC):基于密码学技术,完成多方间的数据融合计算,主要用于联合统计、联合查询、联合建模和联合预测。可信执行环境(Trusted Execution Environment,TEE):通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。除了以上三大主要核心技术外,隐私计算领域还会应用差分隐私、同态加密、区块链、零知识证明等技术辅助增强隐私计算
49、过程中的安全性,也会应用 FPGA 加速和 GPU 加速等辅助技术提高隐私计算过程中的计算效率。隐私计算在科教卫生领域应用白皮书0162.2.1联邦学习2.2.1.1联邦学习简介联邦学习,又名为联邦机器学习(Federated Machine Learning),是近年来数据安全领域十分活跃的一个研究热点。联邦学习是一种具有隐私和敏感数据保护能力的分布式机器学习技术。在联邦学习技术的应用中,有两个及以上的参与方,各个参与方之间不直接共享原始数据,而是通过安全的算法协议实现“数据不出本地域”的联合机器学习建模、训练以及模型预测。联邦学习的概念最早由谷歌公司 2016 年在论文21中提出,原本用于
50、解决大规模 Android终端协同分布式机器学习和涉及的用户隐私问题。作为一种新兴的技术,它有机融合了机器学习、分布式通信以及密码学与隐私保护理论。随着全球隐私法规监管的强化,以及数据利用需求旺盛,自从联邦学习概念提出以来,在学术界和工业界获得了广泛的关注,它被认为是当前解决数据利用、数据安全合规性(隐私保护)之间的矛盾最有效的技术途径之一。经过研究与发展,目前它不仅可应用于原有的B2C(Business to Customer)场景如用户移动设备的隐私数据采集与协同训练,还推广到了 B2B(Business to Business)场景企业组织间的敏感数据共享与机器学习。2.2.1.2联邦学