数据清洗、去标识化、匿名化业务规程.pdf

资源描述

1、中国信息通信研究院产业与规划研究所北京国际大数据交易所2023年11月数据清洗数据清洗、去标识化去标识化、匿名化匿名化业务规程（试行）业务规程（试行）前言前言为规范数据处理行为，指导组织正确开展数据清洗、去标识化、匿名化处理等业务活动及相应的技术测试评估，支撑数据共享、交易、开放等流通活动合规、有序进行，激活数据要素市场，依据个人信息保护法数据安全法，结合北京市数字经济促进条例北京市数字经济全产业链开放发展行动方案等法规政策要求，在北京市经济和信息化局指导下，中国信息通信研究院产业与规划研究所、北京国际大数据交易所联合编制本报告。组织依据法律法规要求及相关业务场景需要，对其控制的数据资源进

2、行清洗、去标识化、匿名化处理，是为满足数据处理目的对原始数据逐步深入加工改造的过程，是提升数据可用性和安全性的关键数据处理活动。本报告以业务操作规程形式为组织提供数据清洗、去标识化、匿名化处理的流程和方法指引，可以作为组织提升自身数据质量和可用性的指引方法，作为数据交易中介机构审核交易数据合规性、安全性和可流通性的参考规则，以及作为相关认证、检测机构结合应用场景针对相关技术进行安全测试评估的评价工具，支持、鼓励数据加工、咨询、安全、检测、认证等第三方数据服务机构发展。本报告所描述的技术方法适用于广义的数据范畴，包括但不限于个人数据、企业数据、物联网数据等，但特殊数据类型需要遵守相应的特别管理要

3、求。本报告所描述的数据清洗、去标识化、匿名化处理，是基于数据资源的加工处理过程。有“数”才能对“数”进行处理，通过采集、标识、编码形成数据资源，是对数据进行清洗、去标识化、匿名化处理的前提。前者是形成数据的基础，后者是维护数据质量和安全的关键。本报告主要描述各数据处理活动的基本原理和通用技术方法，需要结合实际场景具体适用。本报告所引用的部分技术方法参考了GB/T 37964-2019 信息安全技术个人信息去标识化指南等相关标准指南，在此基础上，结合个人信息保护法等法律法规的界定，根据技术特性和处理效果，对去标识化技术和匿名化技术进行了区分。本报告所描述的相关技术方法仍在不断丰富、演进和迭代，

4、相关应用场景也在不断发展变化，本报告将持续跟踪观察，适时更新、补充、调整和校正。欢迎各组织积极反馈技术适用情况和建议，提供技术适用场景和实践案例。目录目录一、处理目标及相互关系.1（一）数据清洗是数据可用的保障.1（二）去标识化是数据脱敏的关键.1（三）匿名化是去标识化的强化.2二、数据处理原则.4（一）合法合规.4（二）安全优先.4（三）平衡效用.4（四）技管结合.4（五）有效溯源.5三、数据清洗规程.5（一）处理目的.5（二）处理流程.6（三）常见技术方法.9四、数据去标识化规程.12（一）处理目的.12（二）处理流程.13（三）常见技术方法.18五、数据匿名化规程.21（一）处理目的.2

5、1（二）处理流程.21（三）常见技术方法.25六、数据处理环境要求.29（一）管理制度要求.29（二）技术能力要求.30（三）人员能力要求.30（四）过程控制要求.30（五）事故管理要求.31附件一：常见直接标识符和准标识符示例.32附件二：常见标识符的去标识化或匿名化参考.36附件三：部分数据处理技术方法应用建议.40参考资料.43表目录表目录表 1数据清洗、去标识化、匿名化处理的技术特点和差异.3数据清洗、去标识化、匿名化业务规程（试行）1习近平总书记在 2023 年中国国际服务贸易交易会全球服务贸易峰会上发表视频致辞指出，要“推动数据基础制度先行先试改革”。中共中央国务院关于构

6、建数据基础制度更好发挥数据要素作用的意见要求“创新技术手段，推动个人信息匿名化处理”。规范数据清洗、去标识化、匿名化处理，有助于提升数据的可用、可信、可流通、可追溯水平，推动数据要素强化优质供给，是建立合规高效、场内外结合的数据要素流通和交易制度的重要内容。具体来说，为满足数据可用性和安全性进行的数据清洗、去标识化、匿名化处理，是数据产品进场上市的条件，也是数据资产登记、交易的前提，更是数据应用、建模释放二次衍生价值的底线。本报告通过明晰数据清洗、去标识化、匿名化处理三者之间的关系，总结各项处理活动的处理目的、流程、技术方法及环境要求，以期为相关组织开展相应数据处理活动和测试评估提供参考。一

7、、处理目标及相互关系（一）数据清洗是数据可用的保障（一）数据清洗是数据可用的保障数据清洗是运用一定方法修正识别到的数据问题，实现数据的规范性、完整性、一致性、准确性和可溯源性，提高数据质量的过程。数据清洗旨在满足数据的可用性要求，是数据资源预处理的第一步，也是保证后续处理结果准确、科学、有效的重要一环。数据清洗作为数据后续开发利用的基础，是数据去标识化和匿名化处理的前置步骤。（二）去标识化是数据脱敏的关键（二）去标识化是数据脱敏的关键数据去标识化是指数据经过处理，使其在不借助额外信息的情况数据清洗、去标识化、匿名化业务规程（试行）2下无法识别特定自然人或相关标识符的过程。数据去标识化处理强调标

8、识符的“不可识别性”，即对数据内含的相关敏感信息内容进行脱敏处理，通过去除、替换、模糊等方法，达到不借助额外信息的情况下无法识别特定自然人或相关标识符的效果。数据去标识化与在先的标识形成过程分属数据处理的不同阶段及场景。标识形成是产生数据的过程，使得被标识对象据此可以被组织进行有效管理和开发利用。数据去标识化是标识数据产生后的加工处理过程，旨在提升标识信息的安全防护水平，确保敏感的标识内容不被未经授权的主体获取和利用。去标识化处理是强化标识数据安全性的重要保障。例如，制造业企业通过对产品、零部件、设备进行标识，形成了可精准定位产品和设备的数据资源，在委托外部第三方技术开发商进行相关应用系统开发

9、时，需要对含有敏感内容或涉及商业秘密的数据进行去标识化处理。数据去标识化处理暗含了相关标识符具有“复原”的可能，去标识化无法单独实现匿名化的法律效力。例如，对个人信息进行去标识化处理后的数据，仍属于个人信息范畴。（三）匿名化是去标识化的强化（三）匿名化是去标识化的强化数据匿名化是指数据经过处理，无法识别特定自然人或相关标识符且不能复原的过程。数据匿名化处理在强调标识符的“不可识别性”基础上，要求标识符同时满足“难以复原性”标准，是数据去标识化的进一步处理，即数据去标识化后应用相关技术使相关标识符难以复原的过程。经匿名化处理后数据的初始效用将受到较大程度的改变。数据清洗、去标识化、匿名化业务规程

10、（试行）3与数据去标识化相比，经匿名化处理后的数据即便借助了额外信息也难以识别特定自然人和被处理的标识符。例如，对个人信息进行匿名化处理后的数据，不再属于个人信息范畴。但匿名化处理仅是描述应用匿名化技术的过程，并非描述数据达到绝对匿名化的状态，完满、绝对的不可复原状态无法 100%确定。表 1 数据清洗、去标识化、匿名化处理的技术特点和差异加工后数据加工后数据改造程度改造程度（相对原始数据）数据有用性数据有用性（针对个体记录）数据安全性数据安全性（脱敏程度）清洗后数据低高低（单独可识别）去标识化数据中中中（不借助额外信息不可识别）匿名化数据高低高（借助额外信息也难以复原的不可识别）来源：中国信

11、息通信研究院去标识化技术和匿名化技术没有严格界分，二者核心都是通过技术手段对标识信息进行脱敏处理，实现对敏感数据内容的保护，实践中两类技术通常可以组合使用实现预期处理效果。本报告根据抗重新识别的风险能力大小和对敏感内容安全防护程度的差异，将相关技术划分为去标识化技术和匿名化技术。仍保留原始数据个体颗粒度的，纳入去标识化技术方法范畴；不再保留原始数据个体颗粒度，或原始数据记录的真实性已受到显著减损，或原始数据记录不对外披露的，纳入匿名化技术方法范畴。数据清洗、去标识化、匿名化业务规程（试行）4二、数据处理原则（一）合法合规（一）合法合规组织开展数据清洗、去标识化和匿名化处理，应满足我国法律、法规

12、、规章和标准规范对数据安全和个人信息保护的有关规定，不得不当损害国家、社会和第三方组织及个人的合法正当权益。（二）安全优先（二）安全优先组织应采取相应的管理和技术措施，保证数据加工处理过程的安全性。数据的安全性考虑是组织开展数据去标识化、匿名化处理活动的首要目的，以降低数据在后续流通、应用环节的安全风险，降低数据安全事故发生概率。（三）平衡效用（三）平衡效用组织应根据业务目标和安全保护要求，面向场景化应用需求，选择恰当的清洗、去标识化和匿名化处理路径和技术，在确保安全的前提下，强调数据质量要求，尽可能满足预期效用，促进数据安全性和可用性的有效平衡。（四）技管结合（四）技管结合组织应综合利用技术

13、和管理两方面措施实现数据处理的最佳效果，根据工作目标和数据安全要求制定适当的策略，选择合适的模型和技术，建立完善的管理架构、操作权限和责任机制，将技术和管理措施嵌入数据清洗、去标识化、匿名化处理全流程，并定期跟踪评估和持续改进。数据清洗、去标识化、匿名化业务规程（试行）5（五）有效溯源（五）有效溯源组织应明确各环节的数据处理权限和流程，对数据清洗、去标识化、匿名化设置访问控制程序，采取措施清晰记录数据处理过程的细节、使用的参数和控制措施，及时发现已经出现或可能出现的偏差或不当操作，支撑后续对数据处理过程进行维护、审计和追溯。三、数据清洗规程（一）处理目的（一）处理目的组织实施数据清洗活动，应保

14、证清洗加工过程和输出结果符合以下要求：1.规范性数据来源合法，数据的格式、质量及存储标准应统一，应使用相同度量单位描述同一场景下的同类数据，满足数据互联互通要求，不存在空值、无效值，响应依据规范标准的各种查询和各种计算。2.准确性应对数据所指向的内容客观、真实、准确描述，可对清洗前后的数据进行内外部比对校验，并对具有时效要求的数据根据时间特性及时更新，确保清洗加工不造成数据失真、错漏。3.完整性清洗后的数据应保证数据的连续性、完整性，源数据应在源头或备份表中能找到，数据在字段、记录内容或数据集内不应有重复值。4.一致性数据清洗、去标识化、匿名化业务规程（试行）6各字段内的数据应与字段描述一致，

15、同一个数据在同一时刻在不同数据库、应用和系统中应保持一致。5.可溯源性应在数据清洗转换前对原始数据进行备份，对清洗过程所使用的方法、参数和路径进行记录，保证原始数据可溯源，便于后续查证或重新使用。（二）处理流程（二）处理流程数据清洗的流程通常包括抽取清洗对象、明确清洗规则、标识错误数据、数据修正处理、数据转换检验、评估清洗结果六个步骤。1.抽取清洗对象（1）明确清洗对象选取需要进行清洗处理的数据，明确清洗的数据范围、类型、性质、体量、内容、关系、质量等信息，全面分析清洗标的的情况，对清洗数据进行分类分级。（2）对清洗对象进行抽取清洗对象的抽取应当允许对结构、半结构和非结构等不同类型数据进行抽取

16、，包括对数据的全量抽取和增量抽取，数据抽取后的表结构应与抽取来源的表结构保持一致。2.定义清洗规则（1）确定清洗效果和目标根据清洗的必要性，分析对应数据资源的特点和清洗复杂程度，数据清洗、去标识化、匿名化业务规程（试行）7结合业务要求或用户和其他相关方的需求，明确清洗的程度和需要达到的质量效果。（2）确定清洗逻辑规则结合所抽取的清洗对象的数据特点，以需求为导向，以应用为目标，以数据的可用性为评价标准，明确各数据错误类型的判断标准及相应的修正处理方式。3.标识错误数据（1）筛选错误数据分析筛选出数据资源中存在的数据问题和对应的数据。按照常见错误数据的类型，对数据问题进行分类，针对性进行错误标识，

17、并支持对已标识的错误数据进行查询定位。可采用统计学、关联规则、业务区分等方法来对目标数据进行错误检测，识别出数据的错误类型并进行标识。例如，通过使用统计学方法（例如均值、标准差、范围或分位数）对数据进行分析和可视化，发现异常值或离群值，从而标识错误数据。（2）常见错误类型残缺数据：数据中缺失一些记录，或一条记录中缺失一些值，或两者都缺失。偏差数据：数据没有严格按照要求记录，包括格式内容错误、逻辑错误、不合规数据等。重复数据：数据中出现多条相同记录，或多条记录反映同一内容，数据清洗、去标识化、匿名化业务规程（试行）8通常发生在数据来自不同来源、数据多次采集、瑕疵数据更正备份等情形。其他错误：数据

18、未能准确反映所描述的对象的其他情形，如非结构化或半结构化数据、无意义数据、不相关数据等。4.数据修正处理对已标识的残缺数据、偏差数据、重复数据和其他错误数据分别采用针对性的方法和工具进行处理。常见的数据清洗工具包括软件工具、脚本等类型。选择清洗方法和策略时，应根据清洗目标和业务需要，结合数据错误类型，采取删除、填充、更换等不同的方式处理，具体可参考本节“（三）常见技术方法”。5.数据转换检验（1）错误数据转换对错误数据的格式、信息代码、值的冲突进行转换。数据转换前应检查需要转换的数据规则和字段是否一致。（2）转换结果检验一是内容检验，即对转换后数据内容的完整性、全面性进行检验，包括非空检验和数

19、据量检验。二是格式检验，即对照数据格式样例或相关标准对转换后数据格式的规范性、一致性进行检验。三是逻辑检验，即结合相关联数据对转换后数据逻辑是否符合预先设定的范围、区间、大小、数值关系等规则的约束性要求进行检验。数据清洗、去标识化、匿名化业务规程（试行）9四是合规检验，即结合业务场景的合规要求对转换后数据内容是否符合法律法规和强制性标准的要求进行检验。四是合规检验，即结合业务场景的合规要求对转换后数据内容是否符合法律法规和强制性标准的要求进行检验。6.评估清洗结果数据清洗后及时评价输出结果是否符合事先设定清洗规则和规范性、准确性、完整性、一致性、可溯源性等目标要求，并从业务角度评估清洗后数据的

20、有用性，判断是否可以支撑后续加工处理活动。（三）常见技术方法（三）常见技术方法1.残缺数据处理组织应当按照所需处理数据的字段缺失比例和重要性，采取差异化的策略进行处理。重要性高，缺失率低的字段，可以通过计算结果填充并进行核验；重要性高，缺失率高的字段，重新采集获取或通过其他渠道取数补全；重要性低，缺失率低的字段，不做处理或简单填充；重要性低，缺失率高的字段，可以选择删除该字段。（1）删除缺失值当样本数量充足，且出现缺失值的样本占比相对较小时，可以备份当前数据后，直接删除后期加工处理不需要的字段和缺失值。（2）填充缺失内容存在缺失率较低但相对重要的数据项时，可以通过计算填充并进行核验的方式进行补

21、全，包括不同指标的计算结果填充和同一指标的数据清洗、去标识化、匿名化业务规程（试行）10计算结果填充。不同指标的计算结果填充：即通过数据项与数据项之间的逻辑联系，采取相应的计算方法得到缺失内容。包括热卡填补法、最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法等。例如，数据中年龄字段缺失，可以从公民身份证号中提取年龄字段。同一指标的计算结果填充：即通过对同一指标列的数据采取均值、中位数、众数等方式进行计算，将相应结果进行填充，多用于数值型数据。例如，某一记录的身高数据缺失，可以使用该字段的均值进行填充。（3）重新采集数据补全存在缺失率较高且相对重要的数据项时，可以通过线下

22、补充收集、业务知识或经验推测、新增抽取其他数据源数据等方式，进行关联对比后填补。2.偏差（异常）数据处理组织应当对未符合规范要求，存在格式、逻辑及内容不匹配等方面偏差的数据进行处理。（1）格式不规范数据对存在格式不规范等问题的数据进行处理，包括全、半角处理和无效字符处理。按照事先定义的规则进行全、半角符号统一，以半自动校验结合半人工方式发现错误字符，进行自动化修正或人工修正。数据清洗、去标识化、匿名化业务规程（试行）11（2）逻辑冲突数据对存在不符合逻辑约束要求、相互间存在冲突的数据进行处理，可通过直接推理、关联修正和逻辑重构等方式进行，并再次进行校验。直接推理：了解数据潜在的逻辑规则，采取逻

23、辑推理法，直接处理简单逻辑错误的数据。关联修正：借助分箱、聚类、回归等方法识别逻辑错误数据，通过相互验证的方法修正矛盾内容。逻辑重构：对于重要性较高的不合理数据进行人工干预，或重新采集数据，引入更多数据源进行逻辑的重新梳理并再次进行校验。（3）内容不匹配数据对存在噪声数据、超出明确取值范围，以及数据中存在敏感信息或内容不符合要求等数据进行处理。通过设定判定规则，借助自动化手段判断数据是否在规则范围内，不在规则范围内的，进行警告及人工处理。噪声数据：对噪声值进行平滑处理，或在不影响数据结构和后续使用情况下，将噪声数据进行删除处理。离群值数据：判断超出明确取值范围数据的来源是否可靠，数据的存在是否

24、合理，合理的数据予以保留，不合理数据予以调整。内容不对应数据：识别内容与字段要求不匹配的问题类型，如人工填写错误、导入数据时没有对齐、数据源端业务系统缺陷等，通过关联、修正或重新采集等方式匹配相应字段进行填补。3.重复数据处理数据清洗、去标识化、匿名化业务规程（试行）12将具有相同含义的数据判定为重复数据，包括相同数据和相似数据。相同数据：形式、含义和内容均相同的数据，根据来源权威性和应用场合，选择最恰当渠道来源的数据，或在不影响数据保真度和完整性的情况下进行合并处理。相似数据：识别相似数据的各自含义，判断数据的实质含义上是否存在差异，实质含义相同的数据按照相同数据进行处理，实质含义有差异的数

25、据，不能界定为重复数据，应分别保留。4.其他错误数据处理针对数据未能准确反映所描述的对象的其他情形，可以采取以下通用方式进行处理：将非结构化和半结构化数据转化为结构化数据；将无意义数据、不相关数据在进行必要性和相关性评估后进行删除，提升后续数据处理效率；对仍存在问题未处理的错误数据存入问题数据库，便于后续查证或重新使用四、数据去标识化规程（一）处理目的（一）处理目的组织实施数据去标识化，应当确保经过处理的数据达到以下效果：1.标识不可识别对数据中的直接标识符和准标识符进行处理，避免未经授权的主体无需借助其他额外信息，直接根据这些标识内容便可以识别出原始数据清洗、去标识化、匿名化业务规程（试行）

26、13信息主体或相关标识符。2.控制被识别风险将去标识化后的数据可能被未经授权的主体再次识别的风险控制在可接受的范围内，确保标识符暴露的风险不会因数据接收方之间的潜在串通或新数据的增加而增加。3.兼顾数据效用目标有效平衡数据的安全性和可用性，选择合适的去标识化模型和技术，确保去标识化后的数据尽量满足数据开发利用的预期目的和效用，在数据安全前提下最大发挥去标识化数据应用价值。（二）处理流程（二）处理流程数据去标识化的流程通常包括确定去标识化对象、制定去标识化目标和计划、识别相关标识符、对标识符进行处理、验证审核处理结果、评估重新标识风险六个步骤。1.确定去标识化对象组织对于自身合法取得、合法持有，

27、并实际控制的数据，应当基于外部和内部的多方面因素的考量确定需要进行去标识处理的数据范围。（1）法规标准要求根据国家、地区或行业的相关政策、法律、法规等的强制性规定，判断待收集、存储、使用、加工或向第三方提供的数据是否涉及去标识化的相关要求。例如，个人信息保护法第 51 条要求，个人信息数据清洗、去标识化、匿名化业务规程（试行）14处理者应当采取加密、去标识化等安全技术措施，防止未经授权的访问以及个人信息泄露、篡改、丢失。（2）组织策略要求根据自身数据管理要求，或者按照与相关合作方约定，判断数据进行内外部应用时是否需要进行去标识化处理。例如，将个人信息对外展示时，参考GB/T 352732020

28、信息安全技术个人信息安全规范，涉及通过界面展示个人信息的（如显示屏幕、纸面），个人信息控制者宜对需展示的个人信息采取去标识化处理等措施，降低个人信息在展示环节的泄露风险。（3）数据来源方要求根据数据采集时是否存在对数据来源方等作出了去标识化的相关承诺或约定，判断对数据进行加工或向第三方提供时是否需要进行去标识化处理。例如，组织已在产品隐私政策中声明，将用户个人信息用于对外提供学术研究或描述的结果时，承诺对结果中所包含的个人信息进行去标识化处理。2.制定去标识化目标均衡数据安全性和可用性两方面需求，确定数据去标识化处理需要达到的效果。（1）明确标识被识别风险的控制要求分析数据的来源、性质、类

29、型，梳理待处理数据是否涉及法律法规要求和相关承诺，结合去标识化后数据的主要用途和使用范围，考虑可能采用的去标识化模型和技术的应用方向及能力，综合评价组织数据清洗、去标识化、匿名化业务规程（试行）15对相关标识符和准标识符被重新识别的风险的不可接受程度。（2）明确满足数据可用性的最低要求结合数据去标识化后的用途，评估相关技术方法的应用对初始数据的改造程度，分析数据去标识化后对业务活动的可能影响，提出数据有用性的最低要求。3.识别相关标识符根据去标识化的目标，针对需要去标识化的数据，识别出需要进行处理的直接标识符和准标识符。组织可以通过以下方法识别：（1）查表识别组织通过预先建立标识符元数据索引表

30、，待具体识别时，将待识别数据的各个属性名称或字段名称，逐个与元数据表中的标识符进行比对。标识符元数据索引表应当包括标识符名称、含义、格式要求、常用数据类型、常用字段名称等信息。查表识别法适用于数据集格式和属性相对明确的去标识化场景。（2）规则判定组织通过总结可能涉及直接标识符和准标识符的数据格式和规律，确立相关标识符识别规则，然后通过运行软件程序，自动化地从数据集中识别出标识数据。结构化数据和非结构化数据的标识识别均可适用规则判定法。如通过建立身份证号识别规则，识别非结构化存储的司法判决书中的身份证号。数据清洗、去标识化、匿名化业务规程（试行）16（3）人工分析在必要场景下，组织通过人工发现和

31、确定数据集中的直接标识符和准标识符。人工分析法适用性较强，当数据集中有特别含义的数据，或数据具有特殊值、容易引起注意的值，或者数据集中的多个不同数据子集之间存在关联、引用关系时，人工分析可以针对性地识别和分析。4.对标识符进行处理对数据集进行去标识化前，应当先通过数据清洗，形成规范化或满足特定格式要求的数据。在此基础上，针对不同特征和处理要求的数据类型，考虑去标识化的影响，在可接受的被重新识别风险范围内尽量满足数据可用性的最低要求，选取有效的去标识化技术方法和模型进行处理。具体可参考本节“（三）常见技术方法”。技术选择需要考量相关因素包括：数据是否可以删除，是否需要保留至少若干个类别的数据项；

32、去标识后的数据是否需要保持唯一性、可逆性，是否需要保持原有的数据格式、表达顺序、统计特征等；是否可以对属性值实施随机噪声添加；以及运用该去标识化技术的成本考量、可承受的重新标识风险范围和业务影响等。5.验证数据处理结果对数据去标识化结果进行验证，确保处理后的数据在安全性和可用性方面符合预设要求。（1）安全性验证数据清洗、去标识化、匿名化业务规程（试行）17验证经去标识化处理后数据的安全性，确保所生成数据被重新识别的风险在组织预设的可接受风险范围内。组织可以通过检查生成的数据结果、检查去标识化过程及记录、开展入侵者测试等方式验证去标识化数据的安全性。（2）有用性验证分析去标识化后的数据对于预期应

33、用和业务的影响，判断处理后数据的质量是否还能满足预期业务用途。组织可以对原始数据和去标识化后数据分别执行统计计算，并对计算结果进行比较，判断去标识化后的计算结果是否仍可接受。6.评估被识别风险对去标识化后的数据进行标识符被识别的风险进行评估，与预期可接受的风险阈值进行比较。若风险超出阈值，需继续进行调整直到满足要求。标识符被识别风险评估常见的流程包括评估准备、定性评估、定量评估、形成评估结论等环节，组织可借鉴GB/T 42460-2023信息安全技术个人信息去标识化效果评估指南进行流程设计。按照标识符被识别的风险从高到低，可以将相应的风险阈值划分为高风险、较高风险、可控风险、低风险 4 个等

34、级。高风险（4 级）：能直接识别主体或敏感属性的数据，即包含直接标识符的数据；较高风险（3 级）：仅消除直接标识符的数据，即删除了直接标识符，但仍包含准标识符的数据；可控风险（2 级）：消除直接标识符和准标识符的数据，即对直接标识符和准标识符均进行了处理，在不借助额外信息的情况下，无法识别或关联识别个人信数据清洗、去标识化、匿名化业务规程（试行）18息主体或特定标识内容；低风险（1 级），不再保留个体颗粒度的聚合数据，如总计数、最大值、最小值、平均值等。（三）常见技术方法（三）常见技术方法本报告将仍保留原始数据个体颗粒度的技术类型，纳入去标识化技术方法范畴。部分技术方法参考了GB/T 3796

35、4-2019 信息安全技术个人信息去标识化指南。组织根据需要选择相应的去标识化技术，常见的去标识化技术包括数据抽样技术、加解密技术、假名化技术、抑制遮盖技术等，不同技术之间可以结合使用。1.数据抽样技术数据抽样是通过选取数据集中有代表性的子集来对原始数据集进行分析和评估。对数据集进行随机抽样能够增加识别出特定标识符的不确定性，可以作为后续应用其他技术强化去标识化效果的初步处理。数据抽样的方式较多，需要根据数据集的特点和预期的使用场景进行选择，包括随机抽样、等距抽样、分层抽样、整群抽样等。2.加解密技术加解密技术是指利用算法对数据进行加密和解密操作，以密码学为基础构建加密函数，输入敏感数据和相

36、关标识符，输出处理后的加密隐藏数据。同时在有需要的时候，可以对数据进行解密操作，即在拥有密钥的条件下，可以对标识符进行复原。常见的数据加密方法包括确定性加密、保序加密、保留格式加密、同态加密等。确定性加密：指通过确定性加密结果替代数据中的标识符值。确数据清洗、去标识化、匿名化业务规程（试行）19定性加密是一种非随机加密方法，可以保证数据真实可用，一定程度上保证数据在统计处理、隐私防挖掘方面的有用性，也可以生成用于精准匹配搜索、数据关联及分析的微数据。对确定性加密结果的分析多用于检查数据值是否相等。保序加密：指通过保序加密值替代微数据中的标识符值。保序加密同样是一种非随机加密方法，密文的排序与明

37、文的排序相同。对保序加密结果的分析多用于检查数据是否相等和排序关系比较。保留格式加密：指加密过程要求密文与明文具有相同的格式，可用保留格式加密值替代微数据中的标识符值。保留格式加密可以保证加密后的数据具有与原始数据相同的格式和长度，有助于在不需要修改应用系统匹配格式的情况下实现去标识化。同态加密：指将原始数据加密后，对得到的密文进行特定的运算，得到的计算结果等价于基于原始明文数据直接进行相同计算所得到的数据结果。同态加密是一种随机加密，对经过同态加密的数据进行处理得到相同的输出结果，处理过程不会泄露任何原始内容。3.假名化技术假名化技术是指使用虚构的名称或数值，替换原始数据的直接标识符或准标识

38、符的过程。假名化技术保留了原始数据的唯一性特点，也被称为编码。不同数据在假名化处理后依然可以进行关联，并且不会泄露原始标识符。当需要唯一区分数据值并且没有保留关于原始属性的直接标识符的字符或任何其他隐含信息时，可以使用假名化技术。假名可以独立生成或借助密钥编码生成。数据清洗、去标识化、匿名化业务规程（试行）20独立生成假名：即不依赖于被替代的原始值，生成独立于标识符的假名创建技术，如使用随机值代替标识符原始值。组织需要创建假名与原始标识的分配表，并采取适当的技术与管理措施限制和控制对该分配表的访问。基于密钥的假名编码：即基于密码技术的标识符派生假名创建技术，通过对属性值采用加密或散列等密码技术

39、生成假名，也被称为对标识符进行“密钥编码”。其中加密技术生成的假名可以用合适的密钥及对应的算法解密。4.抑制遮盖技术抑制遮盖技术即对需要进行处理的标识符或数据项进行删除或屏蔽。抑制技术主要适用于分类数据，可用于数值与非数值数据属性，执行相对容易，通过直接删除或屏蔽降低关联识别的风险，且可以保持数据的真实性，但会造成一定程度的信息缺失。但过多的抑制会影响数据的效用，为保证数据的可用性，组织需要对抑制的数据项数量和范围设定上限。抑制遮盖需要是永久性的，而不仅仅是“隐藏”功能，如果底层数据仍然可访问或编辑，则未达到抑制遮盖效果。根据抑制方式的差异，抑制遮盖技术可以分为直接删除或字符掩码屏蔽。直接删除

40、：即从数据集中直接删除相关标识符，或删除标识符中的部分属性或内容，或者删除涉及特定属性标识符的数据记录。字符掩码：通过使用一致的符号（例如“*”或“x”）来替换原数据标识符或标识符中的部分数值。区别于仍具有唯一性的假名，进行同一属性的数值所替换的字符掩码均为相同，具有一致性。数据清洗、去标识化、匿名化业务规程（试行）21五、数据匿名化规程（一）处理目的（一）处理目的1.促使标识难以复原数据匿名化处理是数据去标识化后应用相关技术使相关标识符难以复原的过程，是数据去标识化的进一步处理。与数据去标识化相比，经匿名化处理后的数据即便借助了额外信息也难以识别特定自然人和已被处理的标识符。2.符合风险可接

41、受水平任何数据均有被复原的可能。数据匿名化处理并非追求完美、绝对的匿名化状态，强调的是运用匿名化技术将原始数据相关标识符的可识别性降低到监管和组织可接受的风险水平。如果信息主体和相关标识符的识别需要不合理的时间、努力或资源，则不视为是可复原的。3.支持统计、训练用途经匿名化处理的数据，数据颗粒度、精确度受到影响，不再保留个体数据记录。例如，经匿名化处理的个人信息，不再属于个人信息范畴。与基于个体特征识别的用户画像、设备定位等用途不同，对数据匿名化处理主要为了支撑统计分析、算法训练、科学研究等场景。（二）处理流程（二）处理流程数据匿名化的流程通常包括明确匿名化处理对象、设定匿名化处理目标、先行去

42、标识化处理、实施数据匿名化处理、评估匿名化效果、定期追踪复原风险六个步骤。数据清洗、去标识化、匿名化业务规程（试行）221.确定匿名化对象根据法律要求和业务用途，确定需要进行匿名化处理的数据类型和范围。（1）按照监管要求确定处理对象例如，组织遵照汽车数据安全管理若干规定(试行)要求，因保证行车安全需要，在无法征得个人同意采集到车外个人信息且需要向车外提供时，对相关数据进行匿名化处理，包括删除含有能够识别自然人的画面，或者对画面中的人脸信息等进行局部轮廓化处理等。（2）遵循最小必要原则确定处理对象例如，征信机构按照征信业务管理办法规定，在个人不良信息保存期限届满时，将个人不良信息在对外服务和应用

43、中删除；作为样本数据继续使用的，进行匿名化处理。（3）履行约定或承诺义务确定处理对象例如，组织按照 GB/T 35273-2020 信息安全技术个人信息安全规范规定，在相关数据超出个人信息约定的存储期限或达成处理目的后，以及组织停止运营其产品或服务时或用户注销账户时，对个人信息进行删除或匿名化处理。（4）基于业务开展需要确定处理对象例如，国家卫生健康委等四部门发布的涉及人的生命科学和医学研究伦理审查办法中，将“使用匿名化的信息数据开展研究”作为“免除伦理审查”的情形之一，组织为减少科研业务不必要的合规负担，使用匿名化数据开展涉及人的生命科学和医学研究。数据清洗、去标识化、匿名化业务规程（试行

44、）232.设定匿名化目标满足安全性要求是数据匿名化处理的首要目标。组织应结合业务场景和安全防护管理要求，根据数据的性质、使用环境和使用的匿名化技术等，结合匿名化数据的主要用途和使用场景，对标识符被复原的可能性进行分析，评估相应的风险，设定可被组织和监管部门接受和认可的风险阈值。3.先行去标识化处理组织应将去标识化作为匿名化处理的一部分执行，结合前述数据去标识化业务规程，识别相关直接标识符和准标识符，针对性进行去标识化处理，先行满足数据的“不可识别性”要求，达到数据在不借助额外信息的情况下无法直接识别特定自然人或相关标识符的效果，为后续的匿名化操作奠定基础。4.实施匿名化处理组织针对已去标识化的

45、数据应用匿名化技术，使未获得授权主体不能轻易地将该数据与可能包含额外信息的其他数据相结合，从而难以复原特定自然人信息或相关标识符。不同匿名化技术的技术特点不同，选择处理技术时，应当结合数据类型和性质、业务场景、处理目的等进行综合考量，相关技术具体可参考本节“（三）常见技术方法”。选择匿名化技术过程中需要考虑以下因素：一是考虑所采用的匿名化技术进行处理后数据是否仍满足预期效用。匿名化处理可能对原始数据格式、数值和表达方式进行较大变动，将对原始数据的保真性、颗粒度形成较大影响。数据清洗、去标识化、匿名化业务规程（试行）24二是考虑将相关匿名化技术和去标识化技术组合使用，形成系统性匿名化处理方案。例

46、如，如果某个属性类别的数值直接删除不会影响数据效用，可以选择抑制遮盖技术对相关数据项予以删除处理。三是考虑不同匿名化技术的适用场景。结合技术特点和目标要求选择相应技术。如针对连续值属性的数据可以采用噪声添加、数据扰动等随机化技术，针对无需体现个体数据记录的情形可以采用聚合统计等技术。同时，针对同一场景或同一数据类型的匿名化处理，也可多种匿名化技术结合使用。5.评估匿名化效果组织应用适当的匿名化技术后，应当对匿名化处理的效果进行分析评估。计算标识符被复原或重新标识风险的方法需要综合考虑数据因素和环境因素。GB/T 42460-2023 信息安全技术个人信息去标识化效果评估指南提供了“基于 K

47、匿名模型的重标识风险计算方案及评估事例”，可供组织借鉴参考。k-匿名值是一种计算数据集重新识别风险水平的方法，指数据集中可以分组在一起的相同记录的最小数量。在评估数据集的总体重新识别风险时，通常采用最小值来表示最坏情况。k-匿名值较高意味着重新识别的风险较低，k 匿名性值较低意味着风险较高。K-匿名值为1 表示记录是唯一的。k-匿名值需要结合实际场景、处理目标和安全等级要求进行具体设定。在可能的情况下，应设置更高的 k-匿名阈值，以最小化任何重新识别风险。需注意，k-匿名可能不适用于所有类型的数据集或其他复杂情形。数据清洗、去标识化、匿名化业务规程（试行）256.定期追踪复原风险组织应当定期追

48、踪内外部相关主体对匿名化处理数据的使用情况，评估新技术、新数据、新主体的引入可能带来的标识符被复原的新隐患，考虑数据的流通范围、可能的技术演变等，以及未知的跨库数据可能导致与匿名数据集匹配的情形，进而采取适当措施保护相关标识符免受复原识别和披露的风险。（三）常见技术方法（三）常见技术方法本报告将不再保留原始数据个体颗粒度，或原始数据记录真实性已受到显著减损，或原始数据记录不对外披露的技术类型，纳入匿名化技术方法范畴。部分技术方法参考了GB/T 37964-2019 信息安全技术个人信息去标识化指南。组织可结合具体场景单独或组合选用聚合统计、泛化、随机化、数据合成、隐私计算等技术进行处理。1.

49、聚合统计技术聚合统计技术指将数据集从记录列表转换为汇总值或相关统计值的方法，可以视为求和、计数、平均、最大值与最小值等一系列统计技术的集合。由于聚合统计技术的输出是“统计值”，该值有利于对数据进行整体报告或分析，产生的结果能够代表原始数据集中的所有记录，且不会披露任何个体记录，很大程度上降低了个体的标识符被重新识别的风险。当组织不需要单独的数据记录且聚合数据足以满足预期效用时可以采用聚合统计技术。例如，2022 年我国 18-80 岁女性平均体重 59.8kg，如果以平均体重来标识数据集中每个人的体重值，则未获得授权主体无法根据体重数据清洗、去标识化、匿名化业务规程（试行）26属性将某一条数据

50、记录（女，北京，1.63m，59.8kg，1990 年 9 月 1日）关联到特定个人。使用聚合统计技术应注意两方面的应用要求：一是数据聚合统计可能会显著改变数据的初始用途，因为输出的结果为统计值，无法反映每一单独数据记录的特征；二是应用聚合统计技术对原始数据的样本量具有一定要求，若原始数据记录的数量很少，则结合其他数据容易推断出其中具体的单独数据记录的特征。2.泛化技术泛化技术也是一种概括方法，又被称为离散化处理，是通过降低数据所选属性的颗粒度、精度，对数据进行更概括、抽象描述的匿名化技术。使用泛化技术的目标是减少属性唯一值的数量，使得被泛化后的值被数据集中多个记录所共享，从而增加某个特定数据

展开阅读全文