收藏 分销(赏)

DB5120∕T 19.5-2023 数据资源体系技术指南 第5部分:数据脱敏工作指南(资阳市).pdf

上传人:曲**** 文档编号:641322 上传时间:2024-01-22 格式:PDF 页数:12 大小:272.92KB
下载 相关 举报
DB5120∕T 19.5-2023 数据资源体系技术指南 第5部分:数据脱敏工作指南(资阳市).pdf_第1页
第1页 / 共12页
DB5120∕T 19.5-2023 数据资源体系技术指南 第5部分:数据脱敏工作指南(资阳市).pdf_第2页
第2页 / 共12页
DB5120∕T 19.5-2023 数据资源体系技术指南 第5部分:数据脱敏工作指南(资阳市).pdf_第3页
第3页 / 共12页
DB5120∕T 19.5-2023 数据资源体系技术指南 第5部分:数据脱敏工作指南(资阳市).pdf_第4页
第4页 / 共12页
DB5120∕T 19.5-2023 数据资源体系技术指南 第5部分:数据脱敏工作指南(资阳市).pdf_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、ICS 35.040CCS L 71DDB B5 51 12 20 0四 川 省(资 阳 市)地 方 标 准DB5120/T 19.52023数据资源体系技术指南第 5 部分:数据脱敏工作指南2023-12-22 发布2023-12-29 实施资阳市市场监督管理局发 布DB5120/T 19.52023I目次前言.II1范围.12规范性引用文件.13术语和定义.14总则.25数据脱敏流程.46常用脱敏方法.6参考文献.8DB5120/T 19.52023II前 言本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专

2、利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。DB5120/T 19.520231数据资源体系技术指南第 5 部分:数据脱敏工作指南1范围本文件规定了资阳市域数据脱敏工作相关术语和定义、总则、数据脱敏流程、常用脱敏方法等工作规范。本文件适用于资阳市域政务组织、非政务组

3、织和个人信息资源数据的脱敏工作的规划、实施和管理。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1信息技术 词汇 第 1 部份:基本术语GB/T 11457信息技术 软件工程术语GB/T 18492信息技术 系统及软件完整性级别GB/T 20270信息安全技术 网络基础安全技术要求GB/T 20271信息安全技术 信息系统通用安全技术要求GB/T 22032系统工程 系统生存周期过程GB/T 25000系统与软件工程(所有

4、部分)GB/T 28452信息安全技术 应用软件系统通用安全技术要求GB/T 29264信息技术服务 分类与代码GB/T 29765信息安全技术 数据备份与恢复产品 技术要求与测试评价方法GB/T 35295信息技术 大数据 术语GB/T 36625.3智慧城市 数据融合 第 3 部分:数据采集规范GB/T 38667信息技术 大数据 数据分类指南GB/T 40094.2电子商务数据交易 第 2 部分:数据描述规范GB/T 40094.3电子商务数据交易 第 3 部分:数据接口规范行GB/T 42450信息技术 大数据 数据资源规划DB51/T 3056政务数据 数据分类分级指南3术语和定义G

5、B/T 5271.1、GB/T 11457、GB/T 18492、GB/T 20270、GB/T 20271、GB/T 25000、GB/T 28452、GB/T 29264、GB/T 29765、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T 40094.3、GB/T 42450、DB51/T 3056界定的以及下列术语和定义适用于本文件。3.1数据脱敏 data desensitization通过一系列数据处理方法对原始数据进行处理以屏蔽敏感数据的一种数据保护方法。DB5120/T 19.5202324总则4.1数据脱敏原则4.1.

6、1有效性数据脱敏的最基本原则就是去掉数据中的敏感信息,保证数据安全。有效性原则要求经过数据脱敏处理后,原始信息中包含的敏感信息已被移除,无法通过处理后的数据得到敏感信息;或者需通过巨大经济代价、时间代价才能得到敏感信息,其成本已远远超过数据本身的价值。此外,在处理敏感信息时,应注意根据原始数据的特点和应用场景,选择合适的脱敏方法。4.1.2真实性由于脱敏后的数据需要在相关业务系统、测试系统等非原始环境中继续使用,因此需保证脱敏后的数据应尽可能的真实体现原始数据的特征,且应尽可能多的保留原始数据中的有意义信息,以减小对使用该数据的系统的影响。真实性原则要求脱敏过程需保持用于后续分析的数据真实特征

7、,以实现数据相关业务需求,包括但不限于数据结构特征和数据统计特征:数据结构特征是指数据本身的构成遵循一定的规则(例如身份证号由地区编码、生日、顺序号和校验码组成);数据统计特征是指大量的数据记录所隐含的统计趋势(例如开户人地区分布、年龄分布等)。为达到真实性要求,在一般情况下开展数据脱敏工作时,应注意:a)保持原数据的格式;b)保持原数据的类型;c)保持原数据之间的依存关系d)保持语义完整性;e)保持引用完整性;f)保持数据的统计、聚合特征;g)保持频率分布;h)保持唯一性。4.1.3高效性应保证数据脱敏的过程可通过程序自动化实现,可重复执行。在不影响有效性的前提下,需注意平衡脱敏的力度与所花

8、费的代价,将数据脱敏的工作控制在一定的时间和经济成本内。本质上,高效性原则是成本和安全性相互作用的结果,在确保一定安全底线的前提下,尽可能减少数据脱敏工作所花费的额外代价。4.1.4稳定性由于原始数据间存在关联性,为保障数据使用者可正常使用和分析数据,因此数据脱敏时需保证对相同的原始数据,在各输入条件一致的前提下,无论脱敏多少次,其最终结果数据是相同的。如最终结果是不稳定的,可能导致数据使用者无法将本有联系的数据正确的进行关联,从而造成数据的使用出现问题。例如,某ID有两条记录,但是由于脱敏结果的不稳定,得到了两个不同的脱敏ID1和ID2,则在使用该数据时,就无法得知ID1和ID2其实是同一个

9、ID,从而使得数据分析结果出现错误。4.1.5可配置同一份原始数据,可能被用于不同的数据分析场景,由于不同场景下的安全要求不同,数据脱敏时的处理方式和处理字段也不尽相同。因此需通过配置的方式,按照输入条件不同生成不同的脱敏结果,从而可以方便的按数据使用场景等因素为不同的最终用户提供不同的脱敏数据。DB5120/T 19.5202334.2数据脱敏管理4.2.1组织管理资阳市政务服务和大数据管理局应制定完备的数据脱敏规范和流程,并对可能接触到脱敏数据的相关方进行数据脱敏规程的推广培训,并定期评估和维护数据脱敏规程内容,以保证数据脱敏工作执行的规范性和有效性。在制定数据脱敏规范时,应关注以下事项:

10、a)应明确指定敏感数据管理部门,并明确其安全责任和义务;b)应根据安全合规需求,建立敏感数据的分类分级制度、数据脱敏的工作流程、脱敏工具的运维管理制度,并定期对相关流程制度进行评审和修订;c)建立敏感数据分类制度时,可从个人隐私数据、业务运营数据等方面对敏感数据分类,并根据敏感数据的重要性程度定义敏感数据的安全级别,同时明确对各类、各级别数据相应的安全管控机制;d)在数据脱敏工具的运维管理制度中,可纳入对数据脱敏工具的系统安全检测,以保证数据脱敏工具自身的安全性;e)数据脱敏制度建立完毕后,应定期对数据脱敏工作的相关方,如数据管理方、数据使用方、脱敏工具运维方,开展针对相关制度的培训工作,以提

11、升规范化意识。4.2.2敏感信息识别在进行数据脱敏前,首先应完整的梳理待处理数据中包含的所有信息分类(包括单条记录中每一个项目的内容/格式、多条记录联合后包含的统计特征等),然后明确其中哪些信息分类属于敏感信息,并标注出其敏感程度、泄露后可能造成的后果、应急预案等。需要注意的是,有些信息本身可能并不直接是敏感信息,但是可通过与其他一些信息结合后推断出敏感信息,此时也应将此类信息纳入数据脱敏的范围。4.2.3数据安全可控经过数据脱敏处理后,已知的敏感信息已经被隐藏和处理,但脱敏后的数据由于保持了原始数据的部分统计特征和结构特征等信息,仍可能存在一定的敏感信息泄漏风险。因此,仍然需要采取合适的方式

12、控制知悉范围,通过恰当的安全管理手段,防止数据外泄。4.2.4过程安全审计在数据脱敏的过程中严格、详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析,一旦发生泄密事件可追溯到是在哪个数据处理环节发生的。4.2.5脱敏应用场景数据脱敏应用的场景很多,有针对个人、法人和其他客体的:a)针对个人的脱敏应用场景,例如:1)匿名敏感信息,包含个人敏感信息的数据,但不能识别到具体个人身份,如:某市个人家庭财产超过1000万元的人数有1000人。此类脱敏数据可用于社会科学研究需要,可用于相关部门发布分析报告需要,及其他一些机构或个人需要。2)非匿名敏感信息,包含个人敏感信

13、息的数据,可以通过一定技术手段识别到个人。此类场景需要先识别访问数据的用户身份,例如:个人可以查询自己名下的存款、金融资产和不动产;夫妻可以查询对方薪酬、对方名下的家庭资产;债权人可以在授权的情况下查看债务人的资产情况,等等。b)针对法人的脱敏应用场景,例如:1)仅限本组织的人员可以获取访问的组织内部信息,包括但不限于:组织规范、日常管理和运营的制度、工作手册、工作流程图、信息系统等。DB5120/T 19.5202342)仅限本组织相关部门人员可以获取访问的部门内的经营数据、缴纳税务、社保、公积金等数据。3)仅限本组织高层人员才可以获取访问的财务报表、经营机密信息等。c)针对其他客体的脱敏应

14、用场景,例如:1)针对需要管理部门授权才能访问的重要公共基础设施详细数据,例如:桥梁、铁路、自来水、电力等数据。2)各行业监管部门掌握的本行业高风险数据,例如:传染病、矿产、水文、海洋、军事设施、高精度测绘地理信息等数据。5数据脱敏流程5.1流程结构一个完整的数据脱敏工作流程应包括:发现敏感数据、标识敏感数据、确定脱敏方法、定义脱敏规则、执行脱敏操作和评估脱敏效果等步骤。5.2发现敏感数据为了有效开展数据脱敏工作,必须对组织所拥有的数据进行梳理和分类,建议将数据分为高度敏感数据、中度敏感数据和非敏感数据;同时,组织需首先分析建立完整的敏感数据位置和关系库,确保数据脱敏工作能够充分考虑到必须的业

15、务范围、脱敏后数据对原数据业务特性的继承(如保持原数据间的依赖关系)。基于敏感数据分类分级制度,一方面建立有效的数据发现手段,在组织完整的数据范围内查找并发现敏感数据;另一方面明确敏感数据结构化或非结构化的数据表现形态,如敏感数据固定的字段格式。在该过程中,可关注以下事项:a)定义数据脱敏工作执行的范围,在该范围内执行敏感数据的发现工作。b)通过数据表名称、字段名称、数据记录内容、数据表备注、数据文件内容等直接匹配或正则表达式匹配的方式发现敏感数据;c)考虑数据引用的完整性,如保证数据库的引用完整性约束;d)数据发现手段应支持主流的数据库系统、数据仓库系统、文件系统,同时应支持云环境下的主流新

16、型存储系统;e)尽量利用自动化工具执行数据发现工作,并降低该过程对生产系统的影响;f)数据发现工具具有扩展机制,可根据业务需要自定义敏感数据的发现逻辑;g)固化常用的敏感数据发现规则,例如身份证号、手机号等敏感数据的发现规则,避免重复定义数据发现规则。5.3标识敏感数据在通过业务梳理发现了敏感数据之后,需要对敏感数据进行标识,包括标识敏感数据的位置、敏感数据的格式等信息,以便后续对敏感数据的访问、传输和处理进行跟踪和监督。敏感数据的标识方法应该确保敏感数据标识信息能够随敏感数据一起流动,并不易于删除和篡改,从而可以对敏感数据进行有效跟踪,以确保敏感数据的安全合规性。在标识敏感数据时,可关注以下

17、事项:a)应该尽早在数据的收集阶段就对敏感数据进行识别和标识,这样便于在数据的整个生命周期阶段对敏感数据进行有效管理;b)敏感数据的标识方法必须考虑到便捷性和安全性,使得标识后的数据很容易被识别,同时要确保敏感数据标识信息不容易被恶意攻击者删除和篡改;DB5120/T 19.520235c)敏感数据的标识方法应支持静态数据的敏感标识以及动态流数据的敏感标识。5.4确定脱敏场景在标识敏感数据基础上,确定脱敏场景,脱敏场景包括但不限于:a)静态脱敏:对原始数据进行一次脱敏后,脱敏后的结果数据可以多次使用;b)动态脱敏:针对不同用户需求,对数据进行屏蔽处理的数据脱敏方式,要求系统有安全措施确保用户不

18、能够绕过数据脱敏层次直接接触敏感数据。5.5选择脱敏方法在对标识后的敏感数据进行脱敏前,应首先确定脱敏方法,可选的数据脱敏方案包括静态数据脱敏和动态数据脱敏。不同的数据脱敏方案对数据源的影响不同,脱敏的时效性也不一样。脱敏方案确定后,就可以选择对应的数据脱敏工具。在确定数据脱敏方案时,可关注以下事项:a)静态数据脱敏方法是对原始数据进行一次脱敏后,脱敏后的结果数据可以多次使用,非常适合使用场景比较单一的场合;b)动态数据脱敏方法是在敏感数据显示时,针对不同用户需求,对显示数据进行屏蔽处理的数据脱敏方式,它要求系统有安全措施确保用户不能够绕过数据脱敏层次直接接触敏感数据。动态数据脱敏比较适合用户

19、需求不确定、使用场景复杂的情形。5.6定义脱敏规则针对已识别和标识出的敏感数据,资阳市政务服务和大数据管理局需建立敏感数据在相关业务场景下的脱敏规则。在敏感数据生命周期识别的基础上,明确存在数据脱敏需求的业务场景,并结合行业法规的要求和业务场景的需求,制定相应业务场景下有效的数据脱敏规则。在该过程中,可关注以下事项:a)识别组织在业务开展过程中应遵循的个人隐私保护、数据安全保护等关键领域国内外法规、行业监管规范或标准,以此作为数据脱敏规则必须遵循的原则;b)对已识别出的敏感数据执行生命周期(产生、采集、使用、交换、销毁)流程的梳理,明确在生命周期各阶段,用户对数据的访问需求和当前的权限设置情况

20、,分析整理出存在数据脱敏需求的业务场景。例如,在梳理过程中,会发现存在对敏感数据的访问需求和访问权限不匹配的情况(用户仅需获取敏感数据中部分内容即可,但却拥有对敏感数据内容全部的访权限),因此该业务场景存在敏感数据的脱敏需求;c)进一步分析存在数据脱敏需求的业务场景,在“最小够用”的原则下明确待脱敏的数据内容、符合业务需求的脱敏方式,以及该业务的服务水平方面的要求,以便于脱敏规则的制定。其中,脱敏的方式可参考“常用数据脱敏方法”;d)数据脱敏工具应提供扩展机制,从而让用户可根据需求自定义脱敏的方法;e)通过数据脱敏工具选择数据脱敏方法时,脱敏工具中应对各类方法的使用进行详细的说明,说明应包括但

21、不限于规则的实现原理、数据引用完整性影响、数据语义完整性影响、数据分布频率影响、约束和限制等,以支撑脱敏工具的使用者在选择脱敏方式时做出正确的选择;f)应固化常用的敏感数据脱敏规则,例如身份证号、手机号等的常用脱敏规则,避免数据脱敏项目实施过程中重复定义数据脱敏规则。5.7执行脱敏操作根据已定义的数据脱敏规则、数据脱敏工作的流程和数据脱敏工具的运维管理制度,在实际业务运营过程中执行数据脱敏,可包括条数据脱敏和块数据脱敏。条数据脱敏是对单条数据根据脱敏规则实施DB5120/T 19.520236脱敏,块数据脱敏是对聚合数据实施脱敏。在日常的脱敏工作中,监控分析数据脱敏过程的稳定性、以及对业务的影

22、响性,同时对脱敏工作开展定期的安全审计,已发现脱敏工作中存在的安全风险。在该过程中,可关注以下事项:a)支持从数据源克隆数据到新环境(例如从生产环境、备份库克隆数据到新环境),并在新环境中进行脱敏过程的执行;也支持在数据源端直接进行脱敏;b)对脱敏任务的管理,可考虑采用自动化管理的方式提升任务管理效率,例如定时、条件设置的方式触发脱敏任务的执行;c)执行对脱敏任务的运行监控,关注任务执行的稳定性、以及脱敏任务对业务的影响;d)设置专人定期对数据脱敏的相关日志记录进行安全审计,审计应重点关注高权限账号的操作日志和脱敏工作的记录日志;发布审计报告,并跟进审计中发现的例外和异常。5.8评估脱敏效果通

23、过收集、整理数据脱敏工作执行的数据,例如相关监控数据、审计数据,对数据脱敏的前期工作开展情况进行反馈,从而优化相关规程、明确数据脱敏过程中应关注的事项。在该过程中,可关注以下事项:a)评估脱敏后数据对应用系统的功能、性能的影响,从而明确对整体业务服务水平的影响;测试负载应尽量保证与生产环境一致,应尽量提供从生产环境克隆数据访问负载到脱敏系统进行回放测试的功能;b)根据组织业务发展的情况和脱敏工作执行的反馈,优化数据脱敏工作开展的规程,旨在全组织机构范围内增强数据安全能力并满足合规要求。6常用脱敏方法6.1泛化泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性

24、,具体的技术方法包括但不限于:a)数据截断:直接舍弃业务不需要的信息,仅保留部分关键信息,例如将手机号码13500010001截断为135。b)日期偏移取整:按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,例如将时间20150101 01:01:09按照5秒钟粒度向下取整得到2015010101:01:05;c)规整:将数据按照大小规整到预定义的多个档位,例如将客户资产按照规模分为高、中、低三个级别,将客户资产数据用这三个级别代替。6.2抑制抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术,具体的技术方法包括但不限于:掩码

25、:用通用字符替换原始数据中的部分信息,例如将手机号码13500010001经过掩码得到135*0001,掩码后的数据长度与原始数据一样。6.3扰乱扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包括但不限于:a)加密:使用加密算法对原始数据进行加密,例如将编号12345加密为abcde;b)重排:将原始数据按照特定的规则进行重新排列,例如将序号12345重排为54321;DB5120/T 19.520237c)替换:按照特定规则对原始数据进行替换,如统一将女性性别替换为F;d)重写:参考原数据的特征,重新生成数据

26、。重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系。例如对雇员工资,可使用在一定范围内随机生成的方式重新构造数据;e)均化:针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值;f)散列:即对原始数据取散列值,使用散列值来代替原始数据。6.4有损有损是指通过损失部分数据的方式来保护整个敏感数据集,适用于数据集的全部数据汇总后才构成敏感信息的场景,具体的技术方法包括但不限于:a)限制返回行数:仅仅返回可用数据集合中一定行数的数据,例如商品配方数据,只有在拿到所有配方数据后才具有意义,可在脱敏时仅返回一行数据;b)限制返回列数:仅仅返回可用数据集合中一定列数的数据,例如在查询人员基本信息时,对于某些敏感列,不包含在返回的数据集中。DB5120/T 19.520238参考文献资阳市政务信息化项目管理办法(试行)(资府办发202225号)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服