收藏 分销(赏)

数据脱敏技术解决方案.docx

上传人:二*** 文档编号:4745621 上传时间:2024-10-11 格式:DOCX 页数:21 大小:128.09KB
下载 相关 举报
数据脱敏技术解决方案.docx_第1页
第1页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、大数据脱敏技术方案2017-1-152. 2. 4. T-Closeness直观的来说,隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡量。假设攻击者 在访问数据集之前的个人信息为B0 ,然后假设攻击者访问所有半标识列都已移除的数 据集,(3为数据集敏感数据的分布信息,根据Q ,攻击者更新后的个人信息为BL最后攻击Diversity束是通过约束P的diversity属性,尽量减少B0和B2之间的信息量差距,差距 越小,说明隐私信息泄露越少。Closeness约束那么期望减少B1和B2之间的信息量差距, 减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多皿4私信昌。丁 -Clos

2、eness的定义如下:某相等集更新后E访问前B0敏感数据集Q属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可 能性。不过同时也肯定导致了一定程度的信息丧失,所以管理者通过T值的大小平衡数据可 用性与田户暝献保#L算法描述:L-Diversity是通过约束P的diversity属性,尽量减少B0和B2之间的信息量差 距,差距越小,说明隐私信息泄漏越少。T-Closeness约束那么期望减少Bl和B2之间的信息量差距,减少攻击者从敏感数据的 全局分布信息和相等集分布信息之间得到更多的个人隐私信息。如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,那么

3、称该相等类满足T-Closeness约束。如果数据集中的所有相等类都满足T-Closeness,那么称T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标 识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻 击的可能性。不过同时也肯定导致了一定程度的信息丧失,所以管理者通过T值的大小 平衡数据可用性与用户隐私保护。原始数据我们以用采用户数据为例:ORG_NO (单 位代码)C0NS_N0 (户 号)CONS_NAME (户名)ELEC_ADDR (用电地 址)ELEC_TYPE_CODE(用电类 型)LINE_IDTRADE_C0DE

4、V0LT_C0DECONTRACT_CAP334083001103520128944Z省X县供 电公司Z省H市X县S镇塔 上行政村张家湾自 然村402195200004710AC00101315334083001103520093806Z省奇碟汽 车零部件 Z省H市X县S镇五 里渡行政村五里渡 新村自然村100195200003720AC001011880334083001103520113877华能长兴 光伏发电 有限责任 公司Z省H市X县S镇三 里亭行政村亭子头 自然村杰夫厂区100195200001710AC001021240334083001103520091731X县S镇钱 庄村村民

5、 委员会Z省H市X县S镇钱 庄行政村刘小湾自 然村100195200001540AC0010180334083001103520091731X县S镇钱 庄村村民 委员会Z省H市X县S镇钱 庄行政村刘小湾自 然村403195200002540AC0010280334083001103520189655Z省物产汽 车平安科 技有限公 司Z省H市X县S镇赵 村村行政村赵村庙 自然村100195200001610AC00102630334083001103520161668华能长兴 光伏发电 有限责任 公司Z省H市X县S镇三 里亭村行政村亭子 头自然村402195200004410AC00101250

6、0334083001103520025635长兴泗安 严义明蔬 菜种植园Z省H市X县S镇塔 上村行政村塔上大 湾自然村403195200002500AC0010180334083001103520128944Z省X县供 电公司Z省H市X县S镇塔 上行政村张家湾自 然村402195200004710AC001013152.2.5.2 K-Anonymity( k=2 )0RG N0CONS NOELEC ADDRELEC TYPE CODELINE IDTRADE CODEVOLT CODECONTRACT CAP3340830011035201*Z省H市X县S 镇402195200004000

7、AC001013153340830011035201*Z省H市X县S 镇402195200004000AC0010125003340830011035200*Z省H市X县S 镇100195200003000AC0010118803340830011035200*Z省H市X县S 镇100195200003000AC00101803340830011035200*Z省H市X县S 镇403195200002000AC00102803340830011035200*Z省H市X县S 镇403195200002000AC00102803340830011035201*Z省H市X县S 镇1001952000

8、01000AC0010212403340830011035201*Z省H市X县S 镇100195200001000AC00102630ORG NOC0NS N0ELEC ADDRELEC_ TYPE C0DELINE IDTRADE_C0DEV0LT_C0DECONTRACT_CAP3340830011035201*Z省H市X县S 镇402195200004000AC001013153340830011035201*Z省H市X县S 镇402195200004000AC0010125003340830011035200*Z省H市X县S 镇100195200003000AC001011880334

9、0830011035200*Z省H市X县S 镇100195200003000AC00101803340830011035200*Z省II市X县S 镇403195200002000AC00102803340830011035200*Z省H市X县S 镇403195200002000AC00102803340830011035200*Z省H市X县S 镇403195200002000AC001021203340830011035201*Z省H市X县S 镇100195200001000AC001021240脱敏规那么,一般的脱敏规那么分类为可恢复与不可恢复两类。可恢复类,指脱敏后的数据可以通过一定的方式

10、,可以恢复成原来的敏感数据,此 类脱敏规那么主要指各类加解密算法规那么。不可恢复类,指脱敏后的数据被脱敏的局部使用任何方式都不能恢复出。一般可分 为替换算法和生成算法两大类。替换算法即将需要脱敏的局部使用定义好的字符或字符 串替换,生成类算法那么更复杂一些,要求脱敏后的数据符合逻辑规那么,即是“看起来很 真实的假数据”。常用的脱敏规那么主要有:编号名称描述例如1Hiding (隐匿)将数据替换成一个 常量,常用作不需要 该敏感字段时500 -0630 - 02Hashing (hash 映射)将数据映射为一个 hash值(不一定是 一一映射),常用作 将不定长数据应设 成定长的hash值Jim

11、,Green - 456684923Tom,Cluz-8593759843Permutation (唯一值 映射)将数据映射为唯一 值,允许根据映射值 找回原始值,支持正 确的聚合或连接操 作Smith - ClemetzJones - Spefde4Shift (偏移)将数量值增加一个 固定的偏移量,隐藏 数值局部特征253 - 1253254 - 12545Enumeration (排序映 射)将数据映射为新值, 同时保持数据顺序500 - 25000400 -200006Truncation (截断)将数据尾部阶段,只 保存前半局部-021-0107Prefix-preserving (

12、局部混淆)保持IP前n位不变, 混淆其余局部10.199.90.105-10.199.90.106-28Mask (掩码)数据长度不变,但只 保存局部数据信息2345323 - 234-2314562334 - 145349Floor (偏移取整)数据或是日期取整28-2020130520 12:30:45-20130520 12:00:002.4.脱敏环境数据脱敏的环境一般按照生产环境和非生产环境(开发、测试、外包、数据分析等) 进行划分,根据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏(static data masking)和动态数据脱敏(dynamic data masking)

13、,静态数据脱敏(SDM)与动态数 据脱敏(DDM)主要的区别是:是否在使用敏感数据当时进行脱敏。静态数据脱敏(SDM) 一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再 在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关 联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。动态数据脱敏(DDM) 一般用在生产环境,在访问敏感数据当时进行脱敏,一般用来解决 在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。3.数据脱敏方式按照数据处理方式的不同,可以将数据脱敏分为静态数据脱敏和动态数据脱敏两大类。3.1.静态数据脱敏静态数

14、据脱敏指将数据文件进行去敏感、去隐私化的处理同时保证数据之间的关联 关系。外发给第三方公司进行开发测试或是数据分析。得到的分析结果后能够将分析出 的数据进行回溯。该脱敏方式适用于工程开发单位需要获取完整的数据才能保证数据分析工作的顺 利完成,对于数据提供方,又不希望敏感数据泄漏出去,在这种情况下,就需要对数据 进行可回溯的脱敏方式,保证发送出去的数据不包含敏感信息,当工程开发单位开发完 成后,将分析系统或结果数据回溯成真实的结果数据。这样既保证了开发过程中的数据 共享和结果一致性,又保证了真实数据不会在开发过程中泄漏。静态数据的脱敏非常适合数据拥有者在和多个外部开发团队的数据融合和数据共 享中

15、使用,保证开发、测试环节不会泄漏数据。32动态数据脱敏动态数据脱敏指用户在前端应用处调取后台数据库中敏感数据时,进行数据脱敏, 再反应至前台呈现。可在通讯层面上,通过代理部署方式,对业务系统数据库中敏感数 据进行透明的、实时的脱敏。通常依据用户的角色、职责和其他IT定义身份特征,动 态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,可确保不同级别的 用户按照其身份特征恰如其分的访问敏感数据,并且不需要对生产数据库中的数据进行 任何改变。动态数据脱敏同样支持同义替换、局部遮蔽、混合脱敏、确定性脱敏及可逆 脱敏,通常可根据不同用户身份特征,指定对应的数据脱敏算法。授权用户非授权用户A非授

16、权用户B原炀6225-7500-0231-8731XXXX-XXXX-XXXX-8731-XXXX-XXXX-90186228-4800-4438-9018鼬值44672231239188736471-3981-3902-1290脱敏值湖户敏包含62257500023187316228-4800-4438-9018通过动态脱敏功能,能够帮助国家电网公司快速、低风险、平稳的提供生产数据库 的实时隐私保护。典型的应用场景表达在:1:保护生产环境对于国家电网大型复杂系统环境下,为了给客户提供高水平的服务,有时意味着开发人 员、数据库管理员、设计人员、专业顾问和其他系统需要不受限制的访问生产数据,以

17、便迅速解决重大问题和快速响应。由此造成了对客户信息、 、地址等隐私信息的违 规访问途径。动态数据脱敏可以有效解决这一风险,并且不会丧失快速响应的能力。2:降低外包风险对于大型复杂系统,往往依赖大量的外包IT人员和开发单位来开展和维护业务, 这些外包人员能够通过应用程序,报表和开发、运维工具访问生产数据,这意味着隐私 数据完全暴露在不可控的环境中;动态数据脱敏可以对不同用户和应用的访问进行实时 的隐私数据屏蔽,帮助国家电网有效保护重要数据资产的访问。3:保护通用帐户风险数据库维护人员常常会使用强度很弱的通用密码,便于开发人员和DBA访问和监控 生产数据库,便利的同时也为获取关键隐私数据开了方便之

18、门。通过提供过敏后的数据 掩码,一方面可以防止来自非生产环境的登录,并且可以根据规那么向不同的登录用户和 系统提供经过脱敏的数据。4.大数据的数据脱敏技术大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部 门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的 隐私和敏感信息,如用电记录、用电用户支付信息、国家机密信息等,这些数据存在可 能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据 的平安,但是这并不能完全从技术上保证数据的平安。严格的来说,任何有权限访问用 户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致

19、数据泄漏的风险。另 一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据 的访问约束大大限制的充分挖掘数据价值的范围。数据脱敏通过对数据进行脱敏,在保 证数据可用性的同时,也在一定范围内保证恶意攻击者无法将数据与具体用户关联到一 起,从而保证用户数据的隐私性。数据脱敏方案作为大数据平台整体数据平安解决方案 的重要组成局部,是构建平安可靠的大数据平台必不可少的功能特性。用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,彻底的数据脱 敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面,完 全保存用户隐私数据信息,可最大化数据的分析价值,同时导致

20、用户隐私泄露的风险无 法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户 标识信息,而是包括如下几个目标:数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规那么对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立 用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风 险。可管理。结合大数据平台的用户认证体系,权限管理体系,以及隐私数据 不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公 司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险 的前提下,最大化保存数据分析挖掘的价

21、值。可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保 证能够通过审计日志找到对应的泄露人员。大数据平台的数据来源比拟广泛,根据现在流行的数据采集技术,可以分为流式数 据和批量数据两种。4.1.流式数据脱密流式数据是指不断产生、实时计算、动态增加且要求及时响应的数据,它具有海量 和实时性等特点,一般将实时或准实时的数据处理技术归为流式数据处理技术。包括: Apache Storm、 Spark Streaming 等。1.基于Storm的流式数据脱敏Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由 一个被称作spout的组件管理,spout把数据传

22、递给bolt, bolt要么把数据保存到 某种存储器,要么把数据传递给其它的bolt0 一个Storm集群就是在一连串的bolt之 间转换spout传过来的数据。对于一个允许增量计算的高速事件处理系统,Storm会是最正确选择。它可以应对你 在客户端等待结果的同时,进一步进行分布式计算的需求,可以使用开箱即用的分布式 RPC。同时Storm使用Apache Thrift,你可以用任何编程语言来编写拓扑结构。由于storm的数据处理方式是增量的实时处理,我们的数据脱敏模块应该具备增量 数据脱敏的功能。当数据源源不断的过来,此时我们并没有拿到全量的数据,因此基于 全量数据的脱敏算法这时候是不适用的

23、,但是我们的脱敏模块可以去读取历史数据并结 合相应的算法进行数据脱敏,将敏感词去掉,依据脱敏规那么将数据做泛化处理。流式数 据脱敏的优势是从数据发生的时刻就进行了数据处理。缺乏之处是无法利用全量数据做 复杂的关联处理。数据处理流程如下列图:Storm实时计算kafka消息中间件第三方系统接口脱敏后数据2.基于Spark Streaming的流式数据脱敏说到微批处理,如果你必须有状态的计算,恰好一次的递送,并且不介意高延迟的 话,那么可以考虑Spark Streaming,特别如果你还计划图形操作、机器学习或者访问 SQL的话,Apache Spark的stack允许你将一些library与数据

24、流相结合(Spark SQL, Mllib, GraphX),它们会提供便捷的一体化编程模型。尤其是数据流算法(例如:K 均值流媒体)允许Spark实时决策的促进。4.2.批量数据脱敏批量数据接入是指数据源来自一个稳定的、基本不变的存储介质,通过数据扫描的 方式一次性将数据采集到大数据平台来,数据以历史数据为主,数据源一般来自文件、 关系型数据库、nosql数据库等。处理技术包括:flume、sqoop等。批量数据脱敏可以 在数据导入的过程中进行脱敏,也可以在数据进入大数据平台后,调用脱敏程序模块来 进行脱敏,批量数据的脱敏可以结合数据的关联关系,运用复杂的脱敏算法以到达更好 的脱敏效果,基于

25、flume的数据采集方式,可以通过编写拦截器,在拦截器中调用数据 脱敏程序,输出脱敏后的数据。Sqoop是适用于关系型数据库的数据采集,可以通过建 立中间表,编写UDF程序的方式,最后通过任务调度程序,批量的对数据进行数据脱敏。数据处理流程如下列图:更改履历版本号修改编号更改时间更改的 图表和章节号更改简要描述更改人批准人数据源HSBBWebW访问m志FlumeFlumeInterceptor敏感词过滤UUidInterceptorMySQL D MonooDBRe3sSqoop抽取数据脱敏模块Hadoop cluster会W 交auui SSMl财gUSi SQLServer数据脱敏算法库脱

26、敏规那么目录概述41.1. 编写目的41.2. 数据脱敏的定义41.3. 电网数据脱敏需求5脱敏方案61.4. 脱敏算法72. 1. 1. KAnonymity(K.匿名)72. 1. 2. L-Diversity82. 1. 3. T-Closeness101.5. 脱敏规那么14电网应用场景错误!未定义书签。1.6. 云平台功能设计错误!未定义书签。1.7. 大数据平台功能设计错误!未定义书签。1.概述1.1 .编写目的本文档描述了数据脱敏的研究成果和方法论。旨在为具有数据脱敏需求的开发人员 和工程提供。1.2.数据脱敏的定义敏感数据一般指不当使用或未经授权被人接触或修改会不利于国家利益或

27、不利于 个人依法享有的个人隐私权的所有信息。工业和信息化部编制的信息平安技术公共 及商用服务信息系统个人信息保护指南明确要求,处理个人信息应当具有特定、明确 和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意,应当在达 成个人信息使用目的之后删除个人信息。这项标准最显著的特点是将个人信息分为个人 一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。对于个人一般信息的 处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和 利用。但对于个人敏感信息,那么需要建立在明示同意的基础上,在收集和利用之前,必须 首先获得个人信息主体明确的授权。这项标准还正式提

28、出了处理个人信息时应当遵循的 八项基本原那么,即目的明确、最少够用、公开告知、个人同意、质量保证、平安保障、 诚信履行和责任明确,划分了收集、加工、转移、删除四个环节,并针对每一个环节提 出了落实八项基本原那么的具体要求。数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对 数据脱敏的定义为:指对某些敏感信息通过脱敏规那么进行数据的变形,实现敏感隐私数 据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中平安地 使用脱敏后的真实数据集。敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、 号 码、银行账号、邮箱地址、所属城市、 、

29、密码类(如账户查询密码、取款密码、 登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的 巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战-个人隐私信息的保护。 个人信息与个人行为(比方位置信息、消费行为、网络访问行为)等,这些都是人的隐私, 也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息, 也将是数据脱敏必须解决的难题。1. 3.数据脱敏需求随着国家电网数据应用的不断深入,有许多应用需要和外部系统对接,数据需要对 外提供服务才能表达出它的价值,大数据时代是数据融合

30、的时代,如何在数据融合的过 程中,保证数据在开发、测试、生产、应用等各个环节的平安,成为信息平安部门的重 要任务。国家电网数据脱敏需求包括:通过数据抽取、数据漂白、数据混淆等处理过程,用 来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数 据处理过程满足国家电网的敏感数据防护的政策规定。具体脱敏需求包括:防止生产库中的敏感数据泄漏通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再 提供给第三方使用,防止生产库中的敏感数据泄漏。保证测试、开发、应用阶段的数据关联性通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、 完整性(保

31、证长度不变、数据含义不丧失)、关系性(保持表间、表内数据关联关系)。 以提升测试、开发、应用环节的数据真实性和可用性。保证数据维护和数据共享的平安对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的 差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访 问者的不同访问策略,满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感 数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。保证隐私数据管理的政策合规性数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行,脱敏规 那么符合国家电网的数据管理要求。2.脱敏方案2.1.脱敏流

32、程数据脱敏的流程一般分为:敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任 务执行四大步骤,结合数据脱敏算法、数据脱敏规那么以及脱敏的环境来到达最正确的数据 脱敏效果。2. 1. 1.敏感数据发现敏感数据的发现分为人工发现和自动发现两种。对于国家电网相对固定的业务数 据,可以采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据一般数 据结构和数据长度不会有变化,大局部为数值型和固定长度的字符。比方:单位代码、 户号、户名、用电地址等标识列,针对这些数据可以通过人工指定脱敏规那么和不同的数 据访问策略,保证敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特征, 借助敏感数据信息

33、库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别 可以减少工作量和防止遗漏。一般采用自动发现为主,结合人工发现和审核,来完成敏 感数据的发现和定义,最终形成完善的敏感数据字典。2. 1. 2.敏感数据梳理在敏感数据发现的基础上,完成敏感数据列、敏感数据关系的调整,以保证数据的 关联关系。通过屏蔽、变形、替换、随机、格式保存加密、强加密等数据脱敏算法,针 对不同的数据类型进行数据掩码扰乱。2. 1. 3.脱敏方案制定对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。脱 敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以 制定最优方案。2.

34、 1.4.脱敏任务执行脱敏任务的停止、启动、暂停等操作,支持任务并行处理,支持脱敏任务的中断续延等。2.2.脱敏算法2. 2. 1.脱敏算法特征通常根据不同数据特征选择不同的脱敏算法,对常见数据如姓名、证件号、银行账 户、金额、日期、住址、 号码、Email地址、车牌号、车架号、企业名称、工商注 册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法通常包括屏蔽、变 形、替换、随机、格式保存加密(FPE)和强加密算法(如AES ) o脱敏算法具有如下特性:同义替换使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱 敏后仍然为住址。局部数据遮蔽将原数据中局部或全部

35、内容,用或“# ”等字符进行替换,遮盖局部或全部原文。混合屏蔽将相关的列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系, 例如,城市、省、 在屏蔽后保持一致。确定性屏蔽确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值(如,客户号、身份证号码、 银行卡号)在所有数据库中屏蔽为同一个值。可逆脱敏确保脱敏后的数据可还原,便于将第三方分析机构和内局部析团队基于脱敏后数据上的 分析的结果还原为业务数据。2. 2. 2. K-Anonymity (K-匿名)算法描述:要求对于任意一行记录,其所属的相等集内记录数量不小于k,即至少有k-l条记 录半标识列属性值与该条记录相同。理论上来说,

36、对于K-Anonymity数据集,对于任意记录,攻击者只有1/k的概率 将该记录与具体用户关联。算法步骤:先移除标识列泛化半标识列算法优缺点:优点:可以用于保护个人标识泄漏的风险。缺点:容易受到链接式攻击,无法保护属性泄露的风险。对于K-Anonymity的数据集,攻击 者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。对移除标识列的数据根据半标识列进行分组,每组最少有k条记录,每组中至少有k-1 条记录的半标识列的值与该记录相同。ZIP CodeAgeDisease4767729Heart Disease47602476*222*Heart Disease4767827Hear

37、t Disease4790543Flu47909 479*5240Heart Disease4790647Cancer4760530Heart Disease47673363*Cancer4660732Cancer2. 2. 3. L-Diversity算法描述:如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个“合 适”值,那么称该相等集是满足L-Deversity。如果数据集中所有相等集都满足 L-Deversity ,那么称该数据集满足L-Deversity。相对于K-Anonymity标准,符合L-Deversity标准的数据集显著降低了属 性数据泄漏的风险。对于满足L-Der

38、versity的数据集,理论上,攻击者最多只有 1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。通过插入干扰数据构造符合L-Diversity的数据集。在K-Anonymity的基础上,每个数据集中,其敏感信息列有L个不同的值,攻击者只 有1/L的几率获得正确的敏感信息。ZIP CodeAgeDisease476*2*Heart Disease476,2*Heart Disease1476*2*Heart Disease476*2*(Flu 1 24790*40Flu 14790*40Heart Disease24790*40Cancer 3476wI 3*Heart Disease1476*3*Cancer2466*3,|-Canter

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 初中其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服