收藏 分销(赏)

基于大数据的隐私信息存储与检索系统设计.pdf

上传人:自信****多点 文档编号:582224 上传时间:2024-01-02 格式:PDF 页数:3 大小:1.94MB
下载 相关 举报
基于大数据的隐私信息存储与检索系统设计.pdf_第1页
第1页 / 共3页
基于大数据的隐私信息存储与检索系统设计.pdf_第2页
第2页 / 共3页
基于大数据的隐私信息存储与检索系统设计.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、技术应用TECHNOLOGYANDMARKETVol.30,No.8,2023基于大数据的隐私信息存储与检索系统设计罗来曦,朱渔宜春职业技术学院,江西宜春3 3 6 0 0 0摘要针对大数据环境下隐私信息存储与检索存在的离散性强、泄露率高、效率偏低等问题,设计一种以敏感条式信息链和层次保护树技术为核心的大数据隐私信息存储与检索系统。详细阐述了系统结构设计、隐私信息存储方法、隐私信息检索流程等,通过与常规的Basic Index隐私信息存储检索系统进行对比试验,结果显示:该系统进行大数据隐私信息存储与检索的准确率更高,且信息泄露率和查询时间更低关键词大数据;隐私信息;存储与检索doi:10.39

2、69/j.issn.1006-8554.2023.08.0210引言大数据环境下隐私信息具有内容海量性、结构多样性、灵活多变性等特征,常规的BasicIndex方法主要针对纯粹的Key-value隐私信息存储与检索,而对于大量非Key-value隐私信息的存储检索,则存在信息泄露率高、效率偏低、离散性强等问题,存储与检索的效果并不理想。基于此,以敏感条式信息链和层次保护树技术为核心,采用敏感条式隐私节点和层次多又查询保护方法,设计一种适用于大数据Key-value和非Key-value隐私信息的存储检索系统,综合性地解决现阶段大数据环境下隐私信息存储检索存在的问题。1大数据隐私信息存储与检索存

3、在的问题1.1离散性强大数据隐私信息存在结构多样性、灵活多变等特征,常规的BasicIndex方法能够完成数据信息的普通存储和检索操作,但针对海量化的大数据隐私信息来说,无论是存储操作,还是检索操作,都难以实现集约化、分布化、高效化的处理。换句话说,传统的关系型数据存储和检索方式很难适配大数据环境下海量异构数据的存储和检索需求。以大中型企业中的交易业务大数据隐私信息为例,非结构化和半结构化的异构数据占据了50%以上的比例,这些数据本身就具有离散性强、难以精准捕捉、检索困难等问题,而常规的数据存储检索方式不仅难以实现高效处理,而且会导致类似的异构隐私信息数据价值难以被发掘,最终造成企业大数据隐私

4、信息价值的无端浪费。基金项目:江西省教育厅科学技术研究项目“大数据环境下隐私索引保护技术研究”(GJ215403)901.2泄露率高目前,大多数大数据存储系统多采用纯粹的Key-value模型构建信息检索体系,这种体系能够高效地检索Key值型数据,但对于包含了数据敏感信息的非Key值属性数据来说,存储和检索的效果并不理想,若处理不当很容易引起隐私信息泄露问题,从而给用户带来严重的困扰。这种高泄露率造成的原因也是多方面的:一方面,由于大数据隐私信息保护的方式发生了很大变化,传统的检索方式难以完全适配所有类似的数据处理;另一方面,大数据环境下很多非Key值敏感信息没有经过有效处理就直接保存,导致很

5、多敏感的隐私信息被直接存储,也增加了后期检索这类信息时的泄露风险。因此,针对大数据环境下隐私信息的检索和存储变得更为复杂,如何避免处理过程中的信息泄露也成为新的难点。1.3效率偏低众所周知,存储和检索是大数据隐私信息分析挖掘的基础,而存储和检索的效率则是衡量信息分析挖掘能效的重要指标。常规的Basic Index模式下,大多数大数据信息的索引以Key为关键字进行查询,检索花费时间、准确率、信息泄露率等指标均能达标,但对于非Key值隐私信息的查询来说,常规的Basic In-dex则存在花费时间过久、检索准确率较低、信息泄露率偏高等问题,整体的数据处理效率偏低。基于此,为了弥补常规检索方法的缺点

6、,满足大数据环境下企业用户针对不同类型数据的多元化查询需求,并提升大数据隐私信息查询处理的效率,需要尽快建立以非Key值为关键字的隐私信息检索系统。技术与市场2023年第3 0 卷第8 期2大数据隐私信息存储与检索系统设计2.1系统结构为解决常规大数据隐私信息检索存在的离散性强、泄露率高和效率偏低等问题,本文设计一种大数据环境下隐私信息存储与检索系统结构,如图1所示。以“信息采集一信息存储一信息检索一信息应用为原理进行开发,整个系统自下而上包含4个层次,分别是采集层、存储层、检索层和应用层。各层次的功能如下。1)采集层。采用常规的大数据采集方法收集隐技术应用私信息,达到高效汇总海量隐私信息的目

7、的。2)存储层。采用敏感条式信息链的方式对收集来的隐私信息进行存储处理,为检索应用做好准备。3)检索层。应用层次保护树技术实现对隐私信息的检索,在查询的同时对隐私信息进行综合保护,防止信息外泄。4)应用层。构建用户交互化应用程序界面,用户可在该层实现对隐私信息的检索、调用、编辑、打印等应用处理操作。分析决策调用编辑检索打印层次保护树技术敏感隐私信息节点常规数据节点HDFS敏感条式信息链Key数据非Key数据HMapReduce运算源数据ETL隐私信息挖掘处理图1大数据隐私信息存储与检索系统结构2.2隐私信息存储方法对大数据隐私信息进行有效存储是本系统的关键功能之一。为解决常规存储方法存在的离散

8、性强、效率偏低、采样时间较长等问题,特提出一种敏感条式信息链(sensitivebar information chain,S BIC)存储结构作为新方法,用于解决Key值数据和非Key值数据的存储问题,确保大数据隐私信息存储的高效性、集约性和安全性。具体来说,敏感条式信息链存储结构由Key值信息链和非Key值信息链2 个部分组成(见图2),其存储隐私信息的方法如下。1)定义敏感隐私信息属性集合。2)创建Key值信息链,导入需要存储的Key值隐私信息内容。3)创建非Key值信息链,将其中的隐私信息分布存储在Attribute Name和AttributeValue里,以迭代的方式将隐私信息组装

9、成一个加密的链表。4)将Key值和非Key值隐私信息按照链式方法进行存储。在上述存储模式下,大数据隐私信息能够根据功能、内容、类型形成不同的节点,加密属性更加完善,数据安全性更高,也更加便于检索查询。2.3隐私信息检索流程为确保大数据隐私信息检索的效率、安全和精准性,本文提出一种层次保护树技术(hierarchicalpro-tectiontreetechnology,HP T T)实现对隐私信息的检索。HPTT的结构如图3 所示,它以KD树为基础进行延伸,自上而下分为X、Y、Z 层级,其中X和Y与敏感调试信息链中的隐私信息相对应,乙是数据节点。各层级按照隐私数据的类型、内容、权限等进行分类,

10、且均为加密后的密文数据,以达到保护用户查询隐私的目的。此外,各信息节点上都存储了对应的91技术应用查询地址信息,通过多维检索查询方法提升HPTT信息的查询效率。具体检索操作中,用户可基于HPTT采用但关键词或多关键词两类方法检索隐私信息,通TECHNOLOGYANDMARKETVol.30,No.8,2023过多轮高效匹配,形成特有的索引结构,以提升检索的效率和安全性。Key值信息链KeyAddress非Key值信息链initialAttributeNameAttributeValueNull敏感条式信息链隐私信息存储片段结构图2敏感调试信息链存储结构5.2s,而常规BasicIndex方法的

11、3 项指标试验数据SBIC分别为9 6.2%、1.13%和3 2.3%。整体上看,2 种方法相比,“SBIC+HPTT”对大数据隐私信息检索的优SBICSBICdata图3层次保护树技术检索结构3大数据隐私信息存储与检索系统应用测试3.1测试方法将本系统设计的存储检索方法与常规的BasicIndex方法进行对比测试。首先,采用Java语言搭建HPTT大数据隐私信息检索系统;其次,通过大数据平台采集各类Key值和非Key值隐私信息,包括身份证号、银行卡号、姓名、年龄、家庭成员等,并采用SBIC方法构建出2 0 万条隐私信息的敏感条式信息存储链集合;最后,采用2 种方法对这2 0 万条隐私信息进行

12、检索,并比较2 种检索模式下的索引准确率、泄露率和查询时间3 项指标。3.2测试结果如表1所示,在针对2 0 万条隐私信息集合进行检索试验的过程中,“SBIC+HPTT方法的索引准确率达到9 9.7%,信息泄露率仅为0.15%,查询时间为SBICSBICdataSBICSBICdata势显著,尤其在查询时间指标上的优势十分明显,能够大大提升隐私信息的检索效率。表1#测试结果统计测试方法索引准确率/%信息泄露率/%SBIC+HPTT99.7Basic Index96.24结束语本文采用敏感条式信息链构建大数据隐私信息存储结构,并以层次保护树技术搭建隐私信息的检索体系,实现了对大数据隐私信息的链式

13、存储和层次保护检索。通过与常规Basic Index方法进行信息存储与检索对比试验,验证了本系统的有效性和先进性。参考文献:1王蕊.基于数据挖掘的隐私保护数据发布模型研究 J.技术与市场,2 0 16,2 3(8):46-47.2黄卫,江官星.基于隐私大数据的网络信息防泄漏推荐算法 J.计算机仿真,2 0 2 2,3 9(11):48 3-48 6.3王杨.大数据环境下网络用户隐私保护研究 J.网络安全技术与应用,2 0 2 2(10):56-59.4丁知平,林昆.大数据背景下的隐私保护关键技术的研究 J.电脑编程技巧与维护,2 0 2 2(2):7 2-7 4.作者简介:罗来曦(19 8 2 一),男,江西宜春人,硕士,副教授,研究方向:计算机软件工程。查询时间/s0.155.21.1332.392

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服