收藏 分销(赏)

基于区块链技术和HDFS的可信电子文件管理模型.pdf

上传人:自信****多点 文档编号:639388 上传时间:2024-01-22 格式:PDF 页数:7 大小:2.11MB
下载 相关 举报
基于区块链技术和HDFS的可信电子文件管理模型.pdf_第1页
第1页 / 共7页
基于区块链技术和HDFS的可信电子文件管理模型.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、前沿探讨FRONTIER DISCUSSION编者按:网信前沿技术的发展和创新应用对提升国家信息安全保障能力,推动信息化和工业深度融合,加快经济发展方式转变和产业结构调整具有重要的支撑和引领作用,是制造强国和网络强国建设的核心力量。栏目分享网信技术最新进展,探讨创新应用实践。39 基于区块链技术和HDFS的可信电子文件管理模型45 基于语音性别分类的对抗样本研究51 文本指纹建模在数据安全管控中的应用研究56 信息可视化赋能艺术设计在信息化社会的今天,传统的纸质文件存档方式存在维护成本高、检索难度大等问题,电子文件管理成为了大势所趋。然而,在政府、银行等对数据真实性要求较高的行业部门,数据的可

2、信性一直是一个必须解决的问题。如果电子文件在存储的过程中被篡改而未被及时发现,将会对政府、银行的社会信誉产生巨大的影响。因此,如何保证存储的电子文件不被篡改,或者电子文件被篡改之后能够及时的被鉴别真伪,该研究具有较高的社会意义。区块链(Blockchain)技术1具有去中心化、不易篡改的特点,一直以来被用于虚拟货币的领域,如比特币(BTC)1-2、以太坊(ETH)3-4等。区块链技术的不易篡改的特点保证了交易区块一旦上链之后便无法被修改,基于区块链技术和HDFS的可信电子文件管理模型区块链技术具有难以篡改、不可逆的特点,可以保证链上数据的真实性。设计了一种可信电子文件管理模型,将电子文件摘要信

3、息保存在联盟链上,并使用Hadoop分布式文件系统存储加密后的电子文件,保证了电子文件不可被篡改,并能够通过区块链信息比对判别文件的真实性,为可信电子文件管理提供了一定的参考和借鉴。除非篡改者可以控制全链半数以上的算力,而后者条件是极为苛刻的。区块链的这一性质也被越来越多的研究者关注,并将区块链技术扩展至虚拟货币以外的领域。可信电子文件管理需要文件管理系统提供不可篡改的存储环境,这与区块链技术难以篡改、可追溯的特点是一致的,国内外部分学者尝试将区块链技术应用于可信电子文件管理中。Kalis等5提出了一种基于区块链的Hash验证方法,将数据标识符和电子文件分开存储,为可信电子文件管理提供了一定的

4、参考和借鉴;Wei等6通过虚拟机代理机制构建基于区块链的完整性保护框架,将文件通过Merkal Hash树生成对应Hash值,并通过智能合约监控区块链上的数据变化;杨海杰等7通过扩展区块头内容,构建并保存倒基金项目:国家自然基金面上项目(No.62072106);福建省自然科学基金项目(No.2020J01168,No.2022J01190,No.2022J01188);福建省高校产学合作项目(No.2021H6004);福建省中青年教师教育科研项目(No.JAT210053,No.JAT210051)袁野1,2,3,4黄丽清1,2,3,4黄添强1,2,3,4叶锋1,2,3,41.福建师范大学

5、计算机与网络空间安全学院2.福建师范大学数字福建大数据安全技术研究所3.福建师范大学福建省公共服务大数据挖掘与应用工程技术研究中心4.福建师范大学大数据分析与应用福建省高校工程研究中心CIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合392022年11-12月 排索引,并通过基于属性加密技术,实现了细粒度的访问控制,解决了私密数据共享的问题。为保证电子文件的安全性,同时提高链上运算的速度,本文借鉴之前研究者的经验,采用将文件摘要和文件本体分别保存的处理方式。同时将加密后的关键词索引信息保存至区块头信息中,实现了关键字加密查询和通过时间戳的范围查询。进一

6、步使用Hadoop分布式文件系统(HDFS),实现了系统的高可用。一、相关技术1.区块链技术区块链技术是由日本学者中本聪提出的技术,首先应用于比特币这一虚拟货币的概念上。其去中心化以及数据难以篡改的特点被科学家广泛研究,区块链技术的应用范围也被逐渐扩展到其他相关领域。目前被广泛公认的区块链技术主要分为3种:公有链、联盟链、私有链,其相关特征如表1所示。其中,不同于公有链,联盟链具有一定准入门槛,接入联盟链的都是经过授权的终端节点,可信度较高,故各节点达成共识时可以选择相对较简单的验证方式,提高共识达成速度。此外,不同于私有链,其数据的访问和编写权限对联盟内部各节点公开,为链内成员多点协作以及同

7、时开展业务提供了平台。因此,本文模型选择联盟链进行设计。共识算法是指在将记录上链的过程中,保证各个节点数据一致性。针对私有链或联盟链场景下,节点可靠性强,但是存在网络波动导致消息丢失甚至节点掉线的情况,Raft策略8提供了经过证明的安全性和简单的算表1区块链技术相关特征对比分类准入限制读写权限去中心化程度终端可靠度交易速度公有链无所有成员高低低联盟链有链内成员适中高高私有链有所有者或授权成员低高高法实现。在R a f t算法设计中,节点分别存在F o l l o w e r、Candidate、Leader 3种工作状态,算法通过一定的规则修改节点工作状态以保证整体处理流程的顺利开展,Raft

8、算法节点状态流转示意如图1所示。节点初始化为Follower节点,当超过一定时间链内没有Leader节点时,节点切换为Candidate状态,并开始新任期的选举流程。选举成功则节点转换为Leader节点开始新的任期,同时所有其余Candidate节点转换为Follower状态。失败则继续选举。而在节点处于Leader状态时,如果发现任期大于自己的请求,则意味着当前自己任期过期,则自动切换为Follower状态。Raft算法节点间通信通过心跳机制实现,Raft算法首先为每个成员设置随机超时间隔,一旦超出该间隔未收到Leader的心跳包时,则认为Leader下线。在选举阶段,节点发出竞争信号向所有

9、节点询问并收取选票,一旦超过半数选票同意,则节点成为新Leader,开始新的业务处理阶段,这个过程中一旦收到原来Leader的心跳信号,则中止当前选举。在日志复制阶段,Leader负责接受写入请求和其他非Leader节点转发来的写入请求,并进行日志记录,然后通过心跳包向所有非Leader节点广播该次写入请求。在收到半数以上节点的接收反馈后,Leader执行写入请求,并再次广播写入确认请求。半数以上节点都完成写入确认后,当前写入请求执行完毕。由于Raft算法执行交易需过半数节点完成,故同一时刻只能有一个Leader存在,这也就保证了如果有部分节点掉线再连接的话,Leader会将自身日志信息传给掉

10、线的节点,覆盖其本地日志,保证全局数据的一致性。2.Hadoop 分布式文件系统Hadoop分布式文件系统(HDFS)是Hadoop项目的数据持久化部分。HDFS将一份数据同时保存为多个副本,存储在不同的物理设备上,保证当部分硬件损坏时仍可以继续FollowerCandidateLeader开始超时进行Leader选举超时重新Leader选举获取多数投票,节点当选Leader发现当前Leader或者开始新的任期发现任期大于自己的请求图1Raft算法节点状态流转示意RONTIER DISCUSSION前沿探讨F40NOVEMBER-DECEMBER 2022图2可信电子文件管理系统框架对外提供服

11、务,提高了数据存储的可用性。同时,HDFS对硬件设备要求不高,仅通过普通硬盘即可实现部署,降低了使用成本。HDFS适合单个文件较大,读取频繁的业务场景,与可信文件管理的业务场景较为匹配。HDFS由一个NameNode服务器和多个DataNode服务器组成,其中NameNode负责管理文件元信息,DataNode负责保存文件。在接收到一个文件写入请求时,HDFS会将待存储文件进行分块,然后将分块后的文件分别保存在不同的DataNode服务器中,默认一份文件会保存3个副本。读取时,NameNode会查询元数据,找到该份文件对应的分块信息,以及每个分块文件所存储的DataNode信息,并将文件块分别

12、读取后组装成完整文件返回客户端。二、模型设计本文基于区块链技术和HDFS设计了一种可信电子文件管理模型,基于联盟链的准入机制保证了节点可靠性,并通过Hadoop分布式数据库保证了数据持久化的稳定性。可信电子文件管理系统框架如图2所示。当一台新终端加入联盟链时,终端须向认证服务器提出申请,获取准入授权,以保证链内各节点的可靠性。获得授权后,终端节点可以通过防火墙加入联盟链,在服从Leader节点进行日志复制等初始化操作后,正式开始相关业务。1.区块结构设计区块结构分为区块头和数据体两个部分,其中区块头部分存放本区块Hash地址、版本号、时间戳、前一区块的Hash地址、关键词索引、文件名信息,区块

13、头结构如图3所示。数据体部分信息主要包括加密文件在HDFS中的路图3区块头结构径、加密文件的MD5值以及系统要求的其他扩展字段。Genesis BlockCertificate ServerHadoop Distributed File SystemFirewallSystemBlock 2Block 3Block 4Block 1Block NBlock N+1sobtain access permitcheck access permitNNHDFSCurrent Hash AddressVersionTimestampPrevious Hash AddressKeyword 1Keywo

14、rd N.File NameBlock HeadBlock Bodymd5HDFS File PathCurrent Hash AddressVersionTimestampPrevious Hash AddressKeyword 1Keyword N.File NameBlock HeadBlock Bodymd5HDFS File PathExtended DataExtended DataMMCIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合412022年11-12月 /获取待归档文件File file=request.getFile();/对文

15、件进行加密Byte encryptFileBytes=EncryptUtils.encrypt(file);/获取加密后文件的MD5值String md5=MD5Utils.MD5(encryptFileBytes);/上链匹配,查询是否存在boolean exists=chainProxy.checkByMD5(md5);/如果已存在,返回失败if(exists)HDFS/LeaderFollowerFollowerFollowerFollowersreturn false;/HDFS持久化String filePath=HDFSClient.save(encryptFileBytes);/

16、组装数据Map chainData=createData(md5,filePath);/上链存储boolean status=chainProxy.write(chainData);return status;3.电子文件验证流程当业务终端验证文件真实性时,业务终端收到待验证文件,加密后计算MD5值并上链匹配,如果存在该文件,则返回节点头信息,并从头信息获取HDFS文件路径,同时在HDFS文件服务中获取原始加密文件,与加密后的输入文件进行字节码比对返回结果。如果不存在该文件,则返回验证失败结果。电子文件验证流程(如图5所示)如下:(1)系统接收电子文件验证请求;(2)将接收到的电子文件加密后计

17、算MD5值并上链匹配;(3)获取上链匹配结果;(4)如果寻找到待验证文件,则获取HDFS存储路径并发起文件获取请求,否则返回验证失败;(5)HDFS返回待验证文件存档;(6)对存档与待验证文件进行逐字节码比对,并将结果返回客户端。电子文件验证伪代码如下:图4电子文件归档流程图5电子文件验证流程/获取待验证文件File file=request.getFile();2.电子文件归档流程当业务终端归档新增电子文件时,首先将文件加密后计算当前文件MD5值,并上链匹配,如果当前文件已存在,则拒绝新增请求;然后请求HDFS主节点将加密文件进行持久化存储;随后寻找当前Leader终端,并将增加请求组装为请

18、求包转发给Leader终端。Leader收到新增请求后,追加日志并广播,待半数以上终端确认后返回请求响应,完成上链过程。电子文件归档流程(如图4所示)如下:(1)系统接收待存储电子文档,加密后计算MD5值并上链匹配;(2)如该请求已经存在,则拒绝请求,否则将文件加密存储至HDFS;(3)HDFS将文件路径返回;(4)Leader进行广播,将数据包上链存储;(5)Follower返回确认信号,该次请求上链存储成功;(6)客户端收到成功回答,流程结束。电子文件归档伪代码如下:HDFS/Genesis BlockBlock 2.Block NBlock 1NRONTIER DISCUSSION前沿探

19、讨F42NOVEMBER-DECEMBER 2022图6电子文件查询流程/对文件进行加密Byte encryptFileBytes=EncryptUtils.encrypt(file);/获取加密后文件的MD5值String md5=MD5Utils.MD5(encryptFileBytes);/上链匹配,查询是否存在MapchainData=chainProxy.getByMD5(md5);/如果不存在,返回失败if(!exists)return false;/HDFS获取存档文件Byte HDFSFileBytes=HDFSClient.get(String)chainData.get(“

20、filePath”);/将存档文件与待验证文件进行字节码比对boolean status=IOUpare(encryptFileBytes,HDFSFileBytes);return status;4.查询电子文件流程当业务终端需要根据关键词或者创建时间戳查询某个文件时,业务终端首先将输入的关键词进行加密,然后上链搜索区块头中相应加密关键索引或者时间戳满足要求的区块节点,并返回符合条件文件的文件名和存储地址的列表。如需下载,则根据对应存储地址请求HDFS获取原始加密文件,并解密原始文件。电子文件查询流程(如图6所示)如下:(1)系统接收电子文件查询请求;(2)将接收到的电子文件查询请求上链匹配

21、;(3)获取上链匹配结果;(4)如果寻找到待验证文件,则获取HDFS存储路径,并发起文件获取请求,否则返回验证失败;(5)HDFS返回待查询文件存档;(6)将查询结果文件存档返回客户端。电子文件查询伪代码如下:/获取查询参数String queryParam=request.getQueryParam();/上链匹配,查询是否存在MapchainData=chainProxy.getByParam(queryParam);/如果不存在,返回失败if(!exists)return null;/HDFS获取加密存档Byte HDFSFileBytes=HDFSClient.get(String)c

22、hainData.get(“filePath”);/将存档文件解密并返回File file=EncryptUtils.decrypt(HDFSFileBytes);return file;三、方案优点1.推动电子文件“单套制”“单轨制”管理国家档案局关于全国档案事业发展“十三五”规划纲要9中明确指出,在有条件的部门开展“单套制”(即电子设备生成的档案仅以电子方式保存)、“单轨制”(即不再生成纸质档案)管理试点10,为新时代电子文件管理指明了大方向。本文模型在保存文件时仅保存电子文件版本,全过程不存在纸质档案,为推行“单轨制”“单套制”改革提供了解决方案。2.保证电子文件真实可靠在电子文件管理过

23、程中,保证电子文件的真实性是一个技术挑战。重要的电子文件一旦被篡改,保存电子文件便没有意义。本文模型基于联盟链实现,加入联盟链需要向验证中心进行权限申请,保证了区块链中各个终端节点的可靠性,降低了数据篡改的风险。此外,在数据上链的过程中,将原始文件的MD5值永久的记录在区块链上,一旦电子文件被篡改,对比MD5值的差异便可轻而易举的发现该次篡改,从而验证文件的真实性。再者,修改区块链上存储的数据需要半数以上节点算力共同承认才能进行,HDFS/Genesis BlockBlock 2.Block NBlock 1NCIVIL-MILITARY INTEGRATION ON CYBERSPACE网信

24、军民融合432022年11-12月 这样的算力要求在联盟链上是很难发生的。因此本文模型在理论上可以保证电子文件的真实可靠,为电子文件的真实性提供准确的检测意见。3.提高电子文件管理系统可用性电子文件不同于纸质文件,其管理过程中有各种各样的电子器件参与,而电子器件对环境较为敏感,温度、湿度、磁场强度等因素都可能影响电子文件管理系统的存储质量,存在数据丢失的威胁。本文模型通过分布式数据库进行数据存储,将单个文件在不同服务器上进行多机备份,提高容错率,降低数据丢失风险。此外,对服务器数据进行定期热备份,在不停止服务器工作的同时备份数据库,保证一旦发生系统异常可以随时回滚,提高了业务可用性。四、结语本

25、文基于联盟链和HDFS设计了可信电子文件管理模型,并设计了电子文件归档、验证、查询流程,可以满足电子文件归档与电子档案管理规范(GB/T188942016)11中对于电子文件管理系统的“真实性”“可靠性”“完整性”“可用性”的要求,为当前形势下可信电子文件管理平台提供了一个实用的建设方案。参考文献:1NAKAMOTOS.Bitcoin:Apeer-to-peerelectroniccashsystemJ.DecentralizedBusinessReview,2008:21260.2MarcoFalke.BitcoinEB/OL.2022-12-25.3王群,李馥娟,王振力,等.区块链原理及关

26、键技术J.计算机科学与探索,2020,14(10):1621-1643.4VitalikButerin.GoEthereumEB/OL.2020-09-10.5KALISR,BELLOUMA.ValidatingdataintegritywithblockchainC/2018IEEEInternationalConferenceonCloudComputingTechnologyandScience(CloudCom).IEEE,2018:272-277.6WEIPC,WANGD,ZHAOY,etal.Blockchaindata-basedclouddataintegrityprotect

27、ionmechanismJ.FutureGenerationComputerSystems,2020,102:902-911.7杨海杰,石进,卢明欣.基于链上链下的电子文件可信管理系统模型J.档案管理,2022,(02):12-16.8ONGAROD,OUSTERHOUTJ.InsearchofanunderstandableconsensusalgorithmC/2014USENIXAnnualTechnicalConference(UsenixATC14).2014:305-319.9国家档案局.全国档案事业发展“十三五”规划纲要S.2016-04-01.10许振哲.单套制背景下电子签名应用的困境与思考J.档案天地,2022,260(8):58-62.11国家档案局.电子文件归档与电子档案管理规范S.GB/T18894-2016.2016-08-29.RONTIER DISCUSSION前沿探讨F44NOVEMBER-DECEMBER 2022

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服