基于Hadoop分布式架构...存储系统、文件存储实现研究_谢帆.pdf

资源描述

1、1引言面对海量大文件、小文件存储混乱的问题，引入基于Ha-doop分布式架构的云存储系统、HBase数据库，并提出海量小文件存储的HPM优化方案。根据小文件体积不均匀、数量多的特征，通过创建不同类别的小文件索引，将MDS镜像文件与文件名拼接成字符串，完成多个小文件合并设置，并采用Ehcache缓存框架对需要访问的特定数据文件，缓存至云存储平台的客户端中，能够充分保证用户在与Hadoop集群交互、重复信息访问的效率，以及分布式数据存储的可靠性、容错性。2分布式云存储涉及的关键技术2.1 分布式存储技术分布式存储是将分布式文件系统，部署于多个分散的云服务器中，并采用ScaleOut横向扩展架构，将

2、不同的数据信息处理、存储任务，分布到多个低成本的网络节点，并可根据数据存储的需求添加节点，来扩展云服务存储容量、存储功能。1外部客户端可通过互联网，接入到分布式存储的云服务平台之中，对任意时间、任意地点、任意数据对象的存储行为，进行独立存储节点、数据存储任务的配置，提供面向客户端、按需的云存储服务。2.2存储虚拟化技术存储虚拟化是指存储设备虚拟化、存储服务虚拟化、网络虚拟化，目的在于通过硬件及应用虚拟化、数据封装技术，解决不同计算机设备接口、存储容量间的差异问题，使得用户在数据信息处理、存储过程中，无需考虑后台的硬件配置、资源负载状况。在PC主机上设置虚拟化层，虚拟出应用软件、虚拟存储管理设备

3、，并通过映像技术虚拟出CPU、I/O通讯接口，以及NAS、SAN等虚拟网络存储，在数据信息处理与存储中共用同一传输信道，或者经由数据通道直接访问存储设备，实现底层硬件、上层存储业务的互相耦合。2.3数据容错及加密技术数据容错技术为分布式云存储的故障处理技术，包括复制性数据容错、纠删码型数据容错等内容。其中复制性数据容错技术，是通过设置多个数据处理模块，用于不同网络节点的数据处理、存储控制，当某一模块损坏后可断开或隔离该模块，内部节点的其余模块可正常运行，但缺点是复制性数据容错技术需要建立副本，会占用大量的存储硬件资源。纠删码型数据容错技术、数据加密技术，则是采用存储数据的编码处理方式、TTL/

4、SSL技术等进行编码加密、解码控制，用于防控外部用户攻击、病毒入侵，其占用的存储硬件资源基于Hadoop分布式架构的云存储系统、文件存储实现研究谢帆彭玉涛（井冈山大学网络信息中心，江西吉安343009）摘要：随着局域网内数据信息量的日益增多，如何对不断增加的海量数据作出筛选分类、分析与存储，成为企业数据管理、业务开展关注的重要问题，而依托于H a d o o p 分布式架构的云存储技术，构建起分布式文件管理的云服务系统，可保证数据存储与管理的合理数据块分布、功能可拓展性。基于此，通过围绕M a p R e d u c e 集群、H D FS 文件存储、H B a s e 数据库，以及PC主机

5、、VM W a r e 虚拟机等软硬件，建立起云存储服务管理系统，可针对大文件、小文件存储的问题，设置文件索引、读写、合并、缓存等的功能服务模块，提供一种按需服务的应用方式，实现对特定数据的预读取、检索、合并与存储，提高H a d o o p 分布式集群系统的数据读取、索引与存储效率。关键词：云计算；H a d o o p 框架；分布式存储系统；建设中图分类号：TP333文献标识码：A文章编号：1008-6609(2022)10-0102-04作者简介：谢帆（19 79），女，江西井冈山人，本科，高级实验师，研究方向为计算机网络及数据库技术应用。电脑与电信应用技术与研究-102DOI:10.1

6、5966/ki.dnydx.2022.10.017较少，但缺陷是编解码过程对服务器设备的性能要求更高。3Hadoop分布式框架下小文件存储的优化方案设计HadoopArchives作为数据文档或文件的合并工具，通常利用MapReduce模型编程、HAR文件元数据信息设置与合并，完成小的数据文件处理、归档存储等操作，并将归档后的文件添加至系统索引中。2如针对_index、_masterindex形式的小数据文件，可由HAR打包工具设置*.har的文件扩展名，其中包含了不同数据的文件名、位置等元数据信息，然后用part-*存放数据内容、用masterindex存放hashcode指针，归档处理后的

7、har文件可压缩和解压，这样能够最大程度减少磁盘容量的占用。SequenceFile 与 HAR 的数据文件合并方案类似，是以key value键值对的二进制文件作为小文件合并的元数据信息处理方式，其中设置key为小文件名、value为小文件内容，以数据块为单位进行序列化合并，将小文件数据切为split格式的片，作为MapReduce并行计算、存储的输入值，使小文件合并降低NameNode内存开销。但缺陷是该文件格式不能建立索引，读取时需遍历整个源文件。因而这一数据文件合并方案，即使采取Block组织方式对key、value都进行压缩，也难以满足低延时随机访问的数据读取需求。为解决这一问题，本

8、文给出HPM分级处理的小文件优化方案，采用HPM方案改进现有的HDFS分布式存储架构，将其设置为包含用户层、数据处理层、存储层的多层结构，具体如图1所示。图1HPM方案改进的HDFS分布式存储架构其中HPM分级处理模块位于数据处理层，该层级包含文件重复判定、文件大小判定、文件合并、缓存和预取等的子模块，根据服务器/客户机(C/S)模式传输的文件大小，HPM通过以上多个处理模块，完成不同文件名称字符串、MD5值的数据检索分析，判定文件大小、是否存在重复，将小文件通过合并模块的合并队列、临时队列进行合并，使合并文件大小满足系统数据块的阈值要求，降低NameNode的内存开销。同时，在索引子模块中创

9、建索引文件，在HBase数据库中记录临时索引信息，将检索的同一类型的小文件合并；在缓存和预取子模块中，扫描数据文件的访问次数，记录访问频率更高的文件，并将该文件缓存于HDFS存储端，以便于用户端对数据文件的重复访问和读取。4基于云计算的分布式存储系统组成架构、功能实现4.1Hadoop集群部署、环境变量配置在分布式存储系统构建之前，需要利用各节点主机、VMWare虚拟机、Hadoop集群，进行完全分布式系统架构的环境部署。选用6台PC机作为NameNode节点、DataNode节点、SecondaryNameNode 节点的主机，分别命名为 masterl、master2、slavel、sla

10、ve4，各主机在不同节点上执行主机名修改，以及network-scripts目录的ifcfg-eth0文件修改、静态IP地址配置等任务，使Hadoop集群的多个节点名与节点IP地址相对应3。而后对Hadoop分布式架构的Java编译运行环境进行配置，设置由ssh管理的免密钥登录节点，设定各节点的数据存放目录/opt/software、解压目录/opt/module，ssh免密钥配置的执行流程为：$ssh-keygen-trsa;$cd/root/.ssh;$ssh-copy-id-slavel4，即输入命令分别对应id_rsa.pub(公钥)、id_rsa(私钥)等文件，在master节点进入

11、/root/.ssh目录，将公钥拷贝到可免密登录的 slavel、slave4节点，由此只需通过 ssh-rootslavel4命令验证，即可完成存储节点设置。Hadoop环境变量的配置需打开etc目录，将profile文件的用户名$LOGNAME/.profile、登录目录$HOME/.profile 变量，添加到数据存储的运行环境中，在profile文件末尾添加Hadoop路径vim/etc/profile，保存退出。而后对masterl节点、slaves节点的环境变量进行设置，将jdk安装路径加入至mas-terl节点，添加slave节点的IP地址，修改Hadoop核心

12、配置文件来完成节点IP和端口设置。4.2分布式存储系统的总体架构设计基于Hadoop分布式集群环境，构建用于数据处理、存储的云服务管理系统，对系统内的文件大小、名称、长度、合并偏移值等元数据信息，以及数据文件的存储路径进行科学规范管理4。云存储系统模型的层次化组成结构，包括存储层、数据管理层、应用接口层、用户访问层等层级，具体如图2所示。该分布式云存储系统模型以B/S(浏览器/服务器)模式，作为用户访问、数据处理与存储的功能实现方式，由应用服务器响应用户登录、文件上传/下载的执行命令，Hadoop集群节点存储大文件、小文件、合并文件。存储层为系统最底层，通常包含HDFS存储器、Web服务电脑与

13、电信应用技术与研究-103器、存储硬盘等设备；数据管理层借助于Hadoop分布式集群、存储器装置，设置多个网络节点、虚拟出NAS、SAN存储装置，可提供数据读取、写入、浏览、删除的功能服务。图2分布式存储系统的组成架构应用接口层为系统的网络连接层，包含API、webserver等接口，在数据接入、网络信道传输过程中，由Web服务器控制用户访问请求、文件处理与存储需求，安排Nginx反向代理向多个网络节点分配负载，并将处理后的数据写入至Ha-doop集群、MySQL或HDFS存储数据库中。用户访问层为系统最外层，由管理服务器分配与配置系统账号、登录密码，展示用于用户访问控制的注册、登录等操作页面

14、。4.3数据文件存储的功能实现网络云平台中的数据文件存储设置，通常围绕着用户层、数据处理层、存储层等系统层级，设置用于数据文件存储的大小判定模块、重复判定模块、合并模块、缓存及预读写模块，分级完成多个小文件数据的连续处理5。（1）文件大小判定的功能模块。当前网络传输、存储数据文件大小的阈值设定，通常依照HDFS分布式文件存储的标准，默认数据块大小为64MB，小于64MB的存储数据文件被称为小文件，但这一文件阈值设定过高，将导致不必要的文件合并，过低又会增加合并后的小文件数量，因此本文设定小文件阈值为10MB。（2）文件重复判定的功能模块。数据文件传输的重复性判定，通常使用MDS信息摘要算法，对

15、不定长度数据信息，处理为具有固定字符串长度的数据元组，并输出由MDS算法处理后的结果A。当用户客户端上传文数据件后，查看数据信息的MDS值是否存在于HBase数据库中，若存在表明数据已被写入、无需重复写入，具体基于MDS算法的数据文件重复判定步骤如下：第一，对数据长度为M的文件进行二进制数填充（包括1和n个0），直到字符串扩充为448+N*512(bit)的长度则停止填充。第二，用64位字符串存储填充前的数据信息长度，按照64 位求余的结果，追加长度为 448+N*512+64=(N+1)*512(bit)的数据序列。第三，设置32位初始化链路变量A、B、C、D，对输入数据分为字符串长度为51

16、2bit的信息块，进行多轮线性函数循环运算，求解公式为lib=(A B C)T+(A B D)T+(A C D)T+(B C D)T，得到 lib1、lib2等的相加求和结果 lib，作为 MDS 值。将MDS值与HBase数据库中的文件名、文件内容字符串作对比，进行重复数据的筛除、过滤。(3)文件合并的功能模块。HDFS分布式存储架构，可按照顺序进行大文件的存取、合并，但在大量小文件的处理、合并方面性能较差，而对缓存区队列设定阈值、遍历小文件的方式，虽然能完成大部分主流小文件的处理、合并存储操作，但以“文件体积”控制为主的合并，将造成合并后的数据体积不均、NameNode内存浪费问题。根据以

17、上数据文件大小判定标准，设定小文件阈值为10MB的体积最优模式，也即当传输文件体积大于10MB时不作处理，小于10MB时按照数据文件大小判定的要求，按照文件体积大小进行均匀分布，执行文件大小的判定算法（具体代码如图3所示）对其合并处理，并调用API接口上传大文件至DataNode集群中存储。这一基于体积最优的小文件合并算法，可最大化利用数据块的存储空间，避免合并小文件被分割、跨越数据块存储，降低NameNode节点的内存开销。文件大小的判定算法如下：电脑与电信应用技术与研究-104（4）文件索引、缓存的功能模块。在HPM多处理器架构中，设置小文件读取分级模块、建立索引文件，使用HBase索引表

18、、数据库存储临时的索引文件信息，包括数据文件名、块BlockID、存储路径、MDS值等的信息，以及合并后的小文件长度、偏移值信息。其中对不同类型的数据文件进行标记，大小数据文件分别记为flag=1、flag=0，合并文件记为flag=2，根据标记选择数据读取、索引的执行策略。网络数据小文件缓存的主要目的，在于方便HDFS分布式存储系统的读写操作，也即“一次写入、多次读取”。依托于HBase索引表、HDFS分布式存储器与I/O接口，可针对外部用户客户端访问的NameNode请求，设置元数据文件的缓存机制、置换策略，响应请求后将大文件、合并文件的元数据信息，以及将小文件的文件名、长度和偏移值等信息

19、，缓存到 HDFS 存储器之中，当目标文件被访问时，直接检索HDFS存储器的元数据信息即可6。这里小文件缓存信息与的格式内容对应，Key值用于记录小文件检索的信息，value值用于记录小文件的文件名、长度和偏移值信息，进而实现分布式存储系统的用户管理、目录管理和文件管理功能。5结语分布式云存储是基于多台PC主机、服务器及数据库，将网络数据处理的任务程序，拆分为多个动态资源分配的小程序，为不同用户分配动态的资源池，完成数据存储的按需资源配置、功能扩展。因而对于不同数据信息的分布式云存储，借助于Hadoop分布式架构、HDFS存储器、HBase数据库、PC主机、VMWare虚拟机等软硬件设备，搭建

20、起虚拟化云存储服务平台，提供分布式接入、全局访问、虚拟化处理与存储的服务，可完成对大小数据文件的分布式存储、存储虚拟化及数据容错处理。参考文献：1周亮，王震，王冠远程过程调用技术在分布式软件系统中的应用J 航空电子技术，2 0 2 0(4)：47-52 2 王焘，张文博，徐继伟，等云环境下基于统计监测的分布式软件系统故障检测技术研究J 计算机学报，2 0 17(2)：3 9 7-4133 孙晓冬一种分布式软件系统可靠性加强模块设计J 电脑知识与技术，2 0 19(2 0)：6 7-6 94齐莉云计算背景下分布式软件系统故障检测技术研究J 电子制作，2 0 2 1(18)：19-2 0 5郭威，

21、谢光伟，张帆，等一种分布式存储系统拟态化架构设计与实现J 计算机工程，2 0 2 0(6)：12-196 马国胜，王智平基于云化架构的网络架构演进路径研究J 金融科技时代，2 0 2 1(2)：50-57Research on Cloud Storage System and File Storage ImplementationBased on Hadoop DistributedArchitectureXIE FanPENG Yu-tao(Network Information Center of Jinggangshan University,Ji an 343009,Jiangxi)A

22、bstract:Abstract:With the increasing amount of data information in the LAN,it has become an important issue for social enterprise datamanagement and business development to filter,classify,analyze and store the increasing mass data.Relying on the cloud storagetechnology of Hadoop distributed archite

23、cture,a cloud service system for distributed file management has been built to ensure thereasonable data block distribution and functional scalability of data storage and management.Based on this,a cloud storage servicemanagement system is built around MapReduce cluster,HDFS file storage,HBase datab

24、ase,PC host,VMWare virtual machine andother software and hardware.It can set file indexing,reading and writing,merging,buffering and other functional service modulesfor the storage of large and small files,provide an on-demand service application mode,realize the pre-reading,retrieval,mergingand storage of specific data,and improve the data reading,indexing and storage efficiency of Hadoop distributed cluster system.Keywords:Keywords:cloud computing;Hadoop framework;Distributed storage system;build电脑与电信应用技术与研究-105

展开阅读全文