海量数据分布式存储技术研究.pdf

资源描述

1、2023 年第 7 期100计算机应用信息技术与信息化海量数据分布式存储技术研究魏彬1WEI Bin 摘要随着计算机技术的不断发展，互联网业务也在逐渐地扩大，海量用户纷纷涌入到网络中，使得网络系统数据存储空间日益增大。然而海量数据的存储容量往往同存储性能是相反的，传统的数据库在面对海量数据时早已不堪重负，渐渐地就出现了扩展性能差、网络延迟、效率低下等问题。基于此，就车联网海量数据的分布式存储处理技术为研究方向，通过详细分析，构建出一种基于传统数据库存储模式的分布式存储技术，通过仿真实验测试后表明，该技术能够有效解决现有问题，具有一定的参考意义及推广价值。关键词海量数据；分布式存储；稳定性

2、 doi：10.3969/j.issn.1672-9528.2023.07.0251.咪咕音乐有限公司四川成都 6100000 引言互联网时代的到来，使得海量数据的处理和检索变得日益复杂起来。要实现海量数据的存储，不仅需要具备超高速网络基础设施，同时还需要能够对海量信息进行处理计算的存储平台1。为此，分布式存储技术便应运而生。分布式存储能够有效缓解海量数据带来的压力。基于物联网时代高速发展的背景下，网络中数据量在日益增长，而分布式存储的作用价值就能够很好地体现出来。所以，研究分布式存储算法，有着极其重要的现实价值和意义。1 系统需求分析（1）由于传统数据存储无法满足现目前互联网发展需要，进而

3、也就无法解决容量扩展和负载分布等问题。同时，也不能仅用单独的机器来进行海量数据存储，一旦超出机器负载，将会造成数据流失、系统崩溃，所带来的损失是无法预测的2。（2）海量的车辆网数据在不断地增加，传统存储系统内部容量已经达到饱和状态，持续地增加的数据只会导致系统查询速度延迟、卡顿，同时随着用户不断地进行数据查询，极大程度上地会导致程序死机。（3）当前车辆网受众群体多以年轻人为主，所以功能需求方面也越来越多样化，这就意味着对存储系统的运算能力有了更高的要求。因此，根据上述存在的问题，本研究首先需要对存储系统进行相关需求分析，系统需求分析主要包含基本需求以及应用需求两大板块3。首先，针对基本需求分析

4、而言，又分为了数据预处理、数据查询以及数据分析等三部分，如图 1所示。1.1 数据预处理由于难以进行车联网信息数据的大规模检验，因此为确保能够对该数据进行有效分析，首先就需要对数据进行预处理工作。该项工作包含了数据清洗与数据筛选这两大部分。其中，数据清洗的作用是指在信息数据传输过程中，有可能会受到某些外部环境因素的干扰，从而导致数据出现质量问题4。而数据筛选本身就具有相关的信息数据特征。由此可见，针对车联网信息数据得处理过程而言，可能会出现一些数据分析的需求，所以相关技术人员在进行操作的过程中，需要根据这些需求将同种类型的信息数据组建成全新的信息数据。1.2 数据查询海量的车联网信息数据查询功

5、能是系统中十分重要的部分。当驾驶人员行驶过程中，车联网用户需要查询各种交通信息，如车速、路段情况以及车流量等5。通过采用简捷、快速地一键查询功能，可以使用户更加快捷地了解到所需要的交通信息，也进一步提高了系统海里数据查询的效率和准确度。1.3 数据分析如果只是从海量的信息数据中获取用户所需要的信息数据，那么用户也仅仅只能获取到单一的地理位置信息、车速等信息。所以，为了满足现代化用户们的需要，也为了能够获取到更具价值的信息数据，对海量的信息数据进行分析是十分有必要的6。其中，车联网信息数据分布式存储系统也需要进行相应的分析，并且必须要满足数据统计、分析以及图 1 数据预处理图 2023 年第 7

6、期101计算机应用信息技术与信息化建模等。分布式存储系统的应用需求主要是在充分了解到系统中海量用户的基本需求后，然后对系统的运行以及应用进行详细分析研究。本研究是主要是该系统的稳定性、高效性以及拓展性这三方面进行深入探讨。1.4 稳定性本系统可以支持各种数量类型的自动备份和自动存储功能。在数据存储和备份数据的上传过程当中，需要确保上传数据始终保持稳定性状态，同时做到当数百个服务器节点中的只要出现一个故障，系统就能及时地识别出来，而整个系统仍然可以继续运行，并且不会影响任务。1.5 高效性随着车联网数据的不断增加，所以必须要求分布式存储系统具有一定的扩展性能，使其能够在现有的节点基础之上，能够

7、将系统中的节点数量拓展到成百上千节点，以此达到降低系统运行成本的目的，进一步提高该系统的分布式存储能力。1.6 拓展性本研究系统所具有的高效性能主要体现在对系统中的海量数据进行快速、高效处理以及后续的分析上。此外，为了能够确保可以按照信息数据类型的不同需求，能够制定出一种完整的、不同类型的数据处理方案，通过利用不同类型的工具，对所需要解决的问题进行逐一分析7。最后，针对数据分析的结果进行可视化处理，车联网用户与服务器之间的交互方式就变得更加简单方便。2 系统架构本研究首先以传统车联网数据存储系统为基础，针对该系统目前所面临的问题、数据特点以及系统需求等多个方面。此外，还需要结合现代化的数据预处

8、理技术，然后再进一步构建出分布式存储技术的处理系统，具有方案如下：首先，采用分布式集群的部署方法，能够极大程度上地解决因节点数据导致的故障问题，同时还包括了一些关于数据分配上的问题，进一步防止因系统资源不足而产生的系统程序互相干扰等问题。其次，数据存储是以 HBASE 数据库为基础进行的海量数据存储，进一步设计出了众多不同类型、不同数据的查询8。除此之外，采用协调服务能够有相关的数据库进行实时监测，并且还需要确保整个系统只存在一个 NameNode 和HMaster，从而形成车联网海量数据存储层，进一步确保系统中的信息数据能够得以安全、及时地存储。最后，Spark 并行计算框架作为数据处理层部

9、署在Hadoop 分布式集群上，能够有效提升本系统的运行效率以及数据的计算速度。同时，本系统的应用也可以在线支持其他应用场景以供用户选择。2.1 整体设计本系统的整体设计架构分为存储层、处理层以及应用层等三个部分。其中，针对海量信息数据的采集主要包括有：GPS 系统、车载系统、车载摄像头等9。因此，本文所研究的重点在于系统的数据存储以及数据处理这两方面。首先，利用 TFS 集群部署以及资源管理系统进行数据统一化处理；其次，系统中的信息数据存储是由 Hive 和 HBase组成的，二者分别代表离线存储和在线存储10。后者 HBase数据库，会定期备份系统中所有的存储数据，然后再将这些信息数据存储

10、到 TFS 当中，而数据也能够从前者 Hive 的中进行有效读取，最后再一同纳入到 TFS 表中；最后，使用基于内存的并行化计算框架的 MapReduce（MR）来作为该系统数据处理层是最合适的，其中应用层的主要作用是能够对已经存储的信息数据进行查询，当然也包括了对海量车联网用户行为、用户信息进行分析等。2.2 系统实现2.2.1 基于 TFS 的分布式文件存储系统由于 TFS 是一个具有高性能、低成本等特征优势的分布式存储系统，因此本研究的海量车联网数据应用该系统十分合适。本文采用分布式存储数据分片，能够有效解决了现有存在的单点故障问题，进一步确保车联网分布式存储处理系统的稳定性。此外，整个

11、系统的集群是根据不同的机器上的不同种节点组合而成的。本研究一共采用了机器，同时部署了多个不同类型的节点信息11。其中，客户端与NameServer节点相连，而 DataServer 节点与交互系统相连。NameServer 节点的作用主要是用于对系统中的集群数据进行动态化管理与维护，而DataServer 节点的作用是用于存储实时数据和读写。其次，为了能够有效解决系统出现的单点故障现象，最有效的方式是让 NameServer 节点处于活跃状态，而节点就处于休眠状态。这时的 NameServer 节点就主要负责去处理集群中海量车联网用户的所有系统操作，而处于休眠状态的是不支持用户服务。如果集群中

12、因为机器死机或者系统更新升级而无法正常使用的，就必须要对故障进行快速转移处理，从而能够有效避免因为该问题导致影响系统正常使用。再者，为了使系统能够在两者不同状态下的信息数据能够保持一致，storm 提供了一个共享存储系统，通过利用三种不同的信息数据构建成一个集群，从而能够使系统在两种不同状态下的 NameServer 节点信息，能够始终保同样的状态。尤其是在遇到紧急情况之下，二者间也能够快速进行状态切换。因此，本研究 TFS 的数据能够根据不同的数据块，再经过数据备份之后，分布存储在不同的 DataServer 数据库中。2.2.2 HBase 分布式数据库与视频、网页等数据不同，HBase

13、分布式数据库所收集到的海量的车联网数据通常情况下是以半结构化数据为主，其中主要包括由文档信息、地理位置信息、GPS 卫星图像信息等多种不同类型的信息数据12。所以，现代化车联网信息数据存储技术无法使用过去传统的存储模式，为了能够有效提高系统的存取效率，笔者从多维度综合分析了该信息数据2023 年第 7 期102计算机应用信息技术与信息化的相关特点，然后结合 TFS 与 HBASE 数据库，进行了协同存储。本文所设计的车联网信息数据分布式存储系统中，数据存储层主要采用的是两种不同的数据库类型进行协同存储。其中，该系统会定期将车联网中所有的离线数据进行更新检查，并将所有的信息数据存储到对应的 TF

14、S 数据库中，而在线数据将会通过车联网用户端口每 10 s/次，不间断地发送到系统服务器当中，最后一同存储在 HBase 中。本研究所设计 HBase 表中每一个存储数据，包括车辆信息、地理位置、车速、实时路况等多种不同信息数据等。其中，将相同特性或者具有相似性的数据组合在一起，能够有效提高系统的查询性能，然后再根据用户的不同查询需要，建立出相应的 HBase 数据表，能够有效缩短查询时间，提高查询效率。本研究针对 HBase 数据库表中一共设计了两个不同类型的键：keyl 和 Key2，前者采用的使单行键设计，而后者则采用的是复合键设计。Key1 键的主要作用是能够给车联网用户提供实时查询功

15、能，包括记录车辆经常行驶的地方。此外，由于 key1 键采用的是单行键，所以能够记录车辆的所有行驶数据，然后对这些数据能够进行排列组合并存储，从而能够方便数据清洗以及数据分析13。而 Key2 键的主要作用是用户查询，包括车辆运行轨迹、实时路况等。由此可见，车辆信息、道路信息等都是车联网应用中重要的设计元素。Key2属于复合键设计。能够有效识别出数据信息，然后再根据车辆信息进行综合排序，相同类型的信息数据将被连续存储。TFS 和 HBase 二者都是供用一个单独的 storm 来确保集群的高性能、高精度性，进而使用户能够安全、可靠地访问该系统。storm 在 TFS 中，能够确保数据集群中只存

16、在 NameServer 和DateServer 两种数据类型。因此，为了能够有效提高系统地整体信息数据资源的利用率，本文决定在 storm 中设置相应的 RPM 系统，从而能够有效防止系统中的数据资源被占有，避免导致应用存储空间崩溃现象。2.3 硬件环境本研究所设计的海量车联网数据分布式存储系统是基于传统数据存储的基础上衍生相出更加符合现代化人群需要的一种新型分布式存储系统，本研究利用现有实验室条件下，建立而成，将虚拟机设备安装在实验室机器上，使系统中的相关部件能够在虚拟机中有效运行14。其中，storm 搭建在TFS 中，而 TFS 和 HBase 进行协同存储，HBase 主要用于协调服

17、务，而 storm 主要作用是用来对实验结果进行计算。本次实验的将在多台设备上同时运行，所有设备的操作系统均采用的是 Unix。2.4 软件环境参与本系统构建的部署包括 JDK 安装、SCALA 安装、TFS 构建、HBase 构建、storm 搭建、NameServer 搭建、DataServer 搭建等。其次，包括 storm-1.2.0.tar.gz、HBase-1.2.2.tar.gz、TFS-3.5.0.tar.gz、JDK2.3.0.tar.gz 等。2.4.1 storm 部署（1）网络配置一般情况下，电脑设备在启动前，都会自动获取到对应的动态 IP，此时显示网络

18、连接成功后，其 IP 地址都会发生一定的变化，这就导致不同的机器之间无法形成统一的集群15。为此，我们需要将每一台机器都设置相应的静态 IP 地址，从而能够有效避免用户因集群问题而导致不能对系统访问16。本系统的静态 IP 设置为 interfaces，然后将所有的配置完成之后再次进行启动，查看配置是否生效。（2）变量安装本设计能够同时支持多种编程语言，因此需要安装相应的软件包。将包安装完毕之后，需要对环境变量进行安装配置。该系统的环境变量配置还包括 TFS、HBase 等多种环境变量。（3）配置文件配置该文件是为了能够在设备的 IP 地址和用户关系之间建立起联系，从而能够使节点与节点之间可以

19、快速访问。此外，由于集群中所有的节点信息数据都有着同样的配置。所以，我们需要再每一台机器中对主机名称进行修改，最后才能在/etc/hosts 文件中配置 IP 地址的映射。（4）免密登录设计系统的免密登录能够为用户节省足够的时间。因此，我们需要在每一个设备上都安装对应上的设备，并且所有的电脑设备上的文件包都有主机公钥，最终能够实现每一台主机设备上都可以进行免密登录。2.4.2 计算框架数据处理层是本系统十分重要的部分，其能够直接反映出系统的运行效果。其中，在 storm 计算框架内，一共有两个不同的节点信息，即：主控节点和工作节点。当系统开始正常运行的时候，主控节点就需要向工作节点申请所需要用

20、到的相关计算资源，确保能够维持工作节点处于正常工作状态，进而能够满足日常正常运行。而工作节点中的设备将会启动 Driver 主控器，从而负责整个应用过程中的数据监控、数据分析以及数据调度等操作。在本研究结构中，一种部署了 1 个主控节点和 7 个工作节点集群进行分布式计算，再利用 storm 计算框架分析出车联网用户的车辆数据，从而能够有效车辆信息查询、定位查询、路况信息查询、用户行为分析、拥堵路段、优选路线等应用17。根据车联网数据实际应用需要，利用 storm 计算框架中结合聚类算法，能够对系统所收集的所有车信息数据进行分析。3 系统测试3.1 稳定性测试为了验证本系统的稳定性，需要对稳定

21、性试验进行多次实验：2023 年第 7 期103计算机应用信息技术与信息化(1)确保 NameServer 节点处于活动状态；(2)将处于休眠状态下的 NameServer 节点重新启动；(3)分别上传不同类型的数据到 TFS 的任务管理器中，使处于休眠状态的NameServer 节点再次工作起来。为了显示测试过程中节点转换的节点之间的关系状态以及显示在系统真实节点转换状态，本研究采用了多次测试来反映了节点的变化18。经过大量的实验测试表明，当活动节点出现故障时，系统能够立即检测到故障发生的准确位置，然后自动启用备用节点来代替故障的节点维持正常运行，相应的数据也完全存储在 TFS 中，根据实验

22、结果可以表明，该方法能够很好地解决了传统集群中所出现的单点故障问题。同时,该方法也能够有效加快节点与节点之间的转换时间，从而能够提高系统的稳定性和可靠性。3.2 分布式测试在系统中，NameNode 的作用是能够根据 DataNode 当前的状态，将信息数据分配给负载较小的 DataNode 数据，然后将副本信息归纳到 DataNode 中19。由于上传的信息数据中，所有的 DataNode 都存在大小分布不均的问题，而 HDFS中的平衡性能可以有效解决此类问题。为了确保该性能的可行性，本文进行了系统测试。本次测试主要采用的是容量为2.06 GB 的信息数据，然后通过对安装节点前后的负载量大小

23、来判断测试的结果20。其中需要注意的是，如果每一个节点都符合负载平衡标准范围内，则表示该集群的负载处于平衡状态。根据相关公式计算得出，系统节点集群负载比为2.985%，而此前所设置的平衡标准范围为 1%，因此，可以表明该系统的集群是符合负载平衡范围内的，也就是说本系统在面临海量数据前，能够有效实现负载平衡，从而维持系统的稳定运行。4 结语综上所述，本研究基于传统数据存储技术为基础，利用多台机器设备共同构建出了一种基于高精度、高效、可拓展性的车联网海量数据分布式存储系统。通过相关的系统测试后表明，首先该系统能够有效解决目前存在的单点故障问题；其次，本系统基于互联网海量车载信息数据下，也能够实现负

24、载平衡；再者，该系统还能够有效实现并行计算，极大程度上地减少了系统运算时间，从而能够有效提高系统地运算效率提高以及响应能力21。最后，该系统能够有效满足当今现代化车联网用户的实际应用需求，包括车辆信息、定位导航、实时路况等。由此可见，经过一系列的测试后，该系统均表现出令人满意的效果，也意味着海量车联网分布式存储系统具有高效、稳定、准确、安全等优势特征，具有一定的推广价值。参考文献：1 高尚建,魏国,杨功.基于海量数据优化管理的分布式文件存储系统应用研究 J.科技创新与应用,2020(18):181-182.2 张征亮.浅谈物联网海量数据的分布式存储算法 J.数字通信世界,2019(7):247

25、.3 石玥,王锋,李鹏程,刘应波.基于 Cassandra 的海量MUSER 数据分布式存储与检索研究 J.天文研究与技术国家天文台台刊,2018,15(03):361-368.4 杨超.海量空间数据的分布式存储查询优化 D.桂林：桂林电子科技大学，2022.5 张桂刚,李超,张勇,等.云环境下海量数据资源管理框架J.系统工程理论与实践,2011(S2):28-32.6 杨晓雁.基于 Hadoop 的海量数据的分布式存储关键技术研究 J.自动化与仪器仪表,2016(10):166-167.7 陈永艳.电力海量暂态数据存储与分布式 IP 网络安全评估研究 D.昆明：昆明理工大学,2016.8 朱

26、刘江.基于 Hadoop 的海量城市交通流数据分布式存储与分析研究 D.扬州：扬州大学,2015.9 左晓静,王荣.一种基于云计算的海量数据分布式存储策略 J.河南科学,2015,33(12):2135-3-2139.10 刘应波.太阳望远镜海量数据存储关键技术研究 D.北京：中国科学院研究生院（云南天文台）,2014.11 余骏.面向海量天文数据的分布式存储引擎的研究 D.天津：天津大学,2014.12 傅建强.分布式小数据存储系统的设计与实现 D.成都：电子科技大学,2011.13 薛建生,于忠臣,黄磊等.物联网海量数据的分布式存储算法 J.小型微型计算机系统,2013,34(09):20

27、81-2084.14 刘伯睿.海量数据小文件分布式存储系统的设计与实现D.长沙：湖南大学,2013.15 邓平,李红育,宁东玲.海量数据分布式存储与检索优化分析研究 J.网络安全技术与应用,2013(04):63-65.16 张广弟.分布式环境下海量空间数据的存储和并行查询技术研究 D.赣州：江西理工大学,2012.17 陈泽锋.数字博物馆海量数据的分布式存储关键技术研究与实现 D.杭州：浙江大学,2013.18 李勇君.基于 Hadoop 的海量期货数据的分布式存储和算法分析 D.天津：天津大学,2012.17 王玮,杨润和.基于海量文献数据的市场监管领域研究热点探析 J.中国工商管理研究,2015(11):71-74.20 陈晓.移动互联网中海量用户数据的分析与研究 D.北京：北京邮电大学,2015.21 李艾芮.基于 Hadoop 的移动互联网用户移动性预测模型研究 D.北京：北京邮电大学,2017.【作者简介】魏彬（1975），男，重庆万州人，硕士，工程师，研究方向：云计算和分布式存储方向。（收稿日期：2022-11-26 修回日期：2023-01-15）

展开阅读全文