收藏 分销(赏)

基于Spark的大数据分析系统设计和实现.pdf

上传人:自信****多点 文档编号:2120206 上传时间:2024-05-16 格式:PDF 页数:3 大小:1.32MB
下载 相关 举报
基于Spark的大数据分析系统设计和实现.pdf_第1页
第1页 / 共3页
基于Spark的大数据分析系统设计和实现.pdf_第2页
第2页 / 共3页
基于Spark的大数据分析系统设计和实现.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、信息记录材料 年 月 第 卷第 期基于 的大数据分析系统设计和实现边 宁(淄博市政务服务中心 山东 淄博)【摘摘要要】为解决传统的数据分析方法存在低效率、弱扩展性及维护成本高等问题结合大数据技术设计实现了一种基于 的大数据分析系统以此满足用户对数据分析的需求 该系统的设计主要由分层架构组成分为应用层、服务层、存储层以及基础层等并在满足用户对数据的可靠、高效的分析需求时还有效降低了系统的后期维护成本提高了系统的可扩展性 经测试结果证明该系统的可行性【关关键键词词】大大数数据据技技术术 大大数数据据分分析析系系统统 设设计计研研究究 【中中图图分分类类号号】【文文献献标标识识码码】【文文章章编编号

2、号】()作者简介:边宁()男山东淄博硕士高级工程师研究方向:大数据分析、大数据计算引擎、集群计算 引言随着科学技术的不断发展网络中产生了海量的数据 面对海量数据流的影响如何实现对网络当中存在的大数据实施高效地分析已经成为了当前学者的研究特点而大数据的核心问题就是对大数据的分析处理 传统的大数据处理及分析方法已经无法有效满足当前阶段对大数据的高效、实时存取和处理等方面的需求 丁鹏程对用户行为数据分析包含数据采集、数据存储、利用等多个阶段实施分析但是该方法存在用户行为数据丢失的漏洞 林星星主要针对 在商品个性化推荐这种特殊场景中的应用展开研究借助混合推荐算法虽然解决了商品个性化推荐过程中存在的数据

3、稀疏性及实时性等问题但数据信息的处理效果相对较差会导致系统的性能下降 上述方法均不能精准地实现大数据分析因此为解决上述问题提出了一种基于 的大数据分析系统设计方案 该系统的框架选择适用性较强的 计算框架为主能够支持多种类型语言的编程此外还可以实现对大数据的交互式、批量处理、计算分析 基于 的大数据分析系统以实现对大数据的实时分析 技术概述 作为 所开发的一款大数据计算框架它和 两者之间既有相似部分也有不同 不过 和 两者都具有分布式优点能够实现对大数据的快速集群计算并且 在 集群上运行还可以实现对 当中的数据资源进行实时访问 支持多种不同文件格式对数据展开分析和处理其数据结构主要以(弹性分布式

4、数据集)为主且该数据集在完成创建之后无法修改 因此在大数据分析处理中 能够适用于机器学习与数据挖掘 此外 具有良好的工作负载性能不仅可以实现交互式查询还拥有内存分布式数据集性能可以对迭代工作负载进行相应的优化 因此在不同的应用场景当中 系统的各个组件具有不同的作用具体见表 表 的应用场景业务场景 生态组件时间级别批量的复杂数据处理小时级针对 历 史 数 据 的 查 询处理 分钟级或者秒级针对 实 时 数 据 的 实 时处理 秒级或者毫秒针对图像数据的处理对历史数据的有用信息挖掘 基于 的大数据分析系统设计及实现 系统设计原则首先从大数据分析系统的设计原则方面进行分析考虑到后期数据量的增加及随着

5、业务需求的提升所使用到的组件也会增加集群得到扩展进行基于 的大数据分析系统框架设计 其次结合该系统的功能需求以及需要考虑的后期项目自身的扩展性针对大数据分析系统的设计应当严格遵循依赖倒置原则、开放封闭原则、接口隔离原则、单一职责原则、里式替换原则及迪米特法则等设计原则 其中从依赖倒置原则来看设计分析系统的上层模块并不会依赖底层的模块 从开放封闭原则来看在进行大数据分析系统设计时若没有严格遵循此原则时就会使得项目的后期受需求变化的影响可能会在原本的代码上进行修改以及对部分代码进行重新编译、测试以及部署从而会耗费很大影响系统的扩展 集群搭建及环境配置首先 的运行需要 的支持在进行 安装之前需要先完

6、成 环境的安装 然后通过从官方网站上下载 源码利用编译器进行编译 其次利用 节点的主机名字通过 文件配置写入到每一台的虚拟机设备中的 文件当中当写入作业完成之后还需要对 安装目录当中的文件节点进行修改 并且还需要集群上的所有节点文件和 文件当中的内容相一致 在完成所有配置作业之后可以选择利信息记录材料 年 月 第 卷第 期用 模式开启 集群 集群开启之后可以通过浏览器进行浏览并对集群的启动情况进行查询与测试 此外由于 是由 编写而成因此针对系统的 应用程序的开发语言选择应当为 这样一来在调试时可以直接在开放环境当中调试而不需要将作业上传到集群上进行调试 大数据分析系统设计 系统总体框架设计 计

7、算引擎作为一种拥有通用性优点能够实现对大规模海量数据的快速计算与处理 结合官方所给出的数据信息来看 和 两者之间进行对比 的计算引擎运算速度快于后者 倍 同时 自身的运行模式拥有本地运行模式、独立集群运行等特征 因此采用 为框架构建大数据分析系统其系统框架主要采用分层设计分别为数据应用层、服务层、数据计算与存储层及基础层 个层次 基于 的大数据分析系统框架示意图如图 所示图 基于 的大数据分析系统框架示意图从数据基础层方面来看该层次设计主要包含了系统的底层软件和硬件 其中底层软件主要包含了安装配置在服务器上的操作系统及 基础环境等软件而系统硬件部分主要包含了服务器和网络运营商 从服务层方面来看

8、该层的设计主要提供了工作调度功能、系统管理功能、服务接口功能以及工作管理功能等 其中服务接口功能主要为服务层向 提供 接口从而让系统前端能够获得管理与工作调度的能力 并且该层直接会接入到 当中 从数据计算与存储层方面来看引入了 通过分布式存储系统所采集的数据信息利用虚拟技术可以实现对数据信息的统一管理 同时该层的设计主要包含了、组件及分布式集群环境 等 其中 的应用为大数据分析系统提供了较高的容错分布式文件系统 的应用为分布式资源管理器的分布式集群提供了统一的工作调度以及资源管理 此外由于 在应用过程中采用了 模式实施了部署 因此其计算工作同样交由 进行统一的调度与管理且为了解决 存在的高计算

9、延迟问题本文选择利用 作为数据计算工具来解决磁盘开销较大、高计算延迟等问题 最后数据应用层的设计主要利用 端借助服务层向用户提供各种接口的功能以此实现对数据和信息的提取并利用图表、文字等形式展现给客户 系统主要功能模块设计基于 的大数据分析系统主要包含了数据源、分析检测模块、报文预处理模块及 模块等主要功能构成 主要功能模块设计框架如图 所示 其中在大数据分析系统当中 模块作为一种分布式日志聚合模块其设计主要作用于对大数据的采集 为计算模块 作为 分布式文件存储模块其主要作用就是负责大数据的存储 而大数据分析系统当中的数据源主要指网络当中或者服务过程中的大数据如网络抓包报文、网络设备所提供的

10、数据和系统运行过程中所产生出来的日志文件等 通过利用分布式日志聚合模块实现对系统运行过程中所产生的日志文件和相关数据进行实时采集及预处理后将处理完成的大数据再上传到对应平台上 其中一部分经过处理的大数据会通过平台直接保存到分布式文件存储系统当中 而另一部分大数据就会通过 对其进行有效处理与分析 因此在设计大数据分析系统时一般会采用分布式文件对大数据进行存储接着利用架构将大数据均衡到集群的工作节点之上这样 就能够实现对本地分块数据进行读取和计算并且整个过程并不需要再计算整个大数据由此降低了集群节点数据交互传输使得系统对大数据的分析效率得到进一步提高图 主要功能模块设计框架()分布式日志聚合模块该

11、模块的设计其功能主要是在接收到数据采集的相关命令之后对所采集的大数据实施预处理和采集 分布式日志聚合模块的运行过程十分简单并且对日志的收集也没有限制其使用的范围相对广泛 同时分布式日志聚合模块的设计主要由 组件、组件及 组件这 个组件构成 其中 组件的设计实现了对系统原始日志的采集和分析 而 组件的设计主要负责为大数据分析系统提供临时的缓存通道 此外还起到了对 组件和 组件两者之间的连接服务最后将所收集到的日志信息通过 组件上传到每一个模块之上以此完成大数据交付 分布式日志聚合模块还拥有较强的可扩展性与低耦合度可以支持多级流处理大数据信息记录材料 年 月 第 卷第 期()分析检测功能大数据分析

12、系统当中分析检测模块的设计具有在线获取可扩展性数据的作用 针对该模块的设计主要分为 和 这 个部分组成 其中从 模块方面来看其数据主要为能够扩展的大数据通过 当中的大数据可扩展性实现对 当中的数据进行分类处理这样一来就能够得到具有扩展性的大数据 同时分析检测模块的设计主要由离线训练模块 及在线数据检测 个部分组成 首先从离线训练模型方面分析利用 对 当中的大数据进行读取之后通过对数据的清洗提取出关于大数据的特征信息再根据特征信息进行模型训练当完成模型训练之后再将其特征输入到分类模型当中 而在线分析检测主要是对从 当中所获取的大数据进行重复和离线训练模型类似的训练并采用 所输入的特征模型实现对数

13、据的检测分析 在 种模式的作用下不仅可以促进大数据分析的效率得到提升还能够保障大数据检测的实时性 系统软件设计大数据分析系统的软件设计其中 模块主要选择采用 算法实现对网络中大数据的有效排名获取并利用 算法从中网络当中得到有关大数据的价值排名最后在根据排名结果推荐的大数据对专业大数据展开有效分析 实验结果与分析 实验环境搭建为了进一步验证基于 的大数据分析系统的可行性需要通过相应的实验对其进行分析 首先针对实验过程中所应用的计算机硬件配置 为 位、内存为 及硬盘为 其次针对此次实验过程中所应用到的实验数据本文选择以某企业网络系统正常工作状态下所产生的日志作为本次实验的主要数据源 接着利用 将该

14、企业系统的某个时间段内的查询日志全部写入到 当中得到了大小为 的数据样本此外实验开始前考虑到系统的有效性本文选择对系统的性能进行分析从中得到系统关于系统的运行效果 性能对比分析针对系统的性能分析本文主要从系统分析数据的耗时和分析的精度 个方面进行综合考量 并对比本文系统、列存储系统等对数据分析的耗时情况来判断本系统的可行性 随着数据样本数量增加系统运行时间也会随着样本数量的上升而增加通过对这 个系统进行对比分析来看本文系统的运行时间相对较短 且在实验中后期本文系统分析可扩展性大数据耗时约为 处于相对稳定的状态而其存储的耗时在不断上升当实验时间在 时收敛 因此随着大数据样本量的增加本文系统不仅耗

15、时短且系统的稳定性较好 同时本文系统在对具备可拓展性大数据进行分析的过程当中需要利用训练模型优化、更新数据集等步骤才能够实现对此类大数据的有效分析再通过多次的迭代之后本文系统会随着迭代次数的增加系统的运行时间却几乎没有变化由于本文系统采用 建立训练模型将中间数据缓存结果存储在自身内存中经过多次迭代运行时间变化较小运行时间较为平稳 结语综上所述通过对 技术和 技术进行分析并兼顾 种技术构建了 集群环境结合设计原则设计实现了基于 的大数据分析系统从计算引擎选择方面本文选择利用 计算引擎以此提高了大数据计算速度并利用 模式充分发挥出了 自身的优势 且通过对该系统的测试结果证明了本文大数据分析系统的可

16、行性以及可扩展性【参考文献】丁鹏程.基于大数据的用户行为分析系统.数字通信世界():.林星星.基于 的商品个性化推荐系统的研究与实现.贵阳:贵州大学.王帅 万小霞.基于 的自动化数据分析系统设计与实现.现代计算机():.张维.基于大数据技术的制造企业信息化平台的设计与实现.西安:西安理工大学.陈永海.大数据环境下的文旅多维数据分析系统设计与开发.电子测试():.刘昕林 邓巍 黄萍 等.基于 和 的可扩展性大数据分析系统设计.自动化与仪器仪表():.(上接第 页)系统中的应用.中国新技术新产品():.丁敏.无线智能火灾自动报警系统设计.中国新技术新产品():.蒋佳佳 段发阶.智能火灾两级报警与联动控制系统的设计.传感技术学报 ():.史红彦 王举涛.基于物联网的智能火灾报警系统的设计与实现 .电脑知识与技术 ():.王虎 黎英 欧玉荣 等.基于 的火灾自动报警系统的设计与实现.无线通信技术 ():.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服