Spark大数据技术在电信行业中的应用探究_孙秀婕.pdf

资源描述

1、2023年第6期0引言随着信息技术的发展，各电信运营商以低价、高网速的服务为卖点吸引用户，使得话务量、网络流量迅猛增加。这对运营商的网络管理能力、市场与精准营销能力、客户关系管理和企业运营管理等方面都提出了巨大的挑战，也带来了巨大的商机。电信运营商拥有经营多年的海量电信数据积累：a）从数据结构看，运营商拥有财务收入、各项业务发展量等结构化数据，以及文本、图片、音频、视频等非结构化数据。b）从数据来源看，运营商拥有固定电话、移动电话、固网接入、无线网络接入等业务。c）从客户分类看，运营商有个人客户、政企客户、公众客户等。如何将多年的数据积累，为公司发展所用，关键是获取并分析海量的数据。据调查，国

2、内各主流的运营商都走上了大数据技术的研发、使用之路。电信运营商由话务、流量的经营转向基于大数据分析的运营决策、营销推广是大势所趋。目前，电信行业的大数据发展仍然处于探索阶段，设计并搭建大数据平台是重中之重。1Hadoop 生态系统架构1.1Hadoop 生态介绍Hadoop 的核心组件分为：HDFS（分布式文件系统）、MapRuduce（分布式计算框架）、Yarn（通用资源管理系统）。Hadoop 生态系统架构如图 1 所示。图 1Hadoop 生态系统架构示意图下面来简单介绍部分组件的作用。a）HDFS：分布式文件系统。HDFS 既可以作为Hadoop 集群的一部分，也可以作为一个独立的分布

3、式文件系统。它不仅具有容错性，而且易于扩展。智慧应急Spark 大数据技术在电信行业中的应用探究孙秀婕，葛欣竹，唐征（迪爱斯信息技术股份有限公司，上海市 200032）摘要针对某电信公司的需求：建设网络基础，优化网络管理、企业管理，数据商业化，设计并搭建大数据平台。利用 HDFS（分布式文件系统）存储数据，Spark 计算引擎在内存计算中数据处理速度快，Yarn（通用资源管理系统）对 Spark 进行调度。对于电信运营商关心的数据检索速度进行测试和分析，验证大数据技术可以将数据检索时间控制在毫秒级，为电信行业利用海量流量数据信息进行企业优化管理、精准营销与市场拓展提供必要的数据支撑。关键

4、词大数据；Hadoop；Spark；电信162023年第6期b）Yarn：是一个通用资源管理系统，为上层应用提供统一的资源管理和调度，为集群在资源统一管理、资源利用率、数据共享等方面带来便捷。c）Zookeeper：一个分布式应用程序协调服务，封装好复杂易出错的关键服务，为分布式应用提供一致性服务。提供的功能包括：配置维护、域名服务、分布式同步、组服务等。d）Spark：大规模计算引擎，能又快又好地支持交互式计算和复杂算法，提供高级 API（应用程序编程接口），使开发者可以专注于计算本身。Spark 提供了各种各样的运算，包括 SQL（结构化查询语言）查询、文本处理、机器学习等。e）Shark

5、：是专门为 Spark 设计的大规模数据仓库系统，与 Hive 兼容。f）Sqoop：用于 HDFS 与传统的数据库（MySQL、Oracle 等）数据的传递，可以将一个关系型数据库中的数据导入 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导入关系型数据库。g）Ambari：支持 Apache Hadoop 集群的创建、管理和监控。支持 HDFS、MapReduce、Hive、Spark、Pig、Hbase、Zookeepr、Sqoop 等组件的集中管理，是Hadoop 顶级管理工具之一。1.2Spark 生态介绍Spark 是用来实现 Hadoop 集群快速高效计

6、算的平台，扩展并可替代 Hadoop 的 MapReduce 计算模型。Spark 架构如图 2 所示。Spark 架构的主要特点就是在内存中计算，包含以下组件：a）Sqark core：实现了任务调度、内存管理与存储系统交互及错误恢复等 Spark 的基本功能，包含了 RDD（弹性分布式数据集）API 的定义，支持集群多个节点的并行计算。RDD 将数据缓存在各节点的内存里，并支持显示缓冲和持久化，省去了多次内存和磁盘操作的时间。b）Spark SQL：支持使用 SQL 高效查询。c）Spark Streaming：支持网络日志、用户状态的消息队列等实时数据流式计算。d）Mlib：提供了常见的

7、机器学习算法的代码库。e）GraphX：支持图的并行计算。2Spark on Hadoop 技术架构应用2.1需求本文针对上海某电信公司提出的具体需求展开，主要有以下几个方面要求：a）网络基础建设优化和网络管理优化，需要通过大数据查询以下内容：查询某段时间、某个基站的流量、话务量数据。查询某段时间、某个地区的告警信息，包括告警基站名、地址、告警类型、告警前最后一次非 0 的流量数据和话务量数据、告警基站经纬度和告警峰值时间。b）企业管理：某个区域的所有基站的该月份的流量数据和话务量数据；每次接收到流量数据时，与该基站前一小时、该基站昨天同时间点、该基站上周同时间点的数值做比较。c）数据商业化：

8、某个区域的该查询年月的流量总和峰值年月日时间；某个区域所有基站的该查询年月的总流量综合信息。传统的电信数据往往查询的数据库为 MySQL、Oracle 等传统数据库。传统的数据库技术产生于 20世纪 60 年代，为人类的科技进步作出了巨大的贡献，具有结构简单、易于维护的特点。但是传统数据库具有不直接支持复杂数据类型、复杂查询的性能差、支持长事务的锁机制不足等缺点，尤其是现在信息量动辄以太字节、拍字节级计算，传统数据库技术难以满足时代与商业的发展。2.2技术方案Hadoop 生态圈非常庞大，我们选择 Spark 来进行数据搜索，是因为 Spark 具有以下优点：a）速度快。将计算的中间结果保存在

9、内存，在内存中计算，极大提高数据处理的实时性。b）易学。支持 Java、Python、Scala、Shell 交互，并支持 SQL。c）通用性。Spark 拥有一系列库，支持批处理、智慧应急图2Spark架构示意图172023年第6期图3Spark on Yarn架构图智慧应急交互式查询、实时流处理、机器学习、图计算。d）可融合性。Spark 可与 Hadoop 生态圈的其他产品进行融合。Spark 可以使用 Hadoop 的 Yarn/Apache Mesos 作为它的资源管理/调度器，支持使用 Hadoop 的 HDFS 和 HBase 等数据存储系统，对于已部署使用 Hado

10、op 集群的用户不需要进行任何数据迁移，就可以使用。依靠 Yarn 来调度 Spark，比 Spark 默认调度性能要好的多，所以本文采取 Hadoop 生态系统中HDFS+Yarn+Spark 的技术模式。HDFS 是 Hadoop的分布式文件系统，目前是 hadoop 数据操作必须的组件。Spark on Yarn 架构如图 3 所示。流程如下：a）客户端生成 Spark 作业信息，提交给 Re-source Manager（资源管理器）。b）Resource Manager 接收所有 Node Manager（单节点管理器）汇报，把 App Master（应用主节点）分配给某一个 Nod

11、e Manager。c）Node Manager 启动 Spark App Master。d）Spark App Master 启动初始化完成，并向 Re-source Manager 申请资源。e）Spark AppMaster 申请到资源之后，通过RPC 让 Node Manager 启动相应的 Spark Executor（执行器）。f）Spark Executor 向 Spark App Master 汇报，直至完成任务。g）App Master 向 Spark Client（客户端）发送作业运行状态。2.3集群搭建1）硬件4 台计算机，内存 8 GB，CPU 3.3 GHz，64 位

12、操作系统。2）软件操作系统：Centos；Java：1.8.0_111；时钟服务器：NTP（网络时间协议）；网络安全服务：SSH（安全外壳协议）；Hadoop：hadoop-2.7.3；Hive：hive-1.2.1；数据库连接：mysql-connector；Spark：spark-2.1.1。3）部署a）关闭防火墙。b）配置 jdk 的系统变量。c）添加大数据用户的权限。d）进行免密配置，/etc/ssh/sshd_config 文件中开启密钥认证：PubKeyAuthentication yes。e）分别按照 NTP 服务器和客户端，同步集群中所有机器的时钟。f）安装并配置 Hadoop

13、生态圈的组件：Hadoop、182023年第6期智慧应急表1大数据实验测试结果需求号数据条数第一次测试结果/s第二次测试结果/s需求描述1300万2.0342.69输入：基站ID输出：该基站该时间点48 h内的数据流量数组Map，精确到小时（数据做叠加）270万2.6311.411输入：经纬度范围、查询时间点（当天上下午情况不同）输出：该经纬度范围内，所有基站该时间点12 h内的话务量数组Map，精确到30 min（数据求均值）39万4.6723.588输入：经纬度范围、查询时间点（凌晨时间点的计算要考虑）输出：该时间点前后15 min内，该经纬度范围内，告警的基站信息Map（Map内

14、包含告警基站名、地址、告警类型、告警前最后一次非0的流量数据和话务量数据、告警基站经纬度和告警峰值时间）45000万10.92510.895输入：基站行政区（徐汇区）、查询月份（包含当天和不包含当天2种情况）输出：该行政区内所有基站的，该月份的流量总和（返回单条数值）530万1.3661.503输入：基站行政区（徐汇区），接收到流量数据时间点输出：每次接收到流量数据时，与该基站上一小时、该基站昨天该时间点、该基站上周该时间点的数值做比较。65000万12.57914.819输入：经纬度范围、查询年月（包含当天和不包含当天2种情况）输出：该范围内所有基站的该查询年月的流量总和峰值年月日时间【峰值

15、数据、峰值时间】75000万15.64117.273输入：经纬度范围、查询年月（包含当天和不包含当天2种情况）输出：该范围内所有基站的该查询年月的总流量综合的Map，总流量统计精确到小时（流量数值叠加）【流量数据、时间】Hive、Spark、Yarn。部分重点配置如下：dfs.replication3dfs.datanode.du.reserved1073741824dfs.block.size134217728!-设置 datanode 并发访问的上限-dfs.namenode.replication.interval22.4集群测试实验结果及分析、结论我们使用上述的技术架构和集群进行测试，

16、大数据实验测试结果见表 1。从实验数据可以看出，有 4 个节点（普通配置的台式机）的集群，检索数千万条记录的大数据，时间消耗在 20 s 内。192023年第6期如果想要更快的检索效率，只要增加集群中的节点数目，海量大数据的检索时间就可以控制在毫秒级。3结束语随着互联网行业的快速发展，电信行业的市场竞争日益加剧，如何利用好现有的数据资源，实现用户精准营销，支撑业务发展，提高公司的竞争力是各电信企业的系统建设的重点。本文根据测试数据成功验证 Spark on Hadoop的大数据架构能有效提高检索效率，助力电信行业的精准营销。参考文献1蔡伟.基于大数据时代的数据库与传统数据库的比较研究以物流管理

17、信息系统为例 D.武汉：湖北工业大学，2017.2朱昌敏.基于 spark 模型的电力异常数据检测和短期负荷预测 D.南京：南京邮电大学，2018.3王珊，王会举，覃雄派，等.架构大数据：挑战、现状与展望J.计算机学报，2011，34（10）：1742-1752.4高彦杰.Spark 大数据处理技术、应用与性能优化 M.北京：机器工业出版社，2014.5SALAMA A，ELNAHASS M，ALBARRAK M，et al.Theeffect of twitter dissemination on cost of equity：A big dataapproachJ.Internationa

18、l Journal of Information Manager-ment，2020，50（2）：1-16.6赵娟，程国钟.基于 Hadoop、Storm、Samza、Spark 及 Flink大数据处理框架的比较研究 J.信息系统工程，2017（6）：117-119.7刘德松.大数据在企业中的应用J.电子技术与软件工程，2019（7）：166-167.8HILBERT M.Big Data for Development：A Review ofPromises and Challenges J.Development Policy Review，2016，34（1）：135-174.孙秀婕（

19、1986），女，工程师，硕士，主要研究方向为信息化系统建设，民防、消防指挥调度系统。收稿日期：2022-07-21电信科学技术第一研究所有限公司前身为1957年邮电部批准成立的上海电信研究所，现为国务院国资委所属中国信息通信科技集团有限公司核心企业之一。公司业务涉及智慧应急管理、卫星通信与专用通信、检测计量三个业务板块，是党政军应急信息化重要支撑单位，是国内应急通信和指挥领域的骨干企业。主要面向智慧警务、智慧消防、智慧人防、政府应急、企业应急、智慧社区、海外应急提供专用信息化系统设备、软件开发和解决方案；进行卫星和军工通信产业培育，从事标准研究和制定、系统和设备的设计开发、生产和工程服务；提供通信网络系统类检测、产品设备类检测、计量校准、物联网及设备检测、信息安全风评等服务。广告电信科学技术第一研究所有限公司智慧应急20

展开阅读全文