收藏 分销(赏)

基于Hadoop高校网络舆情监管平台研究_王娟琳.pdf

上传人:自信****多点 文档编号:325777 上传时间:2023-08-15 格式:PDF 页数:3 大小:1.43MB
下载 相关 举报
基于Hadoop高校网络舆情监管平台研究_王娟琳.pdf_第1页
第1页 / 共3页
基于Hadoop高校网络舆情监管平台研究_王娟琳.pdf_第2页
第2页 / 共3页
基于Hadoop高校网络舆情监管平台研究_王娟琳.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、本栏目责任编辑:代 影网络通信与安全Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)基于Hadoop高校网络舆情监管平台研究王娟琳,陶宇炜,高东伟,封红旗(常州大学 信息化建设与管理中心,江苏 常州 213164)摘要:高校大学生具有群体集聚性和思维活跃性使校园网络舆情监管显得迫切与重要。通过基于Hadoop大数据技术管理高校大学生在校园学习、生活各方面的行为数据并进行爬取、关联、数据清洗,再进行聚类分析并对单机模式与Hadoop模式性能比较研究。针对学生相关数据进行多维度的预警画像及时给出预警

2、,从而降低了各类负面事件发生率,大学生在校园内和谐健康积极向上学习生活,为创建平安校园营造良好氛围。关键词:网络舆情;Hadoop;MapReduce中图分类号:TP393 文献标识码:A文章编号:1009-3044(2023)18-0076-03开放科学(资源服务)标识码(OSID):0 引言校园网络同样具备互联网络的匿名性、虚拟性、隐蔽性和即时互动性,一旦突发网络舆情传播快、波及面广、影响范围大等,高校校园网络信息管理部门高度关注积极应对。从2003年起我国开始对网络舆情监管平台进行研究1,十年来随着网络信息技术发展,高性能计算、云计算等技术在高校网络舆情监管中被应用,通过构建Hadoop

3、集群与MapReduce分布处理架构,从智慧校园数据中心各个应用系统数据接口采集高校网络舆情数据,关联爬取到学生在校园内的学习生活静态、动态数据并针对这些数据进行处理、分析获取相关的高校网络舆情预警信息2使职能部门的教师、辅导员主动关注目标学生做好学生工作预案及时研判、疏导,降低和避免负面事件发生。1 平台架构高校网络信息管理部门在构建舆情监管平台时,在Linux操作系统上通常使用出现较早的开源分布式大数据计算Hadoop平台(如常州大学高性能计算集群上构建Hadoop平台,计算节点服务器操作系统是Redhat V6.2,共有 30 多个计算节点,总存储容量50TB),该大数据平台具有稳定性、

4、扩展性、容错性、投资少、维护成本低等特性,在此平台上可使用多种编程语言2、使用一般硬件配置。主要的两个核心平台架构分别是:1)HDFS分布式文件管理体系可实现高效存储,2)MapReduce分布式并行计算可将一组数据按照某种Map函数映射成新的数据再将若干组映射结果进行汇总并输出,Hadoop平台架构如图1所示。图1 平台架构示意图1.1 HDFS分布式文件系统HDFS是将大文件、大批量文件进行分布式存储的文件系统,在投资成本较低的高性能计算机服务器集群上可进行文件切块、副本存储,使用统一的命名空间目录树进行文件定位,用户可使用客户端访问文件系统。它是一个主从存储模式的文件系统3,如图2所示。

5、有一个Namenode主节点管理目录树、文件所对应的文件块id以及所在的从节点服务器等;而多个Datanode数据从节点执行主节点所发出的指令来进行数据存储,主节点与从节点通信方式采用心跳信号进行。每个数据块可以将副本存放在多个datanode从节点上(通过参数可设置存放副本的数量),由此可收稿日期:2023-03-30基金项目:江苏省现代教育技术研究智慧校园专项课题(项目编号:2018-R-66901);常州大学思想政治工作研究会课题(项目编号:18SZGZ06)作者简介:王娟琳(1962),女,江苏常州人,高级实验师,学士,主要研究方向为计算机网络技术应用;陶宇炜(1968),男,江苏常州

6、人,高级实验师,硕士,主要研究方向为智能信息处理;高东伟(1979),男,江苏常州人,工程师,硕士,主要研究方向为电子信息相关及校园网安全与管理;封红旗(1966),男,江苏泰兴人,研究员,学士,主要研究方向为计算机网络技术、大数据应用。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.19,No.18,June 202376DOI:10.14004/ki.ckt.2023.0856网络通信与安全本栏目责任编辑:代 影Computer Know

7、ledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)见HDFS具有高容错性特性。图2 HDFS结构1.2 MapReduce并行计算MapReduce 主要针对大数据计算(TB 级数据以上)模型如图 3 所示。其主要有两个过程即 Map 和Reduce,为达到高计算效率采用并行计算框架或者说是一种编程模型。计算时先将一个大的计算作业分解成多个子作业(复杂问题简单化),再将这些子作业分别处理将得出结果再合并成最后的计算分析结果。整个作业计算流程主要分为:提交作业、初始化作业和任务分配4。MapReduce分布式并行计算框架其功

8、能是实现高校网络舆情数据的并行爬取及分析计算,使高校开展网络舆情的数据收集和分析工作快速而高效。图3 MapReduce模型2 学习模式算法采用K-Means算法是基于划分的聚类算法,其核心思想根据用户所设的类别数量,随机在文本集里选择K个文本设置成最初的类簇中心,计算剩余的文本集里的各个文本到类簇中心的距离,把文本分别划分到就近的类簇中,当全部划分完毕后重新再计算每个类簇的中心,再次计算剩余每个文本到这些新类簇中心的距离,将文本重新划分到当前最接近的类簇中去;不断重复以上过程,当完成设置的迭代次数或簇不发生变化了停止算法5。K-Means算法的优点是复杂度较低并且易实现,任意范围内都可进行聚

9、类。但比较难选择到最初始的全局最优化的聚类中心,算法还容易受到噪声和例外文本的影响。3 构建Hadoop实验环境3.1 软硬件配置基于Hadoop架构的高校舆情监管平台,管理员可自由地开发运行基于大数据的应用程序6,兼容性好,以常大高性能计算集群linux操作系统为例,在4个计算节点服务器上进行安装部署。将其中一台计算节点服务器作为 Namenode 主节点命名为 Masternode,作为名字空间存储服务和下发指令任务;另外3台计算节点服务器作为DataNode从节点分别命名为Branch1、Branch2、Branch3负责存储具体数据。为每台计算机服务器配置IP地址(vim/etc/ho

10、sts 文件中配置),再进行测试主节点和所有从节点网络通信状态;设置主节点和从节点之间实现SSH免密登录。(免密登录需关闭防火墙再配置远程连接SSH服务)。配置的软件、硬件如下表1、表2所示。表1 集群软件信息表软 件HadoopJavaSqoopMySQLHiveLinuxJDK版本号Hadoop-3.3.0-aareh64Jdk-8u271-linux-x64Sqoop-2.4.6-cdh 5.6.0MySQL 5.7.26Hive-3.1.2-CDH 5.6.0Redhat 6.2JDK 1.8说 明Hadoop集群处理框架Hadoop需由Java支持Hadoop平台和数据库数据同步关系

11、数据库数据仓库操作系统Java需JDK表2 集群硬件信息表MasterBranchInfiniband计算网络交换机128GB2内存,4TB硬盘128GB2内存,4TB硬盘56Gb/s大数据量,配置大内存大数据量,配置大内存高性能计算网络3.2 数据来源及导入由于舆情数据大部分都是结构化数据,使用Sqoop工具从智慧校园数据中心MySQL等结构化数据库中将数据从接口导入Hadoop平台。MySQL数据需导入HDFS中,由DataNode负责数据块元数据的存储根据 NameNode 的指令进行检索读取数据。每个DataNode 会定期向 NameNode 发送“心跳”信息判断DataNode的运

12、行情况。3.3 数据清洗从校园网上爬取在校学生信息数据如:学号、姓名、班级、所学专业、爱好等静态特征数据和动态特征数据如:上课出勤率、使用校园一卡通图书馆借阅率、食堂消费率、考核成绩、使用校园网时长等。结合高校的工作内容,Hadoop平台获取的关键信息还有:1)学习。主要包括自主学习、授课、网上教学等模式信息。2)考试。涉及考试纪律、考试成绩、成绩服务器、考核方式等信息。3)上课。涉及教师授课方法、上课教室软硬件条77本栏目责任编辑:代 影网络通信与安全Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年

13、6月)件、兴趣爱好等信息。4)宿舍。同学间聊天的话题、宿舍软硬件条件、后管服务满意度等信息。5)爱情。爱情观、失恋等信息。6)食堂。涉及饭菜种类、口味、价格、卫生、环境、服务等信息。7)图书馆。涉及软硬件条件、电子借阅、占位、馆员服务等信息。8)其他。在校体育活动场地、运动器材、校园文化环境、教学管理服务等信息。将“高校”“高校大学生”“高等院校”等关键词与上述信息进行组合,在Hadoop平台中进行爬取。再对这些数据进行清洗,去除不符合用户标准的数据。网页信息数据含有文本、图像、除了我们所需的正文信息,还包含了多种辅助信息如:商家广告、导航、弹窗等。在进行数据清洗时,也要对网页内容进行清洗,消

14、除一些不需要的内容干扰。获得有价值数据后再将两个时段数据合并进行曼哈顿距离计算(如本时段的数据和前一个时段的数据合并),得到某个特征数据离中心距离的偏离大小及某个数据的异常情况。通过搭建的实验平台可以提取在校学生行为的静态、动态信息数据中与舆情信息关联的敏感关键字,依据一些有负面风险影响信号的关键字给相关学生画像,再通过这些学生在校内的各种上网行为轨迹(如QQ、微信、网页浏览、短信等)达到对监测的舆情进行追溯。积极发挥班主任、辅导员老师的主观能动性做好预警和研判工作,从而降低舆情负面风险值达到高校网络舆情监测的目的。3.4 聚类分析清洗干净的学生静态、动态特征数据通过MapReduce进行并行

15、计算,在主成分分析中用协方差矩阵的特征值而在求协方差矩阵时,用的就是矩阵的加减乘除。针对主成分进行分析后将结果合并在一起提取关键字,通过离中心距离的划分聚类算法,再从多角度出发对不同的数据将其结果聚合在一起,从中获取出离中心距离偏大的一系列学生数据,针对提取的异常数据实时进行监测和研判。4 实验平台性能测试与结论Hadoop平台获取信息速度与快速分析信息是一项重要的性能指标。实验中针对单机模式与Hadoop模式进行爬取信息的速度和热点计算所需时间、聚类分析所需时间的测试。通过实验对比依据平台运行时间递增单机模式与Hadoop模式运行结果是:在平台运行较短时间内,单机模式与Hadoop模式没有明

16、显差别,这是因Hadoop模式在开始集群运行时各种系统存在比较大的开销。运行时间逐渐增加时,信息爬取、数据清洗、聚类分析的数据量也在递增,Hadoop模式爬取信息速度明显较单机模式块、热点计算时间与聚类分析时间较单机模式信息计算分析速度明显加快。由此可见,Hadoop模式在并行计算分析方面有着明显的优势,能快速有效提升高校网络舆情的数据采集与分析效率。通过基于Hadoop高校网络舆情监管平台研究,实施分析爬取到学生在校园内的各种学习生活静态、动态数据,提取到偏离中心的负面风险信号关键字并关注这些学生在校内学习生活行为轨迹相关数据,由班主任、辅导员针对这些学生给予一对一的关注并解决问题。数字化技

17、术手段助力高校学生管理工作科学、高效,同时促进建设高校智慧平安校园。由此可见,构建高校Hadoop网络舆情监管平台具有广泛的实际应用价值。参考文献:1 武慧娟,张海涛,王尽晖,等.基于熵权法的网络舆情预警模糊综合评价模型研究J.情报科学,2018,36(7):58-61.2 魏超,李玲.基于Hadoop的大数据高校舆情监测系统研究J.电脑编程技巧与维护,2022(7):89-91.3 石方夏,高屹.基于Hadoop大数据技术应用分析J.现代电子技术,2021.44(19):153-157.4 张春霞,王新猛,张晓熙.基于Hadoop的森林公安网络舆情监测系统设计与实现J.信息网络安全,2018

18、(12):82-86.5 崔璨.基于Hadoop的互联网舆情监测处理平台设计和实现D.洛阳:河南科技大学,2019.6 王啸楠,尹辉平.基于Hadoop的高校舆情监测系统模型研究J.湖南工程学院学报(自然科学版),2019,29(3):53-56.【通联编辑:谢媛媛】(上接第75页)理。本文各个模块还有很多不足之处,有待以后进行研究完善。参考文献:1 郑延斌,王林林,席鹏雪,等.动态环境下改进蚁群算法的多Agent 路径规划J.计算机工程与科学,2019,41(6):1078-1085.2 阮福,万宝.关于网络数据传输防止攻击安全保护评估仿真J.计算机仿真,2018,35(7):351-354

19、,413.3 郑炜,王时龙,康玲,等.基于双层蚁群算法的云制造服务组合研究J.计算机集成制造系统,2017,23(10):2269-2278.4 高岭,王帆,高妮,等.基于改进蚁群算法的防护策略选择模型J.计算机工程与应用,2019,55(7):100-107.5 王茹,周磊,刘俊.基于改进蚁群算法的元胞自动机疏散模型研究J.中国安全科学学报,2018,28(1):38-43.6 许川佩,刘磊振,万春霆.基于蚁群算法的数字微流控生物芯片污染故障在线清除J.电子测量与仪器学报,2017,31(2):193-199.7 窦浩铭,胡静,陈思光,等.基于蚁群优化的SDN负载均衡算法研究J.南京邮电大学学报(自然科学版),2019,39(1):52-61.【通联编辑:唐一东】78

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服