收藏 分销(赏)

基于大数据技术的网络舆情感知系统的分析与实现.pdf

上传人:自信****多点 文档编号:2178646 上传时间:2024-05-22 格式:PDF 页数:6 大小:3.25MB
下载 相关 举报
基于大数据技术的网络舆情感知系统的分析与实现.pdf_第1页
第1页 / 共6页
基于大数据技术的网络舆情感知系统的分析与实现.pdf_第2页
第2页 / 共6页
基于大数据技术的网络舆情感知系统的分析与实现.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 15 卷第 4 期南阳理工学院学报Vol.15 No.42 0 2 3 年 7 月JOURNAL OF NANYANG INSTITUTE OF TECHNOLOGYJul.2023基金项目:2023 年度南阳市哲学社会科学项目作者简介:赵淑君(1984-),女,硕士,讲师,主要研究方向:数据科学与大数据技术。基于大数据技术的网络舆情感知系统的分析与实现赵淑君,刘 伟,江凤月(南阳理工学院 河南 南阳 473000)摘 要:随着大数据技术的日趋成熟,利用大数据技术实现对海量的网络舆情数据进行采集、分析和展示,对网络舆情信息感知度得到了很大的提升,可以准确地了解网络舆情的发展态势,把握群众的

2、情绪,对舆情事件做出高效、正确的决策。利用分布式爬虫技术来抓取数据,文本分析技术进行数据预处理和数据清洗,对数据仓库的舆情信息进行处理、分析,实现了舆情的监测、舆情的分析和舆情报告。通过大数据技术挖掘网络舆情事件,能够快速准确地感知舆情信息,可以有效提升网络舆情的管控和预防能力。关键词:大数据技术;舆情监测;网络爬虫;舆情分析中图分类号:TP391.1 文献标识码:A 文章编号:1674-5132(2023)04-0050-06DOI:10.16827/ki.41-1404/z.2023.04.0100 引言近年来,我国社会进入社交媒体爆炸式发展的阶段,信息的传播速度奇快,网络舆情信息不仅是一

3、个个热门话题,更是对政府的感知能力和社会治理能力提出了全新的挑战1。所谓的网络舆情是以网络为载体,在一定的社会空间内,通过网络对社会事件的发生、发展和变化,产生的态度、信念和价值观,即广大网民对热点事件的情感、态度、意见、观点的表达、传播与互动,以及造成的后续影响力的集合2。因此,互联网成为有关部门了解网民的思想动态和舆情信息的重要途径。近年来,网络舆情事件频发,从表现上看,相关职能部门对网络舆情信息的感知度不够灵敏,常常错过网络舆情事件处理的最佳时间,或者对网络舆情信息的发展形势判断不够准确,出现误判等情况。基于该现状,一款能够自动获取网络舆情信息并对舆情信息进行分析的软是相关职能部门迫切需

4、要的。相关职能部门可以通过该系统在海量数据中抓取网民对某事件的评论和情感倾向,来了解并把握群众的情绪,从而对舆情事件做出更加高效、正确的决策。1 大数据技术和网络舆情当下正处于“数据大爆炸”的时代,全球数据规模飞速增长,目前全球存储系统迎来新一轮变革机遇,正在从“Big Data”(大数据)发展到“Fast Data”(快数据)。至 2022 年 12 月,我国网民规模达10.67 亿,比去年同期增长 3549 万,互联网普及率达 75.6%。网民规模在不断扩张,数据越来越大,数据的结构、类型更加丰富和多元。从近年来的一些网络舆情热点现象来看,网络舆情在社交新媒体的“加持”下更是具有多元、多样

5、、快速、情绪化的特性3。1.1 大数据概述对于大数据的概念麦肯锡全球研究所给出的定义是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型4。“大数据”有 4V 层面,分别是 Volume(规模性)、Velocity(多样性)、Variety(高速性)、Ve-racity(价值性)5。Volume 是体积,“大数据”的数据量体积庞大,2021 年全球实时数据量规模为16 ZB,2025 年实时数据量将达到 51 ZB;Variety 是速度,大数据正在向快数据演变,即数据产生的速度快,同时要求“大数据”的处理

6、频度要高、处理速度要快;Variety 是类型,“大数据”的数据类型繁多,包括日志、UGC(包括图片、音视频)、LBS 信息等;Va-riety 是价值密度,“大数据”价值密度低,比如某个用户的 LBS 信息需要长时间积累才能有价值。第 4 期赵淑君等:基于大数据技术的网络舆情感知系统的分析与实现Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,是一个开源的大数据分析软件,集合了大数据不同阶段技术的生态系统。用户可以在不了解分布式底层细节的情况下,开发分布式程序。网络舆情数据采集和数据处理分析过程中,充分利用集群的威力进行高速运算和存储,选用 Hadoop 集群可以从单一

7、的服务器扩展到成千上万的机器,将集群部署在多台机器,每个机器提供本地计算和存储,可以在本地进行网络舆情信息爬取,并且在本地进行计算和存储。Hadoop 的核心组件有 Yarn、HDFS 和 MapReduce,其中,Yarn 是分布式资源管理系统,实现集群资源管理和调试;HDFS 是分布式文件系统,主要用来解决大数据分布式存储问题;Ma-pReduce 是分布式计算框架,实现大数据分布式计算功能。1.2 网络舆情处理技术在 Web3.0 大环境中,网络信息的传播呈多样化,网络舆论场从微博、聊天室的单一渠道发展到小红书、抖音、哔哩哔哩、微信等多种形式,网络舆论场的数量和聚集地剧增,特别是对舆论事

8、件的评述也由传统的设置议题和阐述言论演变为弹幕、投票等多种新的形式,给网络舆情的监测、分析和治理工作带来了更大的难度6。利用数据科学与大数据技术来研究网络舆情,能够快速获取有效信息,并对信息进行分类和推送,为相关组织机构的舆情监测、舆情分析、舆情危机公关决策等提供一定依据。借助于成熟的大数据技术,通过全文搜索、来源搜索、热搜监测等多重功能实现对全网文本、图片、视频舆情实时发现,利用文本分析技术进行情感分析、高频词分词、文本分类、事件分类等,对网络事件进行关联分析、趋势分析和倾向性分析7。本文主要对大数据技术结合网络舆情进行分析研究,从而构成新型的网络舆情分析模型。本文中网络舆情处理的核心技术主

9、要有 5 个步骤:(1)舆情监测:利用爬虫技术对网络上的舆情信息进行实时监测,通过全文搜索、来源搜索、热搜监测等多重功能实现对全网文本、图片、视频舆情实时发现。(2)舆情预处理:利用大数据技术对舆情信息进行数据去重和数据清洗。将不同类型的数据存储在不同的数据模型中,如数据去重,可以把 URL 都存储在 Redis 中完成 URL 的去重;内容去重,用Elasticsearch 将文章标题一样的内容进行检索过滤。数据清洗可以通过自动提取字段和采用自动分类技术对软文、广告文、敏感文章分类,并且对抓取信源屏蔽。(3)舆情存储:利用 HDFS 技术将数据存储多份,用储存空间换取查询时间。(4)舆情分析

10、:利用文本分析技术进行情感分析、高频词分词、事件分析、评论分析等。(5)舆情报告:利用可视化技术对舆情信息生成分析报告,为舆情管理提供科学依据。网络舆情感知系统主要有数据采集模块、数据分析处理模块(数据仓库)和数据可视化展示 3 大功能模块。系统的数据处理流向如图 1 所示。图 1 数据流向图2 数据采集系统从爬虫角度看,基于大数据技术网络舆情感知系统的数据处理的关键在于能够及时捕抓到舆情信息。系统数据的获取通过使用分布式框架,建立分布式舆情数据采集机制,可以快速抓取各种类型的数据。(1)网络舆情数据获取。系统运用 Redis 数据库做分布式,一个 Master 节点和多个 Slave 节点,

11、15南阳理工学院学报第 15 卷Master 端管理 Redis 数据库 URL 队列和任务的分发,Slave 节点根据分配的任务,爬取网页信息并解析提取网页数据,再将解析的数据存储在 MongoDb数据库中。分布式爬虫控制节点执行流程如图 2所示。图 2 分布式爬虫控制节点执行流程图 (2)网络舆情数据存储。系统选用 Hadoop 框架 HDFS 文件系统以及 NoSQL 数据平台,将提取到的数据存储到 MongoDB 数据库中,便于后续流程对数据进行分析使用。(3)网络舆情数据的分布式计算。Hadoop 框架的 MapReduce 可以实现分布式计算,将待处理的舆情信息自动划分成多个数据块

12、存储在不同数据节点上;将每个数据块的数据处理作业划分成多个 Map任务加以执行,再经过 Reduce 任务处理后将结果进行输出,MapReduce 计算保证了系统执行的可靠性和可扩展性。3 数据分析处理为从海量原始数据中获取到有效数据,需要对爬取到的原始数据做进一步的提取和数据清洗,得到标准的数据格式,然后再对数据进行文本分析。(1)数据提取系统采用 Redis 数据库,可以充分发挥它的优势,首先对 URL 进行去重,另外,在 HTML 的原始代码中,有很多成对的标签,需要找到要爬取的标签,再开始提取有效信息。(2)数据清洗通常爬取到的数据都是非标准的数据格式,需要对数据进行预处理8。从非标准

13、的数据格式中提取每个新闻的标题、正文、作者、发布日期以及对应的正文页面 URL 等,将有效数据保存到 CSV文件。(3)文本分析将数据存储到 CSV 文件之后,对文本内容进行分析。先使用 jieba 分词器对中文文本分词,分词后的数据仍是杂乱无章,需要再次进行数据清洗工作,通过去除停用词将文中多余的一些副词、量词去掉,只保留主体内容,然后做词频统计,将高频词统计出来生成词云。为了便于计算将文章词语转化成数字,然后把文档生成 TF-IDF 矩阵,计算文章相似度,再通过 K-means 聚类,最后得到几个类的主题词。4 系统架构设计本文的系统架构设计分 3 个层次,分别是舆情数据采集层、舆情数据加

14、工层和舆情数据分析与挖掘层,系统架构设计如图 3 所示。图 3 系统架构图25 第 4 期赵淑君等:基于大数据技术的网络舆情感知系统的分析与实现 (1)舆情数据采集层舆情数据采集的质量与大数据的分析结果有着至关重要的关系,舆情监测的准确性和全面性直接关系到后期舆情数据的分析和舆情事件的处理,是保证网络舆情感知系统是否能够准确进行舆情处理的重要因素9。网络舆情数据的采集,数据源主要有新闻媒体(新闻网站、电子报、APP)、网络自媒体(搜狐、今日头条、博客、微信公众号、微博)、论坛(贴吧、论坛、问答、知乎)、短视频(抖音、快手等众多平台)等。本文采用分布式网络爬虫技术从上述网站、论坛等平台来获取数据

15、,通过利用关键词、主题词,如“高考”“就业”“民生”“南阳”等进行网络爬虫,从而抓取相关的网络舆情数据。(2)舆情数据加工层利用爬虫技术采集来的舆情数据通常多而杂,会有大量的不完整的、不一致的和含有噪声的数据。舆情数据加工主要是对这类数据进行过滤、去重和清洗。本文采用 Redis 数据库可以自动进行 URL 去重;采用 Elasticsearch 内部的查询将文章标题一样的内容检索过滤掉;通过自动提取字段来提取关键数据,自动分类技术对软文、广告文、敏感文章分类,并且对抓取信源屏蔽实现数据的清洗工作,具体运用的技术有缺失数据的人工填充、噪声数据平滑技术等。然后,将清洗和加工后的数据存储在非关系数

16、据库中,为便于后期数据分析和挖掘在数据仓库中加以存储。(3)舆情数据分析与挖掘层数据分析与挖掘是对数据仓库中的数据进行分析,利用数据挖掘技术,获取相关网络舆情数据信息,给舆情的危机预警和应急事件处理提供决策支持10。例如,通过中文分词提取关键词并对关键词进行分析,来获取有价值的舆情信息;根据关联规则挖掘,获得相应网络舆情发展态势;利用聚类分析技术,对文章相似度聚类,挖掘相似的网络舆情信息,利用深度学习框架进行情感分类,获取积极舆情、中性舆情和消极舆情。为相关职能机构提供有价值的舆情信息。5 系统实现5.1 系统集群规划系统实验阶段配置 3 个数据节点,结合 Hadoop使用情况和系统所占用资源

17、比例与其他组件所需内存配置与用户需求。最终选取测试服务器规划如表1 所示。表 1 测试服务器规划 服务名称子服务服务器hadoop102服务器hadoop103服务器hadoop104NameNodeHDFSDataNodeSecondaryNameNodeYarnNodeManagerResourcemanagerZookeeperZookeeper ServerFlume(采集日志)FlumeKafkaKafkaFlume(消费 Kafka 日志)FlumeFlume(消费 Kafka 业务)FlumeMongoDBHiveMySQLMySQLSupersetSupersetFlinkCl

18、ickHouseHbase服务数总计127835南阳理工学院学报第 15 卷5.2 数据可视化展示基于大数据技术的网络感知系统可以根据用户的关注点不同,灵活设置关键字,从不同的媒介平台爬取用户所关心的新闻信息,并对爬取的数据进行分析展示。文中的实验数据,以南阳市“社会民生”版块为例,设置“南阳市”“高考”“民生”等关键字,用分布式爬虫技术,抓取 2023 年 6 月份部分数据并进行存储。获取到新闻基础内容,舆情的数据结构不同,数据格式不同,来源分散。下文分别从不同的角度展示爬取到的舆情内容。(1)舆情数据监测利用分布式爬虫技术实时监测“南阳市”“高考”“民生”等关键词的网络舆论,将监测到的数据

19、罗列显示,自动将舆论进行聚类以及情感分类。舆情数据监测如图 4 所示。图 4 舆情数据监测图 (2)舆情热词云分析词云是将词语按照一定顺序和规律进行排列,按照词语出来的频度或者字母的顺序进行排列,再以文字的大小来显示热点词语。图 5 是南阳市 6 月份“社会民生”板块的关键词。从图 5 中可见,毕业季南阳市网民的关注点是大学生、就业、人工智能;高考过后,人们的关注点是志愿填报、招生计划等内容。图 5 舆情热词云图(3)舆论情感占比分析本文采用百度情感分析 Senta 模型自动识别和提取文本中的倾向、立场、评价、观点等主观信息。自动判断该文本的情感极性类别并给出相应的置信度进行情感分类,获取积极

20、舆情、中性舆情和消极舆情。从图 6 舆情情感占比分析图中积极情感占10.43%,中性情感占 82.7%,消极情感占 6.87%。图 6 舆论情感占比分析图6 结语经研究测试,利用大数据技术实现网络舆情分析系统,能够帮助相关职能部门更好地掌握人们对于热点事件的关注强度,对网络舆情有效引导起到重要作用,有利于社会的稳定11。该系统在数据获取上,抓取数据途径受到一定的限制,对视频、音频、图片等载体的数据获取量不够,数据采集技术和关45 第 4 期赵淑君等:基于大数据技术的网络舆情感知系统的分析与实现键词设置不够全面,数据分析模型也需要进一步研究完善,这些内容也是下一步继续研究的方向。总之,通过大数据

21、技术,实现对不同数据的有效抓取,实现网络舆情的感知分析,为网络环境的健康发展打下良好基础。参 考 文 献1 孙昊.大数据技术下的网络舆情分析系统研究J.自动化与仪器仪表,2018(8):26-28.2 孙玲芳,尹培培.基于大数据技术的网络舆情情感强度研 究 J.计 算 机 与 数 字 工 程,2018,46(1):160-166.3 申晨,程冬玲,张倩.突发公共事件背景下网络舆情感知与演化J.无线互联科技,2020,17(20):20-21.4 易臣何,何雪平.大数据环境下网络舆情智能预警机制研究J.智库时代,2020(7):11-12.5 张丕翠,杨建武,施水才.网络空间的舆情态势感知J.信

22、息安全研究,2019,5(11):1013-1020.6 董屹.大数据技术在网络舆情监控的应用J.电子技术,2020,49(3):88-89.7 张益睿.大数据时代政府网络舆情治理的问题与对策研究D.青岛:青岛大学,2019.8 刘晓辉,邵开丽,周凯祥.基于大数据的灾情舆情分析与预警系统研究J.物联网技术,2022(8):53-55+62.9 张晓飞.基于大数据技术的网络舆情分析系统研究J.无线互联科技,2021,18(2):17-18.10 钱丹丹,李林.基于大数据技术的高校网络舆情监测与分析 J.厦门理工学院学报,2019,27(4):55-60.11 杨森,王黎,李超.基于主动监测引擎和

23、大数据的网络舆情烈度演化分析系统J.价值工程,2020,39(17):201-203.(责任编辑:黄奇瑞)ANALYSIS AND REALIZATION OF ONLINE PUBLIC OPINION PERCEPTION SYSTEM BASED ON BIG DATA TECHNOLOGYZHAO Shu-jun,LIU Wei,JIANG Feng-yue(Nanyang Institute of Technology,Nanyang 473000,China)Abstract:With the increasing maturity of big data technology,t

24、he collection,analysis and display of massive online public opinion da-ta have been realized by making use of big data technology,which greatly improves the perception of online public opinion information.By this,the development trend of online public opinions can be accurately understood,the moods

25、of the masses can be grasped,and the highly efficient and correct decisions on public opinion events can be made.The distributed crawler technology is used to capture data,text analysis technology is used to preprocess and clean data,and the public opinion information in the data warehouse is pro-ce

26、ssed and analyzed,thus public opinion monitoring,analyzing and reporting are realized.By mining online public opinion events through bigdata technology,public opinion information can be perceived quickly and accurately,and control and prevention abilities of online public opinions can be also improved.Key words:big data technology;public opinion monitoring;web spider;public opinion analysis55

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服