收藏 分销(赏)

基于SnowNLP-LDA的突发公共卫生事件网络舆情主题分析.pdf

上传人:自信****多点 文档编号:2101259 上传时间:2024-05-16 格式:PDF 页数:4 大小:1.14MB
下载 相关 举报
基于SnowNLP-LDA的突发公共卫生事件网络舆情主题分析.pdf_第1页
第1页 / 共4页
基于SnowNLP-LDA的突发公共卫生事件网络舆情主题分析.pdf_第2页
第2页 / 共4页
基于SnowNLP-LDA的突发公共卫生事件网络舆情主题分析.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 39 卷 第 6 期2023年6月商 丘 师 范 学 院 学 报JOURNAL OF SHANGQIU NORMAL UNIVERSITYVol.39 No.6June,2023收稿日期:2022-04-09基金项目:甘肃省软科学项目(20CX9ZA062)作者简介:王 彤(1999),女,河北石家庄人,兰州财经大学硕士研究生,主要从事电子商务、数据挖掘的研究;王玉珍(1970),女,甘肃山丹人,兰州财经大学教授,硕士,主要从事电子商务、数据挖掘的研究.基于 SnowNLP-LDA 的突发公共卫生事件网络舆情主题分析王彤,秦精俏,王玉珍(兰州财经大学 信息工程学院,甘肃 兰州 730020

2、)摘 要:突发公共卫生事件舆情危机一旦爆发会引发民心不安,为及时有效研判和引导网络舆情,提升政府部门的应急管理能力,突发公共卫生事件舆情主题分析就显得尤为重要.利用“知微事见”,从近两年国内最具社会影响力的突发公共卫生事件中,选取影响力指数最高的事件,基于 SnowNLP 模型对事件发生后政务媒体的相关评论信息进行情感分析,以可视化方式,将网民情感划分为形成期、爆发期和衰退期.并通过 LDA 主题模型,得出每个时期的主题分类,从而为突发公共卫生事件发生后相关政府部门对网络舆情的把控和引导提供支持.关键词:网络舆情;主题分类;情感分析 中图分类号:G203 文献标识码:A 文章编号:1672-3

3、600(2023)06-0011-04SnowNLP-LDA based online public opinion topic analysis of public health emergenciesWANG Ton,QIN Jinqio,WANG Yuzhen(Lnzhou University of Finance and Economics,Institute of Information Engineering,Lnzhou 730020,China)Abstract:Once the public opinion crisis of public health emergenci

4、es breaks out,it will cause public anxiety.Inorder to timely and effectively study and guide network public opinion and improve the emergency managementability of government departments,the subject analysis of public opinion of public health emergencies is particularlyimportant.This paper,by using k

5、now what micro see,from the most social influence at home in the past two yearsin public health emergencies,select highest influence events,model based on SnowNLP media comments to theincident government affairs information analysis of emotion,in visual way,the netizens emotion into formation,theout

6、break period and decline.Through the LDA theme model,the topic classification of each period is obtained,so asto provide support for the control and guidance of online public opinion by relevant government departments after theoccurrence of public health emergencies.Key Words:network public opinion;

7、subject analysis;sentiment analysis近年来,突发公共卫生事件频发,随之舆论生态发生深刻变化,正确引导舆论工作面临新的挑战.在理论界,不少学者从不同角度就事件发生后如何进行舆情分析及舆论引导展开了一系列的研究,比如,新闻和情报学领域的研究者,从信息安全、情报管理等视角围绕舆情的形成过程1、趋势预测2、社会情感分析3、谎言识别4、预警研究5、用户传播6等主要问题,进行了深入研究;公共管理领域的研究者,围绕典型事例的舆情演化传播过程与路径7、引导分析方法8、政府网络舆情的规范化建设9等问题进行了深入研究,从而发现政府危机处理过程中折射出的深层社会问题;系统科学领域的

8、研究者则重点利用大数据模拟和实验分析等方法,建立网络舆情危机传播的动力学模型10,对舆情形成机理和演化过程进行研究11,为政府部门合理引导网络舆情提供帮助.诚然,虽然各个领域的专家与学者们,已在各个层面上对突发公共卫生事件网络舆情展开了不同程度的研究和探索,但这些研究者们多从各自专业视角分析了突发公共卫生事件发生后的网络舆情特点,而缺乏从专业融合角度对网络舆情的发展规律和引导对策进行综合性研究的成果.据此,本文基于网络空间意识形态安全相关理论,融合使用计算机科学、管理学、情报学等领域研究方法,以具体事例的时实数据为主要分析对象,采用可视化方法揭示了政务媒体话语引导对网民心态平复起到的作用,并通

9、过图表方式展现了不同阶段网民所关心的主题,为政府部门在突发公共卫生事件发生后,如何进行正确的舆论引导提供参考.1 模型构建本模型旨在系统地挖掘网民对突发公共卫生事件情感态度和关注主题,其过程包括数据收集与预处理、词云绘制、情感分析以及主题挖掘 4 个步骤(如图 1 所示).首先,选择具体突发公共卫生事件作为研究对象,对其评论数据进行收集、清洗与预处理;其次,对评论数据进行词云分析,并对其进行可视化呈现,捕捉网民重点关注内容.再次,运用 SnowNLP 模型分析网民情感,量化得分,并以此划分网民情感变化的各个阶段,最后,使用 LDA 主题模型挖掘网民在各个阶段对突发公共卫生事件的关注重点,为舆论

10、正确引导提供针对性的帮助.图 1 分析过程图1.1 数据收集与预处理借助集搜客软件爬取新闻事件评论区的文本数据,获得分析所需的原始语料.由爬虫爬取的评论数据,存在大量噪声数据,像常用表情符、键入特殊符、网页标签等,因此,文本数据需要清洗,通过 jieba 分词、去除停用词、词性标注等方式,去除情感表达不明显或矛盾的内容.1.2 词云分析运用 TextBlob 中的 WordCloud 子包对预处理后的数据进行词云绘制,出现次数较高的词会以可视化的方式呈现.借助词云图能高效地排除低频低质的信息,弱化非关键区域,突出呈现关键信息.1.3 评论情感分析首先通过 TextBlob 中的 SnowNLP

11、 子包来计算每条评论的情感得分,其次以天为单位运用均值法计算其每天的情感均值,并以可视化的方式呈现,最后通过情感得分进行事件阶段的划分.1.4 LDA 主题挖掘基本步骤评论主旨挖掘即 LDA(Latent Dirichlet Allocation)主题模式,是一个无监督学习的三层(词语、主旨、文档)模式,它是将一篇文档的所有词汇信息以一定的概率分布到一个主题上,并从这一主题中选择词语,文档到主题、主题到词语的过程都服从多项分布.其基本原理就是在 ldplsa 三个模型的理论基础上进一步通过添加贝叶斯架构中的模块而逐步发展产生起来的.具体步骤如下:步骤一,对文档集合中每篇文档的 d 做分词处理,

12、去掉无意义的词,得到语料集合 W=w1,w2,wx;步骤二,对每篇文档 d 中的词做统计,得到 p(wi|d);步骤三,给语料集合 W 中的每个 wi,随机指定一个初始主题 t;步骤四,运用 Gibbs Sampling 公式,对每个 w 所属主题 t 重新采样,并不断更新直到 Gibbs Sampling 收敛.采样的第一步是计算每一个主题下每一个词项的主题概率,其概率值通过公式(1)所得.p(|,)=p(|)(Nn=1znp(Zn|)p(n|Zn,)d(1)公式(1)中,表示评论文本中的词语,表示文档-主题的 Dirichlet 超参数分布,表示主题-文档的 Dirichlet 超参数分布

13、,表示文档-主题分布,Z 表示文档中词项的主题.对每个词项的主题确定后,可通过统计次品来进行参数估计,所以,参数估计也就变成对词项列表下主题序列的条件概率进行计算,可通过公式(2)所得.p(zi=k|z i)=p(z)p(z i)nki-1+vt=1nki-1+(ntm1 i+k)(2)上述公式中,i 表示不包括 i 项,z i表示除第 i 词项的主题变量,nk表示第 k 主题中词项 出现的次数,代表词项 的 Dirichlet 先验,k表示主题 k 的 Dirichlet 先验.每个词项的主题标号获得后,通过公式(3)、(4)获得所需的参数:k,=nkm+kk=1nkm+(3)m,k=nkm

14、+kkk=1nkm+k(4)21商丘师范学院学报 2023 年上述公式中,m,k表示文档 m 中主题 k 的概率,k,表示主题 k 中词项 w 的概率,nk表示文本 m 主题 k 出现次数.步骤五,收敛得到的主题-词的概率矩阵,就是 LDA 矩阵,统计后,就能得到文档-主题的概率分布.2 模型应用2.1 数据采集首先借助“知微事见”筛选出2021 上半年最具影响力的3 组事件;其次,借助数据收集软件集搜客对3 个事件评论信息进行数据爬取,为保证数据的准确性,直接采集新闻界面下的用户、评论信息及评论数,表 1 所示.由表 1 可知,“河北再现新冠确诊病例”事件的影响力指数最高,搜集到的微博评论数

15、据最多,达 14679 条,因此本文选取该事件进行分析.2.2 数据分析2.2.1 词云分析针对“河北再现新冠确诊病例”事件,基于 Python 语言采用 TextBlob 中的 WordCloud 子包,绘制词云图(如图 2 所示).在本次事件所提取的微博评论中,“河北”“加油”“石家庄”“加油”成为被提及最多的词语,“轨迹”“确诊”“隔离”“做好”“防护”等词也频繁出现在大众微博中.图 2 微博评论关键词词云图 表 1 2021 年上半年最具影响力的 3 个事件事件名称影响力指数微博评论数黑龙江哈尔滨再增新冠确诊病例86.6%9501河北再现新冠确诊病例94.1%14679吉林再现新冠确诊

16、病例85.2%87622.2.2 情感分析通过 SnowNLP 模型得出每条评论的情感分值,按照评论产生的日期,以天为单位计算当天所有评论情感均值,运用matplotlib 作图工具包,做出情感值随日期变化的发展趋势,(如图 3 所示).基于以上分析,可以清晰地梳理出“河北再现新冠确诊病例”事件中人民日报媒体舆情引导与网民情感变化之间的作用关系,通过信息梳理可以看出情感变化在 2021 年 1 月 9 日和 2021 年 1 月 28 日有明显波动,依此将疫情事件发展演变过程分为 3 个时期,分别是:形成期、爆发期和衰退期.形成期:2021 年 1 月 9 日之前,因为新冠肺炎疫情的出现没有任

17、何预兆,其发生和蔓延也是猝不及防,人民日报发布的信息多为数据报告和健康预防以及相关的诊疗方案,并无太为主观的情感倾向.可见,公众态度并不明显.爆发期:2021 年1 月9 日至28 日,在此段情感态势有两次明显的波动,但是人民日报的报道,以宣传政府大力抗击疫情的信息为主,带有积极的情感倾向引导,所以,公众的正面情绪仍占主流.图 3 情感均值随日期变化图谱衰退期:2021 年 1 月 28 日后,伴随着确诊病例的逐渐减少,到 30 日无新增确诊,公众的情感态势总体上呈现积极向上的状态.2.2.3 情感主题挖掘针对情感分析结果,将事件划分为 3 个时期:形成期、爆发期、衰退期,运用 LDA 模型,

18、分别对 3 个时期评论信息进行主题提取,并对提取的主题关键词进行内容概括,结果如表 2 所示.31 第 6 期王彤,等:基于 SnowNLP-LDA 的突发公共卫生事件网络舆情主题分析表 2 微博各时期主题抽取结果时期阶段序号LDA 模型提取关键词主题概括A1辛苦、医护人员、安全、拱卫、检测、工作人员、平安、注意、希望、防护、防疫、控制工作人员防护形成期A2大家、转发、石家庄、严防死守、口罩、回家、保护、上学、发布会、通知、做好防护、还好个人防护A3回家、过年、小区、河北、庄里、排队、检测、一个、防疫、防控、放假、抗疫、抗疫措施B1确诊、疫情、河北、新增、轨迹、病例、本地、无症状、结束、希望、

19、感染者、阳性、早日、快点、过去、本土疫情发展爆发期B2时候、过年、赶紧、回家、关注、行程、公布、快递、恢复、联考、每天复路复考情况B3石家庄、辛苦、胜利、早点、隔离、市长、邢台、小区、吉林、长安区、居家、一刀切、医护人员不同地区疫情应对B4隔离、检测、平安、风险、搞藁城、高风险、胜利在望、今天、好多、过个藁城疫情情况C1清零、早日、河北、加油、希望、新增、确诊、解封、零增长、平平安安抗疫工作情况衰退期C2河北、加油、胜利、中国、疫情、快好了、消杀、入户、好样、挺住对战胜疫情态度 在形成期,微博信息主要分为 3 类:工作人员的防护(A1)、个人防护(A2)、防疫措施(A3).有了武汉疫情的经验,

20、在 A1主题中,主要是针对工作人员的防护情况,疫情突如其来,工作人员披甲上阵,多数网民对奋战一线的工作人员表达祝福和期盼.A2 主题为个人防护,只有个人安全,国家才能安全.A3 主题是河北省现行的防疫措施,通过规范民众行为抗击疫情.在爆发期,微博信息主要分为 4 类:疫情发展(B1)、复路复考情况(B2)、不同地区防疫应对措施(B3)、藁城疫情情况(B4).在爆发期,疫情的发展情况是网民关注的重点,疫情本身与每个人息息相关,新闻媒体充分报道疫情的发展,有利于社会安定.报道不同地区,尤其是高风险区的疫情发展情况和抗疫措施,能有效增强网民对于抗击疫情的信心.在衰退期,微博信息主要分为 2 类:抗疫

21、工作情况(C1)、对战胜疫情的态度(C2),在衰退期主题词大多为积极词性,情感倾向也呈现上升的积极态度,表现了衰退期大家的期盼和激动的心情.3 结 语综上,在形成期,媒体专注于疫情消息本身传播和健康预防,公民的情感倾向并不突出,此时政府部门应该加强疫情消息发布力度,让媒体增加政策措施的报道占比,以避免公民情绪恐慌;在爆发期,随着疫情的大范围爆发,极易引起网民恐慌和舆情情绪波动,此时政府部门应出台更详细的政策措施,规范并严格监管,媒体也应及时征求专家的建议稳定人心;在衰退期,由于疫情减轻以及众多的志愿者参与,网民情感上出现了积极倾向,但此时媒体仍要注意疫后的复工复学复产、境外输入等社会问题,提醒

22、民众对疫情保持警惕之心,防止因群众防疫松懈引起疫情二次爆发.参考文献:1邢鹏飞,李鑫鑫.重大疫情防控中网络舆情形成机制及引导策略研究:基于新冠肺炎疫情期间网络舆情文本的质性分析J.情报杂志,2020,39(07):67-74+158.2赵艺,李平.突发疫情环境下网络舆情传播趋势预测及社会保障应急机制研究J.情报科学,2021,39(11):45-50.3杜毅贤,徐家鹏,钟琳颖,等.网络舆情态势及情感多维特征分析与可视化:以 COVID19 疫情为例J.地球信息科学学报,2021,23(02):318-330.4崔金栋,陈思远,李晨雨.基于大数据的多类型网络谣言类型平息方式实证研究:以“新冠肺炎

23、疫情期间谣言”为例J.情报理论与实践,2021,44(04):67-73.5袁媛.面向公共安全风险防控的疫情网络舆情预警研究:以刚果埃博拉病毒为例J.情报科学,2022,40(01):44-50.6杨茂青,王舒可.网络热点话题的用户参与动机分析J.图书情报研究,2021,14(03):50-56.7孙牧莹.网络时代旅游突发事件的传播机制研究D.南京:东南大学,2017.8何洋.突发事件的网络舆情引导研究:以“天津港大爆炸事件”为例J.科技创业月刊,2017,30(12):115-116.9尚红利.构建政府网络舆情工作机制J.法制与社会,2017(07):150-151.10胡晓凤.基于系统动力学的企业网络舆情应急管理复杂系统研究D.广州:广东技术师范学院,2017.11于雪.基于媒介化抗争视角的突发事件网络舆情演化与治理研究J.佳木斯大学社会科学学报,2019,37(03):46-49.责任编辑:王 军41商丘师范学院学报 2023 年

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服