基于情感分析和热度预测的网络舆情预测研究.pdf

资源描述

1、年月第卷第期西安石油大学学报（自然科学版）（）收稿日期：基金项目：陕西省社会科学基金项目“基于大数据的重大舆情发现、分析研判和应对策略研究”（）第一作者：赵嵩正（），男，博士研究生导师，教授，研究方向：数据分析、设备管理、信息管理与信息系统。：中图分类号：；文章编号：（）文献标识码：基于情感分析和热度预测的网络舆情预测研究赵嵩正，魏娜，李美彦，高鹏飞，顾王旬皓，（西北工业大学管理学院，陕西西安；中兴通讯股份有限公司，江苏南京）摘要：在社交媒体平台已成为大众信息交流的重要载体的背景下，关注和分析大众对于社会热点事件的情感倾向及舆论走势，有利于及时准确了解大众的情感需求，制定相

2、应的措施，引导舆论走向，维护良好的网络环境。提出了基于情感分析和热度预测的网络舆情预测思路，构建了融合多特征的文本情感分析模型和基于时间序列的热度预测模型，并基于真实数据集验证了模型的有效性。对于社交媒体上舆论环境的分析和预测有重要意义。关键词：网络舆情预测；情感分析；热度预测；深度学习，（，；，）：，：；赵嵩正，魏娜，李美彦，等基于情感分析和热度预测的网络舆情预测研究西安石油大学学报（自然科学版），（）：，（），（）：西安石油大学学报（自然科学版）引言中国互联网络中心（）在年月发布的第次中国互联网络发展状况统计报告中显示，到年月为止，我国网民规模达亿，较年底增长了万

3、，互联网普及率达。其中，即时通信用户、网络视频（含短视频）用户、网络支付用户、网络购物用户、网络新闻用户、线上办公用户、在线旅游预定用户和互联网医疗用户分别占网民整体的、和。这表明互联网已对人们的学习、生活和娱乐方式产生了重要影响，且成为信息传递的重要载体。然而，由于互联网自身存在的虚构性、隐藏性、扩散性和随意性等特征，个别媒体和一些网民借助网络散播虚假的和未经证实的信息，有意引导舆论走向，从而增加了舆情事件的负面影响，对社会的安定团结造成了重要危害。因此，对网络上的社会热点事件的网民情感导向进行有效分析和监控，及时监测事件的舆论现状，预测未来的舆论走向，有利于提前制定相应的应对措施，

4、防止舆论被他人刻意引导，对于控制舆论影响有重要意义。现有的网络舆情分析方法包括基于构建指标体系的方法、基于传播过程的方法和基于情感分析的方法。其中，基于构建指标体系的方法存在时效性差和主观性强的缺点；基于传播过程的方法存在模型复杂度高、依赖假设和缺乏综合性等局限；基于情感分析的方法则由于有较多的数据支撑而具有较高准确率。因此，本研究基于情感分析方法，将其与热度预测相结合，用于网络舆情分析。目前主要的情感分析方法包括种：基于情感词典的方法、基于传统机器学习的方法和基于深度学习的方法。其中，基于情感词典的方法通过与人工构建的情感词典库匹配确定评论文本的情感极性；基于传统机器学习的方

5、法通过传统机器学习模型（例如，支持向量机和决策树模型）实现文本情感分类，这两种方法均需要耗费大量的人工成本和时间成本，且领域适应性较差；基于深度学习的方法可以通过深度学习模型（主要指神经网络模型）自动学习文本的语义特征，减少了人工特征工程的工作量，然而，不同的深度学习模型通常可以提取到的语义特征也是不同的，单一的深度学习模型不能提取到情感分析所需要的全部语义特征，且数据不均衡问题（当热点事件中的舆论被有意引导时，评论文本中某一情感极性的文本数量往往多于另一情感极性的文本数量）会对深度学习模型产生比较大的负面影响。目前主流的热度预测方法是基于定量模型的方法，包括：时间序列分析、灰色理论、模型

6、、马尔科夫链和指数平滑法。其中，时间序列分析具有考虑时间依赖性，适用于短期和长期预测，可解释性强等优势，被广泛应用于热度预测领域。因此，本研究提出了基于情感分析和热度预测的舆情预测思路；基于卷积神经网络和双向长短期记忆网络，构建了多特征融合的情感分析模型，解决了同时提取评论文本中长期记忆信息和局部信息的问题；基于简单数据增强方法，降低了情感分析中的数据不均衡问题对深度学习模型的负面影响；构建了基于时间序列分析的热度预测模型，实现了热点事件的热度走向预测；基于真实数据集，验证了本研究提出的情感分析模型、热度预测模型和舆情分析思路的有效性。多特征融合的情感分析模型构建本研究基于卷积神经网络和双向长

7、短期记忆网络，构建了融合长期记忆信息和局部信息的情感分析模型（图），该模型主要包括个部分：输入层、数据增强层、词嵌入生成层、文本特征提取层、情感分类层和输出层。输入层本研究构建的基于多特征融合的情感分析模型的输入是文本数据，每段文本按照字符或词汇切分，形成序列，最后将序列输入到整个模型。数据增强层为了降低数据不均衡问题对分类模型的负面影响，有研究者提出了用数据增强的方法自动增加训练数据中少数类的数据量，从而为分类模型构造出均衡的训练数据。由于数据增强方法不是本研究的主要内容，因此，本研究采用文本数据增强方法中最简单和易于实施的过抽样方法解决数据不均衡问题，即通过简单重复的方法，增加少数类

8、的文本数量，得到均衡的训练数据集。词嵌入生成层模型被广泛用于自然语言处理的各个领赵嵩正等：基于情感分析和热度预测的网络舆情预测研究图基于多特征融合的情感分析模型域（例如，文本分类和关系抽取），且均取得了不错的效果，因此，本研究采用模型生成文本的词嵌入。模型由模型中的层堆叠而成，可以有效获取文本的上下文信息。模型的输入包括部分：文本中的字符或词本身的表示向量、字或字符的位置表示向量和句子之间的分割表示向量。模型的训练过程包括预训练和微调两部分，其中预训练基于遮蔽语言模型（，）和下一句预测任务实施，微调阶段则基于具体任务的文本数据进行训练。文本特征提取层采用和提取文本的上下

9、文信息和局部信息，如图中的特征提取层所示。模型由两层模型组成，一层学习正向的文本上文信息，一层学习反向的文本下文信息，通过两层得到的向量的拼接获取完整的文本上下文信息。模型通过门控机制可以有效解决梯度消失和梯度爆炸问题，从而保留文本的长期和短期序列信息。门控机制由个门组成：输入门、遗忘门和输出门，分别用于决定上一时刻的信息可以输入到当前时刻的比例、当前时刻的信息需要被丢弃的比例和当前时刻的信息可以被输出到下一时刻的比例。卷积神经网络（）的模型框架包括卷积层和池化层两部分。卷积层通过卷积操作代替全连接神经网络中的全连接操作，实现参数共享，从而可以有效减少模型的参数数量，在一定程度上解决过拟

10、合问题。同时，卷积神经网络可以通过卷积操作有效提取文本的局部信息，从而可以在情感分类任务中有效学习情感词汇所表达的局部语义特征。情感分类层和输出层通过全连接神经网络融合和提取到的文本信息，实现文本情感分类。对于每一条文本，最终输出其情感极性：积极或消极。基于时间序列的热度预测模型构建为了评估社交媒体上某个话题的热度和未来走向，借鉴文献提出的热度计算方法，本研究构建了社交媒体中某个话题的热度计算公式，并基于时间序列，构建了热度预测模型，预测某个话题的未来影响力大小。热度计算方法设计目前，用户在社交媒体上发表的关于某一事件的话题的影响度可以用个主要指标来衡量，分别是：点赞数、评论数和转发数

11、。通常，这个指标在话题影响度评估中的重要性是不同的，本研究构建的热度计算式为。（）式中，和分别表示不同的权重，可以通过专家访谈和文献分析等方法获取；，和分别表示某个话题的转发数、评论数和点赞数。西安石油大学学报（自然科学版）由于不同话题的热度差异较大，因此，本文采用标准化方法对式（）计算得到的热度值进行标准化处理，使最终得到的热度值取值范围为，。热度预测模型构建基于节的话题热度计算方法，本小节通过时间序列分析方法，基于某个话题的历史和当前热度，预测该话题的未来热度走向，从而辅助重要话题的舆论控制策略制定。现有的被广泛使用的时间序列模型包括：自回归模型（，）、滑动平均模型（，）和自回

12、归滑动平均模型（，）。由于这个模型都只能处理平稳时间序列，而本研究经过数据探索发现，话题热度序列属于非平稳时间序列，因此，采用文献提出的求和自回归滑动平均模型（，）执行话题热度预测任务，即采用差分运算将非平稳时间序列转化为平稳时间序列，再通过模型执行预测任务。模型的数学表达式为。（）式中，为自回归阶数；为差分阶数；为滑动平均阶数；为自回归系数；为滑动平均系数；、不为；是零均值且固定方差为的白噪声序列。基于情感分析和热度预测的舆情预测在获得某个话题的情感极性及未来热度走向后，可据此判断某个事件是否会引发网络舆情，以及可能引发的舆情等级，并制定相应的应对策略，使社交媒体上的舆论环境朝着

13、良好的方向发展。例如，由于公众在面对某一事件时，对风险的感知程度越高，其消极恐惧情绪就会越明显，反之亦然。因此，当某个话题的情感极性表现消极，且话题热度不断增加，则需根据话题讨论的事件，及时制定合理的应对措施，引导舆论导向，避免事件进一步恶化；如果话题情感极性表现积极，则话题热度无论如何演变，都可以任其自然发展。同时，也可根据话题的热度变化是否符合预期，判断某个话题是否应被重点关注或判断制定的应对措施是否有效。例如，某个负面话题的热度在实时预测时，其真实热度总是远远高于预测值，则需要分析该话题的发展是否被人为控制，或向不可控的方向发展；当对某个话题实施了相应的应对措施后，如果话题的热度或情感

14、极性向着预期方向发展，且变化范围大于预测值，则认为该措施发挥了积极正向的作用。实验分析本小节设计了组实验用于评估本研究构建的情感分类模型、热度预测模型和舆情分析思路的有效性和合理性。实验数据本文选择微博平台作为数据的爬取来源，通过爬虫框架获取相关内容。在情感分类模型的评估中，选择新浪微博中有关甲流话题的内容，共计得到相关数据条；在热度预测模型的评估中，选择不同话题的条博文，及其点赞数、转发数、评论数等相关数据；在舆情分析思路评估中，选择个话题，对其进行具体分析。评估指标在情感分类模型的评估中，选择经典的准确率（）、精确率（）、召回率（）和（）；在热度预测模型的评估中，选择平均绝对误

15、差、均方误差、均方根误差和判定系数这种经典的预测模型的评估指标；在舆情分析思路有效性评估中，采用专家访谈的方法对其进行评估。实验过程及结果情感分类模型有效性评估在情感分类模型评估中，本研究设计了两部分实验，分别评估多特征融合模块的有效性和数据增强模块的有效性。在多特征融合模块评估中，参与比较的基准模型包括传统的模型和模型，比较结果见表。由表可知，本文的情感分类模型在准确率、精确率和综合评价指标方面，均优于传统的和模型。这是因为，传统的模型只考虑了局部语义特征，没有考虑文本的上下文关系；模型充分考虑了上下文信息，但忽略了文本局部语义特征。本文构建的融合多特征的文本分类

16、模型综合考虑文本上下文和局部语义特征，因此获得了优于其他两个模型的分类效果。在数据增强模块的评估中，参与比较的方法包赵嵩正等：基于情感分析和热度预测的网络舆情预测研究括不进行任何数据增强操作、简单的过抽样方法（）和欠抽样方法（），比较结果见表。表情感分类模型中多特征融合模块评估模型传统传统注：指，指表情感分类模型中数据增强模块评估方法无操作欠抽样方法简单过抽样方法由表可以看出，采用过抽样方法进行数据增强的情感分类模型在准确率、召回率和综合评价指标上，明显优于不增加任何数据增强策略的情感分类模型和采用欠抽样方法进行数据增强的情感分类模型。这表明，采用数据增强方法解

17、决训练文本中的数据不均衡问题，可以有效提高分类模型的有效性。热度预测模型有效性评估在热度预测模型评估中，本研究设计了两部分实验，分别用于数据序列平稳性检验和预测模型效果评估。沿用文献中的参数设置，将式（）中的，和分别设定为、和。在数据平稳性检验中，选择某条博文的热度序列，采用单位根检验，评估数据序列的平稳性。检验假设：存在单位根；：时间序列不存在单位根。计算结果见表。从表可以看到，种类型的检验统计量基本都大于、水平临界值，所以无法拒绝原假设，而且均大于，说明数据存在单位根，即数据是非平稳时间序列。在热度预测模型的评估中，本研究基于参数，确定了模型中的参数值：，。选择某一

18、话题，基于平均绝对误差、均方误差、均方根误差和判定系数评估预测模型的有效性，评估结果见表，预测结果可视化效果如图所示。表数据序列单位根检验类型检验统计量水平临界值水平临界值水平临界值无常数均值无趋势有常数均值无趋势有常数均值有趋势表不同时间间隔的预测模型效果评估时间间隔判定系数注：？西安石油大学学报（自然科学版）从图和表可以看到，随着预测时间间隔的增大，平均绝对误差、均方误差和均方根误差都在不断增大，判定系数在不断减小，表明模型的拟合程度在下降。判定系数表示自变量可解释因变量变化的比例，本研究中当自变量可解释因变量变化比例降低时，表示噪声所造成的影响增

19、加。当判定系数低于（噪声对预测热度造成的影响超过）时，预测热度不满足实际应用中对于准确度的需求。根据表中的判定系数值，当预测时间间隔为、和时，本研究构建的预测模型的预测效果可满足要求。图实际数据序列与预测数据序列可视化舆情预测思路有效性评估为了评估本研究提出的基于情感分析和热度预测的舆情分析思路的有效性，收集个不同话题，基于话题评论中负面评论的比率、话题最大热度和实际热度与预测热度发生较大偏差的次数（突变次数）筛选应该被重点关注的话题。实验结果见表。从表可以看出，话题的负面评论率高达，热度突变次数高达次且最大热度值也很高，因此，该话题的舆情预警等级最高，需要特别关注；话

20、题、的负面评论率均超过，且最大热度值均超过万，因此，这些话题的舆情预警等级较高，需要重点关注；话题、的负面评论率、热度突变次数、最大热度值个指标中只有部分指标显示需要关注，因此给予其一般关注即可；相比较而言，话题则无需过多关注。经评估，上述话题的评估结果与话题的后续发展基本吻合，这表明，本研究提出的基于情感分析和热度预测的舆情分析思路是有效的和可行的。为了进一步分析热度预测结果对舆情分析结果的影响，本文对比了考虑和不考虑热度预测结果时的舆情分析结果。从表可以看出，在只考虑负面表不同话题舆情分析结果展示序号话题负面评论率热度突变次数最大热度预警等级【北京目前轻型普通型占总病例数

21、】一般【特朗普称新冠肺炎病例完全无害】重点【高考加油版：笔所到之处，难题都被征服！】无【港府明确光复香港口号有港独含意】重点【内蒙古巴彦淖尔市报告例疑似腺鼠疫病例】一般【石景山万达女子表示对不起大家：名密接已全部隔离】最高【驻港部队倾盆大雨中实战训练：步枪、手雷实打实投】一般【美国新冠肺炎确诊通万，美国单日新增确诊超万】一般【巴西专家称去年月下水道中已存新冠病毒】重点【山东再回应苟晶被顶替入学事件】重点评论率的情况下，话题和话题的负面评论率均较低（分别为和），因此，预警等级应该设置为“无”，但由于在热度预测过程中，话题和话题的热度分别发生次和次突变，这说明这两个

22、话题的受关注程度均在发酵过程中出现了一定程度的不可预测性，因此，这两个话题的预警等级应该被提高，这一结果也在话题的后续发展过程中得到了验证。这表明，在舆情分析中同时考虑情感分析结果和热度预测结果是有必要且合理的。结论随着计算机技术的发展，社交媒体已成为人们信息交流的重要载体。对网络上的社会热点事件的网民情感导向进行有效分析和监控，预测未来的舆论走向，有利于提前制定相应的应对措施，对于控制舆论影响有重要意义。因此，本研究提出了基于情感分析和热度预测的舆情分析思路，构建了融合多赵嵩正等：基于情感分析和热度预测的网络舆情预测研究特征的情感分类模型和基于时间序列的热度预测模型，用于分析社交媒体上热点话

23、题的大众情感倾向及话题的受关注度趋势，并通过一系列实验验证了模型的有效性。本研究对于情感分类和时间序列数据的分析和预测相关研究有重要的理论意义；同时对于社交媒体上的舆论环境的分析和监管有重要实践意义。参考文献（）：中国互联网络信息中心发布第次中国互联网络发展状况统计报告国家图书馆学刊，（）：唐涛移动互联网舆情新特征、新挑战与对策情报杂志，（）：，（）：李勇，刘战东面向网络舆情分析系统的本体应用西安石油大学学报（自然科学版），（）：，（），（）：，田世海，王春梦，杨文蕊基于和随机网的突发事件网络舆情危机预警机制研究中国管理科学，（）：，（）：周琦萍，杨芳基于模型的网络舆

24、情无监督预警机制研究情报科学，（）：，（）：王英，龚花萍基于情感维度的大数据网络舆情情感倾向性分析研究：以“南昌大学自主保洁”微博舆情事件为例情报科学，（）：，：“”，（）：蒋翠清，郭轶博，刘尧基于中文社交媒体文本的领域情感词典构建方法研究数据分析与知识发现，（）：，（）：郗亚辉产品评论中领域情感词典的构建中文信息学报，（）：，（）：周知，王春迎，朱佳丽基于超短评论的图书领域情感词典构建研究情报理论与实践，（）：，：，（）：，（）：，（）：程正双，王亮基于支持向量机的网络评论情感分析方法电子技术与软件工程，（）：，（）：邓慈云，余国清基于朴素贝叶斯的影评情感分析研究智

25、能计算机与应用，（）：，（）：，刘钢，张维石基于决策树的网民评价情感分析现代计算机（专业版），（）：，（）：郑志伟，邱佳玲，阳庆玲，等随机森林对文本情感分析的应用与软件实现现代预防医学，（）：，（）：，刘继，顾凤云基于与混合方法的网络舆情非平衡文本情感分析情报杂志，（）：，（）：西安石油大学学报（自然科学版）孟佳娜，吕品，于玉海，等基于的方面级跨领域情感分析研究计算机工程与应用，（）：，（）：裴颂文，王露露基于注意力机制的文本情感倾向性研究计算机工程与科学，（）：，（）：邵良杉，周玉基于语义规则与模型的在线评论情感分类研究中文信息学报，（）：，（）：徐绪堪，周

26、泽聿基于多尺度的微信推文的情感分类模型及应用研究情报科学，（）：，（）：颜端武，杨雄飞，李铁军基于产品特征树和模型的产品评论情感分析情报理论与实践，（）：，：，（）：，（）：王努努，张伟佳，钮亮基于和神经网络模型的舆情情感预测电子科技，（）：，（）：徐敏捷基于指数平滑法的微博舆情预测模型研究中国公共安全（学术版），（）：（），（）：张和平，陈齐海基于灰色马尔可夫模型的网络舆情预测研究情报科学，（）：，（）：，（）：刘博，蒲亦非基于的长文本分类方法四川大学学报（自然科学版），（）：，（），（）：李岳泽，左祥麟，左万利，等基于的因果关系抽取吉林大学学报（理学版），（）：，（），（）：，：，屈启兴，齐佳音基于微博的企业网络舆情热度趋势分析情报杂志，（）：，（）：王新猛基于马尔可夫链的政府负面网络舆情热度趋势分析：以新浪微博为例情报杂志，（）：，（）：周耀明，李弼程一种自适应网络舆情演化建模方法数据采集与处理，（）：，（）：陈登建，夏换，赵浩宇风险沟通视角下政务微博中公众的情感风险识别与预警研究情报资料工作，（）：，（）：责任编辑：陈景辉

展开阅读全文