收藏 分销(赏)

基于偏差规则马尔可夫模型的网络舆情情感预测研究.pdf

上传人:自信****多点 文档编号:2326057 上传时间:2024-05-28 格式:PDF 页数:13 大小:7.07MB
下载 相关 举报
基于偏差规则马尔可夫模型的网络舆情情感预测研究.pdf_第1页
第1页 / 共13页
基于偏差规则马尔可夫模型的网络舆情情感预测研究.pdf_第2页
第2页 / 共13页
基于偏差规则马尔可夫模型的网络舆情情感预测研究.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、情报学报 2023 年 9 月 第 42 卷 第 9 期Journal of the China Society for Scientific and Technical Information,Sept.2023,42(9):1065-1077基于偏差规则马尔可夫模型的网络舆情情感预测研究史伟1,2,薛广聪2,何绍义3(1.浙江海洋大学经济与管理学院,舟山 316022;2.湖州师范学院信息工程学院,湖州 313000;3.加州州立大学圣伯纳迪诺分校商业与公共管理学院,圣伯纳迪诺 91708)摘要 针对微博短文本评论,基于情感分析技术,从情感类转移等角度实现对网络舆情演变趋势的预测。本文以突

2、发事件“新冠肺炎疫情”初期的相关微博评论文本作为研究对象,基于扩展关联规则Apriori算法和马尔可夫链提出一种新的方法,即偏差规则马尔可夫模型(the deviation rules Markov model,DRMM)。该模型分析了网民情感类间的相关性和转移性,通过计算不同的情感类转移概率、构建时变的情感状态转移矩阵对疫情初期网民情感状态的变化趋势进行预测。实验采取平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)来衡量模型预测值与真实值之间的误差。研究结果表明,该模型具有较好的有效性和准确性,预测值和真实

3、值的拟合效果在预期范围之内。关键词 情感转移;网络舆情;短文本挖掘;关联规则;马尔可夫链Emotion Prediction of Network Public Opinions Based on the Deviation Rules Markov ModelShi Wei1,2,Xue Guangcong2 and He Shaoyi3(1.School of Economics and Management,Zhejiang Ocean University,Zhoushan 316022;2.School of Information Engineering,Huzhou Univer

4、sity,Huzhou 313000;3.College of Business and Public Administration,California State University,San Bernardino,San Bernardino 91708)Abstract:Using sentiment analysis technology,the evolution of online public opinion can be predicted from the perspective of emotion transfer in short microblog comments

5、.In this study,the short texts of related microblog comments in the early stage of the COVID-19 pandemic were taken as the research object.Based on the extended association rule Apriori Algorithm and Markov Chain,a new method called the deviation rule Markov model is proposed.This model analyzes the

6、 correlation and transfer between Internet users emotion classes and predicts the changing trends of Internet users emotional states in the early stage of the pandemic by calculating the transfer probability of different emotion classes and constructing a time-varying emotion state transfer matrix.T

7、he experimental results demonstrated that the emotional state of netizens after the pandemic outbreak was not negative but gradually changed to“positive”emotions over time.Through a comparative analysis of examples,the validity and accuracy of the affective prediction model for online public opinion

8、 proposed in this study were verified.Keywords:emotion transfer;network public opinion;short text mining;association rules;Markov chainDOI:10.3772/j.issn.1000-0135.2023.09.006收稿日期:2022-10-24;修回日期:2023-02-23基金项目:国家社会科学基金一般项目“重大突发事件中网民情感状态演变规律及引导研究”(20BXW013)。作者简介:史伟,男,1981年生,博士,教授,硕士生导师,主要研究领域为商务智能与情

9、感计算,E-mail:;薛广聪,男,1996年生,硕士研究生,主要研究领域为网络舆情与情感分析;何绍义,男,1955年生,博士,副教授,博士生导师,主要研究领域为商务智能与文本挖掘。第 42 卷情 报 学 报0引 言随着大数据和信息时代的发展,移动互联网让“万物互联”成为可能,网络逐渐成为公众交流观点和释放自身本相的空间,是舆论产生、发酵和传播的重要渠道。网络环境具有相对客观的匿名性,人们更愿意在网络上表达自身的观点和情感。近年来,接连不断的突发公共事件在微博、贴吧以及推特等社交平台上引发热议,网络舆情贯穿于突发事件的爆发、发展和消亡阶段,并且对重大突发事件的演变影响甚大。一方面,促进重大事件

10、及时得以解决;另一方面,可能加剧公众的恐慌心理,影响社会稳定和经济发展。网络舆情环境是一个复杂多变的社会网络系统,不同用户、不同信息之间的非线性互动推动了舆情的发酵。社交媒体作为各种舆情信息的核心载体,其相关评论往往蕴含着非常丰富的公众情感信息。目前已有大量研究利用情感分析等技术对公众情感信息进行分析与预测,虽然可以有效预测网络舆情的演变趋势,但都没有考虑到情感类间的相关性。本文先将机器学习中的关联规则算法应用到网络舆情观点挖掘,在传统 Apriori算法的基础上计算情感偏移度来分析不同情感类之间的关联关系,然后利用马尔可夫链构建情感状态转移矩阵对网络舆情情感趋势进行预测,结合实际数据和预测数

11、据的误差分析验证所构建情感预测模型的有效性和准确性,此项研究对突发事件中网络舆情的引导和控制具有重大的应用价值和实际意义1。1文献综述1.1情感分类研究情感分析为探究用户情感以及行为方式提供了新的方法,并被广泛应用在商品评论、主题情感挖掘、智能人机交互、相似性推荐和网络舆情分析等热门领域中2-4。情感分类作为情感分析的基础,是自然语言处理领域的研究热点之一5。Raza 等6为了分析和检测公众对重大政治事件的情绪,提出一种基于语义定向的系统,通过计算推文的情感权重来分析公众意见和在线传播对决策的影响,该系统对重大政治事件推文的情感分类准确率达到了86%,还发现微博内容以讽刺和消极的语调为主,导致

12、机器对负面推文识别率较低。Yoon 等7为了分析政治问题中的公众舆论导向,利用多元回归模型和潜在狄利克雷主题模型计算个人推文方面和主题层面的文本情感极性,该方法的情感分类精度比基线方法提高了 7%。曾雪强等8引入普鲁契克情感轮心理学模型计算情感间的心理距离,提出基于情感轮和情感词典的情感分布标记增强方法,该方法在传统的情感分类任务之外考虑了情感的心理学知识和情感词的语言学信息,且在 7 个中英文情感数据集上的实验性能优于已有方法。Cai等9基于领域分类任务学习特定领域的词向量,然后拼接普通词向量和领域词向量用于情感分类,在 16 个不同领域的数据集上取得了较好的分类效果;在此基础上,曹柳文等1

13、0提出一种基于互学习的多词向量融合情感分类模型,充分利用普通词向量、领域词向量和情感词向量的信息,在方面级情感分类上的性能显著优于同类基准方法。传统的情感分类研究通常为单标签情感分类任务,但实际上存在一个句子中包含多种情感类的情况。Wang 等11提出一种基于约束优化的文本情感检测框架,该框架采用情感绑定、主题相关性以及情感词典来检测用户社交媒体内容所包含的情绪,为文本选择一个最主要的情感类别,解决了多标签情感分类问题。钟敏娟等12基于关联规则挖掘主题特征词与情感词,考虑了情感词之间的混合关系和上下文关系,构建了情感词量化模型,从而对多标签情感进行分类。Huang 等13通过学习情感标签特征进

14、行多标签分类,判断标签之间是否共享来考察标签的相关性。张立等14提出一种基于多目标依存建模的情感分类模型,通过构建情感特征向量并对同一文本中多个标签之间的依存性进行分析实现多目标情感分类任务。虽然在多标签情感分类任务中,构建的情感分类模型可以有效识别出文本中包含的多种情感,但无法定量地回答各个相关情感的表达程度分别有多少15。1.2情感预测研究情感预测是指个体对事件的未来情感反应预测16。由于情感具有差异性、动态性和社会性等特征,用户情感的变化不仅与外部环境有关,也与情感的历史状态有所关联。一般来说,传统的情感预测被视为单标签的监督学习,未考虑标签之间的相关性。陈玮等17基于神经网络技术提取文

15、本的局部特征和全局语义信息,对情感标签之间的相关性进行建模分析,研究结果表明考虑标签相关性的情感分类模型具有更高的精确度。Yoo 等18提出一种从1066第 9 期史伟等:基于偏差规则马尔可夫模型的网络舆情情感预测研究海量社交媒体内容中分析和预测用户情感轨迹的系统,通过分析特定关键词的路径、范围和时间因素来预测事件情感。Lei 等19提出一种基于情感的评级预测方法来提高推荐系统的预测准确率,该方法结合用户情感相似性、人际情感影响和产品声誉 3个因素来做出准确的评级预测。Dong 等20考虑到人的自我情感变化机制,提出一种结合用户情感变化机制和用户间交互的阻尼振荡模型对情感发展趋势进行实时预测,

16、取得了不错的效果。Gupta 等21提出了一种混合用户情感、行为的预测系统,用于评估文本信息、预测文本情感以及识别用户行为,该系统平均准确度可以达到90%。公众的情感状态变化能为情感预测提供数据基础,通过社交媒体评论更好地对网络舆情事件进行情感分析和预测。Sun 等22针对中文微博评论的情感特征,提出一种基于卷积扩展特征的深度神经网络模型用于情感预测,但该模型的时耗随着卷积层数的增加而增加。Huang 等23研究了个体情绪、网络结构、舆情传播主体和环境等内外因素对网络舆情演化的影响。Wang 等24从舆情传播的角度研究传播主体与环境之间的交互演化机制,通过分析网民负面情感的突变趋势来识别舆情爆

17、发的关键时间窗口,为网络舆情检测和预警提供了参考。针对情感的时序变化特征,有学者将情感变化过程假设为一种马尔可夫过程,即情感状态转移概率是由多方面因素共同决定的。Yang等25基于耦合隐马尔可夫模型的多模态融合方法,对音频和视频中的异常情绪进行检测,该方法在情绪障碍检测中具有良好的准确性和有效性。赵晨阳等26基于生态科学中的种群共生理论,构建了公众情感共生模型(public emotion-symbiosis model,E-SM),通过 7种情感共生模式的仿真模拟来预测网络舆情中公众情感变化趋势。在情感预测应用上,王伟军等27基于中文心境词汇语义网络和马尔可夫随机游走算法,构建了七维公众情感

18、状态词典,并提出一个混合预测特征模型对新产品市场趋势进行预测,研究结果表明该混合预测模型具有较好的预测能力和预测提前期。Chai 等28通过整合新闻事件、评论情感等多源资讯,构建了一个多源异类资料分析方法来预测未来期货市场价格,利用扩展的隐马尔可夫模型探索数据中潜在的时间相关性,除此之外,还实现了特定特征挖掘以探索目标行业未来的相关知识。孙嘉琪等29提出一种将时间序列模型与情感分析相结合的情感预测方法,采用深度学习模型构建 ARIMA-GARCH(autoregressive-moving average-generalized auto regressive conditional hete

19、roscedasticity)时间序列模型,对情感值时间序列进行建模,分析投资者情感趋势与股市涨跌幅,为投资者提供参考。1.3研究评述人类的情感复杂又多变,不同情感间存在着明显的相关性,如某些情感经常会同时出现,表现出很强的正相关性,而其他情感则相反。本文从情感转移的视角对情感变化趋势进行研究,根据既有相关研究发现,网络舆情的情感预测研究中还存在一些未解决的问题:网络舆情演变过程中不同极性的情感之间是否会发生转移?若发生转移,情感转移的概率是否会随时间的推移而变化?不同粒度下的情感分类是否会对舆情预测结果造成影响?为解决上述问题,本文结合情感分析与数据挖掘技术提出一种新的情感预测模型,采用关联

20、规则算法挖掘网民不同情感状态间的关联关系,运用马尔可夫链构造情感状态转移矩阵预测情感状态的迁移概率,探索舆情事件下网民情感演变规律和迁移趋势。2情感预测模型设计2.1模型框架基于数据挖掘和情感分析技术提出一种网络舆情情感预测模型。首先,对从新浪微博爬取到的评论数据进行预处理;其次,根据网络舆情评论语料库对情感本体扩展,利用扩展后的模糊情感本体进行情感词标注;再其次,引入 Apriori算法,计算不同情感类间的支持度、置信度和偏移度;最后,基于马尔可夫链构建情感状态转移矩阵,并分别从宏观和微观两个情感分类层面对预测结果进行分析,具体流程如图1所示。2.2模型研究方法如图 1 所示,本文构建的网络

21、舆情情感预测模型涉及情感分析、数据挖掘、统计学、语言处理等技术,下文将分别介绍主要方法及改进措施。2.2.1模糊情感本体情感本体是指情感领域中存在着的对象类型或概念及其相互之间关系的形式化表达。由于中文的1067第 42 卷情 报 学 报“词义”十分复杂且模糊,一个词在不同语境下会表达出不同的语义,本课题组在前期工作中已经将知网(HowNet)提供的 836个正面情感词和 1254个负面情感词作为基础词汇,结合模糊理论和在线评论特点建立了模糊情感本体30。为了能包含大部分通用情感类,本文挑选了 8 种情感类(期待、高兴、喜爱、惊讶、焦虑、悲伤、生气和讨厌)作为模糊情感本体中的情感类型,并以三元

22、组的形式描述模糊情感本体,即 FEO=(B,R,E)。其中,B(编号;词条;对应英语;词性;录入者;版本信息)表示词汇的基本信息;R(同义关系词汇)表示词汇之间的同义关系;E(情感类型;隶属度)表示词汇的情感类型和隶属度。网络评论表达具有多样性和发展性,舆情评论中也不断出现具有情感倾向的新词语。本文从网络舆情评论语料库中整理出 87 个具有情感倾向的新词,并对这些新的情感词进行分类。为了避免分类过程中个人偏向因素的问题,采取多人标注、集中分析的方式,并用 kappa 统计方法来衡量情感分类的精度,即K=P(A)-P(E)1-P(E)(1)其中,P(A)表示两人以上情感标注结果一致性的概率;P(

23、E)表示专家凭直觉标注的一致性概率,其平均结果为 0.75(0.610.80 为高度一致性),表示情感标注一致性良好。为方便数据统计与实验,下文采用数字标号 18 来依次表示情感类,扩展后的模糊情感本体如表1所示。2.2.2拓展的关联规则关联规则(association rules)反映了一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术。Apriori算法作为关联规则挖掘的经典算法之一,通过分析不同事项之间的联系,根据支持度、置信度等相关规则获取不同事项之间的强关联规则,用于从大量数据中挖掘出有价值的数据关系。将关联规则应用到情感分析中,通过挖掘网络舆情评论中网民情感之间的

24、关联性来探索舆情过程中的情感变化趋势。除传统关联规则中的支持度和置信度外,本文提出偏移度来表示一种情感向另一种情感转变的趋势。Apriori算法是关联规则挖掘的经典算法之一,拓展后的 Apriori算法主要由3 个过程组成:迭代找出最大的频繁项集、依次产生强关联规则和计算情感类间的偏移度。对应的公式为支持度:Support(A,B)=Freq(A,B)N (2)置信度:Confidence(AB)=P(A,B)P(A)=表1扩展后的模糊情感本体数量标号 情感类词汇数量1期待1842高兴4123喜爱3424惊讶705焦虑2926悲伤2347生气2078讨厌436图1网络舆情情感预测模型流程图10

25、68第 9 期史伟等:基于偏差规则马尔可夫模型的网络舆情情感预测研究 Support(A,B)Support(A)(3)偏移度:Deviation(A B)=Freq(A)N-DataNum,A=Bn=2kConfidencen(A B)n-1,A B(4)其中,A、B 表示不同事件;N 表示事务数据集总数;DataNum 表示包含 2 种或 2 种以上情感类的数据集个数;n表示频繁 n项集;k表示最大的频繁项集项数;Freq(A)表示 A 事件出现的频次。支持度表示事件 A、B 同时出现的概率,置信度表示在事件A 出现的情况下事件 B 也出现的概率,偏移度反映了事件A、B之间的转移性。具体算

26、法如下。输入:包含情感类别序号的原始数据集 N、最小支持度minSupport、最小置信度minConf。输出:(1)最大的频繁k项集。Step1.扫描整个数据集,挑选出所有出现过的特征构成候选 1项集。Step2.找出最大的频繁 k项集。Step2.1.分别计算候选 k项集中各项的支持度(k从 1开始);Step2.2.剪除候选 k项集中支持度低于阈值的数据集,得到频繁 k项集;若所得的频繁 k项集为空,则返回频繁 k-1项集的集合作为结果,算法结束;Step2.3.基于频繁k项集,连接生成候选k+1项集。Step3.转入 Step2,迭代获取 k=k+1项集的结果。(2)产生关联规则。St

27、ep1.对于每个频繁项集L,生成L的所有非空子集。Step2.对 L 的每个非空子集 S,若 Support(L)/Support(L-S)minConf,则输出关联规则(L-S)S。(3)计算偏移度。Step1.根据情感类出现的频次计算相同情感类间的偏移度。Step2.根据关联规则(L-S)S 在不同频繁项集中的置信度计算不同情感类的偏移度。2.2.3马尔可夫链马尔可夫模型(Markov model)是由 A.A.Markov 提出的一种统计模型。他将事件中的随机变量作为节点,若两个随机变量之间相关,则用一条“边”连接,当存在若干个随机变量时,则形成一个有向图,即构成一个网络,将该有向图用线

28、性链的方式展开,则得到马尔可夫模型。由于链中每个节点都是随机变量,若将其看成各个时刻的相关变化,则可以得到时间和状态离散的马尔可夫链(Markov chain)。假设过程中的序列状态为,Xt-2,Xt-1,Xt,Xt+1,Xt+2,(5)那么在 Xt+1状态下的转移概率仅取决于 Xt时的状态,即P(Xt+1丨,Xt-2,Xt-1,Xt)=P(Xt+1丨Xt)(6)在已知目前状态的情况下,事件未来的演变不依赖于其过去的演变,每个状态的转移只与之前的一个状态有关。同理,网民的情感状态具有独立性,不依赖于历史情感状态的演变,每种情感类别的转移只与之前的一个情感类别相关,因此,本文引入马尔可夫模型对网

29、民情感状态的变化进行预测。定义矩阵 P 某一位置 P(i,j)的归一偏移度为 Pij,即从情感 i转移到情感 j的概率,则得到的马尔可夫链模型的情感转移概率矩阵为P=P11P12P1nP21P22P2nPn1Pn2Pnn(7)3实证研究3.1数据准备新冠肺炎疫情是全球最严重的突发公共卫生事件之一,疫情的传播速度和覆盖范围对全球各国经济和社会造成严重影响,在网络上引起巨大的舆论浪潮。本文利用 Python 爬虫爬取 2019 年 12 月31 日新浪官方微博“央视新闻”和“人民日报”发布的“XX 出现不明肺炎”相关微博评论,共29930 条。首先,对数据进行预处理,筛选掉重复评论和不包含情感词的

30、评论,去除包含表情、链接、转发标志等噪声信息;其次,对剩余 7978条评论数据进行情感词标注,标注后的数据格式如表2所示。3.2数据验证3.2.1数据显著性频繁项集是指频繁出现在数据库中情感类的集合,并且在数据库中满足最小支持度。将清洗、标注后的数据导入关联规则 Apriori算法,由于关联规则至少需要两种情感参与,因此,本文只需考虑频繁 2 项集和频繁 3 项集,在满足最小支持度和最小置信度的条件下,不同项数的频繁项集结果如表 3和表4所示。1069第 42 卷情 报 学 报3.2.2稳定概率分布构建的情感转移概率矩阵共有 8 种情感:期待、高兴、喜爱、惊讶、焦虑、悲伤、生气和讨厌,每一个情

31、感都以一定的概率转移到另一个情感。以情感类“期待”为例,假设当前初始概率分布分别为0.1,0.15,0.1,0.15,0.05,0.1,0.1,0.25 (8)0.2,0.15,0.05,0.1,0.15,0.1,0.1,0.15 (9)分别将式(8)和式(9)作为序列概率分布的初始状态t0,代入情感转移概率矩阵计算 t1,t2,t3,的状态,结果如表5和表6所示。由表 5 和表 6 可以发现,尽管采用了不同的初始概率分布,但是最终情感转移的概率分布趋于同一个稳定的概率分布,即马尔可夫链模型的情感转移矩阵收敛到稳定概率分布,与初始概率分布无关,这也证明了所得到的情感概率转移矩阵符合稳定概率分布

32、。3.3实验分析为了探究不同粒度下的情感分类是否会对舆情预测结果造成影响,分别从宏观和微观两个层面对表4频繁3项集数量频繁3项集期待,高兴,惊讶期待,高兴,悲伤期待,高兴,喜爱期待,高兴,焦虑数量23831220334频繁3项集讨厌,期待,高兴高兴,焦虑,悲伤期待,焦虑,悲伤数量119170358表2微博评论爬取数据及情感类标注结果(示例)序号1234日期2019.12.312019.12.312019.12.312019.12.31评论希望不是非典吧,太恐怖了快出结果吧人心惶惶希望是虚惊一场太可怕!希望政府做好防范积极1(希望)1(希望),4(虚惊一场)1(希望)消极6(恐怖)5(人心惶惶)

33、6(可怕)表3频繁2项集数量频繁2项集期待,高兴高兴,焦虑期待,悲伤悲伤,期待高兴,惊讶高兴,悲伤期待,焦虑高兴,生气悲伤,惊讶数量2624928870384246802896264261频繁2项集讨厌,期待期待,喜爱高兴,喜爱讨厌,高兴焦虑,悲伤喜爱,焦虑惊讶,悲伤喜爱,惊讶悲伤,高兴数量9717652427142016827614144频繁2项集喜爱,悲伤喜爱,生气讨厌,喜爱惊讶,焦虑惊讶,生气讨厌,惊讶焦虑,生气讨厌,焦虑数量1061011210101044表5情感类“期待”的转移概率分布(式(8))迭代次数127980100期待0.451236610.432749740.4388053

34、30.438805320.43880532高兴0.403665280.422264470.416129460.416129460.41612946喜爱0.025249650.022917840.022936370.022936370.02293637惊讶0.032748220.031944130.031718920.031718920.03171892焦虑0.042068870.042062940.042200930.042200930.04220093悲伤0.039615790.043039950.043209850.043209850.04320985生气0.001013210.00081

35、3730.000837320.000837320.00083732讨厌0.004402370.004207220.004161790.004161790.00416179表6情感类“期待”的转移概率分布(式(9))迭代次数125960100期待0.451236610.432749740.438805330.438805320.43880532高兴0.403665280.422264470.416129460.416129460.41612946喜爱0.025249650.022917840.022936370.022936370.02293637惊讶0.032748220.031944130.

36、031718920.031718920.03171892焦虑0.042068870.042062940.042200930.042200930.04220093悲伤0.039615790.043039950.043209850.043209850.04320985生气0.001013210.000813730.000837320.000837320.00083732讨厌0.004402370.004207220.004161790.004161790.004161791070第 9 期史伟等:基于偏差规则马尔可夫模型的网络舆情情感预测研究网络舆情事件中的情感转移概率进行预测。3.3.1宏观层面

37、在宏观层面可分为积极情感和消极情感,在模糊情感本体的基础上,将期待、高兴、喜爱和惊讶情感类标记为积极情感,将焦虑、悲伤、生气和讨厌标记为消极情感。对清洗过后的评论数据进行情感极性标注(0 表示包含消极,1 表示包含积极),设置最小支持度和最小置信度阈值为 0.01,把已标注数据和参数导入所构建的预测模型中,得到的情感状态转移矩阵如表7所示。将预测过程迭代 100 次后的结果使用蜜蜂群图表示(图 2),其中横坐标表示舆情发生后的天数,纵坐标表示情感转移的概率。图例分别表示舆情发生后第 17 天的情感转移概率预测样本,点的分布位置能充分体现转移概率数据的分布。从图 2 可以看出,随着天数的增加,积

38、极情感和消极情感的转移概率均在第 4 天趋于平稳,其中消极情感的转移概率变化幅度最大,达到 18%,而积极情感的转移概率变化幅度最大仅3%。3.3.2微观层面在微观层面根据模糊情感本体将情感分为 8 种类别:期待、高兴、喜爱、惊讶、焦虑、悲伤、生气和讨厌,分别以标号 18 表示。首先,设置最小支持度和最小置信度阈值为 0.01;其次,对处理后的评论数据进行情感标注(若评论中包含期待情感词,则标注序号 1;若评论中包含高兴情感词,则标注序号 2,以此类推);最后,将参数和已标注数据导入所构建的预测模型中。得到的情感状态转移矩阵如表8所示。下文分别研究各个情感类的转移概率。横坐标表示递进的天数,纵

39、坐标表示情感转移概率,变量以“原始情感-转移后的情感”的形式表示,即 1-2表示情感“期待”转移为情感“高兴”的概率,1-3表示情感“期待”转移为情感“喜爱”的概率,2-1表示为情感“高兴”转移为情感“期待”的概率,2-2 表示情感“高兴”不发生转移的概率,以此类推。图 3 和图 4 分别描述了情感“期待”和情感“高兴”的转移概率。图中每个时间点的情感转移表7宏观层面下的情感状态转移矩阵积极消极积极87.43%67.68%消极12.57%32.32%图2宏观层面下的情感转移概率预测结果(彩图请见https:/)1071第 42 卷情 报 学 报概率不尽相同,随着天数的增加,情感“期待”和情感“

40、高兴”相互转移的概率呈波动式下降,而情感“期待”和情感“高兴”保持不变的概率呈波动式上升,其转移概率均在 42%附近趋于稳定。除此之外,情感“期待”和情感“高兴”向其他情感转移的概率均在 10%以下,并在舆情演化前期出现小幅度变化后迅速趋于稳定。图 5 和图 6 描述了情感“喜爱”和情感“惊讶”的转移概率。在舆情演化过程中,情感“喜爱”的转移方向较明确,一方面,情感“喜爱”向情感“期待”转移的概率均保持在 43%,向情感“高兴”转移的概率从 50%降低到 42%并保持稳定;另一方面,其余情感的转移概率变化幅度均较小,并且在第 2 天后达到稳定。情感“惊讶”的转移概率变化不同于上述 3 种情感,

41、消极情感的转移概率变化程度明显优于积极情感。情感“惊讶”向情感“悲伤”的平均转移概率为 44.20%,向情感“焦虑”和情感“生气”的平均转移概率分别为 21.56%和 23.45%,向其余积极情感的转移概率均在5%以下。图 7 和图 8 描述了情感“焦虑”和情感“悲伤”的转移概率。由图 7 可知,情感“焦虑”向情感“期待”和情感“悲伤”的转移概率明显高于其他图3情感类“期待”的转移概率图4情感类“高兴”的转移概率图5情感类“喜爱”的转移概率图6情感类“惊讶”的转移概率表8微观层面下的情感状态转移矩阵期待高兴喜爱惊讶焦虑悲伤生气讨厌期待0.1912421550.6760716630.434829

42、6380.6526446550.4332745440.5000956940.673381159高兴0.6411347230.1971024860.4673012440.3144309740.3840388010.2980876550.6925925920.299552296喜爱0.0227285580.0279616050.0216333150.0196942970.0071668460.006846124惊讶0.0273511620.0239670900.0016985130.0043019160.0192344500.004632156焦虑0.0616690220.0389465210.0

43、376081900.0015746230.0940623160.0673205740.2684321120.000684522悲伤0.0492452160.0309574920.0352648460.0262025810.0689300420.1152153110.015136589生气0.0019972570.0016642540.0008452510.0000463160.007407408讨厌0.0066291640.0029958860.0092644530.0149037431072第 9 期史伟等:基于偏差规则马尔可夫模型的网络舆情情感预测研究情感,稳定时分别达到 43%和 41%

44、,而情感“焦虑”向其他情感转移的概率会在舆情爆发早期出现一定幅度的增加或减少,然后趋于稳定。由此看来,情感“焦虑”的转移方向并不确定,既有可能向积极情感转移,也有可能向消极情感转移。图 8中情感“悲伤”则有更大概率向情感“高兴”和情感“惊讶”转移,两种情感均为积极情感,其余情感的转移概率稳定时均未超过 5%,因此,情感“悲伤”在转移过程中更偏向于积极情感。图 9 和图 10 描述了情感“生气”和情感“讨厌”的转移概率。情感“生气”向情感“高兴”转移的概率在舆情前期变化较大,其余情感的转移概率变化趋势大致相同,并在第 4 天后趋于稳定,情感“讨厌”则有更大概率向情感“期待”和“高兴”发生转移。3

45、.4实验对比为了从数据上直观地反映网络舆情情感的变化,本文引入 SnowNLP 模型对舆情事件中的评论数据进行情感分析。由于 SnowNLP 模型的数据库主要应用于商品评论领域,在对网络舆情领域进行情感分析时可能出现误差,因此,本文从以下 4 个方面对SnowNLP模型的准确率进行提升:(1)对爬取的网络舆情评论数据标注情感极性,构建新冠肺炎疫情评论语料库。(2)将 SnowNLP 模型的分词库替换为 jieba 分词库。(3)结合中文停用词库、哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词列表,更新SnowNLP模型的分词库。(4)设置情感分类阈值,提高情感识别准确率。改进后的

46、SnowNLP 模型情感分类性能如图 11所示,相较于原始模型,其在网络舆情情感分类的准确率上有大幅提升,且当情感分类参数=0.55时,该模型情感分类准确率达到最优值。基于改进后的 SnowNLP 模型对 2020 年 1 月 1 日至 2020 年 1 月 7 日的“新冠肺炎疫情”事件爆发后的评论文本进行情感值计算(图 12)。其中,情感值的取值范围为0,1,取值越偏向 0,表示情感越消极;反之,表示越积极。从图 12 可以看出,舆情事件中影响情感变化的因素是多方面的,随着“XX 市场休市整治卫生”“不明原因肺炎患者转入传染病医院”等相关新闻的报道,不同话题下的网图7情感类“焦虑”的转移概率

47、图8情感类“悲伤”的转移概率图9情感类“生气”的转移概率图10情感类“讨厌”的转移概率1073第 42 卷情 报 学 报民情感倾向也随时间变化,但整体情感变化趋势仍是积极的。图 13以三维柱状图展示了此次舆情事件中网民实际情感所占比例。为了验证情感预测模型的准确性,先通过本文构建的模型得到“期待”“高兴”“喜爱”“惊讶”“焦虑”“悲伤”“生气”“讨厌”情感类的转移概率,再计算每种情感的转移概率累计之和,将其平均值、中位值和加权平均值分别作为不同的模型参数进行误差分析。以情感类“期待”(标签 1)为例,情感转移概率之和的平均值计算方法为Emo1-Average=1Ni=1N=8Pi1(n)(10

48、)根据图 13舆情事件的实际情感类别比例,设置不同情感类的权重依次为 25%、21%、17%、13%、9%、7%、5%和 3%。情感转移概率之和的加权平均值计算方法为Emo1-Weighted Average=i=1N=8(Pi1(n)weights)(11)图 14图 16 分别表示以情感转移概率之和的平均值、中位值和加权平均值作为参数的情感趋势预测结果。引入平均绝对误差(mean absolute error,MAE)和 均 方 根 误 差(root mean squared error,RMSE)来衡量不同参数下模型的预测性能。其中,MAE 表示预测值与实际值之间绝对误差的平均值,可以更

49、好地反映预测值误差的实际情况;RMSE 用于测量预测值与实际值之间的偏差,并解释样本的分散程度。两者的值越小,预测效果越好。MAE和RMSE的计算表达式分别为MAE=1Ni=1Nabs(fi-yi)(12)RMSE=1ni=1n(yi-yi)2(13)表 9 显示了 3 种实验下的预测结果。通过对比可以看出,加权平均值的总体 MAE 和 RMSE 值最小,分别为 2.7119 和 3.7254,该值在允许的误差范围内,表明以加权平均值作为参数的情感预测模型具有更好的预测精度。图11SnowNLP模型改进前后的情感分类准确率对比图12舆情发生初期网民情感值变化图13舆情爆发一周内的实际情感类别比

50、例图14情感预测结果(平均值)1074第 9 期史伟等:基于偏差规则马尔可夫模型的网络舆情情感预测研究为了验证本文提出的情感预测模型的有效性和准确性,选取以下基线方法进行对比:(1)基于回归集成的情感预测模型31:提取时间序列特征,通过 ARIMA(autoregressive integrated moving average)、神经网络和支持向量机等模型对微博情感走势进行预测。(2)基于增强神经网络的预测模型32:利用三边 平 滑 滤 波 器 进 行 数 据 预 处 理,基 于 DGLTPD(dominant gradient local ternary pattern descripto

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服