收藏 分销(赏)

基于GMM-HMM的话题生...周期状态识别及趋势预测方法_朱恒民.pdf

上传人:自信****多点 文档编号:245715 上传时间:2023-05-06 格式:PDF 页数:8 大小:421.07KB
下载 相关 举报
基于GMM-HMM的话题生...周期状态识别及趋势预测方法_朱恒民.pdf_第1页
第1页 / 共8页
基于GMM-HMM的话题生...周期状态识别及趋势预测方法_朱恒民.pdf_第2页
第2页 / 共8页
基于GMM-HMM的话题生...周期状态识别及趋势预测方法_朱恒民.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:20220715基金项目:国家自然科学基金项目“基于主路径网络的舆情传播态势预测与干预研究 以社会化媒体中舆情为对象”(项目编号:71874088);国家自然科学基金项目“基于阈值的群体事件互联网舆情传递链路预测及监控机制研究”(项目编号:71704085);江苏省研究生科研与实践创新计划项目“微博舆情话题演化趋势预测研究”(项目编号:KYCX21_0835)。作者简介:朱恒民(1974),男,教授,博士,研究方向:数据挖掘、舆情管理。蔡婷婷(1997),女,硕士研究生,研究方向:舆情传播。魏静(1982),女,教授,博士,研究方向:复杂网络、舆情传播研究。情报理论与前瞻观点基于 G

2、MMHMM 的话题生命周期状态识别及趋势预测方法朱恒民1,2蔡婷婷1魏静1(1 南京邮电大学管理学院,江苏 南京 210003;2 江苏高校哲学社会科学重点研究基地信息产业融合创新与应急管理研究中心,江苏 南京 210003)摘要:目的/意义 本研究对正处于演化过程中的话题进行状态识别及趋势预测,为相关部门了解话题现状,对话题进行有效监管提供科学依据。方法/过程 首先,考虑网民情感,结合话题的新颖度和关注度,构建话题生命周期状态观测指标;其次,基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)的原理,提出话题生命周期状态识别及趋势预测方法;最后,选用微博话题构建数据集,设计对比实验,验证方法

3、的有效性。结果/结论 基于 GMMHMM 的话题状态识别及趋势预测方法的 F1 值和准确率均高于 87%,MAPE 低于 3.5%,相较于 GaussianHMM 和 BP 神经网络具有较大优势。关键词:话题生命周期状态;话题状态识别;话题趋势预测;高斯混合隐马尔可夫模型DOI:103969/jissn10080821202303003中图分类号G202文献标识码A文章编号10080821(2023)03002607Topic Lifecycle Status Identification and TrendPrediction Method Based on GMMHMMZhu Hengmi

4、n1,2Cai Tingting1Wei Jing1(1 School of Management,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2 Jiangsu University Philosophy and Social Science Key esearch BaseInformation Industry IntegrationInnovation and Emergency Management esearch Center,Nanjing 210003,China)Abstrac

5、t:Purpose/Significance In this paper,the status identification and trend prediction of topics in theprocess of evolution are carried out,so as to provide scientific basis for relevant departments to understand the status of top-ics and effectively supervise the topic Method/Process Firstly,consideri

6、ng the emotion of netizens and combining thenovelty and attention of the topic,the observation indexes of the topic lifecycle status were constructed Secondly,based onHidden Markov Model and Gaussian Mixture Model,this paper proposed a method of topic lifecycle status identification andtrend predict

7、ion Finally,microblog topics were selected as a dataset and comparative experiments were designed to verifythe effectiveness of the method esults/Conclusion The F1 value and accuracy of topic state identification and trendprediction method based on GMMHMM are both higher than 87%,and MAPE is lower t

8、han 3.5%,which has greater ad-vantages compared with GaussianHMM and BP neural networkKey words:topic lifecycle status;topic status identification;topic trend prediction;Gaussian Mixed Hidden Mark-ov Model622023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3网络话题已成为网民发表评论、政府了解

9、民意、监管部门追踪社会热点的重要媒介。同生命体的生命周期类似,话题也有生命周期,也会经历从萌芽到衰亡的各个阶段,反映话题新兴或衰亡等演化状态。因此,识别话题的生命周期状态对于监管部门了解话题现状、掌握发展趋势、监控舆论危机具有重要意义。根据话题生命周期老化理论,话题演化可划分为萌芽、生长、成熟和衰退4 个状态1。为了识别话题生命周期的状态,一些学者提出了描述话题状态的相关指标。Braun T 等2 提出了关于技术主题生命周期的新颖度指标,判断主题是否进入了生命周期的成熟阶段;基于新颖度指标,部分学者新增了一些其他指标来综合判定话题的生命周期状态。Tu Y N 等3 基于老化理论新增发文量指标,

10、结合新颖度指标探测技术主题生命周期阶段;祝娜等4 新增被引量指标,通过自定义生命周期探测表来构建知识主题完整的生命周期演化路径;谭春辉等5 新增支持度指标,通过二维空间映射法判定主题所处的生命周期阶段,从时间与强度两个维度分析主题在各时间片所属的状态。此外,刘自强等基于Callon M 等提出的向心度和密度指标6,采用平面坐标法将科技文献主题划分为 4 个生命周期状态,以描述主题在整个生命周期的演化过程7。另有一些学者通过绘制话题演化曲线来判定话题的生命周期状态。刘东霞等8 绘制专利累计量的 S 曲线,通过曲线走势划分煤炭液化技术主题的生命周期状态;王晰巍等9 利用百度指数曲线图并结合话题事件

11、特点,将微博话题划分为 4 个生命周期状态。上述工作多是针对科技文献,通过回溯一个已经演化完成的话题生命周期过程来划分状态,未能对一个正在演化中的话题进行状态识别。其次,话题在演化过程中总是伴随着网民情绪的变化,它会影响话题传播和发展趋势10,但是上述工作并未将网民情绪纳入话题生命周期状态的判定指标。在识别当前时刻话题状态的基础上,可以进一步预测未来时刻话题状态的演化趋势。已有相关工作多是基于时间序列预测方法,分析话题热度或者强度等流行度指标的演化趋势。岳丽欣等11 采用AIMA 模型预测话题的强度变化趋势;王宁等12 运用灰色模型实现对话题热度趋势的预测;刘勘等13 采用马尔可夫链对话题热度

12、进行预测,并检验了建模方法的有效性;张和平等14 选用百度指数作为话题热度的衡量指标,采用马尔可夫链修正灰色模型的预测结果。然而,仅预测话题流行度等单一指标并不能很好地描述话题状态的演化趋势。Liu F 等15 采用隐马尔可夫模型(Hidden MarkovModel,HMM)试图预测话题状态,对多个话题分别构建 HMM 模型并建立模型库,通过人工判别待预测话题与模型库中已有话题是否相似,从而选择相应模型预测话题未来的状态,但是该方法人工干预工作量较大。此外,话题生命周期状态是循序演变的,相较于预测话题在未来时刻的状态,预测反映话题状态的观测指标趋势更有意义。HMM 作为一种概率统计模型,能考

13、虑时间序列的影响。通过观测指标数据建立概率模型,运用最大似然估计法学习模型参数,用于解决分类和预测等问题1618。Liu F 等15 在预测话题生命周期状态时,假设话题状态指标数据是由随机过程产生的随机变量,采用高斯概率密度函数拟合这些指标数据。然而,单个高斯概率密度函数无法很好地拟合实际应用中的所有变量,于是使用几个高斯概率密度函数的线性组合模拟观测变量1920,即高斯混合模型(Gaussian Mixture Model,GMM)。因此,本文采用 GMM 来拟合话题状态的多重观测指标,并结合 HMM 提出话题状态识别和趋势预测方法。综上所述,现有研究主要是通过回溯话题演化过程来划分话题生命

14、周期状态,鲜有研究引入网民情感指标来描述话题状态,且多数研究是通过预测单一指标来分析话题的演化趋势。因此,本研究对正处于演化中的话题进行状态识别,将网民情感纳入话题状态识别指标,通过预测多个话题指标来更准确地描述话题状态的发展趋势,以期为监管部门识别话题演化状态、揭示话题发展趋势、采取干预措施提供决策支持。1话题生命周期状态指标构建话题状态指标能够量化描述话题生命周期状态特征,反映话题从出现到衰亡的整个演化过程。首722023 年 3 月第 43 卷第 3 期基于 GMMHMM 的话题生命周期状态识别及趋势预测方法wwwxdqbnetMar,2023Vol.43No.3先基于 Gompertz

15、 曲线来划分话题的生命周期状态,然后构建新颖度、关注度和情感度这 3 个话题状态指标,分析指标与演化过程的相关性。1.1话题生命周期状态划分本文基于 Gompertz 曲线将话题生命周期划分为萌芽、生长、成熟和衰退 4 个状态。Gompertz 曲线所描述现象的特点是:初期增长缓慢,之后逐渐加快,当达到一定程度后,增长率又逐渐下降,最后接近一条水平线。它通常用于描述事物的发展由萌芽、成长到饱和的周期过程。考虑到网络话题的传播过程与其较为一致,本文基于 Gompertz 曲线模型2122 对话题的生命周期发展阶段进行模拟,通过微积分计算,确定曲线的 3 个分界点,然后据此划分话题生命周期的 4

16、个状态阶段。百度指数能够统计并展示话题在生命周期内的用户关注度数据,它是以话题关键词为统计对象,以海量网民在某一时间段的百度搜索量为数据基础,并综合网民的阅读、评论、转发、点赞等行为的数据量,进行加权求和、指数化处理后得出,较为全面地衡量了用户对话题的关注程度。百度指数累计量是一个随时间连续变化的过程,本文对百度指数累计量进行 Gompertz 曲线拟合。首先,假设话题百度指数累计量 y 是时间 t 的函数,其饱和值为 K,增长系数为,初始值为y0。用于描述百度指数累计量增长的微分方程为:dydt=ylnyK(1)求解微分方程得:y=Ky0K()et(2)当 y0K 时,式(2)可表示为:y=

17、Kabt(3)其中,a=y0K,b=e,并且 0a1,0b1。称式(3)为 Gompertz 曲线的标准方程23。为了求解参数 K、a、b,可以对标准方程进行变化,对方程两边取对数可得:ln lnKy()=ln(lna)+tlnb(4)令 Y=ln lnKy(),则式(4)为关于时间 t 的一元线性方程,应用 Excel 软件进行一元线性回归分析,即可得出方程的系数 lnb 和 ln(lna)。当 K 取不同值的时候,有不同的可决系数 2。根据可决系数选取拟合度较高的一元线性方程式,进而求出参数 a、b 的值,得到话题生命周期发展阶段的曲线函数式。对其求二阶导数和三阶导数,结果如下:令 y=0

18、,得:t0=ln(lna)lnb(5)令 y=0,得:t1=ln(3+5)ln(2lna)lnb(6)t2=ln(35)ln(2lna)lnb(7)其中,t1t0t2,2t0=t1+t2。称 t1、t0、t2为Gompertz 曲线的特征点,即划分话题生命周期状态阶段的分界点。如图 1 所示,话题在(0,t1)时期处于萌芽状态,(t1,t0)处于生长状态,(t0,t2)处于成熟状态,(t2,)处于衰退状态。图 1Gompertz 曲线描述的话题生命周期状态阶段1.2话题生命周期状态指标计量1)新颖度指标:新颖度是指话题的新鲜程度。一个话题开始出现后,随着时间的推移,话题的发文数量逐渐增加,新颖

19、度逐渐降低,话题逐渐成熟。将话题出现的第一个时刻(以小时为单位)822023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3作为话题的开始时刻(First Hour,FH),一个话题在 t 时刻的新颖度指标(Novelty Index,NI)的计量公式如式(8)所示。NIt=1tFH+1(8)2)关注度指标:关注度是指话题受网民关注的程度,其与话题的发文量有关,发文量越多,话题越受关注。因此,一个话题 T 的关注度可用该话题在 k 时刻内的发文量 d(Tk)来表示。在话题演化的各个生命周期阶段,其关注

20、度是有差异的。在萌芽阶段,话题逐渐受到关注;在生长阶段,关注度持续增加;到成熟阶段,关注度维持在一个较高水平;当话题进入衰退阶段,其关注度随之降低。因此,话题的关注度是衡量话题状态的重要指标。3)情感度指标:话题信息蕴含着网民的情绪,情绪越强烈,话题越容易激发网民的热烈讨论。因此,话题的情感度反映了话题蕴含的能量,是衡量话题状态的又一个重要指标。本文选择百度情感分析 API 对 k 时刻内的话题博文计算情感值,结果得到博文情感倾向的积极概率 P+k和消极概率 Pk。将积极和消极两种情感极性分别表示为 1 和1,将积极和消极两种情感的概率与相应的情感极性相乘求和,其绝对值作为话题k 时刻内的情感

21、强度,表示为 P+k1+Pk(1)。1.3话题指标与演化过程的相关性分析参照话题在生命周期内的百度指数曲线,通过绘制该话题在相同时间窗口内的关注度和情感度变化曲线,来分析指标与话题演化过程的相关性。以“专家称已找到马航 MH370”话题为例,分析结果如图 2 所示。通过验证相关性,发现话题的关注度和情感度指标与百度指数的相关系数均超过 0.9,说明关注度和情感度指标可以用来描述话题的演化过程。此外,话题从出现到衰亡的演化过程也是话题新颖度逐渐降低的过程,因此新颖度被众多学者纳入话题状态指标。图 2话题在 2021 年 11 月 30 日12 月 10 日的各指标曲线与百度指数曲线对比图2话题生

22、命周期状态识别及趋势预测方法框架话题从萌芽走向衰退的过程可以看作是循序渐进的状态转移过程,这些内部隐藏状态的变化无法用肉眼直接观测到,但可以通过外部观测指标来确定内部状态的转移。随着时间推移,话题内部状态变化是一种随机过程,话题外部观测变量在不同状态下的结果也具有随机性。这种由外部观测变量反映内部状态变化的过程是一种双重随机过程,与HMM 建模过程一致。GMMHMM 允许隐藏状态以多高斯分布产生观测值,相比单个高斯分布,其更能合理地表达观测值与隐藏状态之间复杂的关联关系。因此,本文基于 GMMHMM 提出话题生命周期状态识别和趋势预测方法。2.1GMMHMM 模型构建GMMHMM 是一个双重随

23、机过程。其中,一个随机过程描述隐藏状态之间的概率转移关系,另一个随机过程描述隐藏状态与观测变量的映射关系。模型参数描述如下:1)q:话题的隐藏状态。话题状态有萌芽状态、生长状态、成熟状态和衰退状态,分别用 1、2、3、4 表示。话题在 t 时刻的状态表示为 qt。2)o:话题的观测变量。考虑到话题在小时内的关注度和情感度指标值波动量过大,因此将关注度和情感度的累计值作为话题在 t 时刻的指标值,并结合新颖度构成三维观测变量。话题在 t 时922023 年 3 月第 43 卷第 3 期基于 GMMHMM 的话题生命周期状态识别及趋势预测方法wwwxdqbnetMar,2023Vol.43No.3

24、刻的观测变量表示为 ot,ot=(NIt,AIt,SIt)。其中AIt表示话题在 t 小时内的发文量累计值,即 AIt=tk=1d(Tk),SIt表示话题在 t 小时内的情感强度累计值,即 SIt=tk=1P+k1+Pk(1)。话题在一段时间内的观测变量组成的观测序列为 O。3):话题的初始状态概率分布。=i,i=P(qt=i),1i4。其中,i为出现状态 i 的概率,满足Ni=1i=1。由于话题在初始时刻的状态为萌芽状态,故=1,0,0,0。4)A:话题的初始状态转移概率矩阵。A=aij,aij=P(qt+1=j|qt=i),1i,j4。其中,aij为话题状态从 i 转移到 j 的概率,满足

25、Nj=1aij=1。由于话题的生命周期状态转移是从萌芽到衰退循序变化的,可设:A=0.50.50000.50.50000.50.500015)B:话题各状态输出的多维混合高斯概率密度函数。B=bi(ot),bi(ot)=Mm=1wim(ot,uim,im),ot=(NIt,AIt,SIt),1i4。式中,M 表示每个话题状态包含的混合高斯数,通常设置为 3;wim表示状态 i 的第 m 个高斯分布的权值;(ot,uim,im)表示话题状态 i 的第 m 个高斯分布函数,其公式如式(9)所示,uim和 im分别是其均值向量和协方差矩阵,D 为观测变量的维度,本文取 D=3。(ot,uim,im)

26、=1(2)Dimexp 12(otuim)T1im(otuim)()(9)根据上述参数意义,一个 GMMHMM 模型可以表示为一个五元组=(,A,wim,uim,im)。2.2模型训练通过 Gompertz 曲线划分训练话题的各个生命周期状态后,对各话题状态构建并训练 GMM HMM 模型。假设有 L 个训练话题,依次提取 L 个话题在萌芽期、生长期、成熟期和衰退期这 4 个状态下的多观测序列,表示为 Si=O(1)i,O(2)i,O(k)i,O(L)i,i 1,2,3,4。其中,O(k)i为第 K个训练话题在状态 i 下的观测序列。一段观测序列由 1 T 时刻的多个观测变量构成,O(k)可表

27、示为O(k)=o(k)1,o(k)2,o(k)T。将 4 个话题状态下的多观测序列作为训练集,基于多观测序列训练算法2425 依次训练各话题状态模型,得到 4 个话题状态的模型库,表示为 GMMHMM1,GMMHMM2,GMMHMM3,GMMHMM4,对应模型参数集为 1,2,3,4。2.3话题状态识别话题状态识别是根据正处于演化过程中的话题前几个时刻的观测序列,判断出话题当前时刻所处的生命周期状态,便于了解话题现状,分析话题演化过程。将话题在一段连续时间内的观测序列 O输入模型库,分别计算模型库中 4 个状态模型产生 O的概率 P(O|i),概率值最大的模型即为最优模型,其对应的话题状态即为

28、话题当前所处的状态,判断公式如式(10)所示。i*=arg maxiP(O|i),i 1,2,3,4(10)2.4话题状态趋势预测话题状态趋势预测是基于话题当前时刻的状态识别结果,预测话题关注度和情感度等状态指标在未来时刻的变化趋势,便于监管部门适时进行话题引导和网民情绪疏导。话题状态趋势预测可获取话题在未来时刻的关注度和情感度的累计值,通过计算未来时刻与当前时刻的累计值之差,可得到话题状态指标在未来时刻的变化量,进而反映出话题的演化趋势。通过话题状态识别方法,得到最优模型。基于该模型的最优参数 和当前时刻的话题状态 i,运用式(11)可预测出话题在未来时刻所对应的三维观测变量值,即 ot+1

29、=(NIt+1,AIt+1,SIt+1)。式中,E(bj(ot)表示话题状态 j 的混合高斯分布函数的期望值。ot+1=Nj=1aijE(bj(ot)(11)032023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.33实验与结果分析3.1数据采集与处理本文利用 Python 爬取新浪微博 6 个话题从出现到衰退完整生命周期内普通用户发表的原创微博,话题分别为:“郑州地铁 5 号线事件”(话题1)、“鸿星尔克捐款”(话题 2)、“鹿道森发遗书后失联”(话题 3)、“专家称发现马航 MH370”(话题

30、4)、“淘宝双十二”(话题 5)和“西安考研”(话题 6),获得数据共22 127条。由于微博话题传播速度快且易发酵,话题演化周期短,本文按小时(h)划分时间片统计并处理话题数据,以便更快速地捕捉话题状态的演变。6 个话题的完整生命周期时间跨度分别为 120h、200h、120h、122h、490h、250h。基于 Gompertz 曲线将这6 个话题分别划分为萌芽、生长、成熟和衰退 4 个状态阶段,各话题生命周期状态的划分时段如表 1所示。基于状态指标公式分别计算出每个话题在各个时间片的指标值,并作归一化处理。由于关注度和情感度的取值范围较大,故先利用小数定标法规范化指标,再利用 Logis

31、tic 函数将指标归一化到(0,1)之间。各话题在每个时刻下的三维指标值构成一组观测变量,另外加上每个话题在初始时刻的观测变量,得到 6 个话题下共1 308组观测数据。表 16 个微博话题生命周期状态的时间跨度话题名称萌芽状态时段生长状态时段成熟状态时段衰退状态时段话题 1026h2747h4867h68120h话题 2035h3658h5980h81200h话题 3039h4059h6079h80120h话题 4018h1940h4162h63122h话题 5050h51131h132211h212490h话题 6057h58120h121182h183250h3.2话题状态识别结果分析实

32、验采取类似交叉验证的方法对话题状态识别进行效果评估。在每一次验证中,都取 6 个话题中的 5 个话题数据作为训练集,训练各状态模型得到模型库。取剩下的一个话题数据作为测试集,依次将该测试话题在连续 5 个时刻下的观测变量作为一条观测序列,输入训练好的模型库,通过识别方法得到当前时刻的话题状态。例如,将话题 15 的数据作为训练集,话题 6 的数据作为测试集,从初始时刻开始,将连续 5 个时刻的观测序列输入模型库,得到话题在当前时刻所处的状态。识别结果的混淆矩阵如表 2 所示。表 2话题 6 状态识别的混淆矩阵实际话题状态识别出的话题状态萌芽状态生长状态成熟状态衰退状态萌芽状态421200生长状

33、态134802成熟状态01610衰退状态00365实验采取精准率(Precision)、召回率(ecall)、F1 值和准确率(Accuracy,Acc)这 4 个指标衡量话题状态的识别效果。由于本次实验数据来自于不同的微博话题,每个话题的生命周期长短不一,话题状态类别不均衡。为了使评价指标更具有说服力,本文对不同话题的评价指标计算加权平均值,如式(12)所示。其中,P 代表精准率,代表召回率,num(topick)和 num(all)分别表示第 k 个话题的测试组数和 6 个话题的观测数据总数,Pk、k、F1k、Acck分别表示第 k 个话题识别的精准率、召回率、F1 值和准确率。Pweig

34、ht_avg=m=6k=1num(topick)num(all)Pkweight_avg=m=6k=1num(topick)num(all)kF1weight_avg=m=6k=1num(topick)num(all)F1kAccweight_avg=m=6k=1num(topick)num(all)Acck(12)实验采用 GaussianHMM 模型、BP 神经网络模型进行对比,话题在不同模型下的状态识别结果如表 3 所示。从中可以看出,基于 GMMHMM 的话题状态识别精准率、召回率、F1 值和准确率均高于 87%,相较于 GaussianHMM 和 BP 神经网络具有132023 年

35、3 月第 43 卷第 3 期基于 GMMHMM 的话题生命周期状态识别及趋势预测方法wwwxdqbnetMar,2023Vol.43No.3较大优势。这也说明多个高斯分布函数拟合话题状态下的观测变量是合适的。表 3不同模型的话题状态识别效果对比模型精准率(%)召回率(%)F1 值(%)准确率(%)GMMHMM88.3087.0987.5589.37GaussianHMM82.9864.6572.2572.56BP 神经网络78.8568.3567.3268.503.3话题状态趋势预测结果分析实验采用平均绝对误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean A

36、bsolute Per-centage Error,MAPE)作为话题状态趋势预测精度的评价指标,误差值越小表示模型的预测效果越好。其计算公式分别如式(13)、式(14)所示,其中,n 为预测组数,t+1为 t+1 时刻的实际值,Pt+1为 t+1 时刻的预测值。MAE=1nnk=1t+1Pt+1(13)MAPE=1nnk=1t+1Pt+1t+1100%(14)实验采用 GaussianHMM 模型、BP 神经网络模型进行对比,话题在不同模型下的状态趋势预测结果如表 4 所示。从中可以看出,基于 GMMHMM的话题关注度和情感度的 MAE 值均低于 0.03,MAPE 值均低于 3.50%。可

37、见,该方法对话题状态趋势的预测效果优于 GaussianHMM 和 BP 神经网络方法。表 4不同模型的话题状态趋势预测效果对比模型关注度MAE情感度MAE关注度MAPE(%)情感度MAPE(%)GMMHMM0.01920.02352.663.31GaussianHMM0.02350.02713.584.06BP 神经网络0.03060.02793.803.834结束语识别演化过程中的话题状态,预测话题发展趋势,能够及时跟踪话题发展动态,尽早采取干预措施,对于舆情监管部门具有重要意义。为了实现此目标,本文提出话题状态识别与趋势预测方法,将网民情感纳入话题状态观测指标中,基于 GMMHMM 构建

38、各话题生命周期状态模型库。通过实验对比,验证了该方法比 GaussianHMM 和 BP 神经网络识别效果更好,预测误差更小。本研究仅考虑到传播速度较快、生命周期历时较短的微博话题,在未来的研究中还需扩充网络舆情的数据集,提高基于 GMMHMM 的话题生命周期状态识别及趋势预测方法的普适性。参考文献 1 Chien C C,YaoTsung C,Meng C C An Aging Theory for EventLifeCycle Modeling J IEEE Transactions on Systems,Man,and CyberneticsPart A:Systems and Huma

39、ns,2007,37(2):237248 2 Braun T,Schubert A P,Kostoff N Growth and Trends ofFullerene esearch as eflected in Its Journal Literature J Chemical eviews,2000,100(1):2338 3 Tu Y N,Seng J L Indices of Novelty for Emerging Topic DetectionJ Information Processing Management,2012,48(2):303325 4 祝娜,王芳 基于主题关联的知

40、识演化路径识别研究 以 3D打印领域为例 J 图书情报工作,2016,60(5):101109 5 谭春辉,熊梦媛 基于 LDA 模型的国内外数据挖掘研究热点主题演化对比分析 J 情报科学,2021,39(4):174185 6 Callon M,Courtial J P,Laville F Coword Analysis as a Tool forDescribing the Network of Interactions Between Basic and Techno-logical esearch:The Case of Polymer Chemistry J Sciento-metr

41、ics,1991,22(1):155205 7 刘自强,王效岳,白如江 多维主题演化分析模型构建与实证研究 J 情报理论与实践,2017,40(3):9298 8 刘东霞,陈红 煤炭液化技术研发趋势、生命周期、前沿技术与影响因素 基于专利的视角 J 情报杂志,2017,36(7):5258 9 王晰巍,李玥琪,刘婷艳,等 新冠肺炎疫情微博用户情感与主题挖掘的协同模型研究 J 情报学报,2021,40(3):223233 10 魏静,丁乐蓉,朱恒民,等 基于情感和亲密度的社交网络舆情传播模型研究 J 情报科学,2021,39(4):3746 11 岳丽欣,刘自强,胡正银 面向趋势预测的热点主题演

42、化分析方法研究 J 数据分析与知识发现,2020,4(6):2234 12 王宁,赵胜洋,单晓红 基于灰色系统理论的网络舆情预测与分级方法研究 J 情报理论与实践,2019,42(2):120126(下转第 41 页)232023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3 29 史雯 嬗变与形塑:新时期青少年网络阅读研究 M 北京:中国广播影视出版社,2016:109110 30 陆卓涛,张雨强 PCAP 阅读素养评估框架及启示 J 全球教育展望,2022,51(2):108118 31 中国新

43、闻出版研究院,全国国民阅读调查课题组 全国国民阅读调查报告 2017 M 北京:中国书籍出版社,2018 32 艾瑞咨询 2020 年中国数字阅读产品营销洞察报告 2020 33 胡立如,丁静静,马颖峰,等 时间限制对沉浸体验的影响机制 基于教育游戏情境的实证研究 J 开放教育研究,2016,22(2):113120 34 Council of Ministers of Education Canada PCAP 2019 Public e-port EB/OL https:/wwwcmecca/Publications/Lists/Publica-tions/Attachments/426/

44、PCAP2019PubliceportENpdf,20220115 35 Foasberg N M Student eading Practices in Print and ElectronicMedia J College esearch Libraries,2014,75(5):705723 36 Farinosi M,Lim C,oll J Book or Screen,Pen or Keyboard?A Crosscultural Sociological Analysis of Writing and eading Hab-its Basing on Germany,Italy a

45、nd the UK J Telematics and In-formatics,2016,33(2):410421 37 周宪 从“沉浸式”到“浏览式”阅读的转向 J 中国社会科学,2016,(11):143163,208 38 王子舟,周亚,巫倩,等“浅阅读”争辩的文化内涵是什么 J 图书情报知识,2013,(5):1521 39 夏国富 沉浸式互动体验传播在数字阅读产品中的应用探索研究 J 传媒,2017,(5):8890 40 朱永新 信息时代的数字化阅读 2021 新教育年度主报告(节选)EB/OL https:/wwwthepapercn/newsDetail_forward_150

46、65060,20211025 41 程焕文 中国迈向数字文明社会 提升全民数字素养与技能行动纲要的时代价值与图书馆的时代使命 J 图书馆论坛,2021,41(12):25 42 National Council of Teachers of English NCTE Framework for21st Century Curriculum and Assessment EB/OL https:/cdnncteorg/nctefiles/resources/positions/framework _ 21stcent _ curr _assessmentpdf,201302 43 许晓霞 多元化

47、的阅读促进策略:理论、实施和效果分析 以苏州图书馆为例 J 图书情报工作,2010,54(19):7477,27 44 赵双 多学科视野的儿童阅读研究 J 图书馆杂志,2015,34(4):3540(责任编辑:王维)(上接第 32 页)13 刘勘,李晶,刘萍 基于马尔可夫链的舆情热度趋势分析J 计算机工程与应用,2011,47(36):170173 14 张和平,陈齐海 基于灰色马尔可夫模型的网络舆情预测研究 J 情报科学,2018,36(1):757915 Liu F,Guo W B HMMbased State Prediction for Internet HotTopic C/Proc

48、eedings of 2011 IEEE International Conference onComputer Science and Automation Engineering IEEE,Shanghai,China,2011,240244 16 Gales M J F Maximum Likelihood Linear Transformations forHMM based Speech ecognition J Computer Speech Lan-guage,1998,12(2):7598 17 Ferreira C A,Gama J,Costa V S,et al Predi

49、cting amp E-vents with a Streambased HMM Framework C/InternationalConference on Discovery Science Springer,Berlin,Heidelberg,2012,224238 18 Galagedarage D M,Khan F Process Fault Prognosis Using HiddenMarkov Modelbayesian Networks Hybrid Model J Industrial Engineering Chemistry esearch,2019,58(27):12

50、04112053 19 Mouret F,Albughdadi M,Duthoit S,et al econstruction ofSentinel2 Derived Time Series Using obust Gaussian Mixture Mod-elsApplication to the Detection of Anomalous Crop DevelopmentJ Computers and Electronics in Agriculture,2022,198:106983 20 刘华茜,郑秀娟,王艳,等 人类视觉行为的混合高斯隐马尔可夫模型 J 生物医学工程学杂志,2021

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服