面向热点新闻事件的层次化故事脉络生成方法.pdf

资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2376-2381ISSN 10019081CODEN JYIIDUhttp：/面向热点新闻事件的层次化故事脉络生成方法刘东1，2，林川1，2*，任丽娜1，2，黄瑞章1，2（1.公共大数据国家重点实验室（贵州大学），贵阳 550025；2.贵州大学计算机科学与技术学院，贵阳 550025）（通信作者电子邮箱）摘要：热点新闻事件的发展十分丰富，各个阶段的发展都有其独特的叙述，并且随着事件的发展呈现出层次化故事脉络演化的趋势。针对现有故事脉络生成方法存在脉络可解释性不佳以及缺乏层

2、次性的问题，提出一种面向热点新闻事件的层次化故事脉络生成方法（HSGM）。首先，采用改进热词算法来挑选主干种子事件，以构建主干脉络；其次，挑选分支事件热词以增强分支可解释性；然后，在分支脉络中采用融合热词关联度与动态时间惩罚的脉络连贯度挑选策略来增强父子事件的连接，以构建层次化热词，进而构建多层次故事脉络；此外，考虑到热点新闻事件存在潜伏期，在脉络构建过程加入孵化池以解决因热度不够所产生的初始事件被忽略问题。在两个自建真实数据集上进行实验的结果表明，在事件追踪过程中，与分别基于singlePass和基于k-means的方法相比，HSGM的F值分别高出了4.51%、6.41%和20.71%、13

3、.01%；而在脉络构建过程中，与Story Forest和Story Graph相比，HSGM在两个自建数据集上的准确性、可理解性、完整性方面表现良好。关键词：故事脉络；热点新闻事件；故事树；事件演化；聚类中图分类号：TP391.1 文献标志码：AHierarchical storyline generation method for hot news eventsLIU Dong1，2，LIN Chuan1，2*，REN Lina1，2，HUANG Ruizhang1，2（1.State Key Laboratory of Public Big Data（Guizhou University

4、），Guiyang Guizhou 550025，China；2.College of Computer Science and Technology，Guizhou University，Guiyang Guizhou 550025，China）Abstract:The development of hot news events is very rich，and each stage of the development has its own unique narrative.With the development of events，a trend of hierarchical s

5、toryline evolution is presented.Aiming at the problem of poor interpretability and insufficient hierarchy of storyline in the existing storyline generation methods，a Hierarchical Storyline Generation Method（HSGM）for hot news events was proposed.First，an improved hotword algorithm was used to select

6、the main seed events to construct the trunk.Second，the hotwords of branch events were selected to enhance the branch interpretability.Third，in the branch，a storyline coherence selection strategy fusing hotword relevance and dynamic time penalty was used to enhance the connection of parent-child even

7、ts，so as to build hierarchical hotwords，and then a multi-level storyline was built.In addition，considering the incubation period of hot news events，a hatchery was added during the storyline construction process to solve the problem of neglecting the initial events due to insufficient hotness.Experim

8、ental results on two real self-constructed datasets show that in the event tracking process，compared with the methods based on singlePass and k-means respectively，HSGM has the F score increased by 4.51%and 6.41%，20.71%and 13.01%respectively；in the storyline construction process，HSGM performs well in

9、 accuracy，comprehensibility and integrity on two self-constructed datasets compared with Story Forest and Story Graph.Key words:storyline;hot news event;story tree;event evolution;clustering0 引言热点新闻事件在网络媒体平台上往往呈现重复交杂、爆炸式增长的态势，使得用户难以高效获取热点事件的前因后果。话题检测与追踪（Topic Detection and Tracking，TDT）1-2虽然能对新闻文本数

10、据进行话题的自动识别和持续追踪，但是无法用一定的结构来展现事件间演变关系，即对事件发展情况进行梳理。由此，故事脉络生成（Storyline Generation，SG）3-4任务得以展开。SG旨在从碎片化的新闻中整理出热点新闻事件发展的来龙去脉，并组织成用户易于理解的结构，从而使用户高效地获取信息。现有的故事脉络生成方法主要分为三类4：基于关联性分析的故事脉络构建方法、基于特征建模的故事脉络构建方法和基于传播模型的故事脉络构建方法。基于关联性分析的故事脉络生成方法主要围绕事件间相似度进行关联，根据时间关系将事件联系起来进而构建脉文章编号：1001-9081（2023）08-2376-06DOI

11、：10.11772/j.issn.1001-9081.2022091377收稿日期：20220906；修回日期：20221026；录用日期：20221028。基金项目：国家自然科学基金资助项目（62066007）。作者简介：刘东（1997），男，四川成都人，硕士研究生，CCF会员，主要研究方向：自然语言处理、文本挖掘；林川（1975），男，四川自贡人，副教授，硕士，主要研究方向：文本挖掘、机器学习、大数据管理与应用；任丽娜（1987），女，辽宁阜新人，讲师，博士研究生，CCF会员，主要研究方向：自然语言处理、文本挖掘、机器学习；黄瑞章（1979），女，天津人，教授，博士，主要研究方向：自然语言

12、理解、数据融合分析、文本挖掘、知识发现。第 8 期刘东等：面向热点新闻事件的层次化故事脉络生成方法络。付佳兵等5将脉络构建视为词覆盖问题，利用逻辑连贯性查找脉络分支；Liu等6-7提出的故事森林（Story Forest）是一套基于图的两层文档聚类的在线方案；Ansah等8提出了融合用户网络社区、时间接近度和事件语义的惩罚指标结构Story Graph；Goyal等9提出的Mythos先用增量聚类获取小规模事件，再用层次聚类生成大事件以构建脉络。基于特征建模的故事脉络生成方法主要围绕主题分布进行，根据事件分布的相似性进行事件间关系结构推断。Zhou 等10提出了基于神经网络的

13、方法 NSEM（Neural Storyline Extraction Model），它基于两个假设，即同一文档标题和主体故事线分布的相似性，以及相似文档在不同时间段的故事线分布的相似性；佘玉轩等11基于贝叶斯网络，将人物、地点等因素的联合概率分布结合新闻时效性以识别事件及脉络；Guo 等12提出动态故事脉络抽取模型（Dynamic Dependency Storyline Extraction Model，D2SEM），动态更新同一主题内不同时间段的事件依赖关系；赵天资等13通过动态滑动窗口改进主题模型抽取主题，并用 JS（Jensen-Shannon）散度

14、度量主题与事件的关联。基于传播模型的故事脉络生成方法主要将事件语义和时间特征建模为图进行分析。李莹莹等14基于弱联通分量和最大生成树构造事件的有向无环图以获取故事；Dehghani等15提出了基于语义图的故事脉络生成（Semantic Graph-based Storyline Generation，SGSG）框架，将识别的事件根据时间及语义相关性建模为社区来捕捉它们之间的关系；Sun等16通过构造多视角图的方式生成摘要和故事脉络，即检测完事件后，在对应事件的无向图中寻找支配集生成摘要，并在有向图中利用斯坦纳树算法将摘要连接生成故事脉络；樊笑冰等17利用多维语义计算事件间联系，以命名实体为导向

15、将脉络分支问题转换为最大生成树求解问题。尽管这些方法在故事脉络生成领域已经取得较好的效果，但多围绕时间线或单分支脉络的形式开展，相较于多分支层次化的故事脉络，难以表现真实世界热点新闻事件的丰富情节；此外，现有方法虽能呈现故事的主要发展，但是脉络中无“支撑骨架”，即无“核心词”定位事件发展的关键节点，大幅降低了脉络的可解释性。为解决以上问题，本文提出一种层次化故事脉络生成方法（Hierarchical Storyline Generation Method，HSGM）。层次化故事脉络包含主干脉络和分支脉络，主干脉络代表着事件的重要阶段变化，分支脉络即由主干脉络上的种子事件演化发生，包含多个子分支

16、的子脉络。HSGM首先通过改进热词算法挑选出种子事件；其次从主干脉络关联的事件中提取分支热词，分支热词将作用于分支脉络构建；然后采用融合热词关联度和动态时间惩罚的脉络连贯度挑选策略构建层次化脉络；对于缺乏热度的事件，放置孵化池以待构建；最后将主干与分支脉络拼接构建完整故事脉络。本文的主要工作有以下3个方面：1）提出了一种改进热词算法，能改善热词更新缓慢对追踪效果的影响，应用于主干和分支脉络的热词能改善脉络可解释性差的问题。2）提出了一种融合热词关联度与动态时间惩罚的脉络连贯度挑选策略以生成层次化故事脉络，并加入孵化池孵化隐含热点事件。3）在多个真实数据集上评价本文提出的故事脉络生成方法，从事件

17、追踪和脉络构建多方面表明该方法表现良好。1 HSGM整体框架本文提出的 HSGM 整体框架如图 1所示，包含 3个主要部分：事件追踪、事件提取和故事脉络构建。本文主要从事件追踪和故事脉络构建两部分对HSGM进行详细介绍。1.1术语定义为便于算法的理解，在此进行术语定义。定义1 热词（Hotword）。新闻中频率变化较大并能体现事件特点的词，即核心关键词，代表着事件的新发展16，18。热词由h表示，热词集合H=h1，h2，h|H|。定义 2 新闻文档（Document），即新闻报道，由元组d=，K表示，其中：表示文档标题，表示发布时间，表示文档内容，k 表示关键词，K表示文档关键词集合，K=k

18、1，k2，k|K|。文档集合D=d1，d2，d|D|。定义3 事件（Event）。一组报道同一个特定事情的新闻文档的集合，由元组e=，s，f，W，H，其中：表示事件名，s表示事件开始时间，f表示事件结束时间，W表示事件关键词集合，W=k1，k2，k|W|。事件集合E=e1，e2，e|E|。定义4 主干脉络（Trunk）。由种子事件t(t E)的时序集合连接构成，T=(GET，HT，UT)，其中GET表示主干脉络上的种子事件集合，HT表示主干热词，UT表示对应的时序有向边集合。如T对应如图 2 中脉络：t1 t2 t3 t4 t5 t6 t7。定义5 分支脉络（Branch）。由种子事

19、件ti引出的相关事件集合构成，B=(GEB，HB，UB)，其中：GEB表示分支脉络的事件集合，HB表示分支脉络事件的热词，UB表示对应的时序有向边集合。如B4对应图 2 中t4的后续，即：b1：t4 e2 e3 e5，b2：t4 e2 e4。定义 6 故事脉络（Storyline）。现实世界中热点新闻事件的发展情况，即主干脉络与分支脉络的合并整体S=(GES，US)。故事脉络S满足式（1）和式（2）：GES=GET GEB 且 GET GEB=GET（1）US=GES GES(GET GEB)（2）显然，由以上的定义形成一个4层结构的故事脉络，即热词事件脉络故事。如图 2（以“特斯拉维权事件”

20、为例），随着“维权”“刑拘”“致歉”等主干热词的变换，反映出热点新闻主要发展阶段的变化，而由主干脉络延伸出的分支脉络则能体现该阶段的后续发展。图1HSGM的整体框架Fig.1Overall framework of HSGM2377第 43 卷计算机应用1.2事件追踪在事件追踪部分，旨在利用每批次新闻D的主题词进行相关新闻筛选。为减小随时间发展而出现的事件重心漂移现象19，文献 18 中提出了融合热度分数的事件追踪算法。在此基础上，本文提出一种融合改进热词算法R、关键词 TF-IWF（Term Frequency-Inverse Word Frequency，TF）20及动态关键词衰减指数的反

21、馈更新方法对主题词（初始为给定事件相关词）更新，进而筛选相关新闻。反馈更新公式如下：(K)=(R，TF，)（3）热点新闻的阶段性变化往往体现在核心词的转移上，改进热词算法旨在筛选出每批次新闻的主干热词，相较于文献 18，能改善热词更新缓慢对追踪效果的影响，如式（4），它的展开式如式（5）（9）：R=g n+g n +(g-g)n+n（4）f=c(ki，tj)（5）n=c(ki，t1，t2，tj)（6）g=c(ki，tj)c(ki，t1，t2，tj)（7）g =1Ki=1Kg(ki，tj)（8）n =1Ki=1Kc(ki，t1，t2，tj)（9）其中：f为关键词ki在时间窗口tj的词频，n为关键

22、词ki在所有时间窗口的词频，g为关键词ki在时间窗口tj的词频梯度，g 为在时间窗口tj的所有词频的平均词频梯度，n 为全部时间窗口上所有词的平均词频，R为关键词ki在时间窗口tj的热度分数。TF在同类语料库中能够更好反映特征词的重要程度和分布情况，避免一些同类文本关键词被掩盖的情况。动态关键词衰减指数公式如下：(K)=0.9，k in H0.8，其他（10）1.3事件提取将上节筛选的新闻集合D=d1，d2，d|D|通过加权流式聚类进行事件提取18。将聚类后得到的类簇=D1，D2，D|进行事件表示，对于事件e=，s，f，W，H，其中：=THFS()i1，i2，i

23、|Di（11）s=min()i1，i2，i|Di（12）f=max()i1，i2，i|Di（13）W=K；K Di（14）H=（15）事件标题由基于标题高频切分的新闻热点短语提取方法（Title High Frequency Segmentation，THFS）21确定，事件开始时间由类Di中最早发布时间表示，结束时间由Di中最晚发布时间表示，事件关键词为候选词和Di关键词集合的交集，此时事件热词初始化为空，等待事件进入脉络时再进行热词的挑选与更新。1.4脉络构建本节主要将提取的事件构建层次化故事脉络。先确定主干脉络，再构建分支脉络。不满足构建条件的事件将进入孵化池等待二次匹配。1.4.1主干

24、脉络主干脉络构建算法如算法1所示。算法1 主干脉络构建算法。输入新事件e E，当前主干热词HT，已存在主干热词HTO，话题关联阈值t；输出主干脉络T。1）初始化故事树S2）计算e与已有种子的相关性Trel(e，t)3）计算H=HTHTO4）if max(Trel)t then5）e选择对应的分支脉络B6）else7）if H不为空 then8）将e设为新种子，更新T9）else10）e进入孵化池11）输出主干脉络T初始化故事树S（行1），计算新事件与已有主干种子的相关性（行2），如式（16）所示：图2“特斯拉维权事件”层次化故事脉络Fig.2Hierarchical storyline o

25、f Tesla Rights Defense case2378第 8 期刘东等：面向热点新闻事件的层次化故事脉络生成方法Trel(e，t)=(Wsim+(1-)Wtfsim)P（16）其中：为权重系数，Wsim表示事件关键词相似度，Wtfsim表示事件词频相似度。时间惩罚P如式（17）所示：P(e，t)=e-|e-t（17）其中：为时间影响系数，为事件、脉络中心时间，即：=(f-s)2（18）挑选新主干热词（行3）。当满足条件则进入相关分支脉络（行 4）5）；当相关性不满足且有新热词时，将该事件作为主干脉络新种子（行 7）8）；否则，进入孵化池（行10）。1.4.2分

26、支脉络在分支脉络部分，进一步构建主干脉络上种子事件的相关事件，如算法2所示。算法2 分支脉络构建算法。输入事件e E，主干脉络T，分支关联阈值b；输出层次化故事脉络S。计算事件e和已有种子的相关性Trel(e，t)if max(Trel)b thene进入孵化池elsee选择对应分支并计算分支热词HB(e，t)计算e与已有分支子脉络相关性Brel(e，b)e选择max(Brel)对应的子脉络bfor 每一个事件e b doif Merge(e，e)不成功 thenPC(e，e)更新S输出层次化故事脉络S在算法2中，分支热词：HB(e，t)=R(fe，nt)（19）其中：fe为当前事件的词频

27、，nt为当前主干脉络的词频。首先进行合并操作Merge。当待插入事件进入对应分支子脉络b=e1，e2，e|E|，尝试对已有事件进行合并操作Merge(ei，ej)，当满足条件一（事件相似度合标），如式（20）所示：sim(ei，ej)（20）且满足条件二（时间差合标），如式（21）：|i-j（21）式（20）中，为事件合并阈值（实验中设置为0.9），事件相似度计算展开如式（22）所示：sim(ei，ej)=Wsim+Wtfsim+sim（22）其中：、为权重系数，Wsim、Wtfsim同式（16），sim表示事件名称相似度。式（21）中，为合并时间阈值（实验中设置为3）。若不满足以上条件，则进

28、入父子连接操作 PC（Parent-Child），如式（23）所示：VPC=CP（23）其中连贯度C如式（24）所示：C(e1，e2，er)=1ri=1r-1()sim(ei，er)+(1-)L（24）其中为权重系数。热词连接强度L如式（25）：L=cos(Hi，Hj)（25）最后，取最大VPC对应的父事件进行连接。1.4.3孵化池对于现阶段不满足脉络构建条件的事件，将进入孵化池等待孵化。孵化过程类似于主题匹配，当某个事件集数量等于最大事件数阈值（此处设置为5），则再次进入故事脉络进行二次构建。孵化池算法如算法3。算法3 孵化池算法。输入新事件e，孵化池=E1，E2，E|，话题关联阈值t；输

29、出新孵化池。计算e与已有孵化集合的相关性Trel(e，E)if max(Trel)t then将e加入对应的Eif size(E)=5 then将E与已有故事脉络进行二次构建更新孵化池 else e加入新孵化集合E|+1，更新孵化池输出其中，二次构建策略同式（16），不同之处在于此处应计算孵化集合E与主干的相关性。1.4.4算法复杂度本节主要分析以上算法的复杂度。对于算法1，需要先遍历主干脉络每个节点并记录新热词，故时间复杂度为O(|T|H|)。对于算法 2，需要先计算新事件与主干的相关性，时间复杂度为O(|T|E|)，再进一步对子脉络每个事件尝试Merge或PC操作，时间复杂度为O(|b

30、|2)。因此，脉络构建总的时间复杂度为O()|T|H+|T|E+|b2。2 实验与结果分析为验证HSGM在故事脉络生成任务上的有效性，将本文方法与现有方法在真实新闻数据集上进行比较分析。2.1数据集由于公开用于故事脉络生成任务的数据集较少，本实验基于关键字从新浪新闻、人民日报等多家权威新闻媒体抓取了近 30 GB的新闻报道，数据经预处理后除去内容过短、重复部分，并尽可能减少其他操作以贴合真实情况，整理出Dataset1（特斯拉维权事件）、Dataset2（俄乌事件）这两个数据集。表1为数据集详细信息。2.2参数分析本文实验使用文献 22 中在搜狗新闻上预训练的词汇作为词汇嵌入。实验中设定的主

31、要参数如表2所示。表2算法参数设置Tab.2Algorithm parameter setting参数类型话题关联阈值参数值0.5参数类型分支关联阈值参数值0.6其中话题关联阈值将影响 HSGM 整体的生成效果。通过轮廓系数（Silhouette Coefficient）SC -1，123来确定话题表1数据集详细信息Tab.1Dataset details数据集Dataset1Dataset2相关文档数536320无关文档数1 000600时间2021-04至2021-062022-02至2022-042379第 43 卷计算机应用关联阈值，SC越大，效果越好。如图3。在确定话题关联阈值的基础

32、上，通过 2.4.2 节中准确性、可理解性、完整性三者的综合性能V来确定分支关联阈值，通过实验，算法在V 0.6，0.7范围效果较好。2.3实验环境为确保公平，实验均在同一环境下进行，实验环境及配置如下所示：采用 Windows 10 系统，Intel i7-10700F CPU，16 GB内存，Python3.6版本。2.4实验结果与分析2.4.1事件追踪实验结果及分析本节主要评价事件追踪的有效性。通过对比下列方法进行实验性能的比较：1）基于singlePass24的追踪方法。以TF为文本特征表示进行singlePass聚类。2）基于 k-means25的追踪方法。以TF为文本特征表示进行k

33、-means聚类。实验选取准确率P（Precision）、召回率R（Recall）和综合评价指标F值评价事件追踪的提取性能，F值越高，事件追踪性能越好。计算方式如下所示：P=TPTP+FP（26）R=TPTP+FN（27）F=2 P RP+R（28）其中：TP为追踪结果中被判定属于某事件实际也属于某事件的新闻数量，FP为追踪结果中被判定属于某事件实际不属于该事件的新闻数量，FN为被判定为其他事件但属于该事件的新闻数量。表 3展示了各方法在 Dataset1和 Dataset2这两个数据集上所有时间窗口的平均追踪效果。实验结果表明，在事件追踪过程中，与基于 singlePass 和基于 k-me

34、ans 的方法相比，HSGM 在 Dataset1 的 F 值上分别高出 4.51%、6.41%，在Dataset2的F值上分别高出20.71%、13.01%。分析结果可以得出，在事件追踪阶段中主题词反馈更新融合了改进热词算法、TF和动态关键词衰减指数，不断增大主题词和无关词的区分度，使得每一轮的主题词不断贴近所叙述的事件，提高了相关新闻的命中率。基于singlePass的追踪方法随着时间的推移，主题词无法适应事件重心漂移的现象。基于k-means的追踪方法对k值的选取十分敏感，对追踪效果影响较大。2.4.2故事脉络构建实验结果及分析本节主要评价故事脉络构建的有效性。由于故事脉络具有

35、较强的主观性，本文基于用户体验的方式6-7，14，17-18评价HSGM的性能。本文邀请了18名不同领域的志愿者，针对数据集中不同故事，将本文的HSGM与以下故事脉络生成方法进行了比较。1）Liu等6提出的一种基于图的两层文档聚类在线方法Story Forest。2）Ansah等8提出的利用用户网络社区、时间接近度和事件语义的惩罚指标结构Story Graph。在未告知生成方法的前提下，志愿者针对三种方法生成的故事脉络按以下指标进行打分。1）准确性：脉络是否正确描述故事的发展过程。2）可理解性：脉络是否容易理解。3）完整性：脉络是否完整描述故事的发展过程。评分标准为 5（优秀）、4（良好）、3

36、（一般）、2（差）、1（很差）。评价结果如表4所示。从评分结果可以看出，本文方法在故事脉络的准确性、可解释性、完整性方面均表现良好。3 结语本文针对热点新闻事件故事脉络可解释差、缺乏层次的问题，提出一种融入主干热词和分支热词的层次化故事脉络生成方法。该方法通过各级热词影响分支脉络的走向，有效增强故事脉络的可解释性，层次化脉络增强了脉络的丰富表达能力。实验结果表明本文方法同已有方法相比，在不同数据集上在事件追踪及故事脉络构建方面有一定的提高，证明了热词应用于层次化脉络构建策略的有效性。下一步工作中，计划融入主题分析对已有脉络进行重构修正，以增强脉络的主题一致性。参考文献（References）

37、1 张仰森，段宇翔，黄改娟，等.社交媒体话题检测与追踪技术研究综述 J.中文信息学报，2019，33（7）：1-10.（ZHANG Y S，DUAN Y X，HUANG G J，et al.A survey on topic detection and tracking methods in social media J.Journal of Chinese Information Processing，2019，33（7）：1-10.）图3话题关联阈值的轮廓系数Fig.3Silhouette coefficient of topic relevance threshold表3各数据集实验结果

38、单位：%Tab.3Experimental results on each dataset unit：%数据集Dataset1Dataset2HSGM准确率97.0690.69召回率98.1573.61F值97.5182.95基于singlePass的方法准确率97.9687.41召回率97.1056.95F值93.3068.72基于k-means的方法准确率92.5385.11召回率94.1461.10F值91.6473.40表4基于用户体验的评分Tab.4User experience-based score指标准确性可理解性完整性数据集Dataset1Dataset2Dataset1Da

39、taset2Dataset1Dataset2HSGM3.943.834.334.284.224.17Story Forest3.943.774.174.064.114.06Story Graph3.833.724.064.003.943.942380第 8 期刘东等：面向热点新闻事件的层次化故事脉络生成方法2 XU G X，MENG Y T，CHEN Z，et al.Research on topic detection and tracking for online news textsJ.IEEE Access，2019，7：58407-58418.3 张晨昕，饶元，樊笑冰，等.基于社交媒

40、体的事件脉络挖掘研究进展 J.中文信息学报，2019，33（11）：15-30.（ZHANG C X，RAO Y，FAN X B，et al.Research progress of event summarization based on social media J.Journal of Chinese Information Processing，2019，33（11）：15-30.）4 赵旭剑，王崇伟，金培权，等.面向Web的故事脉络挖掘研究综述J.中文信息学报，2021，35（11）：13-33.（ZHAO X J，WANG C W，JIN P Q，et al.A surv

41、ey of Web-oriented storyline miningJ.Journal of Chinese Information Processing，2021，35（11）：13-33.）5 付佳兵，董守斌.一种基于词覆盖的新闻事件脉络链构建方法J.北京大学学报（自然科学版），2016，52（1）：104-112.（FU J B，DONG S B.Constructing a news story chain from word coverage perspective J.Acta Scientiarum Naturalium Universitatis Pekinensis，201

42、6，52（1）：104-112.）6 LIU B，NIU D，LAI K F，et al.Growing story forest online from massive breaking newsC/Proceedings of the 2017 ACM Conference on Information and Knowledge Management.New York：ACM，2017：777-785.7 LIU B，HAN F X，NIU D，et al.Story forest：extracting events and telling stories from breaking n

43、ewsJ.ACM Transactions on Knowledge Discovery from Data，2020，14（3）：No.31.8 ANSAH J，LIU L，KANG W，et al.A graph is worth a thousand words：telling event stories using timeline summarization graphsC/Proceedings of the 2019 World Wide Web Conference.Republic and Canton of Geneva：International World Wide W

44、eb Conferences Steering Committee，2019：2565-2571.9 GOYAL P，KAUSHIK P，GUPTA P，et al.Multilevel event detection，storyline generation，and summarization for tweet streamsJ.IEEE Transactions on Computational Social Systems，2020，7（1）：8-23.10 ZHOU D Y，GUO L S，HE Y L.Neural storyline extraction model for st

45、oryline generation from news articles C/Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，Volume 1（Long Papers）.Stroudsburg，PA：ACL，2018：1727-1736.11 佘玉轩，熊赟.基于贝叶斯网络的故事线挖掘算法 J.计算机工程，2018，44（3）：55-59.（SHE Y X，XI

46、ONG Y.Storyline mining algorithm based on Bayesian networkJ.Computer Engineering，2018：44（3）：55-59.）12 GUO L S，ZHOU D Y，HE Y L，et al.Storyline extraction from news articles with dynamic dependencyJ.Intelligent Data Analysis，2020，24（1）：183-197.13 赵天资，段亮，岳昆，等.基于Biterm主题模型的新闻线索生成方法 J.数据分析与知识发现，2021，5（2）

47、：1-13.（ZHAO T Z，DUAN L，YUE K，et al.Generating news clues with Biterm topic model J.Data Analysis and Knowledge Discovery，2021，5（2）：1-13.）14 李莹莹，马帅，蒋浩谊，等.一种基于社交事件关联的故事脉络生成方法 J.计算机研究与发展，2018，55（9）：1972-1986.（LI Y Y，MA S，JIANG H Y，et al.An approach for storytelling by correlating events from social net

48、works J.Journal of Computer Research and Development，2018，55（9）：1972-1986.）15 DEHGHANI N，ASADPOUR M.SGSG：semantic graph-based storyline generation in twitter J.Journal of Information Science，2019，45（3）：304-321.16 SUN W J，WANG Y H，GAO Y Q，et al.Comprehensive event storyline generation from microblogs

49、 C/Proceedings of the 2019 ACM Multimedia Asia.New York：ACM，2019：No.48.17 樊笑冰，饶元，王硕，等.基于命名实体敏感的分层新闻故事线生成方法 J.中文信息学报，2021，35（1）：113-124.（FAN X B，RAO Y，WANG S，et al.Named entity sensitive generation of hierarchical news storylineJ.Journal of Chinese Information Processing，2021，35（1）：113-124.）18 陈黎明，黄瑞

50、章，秦永彬，等.面向新闻事件的故事树构建方法J.计算机工程与设计，2020，41（7）：1910-1919.（CHEN L M，HUANG R Z，QIN Y B，et al.Story tree construction approach for news events J.Computer Engineering and Design，2020，41（7）：1910-1919.）19 丁梦佩.社交网络中的话题漂移研究 D.北京：北京邮电大学，2019：1-68.（DING M P.Research on topic drift in social networks D.Beijing：Be

展开阅读全文