图情领域LDA主题模型应用研究进展述评_张东鑫.pdf

资源描述

1、1432022年第6期/第39卷/总第210期图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models inLibrary and Information Science Field张东鑫1 张敏2ZHANG Dongxin ZHANG Min（1.西南大学计算机与信息科学学院，重庆，400715；2.华中师范大学信息管理学院，武汉，430079）摘要：目的/意义系统归纳梳理 LDA 模型的应用过程与应用领域，为图情领域 LDA 模型研究提供参考。研究设计/方法以 Web of Science 核心集、LI

2、SA、Google Scholar、中国知网、维普和万方等为数据源，检索图情领域 LDA 模型的研究文献，通过内容分析构建了 LDA 模型应用研究分析框架，从模型应用过程的视角对国内外研究现状进行系统地总结归纳。结论/发现 LDA 主题模型研究已经形成较为成熟的分析流程，已应用在主题探索、知识组织、学术评价、情感分析等很多领域，但是在应对大数据、多模态数据等复杂处理任务，提升建模结果的语义质量，扩展模型应用等方面还亟待加强。创新/价值基于 LDA 模型的应用过程，细致揭示了图情领域 LDA 模型应用研究存在的问题和发展方向。关键词：LDA；主题建模；文本挖掘；图书情报领域中图分类号：G250

3、DOI：10.13366/j.dik.2022.06.143引用本文：张东鑫，张敏.图情领域 LDA 主题模型应用研究进展述评 J.图书情报知识，2022，39（6）：143-157.（Zhang Dongxin，Zhang Min.A Review on Application Studies of LDA Topic Models in Library and Information Science FieldJ.Documentation,Information&Knowledge,2022,39（6）：143-157.）Abstract:Purpose/Significance Acc

4、ording to previous work,this paper aims to summarize and sorte out the applied process and applied fields of LDA model to provide reference for the research of LDA model in library and information science（LIS）field.Design/Methodology We selected Web of Science Core Collection、LISA、Google Scholar、CNK

5、I、VIP and WANFANG Database as data source,retrieved literature about the LDA model in the field of LIS,constructed the analytical framework of LDA model application research through content analysis,from the perspective of the applied process of these models,carefully analyzed the current research a

6、t home and abroad Findings/Conclusion The results show that a more mature analysis process has been formed for the research of LDA topic models in LIS field,it has been applied in rich fields such as topic exploration,knowledge organization,academic evaluation,sentiment analysis,but the research sti

7、ll need to be strengthened in the future in dealing with complex tasks such as processing big data and multimodal data,improving the semantic quality of modeling results and the application of extended model Originality/Value Based on the applied process of LDA model,the existing problems and develo

8、pment direction of LDA model research in the field of LIS are revealed in detail.Keywords:LDA;Topic modeling;Text mining;LIS field 基金项目本文系国家社会科学基金项目“政务社交媒体用户信息获取中的情感体验及效用研究”（20BTQ048）的研究成果之一。（This is an outcome of the project Research on the Users Emotional Experience and Utility of Information Acq

9、uisition in Government Social Media（20BTQ048）supported by National Social Science Foundation of China.）通讯作者张敏（ORCID：0000-0003-4534-757X），博士，教授，研究方向：人机交互与信息行为，Email:。（Correspondence should be addressed to ZHANG Min,Email:,ORCID:0000-0003-4534-757X）作者简介张东鑫（ORCID：0000-0003-3974-6654），硕士研究生，研究方向：网络信息资

10、源管理，Email：。1引言潜在狄利克雷分布（Latent Dirichlet Allocation，LDA）是一种对文本主题进行建模挖掘的三层贝叶斯产生式概率模型1，该模型通过无监督学习，生成“文档-主题”和“主题-词”概率分布，被用于识别大规模文档集中潜藏的主题信息。LDA具有良好的数据降维能力和模型扩展性，被广泛应用于各种文本分析任务。目前，计算机学科的相关研究主要围绕LDA扩展模型的分类、算法改进2,3，尤其是深度学习主题模型4展开了较多探讨，相关研究强调主题模型对于文本挖掘及自然语言处理的重要作用，聚焦于LDA主题模型原理、参数估计及训练方法的总结归纳，注重不同主题建模技术之间性能的

11、对比5，少数研究归纳了主题模型在语言、政治、生物医学、地理等学科领域应用，指出LDA主题模型在多媒体信息加工处理等文本挖掘任务中存在的挑战及问题2。图情领域的学者则较多针对特定的文本挖掘任务6展开分析研究,已有部分综述针对某一应用场景7或某一类扩展模型8进行了归纳总结。总体而言，现有研究针对LDA模型完整应用过图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models in Library and Information Science Field144程的梳理还较为缺乏。本研究聚焦图情领域LDA模型整体应用研究

12、现状，细致剖析其应用过程关键环节和应用领域，以期为相关领域的理论研究和实践应用提供参考。本研究梳理了LDA模型应用的现存问题和创新发展，有助于更好应对多维度场景的复杂文本处理任务，增强LDA模型的泛化能力以及建模结果的准确性和可解释性，实现更精准的主题挖掘和识别。2文献调研概述本研究以Web of Science核心集、LISA、Google Scholar为英文数据源进行文献检索，以中国知网、维普、万方数据库为中文数据源进行文献检索。英文文献以主题=“Latent Dirichlet Allocation”OR“Topic Model*”为检索式进行检索，中文文献以主题“LDA”OR“潜

13、在狄利克雷分布”OR“概率主题模型”为检索式进行检索。中英文数据源均限定为图书情报领域期刊（中文进一步限定为CSSCI来源期刊），检索时段设置为近十年（2012年1月1日到 2022年1月31日）。基于文献标题、关键词与摘要，辅以内容审读，选取符合研究主题的文献，最终筛选得到369篇英文文献和426篇中文文献。文献分布如图1所示，近十年国内外研究发文量均处于持续增长的态势，且国内研究的发文量远高于国外。可以看出，LDA相关研究引起国内外图情领域学者的高度关注，研究成果较为丰硕。进一步，本研究深度研读代表性文献，基于应用过程的关键环节梳理构建了LDA模型应用研究分析框架（见图2）。LDA模型应用

14、过程主要包括：在文本预处理环节，对主题建模所涉及的数据源进行预处理操作，获得模型所需的格式化数据；在模型构建环节，先依据研究情境选定合适的主题模型，然后结合相关模型评价方法确定最优主题数；在模型求解环节，采用201274412182329303446601425384361658190932013201420152016201720182019202020211101009080706050403020100发文量篇国内国外年代图1 国内外发文量年代分布Fig.1 The Chronological Distribution of Published Papers at Home and Ab

15、road图2 图情领域 LDA 主题模型应用研究分析框架Fig.2 The Analytical Framework for the Application Studies of LDA Topic Models in LIS field针对稀疏、动态短文本，如何保障主题建模结果的质量如何保障特征词表达主题语义时的有效性文本预处理模型构建主题模型选择最优主题数选择模型求解模型应用无需人工标注数据处理长文本数据性能稳定应用工具和流程较成熟Java语言：Stanford TMTJGibbLDAMalletR语言：LdaTopicmodelsPython语言GensimSikit-learn处理动态

16、短文本效果差处理大规模数据效率低无法识别主题之间的关系算法复杂度高领域通用性差稳定性有待提高应对复杂数据处理任务提升建模结果的语义质量构建模型质量评估体系丰富LDA的应用方式主题确定方法不一致，如何客观评估建模结果的有效性主题探索、知识组织、学术评价、情感分析、推荐研究LDA模型扩展模型主题数确定方法模型改进优点缺点不足问题参数设置未来需要重视的问题模型选择问题常用工具应用领域1452022年第6期/第39卷/总第210期合适的主题建模工具完成模型求解；最后，依据实际研究情境，结合相关方法与工具解决具体应用领域问题7。当前，LDA模型的应用涵盖主题探索、知识组织、学术评价、情感分析、推荐研究等

17、诸多领域。本文将基于上述流程对现有应用研究现状进行归纳总结。3LDA 主题建模的应用过程3.1 文本预处理文本预处理的过程针对不同的数据源，通过分词、去停用词以及特征选择等预处理技术获取模型所需的格式化数据。该环节可实现文档内容初步降维，降低模型推理时间，是LDA主题建模的基础。其中，所获取表达文本主题语义的特征词对主题建模结果的可解释性具有重要影响。在主题建模的数据源方面，基于微博、Twitter等社交媒体平台短文本数据的主题挖掘成为近年来图情领域极具价值的研究方向。然而由于文本长度有限，稀疏性高，更新速度快以及规模巨大，LDA模型在处理短文本时效果较差9。同时此类数据一般带有许多俚语、缩略

18、词以及表情符号等，其文本语义相对模糊、逻辑关系较差，经过预处理后的文本能够有效表达主题信息的词项较少，这就使得抽取有意义主题的过程更加复杂10。针对稀疏、动态短文本，如何保障主题建模结果的质量是当前需解决的重点问题。学者们一是通过信息整合构建伪文档来增加文本长度；二是使用改进后的扩展模型，包括调整模型假设和改进主题生成过程等措施11。前者如狄利克雷多项式混合模型（Dirichlet Multinomial Mixture，DMM），针对短文本词项少于长文本文档的特点，严格限制模型假设中的主题数量；后者如词对主题模型（Biterm Topic Model，BTM），从词间关系中挖掘局部语言信息，

19、在词对上进行主题建模，以提高短文本主题挖掘的全面性和准确性。确定主题建模的数据源后，通过具体的文本预处理技术获取模型所需的格式化数据。得益于成熟的分词工具7,12与停用词表，中文文本数据在分词与去停用词阶段已经形成一体化的应用流程。而英文文本数据通常以空格为分隔符进行一元分词，导致单个单词所代表的语义较少，建模结果的可解释性较差。有研究提出按照词组分词13，或者引入短语生成算法11挖掘数据中的短语来提高特征词的主题表示能力。特征选择是在分词与去停用词的基础上对建模语料的进一步降维，常用的方法有评价函数14（如词频、信息增益等）、领域本体15、词性过滤16以及正则表达式17等。不同的特征选择方法

20、在特征词降维上具有不同的性能，对建模结果的可解释性也具有不同程度的影响。以特征选择方法中的领域本体和词性过滤为例，基于领域本体进行词汇过滤可以有效提高特征词的领域贴切性，提高建模结果在专业领域背景下的可解释性。如林杰15等利用扩充后的汽车专业本体词汇对语料进行词汇过滤，有效提高了主题词的领域纯度与主题的可解释性，但缺点是依赖于研究人员的领域知识，花费的人工成本较高。而词性过滤16可以获取对主题贡献度较大的名词和动词，相对于基于本体的方法可以更便捷、高效地实现文本降维，但词的领域贴切性相对较差，专业领域背景下建模结果的可解释性弱。整体来看，分词、去停用词以及特征选择等预处理环节已形成较为成熟的处

21、理流程，当前的应用研究多固化于已有的文本预处理技术工具与语义资源，侧重于单一方法或少数几种方法的简单结合。值得注意的是，分词算法18的选择，领域术语19与领域停用词表20的构建，以及不同的特征选择方法对特征词表达主题语义时的有效性都具有不同程度的影响。因此，需针对不同的应用场景深入探索，以提高文本预处理的质量。3.2 主题模型构建经过文本预处理操作获得主题模型所需的格式化数据后，进入模型构建与求解环节。首先需要依据数据特征与研究情境，选择或构建合适的主题模型，然后通过模型评价方法确定最优主题数，最后选择或构建相应的主题建模工具进行自动参数估计，从而完成模型求解。3.2.1 主题模型选择主题模型

22、构建的第一步是选定合适的主题模型。LDA模型是基于词袋模型提出的三层贝叶斯概率主题模型，模型训练时无需人工标注数据，挖掘长文本如科技文献21等语料的隐含语义时效果良好，且应用工具和流程比较成熟，是目前最常用的主题模型。随着所处理的语料对象、面临的文本分析任务更趋复杂多样，LDA模型应用具有一定局限性，比如无法有效处理动态短文本，应用于大规模数据集时训练时间过长22，图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models in Library and Information Science Field146情报

23、、信息与共享/Intelligence,Information and Sharing而且无法识别主题之间的关系23。模型泛化能力以及建模结果的准确性和可解释性受到挑战4。针对LDA模型的应用局限性，学者们根据文本特征与任务情境提出各类扩展模型3以提升主题建模效果。综合LDA模型的扩展类型（如非参性、动态性、相关性等）及其在各数据库中的总被引频次，表1归纳了图情领域应用各类LDA模型的代表性研究。如表1所示，各类LDA模型的性能各具特色，基于模型的改进特点与已有的LDA扩展模型分类相关研究3,7，以上扩展模型大致上分为六类：贝叶斯非参模型HDP；基于时间因素的扩展模型DTM；基于模型参数的扩展

24、模型CTM；有监督模型Labeled-LDA；基于文档元数据的扩展模型STM；面向特定任务的扩展模型ATM、JST、BTM、TWE、NTM、LDA2vec和JointAT。不同类型的扩展模型应用场景丰富，可以满足科研人员不同的建模需求。当数据处理对象为静态长文本，可直接选择传统LDA模型；如果数据处理对象具有明显的动态性、主观性或稀疏性等特征，可选择动态主题模型、面向特定任务的情感主题模型或短文本主题模型等来提高建模精度。在围绕LDA扩展模型的应用研究中，早期基于非参性、相关性等的扩展模型仍然以其良好性能而被广泛应用。表1 图情领域应用各类 LDA 模型的代表性文献Table 1 Repres

25、entative Literature About the Application of Various LDA Models in LIS Field模型类型模型名称提出时间模型说明应用实例传统主题模型LDA2003第一个完整意义上的产生式概率主题模型，适用于处理静态长文本数据开放政府数据与信息自由相关研究文献的核心主题分析24非参模型HDP（Hierarchical Dirichlet Process）2006自动确定主题数目，克服人工确定主题数的主观性与随机性弗格森骚乱期间的推特子事件检测25动态主题模型DTM（Dynamic Topic Model）2006引入时间信息，动态追踪主题随

26、时间变化的情况Reddit 用户智能手表关注主题与演化趋势分析26相关主题模型CTM（Correlated Topic Model）2007通过协方差矩阵描述主题间的关联关系，解决 LDA 模型建模结果之间不相关的问题环境科学文献主题识别与相关性分析27监督主题模型Labeled-LDA2009引入标签信息以控制主题数量，提高建模结果的真实性与有效性基于在线评论的产品属性极性分析28结构主题模型STM（Structural Topic Model）2014在计算每个主题和主题中单词条件分布时添加更多协变量（如文档级元数据），以提高模型推理能力信息管理相关研究文献主题识别29作者主题模型ATM（

27、Author Topic Model）2004引入作者信息以识别作者研究主题，多角度挖掘语料内容特征基因组学科研人员之间的跨主题合作研究30情感主题模型JST（Jiont Sentiment Topic Model）2009在文档与主题层之间构建附加的情感层，可同时检测主题和主题相关情感信息平板电脑在线评论主题和主题相关情感信息检测31短文本主题模型BTM2013对语料库中的共现词对进行主题建模,以解决文档的稀疏性问题自然灾害（台风海燕）推文主题识别32词向量主题模型TWE（Topical Word Embeddings）2015在 LDA 建模的基础上，联合 TWE 模型构建主题词向量，更好

28、地发现主题之间的隐含关联医学科技报告主题演化分析33神经网络主题模型NTM（Neural Topic Model）2015从前馈神经网络角度描述“文档-主题”和“主题-词”分布，通过后向传播算法学习模型参数，结构简单类人对话系统构建研究34联合训练主题模型LDA2vec2016利用 Word2vec 模型引入词的上下文关系进行建模，提高了文本隐含主题语义的识别效果个性化新闻推荐研究35多语言作者主题模型JointAT（Joint Author Topic Model）2020同时引入作者信息与多语言信息，提高多语言环境下主题模型对作者研究兴趣建模的准确性情报学领域多语言数据集下的科研人员研究兴

29、趣识别361472022年第6期/第39卷/总第210期图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models in Library and Information Science Field随着新兴应用场景的不断涌现，主题挖掘任务的多元化使得近来面向特定任务的扩展模型成为显著趋势，如基于词向量、多语言作者信息以及混合语境37等扩展模型。然而扩展模型依然存在一些不足之处，其包含的隐变量和附加信息较多，算法复杂度相对较高，同时受训练语料与任务情境的影响，模型的领域通用性和建模结果的稳定性有待提高。值得注意的是，

30、基于深度学习思想与方法的主题模型已成为LDA扩展模型研究的重要分支。相较于其他扩展模型，深度学习主题模型结合词向量技术、神经网络等方法充分挖掘词汇的上下文语境以及词间关系，具备较强的主题语义理解能力，建模结果的可解释更高38。目前，深度学习主题模型主要包括三类：词向量辅助的概率主题模型、基于神经网络结构的主题模型和联合训练主题模型4。词向量主题模型通过训练低维稠密的词向量来刻画词汇间的语义相似度，应用于短文本和领域文本时可有效提高主题词的语义一致性，如基于高斯分布的Gaussian LDA模型39。基于神经网络结构的主题模型多以词袋作为模型输入，进而通过增加相应的网络层来捕捉词汇间的语义关系，

31、同时结合稀疏约束解决“主题-词”分布的稀疏性，提高主题模型的生成质量。联合训练主题模型则融合了概率主题模型与神经语言模型的优势，可以在原有“文档-主题-词”全局语义关系发现基础上，通过语言模型发现句子级词序之间的依赖关系，克服“词袋”假设的局限性。以上深度学习扩展模型在短文本、领域文本等数据上的主题聚类效果相比传统模型性能更优，功能更丰富，但是在应用过程中通常需要大规模语料的支撑，训练过程也更为复杂，常面临参数调优等问题。除了词向量扩展模型较为常见外，其他两类深度学习扩展模型应用还有待进一步探索。3.2.2 最优主题数选择依据研究情境选定最合适的主题模型后就要进行参数估计与设置。参数估计用于推

32、理“文档-主题”和“主题-词”两组分布，目前已形成多种近似推理算法7。参数设置与模型性能密切相关，可以赋予模型特定属性40，主要涉及Dirichlet先验、参数，以及主题数。和常按照经验值进行设置。主题数则依据主题模型质量评价方法做出选择，而最优主题数的确定是一个长久以来的难题。主题数过多容易导致主题概括范围小，语义内容差异小，主题划分困难；主题数过少则容易导致概括的语义内容过于宽泛，忽视小主题。主题数选择直接影响LDA主题建模结果的准确性和可解释性。目前相关研究在确定主题数时通常基于先验知识对文档包含的主题数进行初步估计，再结合困惑度、一致性以及主题间相似度等质量评价方法作出选择。本文对几种

33、典型的主题数确定方法的核心思想、优缺点进行归纳比较，如表2所示。表2归纳总结显示，目前确定LDA模型主题数的方法较为丰富，评价角度各有侧重，差别较大，还没有形成一致的主题建模结果评价准则，客观评估建模结果有效性的问题仍未解决。从实际应用情况来看还是以困惑度居多，而有研究认为一致性是衡量主题质量最有效的方法47，该指标的使用在近两年的相关研究中有所提升。由于在上述模型评价方法的指导下依然可能产生混合主题、不合逻辑的主题和难以区分的主表2 常用主题数确定方法及其比较Table 2 The List and Comparison of Common Methods for Determining t

34、he Number of Topic确定方法核心思想优点缺点应用实例困惑度文档中每个词汇产生的概率的几何平均值的倒数，词汇产生的概率越大，困惑度越小衡量模型对新数据的预测能力基于困惑度选取的主题数稳定性差，且往往偏大41,导致抽取的主题语义空泛Wu H42，2018一致性主题下词语的语义关联性越紧密，一致性越高，模型可解释性越好衡量主题的可解释性对于低频主题词测量效果较差，而且无法区分高频词和表征主题的信息词43Sharma A29，2021主题间相似度当主题之间平均相似度最小时，主题结构稳定，模型最优衡量主题结构的稳定性相似度测量指标选取和构造方法具有一定主观性44Jeong B45，201

35、7经验法参考以往文献或者实际经验，不断进行迭代实验，观察主题聚类效果后，人工判断决定简单易用，人工监督下的可控性更高主观性大，时间、人力成本高曹树金46，2020148情报、信息与共享/Intelligence,Information and Sharing题等问题，为进一步保障建模结果的有效性，相关研究开始对传统评价方法进行改进43，尝试提出新指标41，注重以可解释性为标准进行模型评价48，引入专家意见类指标，如同质性、完整性以及V-Measure49，以保障主题生成的质量与可靠性。也有学者提出对相关方法进行联合应用，并在模型运行的过程中建立评价机制以动态调整最优主题数10，提高主题数选择的

36、灵活性。此外，LDA模型基于随机抽样进行参数求解以及其对建模语料极为敏感的特征，导致建模结果稳定性较差。部分研究尝试引入新的稳定性分析算法50以及健壮性、描述能力等模型质量评价指标51来选择最优主题数，以保障主题模型的预测能力，进而提高建模结果的可靠性。3.3 模型求解完成最优主题数选择后，就要选择或构建相应的主题建模工具完成模型求解。目前已研发出各类开源LDA建模工具来完成参数自动求解，在图情领域常用的有七种。从开发语言来看，分别是基于Java语言的Stanford TMT（Stanford Topic Modeling Toolbox）52、JGibbLDA53以及Mallet24，基

37、于R语言的Lda库54与Topicmodels55库，这五种工具的模型基础均是LDA模型；另外两种是基于Python语言以OLDA（Online LDA）模型为基础的Gensim库56与Scikit-learn57库。利用上述工具完成模型求解得到“文档-主题”分布与“主题-词”分布两组参数后，再通过主题词筛选进行主题命名，完成每个文档中的隐含主题发现。4LDA 主题模型的应用领域LDA模型可以有效挖掘文本中隐含的语义信息，已经被广泛应用于主题探索、知识组织、学术评价、情感分析以及推荐研究等众多领域。4.1 主题探索主题探索研究主要包含主题发现与演化分析6。LDA模型拥有良好的降维能力，可以

38、从大规模文本中通过无监督的方式提取隐含语义，保证主题提取的相对客观性与效率，是主题探索的热门工具。本文基于相关文献的内容分析发现，当前图情领域主题探索主要面向科技文献数据，以在线消费平台评论数据及网络舆情数据为代表的用户生成内容，以及新闻报道、政策文本等网络信息资源挖掘分析。4.1.1 科技文献的主题探索科技文献是科学技术信息发布与传播的重要载体，主要包括科技期刊、会议论文、专利和科技报告等7。早期科技文献的主题发现依赖于以篇章为单位的词频统计、共词分析、引文分析等传统计量学方法，关注词或者文献等外部数量特征。而LDA模型可以对文本内容进行主题建模，逐渐成为科技文献主题探索的主流工具之一，比如

39、针对SIGIR（Special Interest Group on Information Retrieval）会议论文58以及中国ICT产业21专利文献相关研究热点的主题分析。总体而言，科技文献主题发现研究存在过度依赖单一LDA模型的问题，只有部分学者尝试应用新方法进一步优化对文本语义的理解。比如裘惠麟等59将期刊论文与专利文献同时作为数据源，运用LDA2vec模型识别机器学习热点研究主题，该模型在LDA模型全局性建模的基础上，通过Word2vec词向量对语料局部的上下文信息进行建模，从而挖掘更丰富的隐含语义。然而Word2vec等经典词向量模型通常只对每个词汇训练一种向量表示4，难以发现不

40、同语境下词的不同含义。有研究引入TWE33模型，可同时训练出词汇和主题的向量表示，从而学习不同主题下词向量的不同表示，有效提高了医学科技报告主题挖掘的精度。主题演化分析以主题发现为前提，是对主题动态发展规律的把握。在主题演化分析中，如何提高主题演化路径分析的精度一直是研究热点，如引文层次狄利克雷过程60（Citation Involved Hierarchical Dirichlet Process，CIHDP），在人工智能领域期刊论文的主题提取中使用引文信息来增强文档文本表示，可自动确定每个时期的主题数量，同时识别更加详尽完整的路径分裂和融合信息；针对石墨烯专利文献，有研究在LDA模型的基础

41、上，通过引入新颖性、关注度和主题结构指标衡量主题发展程度，并识别不同状态的主题类型42。此外，也有研究利用主题演化过程中的时间序列特征来提高主题演化分析的精度。比如以图情学科期刊论文为数据源，在LDA模型抽取学科主题的基础上，通过时间切片获得学科主题的热度序列，然后利用长短期记忆神经网络（Long Short-Term Memory，LSTM）13对学科主题热度演化的时间序列特征进行建模，可有1492022年第6期/第39卷/总第210期图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models in Libra

42、ry and Information Science Field效提高学科主题热度未来趋势预测的准确性。4.1.2 用户生成内容的主题探索在用户生成内容的主题发现相关研究中，一是将在线消费平台用户评论作为数据源，目标是挖掘用户对产品或服务的观点。比如 Opinion LDA61，通过改进文档结构，将基于用户评论内容的词序列转换为基于用户观点的产品特征词序列，可有效识别用户对具体产品特征的偏好。二是将网络舆情数据作为数据源，目标是舆情管控。比如在LDA模型挖掘微博文本主题特征的基础上，结合随机森林算法进行谣言分类62，谣言识别的准确性显著提升。但是以上两类数据通常以短文本居多，反映文本主题内容的

43、特征词较少，导致利用LDA进行主题发现时较难挖掘完整的语义信息。针对上述问题，常用的方法主要通过信息整合来增加文本长度或使用更适用于短文本的主题模型。也有研究尝试将LDA模型与其他方法相结合，比如在得到学术APP评论的建模结果以后，通过Glove词向量计算词语相似度来扩充主题下的特征词63，进而提高主题间的区分度，挖掘更加系统深层的主题信息。用户生成内容的主题演化分析关注话题内容的变化趋势，对企业、政府等机构具有重要的现实意义。面向在线消费平台用户评论数据，主题演化分析可以挖掘用户在不同时间节点对产品与服务的关注重点64，辅助企业提升产品与服务品质。面向网络舆情数据的主题演化分析65可辅助有关

44、部门进行舆情应急管控。然而社交媒体平台是一个极具动态性、复杂性的舆论场，舆情管控效果的好坏在于对舆情演化过程中的关键节点、热点主题66的发现。学者们以超网络理论为基础，通过LDA模型识别微博主题子网，然后结合相应的社交、内容以及情感子网构建微博舆情超网络，采用超边排序算法HyperEdgeRank识别出关键人物，全面挖掘微博舆情传播中的关键节点67，有效服务于社交媒体舆情监管。4.1.3 其他网络信息资源的主题探索新闻报道、政策文本等网络信息资源的主题发现可以为企业和政府决策提供有利的情报支持，也可辅助相关研究人员追踪研究热点。在新闻报道68的主题发现研究中，由于新闻文本主题识别一般存在文本数

45、据不均衡的问题，有研究69结合特征检测方法（独立性检测、方差检测和信息熵检测）优化特征词的主题表示能力，文本主题识别的准确性得以显著提高。政策文本是指因政策活动而产生的记录文献，包括官方文献、公文档案以及政策舆情文本等70。不同语境下政策词语的内涵差别较大，而LDA 模型利用文本、主题、词之间的关系可以解决文本聚类中语义挖掘的问题，已经被广泛应用于气候71、政府开放数据72等政策文本的主题发现。也有学者73利用LDA2vec模型进一步提高政策文本语义内涵挖掘的完整性。此外，标签是一类对网络信息资源进行分类或描述的词语，标签生成则是指从文档中提取出能体现文档主题的词语或短语74。LDA模型可以保

46、证标签生成时的客观性与效率，已被广泛应用于微博74、在线医生75等的标签生成研究中。部分研究通过构建扩展模型将其用于特定领域数据的标签生成，如用于电子健康记录数据表型标签生成的sureLDA76（Surrogate-guided ensemble Latent Dirichlet Allocation），使得LDA模型的应用范围得到进一步扩展。在新闻报道的主题演化分析中，当前研究多以LDA模型为基础，引入其他模型77与方法来提高演化分析的准确性。比如引入流形学习78可从全局时间角度重构新闻主题间的关系，避免利用相邻时间窗口导致的演化路径断裂问题；也可利用基于密度的DBSCAN聚类算法79去除噪

47、声文本，从而保障 LDA 模型主题抽取的纯度，提升主题演化分析的准确性。在政策文本的主题演化分析中，LDA模型结合主题相似度、主题强度等算法已经被应用于人工智能80、区域技术创新81等政策文本的量化分析，可有效支持相关政策的制定和完善。部分研究使用扩展模型如主题时间模型82（Topic over Time，ToT），将时间因素引入，获取不同时间切片下的主题分布强度,可避免繁琐的主题对齐环节。4.2 知识组织LDA模型可以通过无监督的方式以主题和主题词为单元描述信息资源的内容，促进了分析单元从文档向主题词细化发展，被广泛应用于知识组织研究中。知识组织关注文本中的语义信息，强调知识之间的关联关系。

48、而LDA模型可以通过挖掘隐含的主题特征构建文档与特征词之间的关联关系，方便知识推理，被图情领域学者应用于知识图谱与主题图谱构建研究。4.2.1 知识图谱构建目前的知识图谱构建一般采用命名实体识别与模150情报、信息与共享/Intelligence,Information and Sharing版匹配等方式来实现，在专业领域语料的知识图谱构建中可以获得较为完备的实体及其关系抽取。当语料内容涉及不同主题时，仅通过命名实体识别等方法抽取局部信息作为实体对象，会造成语义缺失等问题83。而利用LDA模型将基于全局信息抽取的文本主题作为实体，可实现知识图谱的精细化展示，将主题复杂、关联性差的文本数据进行结

49、构化组织，提高实体间的关联关系，能有效提升知识推理的效果。比如华斌等83构建的电子政务领域知识图谱，利用LDA模型获取主题实体，完成电子政务领域实体扩充，从而解决实体抽取算法存在语义缺失的问题，以便更好地进行知识推理，辅助政务决策。除了将主题作为实体构建知识图谱外，也可联合主题词来实现。比如岳丽欣等84首先通过LDA模型对医疗健康信息领域文献进行主题识别，然后通过社会网络分析挖掘核心主题词，最后基于核心主题词的共现关系构建医疗健康信息领域知识图谱，辅助领域知识关联分析。4.2.2 主题图谱构建主题图谱是一种存储主题及其之间逻辑关系与层次结构的知识库85，相比于知识图谱，其更加适用于无序、非结构

50、化、主题发散特征明显的网络信息资源组织。在处理非结构化文本信息时，传统主题聚类方法如共词分析方法易受词频、文本领域的复杂性的影响，难以解释文档间以及词汇间的语义关系，而K-means聚类分析结果描述比较复杂，并且两者都难以解决词项不匹配（即近义、同义词）的问题，导致主题识别效果较差。LDA模型在非结构化文本信息的主题建模上表现良好，通过主题的思想描述文档的隐含特征以及词汇之间的语义关系，一定程度上可以解决词项不匹配的问题，相比于传统主题聚类方法可以更好地挖掘文本中的语义信息，被广泛应用于主题图谱构建中，比如临床医学课程知识主题图谱86。此外，主题图谱适用于舆情分析87。比如在基于微博信息的网络

展开阅读全文