收藏 分销(赏)

深度动态文本聚类模型DDDC.pdf

上传人:自信****多点 文档编号:710896 上传时间:2024-02-19 格式:PDF 页数:6 大小:2.21MB
下载 相关 举报
深度动态文本聚类模型DDDC.pdf_第1页
第1页 / 共6页
深度动态文本聚类模型DDDC.pdf_第2页
第2页 / 共6页
深度动态文本聚类模型DDDC.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2370-2375ISSN 10019081CODEN JYIIDUhttp:/深度动态文本聚类模型DDDC陆辉1,2,黄瑞章1,2*,薛菁菁1,2,任丽娜1,2,林川1,2(1.公共大数据国家重点实验室(贵州大学),贵阳 550025;2.贵州大学 计算机科学与技术学院,贵阳 550025)(通信作者电子邮箱)摘要:互联网的飞速发展使得新闻数据呈爆炸增长的趋势。如何从海量新闻数据中获取当前热门事件的主题演化过程成为文本分析领域研究的热点。然而,常用的传统动态聚类模型处理大规模

2、数据集时灵活性差且效率低下,现有的深度文本聚类模型则缺乏一种通用的方法捕捉时间序列数据的主题演化过程。针对以上问题,设计了一种深度动态文本聚类(DDDC)模型。该模型以现有的深度变分推断算法为基础,可以在不同时间片上捕捉融合了前置时间片内容的主题分布,并通过聚类从这些分布中获取事件主题的演化过程。在真实新闻数据集上的实验结果表明,在不同的数据集上,与动态主题模型(DTM)、变分深度嵌入(VaDE)等算法相比,DDDC模型在各时间片的聚类精度均至少提升了4个百分点,且归一化互信息(NMI)至少提高了3个百分点,验证了DDDC模型的有效性。关键词:文本动态聚类;事件主题演化;主题分布;时间序列数据

3、;深度变分推断中图分类号:TP391.1 文献标志码:ADDDC:deep dynamic document clustering modelLU Hui1,2,HUANG Ruizhang1,2*,XUE Jingjing1,2,REN Lina1,2,LIN Chuan1,2(1.State Key Laboratory of Public Big Data(Guizhou University),Guiyang Guizhou 550025,China;2.College of Computer Science and Technology,Guizhou University,Guiy

4、ang Guizhou 550025,China)Abstract:The rapid development of Internet leads to the explosive growth of news data.How to capture the topic evolution process of current popular events from massive news data has become a hot research topic in the field of document analysis.However,the commonly used tradi

5、tional dynamic clustering models are inflexible and inefficient when dealing with large-scale datasets,while the existing deep document clustering models lack a general method to capture the topic evolution process of time series data.To address these problems,a Deep Dynamic Document Clustering(DDDC

6、)model was designed.In this model,based on the existing deep variational inference algorithms,the topic distributions incorporating the content of previous time slices on different time slices were captured,and the evolution process of event topics was captured from these distributions through clust

7、ering.Experimental results on real news datasets show that compared with Dynamic Topic Model(DTM),Variational Deep Embedding(VaDE)and other algorithms,DDDC model has the clustering accuracy and Normalized Mutual Information(NMI)improved by at least 4 percentage points averagely and at least 3 percen

8、tage points respectively in each time slice on different datasets,verifying the effectiveness of DDDC model.Key words:dynamic document clustering;event topic evolution;topic distribution;time series data;deep variational inference0 引言 随着互联网的发展,人们通过官方网站或社交平台等多方渠道获取大量的新闻数据,跟进热门事件的发展状况。现实中,新闻事件主题随着时间不断

9、演化具有演变性和继承性(即新闻主题的演化过程既要考虑上一个时间片的信息又要考虑当前时间片的内容);因此,如何从这些海量的新闻文本数据中获取事件主题的演化过程已经成为文本分析领域研究的热点。传统静态聚类模型通过构建概率分布模拟新闻文本的生成过程。针对时序的新闻文本主题演化,传统动态聚类模型扩展静态主题模型,使它能运用于文本流,并通过严谨的推导过程学习不同时间片新闻主题分布的参数,以此学习事件的主题演化过程;但是,复杂的理论推导使传统的静态聚类模型在面对大批量高维数据集时存在灵活性差和运算效率低的问题。随着深度学习的发展,神经网络可以将复杂的概率分布简化为简单的网络映射。基于随机变分推断算法1的深

10、度聚类模型更是简化了概率分布参数的推导过程,有效提升了针对大批量数据聚类的运算效率和灵活性。利用循环神经网络来捕获时序数据特性的方法能很好运用在非主题挖掘的时序聚类场景,但不适用于文本的主题演化挖掘。基于自编码器的聚类方法用于挖掘静态本文数据的主题并取得了一定的进展,但若要将静态深度聚类模型扩展到多个时间片,现有的模型缺乏一种通用的方法捕捉时间序列数据的主题演化。为了解决上述问题,本文提出了一种深度动态文本聚类文章编号:1001-9081(2023)08-2370-06DOI:10.11772/j.issn.1001-9081.2022091354收稿日期:20220906;修回日期:2022

11、1026;录用日期:20221101。基金项目:国家自然科学基金资助项目(62066007)。作者简介:陆辉(1998),男,贵州安顺人,硕士研究生,CCF会员,主要研究方向:动态聚类、主题挖掘;黄瑞章(1979),女,天津人,教授,博士,主要研究方向:自然语言理解、数据融合分析、文本挖掘、知识发现;薛菁菁(1995),女,山东日照人,博士研究生,CCF会员,主要研究方向:深度文本聚类;任丽娜(1987),女,辽宁阜新人,讲师,博士研究生,CCF会员,主要研究方向:自然语言处理、文本挖掘、机器学习;林川(1975),男,四川自贡人,副教授,硕士,主要研究方向:文本挖掘、机器学习、大数据管理与应

12、用。第 8 期陆辉等:深度动态文本聚类模型DDDC(Deep Dynamic Document Clustering,DDDC)模型。该模型使用高斯混合模型2同时学习多个新闻事件的混合主题先验分布,再运用随机变分算法推断出多个事件主题的混合变分后验分布,并将变分后验分布的信息融入下一个时间片混合主题先验分布的生成过程中,以实现事件主题信息在多个时间片传递和演化,达到学习事件完整的主题演化过程的目的。本文的主要工作如下:1)DDDC 模型高效地学习大批量高维新闻文本的主题分布。2)将静态的深度文本聚类模型扩展到多个时间片,可以运用于时序数据流。3)在真实数据集上的模型验证结果表明,DDDC模型在

13、数据集上的性能优于现有的传统动态聚类模型以及流行的深度聚类模型。1 相关工作 1)传统动态文本聚类。概率主题模型3是最典型的无监督文本聚类模型之一,这类模型假设文本的生成过程如下:从主题分布中选择一个有一定概率的主题,再从该主题的主题词分布中选择一个有一定概率的词,模型通常采用Gibbs采样4或期望最大化(Expectation Maximization,EM)算法5进行参数估计。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)6是一个经典的静态主题模型,不能直接应用于时序文本流。LDA 的许多扩展模型,如主题随时间变化的主题模型 ToT(Time over

14、Time)7假设主题的产生与时间戳的连续分布有关,文档的主题受单词共现和文档时间影响。动态主题模型(Dynamic Topic Model,DTM)8使用高斯分布来构建时间线,可以捕获顺序组织的文档语料库中主题的演变。主题跟踪模型(Topic Tracking Model,TTM)9应用于消费者兴趣的演变挖掘。流隐含狄利克雷分布(Streaming LDA,S-LDA)模型10和运用特征划分的狄利克雷混合模型(Dirichlet Process Mixture model for document clustering with Feature Partition,DPMFP)11也应用于长文

15、本流的主题挖掘,但上述算法较易受异常值、噪声的干扰,当数据规模和维度继续增加时模型性能受限,相反基于深度学习的方法在一定程度上可以避免异常值和噪声的干扰,且面对大批量高维新闻样本聚类时更有优势。2)静态深度文本聚类。多数深度文本聚类模型由一个编码器(encoder)和一个解码器(decoder)组成。自编码器(Auto Encoder,AE)12以无监督的方式对样本进行重构训练,训练得到新闻样本的嵌入表示,继而对嵌入层进行聚类。深度嵌入聚类(Deep Embedding Clustering,DEC)13对嵌入表示进行k-means聚类,构建KL散度(Kullback-Leibler dive

16、rgence)14函数来优化样本分布表达和聚类结果。融入数据结构信息的结构深度聚类网络(Structural Deep Clustering Network,SDCN)15既考虑数据本身的特性,又考虑数据之间的结构信息来提高聚类效果。上述3个模型缺乏对样本主题概率分布的挖掘,而 利 用 变 分 推 断 方 法 的 变 分 自 编 码 器(Variational AutoEncoder,VAE)16用于文本聚类时,使用标准高斯分布作为贝叶斯推断的主题先验分布,通过变分推断得到主题变分后验分布。VAE利用单一的标准正态分布作为模型的先验概率分布,然而文本数据集的主题分布可以看作是多个事件主题分布的

17、混合,单一的概率分布不能很好地代表总体的主题概率分布情况。混合自编码器模型(MIXture of AutoEncoder,MIXAE)17同 时 训 练 K 个 autoencoders,数 据 在 某 一 个autoencoder得到的重建误差最小,该数据就属于某一类。可以通过构造多个VAE的混合来实现主题分布的学习,但模型仍 然 无 法 刻 画 主 题 的 混 合 分 布 情 况。变 分 深 度 嵌 入(Variational Deep Embedding,VaDE)18使用高斯混合模型(Gaussian Mixture Model,GMM)学习文本集的主题混合先验概率分布,解决了主题概率

18、分布单一的问题。传统动态文本聚类能很好地捕捉文本主题的演化过程,但随着新闻数据量的快速增长,传统的动态聚类方法时间复杂度高,训练效率低下。深度文本聚类模型在处理高维数据时更具灵活性和健壮性,然而现有的深度文本聚类方法仅仅局限于挖掘单个时间片的主题信息,没有考虑到时间片上主题的演化。考虑主题在时间片上的演化需要一个适合的方法来继承前置时间片的主题信息,以更好地刻画当下的主题,并得到更好的聚类结果。因此,本文针对以上问题,通过文本主题先验的继承与学习,将静态深度聚类模型扩展到多个时间片,使它可以对时序新闻文本进行动态聚类,从而得到事件完整的主题演化。所提方法可用于医学病情演化聚类、社交媒体舆情分析

19、、动态社区发现、股票市场预测等数据随着时间变化而变化的场景。2 深度动态文本聚类模型 如图1所示,DDDC模型由两部分组成:第一部分是文本数据集的主题先验学习模块,该模块用于学习继承了上一时间片主题信息的主题先验分布;第二部分是深度变分聚类模块,该模块利用第一部分学习出的主题先验分布优化学习文本的近似后验分布和特征表示,以得到更优的聚类结果。2.1主题先验学习模块主题先验学习模块(图1中所示)可以将前一个时间片的文本主题信息融合到当前时间片文本主题先验分布的学习过程中,从而得出继承上一时间片信息的主题先验分布。该模块首先学习出当前时间片的文本特征表示19,再利用这些特征表示学习出继承了上一时间

20、片信息的主题先验分布。本节将以第t个时间片为例,详细描述主题先验学习模块的工作原理。2.1.1文本特征表示的学习在第t个时间片中,模块通过AE,以当前时间片文本数据Xt为学习目标,学习出Xt的特征表示ZtAE。自编码器与深度变分聚类模块中变分自编码器结构保持一致,使得深度变分聚类模块可以运用自编码器预训练时的网络参数,减少训练时间。自编码器以recon_loss函数作为损失函数来训练神经网络参数,recon_loss的定义如式(1)所示:recon_loss=dist(Xt,Xtrecon)(1)其中:Xtrecon是Xt通过AE得到的重构向量。ZtAE是最终学习出第t个时间片的文本特征表示,

21、它包含了第t个时间片文本的主题信息。每个时间片都有其对应的ZAE,它们将被用于后续主题先验的继承与学习。2.1.2主题先验的继承与学习本节将介绍如何在当前时间片学习出继承了上一时间片信息的主题先验分布(本文假设主题先验分布的形式是高斯混合分布)。该学习方法的实现主要依赖GMM。高斯混合模型是指具有如下形式(式(2)的概率分布模型(以第t个时间片为例):p(ZtAE)=k=1KkNk()ZtAE|t,t(2)通过高斯混合模型,基于初始参数tp=(tp,tp,tp)以及文本特征表示ZtAE,通过期望最大(EM)算法可以拟合主题先验 分 布 的 参 数tk=(tk,tk,tk)。其 中,初 始 参

22、数tp=(tp,tp,tp)中的tp是各主题分布的权重系数,tp为高斯混合2371第 43 卷计算机应用分布的均值,tp为高斯混合分布的标准差。文本特征表示ZtAE可根据2.1.1节的方法获得。以第t个时间片为例,主题先验的继承与学习过程如下:当t=0(即初始时间片)时,首先根据随机数随机生成一组参数0R,主题先验分布的初始参数0p与0R保持一致,即0p=0R。之后,基于初始参数0p以及当前时间片的文本特征表示Z0AE,经过GMM的优化学习,得到主题先验分布及其参数0k。当t 0时,与第0个时间片不同,在通过随机数随机产生的参数tR=(tR,tR,tR)之后,需将第t-1个时间片的主题信息 t

23、-1k按照式(3)继承到当前时间片中,得到包含前置时间片主题信息的初始参数tp=(tp,t-1k,tp)(关于 t-1k的生成过程将在2.2节中详细介绍),之后基于初始参数tp和文本特征表示ZtAE,根据式(4)学习继承了前置时间片主题信息的主题先验分布及其参数tk=(tk,tk,tk)。tp=tR t-1k(3)tp,ZtAEGMMtk(4)式(3)中:表示用前置时间片的主题信息 t-1k替换当前时间片主题先验分布的均值,以在初始参数tp的生成过程中继承前置时间片主题信息。此外,通过式(4)也可以看出,tp中所继承的前置时间片的信息在使用GMM学习主题先验分布参数的过程中得到了充分的利用。通

24、过该方法,后续时间片学习出继承了上一时间片主题信息的主题先验分布。2.2深度变分聚类模块深度变分聚类模块可以通过文本信息以及从主题先验继承和学习模块得到的主题先验分布推断出文本的主题后验分布。对于每一个样本,计算其属于混合后验分布中每个单一主题分布的概率来进行类簇划分。该模块可以分为两个步骤:1)利用变分自编码器推断主题后验分布;2)预测每个样本所属主题的概率,进而进行聚类。2.2.1推断主题后验分布该部分本质上是一个VAE,VAE将经过神经网络编码后的隐藏层假设为一个从混合高斯分布中以一定概率选择出的高斯分布,继而通过重采样技巧得到样本的潜在主题分布特征,再用这个特征进行解码,期望得到与原始

25、输入向量相同的结果。深度变分聚类模块的损失函数在重构损失函数的基础上增加编码主题后验分布与主题先验分布的KL散度正则项,通过这个正则项让主题先验分布更好地指导主题后验分布的生成。如图1所示,通过输入样本集Xt,编码器为样本集中的每一个样本x拟合一个变分后验分布q(z,c|x),表示随机变量z的混合后验分布,c是x所属主题的多项式分布随机变量。编码器输出的、为样本所属主题分布的均值和方差,通过重采样技巧得到主题随机变量Zt,继而通过解码器拟合一个生成概率p(x|z)并对样本进行重构,最后得到重构样本集Xtre。变分自编码器通过构建重构损失函数和正则项损失函数来训练网络,并在训练的过程中不断学习主

26、题的变分后验。其损失函数的构造基于随机变分推断(Stochastic Variable Inference,SVI)算法,通过对损失函数的优化来学习变分后验分布q(z,c|x)及生成概率分布p(x|z)的参数。变分推断算法通过最大化变分下界(Evidence Lower BOund,ELBO)的方式实现对主题后验分布参数tk的学习,最大化变分下界如式(5):maxL(x)=Eq tk(zt,c|xt)lbptk(xt|zt)ptk(zt,c)qtk(zt,c|x)=Eq tk(zt,c|xt)lb ptk(xt|zt)-KL()qtk(zt,c|x)|ptk(zt,ct)(5)式中的两项分别对

27、应了重构损失函数和正则化项损失函数,小写的x、z代表单个样本。式(5)中第1项用于指导解码器生成更好的重构样本Xtre,第2项指导主题后验分布tk逼近主题先验分布tk。通过将分布参数代入等式(5)推导得模型的损失函数如式(6):maxL(x)=1Ll=1L i=1Dxi lb(l)Gi+(1-xi)lb(1-(l)Gi)-12c=1Kcj=1J()lb 2cj+2Ij2cj+(Ij-cj)22cj+c=1Kc lb cc+12j=1J(lb 2Ij+1)(6)式(6)中:c=q(c|x)代表x所属类簇的多项式分布概率;K是聚类数;J是主题随机变量z的维度;c为类簇的权重系数;主题先验分布参数t

28、k=(tk,tk,tk)通过梯度下降更新,得到了主题后验分布tk=(tk,tk,tk),完成了文本主题分布的学习;(l)Gi表示第l次采样生成的的第i个分量值;2Ij表示推断网络得到的输出结果的第j个分量值的平方。训练好的模型将用于预测每个时间片文本的聚类结果。tk则作为当前时间片的主题信息传递给到下一时间片的 t+1k,用于主题的继承和演化,继承演化过程表示如下:tkSVItk 传递tk t+1k SVI t+1k(7)2.2.2聚类层聚类层通过为文本分配一个概率最大的类簇作为所属类簇。该层利用学习到的变分后验分布来进行类簇划分。具体过程如下:1)输入某个样本x,变分自编码器输出均值和方差;

29、2)利用重采样技巧采样生成主题特征z;3)z和主题后验分布tk=(t,t,t)利用式(8)进行聚类。c=q(c|x)=p(c|z)=p(c)p(z|c)c=1Kp(c)p(z|c)(8)其中:p(c)为主题先验中t的第c个分量,代表第c个主题的先验概率。而p(z|c)由式(9)计算得到;然后利用argmax(c)得到最终类簇。通过上述方式分别对数据集中每个样本进行类簇分配得到最终的聚类结果。p(z|c)=12-ze-(z-tc)22(tc)2dz(9)DDDC的聚类过程如下。输入 文本数据集 X0,X1,Xt-1,Xt,XT,t表示第t个时间片,T代表时间片总数;输出 每个时间片的聚类结果。算

30、法过程:while 直到最后一个时间片 do:主题先验学习模块:通过式(1)训练自编码器,学习Xt的特征表示ZtAE;随机生成初始参数tR=(tR,tR,tR);if t=0主题先验分布的初始参数0p=0R;else:通过式(3)继承上一时间片主题信息得到主题先验分布的初始参数tp=(tp,t-1k,tp);将tp和ZtAE作为输入,通过GMM根据式(4)学习主题先验tk=(tk,tk,tk);深度变分聚类模块:基于主题先验参数学习出主题后验tk=(tk,tk,tk)和主题变量Zt;聚类层结合Zt和tk,通过式(8)推断Xt所属类。2372第 8 期陆辉等:深度动态文本聚类模型DDDC3 实验

31、与结果分析 为了验证本文方法的有效性,本章从实验数据集、实验设置以及结果分析方面进行论述。通过 3 个具体的实验对DDDC的性能进行评测,通过实验结果的分析,验证了DDDC的可行性和有效性。3.1数据集描述和评测指标本文采集了人民网关于4个热门事件的1 600篇新闻报道组成了实验所用的人民网新闻数据集。数据集的4个热门事件的主题分别是“自动驾驶”“乌克兰”“雄安新区”“智慧城市”,事件的时间维度分为20192022年共4个时间片,其中2022年的新闻主要包含2022年1至4月。数据集的详细描述如表1所示。将前3个主题作为Series300数据集,维度设置为300。在对比实验中,则加入了智慧城市

32、主题数据作为Series500数据集,维度设置为500,并通过将各主题10%的文本进行置换到其他主题的方式进行加噪,以验证DDDC在主题更多、数据集更大和存在噪声的情况下的性能。文本预处理使用去标点、去停用词、去除无意义词等方法,此外,使用文本频率与逆文档频率(Term Frequency Inverse Document Frequency,TF-IDF)指数20对文本进行向量化编码。表1数据集详情Tab.1Details of datasets时间片2019202020212022主题自动驾驶100100100100乌克兰100100100100雄安100100100100智慧城市1001

33、00100100总数400400400400本文使用聚类精度(ACCuracy,ACC)以及归一化互信息(Normalized Mutual Information,NMI)21作为聚类结果的评测指标。NMI度量聚类得到的结果与标准结果之间的相似性,ACC代表被分配到正确类簇的文本所占整个数据集的百分比,在文本中使用匈牙利算法22聚类分配。以上评测指标的取值范围均归一化到(0,1),值越大表示模型的聚类性能越好。3.2模型参数设置DDDC模型中主题先验学习模块自编码器的网络结构设置为input_dim,100,200,3,解码器设置为3,200,100,input_dim。input_dim取

34、300和500。模型训练的epoch设置为100,学习率设置为0.000 2,每5个epoch调整一次学习率,调整系数为0.95。模型随机生成初始的GMM的先验,随机种子数为47。GMM的类簇个数为3。DDDC深度变分聚类模块编码器的网络结构为 input_dim,100,200,3,解码器网络与编码器结构呈镜像,学习率为0.000 2。以上所有网络参数都从正态分布N(0,0.01)中进行随机抽样初始化,本实验选择全连接神经网络(Fully Connected Neural Network,FCNN)作为编码器与解码器的网络主体结构。此外,为保证对比实验的客观性,所有深度对比模型的网络结构设置

35、均与DDDC相同。3.3实验结果和分析DDDC模型的核心是在当前时间片学习继承前置时间片主题信息的主题先验分布,并通过主题先验分布推断最终的主题后验分布,达到提升聚类性能以及学习主题演化过程的目的。第1个实验用于验证主题信息的继承对聚类效果的增强;第2个实验通过DDDC与其他聚类模型对比来验证DDDC的聚类性能;第3个实验通过重构样本的可视化展示DDDC对事件主题演化过程的学习能力。3.3.1主题继承聚类实验为验证DDDC模型中主题信息的继承对聚类效果的提升作用。使用Series300数据集,针对主题先验学习模块中主题继承的功能进行消融实验,对比继承前置时间片主题信息的聚类结果(传递 t-1k

36、)和未继承前置时间片主题信息的模型聚类结果(即不传递 t-1k),每个时间片的主题先验分布初始参数皆与初始时间片相同,由随机数随机生成。聚类结果如表2与图2所示,表2精确体现聚类具体结果,图2直观展示聚类性能,图 2 中继承前置时间片主题信息的聚类结果的 ACC(evoACC)和NMI(evoNMI)用方块和五边形串联的折线表示,未继承主题先验知识的聚类结果的ACC和NMI用三角形和圆形串联的折线表示。通过表2以及图2可以发现,初始时间片2019年没有主题继承,因此没有对比结果,而在其余 3 个时间片(20202022年)的聚类实验中,DDDC模型由于继承了前置时间片的图1DDDC模型Fig.

37、1DDDC model2373第 43 卷计算机应用主题信息,无论在文本信息的完整度还是对当前文本主题的把握程度上皆有所提升,具体体现在两个聚类评测指标上的表现皆优于无主题继承的聚类模型。为进一步验证聚类结果的提升来源于主题信息的继承,本节还验证了主题继承对主题先验分布的影响。理想状态下,排除其他冗杂因素影响,模型聚类性能与训练前主题先验分布的质量成正比,换言之,主题先验分布直接影响最终的聚类结果。本文用主题先验学习模块学习的主题先验分布进行聚类实验,通过对比继承主题信息的主题先验分布与没继承主题信息的主题先验分布对主题的把握程度,验证主题信息的继承对主题先验分布的质量的影响,从而进一步验证主

38、题信息继承对聚类性能的提升。主题先验分布的聚类结果如表 3 所示。可以发现,在2019年(初始时间片)的样本中,由于无前置时间片信息的继承,没有对照组。20202022这三年时间片由于继承了前置主题信息,其对应主题先验分布的聚类性能皆有所提升。该实验的结果与表3中得出的实验结论一致,这说明继承主题信息的先验分布在深度变分聚类模块的近似后验的学习中起到了积极的作用,这也进一步验证了聚类性能的提升来自主题信息的继承。3.3.2聚类模型算法的聚类效果对比此外,为验证深度动态聚类模型在时序数据集上聚类效果更好,本文在两个数据集上做了两组实验。首先在Series300数据集上与传统的动态聚类模型进行对比

39、来验证模型的效果,对比模型分别是DTM和ToT模型,两者均采用传统主题模型进行主题学习,最后通过推断每个样本对主题进行聚类分配。以上两个模型在长文本聚类和主题演化挖掘上具有较好的代表性:DTM的参数为0.01,其训练时间是DDDC模型的5倍;ToT模型参数中为50/3,为0.1,训练时间与DDDC模型时间相近。为了和其他静态深度聚类模型进行对比,本文使用Series500数据集进行实验,能更好地体现深度模型的优势。相较于AE、VAE、SDCN等流行且具有代表性的深度文本聚类模型,训练过程中它们的神经网络结构与DDDC模型保持一致,其中SDCN模型的超参数设置为为0.1,为0.5。DDDC与其他

40、模型的性能对比结果如表4所示。可以从表4中看到,在结构较好、维度较低的Series300数据集上的实验结果中,DTM、ToT也能取得较好结果,对比DTM、ToT模型,DDDC模型在各时间片的聚类精度均至少提升了4个百分点,NMI至少提高了3个百分点。但在增加了数据集大小并加入噪声后,传统的动态聚类算法性能均不如深度聚类算法。在Series500数据集上相较于流行的静态深度算法,DDDC模型在2019年没有主题继承,因此没有对比结果,但DDDC模型在后续时间片均获得了更好的结果,DDDC模型对比性能最好的静态模型VaDE,ACC也至少提升了4个百分点,NMI提高了3个百分点,再次表明了继承主题信

41、息有助于时序数据的聚类,且说明了动态聚类中深度网络结构的有效性。3.3.3主题演化过程的展示为验证DDDC对事件主题演化过程的学习能力。本文用更具有代表性的Series300数据集,在每个时间片对DDDC模型的深度变分聚类模块中的重构样本Xtre进行词云的可视化展示,选取的展示事件主题为“自动驾驶”,可视化的结果如图3所示。通过图3可以随着时间的演化看出“自动驾驶”新闻事件的发展脉络:在2019年,新闻主要对自动驾驶的技术、级别、传感器等进行报告,体现了公众在2019年更关注技术图2DDDC模型在Series300上的聚类实验结果Fig.2 Clustering experiment resu

42、lts of DDDC model on Series300表2主题继承的聚类结果Tab.2Clustering results of topic inheritance聚类模型DDDC无继承DDDC有继承2019年ACC0.89NMI0.842020年ACC0.700.93NMI0.680.882021年ACC0.770.97NMI0.710.902022年ACC0.720.92NMI0.690.89表3主题先验分布的聚类结果Tab.3Clustering results of topic prior distribution聚类模型AE+GMM无继承AE+GMM有继承2019年ACC0.8

43、5NMI0.782020年ACC0.680.85NMI0.630.752021年ACC0.720.90NMI0.630.802022年ACC0.650.86NMI0.590.78表4DDDC与其他聚类模型的聚类结果Tab.4Clustering results of DDDC and other clustering models数据集Series300Series500模型DTMToTDDDCAESDCNVAEVaDEDTMToTDDDC2019年ACC0.850.880.710.740.760.860.700.68NMI0.720.820.580.570.660.750.620.56202

44、0年ACC0.890.820.930.790.800.740.810.730.670.86NMI0.730.720.880.590.660.630.690.600.490.742021年ACC0.930.890.970.780.790.700.830.680.690.87NMI0.870.790.900.570.650.610.720.470.500.752022年ACC0.850.850.920.760.770.750.790.720.690.83NMI0.740.770.890.630.660.630.720.500.530.772374第 8 期陆辉等:深度动态文本聚类模型DDDC细节;

45、2020 年,因为新闻增加了对自动驾驶公司的报道在2019年的主题词基础之上增加了百度、辅助、企业等新主题词;2021年,增加了激光雷达、芯片、事故等新主题词,对应报道关注技术的焦点与自动驾驶的负面报道;2022年的主题信息则出现了落地、商业化、智能网等新的主题词。4年主题词的演化对应自动驾驶主题下主题词的消退和出现,体现了新闻报道的演化以及公众关注点的转变。可视化实验的结果证实了DDDC模型能有效地学习出事件主题演化的过程。4 结语 本文提出深度动态文本聚类算法,该算法利用自编码器对高维数据进行降维,再利用主题先验生成模块有效地融合了前一时间片的主题信息,利用主题先验推断主题后验并进行聚类。

46、模型作为生成式模型可以重构样本,通过重构样本进行词云展示观察主题演变过程。本文算法未来计划利用后续主题信息对前置时间片的主题信息进行反馈调节,来提升前一时间片的聚类效果。参考文献(References)1 HOFFMAN M D,BLEI D M,WANG C,et al.Stochastic variational inferenceJ.Journal of Machine Learning Research,2013,14:1303-1347.2 REYNOLDS D.Gaussian mixture models M/LI S Z,JAIN A K.Encyclopedia of Bio

47、metrics.Boston:Springer,2009:659-663.3 BLEI D,CARIN L,DUNSON D.Probabilistic topic modelsJ.IEEE Signal Processing Magazine,2010,27(6):55-65.4 TERENIN A,SIMPSON D,DRAPER D.Asynchronous Gibbs sampling C/Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics.New York

48、:JMLR.org,2020:144-154.5 MOON T K.The expectation-maximization algorithmJ.IEEE Signal Processing Magazine,1996,13(6):47-60.6 BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation J.Journal of Machine Learning Research,2003,3:993-1022.7 WANG X R,McCALLUM A.Topics over time:a non-Markov continuous-ti

49、me model of topical trendsC/Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2006:424-433.8 BLEI D M,LAFFERTY J D.Dynamic topic modelsC/Proceedings of the 23rd International Conference on Machine Learning.New York:ACM,2006:113-120.9 IWAT

50、A T,WATANABE S,YAMADA T,et al.Topic tracking model for analyzing consumer purchase behavior C/Proceedings of the 21st International Joint Conference on Artificial Intelligence.San Francisco:Morgan Kaufmann Publishers Inc.,2009:1427-1432.10 AMOUALIAN H,CLAUSEL M,GAUSSIER E,et al.Streaming-LDA:a copul

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服