基于异构融合和判别损失的图嵌入聚类.pdf

资源描述

1、第6 1卷第4期吉林大学学报(理学版)V o l.6 1 N o.4 2 0 2 3年7月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)J u l y 2 0 2 3d o i:1 0.1 3 4 1 3/j.c n k i.j d x b l x b.2 0 2 2 2 2 6基于异构融合和判别损失的图嵌入聚类姚博,王卫卫(西安电子科技大学数学与统计学院,西安7 1 0 1 2 6)摘要:针对自动编码器仅对单个数据所包含的内容信息进行特征提取,忽略了数据之间结构信息的问

2、题,提出一种基于异构融合和判别损失的深度图聚类网络.首先,将两个自动编码器获取的异质信息进行融合,解决了采用单一自动编码器提取特征时的信息丢失问题;其次,在聚类训练模块基于类内分布一致性设计判别损失函数,使模型可以端到端地训练,避免了两阶段训练方法中出现特征提取与聚类算法提前假设不匹配的情况;最后,在6个常用数据集上进行实验并验证了该方法的有效性.实验结果表明,与现有的大多数深度图聚类模型相比,该方法在非图数据集和图数据集上的聚类性能有明显提升.关键词:图聚类;深度学习;判别损失;异构融合中图分类号:T P 3 9 1 文献标志码:A 文章编号:1 6 7 1-5 4 8 9(2 0 2 3)

3、0 4-0 8 5 3-1 0G r a p hE m b e d d i n gC l u s t e r i n gB a s e do nH e t e r o g e n e o u sF u s i o na n dD i s c r i m i n a n tL o s sYAOB o,WANG W e i w e i(S c h o o l o fM a t h e m a t i c sa n dS t a t i s t i c s,X i d i a nU n i v e r s i t y,X ia n7 1 0 1 2 6,C h i n a)A b s t r a c

4、 t:A i m i n ga t t h ep r o b l e mt h a ta u t o e n c o d e ro n l ye x t r a c t e df e a t u r e sf r o mt h ec o n t e n t i n f o r m a t i o nc o n t a i n e d i na s i n g l e d a t a,i g n o r i n g t h e s t r u c t u r e i n f o r m a t i o no f d a t a,w e p r o p o s e d ad e e pg r a

5、p hc l u s t e r i n gn e t w o r kb a s e do nh e t e r o g e n e o u sf u s i o na n dd i s c r i m i n a n tl o s s.F i r s t l y,t h eh e t e r o g e n e o u si n f o r m a t i o no b t a i n e db yt w oa u t o e n c o d e r sw a sf u s e d,a n dt h ep r o b l e m o fi n f o r m a t i o nl o s s

6、w a ss o l v e dw h e nas i n g l ea u t o e n c o d e rw a su s e d t oe x t r a c t f e a t u r e s.S e c o n d l y,t h ed i s c r i m i n a n t l o s s f u n c t i o nw a sd e s i g n e di nt h ec l u s t e r i n gt r a i n i n gm o d u l eb a s e do nt h ec o n s i s t e n c yo fd i s t r i b u

7、t i o nw i t h i nt h es a m ec l u s t e r,s ot h a t t h em o d e l c o u l db e t r a i n e de n d-t o-e n d,a n da v o i d i n g t h em i s m a t c hb e t w e e nt h e f e a t u r ee x t r a c t i o na n dt h ea s s u m p t i o n s o ft h ec l u s t e r i n g a l g o r i t h m i nt h et w o-s t

8、a g et r a i n i n g m e t h o d s.F i n a l l y,e x p e r i m e n t sw e r e c a r r i e do u t o ns i xc o mm o n l yu s e dd a t a s e t s t ov e r i f y t h e e f f e c t i v e n e s s o f t h ep r o p o s e dm e t h o d.T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tc o m p a r e d w i

9、t h m o s te x i s t i n gd e e pg r a p hc l u s t e r i n gm o d e l s,t h ep r o p o s e d m e t h o ds i g n i f i c a n t l yi m p r o v e st h ec l u s t e r i n gp e r f o r m a n c eo nb o t hn o n-g r a p ha n dg r a p hd a t a s e t s.K e y w o r d s:g r a p hc l u s t e r i n g;d e e pl e

10、 a r n i n g;d i s c r i m i n a n t l o s s;h e t e r o g e n e o u s f u s i o n收稿日期:2 0 2 2-0 5-2 0.第一作者简介:姚博(1 9 9 7),女,汉族,硕士研究生,从事深度图聚类的研究,E-m a i l:b y a o_1s t u.x i d i a n.e d u.c n.通信作者简介:王卫卫(1 9 9 0),女,汉族,博士,教授,从事机器学习和深度学习的研究,E-m a i l:w w w a n g m a i l.x i d i a n.e d u.c n.基金项目:国家自然科

11、学基金(批准号:6 1 9 7 2 2 6 4;6 1 4 7 2 3 0 3;6 1 7 7 2 3 8 9).聚类是机器学习领域中的一项基本无监督任务,其基本思想是利用不同的相似度衡量方法将数据划分为不同的类别.经典的聚类方法如基于划分方法的K均值(K-m e a n s)聚类1、基于密度的聚类方法D B S C AN(d e n s i t y-b a s e d s p a t i a lc l u s t e r i n g o fa p p l i c a t i o n s w i t h n o i s e)2、谱聚类(s p e c t r a lc l u s t e

12、r i n g,S C)3、高斯混合(G a u s s i a n m i x e dm o d e l,GMM)聚类4、非负矩阵分解(n o n-n e g a t i v em a t r i xf a c t o r i z a t i o n,NMF)聚类5都是直接对数据进行操作,这类方法适用于低维数据.随着信息科技的发展,现实生活中信息量巨增,数据的维度越来越高.高维数据常伴随信息冗余以及噪声,这不仅会导致算法的计算复杂度上升,还会影响聚类精度6.上述方法不再适用于此类数据,目前普遍的解决方法是首先利用数据降维方法将原始数据映射到低维特征空间,得到原始数据的特征表示,然后对所提取的

13、特征进行聚类,但一些高维数据之间复杂的非线性结构仍是聚类算法要解决的难题.由于深度神经网络具有强大的非线性映射能力,因此基于深度神经网络的聚类算法7-9已在图像分类、人脸识别等技术领域广泛应用.深度嵌入聚类(d e e pe m b e d d i n gc l u s t e r i n g,D E C)7及其变体改进深度嵌入聚类(i m p r o v e dd e e pe m b e d d e dc l u s t e r i n g,I D E C)8、基于非对称残差自动编码器(a u t o e n c o d e r,A E)的深度嵌入聚类9利用卷

14、积神经网络(c o n v o l u t i o n a ln e u r a ln e t w o r k s,C NN)6提取数据的隐特征,卷积操作保留了包含在图像、自然语言等欧氏数据中的关键信息,极大提升了聚类精度,但这些方法作用于单个数据,并未考虑数据之间的关联性.实际应用中的数据常存在一定的联系,例如引文网络1 0、社交网络1 1等,具有同一作者的两篇论文、互为好友的人群之间应该具有较强的联系.这些数据为非欧氏数据,可以被表示为图(g r a p h).在这种数据中,不仅包含数据本身的内容信息,还包含数据与数据之间的某种关联度,具体表现为边的连接.因此,深度聚类方法7-9存在一定的

15、局限性:首先,这类方法在提取数据特征时并未考虑数据与数据之间的联系,将会导致得到的特征表示不包含数据的结构信息,使信息不全面从而导致聚类性能欠佳;其次,这类方法普遍适用于欧氏数据,只能在二维空间进行特征提取,而现实生活中的数据常以三维的形式出现;最后,这类方法一般作用于单个数据,增加了算法的运行时间和计算损耗.为克服上述局限性,研究者们提出了作用在图上的深度聚类方法1 2-1 4.图卷积网络(g r a p hc o n v o l u t i o n a l n e t w o r k,G C N)1 2是经典的深度图聚类方法之一,它通过作用于节点属性矩阵和邻接矩阵捕获节点之间的结构信息,

16、得到具有结构信息的特征表示.通过最小化交叉熵对特征表示进行监督,以保证特征表示的有效性.最终对得到的特征表示进行聚类.但该方法仍有不足:1)其为一种两阶段法,首先提取原始数据的特征表示,然后对特征表示进行聚类得到类别分配,这样的两阶段法不能保证得到的特征表示与所用的聚类方法具有较高的适配度,导致聚类性能次优;2)图卷积网络主要利用中心节点及其邻居节点得到特征表示,忽略了节点本身的内容信息,同样会导致信息丢失从而影响聚类性能;3)在指导网络训练阶段使用的交叉熵损失函数中需要用到数据的真实标签,而在实际应用中获取真实标签需要耗费巨大的人力、物力.针对上述问题,结构深度聚类网络(s t r u c

17、t u r a ld e e pc l u s t e r i n gn e t w o r k,S D C N)1 3将来自两个自动编码器的特征表示进行融合,得到一个融合特征表示,并设计了一个对偶自监督模块为网络训练提供指导.它将特征提取与网络训练整合在一个框架中,通过端到端地训练得到类别分布,有效提升了聚类性能.但该网络框架舍弃了解码器和重构损失,可能导致空间特征扭曲,使特征表示不具有代表性.基于上述问题,结合G C N和S D C N,本文设计一个端到端训练的深度图嵌入聚类网络,从类内和类间两个角度设计损失函数,使同一类特征之间的距离小,不同类特征之间的距离大.此外,本文在S D C N

18、融合特征的基础上引入一个图解码器,对原始数据的内容信息以及结构信息进行重构,通过最小化重构损失保证融合特征表示中包含高质量的结构信息,从而更利于聚类.在6个公开数据集上的实验结果表明,本文方法具有较高的泛化能力和聚类性能.1 预备知识1.1 图卷积网络G C N是作用在图数据上的图表征提取方法,网络结构如图1所示.G C N由两层图卷积层组成,非线性激活函数为R e L U,首先使用图卷积网络对图中的节点进行卷积操作,得到每个节点特征表示458 吉林大学学报(理学版)第6 1卷组成的特征矩阵:Z=f(X,A)=AR e L U(A XW(0)W(1),(1)其中:X为图的

19、节点属性矩阵;A为图的邻接矩阵,它反映了图中节点之间的拓扑结构;A=D-1/2(A+IN)D-1/2保证了节点的自连接性,Di i=j(A+IN)i j;W(0),W(1)分别为第一层卷积层和第二层卷积层的参数矩阵.图1 G C N框架F i g.1 F r a m e w o r ko fG C N在得到最终的特征表示后,用分类函数S o f t m a x()对特征表示进行聚类得到最终的类别标签矩阵Y=S o f t m a x(Z).为得到有利于聚类的特征表示,G C N利用交叉熵损失反向传播监督网络训练:m i nL=-lYLFf=1Y

20、l fl nYl f,(2)其中YL表示原始数据的真实标签集,Yl f表示第l个样本的真实标签,Yl f表示G C N预测的样本类别标签,F表示G C N模块的输出通道数.G C N使用随机梯度下降对网络参数W(0),W(1)进行优化,通过最小化损失函数得到最优参数.该方法使用了一种有效的分层传播机制,不仅可以得到友好的节点特征表示,还很大程度提升了计算效率.但提取特征与类别分配不是联合训练,不能保证聚类算法与特征获取算法的适配性,导致聚类性能较差.1.2 结构深度聚类网络S D C N1 3是基于G C N和自动编码器的结构聚类算法,该方法将特征提取和类别分配整合到一个统一的框架中,利用自动

21、编码器输出特征表示并计算类别分布,利用该类别分布作为正则项监督G C N模块,从而使G C N得到利于聚类的特征表示.S D C N是一种端到端的网络框架,如图2所示.先将图数据和图中节点的属性矩阵分别输入到G C N模块和自动编码器模块中,分别得到图的特征表示和对应节点的特征表示;为充分利用原始数据中包含的有效信息,再将带有节点内容信息的特征表示H(i)和带有节点之间拓扑结构信息的特征表示Z(i)进行层与层的融合;最后将K-m e a n s算法作用于节点的特征表示H(L)得到初始质心j,根据学生t分布计算出类别分布矩阵Q=(qi j),qi j=(1+hi-j2/)-(+1)/2j(1+h

22、i-j 2/)-(+1)/2,(3)其中qi j表示样本i被分配到类别j的概率,hi表示样本i的特征向量.为进一步强调具有高置信度的特征表示,根据S N E算法1 5,在低维空间中构建样本的概率分布P,防止大型集群扭曲节点的特征表示.这种分布称为理想目标分布,计算公式为pi j=q2i j/fjj q2i j/fj,(4)其中fj=iqi j.由于分布Q和P分别为同一特征表示H(L)在高维空间和低维空间的两种分布,故这两种分布要尽558 第4期姚博,等:基于异构融合和判别损失的图嵌入聚类图2 S D C N框架F i g.2 F r a m e w o r ko fS D C N可能地靠

23、近,S D C N基于K L散度定义聚类损失为m i nK L(PQ)=m i nj,ijpi jl o gpi jqi j.(5)基于上述损失函数,使用随机梯度下降算法(S G D)1 6联合优化特征表示Z(i)和质心j.该方法将两个网络捕获的异质信息进行融合,使特征表示更具代表性.该损失函数的主要思想是使同一类的数据相互靠近,而未考虑不同类的数据相互远离,导致聚类性能次优.2 方法设计给定一张具有N个节点的图G=V,E,其中V=v1,v2,vN 表示节点集,E表示边集.图中的每个节点都具有自己的特征,用特征矩阵XNF表示,其中F为特征维度.边表示了图的拓扑结构,用邻接矩阵ANN体现.若节点

24、vi与节点vj之间有边,则对应的Ai j=1;否则,Ai j=0.为设计一个端到端训练方式的网络框架,并保证得到特征表示的有效性和判别性,本文提出一个基于异构融合和判别损失的图嵌入聚类框架.该框架主要由两部分构成:异构信息融合模块和图嵌入聚类训练模块.异构信息融合模块包含两个捕获不同信息的自动编码器:基于图卷积网络G C N的图自动编码器和基于卷积网络C NN6的自动编码器A E9.在编码器和解码器之间加入一个线性融合层,将来自两个自动编码器的特征进行线性融合得到更具代表性的融合表示.图嵌入聚类训练模块包含两个损失函数,基于类内特征距离小的聚类损失和类间距离大的判别损失.整体网络框架如图3所示

25、.本文框架的整体损失函数由两部分构成:异构自动编码器的重构损失函数Lr e c和聚类训练的聚类损失函数Lc l u,用公式表示为L=Lr e c+Lc l u,(6)其中为平衡系数.2.1 异构信息融合模块为充分利用不同编码器捕获不同信息的特点,本文将两种自动编码器捕获的信息进行融合.S D C N是一种层与层之间的融合模式,它将卷积自动编码器得到的信息作为辅助信息补充到图自动编码器中,忽视了两种信息的平衡性,导致得到的特征表示丢失关键信息.此外,S D C N中的G C N模块并未对原始数据进行重构,导致获取的特征表示中丢失一些有效信息.因此,基于G C N设计一个图自动编码器,不仅对原始数

26、据本身进行重构,还对原始数据之间的拓扑结构进行重构,保证了特征表示的有效性.此外,本文在编码器与解码器之间加入一个线性融合操作,直接对编码器的输出编码进行融合,有效利用两种编码器捕获的信息,得到一个公共的融合表示.658 吉林大学学报(理学版)第6 1卷图3 本文提出的网络框架F i g.3 F r a m e w o r ko fp r o p o s e dn e t w o r k对于图自动编码器,将图数据的特征矩阵X和邻接矩阵A作为输入,通过图卷积层提取特征得到图特征表示Z,即Z=G C N(e)(X,A);然后将特征表示Z输入到图解码器中对原始特征矩阵和邻接矩阵进行重

27、构,即XG=G C N(d)(A,Z),AG=S i g m o i d(Z ZT),其中为图卷积自动编码器的参数.同理,对于卷积自动编码器,只将特征矩阵X作为输入,通过卷积操作得到特征表示H=C NN(e)w(X).解码器重构数据X=C NN(d)w(H).为使特征表示中尽可能地包含原始数据的有效信息,原始数据与重构数据应尽可能地相似,故定义自动编码器的重构损失为Lr e c=X-XG2F+A-AG2F+X-X2F,(7)其中为平衡系数.为使得到的特征表示更有利于聚类,需要使特征表示含有全面且有效的信息.本文将来自两种结构的自动编码器的编码进行融合,即Y=H+(1-)Z;此时得到的融合表示Y

28、既包含图自动编码器捕获的结构信息,又包含卷积自动编码器捕获的来自数据本身的内容信息,可为后续的聚类任务提供更有价值的信息.2.2 图嵌入聚类训练模块S D C N使用自动编码器A E获取的类别分布作为正则项引导G C N模块的训练,并未合理利用两个不同特性的自动编码器.若A E的聚类效果不理想,则可能会直接导致G C N得到的特征表示不理想.本文直接利用获取到的公共融合表示计算实际类别分布.从同一类样本的类别分布尽可能地一致、不同类样本的类别分布尽可能不同两个角度设计损失函数.根据D E C7的理念,同一数据在高维空间和低维空间产生的类别分布应保持一致性,引入一个辅助目标分布,使实际类别分布

29、与辅助类别分布之间的差异尽可能小,有利于同一类的样本相互靠近;此外,本文还设计了一个判别损失函数,在同类样本尽可能靠近的同时,使每个类的质心相互远离,有利于不同类的样本相互远离,增强特征表示的判别性.首先将K-m e a n s算法作用于公共融合表示yi(yi是Y的第i个样本)得到质心j,使用学生t分布计算特征表示yi与质心j之间的相似度:qi j=(1+yi-j2/)-(+1)/2k(1+yi-k2/)-(+1)/2,(8)其中为尺度参数,qi j表示第i个样本被分配到第j类的概率.本文将Q=(qi j)nk作为实际类别分布.根据D E C7的思想,对应的理想目标类别分布为pi j=q2i

30、j/fjKk=1(q2i j/fk),(9)758 第4期姚博,等:基于异构融合和判别损失的图嵌入聚类其中fj=iqi j.本文用K L散度衡量两个分布之间的差异性,基于类内距离,定义聚类损失函数为L1=K L(QP)=ijpi jl o gpi jqi j.(1 0)基于类间距离,本文使用欧氏距离度量不同类质心之间的距离.为增强特征表示的判别性,使不同类的质心相互远离,定义聚类损失函数为L2=e x p-jmj-m2F.(1 1)因此,从类内和类间两个不同的角度同时考虑,本文的聚类损失函数为Lc l u=L1+L2,(1 2)其中为非负系数.2.3 模型训练模型训练分为预训练阶段和训练

31、阶段.预训练阶段通过最小化两个自动编码器的重构损失式(7),得到网络的初始参数,有利于算法收敛到全局最优解.训练阶段通过最小化聚类损失不断调整聚类中心和类别分布.当训练结束后,将K-m e a n s算法作用于最终的特征表示得到最终的分类标签.算法1 基于判别损失和异构融合的图嵌入聚类优化算法.输入:特征矩阵X;邻接矩阵A;迭代次数T;类别数目K;输出:分类标签O;步骤1)预训练阶段:最小化式(7)初始化网络参数,得到图特征表示Z和节点特征表示H;步骤2)基于异构线性融合,得到公共融合特征表示Y;步骤3)利用K-m e a n s聚类算法作用于公共融合特征表示得到初始聚类中心j;步骤4)利用式

32、(8)计算特征表示的类别分布Q,利用式(9)计算相应的辅助类别分布P;步骤5)通过A d a m优化器最小化目标函数(1 2)直至收敛,调整网络参数;步骤6)利用K-m e a n s聚类算法作用于最终公共融合特征表示获取类别标签O.3 实验与分析3.1 实验数据集为测试本文方法的泛化性和有效性,在6个常用的公开数据集上测试本文方法的聚类性能.其中包含3个非图数据集和3个图数据集,对于非图数据集,本文利用核方法1 7度量两个样本之间的相似度,并利用KNN算法1 8构造它们的拓扑结构,即Ai j=e x p-xi-xj22t,(1 3)其中t为变量尺度参数,xi表示第i个样本点的属性向量.各数据

33、集的概况列于表1.表1 各数据集概况T a b l e1 I n t r o d u c t i o no f e a c hd a t a s e t名称样本数目类别数目类型名称样本数目类别数目类型A CM30 2 53图数据集HHA R1 02 9 96非图数据集D B L P40 5 74图数据集U S P S92 9 81 0非图数据集C i t e s e e r33 2 76图数据集R E UT1 00 0 04非图数据集 A CM1 3:该数据集是一个公开的图数据集,每个节点表示一篇论文,共有30 2 5篇.每篇论文中的关键字为节点的特征.若两篇论文的作者为同一人,则这两个节点之

34、间有一条边,这些论文根据研究领域分为3类,分别是数据库、无线通信和数据挖掘.D B L P1 9:该数据集包含40 5 7个节点,每个节点表示一个作者,作者的研究领域为节点特征.若两个人为合著者,则这两个作者之间有一条边.该数据集中的样本被分为4类,分别是数据库、数据挖掘、机器学习和信息检索.C i t e s e e r:该数据集是一个引文网络数据集,包含33 2 7篇论文.若一篇论文引用了另一篇论文,858 吉林大学学报(理学版)第6 1卷则这两篇论文之间有一条边.该数据集中的论文被分为6类,分别是代理、人工智能、数据库、信息检索、机器语言和人机交互.HHA R2 0:该数

35、据集为人类活动识别数据集,是非图数据集.这些人类活动来自智能手机和智能手表的1 02 9 9条传感器记录.根据人类动作将人类活动分为6类,分别是骑自行车、坐、站、走、上楼梯和下楼梯.U S P S2 1:该数据集是一个灰度图像数据集,包含92 9 8个手写数字.每张图像像素点的灰度值为节点特征,根据手写数字09,将这些图像分为1 0类.R E UT2 2:该数据集是一个文本数据集,包含8 1 00 0 0篇英语新闻.本文随机抽取1 00 0 0个样本进行聚类.根据新闻报道领域,将此数据集中的样本分为4类,分别是行业、社会、市场和经济.3.2 实验设置实验在W i n d o w s6 4位操作

36、系统上进行,硬件环境为I n t e l(R)C o r e(TM)i 7-4 7 9 0C P U处理器,内存为8G B.使用的编程语言为P y t h o n 3.7.6,深度框架为P y t o r c h 1.4.0.本文使用的优化器为S G D和A d a m,编码器与解码器为对称结构.对于预训练阶段,本文设置迭代次数为5 0.对于训练阶段,本文设置训练批次为3 0 0,每个批次大小为2 5 6.平衡系数设为=0.1,=0.0 1.对于不同的数据集,本文设置不同的学习率,对于数据集U S P S,HHA R,A CM,D B L P,学习率设为1 0-3,对于数据集C i t e

37、s e e r和R E UT,学习率设为1 0-4.为验证本文方法的有效性,将本文方法与经典的聚类方法K-m e a n s1、深度聚类方法A E2 3和I D E C8,图聚类方法VGA E2 4,A R GA2 5,S D C N1 3进行比较.本文选取3个常用的聚类性能评价指标进行对比,分别为聚类准确度(A C C)2 6、标准化互信息(NM I)1 4和准确召回率F1分数2 6.对于这些聚类指标,值越高表示算法的聚类性能越好.3个指标的计算公式分别为A C C=1nm a xmni=1li=m(ci),(1 4)其中li为第i个样本的真实标签,ci为算法输出的第i个预测标签,m(ci)

38、为映射函数;NM I=I(l;c)m a xH(l),H(c),(1 5)其中l表示聚类算法得到的标签,c表示真实标签,I(l;c)表示l与c之间的互信息,H(l)和H(c)分别为l和c的信息熵;F1=2PRP+R,(1 6)其中P=T PT P+F P为精确率,R=T PT P+F N为召回率,T P表示将正样本预测为正样本的概率,F P表示将负样本预测为正样本的概率,F N表示将正样本预测为负样本的概率.3.3 方法性能对比将本文方法与其他聚类算法性能进行比较,从而验证本文方法的聚类性能.为验证本文方法的泛化性能,选取图数据集和非图数据集两种类型的数据集,表2列出了不同方法在图数据集上的聚

39、类结果.为避免出现个别特殊结果,表2中的结果为实验运行5次后取得的平均值.表3列出了不同方法在非图数据集上的聚类结果.对于对比方法K-m e a n s,本文运行5次选取平均值,其他的对比方法结果参考文献1 3 和文献2 7.由表2和表3可见,本文方法在大部分数据集上聚类性能优于其他方法.对于图数据集A CM,D B L P和C i t e s e e r,相比于S D C N,本文方法的聚类性能指标A C C分别提升了2.3 0%,3.5 7%,5.5 2%;对于非图数据集HHA R,U S P S和R E UT,本文方法的聚类性能指标A C C分别提升了2

40、.0 4%,0.1 3%,0.5 5%.可见,本文方法更适用于图数据集.其原因可能有两个:1)人为构造非图数据集的拓扑结构导致结构信息不明确;2)非图数据集的样本数是图数据集样本数的3倍,样本数目太多导致网络训练困难.实验结果表明,本文方法可有效增强特征表示的可判别性,提升聚类性能.958 第4期姚博,等:基于异构融合和判别损失的图嵌入聚类表2 不同方法在非图数据集上的聚类性能T a b l e2 C l u s t e r i n gp e r f o r m a n c eo fd i f f e r e n tm e t h o d so nn o n-g r a p hd a t

41、 a s e t s方法HHA RA C CNM IF1U S P SA C CNM IF1R E UTA C CNM IF1K-m e a n s0.5 9 980.5 8 870.5 8 330.6 6 820.6 2 720.6 4 940.5 4 080.4 1 730.4 2 71A E0.4 6 210.3 6 100.4 1 820.4 4 020.4 8 500.3 6 650.7 5 010.4 9 690.6 1 01I D E C0.7 9 200.7 9 600.7 3 330.7 6 840.7 7 950.7 5 650.7 5 430.5 0 280.6 3 21

42、VG A E0.6 2 520.6 0 590.5 6 960.6 3 810.7 0 040.5 8 610.6 0 850.2 5 710.5 7 14A R G A0.7 0 400.7 1 540.6 6 670.7 1 960.6 8 590.7 0 930.6 5 500.3 0 550.6 1 82S D C N0.8 4 490.8 0 210.8 2 970.7 7 220.7 9 090.7 6 260.7 7 150.5 1 010.6 5 48本文0.8 6 530.8 2 200.8 6 300.7 7 350.7 9 580.7 6 200.7 7 700.5 6

43、900.6 9 10表3 不同方法在图数据集上的聚类性能T a b l e3 C l u s t e r i n gp e r f o r m a n c eo fd i f f e r e n tm e t h o d so ng r a p hd a t a s e t s方法A CMA C CNM IF1D B L PA C CNM IF1C i t e s e e rA C CNM IF1K-m e a n s0.6 8 200.3 2 620.6 8 460.3 6 460.0 8 860.2 6 370.3 3 840.1 5 020.2 2 46A E0.8 2 780.5 0

44、200.8 2 950.5 4 340.2 2 200.5 3 250.5 9 050.3 0 660.5 4 83I D E C0.8 6 450.5 8 240.8 6 320.6 5 710.3 0 800.6 4 390.6 0 230.3 0 740.5 2 30VG A E0.8 2 940.5 2 850.8 2 860.5 7 630.2 1 890.5 4 560.5 1 610.2 5 720.4 1 84A R G A0.8 3 270.5 0 390.8 3 350.5 4 500.2 0 190.5 3 430.5 9 120.3 0 690.5 4 85S D C

45、N0.8 8 600.6 3 260.8 8 570.6 6 130.3 2 490.6 5 560.6 2 220.3 6 010.5 8 93本文0.9 0 900.6 8 690.9 0 810.6 9 700.4 0 130.7 0 140.6 7 740.4 2 310.6 2 303.4 消融实验为测试本文方法中各模块的重要性,设计一个消融实验进行验证.从整个模型中剔除相应的损失函数,观察聚类性能的变化,聚类性能下降越明显,表示该模块在聚类过程中的促进作用越大.本文的整体损失函数包括5个,重构损失Lr e c3个:图特征重构损失、图结构重构损失和卷积重构损失;聚类损失2个:基于类内

46、数据相互靠近的L1和基于类间数据相互远离的L2.消融实验结果列于表4,其中“”表示剔除该损失函数.表4 数据集A CM的消融实验结果T a b l e4 R e s u l t so fa b l a t i o ne x p e r i m e n t o nA CMd a t a s e tLr e c(图特征)Lr e c(图结构)Lr e c(卷积特征)L1L2A C CNM IF10.8 9 260.6 4 500.8 9 130.8 8 900.6 3 980.8 8 960.8 8 630.6 3 850.8 8 590.8 9 900.6 6 790.8 9 270.8 7 6

47、00.6 3 090.8 7 450.8 9 770.6 4 760.8 9 25 由表4可见,当从完整的方法中剔除任何一个损失函数时,聚类性能都会下降,证明了每个模块对于聚类过程的促进作用.剔除图特征重构或图结构重构时,聚类性能下降程度相当,说明特征与结构的重要性大致相同.而当剔除卷积重构时,聚类性能下降程度较大,说明卷积自动编码器提取的数据本身的信息非常重要,证明了异质信息的交互可有效提升聚类性能.3.5 收敛性分析下面设计两个实验验证本文方法的收敛性:首先,在数据集A CM上观察样本分布图,随着迭代次数的增加,样本分布是否趋于稳定;其次,根据迭代次数的增加观察聚类精度是否趋于平稳.实验结

48、果分别如图4和图5所示.由图4和图5可见,随着迭代次数的增加,样本逐渐分为3类,并在迭代3 0 0次后,类别分布趋于稳定;同时,3个指标精度随着迭代次数的增加逐渐上升并趋于平缓.从而本文方法的收敛性得以证明.068 吉林大学学报(理学版)第6 1卷图4 数据集A CM随迭代次数增加的类别分布F i g.4 C a t e g o r yd i s t r i b u t i o n so fA CMd a t a s e t i n c r e a s i n gw i t hn u m b e ro f i t e r a t i o n s图5 数据集A CM随迭代次数增加

49、的指标精度变化曲线F i g.5 V a r i a t i o nc u r v e so f i n d i c a t o ra c c u r a c yo fA CMd a t a s e t i n c r e a s i n gw i t hn u m b e ro f i t e r a t i o n s综上所述,为解决图数据的聚类问题,本文提出了一个基于异构融合和判别损失的图嵌入聚类网络.首先对不同结构自动编码器提取的数据信息进行线性融合;然后基于同一类分布一致性和不同类分布差异性设计损失函数,利用反向传播训练网络参数;最后利用K-m e a n s算法作用于特征表示得到最

50、终的聚类结果.在6个数据集上的实验结果表明,本文方法可有效提升聚类性能,其中对图数据集的聚类提升效果明显.参考文献1 L L OY DSP.L e a s tS q u a r e sQ u a n t i z a t i o n i nP CMJ.I E E ET r a n s a c t i o n so nI n f o r m a t i o nT h e o r y,1 9 8 2,2 8(2):1 2 9-1 3 7.2 KN E G E LHP,K R OG E RP,S AN D E RJ,e t a l.D e n s i t y-B a s e dC l u s t e

展开阅读全文