基于类间相似性的聚类集成方法.pdf

资源描述

1、收稿日期:2023-01-05摇摇摇摇摇摇修回日期:2023-05-08基金项目:国家自然科学基金项目(U1931209)作者简介:张栋超(1998-),男,硕士,研究方向为机器学习和数据挖掘;蔡江辉(1978-),男,教授,博士,山西省学术技术带头人,CCF 高级会员(74390S),研究方向为机器学习和数据挖掘;杨海峰(1980-),男,教授,博士,山西省“三晋英才冶支持计划青年优秀人才,CCF 高级会员(74391S),研究方向为特定背景的大数据挖掘方法及机器学习;通讯作者:郑爱宇(1990-),男,讲师,博士,研究方向为机器学习和数据挖掘。基于类间相似性的聚类集成方法张栋超

2、,蔡江辉,杨海峰,郑爱宇(太原科技大学计算机科学与技术学院,山西太原 030024)摘摇要:聚类集成是聚类的一个重要分支,它用于融合多个基聚类,来生成具有鲁棒性和高质量的最终聚类划分。将原始信息转化为共协矩阵,通过共协矩阵得到最终聚类划分的聚类集成方法是目前很多研究者研究的内容,然而大多数研究者都忽略了聚类结果容易受到噪声的影响,且忽略了共协矩阵在数据量大时,时间以及空间复杂度高的问题。为了解决以上问题,该文设计了一种基于类间相似性的聚类集成方法(CSCE)。该方法首先基于证据积累模型找到原始对象之间的相似性,将原始对象划分为多个小簇。然后通过一种新的相似度计算方法,计算簇与簇之间的相似

3、度,形成簇与簇的相似矩阵。最后通过归一化切割(NCUT)切图的方法,将簇相似矩阵划分为最终聚类结果。该方法将低质量异常对象按相似度并入与之相似的簇中,并在 8 个数据集上进行了实验。结果表明,该方法不仅聚类效果好,而且解决了传统共协矩阵时间以及空间复杂度高的问题。关键词:聚类集成;共协矩阵;基聚类;证据积累;复杂度中图分类号:TP301.6摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇文章编号:1673-629X(2023)11-0156-06doi:10.3969/j.issn.1673-629X.2023.11.023Clustering Ensemble Method Bas

4、ed on Similarity Between ClustersZHANG Dong-chao,CAI Jiang-hui,YANG Hai-feng,ZHENG Ai-yu(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)Abstract:Clustering ensemble is an important branch of clustering,which is used to fuse multiple base c

5、lusters to generate robust and high-quality final clustering partitions.At present,many researchers focus on the clustering ensemble method of transforming the original in鄄formation into a co-association matrix to obtain the final clustering partition through the co-association matrix.However,mostre

6、searchers ignore that the clustering results are easily affected by noise,and the time and space complexity of the co-association matrix ishigh when the amount of data is large.In order to solve the above problems,we design a clustering ensemble method based on similaritybetween clusters(CSCE).The m

7、ethod firstly finds the similarity between the original objects based on the evidence accumulationmodel,and divides the original objects into several small clusters.Then a new similarity calculation method is used to calculate thesimilarity between clusters and form the similarity matrix between clu

8、sters.Finally,the cluster similarity matrix is divided into the finalclustering results by the method of normalized cut(NCUT).The proposed method combines low quality abnormal objects into similarclusters according to similarity,and experiments are conducted on 8 datasets.It is showed that the propo

9、sed method not only has a goodclustering effect,but also solves the problem of high time and space complexity of traditional co-association matrix.Key words:clustering ensemble;co-association matrix;base clusters;evidence accumulation;complexity0摇引摇言聚类是统计多元分析、数据挖掘和机器学习中的一个重要问题。聚类的目标是将一组对象分组成簇,以便同一

10、簇中的对象与其他簇中的对象高度相似但显著不同。在过去几十年中,已经开发了大量聚类算法,包括分区1、分层2、基于密度3和基于网格4的聚类等。但没有一种算法能够处理实践中遇到的所有聚类问题,即无法发现具有不同大小、形状和噪声水平的所有聚类。给定一个数据集,不同的算法通常返回不同的结果。事实上,由具有不同初始化和参数的相同算法返回的聚类结果通常是不同的。因此,用户可能会困惑于选择最合适的方法来解决他们的问题。集成第 33 卷摇第 11 期2023 年 11 月摇摇摇摇摇摇摇摇摇摇计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT摇

11、摇摇摇摇摇摇摇摇摇Vol.33摇 No.11Nov.摇 2023聚类方法已成为克服这一问题的有力工具。集成聚类是聚类的一个重要分支。聚类集成根据多个聚类结果找到一个最终的数据划分,该划分最大程度地共享了所有基聚类的信息。目前已经开发了几种类型的聚类集成方法,其中基于相似性的聚类集成方法受到很多研究者的青睐。很多学者通过寻找初始对象之间的相似性来构建共协矩阵5,然后通过该矩阵获得最终聚类划分。在矩阵元素的相似性计算过程中,大部分研究者将基聚类信息看的同等重要,而原始对象中往往会有一些噪声,导致基聚类结果变差,并影响了最终聚类结果,而且传统的共协矩阵空间复杂度往往是 O(n2),

12、在数据量较大时内存占用极大。因此,该文提出了一个基于簇间相似性的聚类集成方法。首先,设计了一种基于证据积累模型的相似度计算方法,将相似度大的样本点暂时划分为小簇;然后,提出一种新的相似度计算方法,将划分好的小簇作为相似矩阵的构成对象,构建相似矩阵;最后,通过对相似矩阵的切图,形成最终的聚类划分。主要贡献如下:(1)设计了一种基于证据积累模型的相似性计算方法,有效地将初始对象形成初始簇划分。(2)提出一种簇间相似性计算方法,用簇来构建相似矩阵,该方法相比直接使用原始对象构建共协矩阵,大大节省了空间复杂度。1摇相关知识目前,聚类集成有两个重要任务:(1)如何生成不同的基聚类并保证其多样性;(2)

13、如何将多个不同的基聚类融合生成最终一致聚类。第一个任务已经提出了几种不同的方法,大致可以分为以下 3 类:(1)使用相同的方法(参数不同)来生成基聚类。比如用 k-means 作为基聚类器用不同的聚类数来生成聚类集5;随机选择不同的聚类中心使用 k-means6;使用不同的核参数运行谱聚类算法7等;(2)运行不同类型的聚类算法以生成基本聚类。比如使用多个层次聚类和 k-均值生成聚类集8;将具有不同目标函数的多个聚类算法作为基本聚类,并将聚类集成问题转化为多目标优化问题9;Yu 等人研究了如何整合多种类型的模糊聚类10等;(3)在数据集中的不同子空间或子样本上运行一个

14、或多个聚类算法。比如应用 bootstrap 方法获得了多个数据子集11;使用随机映射的方法获得多个特征子空间12;使用不同的核函数来描述数据13;结合boosting 和 bagging 的优点,提出一种新的簇集合混合采样方法14等。第二个任务开发了几种类型的聚类集成方法,大致可以分为以下 4 类:(1)成对相似性方法。利用所有数据对象两两之间的相似关系来聚合多个聚类。比如 Fred 和 Jain5提出了一种基于证据积累的集成算法,并构造了一个相似度矩阵;Iam On 等人定义了一个基于链接的相似度矩阵,该矩阵充分考虑了集群之间的相似度15;Huang等人提出了一种增强的共协矩阵16,该矩阵

15、能够同时捕获聚类中的对象共现关系以及多尺度集群关系。薛红艳等人17以及邵长龙等人18用信息熵对共协矩阵加权以达到更好的聚类效果。(2)基于图的方法。将基础聚类信息表达为一个无向图,通过图划分得到集合聚类。比如 Strehl 和Ghosh 提出了 3 种超图集成算法19:基于聚类的相似性划分算法(CSPA)、超图划分算法(HGPA)和元聚类算法(MCLA)。CSPA 创建一个相似图(对象视为顶点,相似度做边)。HGPA 构建了一个超图,其中顶点代表对象,而相同的加权超边代表簇。MCLA 生成一个图,其中顶点代表聚类,而边的权重反映聚类之间的相似性。Bai 等人20提出了从基聚类中提取可信度标签,

16、通过聚类的关系构建形成图,最后通过归一化谱聚类获得最终聚类结果。(3)基于重标记的方法。将基本聚类信息表示为标签向量,然后通过标签对齐聚类。其代表性方法有硬标签对齐和软标签对齐。比如将重标记问题转化为最小成本的一对一分配问题21;使用交替优化策略来解决软标签对齐问题22;Rathore 等人提出了一个有效的模糊集合框架23,该框架使用累积一致方案来聚集模糊聚类。(4)基于特征的聚类方法,将聚类集成问题作为分类数据的聚类。比如整合信息论和遗传算法来寻找最一致的聚类24;Topchyet 等人提出了一个概率框架25,并使用 EM 算法来寻找共识聚类等。除了以上 4 种,近年来也有部分学者提出使用加

17、权的方法。与现有的方法不同,笔者研究的对象被指定用 k-means 算法做基聚类器。首先,对原始对象进行相似度计算,形成多个小簇;然后,用另一种方法计算簇与簇之间的相似度;最后,通过 NCUT26切图的方式得到最终聚类划分,来实现多弱等于强的目的。2摇文中算法2.1摇相关定义设 X=X1,X2,Xn 是对象的集合,其中,xi=xi1,xi2,xid751摇第 11 期摇摇摇摇摇摇摇摇摇摇摇摇摇张栋超等:基于类间相似性的聚类集成方法d 为维度,n 为数据对象的个数。聚类集成方法首先要在数据集 X 上产生 M 个聚类结果,即:仪=仔1,仔2,仔M其中,仔h=Ch1,

18、Ch2,Chl是第 h 个基聚类,Chl表示第 h 个基聚类的第 l 个簇。该文主要使用的符号如表 1 所示。表 1摇常用符号符号描述X数据集xi数据集 X 中的第 i 个对象N数据集 X 中对象的数量装基聚类集仔h第 h 个基聚类M基聚类集装中基聚类的个数Chl是仔h的第 l 个簇k是仔中簇的个数CM多个基聚类聚合得到的相似矩阵Si第 i 个对象集T对象集的个数2.2摇聚类集成方法该文使用 k-means 算法做基聚类器来生成基聚类。k-means 是聚类中最熟知的算法,它的聚类个数需要事先指定。由于各个基聚类器的随机初始化的中心不同,当类数较大时,同一个数据集聚类的效果可能会

19、完全不同。因此,将 k-means 作为基聚类器去生成聚类结果,也满足聚类集成的多样性要求。使用 k-means 做基聚类器,通常使用固定的 k 值即N,因此在文中 k 值选取为N,k-means 的目标函数如公式(1)所示:F(仔h)=移kl=1移仔h(xi)=l,xi沂Xd(xi,vhl)2(1)其中,vhl表示第 h 个基分区中第 l 个簇的中心点,d(xi,vhl)是目标点(xi)到聚类中心点(vhl)的欧氏距离。基于证据积累模型,该文提出一个相似度计算方法,用来将相似度高的一些对象预先划分为簇,随后将剩余的相似度较低等异常点进行归并处理。X(i,j)=1M移Mh=1移kl=1子(i,

20、j,Chl)(2)相似度量方法如公式(2)所示,其中,子(i,j,Chl)=1,xi沂 Chl疑 xj沂 Chl0,otherwize部分对象的基聚类结果如图 1 所示。仔1仔2仔3仔4仔5仔6x1111111x2222232x3111111x4111113x5222222x6221222x7333323x8232321图 1摇部分基聚类结果示意图图 1 中,x1 x8是数据集中的 8 个对象,仔1 仔6是 6 次基聚类结果,表中元素代表 x 属于第几类。以图 1 中的对象为例,通过公式(2)计算相似度得知 x1与 x3的相似度为 1,x1与 x4相似度为 5/6,因此 S1=x1,x3,x

21、4将 3 个对象划分为 1 个簇;同理 S2=x2,x5,x6,x7,x82 个对象与其他对象间相似度较小,因此暂设为异常点 S3=x7,S4=x8。该过程每个对象只经过 1 次运算,其时间复杂度为 O(N)。使用数据集(S)设置得到以下相似矩阵,如图 2 所示。S1S2S3S4S111/271/181/9S211/97/18S311/2S41图 2摇对象集的相似矩阵示意图簇间相似度计算如公式(3)所示,其中 p,q 为簇(S)中对象的个数。1pqM移pSi=1移qSj=1移Mh=1啄(Si,Sj,Chl)(3)其中,啄(Si,Sj,Chl)=1,xi沂 Chl疑 xj沂 Chl0,othe

22、rwize接着以图 1 为例,S1=x1,x3,x4,S4=x8。x1和 x8在仔6同属一类,x3和 x8在仔6同属一类,所以按公式(3)所得,S1和 S4的相似度为 2/(1伊3伊6)=1/9,其余相似度同理可得。该过程的时间复杂度为O(pqTN),qpT N2。得到相似矩阵以后,使用 NCUT算法25将相似度矩阵视作权重图,通过切图的方式得到最终聚类划分,其时间复杂度最终可优化为O(TN)。该方法总时间复杂度为 O(N+pqTN+TN)。3摇实验结果与分析3.1摇实验数据集该方法在 8 个数据集上进行了测试,其中 4

23、个是851摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 33 卷合成的数据集,4 个是真实的数据集,合成数据集可从https:/ /clustering 下载,真实数据集为 UCI,其下载地址也在下方给出(http:/www.ics.uci.edu/mlearn/MLRepository.html)。这 8 个数据集的详细说明如表 2 所示:数据对象数(N)、维度数(D)、集群数(K)。表 2摇数据集描述数据集NDK合成数据Ring1 50023Spiral31

24、223Parabolic1 00022Flame24022真实数据Iris15043wine178133Glass21496Ionosphere3513423.2摇评价标准采用 CA 和 NMI 来衡量聚类结果与真实数据分区之间的相似性。设 P=C1,C2,CK 是数据集(X)的真实分区,P=C1,C2,CK 是聚类的结果。由于互信息可以描述一对聚类的共享信息,所以归一化互信息(NMI)通常用作外部有效性标准,其定义如下:NMI(P,P)=摇移Ki=1移Kj=1|Ci疑 Cj|log(N|Ci疑 Cj|Ci|Cj|)(移Ki=1CilogCiN)(移Kj=1CjlogCjN)(4)CA 是通

25、过计算错误率来衡量聚类结果的另一个外部标准。CA(P,P)=1N移Ci沂P|Ci疑 mod(Ci,P)|(5)3.3摇对比实验为了正确检验所提算法的性能,将其与以下几种经典的聚类集成算法进行了比较。这些比较算法的代码是开放的和可访问的。选择了基于链接的相似性方法和基于图的集成方法。基于链路的相似性方法:由 Iam On 等人提出的15加权链接三元组(WCT),加权三重质量(WTQ),组合相似性度量(CSM)。基于图的算法:包括 Strehl 和 Ghosh 提出的18基于聚类的相似性划分算法(CSPA)、超图划分算法(HGPA)和元聚类算法(MCLA)。在所有实验中,参

26、数设置如下:由于每个聚类集成算法的聚类结果都不是唯一的,因此将每个算法重复运行 50 次,最终的聚类个数设置为真实分区的个数,并将每次的结果给出平均值。每个基本分区的群集数为N。对于 CSCE、CSPA、HGPA 和 MCLA,基聚类的数量设置为 100,对于 WCT、WTQ 和 CSM,基本分区的数量设置为 10。同时,WCT、WTQ 和 CSM 的衰减因子参数(DC)设置为 0.9。表 3 和表 4 分别展示了不同算法在 8 个数据集上的 CA 和 NMI 结果,每列最好的结果进行了加粗显示。从表 3 和表 4 可以看出,文中方法在多数情况下优于 6 种对比算法。Ring 数据集上文中方法

27、的 CA 和NMI 都达到了 1,因为 k-means 算法在 k=N 的情况下运行 M 次,并没有把原本不属于一类的 2 个对象错误地分在 1 个簇中,因此在后续集成过程中,不断将相似度大的小簇归并,得到了最好的结果。Parabolic 和Flame 也有很好的结果,但没有到 1,因为在数据集中存在 2 类互相融合的对象,这是基聚类器选用 k-means 方法本身的缺陷。Spiral 的 2 类结果都只在 0.6附近,原因是 k=N 时,2 类始终不能分开,尝试将 K值调大,结果 CA 和 NMI 的结果都为1。4 个真实数据集上也证明文中方法也有不错的表现。表 3摇不同方法在 8 个不同

28、数据集的 CA 结果方法摇摇摇摇摇摇摇合成数据集摇摇摇摇摇摇摇摇摇摇摇摇摇摇真实数据集摇摇摇摇摇摇摇RingSpiralParabolicFlameIrisWineGlassIonosphereWCT0.470.410.790.960.940.720.600.68WTQ0.480.410.890.960.950.720.600.71CSM0.490.430.780.950.910.710.610.66CSPA0.570.380.760.830.960.720.610.66HGPA0.680.600.740.860.970.720.610.70

29、MCLA0.610.440.780.840.970.720.580.69CSCE1.000.680.930.970.910.900.750.88951摇第 11 期摇摇摇摇摇摇摇摇摇摇摇摇摇张栋超等:基于类间相似性的聚类集成方法表 4摇不同方法在 8 个不同数据集的 NMI 结果方法摇摇摇摇摇摇摇合成数据集摇摇摇摇摇摇摇摇摇摇摇摇摇摇真实数据集摇摇摇摇摇摇摇RingSpiralParabolicFlameIrisWineGlassIonosphereWCT0.220.030.300.830.850.390.330

30、.13WTQ0.540.020.570.800.860.380.320.11CSM0.230.010.330.790.810.360.330.11CSPA0.380.560.470.450.640.620.730.49HGPA0.350.550.480.460.650.650.720.43MCLA0.330.550.470.450.650.650.750.48CSCE1.000.610.890.840.840.830.730.773.4摇时间效率分析在这部分,将分析文中算法与对比算法的时间效率。选用 KDD-CUP爷99 数据集进行本次时间效率分析,该数据集共有 500 万条数据,41 个特

31、征,从中选取了一部分进行时间效率分析实验。选用基于链接的聚类集成算法(WCT)、基于图的聚类集成算法(CSPA)与 CSCE 进行比较,参数设置与对比实验部分相同。不断增加数据集,记录不同算法的运行时间,结果如图3 所示。其中 X 轴为对象数量,Y 轴为运行时间(s)。从实验结果可以看出,与其他算法相比,文中算法非常有效。这表明 CSCE 在对大规模数据集进行聚类时有很好的效果。图 3摇不同算法的时间比较4摇结束语该文提出了一种基于簇间相似性的聚类集成方法。首先,通过计算样本相似性暂时划分为多个小簇,然后,计算对象集之间的相似性并形成对象集的相似矩阵,最后,通过 NCUT 切图的方法得到最

32、终聚类划分。该方法形成的相似矩阵对比传统的共协矩阵,有效地缩减了空间复杂度,提升了聚类的性能,并能够快速得到最终聚类结果。参考文献:1摇MACQUEEN.Some methods for classification and analysisof multivariate observationsC/Proc fifth Berkeley sym鄄posium on mathematical statistics and probability.s.l.:s.n.,1967:281-297.2摇 DAY W H E,EDELSBRUNNER H.Efficient algorithms for

33、agglomerative hierarchical clustering methodsJ.Journal ofClassification,1984,1(1):7-24.3摇 LU J,ZHU Q.An effective algorithm based on density clus鄄tering frameworkJ.IEEE Access,2017,5:4991-5000.4摇 CHENG W,WANG W,BATISTA S.Grid-based clusteringM.New York:Chapman and Hall/CRC,2018.5摇 FRED A,JAIN A.Comb

34、ining multiple clusterings using evi鄄dence accumulationJ.IEEE Trans.Pattern Anal.Mach.Intell.,2005,27(6):835-850.6摇 KUNCHEVA L,VETROV D.Evaluation of stability of k-means cluster ensembles with respect to random initializationJ.IEEE Trans.Pattern Anal.Mach.Intell.,2006,28(11):1798-1808.7摇 ZHANG X,JI

35、AO L,LIU F,et al.Spectral clustering ensem鄄ble applied to SAR image segmentationJ.IEEE Trans.Geosci.Remote Sens.,2008,46(7):2126-2136.8摇 GIONIS A,MANNILA H,TSAPARAS P.Clustering aggre鄄gationJ.ACM Trans.Knowl.Discov.Data,2007,1(1):1-30.9摇 LAW M,TOPCHY A P,JAIN A K.Multiobjective data clus鄄teringC/IEE

36、E computer society conference on computer061摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 33 卷vision&pattern recognition.Washington,DC:IEEE,2004:424-430.10 YU Z,CHEN H,YOU J.Hybrid fuzzy cluster ensembleframework for tumor clustering from bio-molecular dataJ

37、.IEEE/ACM Trans.Comput.Biol.Bioinf.,2013,10(3):657-670.11 FISCHER B,BUHMANN J.Bagging for path-based cluste鄄ringJ.IEEE Trans.Pattern Anal.Mach.Intell.,2003,25(11):1411-1415.12 FERN X,BRODLEY C.Random projection for high dimen鄄sional data clustering:a cluster ensemble approach C/Proc.international co

38、nference on machine learning.s.l.:s.n.,2003:186-193.13 ZHOU P,DU L,SHI L,et al.Learning a robust consensusmatrix for clustering ensemble via Kullback-Leibler diver鄄gence minimizationC/Proc.the 25th international jointconference on artificial intelligence.Argentina:s.n.,2015:4112-4118.14 YANG Y,JIANG

39、 J.Hybrid sampling-based clustering en鄄semble with global and local constitutionsJ.IEEE Trans.Neural Netw.Learn.Syst.,2016,27(5):952-965.15 IAM-ON N,BOONGOEN T,GARRETT S,et al.A link-based cluster ensemble approach for categorical data cluste鄄ringJ.IEEE Trans.Knowl.Data Eng.,2010,24(3):413-425.16 HU

40、ANG D,WANG C,PENG H,et al.Enhanced ensembleclustering via fast propagation of cluster-wise similaritiesJ.IEEE Trans.Syst.Man.Cybern.,2018,51(1):508-520.17 薛红艳,钱雪忠,周世兵.超簇加权的集成聚类算法J.计算机科学与探索,2021,15(12):2362-2373.18 邵长龙,孙统风,丁世飞.基于信息熵加权的聚类集成算法J.南京大学学报:自然科学,2021,57(2):189-196.19 STREHL A,GHOSH J.Cluster

41、 ensembles:a knowledge re鄄use framework for combining multiple partitionsJ.Journalof Machine Learning Research,2002(3):583-617.20 BAI L,LIANG J.A multiple k-means clustering ensemblealgorithm to find nonlinearly separable clustersJ.Informa鄄tion Fusion,2020,61:36-47.21 TOPCHY A,MINAEI-BIDGOLI B,JAIN

42、A.Adaptive clus鄄tering ensembles C/International conference on patternrecognition.s.l.:s.n.,2004:272-275.22 BO L,ZHANG Z M.Combining multiple clusterings by softcorrespondenceC/IEEE international conference on datamining.s.l.:IEEE,2005:282-289.23 RATHORE P,BEZDEK J C,ERFANI S M,et al.Ensemblefuzzy c

43、lustering using cumulative aggregation on randomprojectionsJ.IEEE Transactions on Fuzzy Systems,2018,26(3):1510-1524.24 CRISTOFOR D,SIMOVICI D.Finding median partitions u鄄sing information theoretical based genetic algorithmsJ.U鄄niversal Comput.Sci,2002,8(2):153-172.25 TOPCHY A,JAIN A,PUNCH W.Cluster

44、ing ensembles:models of consensus and weak partitionsJ.IEEE Trans.Pattern Anal.Mach.Intell,2005,27(12):1866-1881.26 WANG Y,SHEN X.Self-supervised transformers for unsu鄄pervised object discovery using normalized cutC/Confer鄄ence on computer vision and pattern recognition.s.l.:s.n.,2022:14543-14553.161摇第 11 期摇摇摇摇摇摇摇摇摇摇摇摇摇张栋超等:基于类间相似性的聚类集成方法

展开阅读全文