1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于联合熵的多视图集成聚类分析赵晓杰,牛雪莹,张继福(太原科技大学 计算机科学与技术学院,太原 030024)摘要:多视图方法可使问题分析的角度更加全面,并且能有效利用各个视图间的相关信息和互补信息,因而多视图聚类分析已成为机器学习与模式识别等领域的研究热点之一。但在多视图集成聚类分析中,基聚类簇作为基聚类中的一个类簇,包含若干相似数据对象,其疏密程度仅能体现数据自身分布特性,并不能体现基聚类簇质量。利用联合熵来评估基聚类簇的不确定性及质量,提出一种多视图集成聚类分析方法。利用联合熵评估基聚类簇的质量,
2、通过基聚类簇不确定性指数体现基聚类簇的重要程度与质量优劣。利用基聚类簇不确定性指数构造一种加权共协矩阵,提出一种多视图集成聚类算法(MVECJE),改善多视图集成聚类分析的性能。通过实验验证聚类簇权重在多视图集成聚类分析中的重要程度,表明其能改善集成聚类性能。在 MSRC-v1、Caltech101-7、Handwritten numerals(HW)图像数据集和 Reuters文本数据集上,采用 CoregSC、AWGL、MMSC、DIMSC、COMVSC、MVKKM 和CWK2M 作为对比算法进行实验,结果表明,在 NMI、ACC、ARI评价指标上,MVECJE算法具有明显的优势,其中在H
3、W 数据集上 3个评价指标均高于 0.93。关键词:多视图集成聚类;基聚类簇;权重;加权共协矩阵;联合熵开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(10):112-119.英文引用格式:ZHAO X J,NIU X Y,ZHANG J F.Multi-view ensemble clustering analysis based on joint entropy J.Computer Engineering,2023,49(10):112-119.Multi-View Ensemble Clustering Analysis Based
4、on Joint EntropyZHAO Xiaojie,NIU Xueying,ZHANG Jifu(College of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)【Abstract】Multi-view clustering analysis has become a research hotspot in machine learning and pattern recognition as a more comprehensive
5、perspective,and the relevant and complementary information between various views are provided.However,in multi-view ensemble clustering analysis,the base clustering cluster,as a cluster in base clustering,contains several similar data objects.Its density can only reflect the distribution characteris
6、tics of the data and not the quality of the base cluster.In this study,joint entropy is used to evaluate the uncertainty and quality of the base cluster,and a multi-view ensemble clustering analysis method is proposed.First,the quality of the base clusters is evaluated using joint entropy and expres
7、sed using an uncertainty index.Second,a weighted co-occurrence matrix is constructed using the uncertainty index of the base cluster,and a Multi-View Ensemble Clustering algorithm based on Joint Entropy(MVECJE)is established,which effectively improves the performance of the multi-view ensemble clust
8、ering analysis.Finally,through experiments,the importance of cluster weights in multi-view ensemble clustering analysis is verified and the performance of ensemble clustering is improved.In addition,on the MSRC-v1,Caltech101-7,and Handwritten numerals(HWs)image datasets,and Reuters text datasets,Cor
9、egSC,AWGL,MMSC,DIMSC,COMVSC,MVKKM,and CWK2M are considered as comparison algorithms.From the experimental results,the MVECJE algorithm presents advantages regarding the NMI,ACC,and ARI evaluation indices,the three evaluation indices in the HW dataset are higher than 0.93.【Key words】multi-view ensemb
10、le clustering;base cluster;weight;weighted co-occurrence matrix;joint entropyDOI:10.19678/j.issn.1000-3428.0066233基金项目:国家自然科学基金(61876122)。作者简介:赵晓杰(1997),男,硕士研究生,主研方向为数据挖掘;牛雪莹,博士研究生;张继福,教授、博士。收稿日期:2022-11-10 修回日期:2022-12-16 Email:人工智能与模式识别文章编号:1000-3428(2023)10-0112-08 文献标志码:A 中图分类号:TP180概述 多视图聚类是将给定
11、的多视图数据依据相似性划分为不同的簇,使得相同簇中的对象尽量相似,不同簇中的对象尽量不同1。多视图数据可以使得问题描述的角度更全面,提供比传统单视图数据更丰富的信息来揭示其内在结构,并已成功应用于社交网络2-3、多模态生物特征分析等领域4-5。多视图集成聚类作为一类典型多视图聚类分析方法,通过集成聚类的思想使多个视图较弱的基本分区集成为一个较强的一致分区,并利用多个独立的基聚类器分别对原始数据集进行聚类,然后使用某种集成策略获得最终的聚类结果,其关键在于从特征融合转移到分区融合,相较于特征融合更有利于单视图高层信息的保持。但如何充分利用多视图数据的一致性和互补性,是改善并提升多视图集成聚类效果
12、的关键。分区融合策略是多视图集成聚类的关键步骤之一,可分为视图加权和簇加权两种。视图加权6-7主要是根据每个视图的基聚类损失来确定每个视图的权重,并将每个视图视为一个整体,同一视图中的基聚类簇被赋予相同的权重,而簇加权是根据每个视图分区中基聚类簇的质量来确定权重的。簇加权可比视图加权获得更加详细和灵活的信息,更有利于融合多视图分区。目前,簇加权8主要采用基聚类簇内最小平均距离,更加紧密的、数据对象之间距离更小的簇被赋予高权重,稀疏的簇被赋予低权重。基聚类簇的疏密程度仅能体现数据本身分布特性,并不能反映簇质量优劣,即基于最小平均距离的簇评价标准并不能很好地表示聚类质量优劣。本文采用联合熵估计多视
13、图聚类簇的不确定性,提出一种基于联合熵的多视图集成聚类算法。联合熵体现了多视图中所有基聚类簇的数据分布特征,保留了基聚类簇加权优势,体现了不同视图相似对象构成的对应类簇存在差异性,有效地提升了多视图集成聚类效果。本文设计基于联合熵的基聚类簇质量评估方法,构造基于基聚类簇质量评估的加权共协矩阵,提出基于联合熵的多视图集成聚类算法(Multi-View Ensemble Clustering algorithm based on Joint Entropy,MVECJE)。1相关工作 多视图聚类综合了数据的多个视图信息,获得了 优 于 单 视 图 聚 类 的 性 能,已 成 为 一 个 研 究 热
14、点9-11。多视图聚类按照视图的融合方式主要分为基于特征融合的多视图聚类12-15和基于集成的多视图聚类16-19两大类。基于特征融合的多视图聚类分析的基本思想是将多视图数据的多种特征表示融合成为一个单一表示,并应用传统的聚类分析实现聚类分析任务,同时该类方法在聚类结果的解释方面具有一定优势。典型的研究工作主要包括:文献 20 利用正则相关分析的方法从多个视图的特征中选取相关度最高的视图,以此作为数据融合后的唯一表示;文献 21 利用谱聚类将数据在每种视图下都表示成一个图,并为每个图赋以权重,并用随机游走的方法进行融合形成数据的唯一表示;文献 22 提出一种多核 K-means算法来组合多视图
15、数据,并将此组合作为数据的最终表示;文献 23 用一种核的方法给各视图自适应地赋予权重,之后将这些加权的视图融合为一个最终的表示。这类方法融合后的表示具有可解释性强的特点,但大多依赖于融合前图的初始化,而初始化图的质量通常难以得到保障。基于集成的多视图聚类分析融合各个视图的聚类结果。与特征融合不同,它们会保持数据的原始表示24。但在多视图数据中,低质量视图可能会影响最终的聚类性能,所以,在融合过程中不能平等地对待所有视图的聚类结果。为了确定不同视图对于最终聚类结果的贡献,研究者提出了许多视图加权的多视图聚类方法:文献 17 给每个视图赋一个权重并给出一个超参数对权重进行约束;文献 25 通过一
16、个自加权的方法来给视图自动赋权重,并且不需要额外的超参数。一般来说,大多数现有的视图加权方法根据每个视图的聚类损失来确定每个视图的权重,以使损失较低的视图具有较高的权重。但一个低损失的视图不能保证其内部的簇就一定具有高质量,因为视图加权是针对每个视图整体的加权,视图内部簇的质量好坏并不能在视图权重上得到体现。所以,通过将每个视图作为一个整体来粗略地分配权重,并不能反映一个视图中各个簇的重要性。针对视图加权的问题,一些研究者提出了基于距离对簇加权的多视图聚类方法。这类方法虽然改进了视图加权的方法,研究核心从视图层面转移到了簇层面,但以距离衡量簇内相似度的加权方式并不完善。因为视角的不同,簇的相似
17、度是存在差异的,但不同视图中对应簇的点是一样的,在这种情况下,不同视图下同样点构成的簇由于相似度的不同,被赋予了不同的权重,不利于得到有效的相似度矩阵。综上所述,基于特征融合的多视图聚类分析方法太过依赖初始图的质量,基于集成的多视图聚类第 49卷 第 10期赵晓杰,牛雪莹,张继福:基于联合熵的多视图集成聚类分析0概述 多视图聚类是将给定的多视图数据依据相似性划分为不同的簇,使得相同簇中的对象尽量相似,不同簇中的对象尽量不同1。多视图数据可以使得问题描述的角度更全面,提供比传统单视图数据更丰富的信息来揭示其内在结构,并已成功应用于社交网络2-3、多模态生物特征分析等领域4-5。多视图集成聚类作为
18、一类典型多视图聚类分析方法,通过集成聚类的思想使多个视图较弱的基本分区集成为一个较强的一致分区,并利用多个独立的基聚类器分别对原始数据集进行聚类,然后使用某种集成策略获得最终的聚类结果,其关键在于从特征融合转移到分区融合,相较于特征融合更有利于单视图高层信息的保持。但如何充分利用多视图数据的一致性和互补性,是改善并提升多视图集成聚类效果的关键。分区融合策略是多视图集成聚类的关键步骤之一,可分为视图加权和簇加权两种。视图加权6-7主要是根据每个视图的基聚类损失来确定每个视图的权重,并将每个视图视为一个整体,同一视图中的基聚类簇被赋予相同的权重,而簇加权是根据每个视图分区中基聚类簇的质量来确定权重
19、的。簇加权可比视图加权获得更加详细和灵活的信息,更有利于融合多视图分区。目前,簇加权8主要采用基聚类簇内最小平均距离,更加紧密的、数据对象之间距离更小的簇被赋予高权重,稀疏的簇被赋予低权重。基聚类簇的疏密程度仅能体现数据本身分布特性,并不能反映簇质量优劣,即基于最小平均距离的簇评价标准并不能很好地表示聚类质量优劣。本文采用联合熵估计多视图聚类簇的不确定性,提出一种基于联合熵的多视图集成聚类算法。联合熵体现了多视图中所有基聚类簇的数据分布特征,保留了基聚类簇加权优势,体现了不同视图相似对象构成的对应类簇存在差异性,有效地提升了多视图集成聚类效果。本文设计基于联合熵的基聚类簇质量评估方法,构造基于
20、基聚类簇质量评估的加权共协矩阵,提出基于联合熵的多视图集成聚类算法(Multi-View Ensemble Clustering algorithm based on Joint Entropy,MVECJE)。1相关工作 多视图聚类综合了数据的多个视图信息,获得了 优 于 单 视 图 聚 类 的 性 能,已 成 为 一 个 研 究 热点9-11。多视图聚类按照视图的融合方式主要分为基于特征融合的多视图聚类12-15和基于集成的多视图聚类16-19两大类。基于特征融合的多视图聚类分析的基本思想是将多视图数据的多种特征表示融合成为一个单一表示,并应用传统的聚类分析实现聚类分析任务,同时该类方法在
21、聚类结果的解释方面具有一定优势。典型的研究工作主要包括:文献 20 利用正则相关分析的方法从多个视图的特征中选取相关度最高的视图,以此作为数据融合后的唯一表示;文献 21 利用谱聚类将数据在每种视图下都表示成一个图,并为每个图赋以权重,并用随机游走的方法进行融合形成数据的唯一表示;文献 22 提出一种多核 K-means算法来组合多视图数据,并将此组合作为数据的最终表示;文献 23 用一种核的方法给各视图自适应地赋予权重,之后将这些加权的视图融合为一个最终的表示。这类方法融合后的表示具有可解释性强的特点,但大多依赖于融合前图的初始化,而初始化图的质量通常难以得到保障。基于集成的多视图聚类分析融
22、合各个视图的聚类结果。与特征融合不同,它们会保持数据的原始表示24。但在多视图数据中,低质量视图可能会影响最终的聚类性能,所以,在融合过程中不能平等地对待所有视图的聚类结果。为了确定不同视图对于最终聚类结果的贡献,研究者提出了许多视图加权的多视图聚类方法:文献 17 给每个视图赋一个权重并给出一个超参数对权重进行约束;文献 25 通过一个自加权的方法来给视图自动赋权重,并且不需要额外的超参数。一般来说,大多数现有的视图加权方法根据每个视图的聚类损失来确定每个视图的权重,以使损失较低的视图具有较高的权重。但一个低损失的视图不能保证其内部的簇就一定具有高质量,因为视图加权是针对每个视图整体的加权,
23、视图内部簇的质量好坏并不能在视图权重上得到体现。所以,通过将每个视图作为一个整体来粗略地分配权重,并不能反映一个视图中各个簇的重要性。针对视图加权的问题,一些研究者提出了基于距离对簇加权的多视图聚类方法。这类方法虽然改进了视图加权的方法,研究核心从视图层面转移到了簇层面,但以距离衡量簇内相似度的加权方式并不完善。因为视角的不同,簇的相似度是存在差异的,但不同视图中对应簇的点是一样的,在这种情况下,不同视图下同样点构成的簇由于相似度的不同,被赋予了不同的权重,不利于得到有效的相似度矩阵。综上所述,基于特征融合的多视图聚类分析方法太过依赖初始图的质量,基于集成的多视图聚类1132023年 10月
24、15日Computer Engineering 计算机工程分析方法则容易忽略视图内部基聚类簇的质量,从而影响视图内部基聚类簇局部特性的体现。2关键视图与联合熵 在多视图聚类中,如何处理少数关键视图是关键和核心,影响着多视图聚类性能。文献 6 通过折中稀疏权重与平均权重调整各视图权重,从而保证了少数关键视图信息,其基本概念描述如下:假设一个多视图数据集由 V 个视图组成,每个视图有 N个实例,由x(v)1x(v)2x(v)NVv=1 d(v)表示,其中,x(v)i表示来自第v个视图的第i个实例,d(v)表示第v个视图的特征维数。视图中的实例在高维映射下可以表示为(v)(x(v)1)(v)(x(v
25、)2)(v)(x(v)N)Vv=1,这些实例将会被分成 M 个不相交的基聚类簇,其目标函数可表示为:FMVKKM(p)=minvU(v)kv=1Vpvk=1Mi=1NUik|(v)(xvi)-(v)k|2s.t.U 01N Mk=1MUik=1v 0v=1Vv=1p 1(1)其中:(v)k=i=1NUik(v)(x(v)i)i=1NUik表示第v个视图中第k个簇的质心;指数p是一个用来控制视图权重分布的超参数。在式(1)中,当p 1时,仅选择一个最佳视图,而当p 时,每个视图上权重v趋于相等。为了评判关键视图,在聚类过程中嵌入一种核方法对多视图重要性自动排序;然后,根据视图排序对视图赋予权重,
26、这样就在稀疏权重与平均权重之间进行了折中,从而避免了视图赋权中极端情况的产生。尽管视图权重体现了视图整体的重要性,但视图内部基聚类簇的重要性并未得到体现。采用传统聚类算法,在给定的输入参数下,生成的若干类簇称之为基聚类,基聚类中的每一个类簇称之为基聚类簇,基聚类簇是由相似数据对象构成的一个数据子集26。为了使视图内部基聚类簇的重要性得以体现,首先按照选取的聚类算法,按不同参数运行 M 次,生成 M 个基聚类,且每个基聚类中包含了若干基聚类簇。在基聚类的生成过程中,尽管选用了同一聚类算法在不同参数下产生基聚类,但在选择聚类算法时,尽量选取输入参数少,且在不同输入参数下生成不同基聚类的算法,从而保
27、证基聚类的多样性。MVKKM 是一种多核 K-means 聚类算法6,仅有聚类个数 k和视图权重约束p两个输入参数,相比其他聚类算法,MVKKM 输入参数少,且在不同参数下生成的聚类簇也不尽相同,从而保证了基聚类的多样性。假定数据集O=o1o2oN,其中,oi是第i个数据对象,N 是数据集 O 中数据对象的个数。采用 MVKKM 算法并选用 M 个不同参数对数据集 O进行聚类,生成 M 个基聚类,每个基聚类由一定数量的基聚类簇组成。M 个基聚类的集合表示如下:=(1)(2)(M)(m)=C(m)1C(m)2C(m)n(m)(2)其中:表示所有基聚类的集合;(m)表示第m个基聚类中包含的n(m)
28、个基聚类簇;C(m)n(m)表示(m)中第n(m)个基聚类簇。为了便于表示与计算,将所有基聚类中的基聚类簇表示为如下集合:C=C1C2Cnc(3)其中:Ci表示第i个基聚类簇;nc表示中所有基聚类簇的个数。基聚类的形式化表示如下:=FMVKKM(p)(4)其中:表示基聚类;p为参数,不同的p产生不同的基聚类。联合熵是信息熵的推广,用于对与一组随机变量相关的不确定性进行度量,并具有以下特性:1)非负性,即一组随机变量的联合熵是一个非负数;2)高值性,即一组变量的联合熵大于或等于该组变量的所有单个熵的最大值;3)低值性,即一组变量的联合熵小于或等于该组变量各个熵的总和。相关概念定义如下:对于一对离
29、散随机变量(XY),联合熵H(XY)定义如下:H(XY)=-x Xy Yp(xy)lb p(xy)(5)其中:x和y分别是X和Y的特定值;p(xy)是这些值产生交集时的联合概率。当且仅当随机变量X和Y相互独立时,则认为H(XY)=H(X)+H(Y)。因此,给定n个独立的随机变量X1X2Xn时,有:H(X1X2Xn)=H(X1)+H(X2)+H(Xn)(6)3多视图集成聚类 3.1基聚类簇质量评估视图权重主要针对分布稀疏性,只能体现视图整体的重要性,并不能体现视图内部基聚类簇的重114第 49卷 第 10期赵晓杰,牛雪莹,张继福:基于联合熵的多视图集成聚类分析要性,影响了多视图聚类效果。为了使视
30、图内部基聚类簇的重要性得以体现,对由式(3)得到的基聚类簇集合中的每个簇进行不确定性分析。由式(5)可知,联合熵度量了一组随机变量的不确定性,而基聚类簇中的数据对象可看作一组随机变量,因而联合熵可有效刻画基聚类簇的不确定性26。对于由式(2)得到的基聚类集合,参照式(5),式(3)中的基聚类簇Ci相对于基聚类(m)的不确定性描述如下:H(m)()Ci=-j=1n(m)p()CiC(m)jlb p()CiC(m)j(7)p()CiC(m)j=|Ci C(m)j|Ci(8)其中:n(m)是(m)中基聚类簇的个数;C(m)j是(m)中第j个基聚类簇;|Ci|表示Ci中数据对象的个数;p(CiC(m)
31、j)表示基聚类簇Ci中数据对象与基聚类簇C(m)j中数据对象产生交集时的联合概率。由 式(8)可 知,对 于 任 意 的i、j和m,都 有p(CiC(m)j)01,因而H(m)(Ci)0,+)。当基聚类簇Ci中的所有数据对象都属于(m)中的同一基聚类簇时,Ci对(m)的不确定性达到最小,即 0;当基聚类簇Ci中的数据对象属于(m)中更多不同的基聚类簇时,Ci相对于(m)的不确定性就会变大,表明Ci中的数据对象相对于(m)不会出现在同一基聚类簇中。对于任意的基聚类簇Ci,参照式(6),基聚类簇Ci对于基聚类集合的不确定性描述如下:H()(Ci)=m=1MH(m)(Ci)(9)其中:M 表示集合中
32、基聚类的个数。由式(9)可知,任意的基聚类簇Ci在集合中的不确定性,都有H()(Ci)0+)。为了将基聚类簇不确定性取值范围控制在 0,1之间,可采用指数函数对基聚类簇不确定性进行转换,并将其定义为基聚类簇不确定性指数(Cluster Uncertainty Index,CUI),描述如下:CCUI(Ci)=e()-H()(Ci)M(10)其中:M 表示集合中基聚类的个数。由式(10)可知:当基聚类簇Ci的不确定性为最小值 0时,其 CUI值将达到最大值,即 1;当基聚类簇Ci的不确定性趋于无穷时,其 CUI值趋近于 0。3.2加权共协矩阵共协矩阵描述了在基聚类集合中每一对数据出现在同一基聚类
33、簇的频率,可用来表征基聚类结构。虽然共协矩阵常应用于集成聚类分析中,但由于其平等地对待所有数据对象,因此未能有效地体现基聚类特性,影响了集成聚类性能。由式(10)可知,CUI 刻画了基聚类中基聚类簇的不确定性,并且不同基聚类簇的 CUI 值是不同的,因此以 CUI 值作为权值,可使基聚类簇重要性得到有效体现。对于给定基聚类集合,参照文献 27 共协矩阵的描述,加权共协矩阵定义如下:WWCA=aijN N(11)其中:aij=1Mm=1Mw(m)ij(m)ij;w(m)ij=CCUI(C(m)Cls(oi)oioj);(m)ij=1C(m)Cls(oi)=C(m)Cls(oj)0其他;aij表示
34、加权共协矩阵中的第(ij)项;C(m)Cls(oi)表示数据对象oi在基聚类(m)中所属的基聚类簇,并且(m);(m)ij代表数据对象oi和oj在基聚类(m)中是否在同一个基聚类簇中,若在一个基聚类簇中,记为 1,否则记为 0;aij表示数据对象oi和oj在 M 个基聚类中出现的频率;w(m)ij表示数据对象oi与oj所属基聚类簇的 CUI值。在式(11)中,权值w(m)ij是由 CUI 值来表征的,体现了基聚类簇重要性,CUI 值越大,基聚类簇越重要,反之亦然。3.3基聚类集成依据式(11)定义的加权共协矩阵,可获得多视图集成聚类的一致划分,并采用自底向上策略实现聚合聚类。假设每个数据对象是
35、一个单独的基聚类簇或区域,初始的 N 个数据对象视为 N 个初始区域,基本步骤如下:1)初始区域集合R(0)=R(0)1R(0)2R(0)N,其中,R(0)表示初始区域集合,R(0)i=oii=1,2,N,R(0)i表示R(0)中的第i个区域。利用式(11)定义的加权共协矩阵作为初始相似度矩阵S(0)=S(0)ijN N,其中,S(0)ij=aij是加权共协矩阵中的第(i,j)项,N 为初始数据对象的个数。2)根据基聚类簇间相似度 S(t)将相似度最高的两 个 区 域 合 并 成 一 个 新 的 区 域,并 更 新 区 域 集。第t步中的区域集合描述如下:R(t)=R(t)1R(t)2R(t)
36、|R(t)|(12)其中:R(t)i表示R(t)集合中的第i个区域;|R(t)|表示R(t)中的区域个数。在区域合并后,将根据新的区域集合更新相似度矩阵,为下一次迭代过程做准备,迭代到第 t步的相似度矩阵S(t)中的第(ij)项S(t)ij描述如下:1152023年 10月 15日Computer Engineering 计算机工程S(t)ij=1|R(t)i|R(t)j|ok R(t)iol R(t)j1Mm=1Mw(m)kl(m)kl(13)其中:|R(t)i|表示区域R(t)i中数据对象的个数。3)当区域集合中的个数|R(t)|=k 时迭代终止,并将最后的区域集R(t)作为最终的结果输出
37、。在上述基聚类集成步骤中,采用联合熵来评估基聚类簇的不确定性,并以 CUI 值作为加权共协矩阵中的权值,以此构建新的初始相似度矩阵,体现重要数据对象的地位与作用。3.4基于联合熵的多视图集成聚类算法依据上文所述,利用联合熵,多视图集成聚类分析 基 本 思 想 为:首 先 针 对 各 视 图 数 据,采 用 多 核K-means 聚类 MVKKM 算法生成基聚类集合;然后利用式(11)得到加权共协矩阵,并作为初始相似度矩阵;最后利用层次聚类思想,自底向上地聚合基聚类簇,进而得到最终的多视图集成聚类簇。算法描述如下:算法 MVECJE输入 多视图数据集,k输出 聚类结果R(t)(|R(t)|=k)
38、1.利用 MVKKM 算法生成 M 个基聚类;2.由式(9)计算基聚类集合中所有基聚类簇的不确定性;3.由式(10)计算基聚类集合中所有基聚类簇的 CUI值;4.由式(11)计算得到 WWCA矩阵;5.初始化相似度矩阵S(0)和区域集合R(0),|R(0)|=N;6.While|R(t)|k Do(t=1,2,N1)7.依据S(t1)将R(t1)中两个相似度最高区域进行合并;8.由式(12)、式(13)得到新的R(t)和S(t);9.End While时间复杂度分析如下:MVECJE 算法中的主要操作包括生成基聚类与迭代生成基聚类簇。生成基聚类主要是利用 MVKKM 算法,参照文献 6 可知,
39、时间复杂度为O(N2(V+),其中,N 为数据对象的个数,V 为视图个数,为核 K-means 算法的迭代次数,为整体的迭代次数。生成基聚类簇的过程需要迭代t次,每次迭代后需要更新并保存相似度矩阵,时间复杂度为O(tN2)。因此,MVECJE 算法时间复杂度为O()N2()(V+)+t。4实验分析 实 验 环 境:Intel CoreTM i7-7700HQ CPU2.80 GHz,8 GB 内 存,Windows 10。为 了 验 证MVECJE 算法的有效性,采用 NMI、ACC 和 ARI 这3 个 聚 类 性 能 指 标28,对 比 算 法 为 CoregSC29、AWGL17、MMS
40、C16、DIMSC13、COMVSC30、MVKKM6和 CWK2M8。选取 4个广泛使用的多视图数据集进行性能评估,即 MSRC-v1、Caltech101-7和 Handwritten numerals(HW)3个图像数据集和 1个Reuters文本数据集,详见表 1,其中括号内的数字是特征维数。4.1聚类簇权重为了进一步验证簇权重在集成过程中的重要性,在 MVECJE 算法中,删除簇权重处理步骤,即对基聚类直接进行集成处理,并标记为 MVEC_1算法。对比在 4 个数据集上的实验结果,详见表 2,其中加粗数据表示最优值,下同。由表 2 可知,聚类簇权重可以有效改善聚类性能,相对于 MVE
41、CJE 算法,MVEC_1 算法的 3 个聚类指标值都有不同程度的提高,其主要原因是利用联合熵赋予的聚类簇权重,体现了各多视图聚类簇的重要程度。表 1实验数据集 Table 1Experimental datasets序号12345SampleClassMSRC-v1Color Moments(24)HOG(576)GIST(512)LBP(256)Centrist(254)2107Caltech101-7Centrist(254)Gabor(48)Wavelet moments(40)1 4747HWFourier coefficients(76)Profile correlations(2
42、16)Karhunen coefficients(64)Pixel averages(240)2 00010ReutersEnglish(2 000)French(2 000)German(2 000)Italian(2 000)Spanish(2 000)1 2006表 2聚类簇权重对聚类性能的影响 Table 2Effect of cluster weight on clustering performance数据集MSRC-v1Caltech101-7HWReutersMVEC_1NMI0.667 70.416 90.904 40.391 3ACC0.680 40.497 90.873
43、20.332 7ARI0.586 90.376 90.841 20.201 9MVECJENMI0.752 30.449 30.933 50.456 4ACC0.802 50.668 90.968 20.402 5ARI0.682 00.457 80.934 30.255 1116第 49卷 第 10期赵晓杰,牛雪莹,张继福:基于联合熵的多视图集成聚类分析4.2聚合迭代为了验证 MVECJE算法中聚合迭代次数对聚类性能的影响,以 3 个评价指标值作为 y 轴、以迭代次数作为 x 轴绘制曲线。在表 1 所示的 4 个数据集上MVECJE 算 法 的 NMI、ACC、ARI 聚 类 指 标 如 图
44、 1所示。由图 1 可知,随着迭代次数的增加,体现聚类性能的 NMI、ACC、ARI 聚类指标值逐步提升,且多视图聚类性能也逐步趋于稳定,其主要原因是在每次聚合迭代集成过程中,根据更新后的相似度矩阵合并了相似度高的聚类簇,随着迭代次数的增加,聚类簇的变化也逐渐变小,并趋于稳定。4.3聚类性能为了验证 MVECJE 算法的聚类准确性,对同一数 据 集 使 用 相 同 的 内 核:M=15。对 MSRC-v1、Caltech101-7 和 HW 数据集使用高斯核,并将标准差设置为每个视图中数据对象之间成对的欧氏距离的中位数,对 Reuters 数据集使用线性核。对于MVKKM 和 CWK2M,参数
45、 p 以对数形式进行搜索(lg p从 0.1到 2,步长为 0.2),而初始中心的选择则通过全局核 K-Means算法来对每个视图进行选择。由于 MVKKM 和 CWK2M 的中心初始化是相对固定的,因此仅运行 1 次,其他对比算法则运行 30 次,并返回 30次结果的平均值。由表 3可知,MVECJE算法在 4个数据集上均表现出良好的聚类性能,尤其在 Caltech101-7和 HW 数据集上优势最为明显,而在 MSRC-v1和 Reuters数据集上,仅 ACC 指标值略逊于 CWK2M 算法。具体分析如下:1)MVECJE 是一种集成聚类方法,提高了聚类结果的质量和健壮性,且充分利用了基
46、聚类,并采用了基于联合熵的簇评估方式,使得其具有良好的聚类性能。2)CoregSC、AWGL 和 MMSC 是基于谱聚类的多视图聚类分析方法,聚类性能大多依赖于关联矩阵的构造,但关联矩阵的质量通常是难以保障的,而MVECJE 则不需要构造关联矩阵这一过程,从而也体现了 MVECJE的优越性。3)DIMSC 和 COMVSC 是基于子空间的多视图聚类分析方法,且这两种多视图聚类分析方法都没有进行加权操作,都将每个视图同等对待。因此,视图 与 视 图 内 部 聚 类 簇 的 重 要 性 将 难 以 体 现,而MVECJE 则是在聚类簇这一层面上进行的分析,从表 3 中也可直观看出,MVECJE 相
47、比于 DIMSC 和COMVSC的优势是非常明显的。4)MVKKM 是一种视图加权的多视图聚类分析方法,而 MVECJE 则是以联合熵为基础并对聚类簇加权的多视图集成聚类算法。由于 MVECJE考虑了比 MVKKM 更 细 粒 度 的 权 重,因 此 获 得 了 优 于MVKKM 的聚类性能。5)CWK2M 和 MVECJE 都是基于簇加权的多视图聚类分析方法,但对簇加权的方式不同:CWK2M采用欧氏距离为簇加权,MVECJE对簇联合熵加权。MVECJE 算法在 MSRC-v1 和 Reuters 数据集上,仅ACC 指标值略逊于 CWK2M 算法,这可能是因为数据集对象个数较少,无法有效地体
48、现联合熵加权的有效性。图 1迭代次数对聚类性能的影响Fig.1Effect of the number of iterations on clustering performance1172023年 10月 15日Computer Engineering 计算机工程为了验证 MVECJE 算法的聚类效率,采用表 1所示的数据集,对不同算法的聚类效率进行对比,如表 4所示。由表 4 可知,除 CoregSC 效率较高、CWK2M 效率较低以外,包括 MVECJE 在内的其他算法聚类效率基本相同,主要原因是:CoregSC 算法通过将各视图的特征向量矩阵正则化为一个共同一致的特征向量矩阵,使得每个
49、视图的特征向量相似,因此无须像其他聚类算法一样将所有视图的特征向量矩阵进行组合;CWK2M 算法采用了一种基于距离的簇加权方法,其簇权重需要重复迭代计算。5结束语 本文采用联合熵评估基聚类簇质量,提出一种多视图集成聚类分析方法,有效地刻画了基聚类簇的重要程度与质量优劣,体现了基聚类簇在不同视图中存在差异化的特点,并改善了多视图集成聚类性能。下一步研究工作是针对聚类簇集成,优化其迭代步骤,降低时间复杂度。参考文献 1 CHAO G Q,SUN S L,BI J B.A survey on multiview clustering J.IEEE Transactions on Artificial
50、 Intelligence,2021,2(2):146-168.2 HAN J,KAMBER M,PEI J.Data mining:concepts and techniques M.S.l.:Morgan Kaufmann Publishers Inc.,2006.3 钱雪忠,姚琳燕.面向稀疏高维大数据的扩展增量模糊聚类算法 J.计算机工程,2019,45(6):75-81,88.QIAN X Z,YAO L Y.Extended incremental fuzzy clustering algorithm for sparse high-dimensional big data J.Co
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100