结合网络拓扑与节点内容的统一化半监督社团检测方法_许伟忠.pdf

资源描述

1、第卷第期年月南京师大学报（自然科学版）（）.，收稿日期：基金项目：国家自然科学基金面上项目（）、江苏省自然科学基金面上项目（）、江苏省高等学校自然科学研究面上项目（）、南通大学人才引进项目（）通讯作者：曹金鑫，博士，讲师，研究方向：数据挖掘、机器学习、社团检测等：结合网络拓扑与节点内容的统一化半监督社团检测方法许伟忠，曹金鑫，金弟，孙翔，张晓峰，刘路，丁卫平（南通大学信息科学技术学院，江苏南通）（天津大学智能与计算学部，天津）（莱斯特大学信息学院莱斯特，英国）摘要在复杂网络分析中，社团检测发挥着越来越重要的作用，而在实际应用中如何提高社团检测的性能仍是一个共同研究目标由

2、于网络节点中内容信息有助于社团识别，一些方法侧重于将网络拓扑和节点内容相结合，并且获得了不错效果此外，也有些方法借用节点之间的拓扑相似度，以提升实现社团检测性能鉴于此，我们提出了一个统一化方法，结合节点内容的半监督社团检测，简称在该方法中，我们不仅将链接增强应用于社团检测，而且实现了拓扑和内容有机融合首先，我们运用随机模型来描述节点社团隶属度其次，我们构建出一个刻画节点内容社团隶属度的随机块模型，节点社团隶属度作为节点内容的权重向量，以实现拓扑和内容结合再次，我们利用网络中节点之间的拓扑相似度构建先验信息，即，使网络中节点与其最相似的邻居节点具有相同的隶属度分布最后，使用非负矩阵

3、分解的方法学习新模型的统一化参数在带有真实标签的人工网络和真实网络上，我们对新方法与一些当前流行的社团检测方法进行了性能比较实验结果显示，通过融合节点内容和先验信息强化的链接，新方法检测社团的性能取得了显著提升关键词社团检测，节点内容，先验信息，随机块，非负矩阵分解中图分类号文献标志码文章编号（），（，）（，）（，）：，许伟忠，等：结合网络拓扑与节点内容的统一化半监督社团检测方法，：，社交网络的发展催生了纷繁复杂的海量数据，如用户关系网络、产品评论和在线评论等这些海量数据通常被建模为复杂网络对于复杂网络的分析，挖掘网络中的社团结构是一项十分关键的任务，可用以揭示复杂网络的结构和

4、功能特性一般来说，社团为网络中一组节点所构成的簇，同一簇的节点之间链接稠密，而不同簇的节点之间链接稀疏已经有不少研究人员提出了许多不同类型的方法以检测网络中社团结构这些方法很大程度上依赖于网络拓扑，其性能往往受到原始网络中某些链接丢失的影响实际上，真实世界中的网络充满各种类型的内容信息，比如社交网络中用户节点上的用户信息等这些内容能够减缓链接丢失的负面影响，辅助网络拓扑进行社团检测等研究发现，内容信息有助于挖掘网络中的社团结构已有一些融合拓扑和节点内容的社团检测方法被提出，并且也取得了不错的效果但是，这些方法仍受网络拓扑中结构信息的影响此外，传统社团检测方法大多基于以下想法建模网

5、络拓扑，即视社团为一组具有相似链接模式的节点集合，其在具有清晰社团结构的网络上表现效果不错而当网络中包含一些复杂结构时，例如同配结构、异配结构和分层结构等，这些方法的性能将急剧下降为了解决该问题，可挖掘网络中先验信息对网络拓扑进行调整，进而提高社团检测方法的性能最近，等、等使用先验信息提出半监督社团检测方法其研究结果显示，尤其是在具有噪声和复杂结构的真实网络中，这些方法仅融入有限的先验信息便实现了社团检测精度和鲁棒性的显著提升综上所述，网络中包含了网络拓扑、节点内容和先验信息当融合来自网络中不同源的有益信息，社团检测的性能将得到进一步提升例如，我们在网络中发现对于具有相似内容信息的

6、节点或是邻居相同的比例高的节点，可运用节点内容、先验等有益信息指导设计社团检测算法，将节点划分到同一社团在本文，我们提出了一种同时融合网络拓扑、节点内容的统一化半监督社团检测模型（，）新模型的输入为两个源，其一是表示网络拓扑信息的邻接矩阵，其二是表示节点内容的特征矩阵此外，利用邻接矩阵转化为节点结构相似度矩阵获得先验信息在该模型框架下，我们首先基于生成模型的思想构建节点隶属度矩阵，以拟合邻接矩阵；同时，视社团为文档中主题，隶属度矩阵即可作为模型中的文档主题隶属度矩阵，以实现网络拓扑与节点内容的融合然后，我们运用节点结构相似度矩阵获取先验信息，基于以下想法：“若两节点具有存在链接且拓扑

7、结构相似的先验信息，则它们可被划分到同一社团”，建模先验信息为一个非负矩阵以调整隶属度矩阵，进而实现先验信息的融入最终，我们运用一个平衡因子融合拓扑和内容信息，一个邻域超参控制先验信息，以构建融合节点内容的统一化半监督社团检测模型总结来说，本文研究的贡献如下：（）我们提出了一种新型的、统一化的半监督社团检测模型该模型不仅融合网络拓扑与节点内容信息，也引入先验信息刻画的结构信息（）在统一模型框架下，获取的单一的节点社团隶属度同时刻画网络拓扑、节点内容和先验三种信息模型的鲁棒性得到提升（）我们通过量化模型中的平衡因子和邻域超参以提升新模型在人工、真实网络上社团检测效果与当前流行的社团检

8、测方法相比，新模型识别社团结构的性能更优南京师大学报（自然科学版）第卷第期（年）相关工作对本文新模型相关的社团检测算法进行梳理，分别从融合拓扑和内容社团检测、半监督社团检测两方面展开研究等基于图聚类提出了算法，其融合拓扑和内容的方式简单易行，但方法性能依赖于社团结构的清晰程度等基于生成的思想提出了一种联合概率模型融合拓扑和内容，但对拓扑中复杂结构敏感等设计了基于非负矩阵分解的算法，学习节点属性社团隶属度以实现对社团的语义解释，但也受到拓扑结构信息影响等考虑节点度不均衡、节点内容流形等问题，提出了模型，发现建模拓扑结构有益于社团检测分析上述方法发现，虽然这类方法融合了拓扑和

9、内容，但先验信息的利用仍具有必要性等将已知社团信息分配给不同节点，基于半监督图聚类实现社团检测等将和约束融入邻接矩阵并进行分解，以实现半监督社团检测等基于隐空间聚类策略，运用图正则以实现先验信息对社团隶属度的惩罚，构建半监督社团检测模型和等分别构建非负矩阵、图正则项以表示先验信息的硬、软约束，提出一种基于非负矩阵分解的链接强化框架（简称），实现半监督社团检测虽然这类方法运用了先验信息，却忽略了内容信息的作用，仍会受到链接存在噪声或是缺失的影响方法首先，我们在基于非负矩阵分解的生成框架下构建了融合拓扑和内容的基本模型其次，计算节点间的结构相似度，建模先验信息，并将其集成到拓扑

10、信息中，以构建融合节点内容的半监督社团检测模型最后，使用梯度下降法实现模型参数的学习在本文，我们使用（，）描述一个无向非加权的属性网络，表示网络中节点的集合，表示网络中链接的集合，表示网络中节点内容特征的集合本文中，邻接矩阵表示拓扑信息，即当节点和之间存在链接时，否则；使用内容矩阵表示节点内容信息，即当节点含有第个特征时，否则基本模型构建我们使用矩阵描述节点社团隶属度分布，其中表示节点属于第个社团的倾向网络中节点之间的链接取决于这两个节点属于同一个社团的概率因此，表示社团中节点和之间生成的链接数量，则整个网络个社团中和之间的链接期望数可表示为，（）可用

11、式（）生成期望邻接矩阵?，即?，以拟合邻接矩阵拓扑子模型的损失函数可写为（）?（）若网络中的每个节点对应一篇文档，那么社团对应文档集中的主题，节点内容的属性对应文档的单词我们借鉴主题模型的思想构建内容信息子模型首先，我们引入一个描述社团内容的矩阵，表示内容社团包含第个单词的倾向，那么，表示节点属于第个内容社团且该内容社团包含第个单词的倾向进一步来说，节点与第个特征之间的关系可表示为，（）可用式（）生成期望内容矩阵?，即?，以拟合内容矩阵内容信息子模型的损失函数可写为（，）?（）由式（）可见，我们将社团内容矩阵与社团隶属度矩阵一样作为变量来优化，与相比，不仅得到

12、了节点内容与内容社团之间的关系，而且还具有更低的时间复杂度，为（）至此，结合拓扑子模型（）和内容信息子模型（），我们构建了融合网络拓扑和内容信息的统一化基许伟忠，等：结合网络拓扑与节点内容的统一化半监督社团检测方法本模型，其损失函数可写为（，），（）式中，为平衡因子，控制基本模型（）中内容信息比重在统一化基本模型中，我们视节点内容中挖掘出的内容社团与从拓扑信息中挖掘出的节点社团是一致的。那么，非负矩阵分解所获得的社团隶属度矩阵即运用到节点内容因此，我们的统一化模型能够同时利用拓扑信息和内容信息联合学习出网络中的社团结构先验信息建模和融合内容半监督社团检测构建关于先验信息，我们运用网络拓

13、扑中节点之间相似的结构来刻画，具体可用该节点的邻域来进行描述因此，网络中节点的拓扑结构可表示为（）（，）（）启发于人类社会中“熟人交集越大的两个人在同一社会群体中的概率可能也越大”，则节点和基于拓扑的结构相似度可定义为（）（）（）（）（）使用式（）可计算网络中任意两个节点之间的结构相似度，记为相似度矩阵基于以下思想构建先验信息：如果网络中两个节点之间存在链接并且拓扑结构相似度高，我们就有理由认为这两个节点之间存在，将这两个节点划入同一个社团那么，约束矩阵可定义为，（）式中，为控制数量的邻域超参约束矩阵可对应于一个无向图为了实现先验信息集成，我们首先计算图的连通分量，并认

14、为每个连通分量中的节点之间都满足关系，即同一个连通分量的节点应被划入同一个社团借鉴等所提算法中强约束的构造方法，我们再构建指示矩阵记录每个节点所属的连通分量，以表示先验信息，同时引入一个非负的辅助矩阵则节点社团隶属度矩阵可表示为（）从式（）可知，若节点和之间存在，我们使指示矩阵的第行和行相等，即，从而，表示矩阵的第和行相等，即节点和有相同的隶属度分布，必被划入同一个社团中基于此，我们建模了先验信息最终，构建融合节点内容且集成先验信息的新模型，其损失函数为（，）（）新模型不仅使用先验信息对拓扑信息起到增强的效果，而且还融合了节点内容信息，从而能够更加精确地

15、揭示网络中的社团结构模型优化本文基于梯度下降算法学习模型参数该模型的参数包括两个参数矩阵和我们先对公式（，）进行迹运算，然后，基于参数矩阵求偏导，进而获取参数更新规则损失函数的迹（，）如下：（，）（）（）（）（）（）（），（）式（）关于参数求偏导为（，）（）根据规则，参数的更新公式可以写为南京师大学报（自然科学版）第卷第期（年）（）（）|（）同理，式（）关于参数求偏导为（，）（）式（）属于标准非负矩阵分解的优化，同理，依据规则，参数的更新公式可写为（）（）|（）在新模型中，我们首先随机初始化和然后，分别基于更新规则（）和（）对和进行迭代更新，直至损失函数（）收

16、敛为止最后，运用式（）计算出节点社团隶属度，以实现社团检测实验分析为了量化新方法检测社团的性能，我们选择一些当前流行的社团检测方法与在人工、真实网络上进行性能对比，并运用常用评价方法标准互信息熵、调整兰德系数进行量化本文使用的对比算法涉及融合拓扑和内容、半监督社团检测算法两类，具体如表所示。考虑到算法涉及节点内容，我们使用的人工数据集是基于经典的、基准数据集和结合节点内容生成算法生成的内容信息构建的新型、具有内容信息的、基准数据集其中，、网络生成算法的参数设置可以参考文献。我们还在真实网络上进行对比实验，真实网络的详细信息如表所示表本文实验中真实网络的详细信息表本文实验中的

17、对比方法图在的网络上测试参数和的结果.图在的网络上测试参数和的结果.超参和敏感度测试在两个带有节点内容的人工网络上（和，其社团结构非常模糊），我们对超参和进行测试首先为超参选择一个初始化的区域，即、间隔为和、间隔为，然后进行遍历搜索基于不同的超参组（，），识别社团的精确度值曲面如图、图所示可以发现，当（，）（，）、（，）时，取得峰值综合分析，我们选择（，）（，），也将该设置应用于真实网络实验中许伟忠，等：结合网络拓扑与节点内容的统一化半监督社团检测方法人工网络上实验分析我们在网络规模为、带有节点内容的网络上对比不同方法检测社团的能力网络

18、生成算法的混合参数描述了当前节点与社团外部其他节点之链接所占该节点之度的比例值越大，网络中社团结构越不清晰一般而言，社团检测方法识别该网络中社团的性能呈现下降趋势那么，随着值不断增大，社团检测精度曲线下降缓慢的方法更具有竞争力在本实验中，我们分别以指数、和、的幂律分布生成网络中节点的度和社团的大小，从而得到四组网络在每组网络中，我们从至以为步长设计混合参数，共计个网络作为实验网络数据如图所示，不同社团检测方法的基于精度曲线随混合参数值的增大而以不同程度下降我们从图中可以较明显地观察到，方法获得曲线下降速度比其他方法更缓慢我们还发现，半监督社团检测方法

19、（为的）、（为、基于标准的）和获得的精度曲线下降速度快于融合拓扑和内容的社团检测方法、其原因可能是，网络中拓扑与内容具有较强的同质性，以致节点内容具有较强辅助拓扑检测社团的能力本小节实验综合分析可得，新方法融合节点内容、先验信息实现了社团检测性能和鲁棒性的提升网络规模，参数和分别表示生成网络算法中度分布和社区规模分布的指数图我们的方法和对比方法在带有节点内容网络上的曲线.真实数据集上实验分析我们还在真实网络上测试检测社团的性能其中，各对比算法中参数设置均为原作者给出的默认设置由于等未明确设置、中数量因此，我们设置与、具有相当数量的参考式（），中数量小于且

20、接近网络中链接总数；参考表中真实数据集的（）平均值为，可设置、中数量为（），大于且接近为了检验融合先验信息的性能，将其与其他半监督方法在不同比例先验信息条件下进行对比如图所示，随着不断增大，的精度明显高于其他方法同时，在不同真实网络上，新方法与其他方法基于评价方法、度量的对比结果如表所示可以发现，检测不同网络中社团结构，取得最佳或是第二佳的精度值尤其运用聚类、社团检测领域中常用的、算法类型无关的评价方法评价时，方法仍取得最佳或是第二佳精度在上取得较高精度，其原因在于使用的数量为所使用的倍之多，先验信息给出社团结构也更清晰方法识别社团的精度基本高于融合拓扑

21、和内容、半监督类型社团检测方法这些实验都验证了，融合节点内容、拓扑的先验信息可进一步提高社团检测性能以及鲁棒性南京师大学报（自然科学版）第卷第期（年）图邻域超参取不同值，不同半监督方法在（）、（）、（）和（）上的性能对比.，（），（），（）（）表不同方法社团检测性能对比，加粗、斜体的结果分别指示最佳、第二佳结果，图在，和真实网络上的收敛曲线.，新模型收敛分析我们在个真实数据集上分析新方法的模型收敛如图所示，的损失函数值随迭代次数增大的变化情况在不同规模网络上，需要迭代次左右，其损失函数值的显著变化率小于，许伟忠，等：结合网络拓扑与节点内容的统一化半监督社团检测方法

22、即可达到收敛新模型的时间复杂度分析我们还对提出方法进行时间复杂度分析，算法的主要时空开销包含以下两个过程：一是先验信息的构建过程，另一是目标矩阵和的迭代更新过程先验信息的构建过程主要分为三个阶段，相似度矩阵的计算、约束矩阵的计算以及图中连通分量的计算这里，表示网络中节点数量，为网络中链接的数量，表示网络中社团的数量，为节点内容特征的维度，为网络中节点的最大度，为约束矩阵中连通分量的数量计算、以及连通分量的时间复杂度不超过（）、（）和（），则构建先验信息的时间复杂度为（）矩阵和一次更新的时间复杂度分别为（）、（）因此算法迭代一次时间复杂度为（），考虑到网络拓扑的稀疏性

23、，时间复杂度可简化为（）综合以上分析，假设算法在经历次迭代后达到收敛，整个算法的时间复杂度将不超过（），线性接近于网络规模，具有较低的时间复杂度结论我们设计了一种融合节点内容的统一化半监督社团检测模型，同时结合了网络拓扑、节点内容信息和先验信息该模型不仅可借助节点内容减小链接丢失的负面影响，亦可挖掘网络中结构信息来强化拓扑刻画社团的能力，具有更优的社团发现性能和鲁棒性其关键思想在于基于统一的非负矩阵分解框架充分地整合拓扑、内容和先验信息，同时运用非负矩阵分解优化以处理模型的参数学习，并设计了具有收敛保障的高效更新规则实验结果证实了模型识别网络中社团结构的优越性能本文中的真实网络显

24、示拓扑与内容具有较强同质性，即拓扑和内容刻画一致的社团因此，我们未来将致力于设计能够检测具有非同质拓扑和内容网络中的社团结构的模型具体可以通过空间映射等思想尝试实现此外，新模型中社团个数需要预设，社团个数的自确定也是我们未来需要解决的问题之一参考文献，：，：，（）：，：，：胡云，张舒，佘侃侃，等基于重叠社区发现的社会网络推荐算法研究南京师大学报（自然科学版），（）：黄立威，李彩萍，张海粟，等一种基于因子图模型的半监督社区发现方法自动化学报，（）：陈俊宇，周刚，南煜，等一种半监督的局部扩展式重叠社区发现方法计算机研究与发展，（）：，：，：，（）：，（）：，：，：，：，：，：，：，南京师大学报（自然科学版）第卷第期（年），：，（）：，（）：，：，：，：，：，：，（）：，：，（）：，：，：，：（），：，：，（）：，（）：，（）：，：，：，（）：责任编辑：杜忆忱

展开阅读全文