基于局部建模的异构图表征学习方法.pdf

资源描述

1、现代计算机Modern Computer第 29 卷第 15 期2023 年 8 月 10 日基于局部建模的异构图表征学习方法汤齐浩*，杨亮（河北工业大学人工智能与数据科学学院，天津 300401）摘要：现有的异构图神经网络通常忽略了存在于邻居节点之间潜在的语义联系，这使得节点表征无法蕴含多样化的局部特征。为了解决这个问题，文中提出了一种基于局部建模进行表征学习的方法L2NH，该方法首先构建邻居节点之间的协方差矩阵，并通过关系编码将边的类型信息融入到矩阵中，然后基于局部网络特征值分解提出了一种多通道机制来使得节点表征蕴含多样化的局部特征，最后，实验表明，该方法能够有效地提升节点分类的效果。关

2、键词：异构图神经网络；局部建模；多通道机制文章编号:10071423（2023）15001007DOI:10.3969/j.issn.10071423.2023.15.002收稿日期：20230420修稿日期：20230429基金项目：国家自然科学基金面上项目（61972442）；河北省自然科学基金面上项目（F2020202040）；天津市自然科学基金面上项目（20JCYBJC00650）作者简介：*通信作者：汤齐浩（1997），男，河南信阳人，硕士，研究方向为异构图神经网络和知识蒸馏，Email：；杨亮（1981），男，天津人，博士，教授，研究方向为图神经网络、异构图神经网络等0引言现实世界

3、中的对象及其互动通常是多模式和多类型的，异构图能够很好地对这些复杂而多样的联系进行建模，它包含了多种类型的节点或边，并广泛存在于自然科学和社会科学界，比如引文网络和电商网络。近些年来，异构图表征学习受到了广泛关注，并基于这个研究发展了异构图神经网络（heterogeneous graph neuralnetworks,HGNNs）。然而，现有的HGNNs基于节点交互的方式来进行邻居信息聚合，这种方法虽然能够较好地捕捉简单的二元关系，但存在于邻居节点之间的高阶语义联系却被忽略，因此，节点表征无法蕴含其局部特征。一些基于异构注意力机制1-3的方法引入了与类型有关的注意力层来捕获类型信息，不同类型的

4、节点基于各自的上下文进行交互，这种方式不仅需要引入大量的参数组，而且对图中存在的噪声较为敏感，另外，还需要多个注意力头来提取多样化的局部信息，由于多个注意力头之间没有任何约束，这使得捕获的信息存在高度的冗余性。尽管后来一些方法45将超图与异构图进行结合来进一步考虑节点之间的高阶关系，它们利用元路径实例构建超边，将原始异构图分解成多重超图，然而这些方法受限于专家知识预定义的元路径，而且也仅仅将这种高阶关系局限于元路径内部。针对上述问题，本文提出了基于局部建模的异构图表征学习方法L2NH。该方法通过构建邻居节点之间的协方差矩阵来捕获它们之间潜在的语义联系，为了进一步融入边的类型信息，提出关系编码对

5、局部网络进行“去异”操作，并将类型信息融入到协方差矩阵从而全面地描述局部网络特征。然后将局部子网进行特征值分解并从一个全局的视角进行邻居聚合，即局部到点的聚合方式，使得节点表征蕴含其局部特征。最后在分解的基础上，提出了一种多通道机制来捕获多样化的局部信息。1模型设计与分析1 1.1 1概述概述本节将详细阐述所提出的L2NH模型，它的总体框架如图1所示，可分为多关系局部网络提 10汤齐浩等：基于局部建模的异构图表征学习方法第15期取、关系编码与相关性建模和多通道融合三个阶段。在第一阶段中，以每个节点为中心提取它所在的局部子网。如图1（a）所示，浅蓝色椭圆区域代表以节点v为中心的局部网络。在第二阶

6、段中，首先以关系编码的方式将边表征增广到节点表征上进行“去异”操作，然后构建节点之间的协方差矩阵来挖掘它们之间的潜在语义联系，具体示意图见图1（b）。在第三阶段，对局部网络进行分解得到多个正交的通道，在每个通道中得到蕴含局部特征的节点表征，最后通过注意力机制将这些表征进行融合得到最终的节点表征，如图 1（c）所示，图中u1、u2、u3坐标轴代表着3个通道的方向，不同的通道两两正交，zv表示多个通道下的表征经过注意力融合之后最终节点v的表征。1 1.2 2多关系局部网络提取多关系局部网络提取一个异构图可以被定义G=V,E,Tv,Te,，它包括节点集V、边集E、节点类型集合Tv和边类型（或者关系）

7、集合Te，由于包含多种类型的节点或边，它还定义了一个节点类型映射函数:V Tv和一个边类型映射函数:E Te。对于任何关系r Te，都可以得到一个关系矩阵Ar R|V|V|，它对应着G的一个二部子图。对于Ar中的任何非0元素aij，它表示节点vi与vj之间存在关系r，反之则不存在。最后将所有的关系矩阵加在一起得到G的邻接矩阵A，其具体表达式如下：A=r TeAr（1）对于节点v来说，它对应的局部网络可以从A的第v列导出，将提取节点v的局部网络定义如下：Gv=f(A,G,v)（2）其中：f().代表子图提取操作，Gv表示以v为中心的局部子网，它包含了v的一阶邻居以及它们关联的边，如图1（a）浅蓝

8、色区域所示。1 1.3 3关系编码与相关性建模关系编码与相关性建模当得到多关系局部子网Gv以后，开始进行局部建模来挖掘潜在的语义联系。为了方便阐述，这里仅仅关注模型的第一层，并且不失一般性地假设Gv一共有M个节点。这些节点的属性矩阵表示为Xv=x1,x2,xM，每一列对应一个节点的属性向量，它们关联的关系集合为Ev=er1,er2,erM。由于不同类型的节点可能具有不同维度的属性，因此采用了针对每种节点类型的线性层，将节点特征映射到共享的特征空间，具体表达式如下：hv=W(v)xv（3）其中：xv RF()v表示节点的原始特征向量，（a）多关系局部网络提取（b）关系编码和相关性建模（c）多通道

9、融合图 1L2NH模型示意图 11现代计算机2023年hv RF表示对齐之后的节点向量，W(v)RF(v)F表示可学习参数矩阵，即一个与节点原始特征维度有关的线性层。正如前文所述，传统的点对点传播方式默认邻居节点之间相互独立而忽略了它们的潜在语义联系，本文提出的L2NH模型认为邻居节点之间具有相关性，节点之间的传播应该反映节点周围的特征。具体而言，L2NH构建了一个协方差矩阵来描述邻居节点之间的相关性，并采用自注意力机制6来捕捉这种成对的依赖关系。自注意力机制可以描述为一个映射函数，它接受一个查询和一系列键值对作为输入，并生成一个输出。为了避免引入过多的参数组增加模型的复杂度，L2NH仅使用一

10、个投影矩阵来简化查询（Q）、键（K）和值（V）矩阵的获取过程。用H=h1,h2,hM表示Gv中的节点投影到公共空间的表征矩阵，它的每一列对应着一个节点，然后再通过一个投影矩阵W RF F将所有节点映射到隐藏层表征空间来获取Q、K、V三种矩阵，它们表示如下：Q=K=V=WH（4）受图像尺度归一化7 使得图像更具有对比度的启发，节点的每个维度减去节点整体平均值的操作使得节点在每个维度上的表征更具有区分度和可比性。设所有节点的平均值构成局部网络的平均向量，它表示为=1,2,MT，对于v R，它的具体表达式如下：v=1Fi=1FWhvi（5）经过尺度归一化之后，Q、K、V矩阵可以重定义为Q=K=(WH

11、)T-（6）V=WH（7）得到Q、K矩阵以后，基于它们的相似度来捕获节点之间的相关性，进而构建邻居节点的协方差矩阵来描述局部特征，于是，协方差矩阵表示为=1F-1QKT=1F-1()(WH)T-()(WH)T-T（8）然而，在Gv中通常存在多种类型的边，由于局部性已经融入了拓扑信息，如何在局部建模的过程中融合边的类型信息成了又一挑战。在以往基于点对点传播方式的研究工作中，要么引入与边类型有关的参数组8，要么将边的表征融入到消息中进行传播9，要么将关系类型融入到注意力值中，它们一是引入了大量的可学习参数组导致模型过于复杂，二是仍然坚持建模同构图的观点。为了避免这种问题，这里L2NH采用了一种非常

12、简单而有效的关系编码方式。具体而言，给每条边分配一个d维的表征，对于相同类型的边它们分配的表征一样，而不同类型的边分配的表征则不一样。基于这种限制，Ev对应的边表征矩阵可以表示为R=r1,r2,rM，然后将边的类型信息转移到节点上对Gv进行“去异”操作得到增广后的节点表征矩阵表达如下：H=()HR（9）其中：H R()F+d M表示增广之后的表征矩阵，它的第i列可以表示为hi=()hi|ri R(F+d)。同公式（5）和公式（6）一样，计算出增广之后局部网络的平均向量 RM，然后基于新的投影矩阵Wr RF()F+d得到新的Qr、Kr、Vr矩阵来求得融合了边的类型信息的协方差矩阵S：S=1F+d

13、-1QrKrT=1F+d-1(WrH)T-)()(WrH)T-T（10）协方差矩阵S本质上描述了节点之间的相关性，而通过关系编码将边的类型信息融合到该矩阵中，因此可以用更少的参数对局部子网进行建模，全面地反映了节点的局部特征。1 1.4 4多通道融合多通道融合为了在邻居聚合的时候考虑到局部的潜在语义联系，L2NH采用了一种局部到点的邻居聚合方式。具体而言，将协方差矩阵S RM M进行特征值分解得到局部子网的特征向量，计算过程定义如下：S=UUT=i=1MiuiuTi（11）12汤齐浩等：基于局部建模的异构图表征学习方法第15期其中：U=u1,u2,uM，它的每一列对应一个特征向量，且每一个特征

14、向量都经过了正交化和规范化处理。=diag(1,2,M)是由特征值按照降序排列组成的对角阵，即1为最大的特征值，它对应的特征向量为u1 RM。由于特征向量从全局的视角编码了局部特征，为了使得节点的表征能够蕴含局部特征，因此使用特征向量作为聚合函数来聚合邻居信息，这种聚合方式实现了邻居节点之间联合传播，以一种局部到点的方式打破了邻居节点之间的独立性。当u1作为聚合函数时，得到节点v的表征为h1v=u1VrT=u1(WrH)T（12）为了获取更为多样化的局部信息，目前流行的方法为多头注意力机制和多通道机制。它们利用相同意义的非共享参数重复着相同的操作流程，试图捕获多样化的信息。然而，注意力头或者通

15、道之间是完全独立的，没有任何约束来加强信息的多样性，这会造成信息的冗余而进一步引发过拟合。为此，本文在局部相关性建模的基础上提出了一种全新的多通道方法来提取多样化的局部信息。具体而言，不同的特征向量可以用作不同的通道，不同的通道之间相互正交，这种正交的性质可以加强捕获信息的多样性。对于通道m，节点v的表征为hmv=um(WrH)T（13）节点最终的表征zv可以通过注意力机制将多个通道进行加权求和得到，具体表达如下：zv=m=1Mum hmv（14）其中：M为通道的个数，um可以被解释为通道m对节点v的重要性，该系数可以通过以下公式进行计算：um=exp()MLP(hmv)m=1Mexp()ML

16、P(hmv)（15）其中 MLP：RF R是一个两层的多层感知机，隐藏层的激活函数为 tanh，所有节点的局部网络都共享同一个MLP。对于半监督节点分类任务，通过最小化交叉熵损失来优化模型参数，具体的损失函数表达如下：L=-v VLyvln(C zv)（16）其中：C代表着分类器的参数，VL代表训练集的节点集合。而yv表示节点v真实标签。zv代表节点v用于分类任务的表征，它来自于模型的输出层。2实验为了验证L2NH的有效性，本文将在四个常用的异构图数据集上与八个先进的基准方法进行实验对比。2 2.1 1数据集数据集本文实验数据集包括两个学术网络DBLP和ACM，一个电影网络 IMDB 和一个商

17、业网络Yelp。数据集详细统计信息如表1所示。表 1数据集的统计数据数据集DBLPACMIMDBYelp节点数184058994127723913边数67946259223728836066边类型数4446特征3341902125682训练集/验证集/测试集800/400/2857600/300/2125300/300/2339300/300/20142 2.2 2对比方对比方法法本文通过与一些先进的基线模型进行对比，来验证所提出的L2NH的有效性。Metapath2Vec（简称 MP2Vec）10：该方法基于元路径进行截断随机游走并结合 skip-gram 算法实现保留语义相似性。本文依次测

18、试了MP2Vec所有元路径，并报告了最佳性能结果。HAN11：该方法利用层次化的注意力机制，包括节点级别的注意力和语义级别的注意力，同时学习节点和元路径的重要性。MAGNN12：该方法进一步考虑了 HAN 忽略的元路径实例中的中间节点，然后使用注意力机制执行元路径内部聚合和元路径间聚合。RGCN：该方法在GCN13的基础上在聚合邻居的时候引入与边类型有关的参数组来对不同边上的消息进行与类型有关的转换。GTN14：该方法将每种关系看作一个可学习权重，整个异构图就是一个可学习的带权同构图，并且通过端到端学习来自动发现元路径，13现代计算机2023年因此该方法可以认为是基于注意力机制的模型。HGT：

19、是一种基于 Transformer 架构的异构图神经网络，通过引入与相邻节点类型和边类型有关的参数组来计算边注意力值。HetSANN：该方法应用与边类型有关的注意力层来计算不同类型边上的注意力值。SimpleHGN：该方法在 GAT15的基础上将边类型表征融入注意力层中，并使用残差连接和表征归一化技巧来提高表达能力。2 2.3 3实验结果实验结果本研究采用 MacroF1 和 MicroF1 作为指标来全面地评价模型的性能，实验结果如表 2所示，其中加粗表示最优性能，加下划线表示次优性能，所有结果是五次实验的平均值。实验结果表明，LNPH方法在所有基准数据集上均表现出最佳的性能，特别是在IMD

20、B数据集，相较于次优的算法整体提升了 5.59%。MP2Vec属于浅层模型且只考虑了结构信息，并没有考虑到节点的属性信息，其性能往往不如其他深层模型。基于元路径的方法的性能容易受到预定义元路径的影响，比如HAN在一些数据集上的性能不如自动发现元路径模型 GTN。而基于注意力机制的方法虽然考虑了类型信息，但学习到的注意力值完全基于节点对交互，容易忽略局部节点之间的潜在语义联系，这可能导致噪声和过拟合，例如HetSANN在Yelp数据集上的表现远不如其他模型。RGCN既没有使用多通道机制，也没有考虑高阶语义关系，因此表现也不如 L2NH。注意力模型 SiHGN 与自动发现元路径模型GTN在四个数据

21、集上包含了次优的性能，这在某种意义上能够说明融入类型的注意力机制也能够隐式地挖掘元路径，但是这种注意力机制并没有考虑局部高阶语义联系，且GTN的时间复杂度又是相当高的。综上所述，L2NH方法能够在所有数据集上取得最佳性能，进一步证明了捕捉局部潜在的高阶语义联系和多样化聚合在异构图分析中的重要性。2 2.4 4消融实验消融实验为了更好地展示L2NH各部分的效果，本节实验将该模型的部分操作进行剥离来观察实验结果的变化。这里评估了L2NH的两种变体：L2NHR：该变体不使用关系编码，直接忽略边的类型信息。L2NHV：该变体不使用多通道机制，即将通道个数设为1。图 2探究不同模块对模型性能的影响表 2

22、节点分类实验结果方法MP2VecRGCNHANMAGNNGTNHGTHetSANNSimpleHGNL2NHDBLPMacroF1/%92.1490.0692.8793.0493.3292.2193.7394.1294.33MicroF1/%93.1791.3593.6293.9694.1293.2194.5094.8595.10ACMMacroF1/%78.3490.7691.4891.4691.5489.1890.5192.0693.56MicroF1/%77.9790.6891.3891.4491.5289.0590.3891.9693.51IMDBMacroF1/%47.3956.53

23、54.7641.3156.9753.7340.1256.6362.49MicroF1/%49.2457.4256.2956.1658.6156.9053.5958.2664.20YelpMacroF1/%68.3191.3692.1091.3893.3791.5182.8592.2594.16MicroF1/%73.5791.6091.4391.1392.6891.1485.7091.6593.64 14汤齐浩等：基于局部建模的异构图表征学习方法第15期图2展示了两个变体和完整的L2NH在节点分类（IMDB数据集以右边的y轴为准）任务的消融实验结果，其中横坐标表示数据集，纵坐标表示 Micro

24、F1 指标。实验结果均表明完整的L2NH模型的性能最好，这说明L2NH的两个关键组成部分都对其改进性能具有积极作用。具体而言，L2NHR与L2NH的比较突出了关系信息的重要性，而与LNPHV比较则突出了用于捕捉多样化局部信息的多通道机制的有效性。从图2节点的分类结果可以看出，相较于L2NHR，在四个数据集上，L2NH 的性能表现分别上升了1.77、0.70、1.75和1.34。与此同时，相较于L2NHV，L2NH的性能也表现出了上升趋势，尤其是在IMDB数据集上提升了3.28。3结语本文基于局部建模的方式提出了一种用于异构图表征学习方法L2NH。该方法通过建立邻居节点之间的协方差矩阵来挖掘蕴含

25、在局部的潜在语义联系，并在此基础上提出了一种局部到点的多通道聚合方式来捕获多样化的局部信息。实验表明，L2NH在四个真实的异构图数据集上进行节点分类的性能优于目前现有的先进的基准方法，从而证明了该方法的有效性。参考文献：1 LYU Q，DING M，LIU Q，et al.Are we really making much progress?Revisiting，enchmarking and refining heterogeneous graph neural networksCProceedings of the 27th ACM SIGKDD Conferenceon Knowledg

26、e Discovery&Data Mining，VirtualEvent，Singapore，2021：11501160.2 ZHAO J，WANG X，SHI C，et al.Heterogeneousgraph structure learning for graph neural networksC Proceedings of the 31th Conference on Innovative Applications of Artificial Intelligence，VirtualEvent，2021：46974705.3 HU Z，DONG Y，WANG K，et al.Het

27、erogeneousgraph transformer C Proceedings of the Web Conference 2020，Taipei，2020：27042710.4 LIU J，SONG L，WANG G，et al.MetaHGT：Metapathaware HyperGraph Transformer for heterogeneous information network embeddingJ.NeuralNetworks，2023，157：6576.5 TU K，CUI P，WANG X，et al.Structural deep embedding for hyp

28、ernetworks C Proceedings of the30th Innovative Applications of Artificial Intelligence，New Orleans，Louisiana，USA，2018：426433.6 VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need C Proceedings of the Advances in Neural Information Processing Systems 30：Annual Conference on Neural Informatio

29、n ProcessingSystems2017，LongBeach，USA，2017：59986008.7 KRIZHEVSKY A，SUTSKEVER I，HINTON G E.Imagenet classification with deep convolutional neural networksCProceedings of the 26th AnnualConference on Neural Information Processing Systems 2012，Lake Tahoe，Nevada，United States，2012：11061114.8 SCHLICHTKRU

30、LL M，KIPF T N，BLOEM P，etal.Modeling relational data with graph convolutionalnetworks C Proceedings of the 15th InternationalConference on Extended Semantic Web Conference（ESWC），Heraklion，Crete，Greece，2018：593607.9 YU L，SUN L，DU B，et al.Heterogeneous graphrepresentation learning with relation awarene

31、ssJ.IEEE Transactions on Knowledge and Data Engineering，2022.10 DONG Y，CHAWLA N V，SWAMI A.Metapath2vec：scalable representation learning for heterogeneous networksCProceedings of the 23rdACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Halifax，NS，Canada，2017：135144.11 WANG X

32、，JI H，SHI C，et al.Heterogeneous graphattention networkCProceedings of the WorldWide Web Conference，San Francisco，CA，USA，2019：20222032.12 FU X，ZHANG J，MENG Z，et al.MAGNN：metapath aggregated graph neural network for heterogeneous graph embeddingCProceedings of theWeb Conference 2020，Taipei，2020：233123

33、41.13 KIPF T N，WELLING M.Semisupervised classification with graph convolutional networksCProceedings of the 5th International Conference onLearning Representations，Toulon，France，2017.14 YUN S，JEONG M，KIM R，et al.Graph transformer networks CProceedings of the AnnualConference on Neural Information Pr

34、ocessing Systems2019，Vancouver，BC，Canada，2019：1196011970.15 VELICKOVIC P，CUCURULL G，CASANOVAA，et al.Graph attention networks C Proceedingsof the 6th International Conference on Learning Representations，Vancouver，BC，Canada，2018.（下转第22页）15现代计算机2023年Research on construction method of information knowle

35、dge map ofelectronic information equipmentJiang Fang,Yan Mingliang*,Huo Jiangtao,Li Zishi（No.63891 Unit of PLA,Luoyang 471003,China）Abstract:With the advent of the era of big data，all kinds of intelligence information has grown exponentially.The sharp increase in the amount of intelligence data has

36、brought great challenges to the work of intelligence analysts.The professionalism ofelectronic information equipment has further deepened the difficulties of intelligence analysts in the field of electronic informationequipment.In order to solve the problem of efficiency and quality of information a

37、nalysts in dealing with massive intelligence information,proposes the construction process method of knowledge map of electronic information equipment intelligence based on thebusiness requirements.The key technologies required for the construction of knowledge map have been studied to help intellig

38、enceanalysts quickly acquire intelligencerelated knowledge in the field of electronic information equipment intelligence,improve thetimeliness and quality of intelligence data,and improve the guarantee ability of intelligence services.Keywords:electronic information equipment;knowledge map；ontology

39、construction;information extraction;knowledge fusionHeterogeneous graph representation learning viamultirelation egonetworks modelingTang Qihao*,Yang Liang（School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China）Abstract:The existing heterogeneous graph neural networks（

40、HGNNs）ignore latent associations between neighbors and thusfail to reflect nodessurrounding characteristics when performing neighbor aggregation.To tackle this issue,a novel embeddingmethod based on multirelation egonetworks modeling is proposed in this thesis.In particular,the covariance matrix of

41、neighbornodes is proposed to build dependencies between them while incorporating edge type information into the matrix by a simple but effective relation encoding method.Then,a multichannel mechanism based on the eigenvalue decomposition of egonetworks is proposed to enable node representations to reflect diverse global characteristics of egonetworks.Finally,extensive experiments demonstrate that the proposed method outperforms the stateoftheart baselines in node classification task.Keywords:heterogeneous graph neural networks;egonetworks modeling;multichannel mechanism（上接第15页）22

展开阅读全文