ImageVerifierCode 换一换
格式:PDF , 页数:10 ,大小:2.11MB ,
资源ID:2415048      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2415048.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于全局对抗负样本的图对比学习方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于全局对抗负样本的图对比学习方法.pdf

1、第3 8卷 第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 0 6 5-0 9基于全局对抗负样本的图对比学习方法岑科廷1,2,沈华伟1,2,曹 婍1,徐冰冰1,程学旗2,3(1.中国科学院 计算技术研究所 数据智能系统研究中心,北京1 0 0 1 9 0;2.中国科学院大学,北京1 0 1 4 0 8;3.中国科学院 计算技术研究所 网络数据科学与技术重点实验

2、室,北京1 0 0 1 9 0)摘 要:图对比学习在无监督节点表示方面取得了巨大成功。该类模型旨在通过拉近同一节点对应的不同增强节点的表示(正样本),推远不同节点的表示(负样本)的方式为每个节点学习表示。其中负样本的选择是图对比学习的一个关键。现有的方法通过随机采样或者根据一些启发式的重要性度量标准为每个节点选择对应的负样本。然而上述方法并不能准确地找到对模型关键的负样本。同时,由于需要为每一个节点选取其对应的负样本,导致高昂的时间开销。为了解决上述问题,该文提出通过对抗学习的方式,为所有节点学习一个全局共享的关键的负样本。在多个基准数据集上的实验结果证明了该方法的效率和有效性。关键词:图表示

3、学习;图对比学习;对抗负样本;全局负样本中图分类号:T P 3 9 1 文献标识码:AG r a p hC o n t r a s t i v eL e a r n i n gw i t hG l o b a lA d v e r s a r i a lN e g a t i v eE x a m p l e sC E NK e t i n g1,2,S HE N H u a w e i1,2,C AOQ i1,XUB i n g b i n g1,CHE N GX u e q i2,3(1.D a t aI n t e l l i g e n c eS y s t e mR e s e a

4、r c hC e n t e r,I n s t i t u t eo fC o m p u t i n gT e c h n o l o g y,C h i n e s eA c a d e m yo fS c i e n c e s,B e i j i n g1 0 0 1 9 0,C h i n a;2.U n i v e r s i t yo fC h i n e s eA c a d e m yo fS c i e n c e s,B e i j i n g1 0 1 4 0 8,C h i n a;3.C A SK e yL a b o r a t o r yo fN e t w

5、o r kD a t aS c i e n c ea n dT e c h n o l o g y,I n s t i t u t eo fC o m p u t i n gT e c h n o l o g y,C h i n e s eA c a d e m yo fS c i e n c e s,B e i j i n g1 0 0 1 9 0,C h i n a)A b s t r a c t:G r a p hc o n t r a s t i v e l e a r n i n g,a s u c c e s s f u l u n s u p e r v i s e dn o d

6、 e r e p r e s e n t a t i o nm e t h o d,a i m s t o l e a r nn o d e r e p-r e s e n t a t i o n sb yp u l l i n g t h e a u g m e n t e dv e r s i o n so f t h en o d e t o g e t h e r(p o s i t i v e e x a m p l e s),w h i l ep u s h i n g i tw i t ho t h e rn o d e sa p a r t(n e g a t i v ee x

7、 a m p l e s).O n ek e yc o m p o n e n to fg r a p hc o n t r a s t i v e l e a r n i n gi st h ec h o i c eo fn e g a t i v ee x a m-p l e s,a n de x i s t i n gm e t h o d s f a i l a c c u r a t e l yf i n d i n gt h ec h a l l e n g e a b l en e g a t i v ee x a m p l e s t h a t a r ec r i t i

8、 c a l t ot h em o d e l.W ep r o p o s e t o l e a r nag l o b a l n e g a t i v ee x a m p l e f o r a l l t h en o d e s,t h r o u g ha d v e r s a r i a l l e a r n i n g.E x t e n s i v ee x p e r i m e n tr e s u l t sd e m o n s t r a t eb o t ht h ee f f i c i e n c ya n de f f e c t i v e n

9、 e s so f t h ep r o p o s e dm o d e l.K e y w o r d s:g r a p h r r e p r e s e n t a t i o nl e a r n i n g;g r a p h c o n t r a s t i v el e a r n i n g;a d v e r s a r i a ln e g a t i v ee x a m p l e s;g l o b a ln e g a t i v ee x a m p l e s收稿日期:2 0 2 2-0 3-1 6 定稿日期:2 0 2 2-0 5-1 0基金项目:国家重

10、点研究与发展计划(2 0 1 8 Y F C 0 8 2 5 2 0 4);国家自然科学基金(U 2 1 B 2 0 4 6,6 2 1 0 2 4 0 2);北京智源青年科学家项目(B AA I 2 0 1 9 QN 0 3 0 4)0 引言图表示学习期望给每个节点学到保留图结构和节点属性的低维表示1。这类方法在很多重要的图分析任务上取得了显著的成果,例如,节点分类1、链路预测等2。最近,基于图对比学习的节点表示学习方法展现了前所未有的性能3-5,正在成为该领域的主流方法。图对比学习期望通过拉近正样本对之间的距离,推远负样本之间的距离来为每个节点学习表示6-8。传统的图对比学习方法将同一个节

11、点经过中 文 信 息 学 报2 0 2 4年两种不同数据增强后得到的节点视为正样本对,将其与图上其它节点都视为负样本对3(图1(a)。由于每个节点都将其余节点视为负样本,因此这类方法的时间复杂度是关于节点数的平方,导致此类方法难以被应用到实际场景中。图1 负样本选择方式对比为了降低时间复杂度,一种直观的方式是给每个节点选择一些节点作为负样本。具体来说研究者们试图通过随机采样特定个负样本的方式加速模型9(图1(b)。该方法将所有负样本视为同等重要,并通过均匀采样的方式为每个节点生成对应的负样本。然而,该方法已经被证实需要大量的负样本才能使模型达到较好的效果1 0。为了提升图对比学习方法的性能和效

12、率,一些方法改进了负样本选择的策略。最近的一些工作从理论和实验上发现难的负样本(即难以与正样本对区分的样本)有助于学习更强大的表示。因此,大量现有方法希望启发式地为每个节点选择若干难的负样本(图1(c)。常见的选择标准有节点间路径长度1 0-1 1和节点表示间的余弦相似度1 0等。基于节点间路径长度的标准认为,距离目标节点越近的节点,作为负样本的重要性越高。而基于节点表示间的余弦相似度的标准认为,与目标节点表示的余弦相似度越大的节点,作为负样本的重要性越高。然而,这类启发式定义的重要性度量标准无法保证选出来的负样本对于模型是难的。同时这些方法在为每个点筛选负样本时,需要计算其与图上所有其它节点

13、之间的相似度,并进行排序选择前K个节点,引入了额外的时间复杂度。为了解决上述问题,本文提出基于全局对抗负样本的图对比学习方法。通过将负样本参数化,直接学习模型需要的难负样本。通过最大化模型损失函数,更新该负样本参数,不再需要通过人为先验来进行启发式选择。同时,与之前方法分别为每个节点构建难负样本不同,我们为所有节点学习一个全局的负样本(图1(d),从而显著提高了效率。另一种有效的方式是为每个节点都学习一个负样本,然而这样会引入大量的参数,导致过拟合问题,同时也带来了高昂的内存代价。因此我们选择为所有节点学习一个共享的全局的负样本。具体来说,我们将同一个节点在两个不同增强图上的表示作为正样本对,

14、将节点与待学习的全局负样本视为负样本对。受H u等人1 2的启发,我们通过将模型形式化成一个最大最小化问题进行求解。具体来说,我们的模型包含两个互相对抗的参与者:待学习的全局负样本和将每个节点映射到隐层表示空间的图编码器。我们通过交替优化的方式更新图编码器的参数和全局负样本的参数。一方面,我们固定全局负样本表示,通过最小化对比损失来训练图编码器,即鼓励模型能正确区分正负样本对。另一方面,我们固定图编码器参数,通过最大化对比损失来更新全局负样本,即产生让模型无法分对的最难的负样本。此外,本文进一步对提出的方法进行了深入分析,发现更新全局负样本的梯度为图中所有节点表示的加权线性组合。同时证明,最小

15、化与该全局负样本的对比损失函数等价于最大化图上节点之间的加权平均距离。多个基准数据集上充分的实验结果证明了我们模型的有效性和效率。1 相关工作1.1 传统图表示学习 图表示学习旨在为每个节点学习一个保留网络结构性质或者节点属性的低维节点表示。以前的方法通常通过解决 一个预定义 任 务 来 学 习 节 点 表示1 3。大多 数传统的网络 嵌入方法采 用结构 重建1 4-1 5或属性预测1 6-1 7作为预定义任务。结构重构任务期望利用节点表表示H恢复某些结构相关的矩阵,例如,邻接矩阵A1 4。GA E1 4利用图卷积神经网络将节点的结构和属性映射到隐层表示空间,同时利用节点vi和vj表示的点积来

16、重构他们之间的连边概率A i j。GA E通过约束重构的邻接矩阵A 尽可能和输入的邻接矩阵A保持一致来训练模型。基于属性重构的网络表示学习方法,将利用节点表示H重构输入属性矩阵X作为目标训练模型1 6-1 7。例如,AN R L1 7将节点的邻接矩阵A作661期岑科廷等:基于全局对抗负样本的图对比学习方法为输入,经过多层自编码器后输出预测的节点属性矩阵X,通过约束输出属性矩阵X 尽可能接近输入属性X来训练表示学习模型。1.2 图对比学习最近,图对比学习已成为无监督图表示学习中最受关注的一种技术。图对比学习期望学到一个表示学习模型,使得相似的节点(正样本)得到相似的表示,不相似的节点(负样本)得

17、到差异较大的表示3-8,1 8。传统的图对比学习将所有负样本视为同等重要,其不同点在于对正样本的定义。例如,G R A C E3将同一节点的不同增强版本定义为正样本对,而将图上剩下其它所有节点都当成负样本。D G I1 9将图表示和图上节点表示视为正样本对,将图表示和随机打乱后图上节点表示视为负样本对。最近一些方法通过启发式的方式来定义重要的负样本,从而提升图对比学习的效果。例如,Y a n g等人9认为节点的度反映其作为负样本的重要性,因此该方法提出负样本的采样概率与其度成正比,即度越大的节点越重要。G r a p h C L1 0定义负样本节点与目标节点的余弦相似度为其重要性,对于每个节点

18、利用余弦相似度挑选最像的K个节点作为负样本。K a l a n t i d i s等人2 0提出利用得到的负样本进行线性混合,生成更难的负样本。此外,近些年图对比学习在可解释性和数据增强方式上也有新的进展。D G C L2 1利用解耦表示提升了图对比学习的可解释性。A R I E L2 2利用对抗训练的方式生成增强样本。2 模型本节首先回顾传统图对比学习,分析它的局限性,并介绍我们工作的动机。之后详细介绍我们模型的框架,以及如何更新模型的参数和我们的全局负样本。最后,通过分析更新全局负样本的梯度,更好地揭示了模型背后的含义。2.1 动机典型的图对比学习方法,通过最大化同一节点在不同增强图上得到

19、的表示之间的相似度来训练模型。具体来讲,在每一轮迭代中,此类方法首先在原图上应用数据增强操作得到原图的两个增强图记做G(1)=(A(1),X(1)和G(2)=(A(2),X(2),其 中,A(*)和X(*)分别表示增强图的邻接矩阵和节点特征矩阵。之后将这两个图作为输入,分别得到对应的节点表示H(1)和H(2)。此类方法通过约束任意节点i在两个不同增强图中的表示h(1)i和h(2)i相似而与其它节点表示互相远离的方式训练模型。其目标函数可以形式化如式(1)所示。L()=Ni=1l o ge x p(h(1)Tih(2)i/)e x p(h(1)Tih(2)i/)+e x p(h(1)Tihk/)

20、(1)其中,h(*)i是H(*)的第i行,代表节点i在某个增强图上的表示,是正数用来控制相似度范围,hk是采样得到的负样本的表示,K代表负样本的数量,代表用来得到节点表示地图编码器的参数。图对比学习通过最小化对比损失函数L()来更新。现有方法通过均匀采样的方式从图上采样负样本,即每个点被当成负样本的概率相同。由于采样过程与模型无关,难以保证采样到的负样本对于模型是难的。因此现有方法往往需要较大的负样本个数K,例如,G R A C E将图上所有其它节点视为负样本即K=N,使得模型具有较高的时间复杂度。最近,H a f i d i等人1 1将余弦相似度定义为负样本的重要性,通过并依此为每个节点筛选

21、负样本。然而启发式定义的余弦相似度并不能真正反映负样本的重要性。同时由于需要在迭代中对节点按余弦相似度排序,使得模型又引入了额外高昂的时间代价。为了克服上述困难,我们提出直接学习全局负样本。即通过对抗训练学到使得图对比学习模型损失函数最大的全局对抗负样本。考虑到该负样本是基于全局损失函数学到的,因此该负样本兼顾了所有节点需要的负样本的性质,我们让所有节点共享该负样本,因此将负样本个数降低为1,极大地提升了模型的效率。2.2 基于全局对抗负样本图对比学习本节形式化地介绍基于全局对抗负样本图对比学习的节点表示学习方法ANG C L。2.2.1 模型框架如图2所示,我们的ANG C L模型包含两个对

22、抗性参与者:图编码器和可学习的全局负样本n。图编码器旨在通过最小化对比损失来学习将正样本与负样本区分开来的节点表示。而全局负样本n则是指最容易让模型做错的负样本,即最大化对比损失的负样本。我们将求解图编码器和对抗负样本n的过程抽象成最大最小化问题,其形式化如式(2)所示。76中 文 信 息 学 报2 0 2 4年图2 AN G C L模型框架图*,n*=a r gm i nm a x nL(,n)(2)其中,*表示最优的图编码器的参数,n*表示最优的全局负样本,L(,n)是对比损失函数。正如许多现有的对抗性训练算法所示,找到此类问题的鞍点既困难又耗时1 2,2 3。因此,我们采用了被广泛使用的

23、快速梯度法2 3,通过交替更新它们,直到收敛。即在更新图编码器参数时,保持全局负样本不变。在更新全局负样本时,保持图编码器参数不变。该过程形式化为以下等式:(t+1)(t)-dL(t),n(t)(3)n(t+1)n(t)+ndL(t+1),n(t)dn(4)其中,和n分别是更新图编码器和全局负样本n的学习率。下文将详细介绍图编码器的实现,以及全局负样本更新的具体形式及其意义。2.2.2 图编码器实现如图2所示,对于一张图我们首先通过数据增强函数t1和t2,分别生成对应的增强图(A(1),X(1)和(A(2),X(2),之后通过图编码器得到对应的节点表示。为了公平对比,我们使用与之前的方法相同的

24、数据增强函数。增强函数包含两个算子,连边去除和特征掩蔽。连边去除通过随机丢弃一些边来生成增强图。具体来说,对于每条边,我们随机生成一个遵循伯努利分布B(1-pe)的指示Re。其中,pe是边移除的概率。如果Re=1,则删除边e以生成增广图。类似地,我们生成一个遵循伯努利分布B(1-pf)的指标Rf,pf表示特征掩蔽的概率。如果Rf=1,我们将图中所有节点的特征f设置为零。t1和t2的区别在于概率pe和pf不同。图编码器用于将每个节点嵌入到隐藏空间中,可以使用任何图神经网络2 4-2 6来构建。为了同之前的方法进行公平的对比,我们采用与其相同的架构,即堆叠两层G C N2 4以形成图形编码器。具体

25、来说,它形式化为:H=R e L U(AR e L U(AXW)W)(5)其中,A=D-12AD-12,W 和W 是可学习的参数。此外,A=A+I,I是单位矩阵,Di i=jAi j。R e L U是激活函数。2.2.3 负样本更新首先,我们给出模型对比损失函数的定义。与之前的方法不同,ANG C L通过约束同一节点在不同增强图(A(1),X(1)和(A(2),X(2)中的表示相近,与全局负样本表示n相远来实现,其形式化如式(6)所示。L(,n)=-1NNi=1l o ge x p(h(1)Tih(2)i/)e x p(h(1)Tih(2)i/)+e x p(h(1)Tin/)(6)其中,n是

26、我们的全局负样本的表示,h(*)i代表节点i在某个增强图上的表示。根据上述对比损失函数L(,n),我们可以得到其关于全局负样本n的梯度如式(7)所示。dL(,n)dn=1NNi=1e x p(h(1)Tih(2)i/)e x p(h(1)Tih(2)i/)+e x p(h(1)Tin/)h(1)i(7)如果我们将左侧的分式子视为权重,即wi=e x p(h(1)Tin/)e x p(h(1)Tih(2)i/)+e x p(h(1)Tin/)h(1)i(8)那么,全局负样本更新的梯度可以视为对图上所有节点表示的线性组合,其形式化如式(9)所示。dL(,n)dn=1NNi=1wih(1)i(9)8

27、61期岑科廷等:基于全局对抗负样本的图对比学习方法 由上述公式可知,我们的全局负样本是沿图上所有节点表示加权平均的方向更新。其中每个节点的权重wi由其与当前全局负样本的相似度和其与正样本的相似度一同决定的。换句话说,一个节点表示与当前全局负样本的相似度相比于该节点与对应正样本的相似度越大,则它对更新全局负样本的贡献就越大。即那些难以将全局负样本与其正样本区分开的节点,对与全局负样本的更新贡献更大。按此方式更新后的全局对抗样本对于模型更具有挑战性,因为对于每个节点都难将其与正样本区分开。将该全局负样本用于图编码器的参数更新,可以进一步提升图编码器的质量,得到在下游任务表现更好的节点表示。2.3

28、时间复杂度对比本节分析了我们的模型和基于图对比学习的基准方法G R A C E和G r a p h C L的时间复杂度。首先所有模型都采用了相同的数据增强方式,连边去除和特征掩藏,其时间复杂度为O(E+F)。此外所有模型的编码器采用了相同的结构,即图卷积神经网络1 4,其时间复杂度为O(l E F+l NF2)。其中,l表示图卷积神经网络的层数,E表示图上的连边数,N表示节点数,F表示特征维度,我们假设每层输出的表示维度不变。下面 介 绍 各 方 法 损 失 函 数 的 时 间 复 杂 度。G R A C E3对于每个节点将图上剩下所有节点视为负样本,因此在计算损失函数时依赖于所有节点对,其时

29、间复杂度为O(N2)。若G R A C E采样K个负样本,则其时间复杂度降低为O(KN),我们将该模型记做G R A C E(K)。然而在实验中发现,随着负样本数K减少,G R A C E(K)效果显著下降。G r a p h C L1 1对于每个点选择最相似的K个负样本,因此其损失函数时间复杂度为O(KN)。然而对于每个点挑选其对应K个负样本的过程中,依赖于对剩下所有点计算相似度,同时对结果进行排序,因此其时间复杂度为O(N+Nl o gN)。图上共有N个节点,因此G r a p h C L损失函数总时间复杂度为O(KN+N2+Nl o gN2)。我们的ANG C L只有一个负样本,因此其损

30、失函数时间复杂度为O(2N)。虽然我们引入了额外的更新对抗负样本的时间复杂度,但是由于每轮迭代更新的梯度为所有节点表示的线性组合,即这部分的时间复杂度为O(N)。所有方法的时间复杂度总结如表1所示。我们发现我们方法的时间复杂度与采样版的图对比学习方法G R A C E(K)相当,且低于其它方法。2.4 模型分析根据2.2.3节我们可以得到全局负样本的更新方式,本节将分析该负样本对模型的意义。表1 方法时间复杂度对比模型时间复杂度G R A C EO(E+F)+O(l E F+l NF2)+O(N2)G R A C E(K)O(E+F)+O(l E F+l NF2)+O(KN)G r a p h

31、 C LO(E+F)+O(l E F+l NF2)+O(KN)+O(N2l o gN)ANG C LO(E+F)+O(l E F+l NF2)+O(N)为了关注于全局负样本对模型的影响,我们假设模型已经完美匹配所有正样本对,且h(*)i向量的模为1,可 以 得 到 对 于 任 意 的i都 有 正 样 本 对h(1)Tih(2)i=1,此时最小化对比损失L(,n)等于最小化以下等式。L()=-1NNi=1l o ge x p(1/T)e x p(1/T)+e x p(h(1)Tin/T)=1NNil o g(e x p(h(1)Tin)+C)(1 0)其中,C是常数项。我们发现最小化该损失函数等

32、价于最大化图上所有节点对之间的加权距离。定理1:L()是所有节点对之间的加权距离和的上界。证明:L()1NNil o g(e x p(h(1)Tin)=1NNi=1h(1)Tin/=1NNi=1h(1)TiNj=1wjh(1)j+Cn()/=1N Ni=1Nj=1wjh(1)Tih(1)j+C=-1N Ni=1Nj=1(wi+wj)|h(1)i-h(1)j|2 根据定理1,可以得出最小化与我们的全局负样本的对比损失函数等价于最大化所有节点对之间的加权距离,其权重为节点参与更新全局负样本梯度的权重。即如果两个点都很靠近当前的全局负样本,则会给这两个点较大的权重,从而让模型更关注于将这两个节点推开

33、。同时,我们发现该损失函数与节点分布的均匀96中 文 信 息 学 报2 0 2 4年性之间存在关联。均匀性是指学到的节点表示均匀分布在球面上,从而保留最大的信息量。均匀性的形式化度量如式(1 1)所示。Lu n i f o r m i t y=l o gNi=1Nj=11N2(e-hi-hj22)(1 1)该式子要求任意两个节点表示之间尽可能分开,且任意节点之间的重要性相同。一些研究者指出,传统图对比学习方法2 7-2 8,通过推远与所有负样本之间的距离实现了均匀性2 9。这类传统的图对比学习方法将所有节点视为同等重要,而我们的模型相当于实现了 加权的均匀 性。同 时 当 所 有 的 权 重w

34、i=1时,我们的模型退化成了传统的图对比学习方法。3 实验本节我们对提出的ANG C L模型进行实验,并将其与现有的无监督表示学习方法在节点分类任务上进行比较。最后,我们进一步深入探讨、分析了模型的有效性。3.1 实验细节设置本节首先介绍数据集、基准方法以及实验的基本设置。3.1.1 数据集本文使用7个广泛使用的具有节点分类任务的基准 数 据 集 的 基 线3,3 0。C o r a、C i t e s e e r、P u b m e d是三个引用网络,其中每个节点表示一篇论文,每条边表示一个引用关系。Am a z o nC o m p u t e r s(Am.C)、Am a z o nP

35、h o t o s(Am.P)是从亚马逊共同购买图中提取的,其中节点代表产品,边代表经常一起购买的成对商品。C o a u t h o rC S(C o.C S)、C o a u t h o rP h y s i c s(C o.P h y)是共同创作的图表,其中节点代表作者,而作者之间的边则代表共同撰写的论文。上述数据集的统计信息如表2所示,其中类别数表示图上所有不同标签的数量,且每个节点只有一个标签。该标签用于构建下游节点分类任务。表2 数据集统计信息数据集节点数连边数属性数类别数C o r a27 0 854 2 914 3 37C i t e s e e r33 2 747 3 237

36、 0 36P u b m e d1 97 1 74 43 3 85 0 03续表数据集节点数连边数属性数类别数Am.C1 37 5 22 4 58 6 17 6 71 0Am.P76 5 01 1 90 8 17 4 58C o.C S1 83 3 38 18 9 468 0 51 5C o.P h y3 44 9 32 4 79 6 284 1 553.1.2 基准方法介绍文本的基准方法包含传统的网络表示学习方法和基于图对比学习的方法两类。对于传统的网络表示学 习 方 法,我 们 选 择 了 最 受 关 注 的D e e p w a l k(DW)3 1方法。同时将节点属性和D e e p

37、w a l k得到的表示拼接作为同时刻画结构和属性的基准方法,记作DW+F。对于图对比学习方法,我们选择了利用随机采样负样本的方法D G I和G R A C E3。以及利用相似度选取难负样本的方法G r a p h C L1 1。对于每个节点,G r a p h C L只使用与其相似度最高的2 0个节点作 为 负 样 本。对 于 基 于 图 对 比 学 习 的 方 法G R A C E,G r a p h C L,D G I1 9,我 们 设 定 其 迭 代 轮 数为5 0 0。3.1.3 模型设置我们利用T e n s o r f l o w 2.3实现模型。模型参数通过G l o r o

38、t算法进行初始化,并且利用A d a m优化器最小化对比损失函数L(,n)进行优化,学习率为0.0 0 1,并且设定迭代轮数为3 0 0。对于控制超参数的 选 择 范 围 是 0.0 5,0.1,0.5,1.0。对 于D r o p o u t概率,随机丢边的概率,随机删除节点属性的概率的选择范围都为0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,最优的=0.1,D r o p o u t=0.6。3.1.4 下游任务设置我们在无监督范式下训练我们的模型和基准方法,并 利 用 节 点 表 示 在 下 游 任 务 上 的 表 现 来 评价2-5,3 2。本文将节点分类任务

39、作为下游任务,其具体流程如下。我们将学到的节点表示作为输入,根据数据划分,利用训练集中的节点表示训练线性分类器。同时利用验证集调整超参数,利用测试集评价模型。我们使用常用的线性支撑向量机(S VM)来作为下游节点分类任务的分类器3,1 1。对于C o r a、C i t e s e e r和P u b m e d,我们遵循之前论文中的固定划分,构建下游任务缺乏标签数据的情况,即每类只有3 0个训练标签。对于其余四个数据集,我们将节点随机拆分为训练/验证/测试集,其比例为(8 0%/071期岑科廷等:基于全局对抗负样本的图对比学习方法1 0%/1 0%)。对于所有实验,我们重复1 0次,并展示了

40、平均结果和方差。3.2 节点分类实验节点分类任务的结果如表3所示,其中最优值加粗展示,次优解用下划线展示,OOM表示超过G P U内存限制,本文使用的是3 2 G内存的V 1 0 0显卡,是当前最被广泛使用的先进显卡。从表3中,可以发现基于图对比学习的方法优于传统的图表示学习方法。由于较高的空间复杂度,G r a p h C L在较大的数据集上会超过内存限制,导致无法成功运行,说明基于余弦相似度筛选负样本的的方法难以适用于大规模的网络。表3 节点分类准确率(单位:%)C o r aC i t e s e e rP u b m e dAm.CAm.PC o.C SC o.P h yF e a t

41、 u r e s5 5.10.04 6.50.07 1.40.07 3.80.07 8.50.09 0.40.09 3.60.0DW6 7.20.04 3.20.06 5.30.08 5.70.18 9.40.18 4.60.29 1.80.1DW+F e a t u r e s7 0.70.05 1.40.07 4.30.08 6.30.19 0.10.18 7.70.19 4.90.1D G I8 2.30.37 1.80.57 6.80.48 3.90.59 1.60.29 2.20.69 4.50.5G R A C E8 2.60.37 2.10.27 8.30.38 7.50.29

42、2.10.39 2.90.19 5.30.1G r a p h C L8 4.50.47 3.20.68 2.00.5OOMOOMOOMOOMAN G C L8 4.10.57 2.90.68 1.60.38 9.10.49 3.20.39 3.30.19 5.70.2 我们发现ANG C L方法优于除了G r a p h C L的所有基准方法。该结果说明相比于基于全局、随机负样本的G R A C E方法,我们的ANG C L模型通过对抗训练的方式找到了对于模型难的负样本,从而提升了节点表示的质量,使其在下游任务中表现更好。同时我们也观察到针对每个节点选择合适负样本的方法G r a p h C

43、 L在结果上优于我们的ANG C L。这是由于ANG C L是全局共享了负样本,没有为每个节点自适应的选择合适的负样本。但通过全局共享负样本,使我们的模型在计算代价上明显低于G r a p h C L。3.3 效率对比实验在本节中,我们比较了不同方法在C o r a数据集上迭代一轮需要消耗的时间,以及模型训练总耗时。同时展示了各个方法在节点分类任务上准确率。所有结果如表4所示,其中27 0 8为C o r a数据集的节点数,即G R A C E方法将图上所有节点都视为负样本。我们发现ANG C L运行的时间少于G R A C E同时也取得了更好的节点分类效果。虽然ANG C L在得到全局负样本

44、时,引入了额外的计算,但是其整体的时间消耗仍然低于利用所有负样本的图对比学习方法。表4 模型运行时间对比模型负样本数 准确率/%每轮迭代耗时/s总耗时/sG R A C E27 0 88 2.3 01.2 7 06 3 5G r a p h C L2 08 4.5 03.4 3 017 1 5AN G C L18 4.0 71.1 4 65 7 3 同时我们观察到虽然G r a p h C L取得了最优的效果,但时间消耗明显高于其他的方法。因为该方法在为每个节点筛选其对应K个最难的负样本时,需要与图上剩余所有节点计算相似度,并排序,从而引入了高昂的时间代价。当数据规模较大时,这种高昂的时间代价

45、是不可忍受的。而我们的ANG C L在并没有降低很多效果的情况下,明显提升了模型的速度。3.4 节点表示分布度量本节我们对比了ANG C L和传统图对比学习方法G R A C E学到的节点表示分布之间的差异。我们比较了不同方法学到的节点表示,在下游任务标签下,类内节点间的平均距离和类间节点间的平均距离。其结果如表5所示。17中 文 信 息 学 报2 0 2 4年表5 节点表示在下游任务中的类内与类间距离度量数据集C o r a数据集C i t e s e e r数据集模型类内平均距离类间平均距离距离降低比例/%类内平均距离类间平均距离距离降低比例/%F e a t u r e s1.8 4 8

46、 9 41.8 9 6 2 92.5 01.8 7 6 8 41.9 1 8 9 12.1 9G R A C E1.0 2 7 3 11.3 1 7 1 72 2.0 11.4 8 1 5 01.7 8 6 0 71 7.0 5G r a p h C L0.9 6 4 6 81.5 3 9 7 75 9.6 11.2 5 6 3 91.9 2 9 2 35 3.5 5ANG C L1.3 1 1 9 12.0 1 8 3 13 5.0 01.0 0 6 8 11.5 1 4 8 13 3.5 4 我们发现相比于原始的节点属性,图对比学习方法都增加了类内距离和类间距离之间的差距。该结果反映了这类

47、方法能取得较好节点分类结果的原因。同时我们发现,ANG C L模型相对于G R A C E,又进一步提升了两者距离之间的差异。该结果表明全局负样本的有效性。但同时我们基于全局共享负样本的方法ANG C L在效果上弱于针对每个样本选择合适负样本的方法G r a p h C L。3.5 模型超参数分析本节我们分别分析超参数边移除概率pe、特征移除概率pf以及对模型的影响,其结果分别如图3(a)、图3(b)、图3(c)所示。我们发现pe、pf值对模型效果影响不大,但是随着概率增大,结果的方差增大。这可能是由于超参数边移除概率pe、特征移除概率pf过大每次迭代中得到的增强图差异比较大导致。此外我们发现

48、随着增大模型效果有下降,这是由于变大,缩小了表示相似度之间的差异,使得正样本和负样本间的差异变小,导致效果下降。图3 C o r a数据集上模型超参数对分类准确率的影响4 总结本文提出了基于对抗负样本的图对比学习模型,该模型利用对抗学习的框架,让模型自动学习需要的难负样本。ANG C L通过全局共享该负样本,减少了每个节点需要比较的负样本个数,大幅降低了模型的时间复杂度。同时通过对抗学习框架,使得每轮得到的负样本从梯度角度都是对于模型较难的,从而保证模型的效果。本文通过大量的实验,验证了模型的有效性。参考文献1 涂存超,杨成,刘知远等.网络表示学习综述J.中国科学:信息科学,2 0 1 7,0

49、 4 7(0 0 8):9 8 0-9 9 6.2 C U IP,WAN GX,P E I J,e t a l.As u r v e yo nn e t w o r ke m b e d d i n gJ.I E E ET r a n s a c t i o n so nK n o w l e d g ea n dD a t aE n g i n e e r i n g,2 0 1 9,3 1(5):8 3 3-8 5 2.3 Z HUY,X UY,YUF,e t a l.G r a p hc o n t r a s t i v e l e a r n-i n gw i t ha d a p

50、t i v ea u g m e n t a t i o nC/P r o c e e d i n g so ft h e W e b C o n f e r e n c e.S l o v e n i a:A CM,2 0 2 1:2 0 6 9-2 0 8 0.4 S U B R AMO N I A NA.MO T I F-D r i v e n c o n t r a s t i v e l e a r n i n go fg r a p hr e p r e s e n t a t i o n sC/P r o c e e d i n g s o f 3 5 t hA A A IC o

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服