基于门控双层异构图注意力网络的半监督短文本分类.pdf

资源描述

1、针对现有的基于异构图神经网络的短文本分类方法未充分利用节点之间的有效信息,以及存在的过拟合问题,文中提出基于门控双层异构图注意力网络的半监督短文本分类方法(Semi鄄Supervised Short Text Classificationwith Gated Double鄄Layer Heterogeneous Graph Attention Network,GDHG).GDHG 包含节点注意力机制和门控异构图注意力网络两层.首先,使用节点注意力机制,训练不同类型的节点注意力系数,再将系数输入门控异构图注意力网络,训练得到门控双层注意力.然后,将门控双层注意力与节点的不同状态相乘,得到聚合的节

2、点特征.最后,使用 softmax 函数对文本进行分类.GDHG 利用节点注意力机制和门控异构图注意力网络的信息遗忘机制对节点信息进行聚集,得到有效的相邻节点信息,进而挖掘不同邻居节点的隐藏信息,提高聚合远程节点信息的能力.在 Twit鄄ter、MR、Snippets、AGNews 四个短文本数据集上的实验验证 GDHG 性能较优.关键词摇门控异构图注意力,半监督学习,异构图神经网络,短文本分类引用格式摇蒋云良,王青朋,张雄涛,黄旭,申情,饶佳峰.基于门控双层异构图注意力网络的半监督短文本分类.模式识别与人工智能,2023,36(7):602-612.DOI摇 10.16451/ki.

3、issn1003鄄6059.202307003摇摇摇摇摇摇中图法分类号摇 TP 181;TP 391Semi鄄Supervised Short Text Classification Based onGated Double鄄Layer Heterogeneous Graph Attention NetworkJIANG Yunliang1,2,3,WANG Qingpeng1,2,ZHANG Xiongtao1,2,HUANG Xu2,4,SHEN Qing1,2,RAO Jiafeng1,2ABSTRACT摇To address the issues of insufficie

4、nt utilization of information between nodes andoverfitting in short text classification based on heterogeneous graph neural network,a method for semi鄄supervised short text classification based on gated double鄄layer heterogeneous graph attention network(GDHG)is proposed.GDHG consists of two layers:no

5、de attention and gated heterogeneous graphattention network.Firstly,different types of node attention coefficients are trained by node attention,andthen the node attention coefficient is input into the gated heterogeneous graph attention network to obtainthe gated double鄄layer attention.Secondly,the

6、 gated double鄄layer attention is multiplied by different收稿日期:2022-12-06;录用日期:2023-07-17Manuscript received December 6,2022;accepted July 17,2023国家自然科学基金区域创新发展联合基金项目(No.U22A20102)、浙江省“尖兵冶“领雁冶研发攻关计划项目(No.2023C01150)资助Supported by Regional Joint Fund for Innovation and Develop鄄ment of National Natural

7、Science Foundation of China(No.U22A20102),“Pioneer冶 and“Leading Goose冶 Research and Deve鄄lopment Program of Zhejiang Province(No.2023C01150)本文责任编委林鸿飞Recommended by Associate Editor LIN Hongfei1.湖州师范学院信息工程学院摇湖州 3130002.湖州师范学院浙江省现代农业资源智慧管理与应用研究重点实验室摇湖州 3130003.浙江师范大学计算机科学与技术学院摇金华 3210044.湖州学院理

8、工学院摇湖州 3130001.School of Information Engineering,Huzhou University,Huzhou3130002.Zhejiang Province Key Laboratory of Smart Management andApplication of Modern Agricultural Resources,Huzhou Uni鄄versity,Huzhou 3130003.School of Computer Science and Technology,Zhejiang NormalUniversity,Jinhua 3210044.

9、School of Science and Engineering,Huzhou College,Huzhou313000第 36 卷摇第 7 期模式识别与人工智能Vol.36摇 No.72023 年 7 月Pattern Recognition and Artificial IntelligenceJul.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇states of the nodes to acquire the aggregated node features.Finally,the short texts are classified with

10、 thesoftmax function.In the proposed GDHG,the information forgetting mechanism of node attention andgated heterogeneous graph attention network is utilized to aggregate node information.Consequently,theinformation of neighboring nodes is effectively obtained.And then the hidden information of differ

11、entneighboring nodes is mined to improve the ability to aggregate information from remote nodes.Experimenton four short text datasets,Twitter,MR,Snippets and AGNews,illustrate the superiority of GDHG.Key words摇Gated Heterogeneous Graph Attention,Semi鄄Supervised Learning,Heterogeneous GraphNeural Net

12、work,Short Text ClassificationCitation摇 JIANG Y L,WANG Q P,ZHANG X T,HUANG X,SHEN Q,RAO J F.Semi鄄SupervisedShort Text Classification Based on Gated Double鄄Layer Heterogeneous Graph Attention Net鄄work.Pattern Recognition and Artificial Intelligence,2023,36(7):602-612.摇摇短文本分类是自然语言处理中的一项基本任务.随着互联网技术的发

13、展,大量的短文本不断出现,如何利用自然语言处理技术对短文本进行分类成为目前研究热点之一.短文本分类应用于垃圾邮件检测、新闻标题分类等诸多领域1.相比长文本分类,短文本大部分是由一个句子组成,缺少上下文信息,导致性能不够理想.因此,研究人员提取短文本中的语义和语法,丰富短文本的信息,进而提升分类的准确性.Wang等2使用分类学知识库,将短文本概念化,把词和相关概念合并到预训练好的词向量上,达到丰富短文本信息的目的.Wang 等3使用 Wikipedia 概念表示文本分类,再进行分类.上述方法虽然在短文本分类上都取得不错效果,却需要大量标记的样本训练,而在许多真实场景下手工标记样本非常耗时,所以对

14、半监督短文本分类的研究显得尤为迫切.Li 等4从标注数据集上抽取类别词构建强类别特征集,并结合余弦定理设计SCFSC(Semi鄄Supervised Classification Algorithm forShort Text Based on Fusion Similarity and Class Cen鄄ter).Lee 等5提出 SALNet(Semi鄄Supervised with Atten鄄tion鄄Based Lexicon Construction Network),使用注意力机制给标记的数据集训练一个基于长短期记忆网络(Long Short鄄Term Memory,LSTM)

15、的文本分类器.之后给每类文本收集一组词汇并利用构造的词汇与标记的新数据引导分类器,进而提高短文本分类的准确性.Johnson 等6提出半监督卷积神经网络,从未标记的数据中学习小文本区域的嵌入,集成到有监督的卷积神经网络中.Chen 等7提出 FLiText(Faster and Lighter Semi鄄Supervised Text Classifica鄄tion),引入启发网络和一致性正则化框架.该框架利用轻量级模型上的广义正则约束,实现高效的半监督学习.但是,由于短文本的长度较短、特征稀疏,上述方法都不能充分学习短文本中的信息.有研究表明图神经网络可以通过构建短文本图解决上述特征稀疏问题

16、.Wang 等8提出 SHINE(Hi鄄erarchical Heterogeneous Graph Representation Lear鄄ning Method for Short Text Classification),利用词级组件图将短文本数据集建模成分层异构图,并对异构图引入更多的语义和语法信息,动态学习短文本图,促进相似短文本之间的有效标签传播.Liu 等9提出 DADGNN(Deep Attention Diffusion Graph NeuralNetwork),基于注意力扩散与解耦技术学习短文本表征,解决词与其远邻之间交互困难的问题.Yao等10提出 Text GCN(Te

17、xt Graph Convolutional Net鄄work),将整个文本语料库建模成具有单词关系的文档-单词图,使用 GCN(Graph Convolutional Net鄄works)11进行分类.Liu 等12提出 TensorGCN.首先,构造张量文本图描述语义、句法和顺序上下文信息.然后,对张量文本图进行两种传播学习:1)图内传播,从单个图中的邻域节点聚合信息;2)图间传播,协调图之间的异构信息.宋泽宇等13提出融合标签关系的法律文本多标签分类方法,重新构建标签共现矩阵,利用图卷积网络获得标签之间的信息并与标签注意力结合,计算法律文本和标签的相关程度,得到法律文本表示,最后融合依赖

18、关系和特定法律文本语义表示,实现文本分类.然而,上述方法无法捕捉节点之间的高阶互动,导致容易遗漏节点的重要信息.因此,Ding 等14提出 HyperGAT(Hypergraph Attention Networks),通过注意力机制,可以在文本表示学习中以更少的计算量获得更多的表达能力.Yang 等15提出 HGAT(Heterogeneous Graph Attention Networks),充分利用有限标记数据和大量未标记数据对短文本进行分306第 7 期摇摇摇摇蒋云良摇等:基于门控双层异构图注意力网络的半监督短文本分类类.上述方法虽然可以有效解决短文本数据的稀疏性等问题,但

19、是在训练少量的标记数据时会出现过拟合.针对以上问题,受 HGAT 和 GRU(Gated Recu鄄rrent Unit)16启发,本文提出基于门控双层异构图注意力网络的半监督短文本分类方法(Semi鄄Super鄄vised Short Text Classification Based on Gated Double鄄Layer Heterogeneous Graph Attention Network,GDHG).为了充分学习短文本的信息特征,使用异构信息网络(Heterogeneous Information Network,HIN)15提取短文本的实体和主题,用于构建短文本异构图,丰富

20、短文本之间的关系.为了处理短文本异构图,提出门控双层异构图注意力网络,该网络由节点注意力机制和门控异构图注意力网络两层组成.首先使用节点注意力机制对节点类型进行注意力训练,得到节点注意力系数.再将节点注意力系数放入门控异构图注意力网络,训练门控双层注意力.然后将门控双层注意力与不同状态的节点特征相乘,得到聚合节点信息,最后输入 GCN,并使用 softmax 函数对文本进行分类.与 HGAT 不同的是,GDHG 采用门控双层注意力机制,形成门控双层节点特征通道,从不同角度聚集邻居节点信息,并从网络深层寻找有效的节点信息,能够减少无用节点信息的影响.因此,GDHG 可以充分学习节点之间的权重系数

21、,重点关注节点之间有效的信息聚集,使模型充分挖掘节点隐藏的特征信息,提升短文本分类性能.在 Twitter、MR、Snippets、AGNews 这 4 个短文本数据集上的大量实验表明,GDHG 总体上性能较优,因此是有效的.1摇基于门控双层异构图注意力网络的半监督短文本分类方法本文提出基于门控双层异构图注意力网络的半监督短文本分类方法(GDHG),结构如图 1 所示.首先把短文本作为一个整体,使用 HIN15提取其中的主题 C 和实体 N,构建短文本异构图 G=(V,E).然后将短文本异构图 G 作为输入,使用由节点注意力机制和门控异构图注意力网络组成的门控双层异构图注意力网络进行训练,目的

22、是为了让异构图节点更好地聚集邻居节点的信息,充分挖掘短文本异构图节点中的隐藏信息.?W.CNNetworkx?.GCN?.?.Softmax?GCNGCN?eevu图 1摇 GDHG 结构图Fig.1摇 Architecture of GDHG1.1摇异构信息网络构建异构图与同构图不同的是,异构图17由不同类型的节点和边组成.异构图G=(V,E)由节点集V和边集E组成.异构图节点类型的映射函数缀颐 V 寅 A,边类型映射功能函数鬃颐 E 寅R,A表示特定节点类型集合,R 表示边类型集合.本文使用 HIN 构建短文本异构图,HIN 可以提取短文本之间的附加信息.对短文本建立异构图,能406模

23、式识别与人工智能(PR&AI)摇摇摇第 36 卷够有效缓解短文本特征的稀疏性.相比以往的构图方式,HIN 可以灵活整合短文本中的附加信息.HIN 主要考虑两种类型的附加消息:主题和实体(短文本中名词性单词).HIN将短文本异构图G=(V,E)的节点类型分为如下 3 种.1)短文本 W=w1,w2,wm,其中 m 表示文本量,2)主题 C=c1,c2,co,其中 o 表示主题量,3)实体 N=n1,n2,nt,其中 t 表示实体量.节点V=W 胰 C 胰 N,E 表示节点之间的关系.HIN 构图过程描述如下.1)对短文本使用潜在狄利克雷分布(LatentDirichlet Alloc

24、ation,LDA)18,找出短文本的主题C.为了减少其它主题对短文本的影响,设置一个变量 i,给短文本分配前 i 个主题.如果短文本包含主题,就会建立主题节点和短文本节点的边.2)识别短文本中的实体.使用 TAGME 工具将实体与 Wikipedia 相连,如果短文本包含实体,就会建立实体与短文本之间的边.之后,使用 Wikipedia和 Word2Vec 对实体进行学习嵌入.为了进一步丰富短文本的语义,促进信息传播,考虑每个实体之间的关系.对于每个实体,计算它们之间的余弦相似度.如果两个实体的相似度得分大于设置阈值 a,就会建立实体与实体之间的边.最后形成短文本异构图 G=(V,E).1.

25、2摇门控双层异构图注意力网络在利用 HIN 和构图工具 NetworkX 对短文本构建异构图后,使用本文提出的门控双层异构图注意力网络对短文本异构图进行分类.门控双层异构图注意力网络能够有效聚集图节点信息,解决异构图神经网络存在的过拟合等问题.门控双层异构图注意力网络分为两层:第一层是节点注意力机制,第二层是门控异构图注意力网络.首先节点注意力机制能够根据异构图具有不同类型的节点以及不同类型的邻居节点对节点影响不同的特点,对不同类型的邻居节点训练不同的注意力系数.然后将注意力系数输入门控异构图注意力网络,训练门控双层注意力,把门控双层注意力与不同状态的节点特征相乘,得到聚合的节点特征,并输入

26、GCN,得到节点嵌入.最后使用 Softmax 函数进行分类.1.2.1摇节点注意力机制短文本异构图是由 3 种类型的节点组成,不同类型的邻居节点对目标节点的影响是不同的.给定一个节点对(v,u),节点注意力机制是学习不同类型邻居节点 u 对节点 v 的注意力系数,使节点 v 能够更好地捕捉邻居节点 u 的信息,即e子vu=att子(hv,hu;子),(1)其中,att子()表示对于不同类型节点的注意力,子表示节点类型,hu表示节点 v 的邻居节点,u 沂 Nv,Nv表示邻居节点集.节点对(v,u)的权重是由它们的类型决定的,节点v对节点u的注意力和节点u对节点v的注意力是不同的.由式(1)

27、得到节点v的邻居节点的类型注意力系数之后,使用 Softmax 函数,对所有类型注意力系数进行归一化处理,获得节点的类型注意力,权重系数为:e子=Softmax(e子vu)=exp(滓(茁T子hv椰hu)移子忆沂祝exp(滓(茁T子hv椰h子忆),(2)其中,茁T子椰表示注意力系数,祝表示不同类型的邻居节点,滓()表示激活函数,本文采用 LeakyReLU 激活函数,椰表示拼接操作.1.2.2摇门控异构图注意力网络在基于异构图神经网络的短文本分类任务中,随着异构图神经网络层数的增加,会出现过拟合,影响短文本分类结果.本文结合门控机制和注意力机制,提出门控异构图注意力网络,目的是挖掘节点之间

28、的特征信息,充分学习节点之间的关系,并且重点加强捕捉邻居节点信息的能力,从而解决异构图神经网络过拟合问题.为了改善异构图注意力网络反向传播的能力,本文使用 GRU16函数.门控异构图注意力网络结构如图 2 所示.Hv(1)k-rHv(1)k-+1-ZxZx+Hv()kEHv()kHv()kGCN图 2摇门控异构图注意力网络结构图Fig.2摇Structure of gated heterogeneous graph attentionnetwork首先,基于节点注意力机制计算不同类型的节点注意力,获得门控双层节点注意力系数:E(k)1=滓(琢Te1子忆hv椰hu),E(k)2=滓(琢Te2子忆

29、hv椰hu),(3)506第 7 期摇摇摇摇蒋云良摇等:基于门控双层异构图注意力网络的半监督短文本分类其中,琢T表示节点注意力系数,e1子忆椰、e2子忆椰由式(2)得到,滓()表示激活函数,本文采用LeakyReLU 函数,椰表示拼接操作.通过 Softmax 函数对门控双层节点注意力系数进行归一化处理,获得门控双层注意力权重系数:E卒(k)1=Softmax(E(k)1),E卒(k)2=Softmax(E(k)2).(4)为了使目标节点充分挖掘邻居节点的信息,避免被无用特征信息干扰,训练重置门和更新门,用于对目标节点的信息进行选择,具体公式如下:r(k)h=(滓WrhH(k

30、-1)v+UrhH(k-1)v,z(k)x=(滓WrH(k-1)v+UrH(k-1)v,H卒(k)v=(tanhWhH(k-1)v+U(H(k-1)v已r(k)h),(5)其中,r 表示重置门,z 表示更新门,H(k-1)v=W1H忆(k-1)v,(6)H忆(k-1)v初始化为 H(0)v,H(k-1)v表示上一层节点信息,W1、Wh、Wrh、Wr、U、Ur、Urh表示可学习参数,tanh()表示激活函数,已表示元素乘法.考虑到图节点的特征对节点分类影响较大和不同的层对节点特征影响的不同,以及为了有效保留每层节点的有用特征,本文将节点的 H(k-1)v和H(k)v与门控双注意力权重系数相乘,

31、选择有用信息,遗忘节点的不重要信息,挖掘节点的隐藏信息.最后通过GCN 形成节点嵌入.具体公式如下:H(k)v=z(k)x已H卒(k)v+(1-z(k)x)已H(k-1)v,(7)H(k)v(=GCNE(子E卒(k)1已H(k-1)v+E卒(k)2已H(k)v,(8)其中,GCN()表示图卷积神经网络,E子()由式(2)得到,表示注意力系数,E卒(k)1、E卒(k)2表示节点的注意力系数,已表示元素乘法.1.3摇算法步骤短文本异构图经过节点注意力机制和门控异构图注意力网络,得到节点信息聚合的结果.根据短文本分类的任务,将节点生成的H(k)v输入Softmax层进行分类,即X=Softmax(

32、H(k)v).(9)在训练过程中,利用训练数据的交叉熵损失和L2鄄norm 对短文本进行分类,边缘损失允许对每个类别进行独立训练,并确保训练不会过多地集中在已经高置信度正确预测的样本上,从而减轻过度拟合,即L=-移i沂Dtrain移Tj=1Yijlg Xij+p兹2,(10)其中,Dtrain表示用于训练的短文本集合,T 表示短文本种类数量,Y 表示标签,兹表示模型参数,p 表示正则化因子.GDHG 具体步骤如下所示.算法摇 GDHG输入摇输入文本 W,初始学习率 L,最大迭代次数 epoch输出摇文本嵌入 X数据预处理摇将文本 W 输入 HIN,得到短文本异构图 G=(V,E),其

33、中 V=W 胰 C 胰 NFOR h epoch:摇输入训练样本G=(V,E),根据式(1)将图的节点特征和邻接矩阵放入节点注意力机制,得出节点类型注意力权重 e子vu;摇将 e子vu输入式(2),得到节点类型注意力系数 e子;摇将 e子输入式(3)和式(4),得到节点注意力 E卒(k)1、E卒(k)2;摇将节点集 V 输入式(6),得到节点特征;摇将处理好的特征 H(k-1)v输入式(5),得到 H卒(k)v;摇将 H卒(k)v输入式(7),得到H(k)v;摇将H(k)v和 H(k-1)v分别与节点注意力 E卒(k)1、E卒(k)2相乘,将两者相乘的结果相加,输入式(8),得到节点信息聚合结

34、果 H(k)v;摇将节点信息聚合的结果 H(k)v输入式(9),得到节点嵌入 X;摇利用式(10)计算模型损失;END2摇实验及结果分析2.1摇实验环境本文选择如下 4 个短文本数据集进行实验.1)Twitter 数据集15.二元情感分类数据集,由5 000 条正面推特和 5 000 条负面推特组成.2)MR 数据集19.电影评论数据集,每个评论只包含一个句子,每个句子都注明积极或消极的二元情绪分类,包含 5 331 条正面评论和5 331 条负面评论.3)Snippets 数据集20.Phan 等发布,由网络搜索引擎返回的片段组成.606模式识别与人工智能(PR&AI)摇摇摇第

35、36 卷4)AGNews 数据集21.新闻分类数据集.本文从 AGNews数据集上随机挑选6 000 条新闻,平均分成 4 类.各数据集的详细信息如表 1 所示.大约有 80%的文本包含实体.根据 Yang 等15对数据集预处理的建议,本文删除出现次数少于 5 次的非英语字符、停止词和低频词.表 1摇实验数据集Table 1摇 Experimental datasets名称文本数类别数实体文本比例/%训练集大小Twitter1000026340MR1066227640Snippets12340894160AGNews6000472160本文选择正确率(Accuracy)和 F1 值(F1鄄s

36、core)作为评价指标.Accuracy表示正确分类的测试样本与全部测试样本的比率:Accuracy=正确分类的测试样本全部测试样本.F1鄄score 表示查准率和查全率的调和平均值:Precision(P子)=TP子TP子+FP子,Recall(R子)=TP子TP子+FN子,F1鄄score=1祝移子沂祝2P子R子P子+R子,其中,TP子表示类别子的真正例,FP子表示类别子的假正例,FN子表示类别子的假反例,祝表示类别集.为了全面评估 GDHG 的性能,选择如下对比方法.1)传统机器学习方法.(1)SVM+TF鄄IDF、SVM+LDA22.基于经典手动特征 TF鄄IDF(Term Fr

37、equency鄄Inverse Document Fre鄄quency)和 LDA 对短文本进行特征处理,再将短文本的特征放入 SVM(Support Vector Machines)进行短文本分类.(2)KNN+TF鄄IDF23.基于经典手动特征 TF鄄IDF 对短文本进行特征处理,再将短文本的特征输入 KNN(K Nearest Neighbor)进行短文本分类.2)深度学习方法.(1)LSTM鄄pre24.将预处理好的文本放进 LSTM进行分类.(2)FastText25.高效文本分类技巧,将 word/n鄄gram 嵌入的平均值视为文档嵌入,再将文档嵌入输入线性分类器.(3)CNN鄄r

38、and,CNN鄄pre26.将短文本进行词向量嵌入,输入 CNN 进行短文本分类,使用 Wikipedia库预训练而成.(4)BERT(Bidirectional Encoder Representationsfrom Transformers)27.由 Transformers 的双向编码器组成,本文选取的方法是 BERT_base 和 BERT鄄large,先对 BERT 进行预训练,再针对不同的任务对 BERT进行微调.(5)STCKA(Deep Short Text Classification withKnowledge Powered Attention)28.基于知识驱动注意力的

39、深度短文本分类方法,从外部知识源中检索知识,加强短文本的语义表示,将概念信息引入深度神经网络,并引入注意力机制,对短文本进行分类.3)图神经网络模型.(1)Text GCN10.根据单词和文档之间的关系,对短文本建立单个短文本图,再输入 GCN,对短文本图进行单词和文档的嵌入并分类.(2)HyperGAT14.超图注意力网络,使用文档级别的超图对文本进行建模,之后使用 GAT(GraphAttention Networks)29对短文本进行分类.(3)SHINE8.利用词级组件图将短文本数据集建模成分层异构图,并对异构图引入更多的语义和语法信息,动态学习短文本图,从而促进相似短文本之间的有效标

40、签传播.(4)HGAT15.使用实体和主题对短文本进行建图,即异构图信息网络,使用注意力网络进行短文本分类.(5)HIN+GCN.使用 HIN 对短文本进行构图,再使用 GCN11对短文本异构图进行分类.(6)HIN+GAT.使用 HIN 对短文本进行构图,对GAT29进行调整以适应 HIN,并进行短文本分类.参数设置分为如下两部分.1)HIN 部分.参考文献15中的参数设置,在LDA 中,在 AGNews、MR、Twitter 数据集上设置主题数 o=15,在 Snippets 数据集上设置主题数 o=20,每个文档分给概率最大的前 i=2 的主题,实体之间的相似阈值 a=0.5.2)门控异

41、构图注意力网络部分.学习率在集合0.1,0.01,0.001,0.0001,0.5,0.05,0.005,0.0005 中通过网格搜索得到最优值,最终在Twitter、MR、AGNews 数据集上设置学习率为 0.005,Snippets 数据集上设置学习率为 0.01.迭代次数设706第 7 期摇摇摇摇蒋云良摇等:基于门控双层异构图注意力网络的半监督短文本分类置为 100,隐节点数设置为 512,正则化系数 p 设置为 5e-8,隐节点数和正则化系数均参考 HGAT 的设置.在对比实验中,SVM 采用 RBF(Radial BasisFunction)核函

42、数,KNN 设置近邻数为 5.其余对比实验均参考对应文献,通过网格搜索可以找到最优超参数.训练的实验环境如下:操作系统采用 Windows10,处理器采用 AMD Ryzen 5 3400G with Radeon VegaGraphics 3.70 GHz,Python 模块主要使用自然语言处理库 Gensim 3.6.0,数学运算库 NumPy 1.19.2,复杂图结构库 NetworkX 2.5.1.对于深度学习,主要使用深度学习框架 PyTorch 1.8.0.对比实验环境和本文方法训练环境保持一致.2.2摇对比实验各方法在 Twitter、MR、Snippets、AGNews 数据

43、集上的测试结果如表 2 所示,表中黑体数字表示最优值.表 2摇各方法在 4 个数据集上的指标值对比Table 2摇 Indicator value comparison of different methods on 4 datasets%方法AccuracyTwitterMRSnippetsAGNewsF1鄄scoreTwitterMRSnippetsAGNewsSVM+TF鄄IDF53.6954.2964.7059.4551.7254.5059.1759.79SVM+LDA54.3454.4062.5465.1653.9754.4056.4064.79KNN+TF鄄IDF50.4352.

44、5058.5635.4055.1552.4952.4935.29LSTM鄄pre58.2059.7375.0565.7758.1659.7367.3165.33FastText57.1852.4064.7158.4557.1151.9364.1658.45CNN鄄rand59.5054.6754.8652.9556.0553.6953.6450.64CNN鄄pre56.3458.3277.0967.2456.3458.3277.0967.24STCKA56.0053.0667.4045.8555.7750.5060.9745.50BERT_base61.3663.1382.1872.1061.

45、0463.1178.8572.55BERT_large65.2863.0083.4172.7062.0062.7380.6072.84Text GCN61.2957.6476.3161.4260.2555.8270.0860.56HyperGAT61.4461.4470.5164.8959.8961.4264.0464.89HGAT62.3461.7379.4372.5162.0161.6872.4870.59SHINE62.3763.0077.8561.1562.3263.3875.9759.39GDHG63.7363.8181.9273.0562.3863.7580.9671.66摇摇

46、由表 2 可以看出 GDHG 总体上取得最优结果.从表中可得如下结论.1)深度学习方法(LSTM鄄pre、CNN鄄pre、BERT_base 和 BERT_large)在两个指标上均优于传统机器学习方法(SVM+TF鄄IDF、SVM+LDA、KNN+TF鄄IDF),这是由于传统机器学习方法不能准确捕捉短文本之间的信息,也不能有效提取短文本的特征.2)CNN鄄pre 在两个指标上的表现优于 CNN鄄rand,说明加入预训练的词嵌入可以提高分类准确性.相比其它深度学习方法,使用预训练的 BERT_base 和 BERT_large 的 Accuracy 和 F1鄄score 值更高.Bert鄄l

47、arge 仅在 Twitter、Snippets 数据集上的 Accuracy值优于 GDHG,在 AGNews 数据集上的 F1鄄score 值优于 GDHG.因此,综合考虑后 GDHG 略优于 BERT_large,这是由于短文本的稀疏性使深度学习方法不能准确学习到短文本之间的关系,进而影响短文本分类的结果.3)HGAT 加入附加信息,充分学习短文本之间的关系,但是异构图神经网络在分类过程中出现过拟合,效果不佳.4 个数据集上结果显示本文的门控双层异构图注意力网络可以有效缓解 HGAT 存在的过拟合等问题,从而证实 GDHG 从不同角度学习节点注意力的有效性.SHINE 在 AGNews

48、数据集上表现较差,主要是因为在小样本中 SHINE 未能充分学习语义和句法信息,导致效果不佳.综上所述,GDHG 在两个指标上的表现总体上优于所有对比方法,说明 GDHG 使用门控双层注意力网络,能够充分利用有限的节点特征信息,并对重要的节点信息进行重点关注,聚集远程节点有用信息,提高短文本分类的性能.为了说明在相同构图方式下,GDHG 可以有效806模式识别与人工智能(PR&AI)摇摇摇第 36 卷缓解异构图神经网络存在的过拟合问题,实验中使用相同的 HIN 构图方式,将 GDHG 分别与 HIN+GCN、HIN+GAT、HGAT 进行对比,结果如表 3 所示.由表可见,在 4

49、个数据集上,GDHG 的 Accuracy 和 F1鄄score值均优于其它三种方法,说明本文提出的门控双层异构图注意力网络充分学习每个节点的特征,可更好地捕捉邻居节点之间的信息,有效缓解异构图神经网络中出现的过拟合问题,提高短文本分类效果.表 3摇相同构图方式下 4 种方法的指标值对比Table 3摇 Indicator value comparison of different methods with same composition on 4 datasets%方法AccuracyTwitterMRSnippetsAGNewsF1鄄scoreTwitterMRSnippetsAGNewsHIN+GAT57.1357.3865.2868.7056.6057.3860.2864.70HIN+GCN62.4662.0479.0971.2061.9462.0076.8270.68HGAT62.3461.7379.4372.5162.0161.7372.4870.59GDH

展开阅读全文