文本特征和图结点混合增强的图卷积网络文本分类.pdf

资源描述

1、第41卷第1期2024年1月新疆大学学报（自然科学版）（中英文）Journal of Xinjiang University(Natural Science Edition in Chinese and English)Vol.41,No.1Jan.,2024文本特征和图结点混合增强的图卷积网络文本分类杨晓奇1，刘伍颖2,3(1.广东外语外贸大学信息科学与技术学院，广东广州 510006；2.鲁东大学山东省语言资源开发与应用重点实验室，山东烟台 264025；3.广东外语外贸大学外国语言学及应用语言学研究中心，广东广州 510420)摘要：在BertGCN模型的基础上改进其结构，同

2、时结合文本特征和图结点混合增强的方法，使用新的边权重计算算法BM25+构造图的边使用R8、R52、Ohsumed和MR这4个常用的公开数据集来验证所提方法的有效性结果表明：与BertGCN模型及其它基线模型相比，该方法在4个文本分类数据集上的准确率评价指标均有不同程度的提升关键词：BM25+；文本特征增强；图结点增强；预训练模型；图卷积网络；文本分类DOI：10.13568/ki.651094.651316.2023.07.05.0004中图分类号：TP183文献标识码：A文章编号：2096-7675(2024)01-0069-09引文格式：杨晓奇，刘伍颖文本特征和图结点混合增强的图卷积网络文

3、本分类J新疆大学学报(自然科学版)(中英文)，2024，41(1)：69-77+109英文引文格式：YANG Xiaoqi，LIU WuyingHybrid augmentation of text feature and graph node for graphconvolutional networks text classificationJJournal of Xinjiang University(Natural Science Edition in Chineseand English)，2024，41(1)：69-77+109Hybrid Augmentation of Text

4、 Feature and Graph Node forGraph Convolutional Networks Text ClassificationYANG Xiaoqi1,LIU Wuying2,3(1.School of Information Science and Technology,Guangdong University of Foreign Studies,Guangzhou Guangdong510006,China;2.Shandong Key Laboratory of Language Resources Development and Application,Lud

5、ong University,Yantai Shandong 264025,China;3.Center for Linguistics and Applied Linguistics,Guangdong University of ForeignStudies,Guangzhou Guangdong 510420,China)Abstract：The work will improve the structure on the basis of the BertGCN model,not only using a newalgorithm to construct the edges of

6、the graph,but also combining a hybrid enhancement of text features andgraph nodes.The method not only has some optimization in the edge structure,but also makes fuller use of theextended semantic information of the text in the form of text feature enhancement and graph-enhanced nodes,while retaining

7、 the original text features.Four public datasets,R8,R52,Ohsumed and MR which are commonlyused,are used to verify the effectiveness of this method.The experimental results show that compared with theBertGCN model and other baselines,the accuracy evaluation metric of the method on the four text classi

8、ficationdata sets has been improved to varying degrees.Key words：BM25+;text feature enhancement;graph node enhancement;pre-training model;graph convolutionnetworks;text classification0引言文本分类是自然语言处理中的一项重要任务，它被广泛应用于各大场景，包括舆情监测、新闻分类、信息检索、情感分析12以及事件预测等，旨在根据文本的内容和语义将其自动分类到预定义的类别中，而实现这收稿日期：2023-07-05基金项目

9、：教育部人文社会科学研究规划基金“后深度学习时代低资源语言机器翻译理论与实践研究”（20YJAZH069），“自由贸易关键小语种语言资源建设理论与实践研究”（20YJC740062）；上海市哲学社会科学规划基金“一带一路关键小语种千万级语言资源建设及精准机器翻译研究”（2019BYY028）作者简介：杨晓奇（1998），男，硕士生，从事文本分类的研究，E-mail：通讯作者：刘伍颖（1980），男，博士，教授，硕士生导师，主要从事计算语言学和自然语言处理的研究，E-mail：70新疆大学学报（自然科学版）（中英文）2024年一过程的算法称为分类器，在这个过程中，特征提取是一个重要步骤，传统的特

10、征提取方法主要基于词袋模型、TF-IDF和N-gram模型等，它们简单直观、易于实现，但在复杂的场景效果有限随着深度学习的兴起，深度学习模型在文本分类任务中取得了显著效果常用的深度学习模型包括卷积神经网络（CNN）3、循环神经网络（RNN）46等，能够自动学习文本中的语义和上下文信息然而它们主要关注捕捉局部连续词序列中的语义和句法信息，在一些文本中，重要的语义关系可能存在于非连续的词语之间或者跨度较长的片段中，这些传统模型无法很好地捕捉到全局的词语共现信息为了解决这一问题，图神经网络（GNN）7出现了，这是一种强大的深度学习模型，具有处理非欧氏空间数据的能力，其出现弥补了传统深度学习模

11、型只能处理欧氏空间数据的不足图神经网络通过考虑数据中的复杂关系结构和全局结构信息，有效地处理具有非线性和非连续关系的数据，这不仅在文本分类任务中有着重要的研究价值，而且在知识图谱、社会网络等领域都有着广泛的应用场景近年来，预训练语言模型（如BERT8）在各种自然语言处理任务中证明了它们的巨大优势，越来越多的任务开始在原有的工作基础上融合预训练语言模型，并都获得了更好的效果但是单一的语义特征表示在一定程度上会限制模型对它的理解，当遇到一些特征更为丰富的文本时，模型有可能无法准确理解它们，此时，使用合适的数据增强方法910在保持标签类别不变的前提下，按照一定的策略改变文本的内容，不仅可以达到文

12、本特征增强的效果，同时可以缓解低资源场景的局限问题本文提出了一种文本特征和图结点混合增强的图卷积网络文本分类方法（Maximal-features-enhancementGCN,MfeGCN）该方法在BertGCN11的基础上加以改进，一方面改进了单词-文档的边构造方式，使用BM25+算法来计算单词与文档之间的边权重，同时使用一种基于最高得分的同义词替换策略，在使用预训练模型（如BERT）进行微调时，丰富了文档结点的语义表示，在图卷积神经网络中植入使用上述增强策略增强后的文本作为图的增强结点，然后进行构图，图中的结点包括原文档结点、增强文档结点、原单词结点和增强单词结点，旨在结合文本特征方面和

13、图结构方面加以改进，从而优化模型的分类性能在4个真实公开数据集进行实验，结果表明MfeGCN模型与基础BertGCN模型以及其它基线模型相比，其表现效果更为优异1文本分类方法综述文本分类方法可以划分为传统机器学习方法、深度学习方法等传统的方法有K-近邻、朴素贝叶斯等随着深度学习技术的发展，越来越多的深度学习模型（如CNN和RNN）被应用到文本分类中近年来，图神经网络被应用于分类任务并取得了不错的结果1.1传统机器学习文本分类传统的文本分类方法主要由特征工程和浅层分类算法构成，其中的代表性分类方法有朴素贝叶斯算法、K-最近邻算法、决策树算法和支持向量机等朴素贝叶斯（Naive Bayes,

14、NB）12 朴素贝叶斯算法是一种基于概率统计和特征条件独立性假设的分类算法，其核心思想是通过计算后验概率来进行分类K-最近邻算法（K-Nearest Neighbors,KNN）13K-最近邻算法是一种基于最近邻样本的分类算法，其核心思想是通过找到与待预测样本最接近的K个训练样本来进行分类决策树（Decision Tree,DT）14 决策树算法是一种基于树结构的机器学习算法，用于解决分类和回归问题其核心思想是通过构建一棵树来表示特征之间的关系，并根据特征的值进行分割和预测支持向量机（Support Vector Machine,SVM）1516 支持向量机使用向量空间模型来表示文档，将文档

15、嵌入映射到高维空间，以此将文档表示为高维向量，并将每个文档抽象为高维空间中的一个点，其核心思想是通过构建一个最优的超平面来将不同类别的样本分开1.2深度学习文本分类相比传统的机器学习文本分类方法，深度学习方法避免了人工设计规则和特征，并能够自动挖掘文本的语义表示，形成一个通过学习直接将特征映射为目标输出的非线性转换过程，将特征工程集成到模型拟合的过程中主要的代表模型有CNN、RNN、预训练模型和GNN等第1期杨晓奇，等：文本特征和图结点混合增强的图卷积网络文本分类71CNN最早由Yann LeCun等于1989年提出，其基本原理是通过多层卷积和池化操作来提取输入数据的特征，并通过全连接层进行

16、分类或回归，卷积操作利用卷积核在输入数据上进行滑动，提取不同位置的局部特征后来，Kim于2014年提出了TextCNN3，将卷积神经网络引入文本分类领域，并取得了很好的效果TextCNN的优势在于其简单而有效的结构，能够捕捉文本中的局部特征，并且具有较好的泛化能力RNN是一种具有记忆功能的神经网络，其基本原理是通过在每个时间步上输入当前特征和上一个时间步的隐藏状态，来建模序列中的依赖关系，它使用相同的参数在每个时间步上进行计算，以捕捉特征的时间性质RNN的隐藏状态可以理解为对先前信息的编码表示，在每个时间步上更新并传递到下一个时间步，因此该网络具有记忆的功能预训练模型是指在大规模无标签数据上

17、进行预训练的深度神经网络模型，旨在习得数据中的统计规律和语义信息，这些模型的参数可以作为后续任务的初始参数，通过微调的方式在下游任务的有标签数据上进行训练，从而加速模型收敛、提升性能代表模型有BERT8，其通过在大规模无标签数据上进行预训练，学习了丰富的句子表示，包含了上下文相关的语义信息，在自然语言处理（NLP）任务中取得了重大突破，并成为许多NLP任务的基准模型近几年来，GNN7受到了各个研究领域的广泛关注，GNN模型基于消息传播机制，通过在图结构上进行信息传递和聚合来学习结点的表示，利用邻居结点信息更新自身结点的表示，并通过多轮迭代逐步扩展和融合全局图信息，直至达到某一个稳定状态而G

18、CN17是一种使用了卷积操作的GNN，通过在图上进行卷积操作来更新结点的表示，利用邻居结点的特征进行卷积运算，并将卷积结果作为结点的更新表示在工业界，GCN也有一些实际应用，例如药物分子设计18、疾病诊断19、交通流预测20和推荐系统21等，在自然语言处理领域，实体关系抽取、文本生成、文本分类和机器翻译等方向也都取得了不错的效果2方法本节所述MfeGCN模型基于BertGCN模型加以改进，包括构建图中边权重的算法和极大特征增强方法以及整个架构的一些步骤和细节2.1BM25-PLUS（BM25+）BM25算法是信息检索领域一种用于对给定的查询项和若干个相关的文档进行相关性计算后，根据每个文档

19、和查询项之间的相关性得分进行排序的算法但当遇到一些过长的文档时，BM25算法会面临对该超长文档过度惩罚的问题22，于是Lyu等提出了BM25+算法22，该算法在原有BM25算法的基础上，为每一个查询项中出现在文本中的特征项相关性得分设置一个下界，此时，即使一个文档特别长，搜索项都至少贡献了一个正常数相关性得分，本文将使用该算法来计算单词-文档之间的边权重，具体的得分计算方式为：BM25+(a,b)=XiIDF(ai)R(ai,b)(1)式中：IDF(ai)可以用来表示特征项ai的权重，N表示文档集合中的所有文档数量，n(ai)则表示包含特征词ai的文档数量，其表示为：IDF(ai)=log?

20、N+1n(ai)(2)子项R(ai,b)表示特征项ai与文档b的相关性得分，k1和均为可自由调节的协调因子，一般可取值的范围为k1 0.2,4.0、0,1.5，k1用于控制词频对文档匹配得分的影响程度，用于缓解对超长文档过度惩罚的问题23，其表示为：R(ai,b)=(k1+1)tf(ai,b)k1+tf(ai,b)+!(3)tf(ai,b)见式（4），tf(ai,b)表示词频，和k1一样，是一个可调节的协调因子，其取值范围为 0.1,0.9，Ld表示文档长度，Lavg表示文档集合中的平均长度，其中可用于控制文档长度对匹配得分的影响tf(ai,b)=tf(ai,b)1+LdLavg1(4)72新

21、疆大学学报（自然科学版）（中英文）2024年2.2PPMI正点互信息（PPMI）用于计算单词-单词之间的边权重，其思想是统计两个词语在文本中同时出现的频率，频率越高，表示这两个词语的相关性越高，这一方法将全局词共现信息很好地利用了起来，具体的计算方式为：PPMI(a,b)=max?logP(a,b)P(a)P(b),0(5)P(a,b)=win(a,b)wins(6)P(a)=win(a)wins(7)式中：wins表示滑动窗口的总数，win(a,b)表示单词a和单词b共同出现的滑动窗口个数，win(a)表示出现单词a的滑动窗口个数，P(b)与P(a)同理2.3MfeGCN图卷积神经网络中，需

22、要将数据集构建成一个图G(V,E)24，V表示结点，E表示边当结点a表示单词、结点b表示文档时，使用BM25+来计算边的权值；当结点a和b均表示单词时，使用PPMI计算边的权值；当结点形成自连接的边时，将边的权值表示为1；其它情况定义边的权值为0，图的边权值表示为：Ai,j=BM25+(a,b),a为单词、b为文档PPMI(a,b),a、b均为单词且a6=b1,a=b0,其它(8)经过上述算法后，文本数据集中的边权重已确立完毕，然后使用预训练模型BERT对所有文档结点进行初始化获得文档嵌入，单词结点嵌入初始化为0，并将它们作为GCN结构的结点嵌入，然后将该图结构输入一个两层的GCN中，每一层

23、的结点特征表示为：H(l+1)=D12AD12H(l)W(l)(9)式中：l表示GCN的层数，A表示结点加上了自连接边后的邻接矩阵，也就是在邻接矩阵的基础上加上一个单位矩阵，D表示图的度矩阵，H(l)表示当前层的特征向量矩阵，W(l)表示第l层的可学习权重矩阵，是一个激活函数Relu，将这些计算因子进行计算后便可得到下一层的结点特征表示经过多次图传播后将GCN最后一层的隐藏层向量作为softmax层的输入，得到文本类别的概率分布为：PGCN=softmax(g(X,E)(10)式中：当l=0时，X=H(0)表示输入层的特征向量矩阵，E表示结点之间的边，g表示GCN结构，输出结果作为文本的表示

24、，输入softmax层得到所有类别的概率分布融合BERT和GCN模块前，先构造一个BERT分类器，使用在下游任务微调后的BERT得到的文本嵌入X，将X输入一个softmax层获得最终的文本概率分布为：PBERT=softmax(BERT(WX)(11)获得BERT的预测概率分布与GCN的预测概率分布后，使用线性预插值法融合两部分的预测是一个可调节的超参数；当=1时，表示模型只更新GCN部分的参数；当=0时，表示模型只更新BERT部分的参数；当(0,1)时，根据的取值，两个部分将会得到不同程度的权衡因此，可以通过调节值的大小来联合优化BERT和GCN的预测结果，以这样的方式可以加快模型的收敛速度

25、，同时获得更优性能C=PGCN+(1)PBERT(12)第1期杨晓奇，等：文本特征和图结点混合增强的图卷积网络文本分类73最后，使用交叉熵损失函数同时优化BERT和GCN（式(13)），其中：Ctrue表示真实类别，C表示模型预测的类别L=XCtruelogC(13)本文在文本分类模型BertGCN的基础上，除了改进其边权重的计算方式外，同时加入了一种基于最高得分的同义词增强策略25，包括对BERT部分和GCN部分的特征表示增强，通过增强BERT部分的文本语义表示及在GNN中以增加增强结点的方式提高模型的分类性能首先将训练集样本进行清洗和去除停用词后，分词处理构造出一个训练集词表li，也就是训

26、练集中每一个文档皆由li中的单词构成，然后统计其中每个单词出现次数Nx，并计算该词的出现次数在整个训练集中的占比，得到其分值SxSx=NxPni=1Ni(14)式中：i表示单词的索引且i(1,n)，n表示词表大小，Ni表示在词表li中第i个单词出现的总次数，通过计算可以得到训练数据中每一个单词的分值将训练集的文档个数记为H，文档的索引设置为c，c (1,H)，w表示文档中的单词，那么训练集中每一个独立的文档可以表示为Dc=w1,w2,wm，m表示组成该文档的单词个数同样的，将一个基于最高得分同义词替换策略处理后的文档表示为Dc=w1,w2,wm，最终的文档表示为DE=Dc+Dc对于每一个原文

27、档，首先使用NLTK工具包中的WordNet词典工具获得该文档中每一个单词的同义词集合Synonyms(w)=s1,s2,sk 其中：(1,m)，k则表示词典工具所能获得的同义词数目，然后分别计算集合中每一个同义词的得分：Scorep=(Sx,同义词在词表li中0,同义词不在词表li中(15)式中：p(1,k)，如果同义词在训练集词表li中出现，那么将其分值置为词表中该词的得分，若同义词不在训练集词表中出现，那么该同义词的得分置为0 随后挑选同义词集合中得分最高的同义词替换掉原单词，其定义形式为：wk=Synonym(max(Score)(16)式中：Score=Score1,Score2,S

28、corek表示同义词得分集合，经过最高得分同义词替换策略处理的单词进行合并后得到最终的增强文档表示Dc，基于最高得分的增强策略为：1）将一个训练集样本Dc做分词处理，并将其转换为一个数组；2）对于每一个样本数组Dc，获得数组内每一个单词w的同义词集合Synonyms(w)；3）计算每个单词的同义词集合中每个同义词的得分Scorep后得到同义词得分集合Score；4）选择Score中得分最高对应同义词w替换掉原单词w，如果同义词集合为空，那么保持不变；5）将整个样本数组进行以上步骤后，形成一个新的增强样本数组Dc；6）将其它的训练集样本分别进行上述操作，得到一批新的增强样本；图 1MfeGCN结

29、构示意图7）最后整合原样本Dc和增强样本Dc形成最终训练样本DE本文使用的模型结构如图1所示，包括了两大类结点，分别表示文档结点和单词结点其中：Dc表示文档结点，Dc表示增强文档结点，W表示单词结点可以使用BERT或者ROBERTA等预训练模型将向量化的文本嵌入作为GCN的输入，经过隐藏层后形成的R(x)为文档或单词x的词嵌入表示最后，融合BERT模块和GCN模块分别经过softmax后的概率分布，选择概率最高的类别作为最终的预测结果74新疆大学学报（自然科学版）（中英文）2024年3实验与分析3.1数据集实验使用了文本分类的4个公开数据集，分别是R8、R52、Ohsumed和MR 与Yao

30、等25使用相同的数据划分方法划分训练集和测试集，随机抽取训练集中10%的数据作为验证集R8：8分类的路透社数据集子集，包括5 485个训练文档和2 189个测试文档R52：52分类的路透社数据集子集，包括6 532个训练文档和2 568个测试文档Ohsumed：数据由医疗信息数据库MEDLINE中的心血管疾病摘要构成，取其中的7 400篇单标签文档，包括3 357篇训练文档和4 043篇测试文档MR：情感2分类的影评数据集，每一篇文档仅由一句评论构成，包括7 108篇训练文档和3 554篇测试文档训练模型前，先对数据集进行预处理，使用工具包NLTK去除停用词，再去除数据集中词频小于5的词，数据

31、集中的低频词有可能是一些拼写错误的单词或其它噪声数据，去除此类词可以减少噪声对模型的影响，由于MR数据集的文档长度普遍较短，去除停用词后不再对其作删词处理3.2基线模型CNN(rand)3：以随机初始化的词向量作为卷积神经网络的输入CNN(non-static)3：使用预训练的词向量作为卷积神经网络的输入LSTM4：长短时记忆网络，使用随机初始化的词向量作为输入，并使用最后的隐藏层状态作为最终的文本表示LSTM(pretrain)4：使用预训练的词向量作为该网络的输入，取最后一层隐藏层向量作为文本表示TextGCN26：文本图卷积网络，将语料库中的文本数据建模成为一个包含文档结点和单词结点的异

32、构图，实现将文本分类转换为结点分类SGC27：简单图卷积是图卷积神经网络的一种变体，通过去除非线性和在连续层之间折叠权矩阵来降低GCN的复杂性BERT8：大规模预训练模型，以文本序列作为输入，加载对应领域的预训练模型对下游任务进行微调BertGCN11：融合预训练模型BERT和图卷积网络GCN，以BERT初始化的词嵌入作为GCN中文档结点的表示，使用插值法结合BERT部分和GCN部分的预测作为最终结果3.3参数设置与评价指标为了与基础模型BertGCN作性能上的对比，以下提及的一些超参数将与BertGCN在各个数据集中的超参数设置保持一致首先，将微调阶段的BERT模块的学习率设置为1104，

33、得到所有词嵌入后，进入联合训练阶段，设置联合训练阶段的BERT模块的学习率为1105，GCN模块的学习率为1103，dropout设置为0.5，滑动窗口的大小设置为20，GCN隐藏层的嵌入维度设置为200，使用Adam优化器28进行优化使用插值法融合BERT部分和GCN部分的概率分布时所用到的超参数在4个数据集中各有不同，R8数据集中的取值为0.7，R52数据集中的取值为0.3，Ohsumed数据集中的取值为0.9，MR数据集中的取值为0.4实验使用的评价指标为准确率（Accuracy），表示正确的预测结果个数占样本总数的百分比3.4实验对比在4个文本分类领域的公开数据集上进行对比实验，模型

34、的性能对比如表1所示，其中加粗部分为最优结果MfeGCN的表现在4个数据集上的测评结果优于所有的基线模型在Ohsumed以及MR数据集上的性能提升较为明显，分别达到了2%和1.31%，而在R8和R52数据集上的提升相对有限，我们认为有以下因素从边构造上来看，BM25+算法依赖文档中的词汇来计算相关性分数，如果文档的单词数较少，那么可能导致单词覆盖不充分，在计算边权重时受到一定的限制从语义特征上来看，得益于Ohsumed和MR数据集中较为充足的单词量，进行文档增强时所扩展的语义信息将更加广泛，而在R8和R52数据集中，增强文档得到的语义信息则相对有限从图结构上来看，数据集Ohsumed和MR中

35、所构成的词汇表的单词数量远多于R8和R52数据集，这样一来，能够提供的外部知识也会相应增多因此，Ohsumed和MR数据集所构成的图会比R8和R52数据集所构成的图更加稠密，根据GCN的特点，图结点从其邻居结点获取到的特征也会变多第1期杨晓奇，等：文本特征和图结点混合增强的图卷积网络文本分类75表 1MfeGCN和基线模型在不同数据集上的分类准确率模型R8R52OhsumedMRCNN(rand)94.02%85.37%43.87%74.98%CNN(non-static)95.71%87.59%58.44%77.75%LSTM93.68%85.54%41.13%75.06%LSTM(pret

36、rain)96.09%90.48%51.10%77.33%TextGCN97.07%93.56%68.36%76.74%SGC97.20%94.00%68.50%75.90%BERT97.80%96.40%70.50%85.70%BertGCN98.10%96.60%72.80%86.00%MfeGCN98.36%97.08%74.80%87.31%3.5消融实验针对MfeGCN模型的性能效果，又进行了消融实验，首先是包括只改变构图方式而不增加增强结点的模型MfeGCN without E-nodes，还有将MfeGCN模型中构造单词-文档边权重的BM25+算法更换回原BertGCN模型中的单

37、词-文档边权重构造方法TF-IDF，单纯进行文本特征和图结点混合增强，此处记为MfeGCN-T，以及融合了二者的MfeGCN模型本身进行消融实验，结果如表2所示表 2消融实验在不同数据集上的准确率模型R8R52OhsumedMRBertGCN98.10%96.60%72.80%86.00%MfeGCN without E-nodes98.26%96.81%73.63%86.63%MfeGCN-T98.40%96.92%74.67%86.94%MfeGCN98.36%97.08%74.80%87.31%由表2可知，在BertGCN的基础上改进其边构造方式，只使用BM25+算法来计算其边权重后，M

38、feGCN with-out E-nodes的性能比原方法有了一定的提升，当仅增强文本和增加增强节点而不改变其边构造方式时，MfeGCN-T的性能也比基础模型BertGCN的性能要优，而在BertGCN的基础上既使用新的边构造算法BM25+来构建单词-文档边关系权重，同时进行文本特征和图结点混合增强后，整体性能又有了一定的提升3.6分析与讨论我们认为MfeGCN取得更好的表现主要有以下原因：1）BM25+算法是TF-IDF算法的一种改进，对于TF-IDF算法而言，当TF部分的值越大，那么整体返回的值会越大，而BM25+算法针对这一点进行改进，当其TF部分越大，那么整体返回值会趋于一个数值，同时

39、增加了一个用于缓解对超长文档过度惩罚问题的参数它对于传统TF-IDF算法有一些优势，一方面，考虑了词项频率的饱和度，TF-IDF算法中词项频率的增长通常是线性的，而BM25+算法中词项频率的增长是对数级的，也就是说，对于频繁出现的词项，它们的权重增长会更加缓慢，从而避免了对高频词项的过度偏袒；另一方面，BM25+算法引入了几个可调节的参数k1、b和，根据具体的应用场景进行调优，可以更好地适应不同的数据集，提供更准确的计算结果，并且BM25+算法相对TF-IDF只关注词项频率和逆文档频率而言，考虑了文档长度因素，在一些长文档场景下依旧可以表现出很好的性能由表2可知，仅改进构图方式，MfeGCN

40、 withoutE-nodes模型性能相比基础模型BertGCN有了一定的提升，说明优化构图方式对于最终的模型表现有一定的正面影响2）基于最高得分的同义词替换策略引入了原始训练集中不存在的单词，添加了额外的知识，分别对4个训练集进行了统计，包括统计分别组成每个训练集的原始单词个数以及引入的额外单词个数，具体指标如表3所示由表3可知，使用该方法后，每个训练集都引入了一定的外部单词，这些外部知识在一定程度上提升了模型的泛化性能由表2可知，当不改变构图方式时，仅对训练集进行特征增强，最终的模型性能得益于外部知识以及同类特征极大化聚合而有了一定的提升结合两个方面的改进后，模型吸收了它们各自的优势

41、而拥有了更好的性能76新疆大学学报（自然科学版）（中英文）2024年表 3不同数据集非重复原始词个数以及外部词个数R8R52OhsumedMR原始词数量7 5228 69513 02415 524外部词数量3974508321 202对于同类特征极大化聚合的验证，分别挑选R52和Ohsumed数据集进行实验所选两个数据集中分别随机选取各自所有类别中的8种类别2次进行验证，每种类别取10条数据，结果如图2和图3所示颜色越深代表比重越大，随机选取不同的类别后，依然符合同类特征极大化聚合的结论，也就是某个类别中样本的增强文本的替换词大部分来自其同类样本图 2Ohsumed数据集随机选取类别组的替

42、换词在该组各类别的占比图 3R52数据集随机选取类别组的替换词在该组各类别的占比4总结本文基于BertGCN模型进行改进，分别从其构图方式和特征增强方面入手，使用了BM25+算法来计算单词-文档之间的边权重，并且使用了文本特征和图结点混合增强策略对文本进行特征补充及增强一方面，BM25+算法优化了边的权重；另一方面，增强结点融合了同类知识以及外部知识实验结果表明，MfeGCN模型均比其它的基线模型性能好，并且在消融实验中各项结果也体现了各部分改进模块的有效性未来的工作中，将针对图结构和增强样本进一步改善处理，结合各自优势进一步优化模型，并加以验证分析参考文献：1张晓霞，王名扬，贺慧新，等

43、结合情感分析的突发事件舆情网络关键节点挖掘J 新疆大学学报(自然科学版)，2015，32(3)：336-341ZHANG X X，WANG M Y，HE H X，et alMining key-nodes of emergency information dissemination network based on sentimentanalysisJJournal of Xinjiang University(Natural Science Edition)，2015，32(3)：336-341(in Chinese)2艾山吾买尔，魏文琳，早克热卡德尔基于BiLSTM+Attention的

44、体育领域情感分析研究J 新疆大学学报(自然科学版)(中英文)，2020，37(2)：142-149AISHAN W，WEI W L，ZAOKERE KSentiment analysis based on BiLSTM+Attention in sports fieldJJournal of XinjiangUniversity(Natural Science Edition in Chinese and English)，2020，37(2)：142-149(in Chinese)第1期杨晓奇，等：文本特征和图结点混合增强的图卷积网络文本分类773KIM YConvolutional neu

45、ral networks for sentence classificationC/Proceedings of the 2014 Conference on Empirical Methodsin Natural Language Processing(EMNLP)Doha，QatarStroudsburg，PA，USA：Association for Computational Linguis-tics，2014：1746-17514LIU P F，QIU X P，HUANG X JRecurrent neural network for text classification with

46、multi-task learningC/Proceedings of theTwenty-Fifth International Joint Conference on Artificial IntelligenceJuly 9-15，2016，New York，NewYork，USAACM，2016：2873-28795CHENG J P，DONG L，LAPATA MLong short-term memory-networks for machine readingC/Proceedings of the 2016Conference on Empirical Methods in N

47、atural Language ProcessingAustin，TexasStroudsburg，PA，USA：Association forComputational Linguistics，2016：551-5616SUNDERMEYER M，SCHLUTER R，NEY HLSTM neural networks for language modelingC/Interspeech 2012ISCA：ISCA，2012：194-1977WU Z H，PAN S R，CHEN F W，et alA comprehensive survey on graph neural networks

48、JIEEE Transactions on NeuralNetworks and Learning Systems，2021，32(1)：4-248DEVLIN J，CHANG M W，LEE K，et alBERT：Pre-training of deep bidirectional transformers for language understand-ingEB/OL2018：arXiv：1810.04805https:/arxiv.org/abs/1810.04805.pdf9WEI J，ZOU KEDA：Easy data augmentation techniques for b

49、oosting performance on text classification tasksC/Proceedingsof the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference onNatural Language Processing(EMNLP-IJCNLP)Hong Kong，ChinaStroudsburg，PA，USA：Association for ComputationalLinguistics，201

50、9：6382-638810FENG S Y，GANGAL V，WEI J，et alA survey of data augmentation approaches for NLPC/Findings of the Associationfor Computational Linguistics：ACL-IJCNLP 2021OnlineStroudsburg，PA，USA：Association for Computational Linguis-tics，2021：968-98811LIN Y X，MENG Y X，SUN X F，et alBertGCN：Transductive tex

展开阅读全文