ImageVerifierCode 换一换
格式:PDF , 页数:7 ,大小:1.95MB ,
资源ID:2333674      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2333674.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于图神经网络文档相似度的实体与关系层次匹配方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于图神经网络文档相似度的实体与关系层次匹配方法.pdf

1、第 55 卷第 6 期郑 州 大 学 学 报(理 学 版)Vol.55 No.62023 年 11 月J.Zhengzhou Univ.(Nat.Sci.Ed.)Nov.2023收稿日期:2022-06-14基金项目:国家自然科学基金项目(61373160);河北省自然科学基金项目(F2021210003);河北省教育厅青年基金项目(QN2020197)。第一作者:赵文彬(1985),男,副教授,主要从事知识图谱与事理认知、大数据处理与挖掘研究,E-mail:zhaowb2013 。通信作者:吴峰(1971),男,正高级工程师,主要从事大数据处理与挖掘、科技信息资源聚合与分析研究,E-mail

2、:hebwf 。基于图神经网络文档相似度的实体与关系层次匹配方法赵文彬1,王佳琦2,吴峰3,任雁3,安寅生1(1.石家庄铁道大学 信息科学与技术学院河北 石家庄 050043;2.大秦铁路股份有限公司山西 太原 030024;3.河北省科学技术情报研究院 河北省科技信息处理实验室河北 石家庄 050021)摘要:针对文本中深层语义难以计算的问题,提出了基于句法依存关系的多头图注意力实体关系联合抽取模型和融合层次类型的文档相似性匹配。首先通过多头图注意力网络对文本进行实体关系抽取,然后设计融合层次类型的词移距离相似性计算方法以及基于图相似的文档相似性计算模型,利用文档中的实体和关系构建图结构,根

3、据图级特征进行相似性计算。最后,通过对比实验验证了所提方法在文档相似性计算、图相似度计算和图分类任务中的有效性。关键词:实体关系抽取;相似性;层次类型;图神经网络中图分类号:TP391文献标志码:A文章编号:1671-6841(2023)06-0008-07DOI:10.13705/j.issn.1671-6841.2022159 A Hierarchical Matching Method of Entity and Relation Based on Graph Neural Network for Document SimilarityZHAO Wenbin1,WANG Jiaqi2,W

4、U Feng3,REN Yan3,AN Yinsheng1(1.School of Information Science and Technology,Shijiazhuang Tiedao University,Shijiazhuang 050043,China;2.Daqin Railway Co.,Ltd,Taiyuan 030024,China;3.Hebei Science and Technology Information Processing Laboratory,Hebei Institute of Science and Technology Information,Sh

5、ijiazhuang 050021,China)Abstract:Aiming at the difficulty to mine deep semantics in text,a multi-head graph attention entity-relation joint extraction model based on syntactic dependencies and a fusion hierarchical type of document similarity matching were proposed.Firstly,the entity relation extrac

6、tion was carried out on the text through the multi-head graph attention network.Then,the word shift distance similarity calculation meth-od of fusion hierarchical type and the document similarity calculation model based on graph similarity were designed,and the graph structure was constructed by usi

7、ng the entities and relations in the docu-ment.Thus,the features representing the graph level were obtained for similarity calculation.Finally,the effectiveness of the proposed method in document similarity calculation,graph similarity calculation and graph classification tasks was verified by compa

8、rative experiments.Key words:entity relationship extraction;similarity;hierarchical type;graph neural network0引言近年来,知识图谱技术促进了自然语言处理与文本语义分析1的发展。其中,借助实体关系抽取技术来理解文本中的深层语义信息,为文档相似性研究提供了新的思路。实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重第 6 期赵文彬,等:基于图神经网络文档相似度的实体与关系层次匹配方法要环节2,能够从文本中提取出命名实体以及实体间的关系。实体关系抽取主要有基于流水线的方法和

9、联合抽取方法3。基于流水线的方法首先对给定句子进行命名实体识别,将实体标注出来,然后针对句子进行关系抽取,模型的灵活性高、独立性好,但是关系抽取的效果依赖于实体识别的效果,同时容易忽视两个任务之间的联系,造成交互缺失。Zeng 等4提出分段卷积神经网络来捕获结构信息,利用多示例学习进行远程监督关系提取。Zhong 等5提出分别用于学习实体识别和关系提取的编码器,利用实体的边界信息进行关系分类。联合抽取方法是利用实体识别和关系抽取两个任务之间的交互,基于神经网络的端到端模型,同时得到实体和关系。联合抽取方法通常采用端到端抽取模型,使用神经网络联合表示实体和关系。Zheng 等6使用 LSTM 与

10、卷积神经网络的联合抽取框架,其中 LSTM 进行命名实体识别,卷积神经网络进行关系分类。但是,现有的联合抽取工作主要使用循环网络和卷积网络以及其改进模型,较少利用句子的结构信息。文本相似性一般是指文字描述在语义上的相似性度量,被广泛应用于自然语言信息处理任务的诸多方面7。现有的文本相似性度量主要有使用词频与逆文档频率(TF-IDF)的余弦相似性、潜在语义分析的相似性、主题建模相似性以及基于泊松分布的相似性等方法。文本相似性一般有字符匹配相似度、结构相似度和语义相似度。其中,字符匹配相似度采用基本的文本相似性计算方法,如编辑距离、Jaccard 距离等;结构相似度计算的关键在于分析文本的结构;语

11、义相似度通常是将文本表示成特征向量的形式,然后利用统计方法进行相似度计算。Chandrasekaran 等8回顾了近年来提出的语义相似性方法的演变过程,将其分类为基于知识的方法、基于语料库的方法、基于深层神经网络的方法和混合方法。Kusner 等9利用两个文档之间所有词的距离作为文档间的相似程度,即一个文档的嵌入单词“移动”到另一个文档所消耗的最小代价。Pan等10将语义信息与网络模型相结合,提出一种基于语义网络的文档相似性度量方法,为评估文档提供了一个新的视角。在当前信息极速增长的背景下,短语和句子的相似性在一些情况下无法满足海量信息检索的需求。因此,探索基于文档相似性度量的方法具有重要意义

12、。本文提出了图神经网络实体关系联合抽取模型以及文档相似性计算模型,将文档转换为图结构,引入结构信息和语义信息来对文本进行特征提取,实现了文档相似性计算,并通过实验验证了所提出的相似度计算方法的有效性。1基于句法依存图的多头图注意力实体关系抽取首 先 对 文 本 采 用 双 向 长 短 期 记 忆 网 络(bi-directional long short-term memory,BiLSTM)进行上下文特征提取,然后获得句子的句法依存图,通过图卷积神经网络进行结构区域特征提取。在此基础上,利用多头图注意力神经网络进行实体关系抽取。基于句法依存图的多头图注意力实体关系抽取模型如图 1 所示。图

13、1基于句法依存图的多头图注意力实体关系抽取模型Figure 1Entity and relation extraction model based on syntactic dependency graph and multi-head graph attention9郑 州 大 学 学 报(理 学 版)第 55 卷1.1基于句法依存图的文本特征提取1.1.1句法依存图根据句法依存分析,词之间存在从属依赖的关系。模型将句子的依存图作为输入,依存图可以看作一个具有 n 个节点的有向图 G,其中节点表示句子中的单词,边表示依存图中单词与单词之间的句法依存关系。将句子的依存关系表示为一个 n n 的

14、邻接矩阵 Ann,若节点 ni在依存关系中与节点 nj相连,则将邻接矩阵中对应的 Aij的值设置为 1,即Aij=1,if i.children=j,0,otherwise。(1)通过将句子表示为句法依存图,可以在句子序列关系的基础上引入纵向关系即层级关系,能够更好地表示句子的结构信息,同时也有利于采用图的方式来对句子进行语义特征提取。1.1.2BiLSTM 特征提取层LSTM11是循环神经网络的一种,可以学习长期依赖信息。针对长期记忆和反向传播中梯度消失和梯度爆炸问题,LSTM中引入了三个门结构:输入门、遗忘门和输出门,从而能够对输入的序列信息进行选择性记忆和遗忘。先将句子中的文本信息进行分

15、词,再把包含 n 个词的文本转换成向量序列 wi,i=1,2,n,并且在分词之后通过句法依存分析获得词性标签。将词性标签转换为特征向量,与文本向量进行拼接,形成LSTM 层的输入,xi=Ew(wi);Etag(ti)。(2)通过 BiLSTM 特征提取层,将输入的文本序列信息与句子中的上下文特征充分结合,得到新的特征向量 G,G=g1,g2,gn=BiLSTM(x1,x2,xn)。(3)1.1.3图卷积层图卷积神经网络(graph convolu-tional network,GCN)能够将卷积操作应用到图结构上,具有强大的特征学习能力。图卷积层的输入为通过 BiLSTM 层进行上下文特征提取

16、之后的节点特征向量 G=g1,g2,gn,以及通过句法依存图构建的邻接矩阵 A。一个 GCN 层通过考虑相邻节点的特征来计算新的节点特征,其公式为H(l+1)=(D-12AD-12H(l)W(l),A=A+I,D=jAij,(4)其中:H(l)表示第 l 层文本节点信息的隐藏特征表示,是一个 N d 维的特征矩阵,N 为句子分词后词的个数,d 为节点的特征向量维度;W(l)是可学习的权重参数;是非线性激活函数,实验中采用 ReLU函数。1.2基于多头图注意力的实体关系联合抽取1.2.1图注意力层图注意力网络(graph attention network,GAT)12将注意力机制引入基于空间域

17、的图神经网络中。在 GAT 中,每个节点可以根据邻居节点 的 特 征 被 赋 予 不 同 的 权 值。定 义 权 重 矩 阵W RFF,用来完成节点的特征转换过程,变换公式为zj=Whj。(5)设当前节点为 vi,其中一个邻居节点 vj到 vi的权重系数为eij=a(W(hihj),(6)其中:a()是一个共享的注意力计算函数。模型可以对任意两个节点进行注意力系数计算,但是为了保证图的结构信息,将图的结构融入图注意力机制中。对于每个实体,计算与其相邻的节点的注意力系数。为了更好地分配权重,将当前节点与其所有邻居节点的注意力系数进行归一化处理,ij=softmax(eij)=exp(eij)kN

18、iexp(eik)。(7)对于线性层的运算,一般情况下都要对其进行非线性函数的激活。采用 LeakyReLU 激活函数,最终的注意力计算公式为ij=softmax(LeakyReLU(eij)=exp(eij)kNiexp(Leaky(eik)。(8)计算完节点 vi的每一个相邻节点的注意力系数之后,根据权重对节点 vi的所有相邻节点进行特征求和更新,作为 vi的最终输出,计算公式为hi=(jNiijzij)。(9)通过引入图注意力机制,对单词的不同邻居节点自适应分配不同的注意力,让模型更多地关注更重要的词节点,从而提高神经网络模型的表达能力,有助于提高实体识别以及关系抽取的准确率。1.2.2

19、多头注意力层GAT 层中可以计算任意两个节点之间的注意力系数。在模型中为了保留图结构信息,只计算了中心节点的一阶邻居节点的注意力系数。为进一步提升注意力层的表达能力,引入多头注意力机制13,即对注意力计算公式建立 K 组相互独立的注意力机制,每组注意力机制能够针对关系进行计算,然后将输出的结果进行连接,01第 6 期赵文彬,等:基于图神经网络文档相似度的实体与关系层次匹配方法hi=Kk=1(jNikijzkij)。(10)模型将每一种关系作为一组独立的注意力机制,不同的关系注意力能够突出不同的关系,使模型具有更强大的关系学习能力,并使模型对于关系的抽取更加准确。为了将不同的关系作为独立的注意力

20、机制来进行计算,首先为每一种关系构建相应的邻接矩阵,通过图卷积之后得到节点特征 H(l)。然后,通过 softmax 分类扩展为所有关系对应的类别特征,每个关系形成一个邻接矩阵,作为多头图注意力层的图结构特征。对每一组注意力机制得到的特征向量进行平均操作,这样不仅可以得到一个整体的特征表示,同时也避免了特征向量维度过高,对应的计算公式为hi=(1KKk=1jNikijzkij)。(11)2融合层次类型的文档相似性匹配利用加权层次类型编码以及词移距离(word movers distance,WMD)9的思想对文档间的相似性进行评价分析,提出基于 WMD 的融合层次类型的相似度计算模型和基于图相

21、似的计算模型。2.1基于层次类型的 WMD 文档相似性计算2.1.1加权层次类型编码层次类型14信息暗示了一个实体在不同场景中可能扮演的不同角色,这些类型通常由层次结构构成,其中不同粒度的语义概念被认为是不同层中的子类型,大多数实体都有多个层次类型。最精确的子类型是距离实体最近的层次,即第 1 层,将层次结构自下而上地编号,可以得到层次类型的表示为c=c(1),c(2),c(k)。(12)假设有层次类型 c,其在层次类型结构中对应了一条由子类型构成的链,其中粒度由细到粗的子类型依次为 c(1),c(2),c(k-1),其对应的投影矩阵分别为 Mc(i)。由于结构中子类型的不同粒度可能在重要性上

22、有所不同,所以通过考虑层次中不同粒度的权重,对层次类型信息进行加权,将不同权重的投影矩阵相加来表示层次类型矩阵,Mc=mi=1iMc(i)=1Mc(1)+2Mc(2)+mMc(m),(13)其中:m 为层次结构中的层数;Mc(i)是 c(i)的投影矩阵;i是 c(i)对应的权重。2.1.2WMD 相似度计算方法WMD 的思想是基于推土距离(Earth movers distance,EMD)15,与欧氏距离一样,都是一种距离度量的定义,可以用来测量某两个分布之间的距离。文档距离实际上可以看成文档 1 转化为文档 2 所需要付出的总代价,词与词之间的移动代价由语义距离决定。在两个文档中,通过实体

23、关系抽取模型已经形成实体关系图,利用加权层次类型编码将文档中实体关系映射到相同的词向量空间中,得到具有层次类型信息的实体节点表示,计算移动产生的距离总和。文档中词与词之间的距离定义为词转移代价,将实体对之间的语义相似性纳入文档距离度量。实体对之间的相似性由所在向量空间中的欧氏距离表示,c(i,j)=xi-xj2,(14)其中:c(i,j)表示词 i 与词 j 的距离;xi和 xj为实体对的向量表示。定义 T Rnn,Tij 0 表示一个文档 d 中的词 i 转移到另一个文档 d 中的词 j 所占的权重,则文档距离可表示为minT0ni,j=1Tijc(i,j)。(15)约束条件为nj=1Tij

24、=di,i 1,2,n,(16)ni=1Tij=dj,j 1,2,n,(17)其中:di表示词 i 本身在文档 d 中所拥有的权重;dj表示词 j 本身在文档 d 中所拥有的权重。2.2基于图相似的文档相似性计算2.2.1图相似性分析基于图神经网络的文档相似性计算模型的主要流程为:首先,将实体关系建模为图结构,形成由实体关系组成的文档图;然后,采用图神经网络对文档图进行特征提取,提取文档图的局部结构特征,得到能够表征整个图的特征;最后,根据图级特征对文档图进行相似度计算、分类等任务。2.2.2图相似性计算模型文档中所有的实体与关系三元组形成文档图 G,将图 G 表示为邻接矩阵A Rnn,文档中

25、的实体节点通过融合层次类型信息表示为节点特征矩阵 X Rnd。其中:n 表示图中节点的个数,即文档中实体的数量;d 表示节点特征向量的维度。对于每个文档,分别获取文档图的A 和 X 作为模型的输入。1)图卷积层。当文档的邻接矩阵和实体节点特征矩阵输入后,通过图卷积层的叠加和迭代,能够不断地对图的局部特征进行提取,尽可能多地获得文档图的结构特征,得到实体节点的图嵌入表示,11郑 州 大 学 学 报(理 学 版)第 55 卷Yl=fl(H(l),A),(18)其中:Yl Rndl,dl表示第 l 层输出的节点特征向量的维度;f l为第 l 层非线性激活函数。最终输出的Yl即为每一个实体节点在新的特

26、征空间中的特征表示。2)图注意力层。文档图中不同节点之间产生的关系以及其对整个图的影响都不同。引入图注意力机制来计算文档图中节点之间的注意力系数,对实体的不同邻居节点分配不同的注意力,从而提高神经网络模型的表达能力,更好地提取整个文档图的特征,计算公式见式(9)。3)Att-BiGRU 特征融合层。图神经网络层得到的特征表示 Y=y1,y2,yn,作为 BiGRU 的输入特征,通过双向 GRU 增强实体的上下文语义信息表示,Y=BiGRU(Y),(19)其中:Y Rdh,h 为通过 BiGRU 特征提取之后的向量维度。对于实体不同的 TF-IDF 权重赋予不同的注意力,文档中实体的注意力矩阵为

27、 Att,则表征文档的图级特征向量为f=AttY,(20)其中:f R1h;Att R1n。通过模型嵌入将文档图 Gi表示为图级特征 fi,文档图 Gj表示为图级特征fj,则两个文档之间的相似性为Sim(Gi,Gj)=cos(fi,fj)=fi,fififj。(21)基于图神经网络的文档相似性计算模型如图 2所示。图 2基于图神经网络的文档相似性计算模型Figure 2Document similarity calculation model based on graph neural network3测试与分析3.1实体关系抽取3.1.1实验数据使用的实验数据集为纽约时报语料 NYT。NYT

28、 是由远程监督方法生成的新闻语料库,广泛用于重叠实体关系抽取任务,共包含 24个已定义好的关系类型约束和 6 万多条标记样例。将 NYT 数据集划分为 56 195 条训练集、5 000 条验证集和 5 000 条测试集。3.1.2结果分析 选择的对比模型为 CopyRE、GraphRel1p、GraphRel2p和 DG-GAT。分别对不同的网络模型进行了实验,选取 Precision、Recall 和 F1 三个评价指标进行了对比,实验结果如表 1 所示。可以看出,本文模型通过引入图注意力网络,相较于仅使用图卷积网络的模型,实验效果更佳。DG-GAT模型采用了注意力机制,可以计算任意两点之

29、间的权重,分别针对不同的关系提取特征,使得注意力层能够更好地突出关系特征,排除其他关系的干扰,模型效果有了明显提高。在构建本文的多头注意力机制后,实验效果较单层图注意力层有所提升。由于多头注意力分别为每种关系建立一组独立的注意力21第 6 期赵文彬,等:基于图神经网络文档相似度的实体与关系层次匹配方法机制,针对不同的关系对节点进行特征提取,使模型强化特征关系的识别,从而提高了关系抽取的准确性。训练过程中评价指标的变化如图 3 所示。可以看出,从训练开始,三个指标均呈上升趋势,其中 F1值快速上升,最终趋于稳定,模型收敛较快,并且达到较好效果。表 1不同模型的实验结果Table 1Experim

30、ental results of different models单位:%模型评价指标PrecisionRecallF1CopyRE61.055.658.7GraphRel1p62.957.360.0GraphRel2p63.960.061.9DG-GAT64.961.763.2本文65.863.664.7图 3训练过程中评价指标的变化Figure 3Changes of evaluation indexes during training3.2文档相似性匹配3.2.1实验设计通过基于多头图注意力的实体关系联合抽取模型,将实验数据经过实体识别、关系抽取之后形成三元组,对提取出的三元组进行处理分

31、析,将实体和关系的实体类型信息以及位置信息融合到实体和关系的嵌入表示中,从而得到实体和关系的更细粒度的表示,最后对文档间的实体关系进行分析计算,得到文档间的相似性评价。LCSTS 是由哈尔滨工业大学深圳研究院通过新浪微博构建的大规模中文摘要数据集,主要用于自动文本摘要生成等任务。实验选取 1 000 条文本数据,通过降重、替换语序、改变语言表述、AI 改写等方法进行处理,得到 1 000 组内容改写但表述基本相同的数据进行实验。3.2.2结果分析对 1 000 组相似文本进行相似性计算评分后,得到了字符序列匹配模型、WMD 模型、融合层次类型的 WMD 模型和图神经网络模型在不同相似度区间的数

32、量分布柱状图,如图 4 所示。可以看出,融合层次类型的 WMD 模型的相似度区间主要集中在 0.5 0.9,特别是 0.5 0.7,相比于WMD 模型,整体相似性有所提高;而本文的图神经网络模型在 0.70.9 区间较为突出,整体分布较其他方法有所提高。图 4数量分布柱状图Figure 4Histogram of quantity distribution此 外,使 用 MUTAG、PTC、IMDB-MULTI 和COIL-RAG 四个图分类公共数据集,通过模型在图分类任务中的表现来验证模型提取图级特征的能力能否表征整个文档。其中,MUTAG 和 PTC 是关于化学中分子和化合物的数据集;IM

33、DB-MULTI 是社会网络数据集;COIL-RAG 是图像数据集。对比模型选择了基于图嵌入的模型 SPI-GCN、基于深度学习的模型 DGCNN 以及一种基于图核的模型 Weis-feiler-Lehman(WL),不同模型的准确率结果如表 2所示。可以看出,本文模型在化学数据集上表现较好,在图像数据集上的表现不如图嵌入的方法。表 2不同模型的准确率结果Table 2Accuracy results of different models单位:%模型数据集MUTAGPTCIMDB-MULTICOIL-RAGSPI-GCN84.4056.4144.1375.72DGCNN86.1155.004

34、5.202.21WL81.6756.7651.26本文86.5058.1143.0070.974结语针对文档相似性计算,本文从深层语义的角度31郑 州 大 学 学 报(理 学 版)第 55 卷进行了分析与研究,实现了实体与关系的联合抽取,并且针对相似性匹配进行了基于 WMD 的融合层次类型的探索,以及通过图相似来对文档相似性计算模型进行实验,取得了一定的效果。本文采用句法依存图的方式进行构图,使用图神经网络进行抽取,在构图的方式中还有很多方法值得深入探讨。同时,图相似领域存在一些优秀的思想以及方法,如图核方式等,未来将通过设计合适的核函数来实现图相似性的计算。参考文献:1董星彤,陈士宏,陈淑鑫

35、.自然语言处理文本查重优化算法设 计 J.科 学 技 术 与 工 程,2022,22(3):1091-1097.DONG X T,CHEN S H,CHEN S X.Algorithm design of text duplicated-checking based on natural language pro-cessingJ.Science technology and engineering,2022,22(3):1091-1097.2鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综 述 J.软 件 学 报,2019,30(6):1793-1818.E H H,ZHANG W J

36、,XIAO S Q,et al.Survey of entity relationship extraction based on deep learningJ.Jour-nal of software,2019,30(6):1793-1818.3李冬梅,张扬,李东远,等.实体关系抽取方法研究综述J.计算机研究与发展,2020,57(7):1424-1448.LI D M,ZHANG Y,LI D Y,et al.Review of entity re-lation extraction methods J.Journal of computer re-search and developme

37、nt,2020,57(7):1424-1448.4ZENG D J,LIU K,CHEN Y B,et al.Distant supervi-sion for relation extraction via piecewise convolutional neural networks CProceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computational Linguistics,2015:1753-1762.5ZHO

38、NG Z X,CHEN D Q.A frustratingly easy approach for entity and relation extractionCProceedings of the Conference of the North American Chapter of the Associa-tion for Computational Linguistics:Human Language Technologies.Stroudsburg:Association for Computational Linguistics,2021:50-61.6ZHENG S C,HAO Y

39、 X,LU D Y,et al.Joint entity and relation extraction based on a hybrid neural networkJ.Neurocomputing,2017,257:59-66.7陈观林,侍晓龙,周梁,等.基于深度强化学习的文本相似语义计算模型J.郑州大学学报(理学版),2020,52(3):1-8.CHEN G L,SHI X L,ZHOU L,et al.A text similarity semantic computing model based on deep reinforcement learning J.Journal o

40、f Zhengzhou university(natural science edition),2020,52(3):1-8.8CHANDRASEKARAN D,MAGO V.Evolution of seman-tic similarity:a survey J.ACM computing surveys,2022,54(2):1-37.9KUSNER M J,SUN Y,KOLKIN N I,et al.From word embeddings to document distances CProceedings of the 32nd International Conference o

41、n Machine Learning.New York:ACM Press,2015,37:957-966.10 PAN X W,HUANG P,LI S,et al.MCRWR:a new method to measure the similarity of documents based on semantic networkJ.BMC bioinformatics,2022,23(1):56.11 AHMADZADEH E,KIM H,JEONG O,et al.A deep bidirectional LSTM-GRU network model for automated ci-p

42、hertext classification J.IEEE access,2022,10:3228-3237.12 VELICKOVIC P,CUCURULL G,CASANOVA A,et al.Graph attention networksEB/OL.(2017-10-30)2022-03-30.https:doi.org/10.48550/arXiv.1710.10903.13 FU C Z,LIU C R,ISHI C T,et al.Multi-modality emo-tion recognition model with GAT-based multi-head inter-m

43、odality attentionJ.Sensors,2020,20(17):4894.14 XIE R,LIU Z,SUN M.Representation learning of knowledge graphs with hierarchical typesC25th Inter-national Joint Conference on Artificial Intelligence.Am-sterdam:Elsevier Press,2016:2965-2971.15 BOUDAA T,MAROUANI M E,ENNEYA N.Using earth movers distance and machine learning for recogniz-ing textual entailment in ArabicJ.Computacin y sis-temas,2020,24(4):1499-1508.41

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服