融合语义和句法图神经网络的实体关系联合抽取.pdf

资源描述

1、h t t p:/ww wj s j k x c o mD O I:/j s j k x 到稿日期:返修日期:基金项目:国家自然科学基金(U )T h i sw o r kw a ss u p p o r t e db yt h eN a t i o n a lN a t u r a lS c i e n c eF o u n d a t i o no fC h i n a(U )通信作者:苗菁(q q c o m)融合语义和句法图神经网络的实体关系联合抽取衡红军苗菁中国民航大学计算机科学与技术学院天津 (h e n g h j c a u c c o m)摘要实体关系抽取任务是信息抽取的核心

2、任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义.尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题.语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型F S S R e l(F u s i o no fS e m a n t i ca n dS y n t a c t i cG r a p

3、 hC o n v o l u t i o n a lN e t w o r k sB i n a r yT a g g i n gF r a m e w o r k f o rR e l a t i o n t r i p l ee x t r a c t i o n).该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取.实验结果表明,在NY T数据集和W e b N L G数据集上,该模型的F 值较基线模

4、型分别提升了和,并且在拥有重叠三元组和多三元组等问题的复杂数据上也有良好的表现.关键词:实体关系联合抽取;语义信息;句法依存分析;图卷积神经网络中图法分类号T P F u s i o no fS e m a n t i ca n dS y n t a c t i cG r a p hC o n v o l u t i o n a lN e t w o r k s f o rJ o i n tE n t i t ya n dR e l a t i o nE x t r a c t i o nHE N G H o n g j u na n dM I AOJ i n gC o l l e g eo

5、 fC o m p u t e rS c i e n c ea n dT e c h n o l o g y,C i v i lA v i a t i o nU n i v e r s i t yo fC h i n a,T i a n j i n ,C h i n aA b s t r a c t E n t i t ya n dr e l a t i o ne x t r a c t i o nt a s k i s t h e c o r e t a s ko f i n f o r m a t i o ne x t r a c t i o n I t p l a y sa n i r

6、r e p l a c e a b l e r o l e i ne f f e c t i v e l ye x t r a c t i n gk e yi n f o r m a t i o nf r o me x p l o s i v eg r o w t hd a t a,a n di sa l s ot h eb a s i ct a s ko fb u i l d i n gal a r g e s c a l ek n o w l e d g eg r a p hT h e r e f o r e,t h er e s e a r c ho ne n t i t yr e l

7、a t i o n s h i pe x t r a c t i o nt a s ki so fg r e a ts i g n i f i c a n c ef o rv a r i o u sn a t u r a ll a n g u a g ep r o c e s s i n g(N L P)t a s k s A l t h o u g ht h ee x i s t i n ge n t i t ya n dr e l a t i o ne x t r a c t i o nb a s e do nd e e pl e a r n i n gm e t h o dh a sav

8、 e r ym a t u r et h e o r ya n dg o o dp e r f o r m a n c e,t h e r ea r es t i l l s o m ep r o b l e m s,s u c ha se r r o ra c c u m u l a t i o n,e n t i t yr e d u n d a n c y,l a c ko f i n t e r a c t i o n,e n t i t ya n dr e l a t i o no v e r l a p S e m a n t i c i n f o r m a t i o na

9、n ds y n t a c t i c i n f o r m a t i o np l a ya n i m p o r t a n t r o l e i nN L Pt a s k s I no r d e r t om a k ef u l lu s eo ft h e mt os o l v e t h ea b o v ep r o b l e m s,a f u s i o no f s e m a n t i ca n ds y n t a c t i cg r a p hc o n v o l u t i o n a l n e t w o r k sb i n a r y

10、t a g g i n gf r a m e w o r kf o rr e l a t i o nt r i p l ee x t r a c t i o n(F S S R e l)i sp r o p o s e d T h em o d e l i sd i v i d e di n t ot h r e es t a g e s I nt h ef i r s ts t a g e,t h es t a r ta n de n dp o s i t i o n so f t h e t r i p l eb o d ya r ep r e d i c t e d I n t h e

11、s e c o n ds t a g e,s e m a n t i c f e a t u r e s a n ds y n t a c t i c f e a t u r e s a r e e x t r a c t e db y s e m a n t i cg r a p hn e u r a ln e t w o r ka n ds y n t a c t i cg r a p hn e u r a l n e t w o r kr e s p e c t i v e l y,a n d f u s e d i n t o t h e c o d i n gv e c t o r

12、I n t h e t h i r ds t a g e,t h e o b j e c t p o s i t i o no f e a c hr e l a t i o no f t h e s t a t e m e n t i sp r e d i c t e da n dm a r k e d t oc o m p l e t e t h e e x t r a c t i o no f t h e f i n a l t r i p l e E x p e r i m e n t a l r e s u l t ss h o wt h a t t h eF v a l u eo f

13、 t h em o d e l i n c r e a s e sb y a n d r e s p e c t i v e l yc o m p a r e dw i t ht h eb a s e l i n em o d e lo nt h eNY Td a t a s e t a n dt h eW e b N L Gd a t a s e t,a n d i t a l s op e r f o r m sw e l l o nc o m p l e xd a t aw i t ho v e r l a p p i n gt r i p l e sa n dm u l t i p l

14、 e t r i p l e s K e y w o r d s J o i n te n t i t ya n dr e l a t i o ne x t r a c t i o n,S e m a n t i ci n f o r m a t i o n,S y n t a c t i cd e p e n d e n c ya n a l y s i s,G r a p hc o n v o l u t i o nn e u r a ln e t w o r k引言实体关系抽取任务的目的是从非结构化的文本中抽取出实体并对实体之间的关系进行预测分类,使得最终能够提取出(主体,关系,客体)形

15、式的三元组,从而能够自动获取到文本中的基础信息,为构建知识图谱提供基本的结构化数据,避免使用昂贵的人工标注语料.实体关系抽取任务在现代化社会中为处理纷杂繁多的数据提供了不可或缺的重要助力,这种必要性也使得该任务成为了文本摘要、语义网标注、搜索引擎、智能问答系统等自然语言处理任务的基础工作.实体关系抽取任务的工作流程如下:针对语句“E l l i o tw a sb o r ni nD a l l a s”,可以抽取出主体“E l l i o t”和客体“D a l l a s”,并预测它们的关系是“b i r t h p l a c e”,最终提取出三元组(E l l i o t,b i r

16、t h p l a c e,D a l l a s)作为输出结果.现在常用的基于深度学习的实体关系抽取方法主要分为两种:流水线(P i p e l i n e)方法和联合抽取(J o i n t)方法.流水线方法的主要流程是将命名实体识别(N a m e dE n t i t yR e c o g n i t i o n)和关系抽取(R e l a t i o nE x t r a c t i o n)两个子任务分开进行,即先抽取实体,再对实体之间的关系进行预测.这种方法虽然能够自由组合两个子任务的模型,更加灵活,但同时也使得这两个任务之间缺少了必要的联系,由此产生了以下缺陷:)误差累积,关系

17、抽取阶段的训练过程无法与实体识别阶段的训练进行参数交互,导致实体识别时的误差会直接传播到关系抽取模块中,并且无法通过训练纠正,这种误差的不断累积,会直接影响关系抽取的准确率;)实体冗余,实体识别任务没有经过关系的约束就抽取出大量的实体,但其中的很多实体并不包含关系抽取阶段所要抽取的关系类型,并不符合当前任务的抽取目标,这部分多余的实体会给整个抽取任务带来大量冗余,从而增大抽取难度,提高错误率,增大计算量;)交互缺失,流水线方法将本来紧密关联的两个任务完全分离,无法获取它们之间的内在联系和依赖关系,使得它们之间的信息无法交互.针对流水线方法存在的以上种种问题,学者们逐渐开始研究加强两个子任务之间

18、的联系.由此,联合抽取方法被提出,并在近几年得到不断发展.实体关系联合抽取的方法能够进一步利用实体识别和关系抽取两个子任务之间的潜在信息,相比流水线方法往往能够取得更好的效果.而实体关系联合抽取的方法同样也面临着许多挑战,比如重叠三元组的问题.现实中,文本普遍拥有不止一个三元组,这些三元组之间互相重叠,造成抽取任务困难.若模型处理重叠三元组问题的能力有限,那么该模型就会无法适应许多数据集,导致严重的局限性和抽取误差.根据三元组重叠问题的类型可以将数据分为类:普通类(N o r m a l)、实体对重叠类(E n t i t yP a i rO v e r l a p,E P O)和单一实体重叠

19、类(S i n g l eE n t i t yO v e r l a p,S E O).如图所示,N o r m a l类表示训练语句不包含重叠情况;E P O类表示同一实体对拥有多种关系;S E O类表示语句中实体与其他多个实体都有关系.现有的研究工作中,处理重叠三元组问题的能力是评价一个模型的重要指标.图重叠三元组类型实例F i g T r i p l eo v e r l a pt y p ee x a m p l e要有效地缓解以上问题,除了模型本身要具有处理这些问题的能力外,还要进一步挖掘文本中的潜在信息,增强模型的理解能力,使其能够在不同的语境中准确分辨三元组问题.对于自然语言处

20、理任务,如何同时兼顾到语义信息和句法信息,对其充分地挖掘并使用是其中不可或缺的关键问题.而在文本中,不同的单词所包含的语义信息和句法信息的重要程度也有所不同.比如,名词具有更重要的语义信息,而介词则往往包含更多的句法信息.并且,即使相同词性的不同单词,其所拥有的语义特征和句法特征通常也截然不同.因此,准确合理地提取并利用语义信息和句法信息是提升实体关系抽取任务准确性的关键一环,即如何针对每个单词,考虑其包含的语义和句法特征,对这两种特征实现合理的融合,从而最终实现语义和句法的互补,丰富文本的表示信息.图结构数据是由节点和边组成的数据类型,它能够灵活地表示各个节点之间的关系.因此对于自然语言任务

21、中的语料,使用图神经网络结构,能够不局限于前后位置的依赖关系,更精确获取各个位置单词之间的特征信息.另一方面,注意力机制的引入使得图神经网络能够区分不同边的重要程度,从而增强表达能力,更加重视影响大的节点,忽略影响小的节点.因此,当通过语义分析和句法分析获取到单词之间的联系时,就可以利用注意力机制图卷积神经网络充分挖掘出潜在的语义信息和句法信息,进而增强模型的表达能力,使模型能够适应更复杂的语境.基于对以上问题的分析,本文旨在研究通过图神经网络获取到语义特征和句法特征,具体如下:利用自注意力机制获取单词间的语义权重,并融合先验的关系信息特征,构建语义注意力机制图卷积神经网络得到语义特征;利用句

22、法依存关系和依存类型信息获取单词间的句法权重,构建句法注意力机制图卷积神经网络得到句法特征;将两种特征向量进行融合,并融入编码向量中,从而挖掘到更多的文本表示信息.结合上文的研究,同时受W e i等的基础模型启发,本文提出一种将语义的注意力机制图卷积神经网络(A t t e n t i v eG r a p hC o n v o l u t i o n a lN e t w o r k s)和句法的注意力机制图神经网络的输出特征进行融合的二元标记实体关系联合抽取模型F S S R e l.本文的贡献主要有以下个方面:)构建语义图神经网络获取语义特征,从而充分利用语义信息;)构建句法

23、图神经网络获取句法特征,从而充分利用句法信息;)对两种特征信息进行融合,实现信息互补,并将其融合进入特征编码当中;)在NY T数据集和W e b N L G数据集C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 上的实验结果表明,F S S R e l模型的F 值较基线模型有明显提升.相关工作实体关系联合抽取主要可以分为参数共享的联合抽取和联合解码的联合抽取两种方法.基于参数共享的联合抽取方法主要是在实体识别和关系抽取两个子任务的训练过程中共享训练参数,从而使原本分离的两个任务产生联系.基于联合解码的联合抽取方法

24、是通过提出新标注的序列模型,对三元组整体进行建模,从而使模型能够同时抽取出实体和关系,进一步加强内部联系.年,M i w a等首次将神经网络的方法用于对实体和关系进行联合抽取的任务中.然而在他们提出的模型中,两个子任务仅共享了B i L S TM编码层的参数,因此严格意义上并不能称为联合抽取.E b e r t s等在输出端通过片段排列来对实体进行分类,然后再进行关系分类,虽然缓解了片段排列的高复杂度问题,但关系分类仍有实体冗余问题.Z e n g等设计了一种以C o p y机制为基础的序列到序列学习的模型,编码器将语句转换为固定长度的语义向量,然后解码器读入此向量并直接生成三元组.但该模型只

25、能抽取单一单词的实体,对多单词实体无能为力.B e k o u l i s等将关系抽取任务当作一个多头选择问题,从而能够判断每个实体与文中其他实体之间存在的关系.此外,其不再将关系抽取任务当作一个每种关系互斥的多分类任务,而是看作每个关系独立的多个二分类任务,从而判断每一对实体是否可能存在多个关系,一定程度上缓解了重叠关系问题,并且还加入了对抗网络的收益.Y u等为了增强实体边界位置之间的关联,提出了一个分层的边界标记器,从而可以将起始点和结束点的位置标记出来.N i u等使用两阶段的图卷积神经网络,分别通过迭代多个特征编码器和利用节点注意力机制来捕获单词的多粒度表示和区域特征以及注意力相

26、关矩阵,从而获取实体、关系和三元组之间的相互作用关系.Y a n等提出了一种分割滤波器网络,通过设立一个共享分区以达到正确地建模两个子任务双向交互的目的.Z h e n g等设计了一种联合抽取的标记方案,使模型能够从语句中直接提取三元组,但这个模型也有设计缺陷,它无法处理具有重叠三元组问题的数据.W a n g等提出了一种新的握手标记策略,分别标记实体头到实体尾、主体头到客体头、主体尾到客体尾,将联合提取任务分解为序列标记子任务,以解决训练和预测阶段暴露偏差的问题.S u i等使用t r a n s f o r m e r 作为解码器,将多个相同的t r a n s f o r m e

27、 r堆叠,使用多头自注意力机制模拟各三元组之间的关系,通过多头互注意力融合句子信息并给句子做注意力表示.以上工作尽管已经取得了不错的成果,推动了实体关系联合抽取领域的进步和发展,但均未将重点放在如何充分挖掘语义信息和句法信息上,也没有关注如何针对不同情境将两种信息进行合理融合.在自然语言处理任务中,若无法获取到准确有效的表示信息来增强模型的理解能力,那么模型就难以分辨繁杂的实体位置和关系类别,难以处理复杂文本中的冗余重叠信息,导致无法突破瓶颈以进一步提升性能.对于这些问题的处理,也是本文的研究重点和F S S R e l模型的优势所在.模型方法F S S R e l模型的整体预测过程主要可以分

28、为个阶段,其总体结构如图所示.首先,将输入语句进行B E R T编码,融合上下文信息,对三元组主体的位置进行标记预测,即主体标记阶段;然后,将每种关系视为节点,与文本的单词节点连接构成图卷积神经网络输出融合关系信息的单词向量,进而将自注意力驱动的图卷积神经网络(A G C N)输出作为语义特征,同时将句法依存关系的注意力机制图卷积神经网络(A G C N)输出作为句法特征,对这两种特征进行信息融合并取主体部分,作为融合特征向量,该阶段为融合语义特征和句法特征阶段;最后,对输入语句序列的每种关系的客体位置进行标注,即关系预测和客体标记阶段.下文将按顺序对这个阶段进行介绍.图主模型结构F i g

29、M a i nm o d e l s t r u c t u r e衡红军,等:融合语义和句法图神经网络的实体关系联合抽取主体标记 B E R T词编码B E R T 是于年提出的一种预训练模型,相较于一般的编码方式,其能够生成深层的双向语言特征,获取到上下文信息,在自然语言处理任务中有着优异的表现.对于给定的训练语句Xw,w,wN,用B E R T预训练模型对该语句进行编码,得到向量表示,如式()所示:h,h,hNBw,w,wN()其中,wi是B E R T中用W o r d P i e c e将每个单词分割标记得到的细粒度子单词,N是语句长度,B是B E R T预训练模型.将wi进行B

30、 E R T编码后得到模型的输入向量hi.主体标记主体标记阶段的目标是对B E R T编码后的输入语句序列直接进行解码,从而对主体的起始和结束位置分别进行二元标记,即为训练语句中每个位置分配一个二元标记(/),表示是主体的起始或结束位置,则表示不是,以此识别出语句中所有可能的实体.具体如式()、式()所示:ps t a r t_siS i g m o i d(Ws t a r t_shibs t a r t_s)()pe n d_siS i g m o i d(We n d_shibe n d_s)()其中,ps t a r t_s和pe n d_si分别表示语句序列中第i个词是主体起始位置和

31、结束位置的概率.模型设置一个阈值,若大于这个阈值则预测标签置为,小于该阈值则预测标签置为.主体标记模块优化以下似然函数来识别语句X中的主体s,如式()所示:ps(s|X)ts t a r t_s,e n d_sNi(pti)Iyti(pti)Iyti()其中,N是输入语句的长度;ys t a r t_si和ye n d_si分别表示输入语句序列中第i个词是主体起始位置和结束位置的二元标记值;Iz表示判断函数,当z表示的事件为真,Iz 的值为,否则为.实体抽取对输入训练语句序列的全部单词标记完成后,需要提取出被标记的主体,供在下文的两个阶段中使用.本文通过“就近原则”对主体s进行实体抽

32、取,即对每个实体起始位置ys t a r t_si被标记为的单词,不考虑该单词位置之前的单词,而是直接向后寻找语句序列中离该词最近的实体结束位置ye n d_si被标记为的单词,这两个单词之间的跨度部分就是要识别的主体s.由于本文模型实际上是对语句所有位置进行标记预测,并求出损失值来更新梯度,因此在经过多轮的训练拟合后,实体的起始和结束位置被正确识别出来的准确率明显提升,从而能够完整、准确地抽取出语句中的全部实体.这种标记方式在多实体语句中能发挥更大的作用,在最终抽取客体时利用的也是这个原则.如图所示,在这句话中根据第一个起始位置标签为的单词“J

33、a c k”向后寻找离它最近的结束位置标签为的单词“L e e”,可以得到实体“J a c kL e e”.同理,也可以得到实体“N e wY o r k”.图实体抽取过程F i g E n t i t ye x t r a c t i o np r o c e s s 融合语义特征和句法特征不同于上一阶段中只是从文本中抽取出主体,对关系的预测抽取过程显然更加复杂,要考虑的信息也更多,因此要从文本中获取到更多有用的语义特征和句法特征,需要降低被冗余实体和关系影响的误差,提高准确率.利用自注意力机制能够捕获单词节点之间的语义信息,提取出重要的内部语义特征,加强模型的语义理解能力.通过自注意力获取

34、单词节点之间权重的具体公式如式()所示:ps e mi,jS o f t m a x(WqhiWkhv)()从而能够得到一个语义注意力权重矩阵(S e m A t t e n t i o nM a t r i x).随着多层图神经网络的迭代,语义注意力权重ps e mi,j也在不断更新.为了加强关系信息对抽取过程的约束,模型将关系类型作为先验知识引入,加强关系信息的约束,使模型能够更清晰地理解不同情境下的语义信息,减小上一阶段提取的冗余实体的影响,拉近单词与关系之间的联系,从而能够更有针对性地进行实体关系抽取,提升对关系预测的准确程度.将单词和所有的预设关系视为

35、两种类型的节点,将每种关系类型进行o n e h o t编码后映射为高维向量,如式()所示:R,R,RMWrE(r,r,rM)br()其中,M是预设关系的数量,ri表示o n e h o t编码后的关系类型,Ri表示映射后的关系高维向量,将其表示为关系节点向量.将单词和关系两种类型节点之间进行全连接,如图所示,连接线的颜色深浅代表关系的重要程度.图单词和关系节点连接图结构F i g S t r u c t u r eo fw o r da n dr e l a t i o nn o d ec o n n e c t i o n在第l层图卷积网络中,则

36、针对第l层图神经网络输出单词节点hi,对所有的关系节点计算注意力权重,更新节点表示,具体公式如式()、式()所示:pr e li,je x p(Whhi,WRRj)e x p(MjWhhi,WRRj)()hr e lihiMjpr e li,jWr e lRj()其中,Wh和WR将hi和Rj映射为相同维度的向量;pr e li,j是hi和Rj两节点之间的注意力权重;hr e li是更新后的单词节点表示,该节点向量融合了针对不同关系类型的重要程度信息.通过融合了关系信息的新节点向量hr e li和语义注意力ps e mi,j就能够获取融合语义信息的输出向量:hs e miS i g m o i

37、d(Njps e mi,j(Ws e mhr e ljbs e m)()C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 整体语义注意力机制图卷积神经网络结构如图所示.图语义图神经网络结构F i g S e m a n t i cG C Ns t r u c t u r e 通过句法注意力机制图卷积神经网络获取句法信息仅使用语义信息可能会忽视许多单词之间潜在的结构信息,因此需要通过句法依存分析技术,对文本中单词之间的句法关系进行解析,获得它们之间的依存结构信息.同时,不同的连接词和不同的句法依存关系对于实体关系抽取任务的重要程度也有所不同,因

38、此只是简单的运用生成的句法依存树而不对连接的重要程度作区分,会降低模型的表达能力.为了更充分地利用句法特征,本文通过注意力机制来区分不同连接之间的重要程度,即使用句法依存关系驱动的注意力机制图卷积神经网络(A G C N)获取更加准确的句法信息,结构图如图所示.图句法图神经网络结构F i g S y n t a c t i cG C Ns t r u c t u r e首先对数据使用S t a n d a r dC o r e N L PT o o l k i t s(S C T)进行处理可以获取句法依存树,处理示例结果如图所示.图句法依存树F i g S y n t a c t i cd e

39、 p e n d e n c yt r e e针对长度为N的输入语句Xw,w,wN,根据它的句法依存树可以构建一个邻接矩阵(A d j a c e n c y M a t r i x)A(ai,j)NN,如果在依存树中两个词wi和wj之间具有句法依存关系,则将ai,j值置为,否则为.不同的句法依存关系所包含的信息也有所不同.为了充分利用这些信息,在A矩阵的基础上构建了一个邻接关系矩阵(D e p e n d e n c yT y p eM a t r i x)T(ti,j)NN,ti,j表示经过o n e h o t编码后词之间的依存关系,当两个词之间没有依存关系时,ti,j为.然

40、后将每种依存关系ti,j编码成为高维向量得到新的向量表示ei,j.在第l层图卷积网络中,将第l层图神经网络输出hi和ei,j拼接得到中间向量si,如式()所示:sihi;ei,j()从而能够计算第l层图神经网络中xi和xj的得分权重ps y ni,j,如式()所示:ps y ni,jai,je x p(sisj)Njai,je x p(sisj)()最终能够得到一个句法注意力权重矩阵(S y n A t t e n t i o nM a t r i x).ps y ni,j代表句法依存图中不同连接的重要程度权重,它不只是将连接简单地置为(/)二元标记,因此包含了更丰富的句法信息.句法图神经网络

41、中矩阵的变化如图所示.图矩阵变化F i g M a t r i xc h a n g e由于图神经网络的输出hi不断更新,因此注意力权重矩阵也在不断地更新.根据权重,可以得到融合了句法信息的新输出向量,如式()所示:hs e miS i g m o i d(Njps y ni,j(Ws y nhjbl)()其中,hj是hj融合ei,j来加强依存关系信息获得的输出,如式()所示:hjhjWTei,j()其中,WT将ei,j映射为与hj相同的维度.融合语义特征和句法特征在文本进行B E R T编码时,可以从句首得到C L S 向量ec l s,其常常被运用在句子级自然语言处理任务中,包含语句的整体

42、信息.将语义特征和句法特征中的每个单词向量分别与ec l s计算线性相似度,进而进行归一化得到权重,该权重能够体现该单词在整句话中语义信息和句法信息的相对重要程度,从而可以对单词的语义特征和句法特征进行融合.若模型中图卷积神经网络有L层,则具体公式如式()、式()所示:s e mi,s y niS o f t m a x(ec l sW hL s e mi,ec l sW hL s y ni)()hf u s eis e mihL s e mis y nihL s y ni()其中,hL s e mi和hL s e mi表示经过L层语义图神经网络和句法图神经网络后的输出向量;s e mi和s

43、y ni分别是语义特征和句法特征的重要程度权重,根据这两个权重可以将语义特征和句法特征进行融合从而得到新的输出向量hf u s ei.融合所有特征为了使下文中抽取主体s引导的三元组中客体和关系的过程更加精确,要结合主体s的信息.首先将原始输入向量的主体s最大池化,获取到主体特征向量es,如式()所示:esM a x P o o l i n g(hi|wis)()同时结合主体s的位置信息,将融合特征向量的主体跨度内所有单词最大池化,得到该主体的语义和句法的融合特征ef,如式()所示:efM a x P o o l i n g(hf u s ei|wis)()衡红军,等:融合语义和句法图神经网络的

44、实体关系联合抽取将这些特征全部融合进原始编码向量中,如式()所示:hsiT a n h(Whi;es;efb)()其中,;指矩阵拼接.关系预测和客体标记在上一模块中获得了新的输入后,要对语句序列进行客体的标记.对客体的预测过程与对主体的预测过程大致相同,不同的是,针对预定义的关系集合R中的每种关系r,要结合前一模块的预测主体s,组成(s,r)主体关系对,根据不同的关系对客体o进行标记.语句中有多个主体,则预测过程会根据主体迭代多次.具体如式()、式()所示:ps t a r t_ois i g m o i d(Ws t a r t_ohsibs t a r t_o)()pe n d_ois i

45、 g m o i d(We n d_ohsibe n d_o)()其中,ps t a r t_oi和pe n d_oi分别表示语句序列中第i个词是三元组中客体的起始位置和结束位置的概率.对于关系r的客体标记模块,优化以下似然函数来识别给定的输入语句X和主体s的客体o的跨度,如式()所示:po(o|s,r,X)ts t a r t_o,e n d_oNi(pti)Iyti(pti)Iyti()其中,N是输入语句的长度,ys t a r t_oi和ye n d_oi分别是输入语句序列中第i个词是客体起始位置和结束位置的二元标记.根据文献中的工作,本文设计的目标函数具体如

47、 G 两个数据集对模型的有效性进行评估.NY T数据集是通过远程监督方法获得的纽约时报的标注语料,拥有万条数据,有种预定义的关系.W e b N L G数据集是为自然语言生成任务(N L G)而提出的,有种预定义的关系.Z e n g等对这两个数据集进行了过滤处理,下文对比实验中使用的也是该数据集.处理后的数据集中NY T训练集中有条语句,验证集中有条语句,测试集中有条语句;W e b N L G训练集中有条语句,验证集中有条语句,测试集中有条语句.两个数据集将语句划分为普通类(N o r m a l)、实体对重叠类(E P O)和单一实体重叠类(S

48、 E O)类数据后的分布情况如表所列.表数据集统计T a b l eD a t a s e t s t a t i s t i c sD a t e s e t sNY TT r a i nT e s tW e b N L GT r a i nT e s tN o r m a l E P O S E O A L L 参数设置图卷积网络的层数设置为层,在训练期间使用A d a m优化器,其余参数设置如表所列.表参数设置T a b l eP a r a m e t e r s e t t i n gP a r a m e t e rNY TW e b N L GB a t c hs i z eL

49、e a r n i n gr a t e M a xe p o c h T h r e s h o l d 实验分析整体结果分析本文选择了包括N o v e l T a g g i n g模型、C o p y R E模型、G r a p h R e l模型、S P o i n t e r模型、C o p y RR L模型、R e l a t i o n Aw a r e模型、C a s R e l模型在内的多个模型进行对比实验.对比模型简介如下:)N o v e l T a g g i n g模型设计了一种能够从语句中直接提取三元组的方法,但它无法处理存在重叠问题的语句.)C

50、o p y R E模型提出了一种以C o p y机制为基础的序列到序列的学习模型,能够处理一定的重叠问题.)G r a p h R e l模型针对联合抽取设计了一种图神经网络模型,并针对三元组重叠问题进行了研究.)S P o i n t e r模型提出了一种利用双指针模块的端到端的联合抽取模型.)C o p y RR L模型引入强化学习,通过多关系任务学习和c o p y机制来解决关系重叠问题,提取所有关系事实.)R e l a t i o n A w a r e模型基于改进的图卷积神经网络,先识别实体跨度,再利用关系感知的注意力机制获取实体间关系.)C a s R e l模型设计了一种级联二

展开阅读全文