收藏 分销(赏)

基于实体对注意力机制的实体关系联合抽取模型.pdf

上传人:自信****多点 文档编号:2447125 上传时间:2024-05-30 格式:PDF 页数:10 大小:3.10MB
下载 相关 举报
基于实体对注意力机制的实体关系联合抽取模型.pdf_第1页
第1页 / 共10页
基于实体对注意力机制的实体关系联合抽取模型.pdf_第2页
第2页 / 共10页
基于实体对注意力机制的实体关系联合抽取模型.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 9 9-1 0基于实体对注意力机制的实体关系联合抽取模型朱继召1,赵一霖1,张家鑫1,黄友澎2,范纯龙1(1.沈阳航空航天大学 计算机学院,辽宁 沈阳1 1 0 1 3 6;2.武汉数字工程研究所,湖北 武汉4 3 0 0 7 4)摘 要:实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图

2、谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(E P S A)。首先,使用双向长短时记忆网络(B i-L S TM)结合条件随机场(C R F)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NY T和W e b N L G上对提出的E P S A模型进行评估,实现结果表明,与目前

3、主流联合抽取模型相比,E P S A模型在F1值上均得到提升,分别达到8 4.5%和8 8.5%,并解决了单一实体重叠问题。关键词:知识图谱;注意力机制;实体关系联合抽取中图分类号:T P 3 9 1 文献标识码:AJ o i n tE n t i t ya n dR e l a t i o nE x t r a c t i o nM o d e lB a s e do nE n t i t y-P a i rS p e c i f i cA t t e n t i o nM e c h a n i s mZ HUJ i z h a o1,Z HAOY i l i n1,Z HAN GJ i

4、a x i n1,HUAN GY o u p e n g2,F ANC h u n l o n g1(1.C o l l e g eo fC o m p u t e rS c i e n c e,S h e n y a n gA e r o s p a c eU n i v e r s i t y,S h e n y a n g,L i a o n i n g1 1 0 1 3 6,C h i n a;2.W u h a nD i g i t a lE n g i n e e r i n gR e s e a r c hI n s t i t u t e,W u h a n,H u b e i

5、 4 3 0 0 7 4,C h i n a)A b s t r a c t:E n t i t ya n dr e l a t i o ne x t r a c t i o n i s ak e y t e c h n o l o g y t oa u t o m a t i c a l l yb u i l d l a r g e-s c a l ek n o w l e d g eg r a p h s f r o mm a s s i v e t e x td a t a.C o n s i d e r i n gt h ee f f e c to f t h ee n t i t y

6、o nt h ed i s c r i m i n a t i o no f r e l a t i o nt y p e s,t h i sp a p e rp r o p o s e saj o i n t e n t i t ya n d r e l a t i o ne x t r a c t i o nm o d e l b a s e do ne n t i t y-p a i r s p e c i f i c a t t e n t i o nm e c h a n i s m(E P S A).F i r s t,t h e e n t i t yr e c o g n i

7、t i o ni sc o m p l e t e db a s e do nB i-d i r e c t i o n a lL o n gS h o r t-T e r m M e m o r y(B i-L S TM)a n dC o n d i t i o n a lR a n d o mF i e l d s(C R F).T h e nt h ee x t r a c t e de n t i t i e sa r ec o m b i n e d i n t oe n t i t y-p a i r sa n dt r a n s f o r m e d i n t oau n

8、i f i e de m b e d d i n g.T h es e n t e n c er e p r e s e n t a t i o n i so b t a i n e db yt h ee n t i t y-p a i rs p e c i f i ca t t e n t i o nm e c h a n i s mp l u st h ee n t i t y-p a i re m b e d-d i n g.A n df i n a l l y,t h er e l a t i o ne x t r a c t i o n i sc o m p l e t e db y

9、t h eac l a s s i f i c a t i o np r o c e s s.E x p e r i m e n t a l r e s u l t so nNY Ta n dW e b N L Gd a t a s e t s s h o wt h a t t h ep r o p o s e dm e t h o do u t-p e r f o r m s t h eb a s e l i n e sb ya c h i e v i n g8 4.5%a n d8 8.5%F1v a l u e,r e s p e c t i v e l y.K e y w o r d

10、s:k n o w l e d g eg r a p h;a t t e n t i o nm e c h a n i s m;j o i n t e n t i t ya n dr e l a t i o ne x t r a c t i o n收稿日期:2 0 2 2-1 1-0 7 定稿日期:2 0 2 3-0 1-1 6基金项目:国家自然科学基金(6 1 9 7 2 2 6 6)0 引言互联网、云计算和5 G通信等技术群的发展成果被广泛应用于各领域,引发了网络空间数据的爆炸式增长,这其中包含7 5%以上的非结构化数据。如何对海量非结构化数据进行有效组织和管理,成为备受学术界和工业界关注

11、的热点问题1。2 0 1 2年,谷歌提出的知识图谱技术2将数据表达为知识化的大规模语义网络,这是目前用于多源异构数据融合的最有效手段之一。知识图谱由节点(N o d e)和边(E d g e)构成,其中,节点代表客观世中 文 信 息 学 报2 0 2 4年界中的实体(E n t i t y)或者概念(C o n c e p t),边代表实体/概念 之 间 的 关 系(R e l a t i o n)3。实 体 关 系 抽取4作为知识图谱构建的核心任务,通常被分解为实体识别和关系抽取,其实现方法主要是通过对文本信息建模,识别文本中的实体以及实体对间的 语 义 关 系,常 被 用 于 文 本 摘

12、要5、智 能 问答6、信息检索7等领域。早期的实体关系抽取通常以基于规则的方法和基于机器学习的方法为主。基于规则的方法8需要大量专业人士编写规则,而且覆盖的领域也有限,不具备迁移性。基于机器学习的方法9通常以基于统计的方法为主,这种方法严重依赖人工提取的特征,并且无法应用到大规模文本中。近年来,随着深度学习技术的不断发展,基于深度学习的实体关系抽取方法1 0能够自动获取数据中的深层次的特征,有效缓解上述方法过于依赖自然语言处理工具带来的误差问题,因此受到了极大的关注。基于深度学习的实体关系抽取方法主要分为流水线(P i p e l i n e)和联合(J o i n t)抽取方法。流水线抽取方

13、法1 1-1 4将实体识别和关系抽取看作是两个独立的任务,首先识别出一个句子中的所有实体,然后进行实体配对,最后对每对实体进行关系分类。该方法易于实现,灵活度高,但存在特征提取不全、误差传播、信息冗余的问题,并且两个子任务之间缺乏交互1 5。相比于流水线抽取方法,联合抽取方法1 6-2 3作为目前实体关系抽取的主流方法,采用共享参数、联合解码等手段将实体识别和关系抽取两项子任务联合,并基于深度神经网络框架完成实体关系抽取。联合抽取方法能够有效缓解流水线抽取方法带来的误差传播问题,并利用实体和关系之间的紧密联系,提高实体关系抽取任务的准确率,成为目前实体关系抽取的主流方法。在实际应用中,文本数据

14、中存在大量三元组重叠现象,例如,“成龙导演并主演了辛亥革命。”,实体“成龙”和实体“辛亥革命”之间存在“导演”和“主演”两种语义关系。对于上述文本中存在的三元组重叠情况,现有的大多数实体关系抽取方法仍无法有效应对。Z e n g等人1 8根据实体重叠的方式将三元组类型划分为:标准(N o r m a l),没有重叠的实体;单一实体重叠(S i n g l eE n t i t yO v e r-l a p,S E O),三元组共享一个实体;实体对重叠(E n t i t yP a i rO v e r l a p,E P O),三元组共享一对实体。详见表1所示。表1 重叠三元组类型类型文本三元

15、组N o r m a l特朗普出生于纽约。(特朗普,出生于,纽约)S E O特朗 普 出 生 于 纽 约,美国。(特朗普,出生于,纽约)(纽约,位于,美国)E P O成龙导演并主演了辛亥革命。(成龙,导演,辛亥革命)(成龙,主演,辛亥革命)针对三元组重叠问题,Z e n g等人1 8提出了一种基于复制机制的端到端模型C o p y R e,能够在一定程度上解决上述三种重叠类型的实体关系三元组抽取,但 存 在 无 法 预 测 多 单 词 实 体 问 题。为 此,Z e n g等人1 9又提出了一个基于复制机制的多任务学习框架C o p y MT L。F u等人2 0和D u a n等人2 1采用

16、图卷积神 经 网 络(G r a p hC o n v o l u t i o n a lN e t-w o r k,G C N)来解决重叠三元组问题,并取得一定的进展,但模型仍有待改进之处。早期研究表明,利用实体信息、实体类型信息以及实体的其它额外信息,对关系抽取任务均具有重要意义2 4。为此,本文考虑到头尾实体信息对关系抽取的重要影响,提出了一种基于实体对注意力机制的实体关系联合抽取模型(J o i n tE n t i t ya n dR e l a t i o nE x t r a c t i o nM o d e lB a s e do nE n t i t y-p a i rS p

17、 e c i f i cA t t e n t i o nM e c h a n i s m,E P S A),旨在生成不同实体对下的句子表示用于关系抽取。首先,使用B i-L S TM结合C R F的方法进行实体识别;其次,将抽取出的实体进行配对,并采用基于实体对注意力机制的句子编码模型,有效融合实体对信息,生成特定实体对注意力下的句子表示;最后,将句子表示输入到全连接层中,再通过由S o f t m a x函数构成的分类器完成关系类型的预测。在公开数据集NY T和W e b N L G上对本文模型进行了验证,实验结果表明所提模型在实体关系联合抽取任务上十分有效,F1值分别达到8 4.5%和

18、8 8.5%,并能解决单一实体重叠问题。1 相关工作1.1 流水线抽取方法 流水线抽取方法将实体识别和关系抽取看作是两个独立的任务,在实体已被标注的基础上进行实体间关系的抽取。该方法包括采用卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k s,C NN)、循环神经网络(r e c u r r e n tn e u r a ln e t w o r k s,R NN)或者其改进 模 型 如 长 短 时 记 忆 网 络(L o n gS h o r t-T e r m0012期朱继召等:基于实体对注意力机制的实体关系联合抽取模型M e

19、 m o r y,L S TM)2 4。L i u等人1 1首次提出采用卷积神经网络进行关系抽取,该方法通过结合词汇特征,采用同义词词典对输入的单词进行编码,将语义知识集成到神经网络中进 行关系抽取。Z e n g等人1 2利用卷积神经网络提取词汇级和句子级特征,形成一个最终的特征向量,输入到S o f t m a x分类器中进行关系 分类。S o c h e r等 人1 3首 次 提 出 采 用R NN学习任意句法类型和长度的短语和句子的组合向量表示,用来分类句子中单词之间的语义关系。由于传统的R NN模型存在梯度消失、梯度爆炸等问题,L S TM网络通过其门控操作有效缓解了这些问题,并且能

20、够学习到语料中的长期依赖关系,后得到了广泛应用。X u等人1 4提出了一种基于最短依赖路径的L S TM模型,结合单词本身、单词词性、语法关系和W o r d N e t多种信息,后使用S o f t m a x函数进行关系抽取。虽然流水线抽取方法具有操作简单、易于实现的优点,但是实体识别任务的错误会继续传入到关系抽取任务中,造成错误的累积;其次,并不是所有抽取出的实体之间都存在关系,会出现实体冗余的情况,并且大大增加计算量;最后,它忽略了两个任务之间的内在联系,不能很好地利用两个任务之间的隐含关系,从而造成信息的缺失。1.2 联合抽取方法由于流水线抽取方法存在以上问题,研究者们提出了实体关系

21、联合抽取的方法。联合抽取方法是指对实体识别和关系抽取任务同时建模,使用一个模型直接抽取出实体关系三元组7,并能够增强两个任务的联系,从而提高联合任务的准确率。M i w a等人1 6首次提出使用一个模型来抽取实体及实体之间的关系,其中实体识别和关系抽取两个子任务采用共享底层编码器B i-L S TM的方法进行交互,然后依据构造的依赖树进行实体间关系的抽取。Z h e n g等人1 7首次提出将联合抽取任务转换成一个序列标注问题,并提出一种新的标记方案同时抽取实体和实体间关系,解决了流水线抽取方法中实体冗余的问题。由于参数共享和序列标注方法均不能有效解决重叠三元组的抽取问题。为此,研究者们基于复

22、制机制、图、序列到序列的方法开展了一系列深入研究工作。Z e n g等人1 8提出一种基于复制机制的端到端模型C o p y R e,用于解决重叠三元组抽取不全面的问题。该方法通过复制实体,使实体能够被多次使用,再针对不同情况使用不同的解码器,从而有效解决了三元组重叠问题。之后,Z e n g等人1 9又针对C o p y R e模型不能预测多单词实体的缺点,提出基于复制机制的多任务学习框架C o p y MT L,该框架通过在编码阶段添加序列标记层,解决了实体边界识别不清晰的问题,从而有效提高实体关系抽取的准确率,但是该模型预测三元组数量受到限制。F u等人2 0提出基于图卷积神经网络的端到

23、端模型联合抽取实体和关系,通过结合R NN和G C N,不仅能够提取每个单词的顺序特征,还能够提取其他的区域依赖特征,引入的加权G C N能够考虑实体和关系之间的相互作用,从而更好地抽取关系,因此能在一定程度上解决重叠三元组问题,但模型性能受到依存树影响。D u a n等人2 1提出一种基于多头自注意力机制和密集连接的图卷积神经网络的关系自适应实体关系联合抽取模型MA-D C G C N,使用多头注意力机制对实体之间的多种关系类型分配不同的权重,确保多种关系不互相排斥,利用密集连接的G C N进行文本更深层次的信息提取,从而有效提升模型的抽取效果,但关系之间缺少信息交互。Y u a n等人2

24、2提出一种特定关系下的注意力网络,构建不同关系下的句子表示,然后抽取其对应的头尾实体,以此完成实体关系的联合抽取,模型中所提出的关系注意力网络能够过滤掉不相关的关系,减少计算量,但在E P O类三元组上表现不佳。Y u等人2 3将联合抽取任务分解成两个相互关联的子任务,即HE提取和T E R提取,并采用基于跨度的标记方案将这两个子任务进一步分解为若干个序列标记问题。HE提取是区分可能与目标关系相关的所有头实体,T E R提取是为每个提取的头实体识别出对应的尾实体和关系。在联合模型中引入分解策略和跨度策略,能够捕获语义间的依赖关系,但是会存在头尾实体交互缺失的问题。综上所述,实体关系联合抽取已取

25、得丰硕的研究成果。但是,在语义信息融合、重叠三元组抽取等问题上还存在不足。为此,本文针对这些问题开展深入研究,提出了基于实体对注意力机制的实体关系联合抽取模型,能够获取更深层次的语义信息,并且能够融合实体的相关信息进行关系预测,在一定程度上解决三元组重叠问题。2 基于实体对注意力机制的实体关系联合抽取模型 受Y u a n等人2 2在2 0 2 1年提出的R S AN模型的启发,本文设计了一种基于实体对注意力机制的101中 文 信 息 学 报2 0 2 4年实体关系联合抽取模型E P S A,整体采用统一学习框架将实体识别和关系抽取两个子任务进行联合训练,E P S A模型的总体架构如图1所示

26、。首先,利用多种词嵌入方式初始化词向量,采用B i-L S TM结合C R F的方法抽取句子中存在的实体;然后,将抽取出的实体配对,采用基于实体对注意力机制的句子编码模型,生成特定实体对注意下的句子表示,再显式融合实体对的信息,得到增强的句子表示;最后,将其输入到线性层中预测该实体对间的关系,完成实体关系三元组的联合抽取。图1 E P S A模型总体架构2.1 实体识别首先随机初始化文本中各个词的向量表示,后采用B i-L S TM编码层结合C R F层的方法,将实体识别任务转换成一个序列标注任务。实体识别阶段采用Z h e n g等 人1 5在2 0 1 7年 提 出 的“B I E S O

27、”(B:B e g i n,开始;I:I n s i d e,内部;E:E n d,结尾;S:S i n g l e,单独的;O:O t h e r,其他)标注方法结合实体类型的策略进行标注。例如,在图1中,B-P E R和E-P E R表示实体类型为“P E R”的开始单词和结束单词,将它们分别分配给文本中的单词“M a s o n”和“A d a m”,O表示该单词不是实体,S-L O C表示实体类型为“L O C”的单独单词,将它分配给文本中的单词“B r o o k l y n”。2.1.1 词嵌入层词嵌入层的目的是将文本中的每个词映射成一个低维向量,得到每个词的初始向量表示。给定文本

28、中一个长度为n的句子表示S=w1,w2,wn,经过词嵌入层得到每个词的初始向量表示为xi=xwi,xp o si,xci。其中,xwi表示每个词对应的向量表示;xp o si表示词性对应的向量表示,两者均由词嵌入层随机初始化产生;xci表示每个词的字符级向量表示,采用卷积神经网络C NN得到,字符特征提取过程如图2所示。图2 C NN字符特征提取模型2.1.2 B i-L S TM层考虑到R NN在实际应用时存在梯度消失、梯度爆炸的问题,L S TM2 5能够通过输入门、遗忘门、输出门三个门控操作有效解决这些问题。本文工作采用L S TM网络对序列数据进行处理。L S TM网络通过门控操作能够

29、在存储当前时刻信息的同时,2012期朱继召等:基于实体对注意力机制的实体关系联合抽取模型有选择地保留上一时刻的信息,从而形成对前一时间段输入信息的记忆。在t时刻,输入经词嵌入层获得的初始向量表示,L S TM网络各部分的计算过程如式(1)式(6)所示。it=(Wixt+Uiht-1+bi)(1)ft=(Wfxt+Ufht-1+bf)(2)ot=(Woxt+Uoht-1+bo)(3)ut=t a n h(Wuxt+Uuht-1+bu)(4)ct=it*ut+ft*ct-1(5)ht=ot*t a n h(ct)(6)其中,it、ft、ot分别表示输入门、遗忘门、输出门,ct表示t时刻的记忆单元,

30、ht表示t时刻的隐藏状态,xt表示t时刻的输入,表示激活函数,*表示元素间乘法,W、U表示权重矩阵,b表示偏置向量。单向的L S TM网络只考虑过去时刻的信息,无法利用未来时刻的信息。因此,为了同时捕捉到t时刻的过去和未来信息,本文选用B i-L S TM网络最终获得特征信息更全面的句子编码。在t时刻,B i-L S TM网络编码后的隐向量计算过程如式(7)所示。ht=ht;ht,t1,n(7)经B i-L S TM层输出的隐状态编码序列H=h1,h2,hn。2.1.3 C R F层C R F层2 6能够为预测的实体标签间进行约束,以保证预测标签的合法性。例如:I-P E R标签前通常是B-P

31、 E R标签,而不是B-L O C标签。在训练过程中,标签之间的约束关系能够通过C R F层自动学习。因此,我们选用C R F层对实体标签进行联合解码。C R F层输出标签序列y的概率计算如式(8)所示。p(y|h;)=ni=1(hi,yi,yi-1)y M(S)ni=1(hi,y i,y i-1)(8)其中,M(S)是句子所有可能的标签序列的集合,是所涉及的参数,(hi,yi,yi-1)是一个势函数,具体如式(9)、式(1 0)所示。(hi,yi,yi-1)=e x p(yTiWThi+yTi-1T yi)(9)=W,T(1 0)其中,W和T为C R F层的参数。2.2 关系抽取接下来,在实

32、体识别基础上先使用基于实体对注意力机制的句子编码模块,获得特定实体对下的句子表示,再融合该实体对的信息,得到增强的句子表示,输入到前馈神经网络中预测该实体对间的关系类型。例如,在图1中,通过基于实体对注意力机制的句子编码模型获得的句子表示融合该实体对的信息输入到线性层中,能够预测出该实体对之间存在的关系类型为“p l a c e_o f_b i r t h”。2.2.1 实体对特征融合首先将实体识别阶段抽取出的实体进行配对,分别拼接配对实体对应的隐状态,并按照设定的参数长度对其填充,从而获得实体e1和实体e2的初始表示,如式(1 1)、式(1 2)所示。e1=hi+1,hi+2,hi+p,hi

33、+m(1 1)e2=hj+1,hj+2,hj+q,hj+m(1 2)其中,hi表示B i-L S TM编码后的第i个词的隐状态表示,p、q分别表示构成实体e1和实体e2的单词数量,m表示实体填充后包含的单词数量。其次,将配对实体的初始表示e1和e2分别输入线性层中,按照式(1 3)、式(1 4)计算得到实体e1和实体e2的嵌入式表示e*1和e*2。e*1=L i n e a r(e1)(1 3)e*2=L i n e a r(e2)(1 4)最后,将配对实体的嵌入式表示e*1和e*2按照式(1 5)进行拼接,得到实体对的嵌入式表示。ue p=C o n c a t(e*1,e*2)(1 5)上

34、述融合过程能够对两实体内在特征进一步抽象,通过模型的训练,使得模型学习得到能够增强实体间语义关系分类特征信息(如实体的类型特征)的能力,从而实现关系分类效果的提升。2.2.2 基于实体对注意力机制的句子编码模块基于实体对的注意力机制2 7,利用实体对信息计算其与句中各词间的相关性,以此度量句中各词在进行句子编码的重要度。具体地,将B i-L S TM层输出的各词对应的隐状态hi与实体对嵌入式表示ue p按照式(1 6)、式(1 7)计算得到实体对注意力权重=1,2,n。wi=VTt a n h(Whhi+Wuue p)(1 6)i=e x p(wi)nk=1e x p(wk)(1 7)其中,V

35、、Wh、Wu是权重矩阵。根据B i-L S TM层输出的隐状态hi和实体对注意力权重i,按照式(1 8)计算得到句子向量表示S。301中 文 信 息 学 报2 0 2 4年S=ni=1ihi(1 8)为了增强实体对在句子编码中的影响,将实体对的嵌入式表示ue p显式地加入句子编码S中 见式(1 9),从而获得该实体对下增强的句子表示。S*=c o n c a tS,ue p(1 9)2.2.3 关系预测接下来,将得到的增强型句子表示Sx引入全连接层中,并通过S o f t m a x函数得到该实体对间关系类型的概率:P(y)=S o f t m a x(WsS*+bs)(2 0)其中,Ws、b

36、s是可训练的参数,P(y)表示实体对间关系类型的概率。2.3 损失函数本文模型的整体损失由实体识别和关系抽取两部分联合组成,损失函数定义如公式(2 1)。其中,实体识别任务使用传统的“B I E S O”标注方法结合实体类型作为真实标签,其损失值通过计算C R F层输出标签序列y的负对数似然函数进行,关系抽取任务使用实体对间的语义关系作为真实标签,其损失值使用交叉熵损失函数进行计算。L=-sSl o g(P(ys|hs;)+1nni=1l o gP(y=y)(2 1)其中,S是训练数据中的句子,hs是B i-L S TM网络编码后的隐向量表示,ys是句子的标签序列,是所有涉及的参数,y表示实体

37、对之间存在的关系类型的真实标签,y表示实体对之间存在的关系类型标签。3 实验3.1 数据集 为了验证模型E P S A的有效性,本文在公共数据集N Y T2 8和W e b N L G2 9上进行实验。N Y T数据集中包含从2 0 0 9年1 1月至2 0 1 0年1月纽约时报网站上的所有文章,该数据集通过将F r e e b a s e中的关系与纽约时报(N Y T)语料库自动对齐生成大规模的训练数据。W e b N L G数据集本就是为自然语言处理任务而创建的,是评估实体关系抽取模型效果最常用的通用数据集。为了与现有工作对比,本文采用Z e n g等人1 8预处理过的数据集。对于N Y

38、T数据集,共包含2 4种预先定义的关系类型,共5 61 9 5条语句用于训练,50 0 0条语句用于验证,50 0 0条语句用于测试。对于W e b N L G数据集,共包含2 4 6种预先定义的关系类型,共50 1 9条语句用于训练,5 0 0条语句用于验证,7 0 3条语句用于测试。根据三元组重叠情况的不同,将句子划分成N o r m a l、E P O、S E O三种类型,数据集详细信息见表2。表2 N Y T和W e b N L G数据集相关信息类型NY TW e b N L G训练集验证集测试集训练集验证集测试集N o r m a l3 57 0 332 0 831 3 616 0

39、01 8 22 4 6E P O1 19 9 110 3 011 6 82 2 71 62 6S E O85 0 27 6 26 9 631 9 23 0 24 3 1A L L5 61 9 650 0 050 0 050 1 95 0 07 0 33.2 评价指标本文选用准确率(P r e c i s i o n,P)、召回率(R e c a l l,R)和F1值作为评价指标对E P S A模型进行性能评估。当且仅当模型预测的实体关系三元组与数据集中真实的实体关系三元组完全相同时,才被认为预测结果是正确的。各评价指标的计算方法见式(2 2)式(2 4)。P=T PT P+F P1 0 0%(

40、2 2)R=T PT P+F N1 0 0%(2 3)F1=2PRP+R1 0 0%(2 4)其中,T P表示模型抽取正确的三元组个数,F P表示模型抽取错误的三元组个数,F N表示模型未抽取出的正确三元组个数。4012期朱继召等:基于实体对注意力机制的实体关系联合抽取模型3.3 实验设置本文模型在服务器上运行,处理器为I n t e lX e o nG o l d6 2 2 6 R,运行内存(R AM)为1 2 8 G B,显卡为NV I D I A G e F o r c eR T X3 0 9 0。使用的开发工具是P y C h a r m,开发语言是P y t h o n,深度学习框架

41、为P y T o r c h。在实验中,词向量的维度为3 0 0,词性向量的维度为3 0,字符向量的维度为5 0,L S TM隐藏层的维度为3 0 0,实体对的嵌入向量的维度为3 0 0。本文中模型的D r o p o u t设置为0.5,用来防止模型出现过拟合现象。模型采用A d a m优化器更新模型的参数,在训练集上训练1 0 0个e p o c h,保留在验证集上F1值最高的参数,作为模型最优的参数。3.4 实验结果及分析3.4.1 实验结果为了对本文模型的有效性进行评价,选择近年来在实体关系联合抽取方面具有影响力的模型代表作对比:(1)N o v e lT a g g i n g1 7

42、:Z h e n g等人首次将实体关系联合抽取任务转换成一个序列标注问题,并提出了一种新的标注策略,但是该模型未能解决重叠问题。(2)C o p y R E1 8:Z e n g等人首次将编码器-解码器结构应用于实体关系联合抽取,并通过复制机制以解决重叠问题,但是该模型只能提取出构成实体的最后一个单词。(3)G r a p h R e l2 0:F u等人利用图卷积神经网络解决重叠问题,但是效果并未得到很大提升。(4)C o p y R R L3 0:Z e n g等人使用强化学习选取高质量句子进行训练,从而实现句子选取和实体关系联合抽取的协同优化。(5)C o p y MT L1 9:是C

43、o p y R E的扩展,将强化学习应用于编码器-解码器模型中,以生成多个三元组,从而解决重叠问题。(6)GMC D-J E R E3 1:Q i a o等人提出的一种基于图卷积增强多路解码的实体关系联合抽取模型,能够有效融合句子信息,提高关系分类准确性。(7)E T L-S p a n2 3:Y u等人提出的一种基于跨度的标注策略,并建模内部依赖关系,实现三元组的分层解码。(8)MA-D C G C N2 1:D u a n等人提出的一种基于多头自注意力和密集图卷积神经网络的关系自适应实体关系联合抽取模型,能够提取更深层次的信息,捕获实体关系的交互信息。(9)R S A N2 2:Y u a

44、 n等人提出的一个关系特定注意力网络,能够利用注意力机制为每个关系构造特定的句子表示,再以序列标注的方式完成实体关系联合抽取。表3为模型在两个数据集上的测试结果,其中加粗字体的数据为对应指标下的最好效果。表3 在N Y T和W e b N L G数据集上的对比实验结果(单位:%)模型NY TW e b N L GP r e cR e cF1P r e cR e cF1N o v e lT a g g i n g1 76 2.43 7.14 2.05 2.51 9.32 8.3C o p y R E1 86 1.05 6.65 8.73 7.73 6.43 7.1G r a p h R e l2

45、 06 3.96 0.06 1.94 4.74 1.14 2.9C o p y R R L3 07 7.96 7.27 2.16 3.35 9.96 1.6C o p y MT L1 97 5.76 8.77 2.05 8.05 4.95 6.4GMC D-J E R E3 18 0.07 3.87 6.84 3.94 2.74 3.3E T L-S p a n2 38 4.17 4.67 9.16 9.16 9.56 9.3MA-D C G C N2 18 1.37 6.77 9.46 7.46 5.16 6.3R S AN2 28 5.78 3.68 4.68 0.58 3.88 2.1E

46、 P S A9 8.07 4.28 4.59 5.88 2.18 8.5 从表3可以看出:在NY T数据集上,本文模型E P S A与对比模型中最先进的R S AN相比,准确率501中 文 信 息 学 报2 0 2 4年提高了1 2.3%,召回率有所下降,但F1值在同一水平上;在W e b N L G数据集上,与R S AN相比,E P S A在准确率上提高了1 5.3%,召回率下降1.7%,但F1值提升6.4%。上述实验结果充分证明E P S A模型在实体关系联合抽取任务中的有效性,同时表现出的高准确率为模型的实际应用提供重要保证。而召回率较R S AN模型有所下降的原因在于,E P S A

47、模型是通过对抽取出的实体进行配对后生成特定实体对下的句子表示,基于此进行实体间关系的预测,它只能处理实体对间仅存在单一关系的情况,在处理实体对重叠(E P O)类型的关系抽取时能力不足。后续工作拟将三元组作为整体进行建模,不将关系视作实体对间的离散标签,而是将关系建模为从主语映射到宾语的函数,再结合功能强大的预训练模型中所包含的先验知识,完成重叠三元组的抽取。3.4.2 重叠问题分析为了验证E P S A模型在处理三元组重叠问题上的有效性,分别对数据集NY T和W e b N L G中N o r m a l、E P O、S E O三种类型测试数据下的结果进行统计,统计三种重叠关系类型下的F1值

48、,结果如图3所示。图3 NY T和W e b N L G上不同重叠情况的F1值 从图3的柱状图可以看出,相比与目前主流的实体关系联合抽取模型,E P S A在N o r m a l和S E O类测试数据上的F1值表现突出。具体地,与目前表现最好的模型MA-D C G C N相比:(1)在NY T数据集的N o r m a l类数据上,其F1值提高了9.1%,S E O类数据上的F1值提高了2 1.9%。(2)在W e b N L G数据集的N o r m a l类数据上,F1值提高了1 3.4%,在S E O类数据上的F1值提高了1 5.1%。(3)E P S A在E P O类数据上表现如下:

49、在N Y T数据集上的F1值略低于表现最佳的C o p y R R L模型;在W e b N L G数据集上的F1值最高,与次优模型C o p y R R L相比提升了1%。(4)在E P O类数据下,E P S A的F1值提升不明显,原因在于:E P S A是对实体识别结果配对,然后预测该实体对间的关系,因此E P S A只能处理该实体对间的某一种关系,从而导致模型的召回率偏低,进而影响F1值。因此,E P S A模型能够有效解决S E O问题。此外,为了验证语料中包含三元组数量对模型效果的影响,按照单条语料中的三元组数量对NY T和W e b N L G数据集下的模型效果再统计。分别统计当

50、语料中存在1、2、3、45个三元组时,各模型在两个数据集上的F1值效果,如图4所示。其中,X轴表示单条语料中包含三元组的数量,Y轴表示模型的F1值。从图4的折线图可以看出,当语料中含有不同数量三元组时,E P S A模型总体上的表现要优于其他模型。随着语料中三元组数量的增加,对比模型的性能开始下降,而E P S A的性能较稳定,尤其是在W e b N L G数据集上,F1值始终高于其他模型。在NY T数据集上,当语料中包含4个三元组时,虽然C o p y R R L模型3 0的F1值略高于E P S A,但当三元组数量增至5时,C o p y R R L的性能急剧下降,而E P S A表现十分

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服