基于过滤机制的链式实体关系抽取模型.pdf

资源描述

1、当前实体关系抽取任务中普遍采用堆叠标注层的方式处理关系重叠问题.这种处理方式中很多关系对应标注层的计算是冗余的,会导致标注矩阵的稀疏化,影响模型的抽取效果.针对上述问题,文中提出基于过滤机制的链式实体关系抽取模型,先通过编码层获得文本的向量特征,再通过五阶段的链式解码结构顺序抽取关系三元组的主体、客体和关系.链式解码结构在避免标注矩阵稀疏化的同时,能够通过过滤机制完成实体和关系的自动对齐.在解码过程中:条件层规范化用于提高阶段间特征的融合程度,减少误差累积的影响;门控单元用于优化模型的拟合性能;首尾分离和关系修正模块用于关系集的多重校验.在公开数据集上的对比实验表明,文中模型取得较优性能.关键

2、词摇实体关系抽取,关系三元组,链式解码结构,过滤机制,门控单元,条件层规范化引用格式摇夏鸿斌,沈健,刘渊.基于过滤机制的链式实体关系抽取模型.模式识别与人工智能,2023,36(7):590-601.DOI摇 10.16451/ki.issn1003鄄6059.202307002摇摇摇摇摇摇中图法分类号摇 TP 391Chain Entity Relation Extraction Model with Filtering MechanismXIA Hongbin1,2,SHEN Jian1,LIU Yuan1,2ABSTRACT摇Stacking labeling lay

3、er is commonly adopted to deal with relation overlap in current entityrelation extraction task.In this method,the calculation of the labeling layers corresponding to manyrelations is redundant,resulting in sparse labeling matrix and weak extraction performance of the model.To solve these problems,a

4、chain entity relation extraction model with filtering mechanism is proposed.Firstly,the vector feature of the text is obtained through the encoding layer,then the subject,object andrelation of the relation triple are sequentially extracted through the five鄄stage chain decoding structure.The chain de

5、coding structure avoids the sparse labeling matrix,and the automatic alignment of entitiesand relations is completed through the filtering mechanism.In the decoding process,conditional layernormalization is employed to improve the fusion degree of features between stages and reduce the impactof erro

6、r accumulation.Gated unit is utilized to optimize the fitting performance of the model.Head鄄to鄄tailseparation and relation correction module are applied to multiple verification of relation sets.Comparativeexperiments on public datasets show that the proposed model achieves better performance.Key wo

7、rds 摇Entity Relation Extraction,Relation Triples,Chain Decoding Structure,FilteringMechanism,Gated Unit,Conditional Layer Normalization收稿日期:2023-05-05;录用日期:2023-07-28Manuscript received May 5,2023;accepted July 28,2023国家自然科学基金项目(No.61972182)资助Supported by National Natural Science Foundation of China

8、(No.61972182)本文责任编委陈恩红Recommended by Associate Editor CHEN Enhong1.江南大学人工智能与计算机学院摇无锡 2141222.江南大学江苏省媒体设计与软件技术重点实验室摇无锡2141221.School of Artificial Intelligence and Computer Science,Jiang鄄nan University,Wuxi 2141222.Jiangsu Key Laboratory of Media Design and Software Tech鄄nology,Jiangnan Universit

9、y,Wuxi 214122第 36 卷摇第 7 期模式识别与人工智能Vol.36摇 No.72023 年 7 月Pattern Recognition and Artificial IntelligenceJul.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇Citation摇 XIA H B,SHEN J,LIU Y.Chain Entity Relation Extraction Model with Filtering Mechanism.Pattern Recognition and Artificial Intelligence,2023,36(

10、7):590-601.摇摇实体关系抽取任务目的是从文本数据中抽取出由主体(Subject)、客体(Object)和谓语(Pre鄄dicate,即主体和客体之间的关系)组成的关系三元组1.实体关系抽取是知识图谱构建的关键步骤2-3,在医学知识发现4、情感分析5等领域都具有广泛应用.关系重叠问题是实体关系抽取中的一个关键问题,包括 Normal、SEO(Single Entity Overlap)和 EPO(Entity Pair Overlap)三种情况.Normal 表示一对实体之间关系唯一,SEO 表示多个实体与同一个实体间存在关联,EPO 表示一对实体之间拥有多个不同的关系.实体关系抽取

11、任务可以分为实体抽取和关系抽取两个子任务.常用的实体抽取方式有基于序列标注的方式和基于跨度(Span)的方式.Zheng 等6将关系类别与序列标注中的 BIEO 标签结合,为每个分词片段进行分类,再按照标签类型进行组合,得到三元组.这种处理方式将实体限定在某种关系上,无法处理关系重叠问题.常用的基于跨度的方式有片段排列和指针网络两种.Dixit 等7提出的 Span鄄Level Model for RelationExtraction 和 Eberts 等8提出的 SpERT(Span鄄BasedEntity and Relation Transformer)都采用片段排列的方式抽取实体 Sp

12、an.这种方式会先列举出本文序列中所有可能的实体 Span,再使用过滤器进行筛选,实际抽取过程中会对很多冗余的实体 Span 进行判断,导致计算开销变大.指针网络通过两个标注层分别标注实体的首部和尾部,最后组合成实体 Span,这种抽取方式更简单高效.Wei 等9提出的CASREL 和王泽儒等10提出的指针级联标注策略(Novel Pointer Cascade Tagging Strategy,NPCTS)都采用指针网络处理实体抽取任务.在关系抽取任务方面,早期模型在抽取得到实体对后,会采取基于特征的方式11和基于核函数的方式12抽取关系,当前模型更倾向于实体与关系的联

13、合抽取.例如:CASREL 和 TPLinker13都会按照关系类别数堆叠标注层,即在每个关系下预测对应的实体,从而实现实体和关系的自动对齐.实体关系抽取模型可以分为管道模型(Pipeline)和联合模型(Joint).管道模型的任务按照顺序执行,任务之间的关联性较低,存在误差累积、曝光偏差等问题.联合模型通过参数共享或联合解码的方式,提高子任务之间的关联性.参数共享的联合模型(如 CASREL)在本质上仍是多阶段模型,同样存在误差累积、曝光偏差等问题.而类似 TPLinker的联合解码模型,虽然能够在单阶段内抽取三元组的全部内容,避免曝光偏差和误差累积的产生,但解

14、码结构会相对变得更复杂,导致模型的计算性能不佳.CASREL 的堆叠指针网络和 TPLinker 的握手标注机制(Handshaking Tagging Scheme)都采用按照关系种类数堆叠标注层的策略,即在每个关系类别下抽取对应的实体对.在实际情况中,多数文本包含的关系三元组不会很多,能够覆盖到的关系种类很少,因此大量关系对应的标注层计算是冗余的,导致模型标注矩阵的稀疏化,最终影响抽取性能.为了处理这种由关系类别失衡而产生的矩阵稀疏问题,Zheng等14提出 PRGC(Potential Relation and Global Corre鄄spondence),采用关系和实体分开抽取的策略

15、,并使用全局对应矩阵(Global Correspondence Matrix,GCM)对齐实体.全局对应矩阵的大小为文本序列长度的平方,其中只有实体首部对应位置会进行标注,同样是一个较稀疏的矩阵.CASREL 和 PRGC 均为两阶段的解码模型,CASREL 利用主体信息抽取对应的客体和关系,PRGC 利用关系信息抽取对应的实体对,这两个模型在第二阶段都利用第一阶段的输出结果,成功过滤不必要的信息,完成三元组的部分元素之间的对齐.本文将这种利用前一阶段输出排除无用信息,并自动对齐三元组内元素的机制称为过滤机制.针对上述模型的一些问题,本文提出基于过滤机制的链式实体关系抽取模型(Ch

16、ain Entity Rela鄄tion Extraction Model with Filtering Mechanism,Chain鄄Rel).首先,通过 BERT(Bidirectional Encoder Repre鄄sentations from Transformers)15获取文本的编码输出,使用门控注意力单元(Gated Attention Unit,GA鄄U)12对输出特征进一步编码.然后,将特征输入关系修正模块和链式解码模块中分别进行抽取,得到文本的全局关系集和关系三元组集.最后,使用全局关系集对关系三元组集进行校验,得到输出结果.链式解码结构分为五个阶段,前四个阶段用于抽

17、取主体和客体,最后一个阶段用于获取实体对间的关系.从第二阶段开始,每个阶段都会使用前驱阶段的输出进行数据过滤,使主体、客体、关系能够在链式的195第 7 期摇摇摇摇夏鸿斌摇等:基于过滤机制的链式实体关系抽取模型抽取过程中自动对齐.为了提升过滤机制的作用,减少误差累积的影响,ChainRel 使用条件层规范化(Conditional Layer Normalization,CLN)16进行阶段间的特征融合.在进入最后一阶段前,模型会通过门控线性单元(Gated Linear Unit,GLU)17以及首尾分离操作进一步丰富输入特征包含的信息,提升关系抽取效果.1摇基于过滤机制的链式实体

18、关系抽取模型1.1摇模型框架ChainRel 分为 3 部分:BERT 编码层、链式解码模块和关系修正模块.ChainRel 的具体结构如图 1 所示:H0为 BERT的输出编码;H 为 H0经过 GAU 处理过后的文本编码;CLS 为 BERT 输出中用作分类的一个向量;SH、OH、ST、OT 为主体首部、主体尾部、客体首部和客体尾部对应的索引下标候选集;S 和 O 为对齐后的实体 Span 集,包括 4 个对齐后的索引集 idxSH、idxST、idxOH、idxOT;FSH、FOH、VSH、VST、VOH、VOT为 SH、OH、idxSH、idxST、idxOH和 idxOT中的下标信

19、息,通过 extra鄄ct()从 H 中截取得到的特征向量;H*S为 H 和 FS的融合向量,SH*OH为VSH和VOH的融合向量,ST*OT为VST和VOT的融合向量;RelH和RelT为关系抽取部分得到的两个关系集,RelG为通过关系修正模块得到的全局关系集.?BERTGAUHO?HCLNH*S?O?CLNSH*OHGLU?ST*OTRelHRelT?HSFSHS(,)idxidxSHOH(,)idxidxSTOTH(,),(,)SHSTOHOTVVVVRelGCLSSHLinear&sigmoidHHCLNFSHHLinear&sigmoid?ST?OHLinear&am

20、p;sigmoidH*SHCLNFOHHLinear&sigmoid?OT?extract().extract().extract().extract().图 1摇 ChainRel 结构图Fig.1摇 Structure of ChainRel1.2摇 BERT 编码层BERT 是由 Transformer18的 Encoder Block 堆叠而成.模型结合上下文进行训练,生成深度的语义表征.ChainRel 使用 BERT 的分词器对输入文本进行处理,得到文本序列,并将该序列输入预训练的BERT 中,用于计算对应的编码向量.本文取 BERT最后一个 Block 的输出 H0以及对

21、应的 CLS 向量供后续模块使用.1.3摇门控结构GLU 源于门控卷积网络(Gated ConvolutionalNetwork,GCN)17,其本质是通过两个相同的卷积层对输入向量进行强化输出.两个卷积层对应两个通道,未加激活函数的通道保证运算过程中梯度的不易消失,加激活函数的部分实现特征的非线性转换.两个通道相加后的输出能够有效强化输入特征.ChainRel 中的 GLU 结构,在网络层上使用简单高效的线性层,具体计算公式如下:glu(X)=(W1X+b1)茚滓(W2X+b2),其中,W1、b1和 W2、b2为两个结构一致的线性层的可训练参数,茚为元素级乘法,即两个矩阵的对应元素相乘.

22、Hua 等12在FLASH(Fast Linear Attention witha Single Head)中提出 GAU 的结构,并结合 GLU、Attention 及 FFN(Feed Forward Network).其中Dense 层包含线性层和激活函数,激活函数使用SiLU 函数.SiLU 函数的计算公式如下:SiLU(x)=x*滓(x),其中,滓()为 sigmoid 激活函数,*为矩阵间元素级的乘法,并支持广播机制.与原生 GLU 不同,GAU 参考的 GLU 结构使用295模式识别与人工智能(PR&AI)摇摇摇第 36 卷两个 Dense 层,即两个通道都使用 S

23、iLU 函数进行激活.GAU 在 GLU 的基础之上加入注意力机制,计算过程如下:U=SiLU(WUX+bU),V=SiLU(WVX+bV),Z=SiLU(WzX+bz),A=1nrelu2Q(Z)K(Z)Ts,gau(U,V)=(U已AV)Wgau.其中:U、V、Z为输入X通过Dense层后得到的输出,A为注意力计算公式;n为文本长度,s为注意力头的个数,已为哈达玛积;Q()和 K()对应两个仿射变换;Wgau为最后输出时 Dense 层的可训练权重.需要注意地是,Hua 等12在基础 GAU 的注意力计算过程中会计算 RoPE(Rotary Position Embed鄄ding)19,

24、由于 RoPE 的计算过程较耗时,并且对抽取结果的影响不大,因此本文使用的 GAU 中不包含RoPE 的计算过程.将1.2节中得到的文本编码H0输入GAU中,进行二次编码,得到共享编码 H,即U0=SiLU(WUH0+bU),V0=SiLU(WVH0+bV),H=gau(U0,V0).1.4摇链式解码模块链式解码模块分为五个阶段的抽取任务,前四个阶段用于抽取主、客体的首部和尾部,最后一个阶段为关系抽取,阶段之间采用 CLN 进行特征融合.1.4.1摇条件层规范化为了减少误差累积的影响,ChainRel 在链式解码结构中使用 CLN 强化阶段间的特征融合.CLN 计算公式如下:cln(y,e)=

25、y-EyVary+着*W酌e+W茁e,其中,y 为输入序列,E 为求输入的均值,Var 为求输入的方差,着为保持分母不为0的一个极小常量,W酌为可训练的缩放矩阵,W茁为可训练的平移矩阵,e 为限制条件,*为矩阵间元素级的乘法,并支持广播机制.CLN 的整体流程就是将限制条件 e 分别通过缩放矩阵和平移矩阵映射成缩放变量和平移变量并加入 y 的层规范化过程中.由于融合时,主变量和额外变量的位置一旦交换,会产生不同的输出,因此CLN在能够融合特征的同时,也能够有效体现各输入向量间的方向性特征.1.4.2摇实体抽取部分指针网络在未进行拆分前,会在两个标注层中分别标注实体的首部和尾部,然后按照一定的

26、规则进行首部和尾部的对齐.例如:CASREL 使用就近原则,每个首部片段与其距离最近的尾部片段构成一个实体 Span.实体抽取部分使用拆分后的指针网络,即先抽取实体首部,再利用首部的信息抽取尾部.实体抽取部分包括两个拆分后的指针网络,分别对应主体首部抽取、主体尾部抽取、客体首部抽取和客体尾部抽取四个阶段.抽取主体时的计算过程如下:piSH=滓(WSHHi+bSH),FSH=extract(H,SH),H*SH=cln(H,FSH),piST=滓(WSTHi*SH+bST).在获得主体首部的概率序列 piSH后,给定一个阈值兹1,进行二值化操作,将piSH中大于兹1的片段置为 1,否则置为 0,

27、即可得到的主体首部索引候选集SH.H*SH为 H 与主体首部特征的融合特征.H*SH输入标注层后,得到主体尾部的概率序列 piST.对 piST进行相同的二值化操作后,可抽取得到主体尾部索引候选集 ST,整理后,得到主体 Span 对应两个索引集idxSH和 idxST.抽取客体时的操作与抽取主体相同,只需把最初的输入换成 H*S.H*S为 H 与主体特征融合后的特征,具体计算过程如下:FSH=extract(H,idxSH),FST=extract(H,idxST),FS=avg(FSH,FST),H*S=cln(H,FS),其中 avg()为求输入的平均值.由于抽取客体时使用主体的信息进行

28、过滤,因此主体和客体完成自动对齐.1.4.3摇关系抽取部分链式解码的最后一个阶段会对前四个阶段抽取得到的实体对进行关系预测.ChainRel 使用主体和客体的融合向量进行实体间关系的预测,融合过程采用CLN和GLU组合的特征融合结构,CLN用于特征融合及体现实体对间的方向性特征(主客体逆序可能会对应另一个关系,因此必须保留方向性特征),GLU 用于强化特征输出.TPLinker 的握手标注机制进行三次对齐:实体首部对齐实体尾部(EH to ET),主体首部对齐客体首部(SH to OH),主体尾部对齐客体尾部(ST to395第 7 期摇摇摇摇夏鸿斌摇等:基于过滤机制的链式实体关系抽

29、取模型OT).ChainRel 根据这种对齐思想将主体和客体特征拆分成(主体首部,客体首部)和(主体尾部,客体尾部)两个组合,进行特征融合后得到两个融合特征,然后输入同一个分类器进行关系抽取,最终得到两组关系集.本文将这种操作称为首尾分离操作.首尾分离阶段首先从 H 中截取实体对对应的 4个特征向量 VSH、VST、VOH、VOT,将 VOH和 VOT作为额外条件,通过同一个 CLN 分别融入 VSH和 VST中.具体计算公式如下:SH*OH=cln(VSH,VOH),ST*OT=cln(VST,VOT).然后将SH*OH和ST*OT输入一个带残差结构的GLU 中,进一步处理融合后的特征:PH

30、=glu(SH*OH)+SH*OH,PT=glu(ST*OT)+ST*OT.最后使用 PH和 PT对所有关系进行二分类预测:rphj=滓(WrpPH+brp),rptj=滓(WrpPT+brp),其中,rphj和 rptj为实体对间包含关系 j 的概率,Wrp和 brp为可训练的权重和偏置.在得到实体的关系预测概率序列后,给定一个阈值兹2,对序列进行二值化处理,可抽取得到两个候选关系集 RelH和 RelT,分别对应实体对的首部融合特征和尾部融合特征.1.5摇关系修正模块关系修正模块使用BERT输出中的CLS向量对文本中所有潜在关系进行一次预测,则文本包含关系 j 的概率如下所示:globa

31、l_rpj=滓(WgCLS+bg).根据阈值兹2可以抽取文本中所有可能包含的关系集合 RelG.在输出三元组之前,采用取 RelH、RelT及RelG交集的方式确定实体对之间的关系.关系修正本质上是一个简单二分类任务,在数据量不足或关系种类表庞大时,可能由于拟合效果较差导致 RelG中的关系可靠性下降,进而对模型性能产生负面影响.1.6摇损失计算ChainRel 的总体损失由预测主体、客体和关系时的二分类标注层产生的损失构成,如果使用关系修正模块,需要加上该部分的损失.二分类标注层的损失使用二元交叉熵计算:bce(p,q)=-q ln p+(1-q)ln(1-p),其中,p 为预测值,q 为

32、真实值.预测实体时的四个二分类层的损失计算流程一致,以实体首部的损失计算 lossSH为例.关系预测的两个部分的损失计算过程一致,以关系预测中实体首部融合特征部分的损失计算 lossRP-H为例.lossGRP为关系修正模块的损失.lossSH、lossRP-H和 lossGRP的计算公式如下:lossSH=-1n移ni=1bce(piSH,qiSH),lossRP-H=-1N移Nj=1bce(rphj,rqj),lossGRP=-1N移Nj=1bce(global_rpj,global_rqj),其中,n 为经过分词后的文本序列长度,N 为关系种类总数,rqj为关系预测时的真实标签值,glo

33、bal_rqj为全局关系的真实标签值.模型的整体损失即为各部分损失的总和.2摇实验及结果分析2.1摇实验数据集和评价指标本文使用 NYT20、WebNLG21这两个通用数据集对 ChainRel 进行性能综合评估.NYT 数据集上样本量较大,关系种类数较少.WebNLG 数据集上实体类型多样,样本量较小,但关系种类数约为 NYT 数据集的 7 倍.NYT、WebNLG 数据集上都包含有关系重叠情况的文本.2 个数据集具体构成如表 1 表 3所示,表 3 中 N 为单个文本包含三元组的个数.表 1摇实验数据集统计信息Table 1摇 Statistical information of ex

34、perimental datasets数据集训练集数目验证集数目测试集数目关系数NYT561954999500024WebNLG5019500703171表 2摇按照关系重叠问题划分测试集Table 2摇 Test sets divided by relation overlap名称NormalSEOEPONYT32661297978WebNLG24645726表 3摇按照 N 划分测试集Table 3摇 Test sets divided by N数据集N=1N=2N=3N=4N逸5NYT32441045312291108WebNLG2661711319045495模式识别与人工

35、智能(PR&AI)摇摇摇第 36 卷摇摇在评价指标上,实验采用实体关系抽取任务中常用的精确率(Precision,P)、召回率(Recall,R)和F1 值(F1鄄Score)作为性能的衡量标准.2.2摇实验环境和参数设置本文实验环境中使用的 CPU 为 Intel(R)Core(TM)i9鄄10900K,GPU 为 GeForce RTX 1080 Ti,内存为 DDR4 16 GB.ChainRel 使用 bert鄄base鄄uncased 预训练模型进行编码.学习率为 0.000 01,输入文本最大长度(max_text_len)为 100,批量(batch_size)

36、大小为 8,在 NYT、WebNLG 数据集上的迭代次数分别为 150次和 300 次,在链式抽取模块中出现的实体抽取阈值兹1设为 0.6,关系阈值兹2设为 0.6.2.3摇对比模型本文选择如下对比模型.1)GraphRel22.利用 GCN 构建的两阶段实体关系抽取模型.2)文献23模型.在 End2end Model Based onSequence鄄to鄄Sequence Learning with Copy Mechanism中加入强化学习机制.3)ETL鄄span24.利用指针网络的抽取式模型,将实体关系抽取分为 HE(Head鄄Entity)和 TER(Tail鄄Entity

37、 and Relation)两部分,利用指针网络替代传统的 BIES 方案进行实体标注.4)CASREL9.在第二阶段使用级联的指针网络联合解码客体和关系信息.5)TPLinker13.利用握手标注机制一次解码关系三元组,避免曝光偏差、误差累积等问题的产生.6)SPN(Set Prediction Networks)25.使用非自回归并行解码方式的生成式模型,能够一次性输出三元组集合.7)PRGC14.两阶段抽取式模型,先预测关系,再在对应关系下预测实体对的解码策略,避免堆叠标注层方式中的一些问题,同时使用 GCM 进行实体间的对齐.8)EmRel(Embedded Representatio

38、ns of Rela鄄tions)26.将关系作为嵌入信息,通过三个注意力模块对实体、关系和上下文信息进行建模,最后通过对齐函数判断有效三元组.9)OneRel27.在 TPLinker 的基础上,重新设计填表策略,优化整个三元组的抽取过程.2.4摇整体性能对比本文将 ChainRel 与基线模型在 NYT、WebNLG数据集上进行整体抽取性能对比,具体结果如表 4所示,表中 ChainRel+为在 ChainRel 中添加关系修正模块,黑体数字表示最优值.由表 4 可见,由于稀疏标注矩阵的影响,TP鄄Linker 虽然在 NYT 数据集上的 F1 值会比 CASREL提高 2.3%,但在关

39、系种类数较大的 WebNLG 数据集上,F1 值只提升 0.1%.PRGC 在改变抽取的策略之后,相比 TPLinker,在两个数据集上的整体 F1 值也具有明显提升,由此表明实体和关系分开抽取也能获得较优效果.在 NYT 数据集上,ChainRel+除了在召回率上不及 OneRel 以外,在精确率和 F1 值上取得最高值,相比 SPN、PRGC 和 OneRel,精确率分别提升 0.5%、0.4%、1.0%,F1 值分别提升 0.5%、0.3%、0.1%.在 WebNLG 数据集上,ChainRel+取得最高的精确率.相比 SPN 和 PRGC,ChainRel 虽然在整体性能上具有明显提升

40、,但与 OneRel 仍有一定的差距.从两个数据集上的结果也可以发现,在加入关系修正模块以后,ChainRel+在精确率上都会有相应提升,而召回率则对应下降,在 WebNLG 数据集上的召回率下降 0.8%,推测为关系修正模块未得到充分拟合,因为 WebNLG 数据集上样本量较小而关系种类数较多.表 4摇各模型在 2 个数据集上整体性能对比Table 4摇 Overall performance comparison of different models on2 datasets%模型NYTPRF1WebNLGPRF1GraphRel63.960.061.944.741.142.9文献23

41、模型77.967.272.163.359.961.6ETL鄄span84.972.378.184.091.587.6CASREL89.789.589.693.490.191.8TPLinker91.392.591.991.892.091.9SPN93.391.792.593.193.693.4PRGC93.391.992.694.092.193.0EmRel91.792.592.192.793.092.9OneRel92.892.992.894.194.494.3ChainRel93.392.092.794.093.893.9ChainRel+93.891.992.994.393.093.6综

42、合表 4 中的各项数据来看,ChainRel 和ChainRel+在两个数据集上的综合性能优于 SPN、PRGC 等模型.对比当前较先进的单阶段解码模型OneRel,ChainRel 和 ChainRel+虽然在 WebNLG 数据集上效果稍弱,但在 NYT 数据集上取得的结果与其相当,且抽取时的精确率更高.表 4 中实验结果表明多阶段链式解码结构的可行性,也暴露出关系修正模块的局限性,并不适用于 WebNLG 数据集.595第 7 期摇摇摇摇夏鸿斌摇等:基于过滤机制的链式实体关系抽取模型2.5摇细节对比各对比模型在处理不同复杂程度文本时的性能如表 5 所示,表中黑

43、体数字表示最优值.由表可见,在 NYT 数据集上,GraphRel、文献23 模型、ETL鄄span、CASREL、TPLinker、SPN 在 N逸5 时 F1 值都较低,ChainRel、ChainRel+、PRGC、OneRel 则改善这种情况,同时 ChainRel+在处理 N=1 或 N=2 的简单文本时,都取得最高的 F1 值.在 WebNLG 数据集上,相比对比模型,ChainRel 在 N=2 时的 F1 值具有明显提升,分别比 SPN、PRGC、OneRel 提高 2.4%、2.1%、0.7%,同时其在处理 N2 的文本时性能优于 PRGC.表 5摇 N 不同时各模型的 F1

44、值对比Table 5摇 F1 value comparison of different models with different N模型NYTN=1N=2N=3N=4N逸5WebNLGN=1N=2N=3N=4N逸5GraphRel71.0%61.5%57.4%55.1%41.1%66.0%48.3%37.0%32.1%32.1%文献23模型71.7%72.6%72.5%77.9%45.9%63.4%62.2%64.4%57.2%55.7%ETL鄄span88.5%82.1%74.7%75.6%76.9%82.1%86.5%91.4%89.5%91.1%CASREL88.2%90.3%91

45、.9%94.2%83.7%89.3%90.8%94.2%92.4%90.9%TPLinker90.0%92.8%93.1%96.1%90.0%88.0%90.1%94.6%93.3%91.6%SPN90.9%93.4%94.2%95.5%90.6%89.5%91.3%96.4%94.7%93.8%PRGC91.1%93.0%93.7%95.5%93.0%89.9%91.6%95.0%94.8%92.8%OneRel90.5%93.4%93.9%96.5%94.2%91.4%93.0%95.9%95.7%94.5%ChainRel91.1%92.9%93.5%96.3%92.4%90.2%93.

46、7%96.1%95.2%93.3%ChainRel+91.3%93.5%93.7%96.1%92.5%89.9%93.3%95.6%95.1%92.8%摇摇各模型在处理不同关系重叠问题时的性能对比如表 6 所示,表中黑体数字表示最优值.表 6摇关系重叠问题不同时各模型的 F1 值对比Table 6摇 F1 value comparison of different models with differentrelation overlaps%模型NYTNormal SEOEPOWebNLGNormal SEOEPOGraphRel69.651.258.265.838.340.6文献23模

47、型71.269.472.865.460.167.4ETL鄄span88.587.660.387.391.580.5CASREL87.391.492.089.492.294.7TPLinker90.193.494.087.992.595.3SPN90.894.094.1-PRGC91.094.094.590.493.695.9OneRel90.695.194.891.994.795.4ChainRel91.094.294.490.494.694.8ChainRel+91.394.394.690.194.394.7由表 6 可见,在 NYT 数据集上,加入关系修正模块的 ChainRel+在处理各

48、种问题时的能力都有正向提升,在 Normal 上取得最高的 F1 值,对比OneRel,F1 值提升 0.7%.在 WebNLG 数据集上,PRGC、TPLinker、CASREL 在应对 EPO 问题时的 F1值都比应对 SEO 问题时提高近 2%到 3%,ChainRel和 OneRel 在这两个问题上的处理性能则较平衡.相比 GraphRel、文献 23 模型、ETL鄄span、CASREL、TPLinker、SPN 和 PRGC,ChainRel 在处理 SEO 问题上具有明显性能提升.综合表 5 和表 6 的数据来看,ChainRel 和ChainRel+在保证

49、处理复杂文本(含三元组数较多)的性能的同时,提升处理简单文本的性能,在WebNLG 数据集上处理 SEO 问题的能力具有一定提升.2.6摇消融实验为了验证链式解码结构以及各模块的有效性,本节从四个方面进行消融实验,分别验证链式解码结构、门控单元、首尾分离操作及关系修正模块的有效性.参与消融实验的模型如下.1)CASREL.利用主体信息预测客体.2)CASREL鄄CLN.将 CASREL 原本使用特征相加的融合方式替换为 CLN.3)S2O2R鄄base.将 CASREL 的客体和关系联合预测进行拆分,建立由主体到客体,再到主体和客体的特征一起预测关系的解码链,解码结构扩展至三阶,并使用 CLN 处理阶段间的特征融合.4)ChainRel鄄base.在 S2O2R鄄base 基础上,进一步拆分指针网络,用实体首部信息解码实体尾部,整体解码阶段扩展至五阶.695模式识别与人工智能(PR&AI)摇摇摇第 36 卷5)ChainRel鄄base鄄v1.在ChainRel鄄base 基础上,在关系抽取层加入 GLU.6)ChainRel鄄base鄄v2.在

展开阅读全文