收藏 分销(赏)

文档级关系抽取中的小波变换特征增强方法.pdf

上传人:自信****多点 文档编号:2500536 上传时间:2024-05-30 格式:PDF 页数:13 大小:1.94MB
下载 相关 举报
文档级关系抽取中的小波变换特征增强方法.pdf_第1页
第1页 / 共13页
文档级关系抽取中的小波变换特征增强方法.pdf_第2页
第2页 / 共13页
文档级关系抽取中的小波变换特征增强方法.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 1 0 9-1 2文档级关系抽取中的小波变换特征增强方法杨 肖,肖 蓉(湖北大学 计算机与信息工程学院,湖北 武汉4 3 0 0 6 2)摘 要:传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,

2、该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在D o c R E D数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。关键词:文档级关系抽取;小波变换;多头注意力机制中图分类号:T P 3 9 1 文献标识码:AF e a t u r eE n h a n c e dD o c u

3、m e n t-L e v e lR e l a t i o nE x t r a c t i o nw i t hW a v e l e tT r a n s f o r mYAN GX i a o,X I AOR o n g(S c h o o l o fC o m p u t e rS c i e n c ea n dI n f o r m a t i o nE n g i n e e r i n g,H u b e iU n i v e r s i t y,Wu h a n,H u b e i 4 3 0 0 6 2,C h i n a)A b s t r a c t:T r a d

4、i t i o n a lm e t h o d so fd o c u m e n t-l e v e l r e l a t i o ne x t r a c t i o nh a v el i m i t a t i o n si nt h ee f f e c t i v e n e s so f f e a t u r er e p r e s e n t a t i o na n dn o i s ee l i m i n a t i o n.T oa d d r e s s t h i s i s s u e,t h i sp a p e rp r o p o s e s am

5、e t h o d t h a t u t i l i z e sw a v e l e t t r a n s-f o r mt oe x t r a c t,c l e a n,a n dd e n o i s e t e x tv e c t o r sg e n e r a t e db yp r e-t r a i n e d l a n g u a g em o d e l s.F i r s t l y,t h ed o c u m e n t i se n c o d e db yap r e-t r a i n e d l a n g u a g em o d e l,a n

6、 d t h e o b t a i n e d i n i t i a l t e x t v e c t o r s a r e a p p l i e d t ow a v e l e t t r a n s f o r mt oo b-t a i nm o r ep r e c i s e f e a t u r e s.N e x t,am u l t i-h e a da t t e n t i o nm e c h a n i s mi s i n t r o d u c e dt ow e i g h t t h ed a t af r o m w a v e l e tt r

7、 a n s f o r m,h i g h l i g h t i n gt h ei m p o r t a n tf e a t u r e sr e l e v a n tt oe n t i t yr e l a t i o n s h i p s.T of u l l yu t i l i z eb o t ho r i g i n a la n dc l e a n e dd a t a,ar e s i d u a l c o n n e c t i o n i se m p l o y e dt of u s et h e mt o g e t h e r.E x p e r

8、 i m e n to nt h eD o c R E Dd a t a s e td e m o n-s t r a t e t h a t t h ep r o p o s e dm e t h o dp e r f o r m sb e t t e r i ne x t r a c t i n gr e l a t i o n s h i p sb e t w e e ne n t i t yp a i r s.K e y w o r d s:d o c u m e n t-l e v e l r e l a t i o n s h i pe x t r a c t i o n;w a

9、v e l e t t r a n s f o r m;m u l t i-h e a da t t e n t i o nm e c h a n i s m收稿日期:2 0 2 3-0 8-0 9 定稿日期:2 0 2 3-1 1-0 1基金项目:湖北省自然科学基金(E 1 K F 2 9 1 0 0 5);云南省自然科学基金(2 0 2 2 K Z 0 0 1 2 5)0 引言关系抽取(R e l a t i o nE x t r a c t i o n)1是自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,N L P)领域中的重

10、要任务,其目标是从文本数据中准确识别实体之间的语义关系。现有的研究主要集中在句子级关系抽取,即预测单个句子中的实体对关系2。然而,随着实际应用场景的拓展,关系抽取任务逐渐升级至更复杂和更具全局性的实体关系抽取,导致句子级关系抽取面临着文本复杂性和全局信息获取的挑战。文 档 级 关 系 抽 取(D o c u m e n t-l e v e lR e l a t i o nE x t r a t i o n,D o c R E)任务的目标是从文档中准确识别出实体之间的关系,要求模型能够充分利用全局的上下文信息,包括实体在整个文档中的出现位置、实体之间的相互依赖关系等。因此,D o c R E更具

11、挑战性,也更具应用潜力,可以为信息提取3、知识图谱构建4和智能问答5等多个应用领域提供更丰富、更准确的实体关系信息。在D o c R E中,使用预训练语言模型6-7(P r e t r a i n e dL a n g u a g eM o d e l)生成文本向量是一种常见的方法。预训练语言模型能够通过大规模的无监督学习中 文 信 息 学 报2 0 2 4年丰富的语义信息,为文本向量表示提供强大基础。然而,D o c R E面临着一个重要问题:预训练语言模型编码的文本向量可能包含大量无关信息,影响实体关系推理的准确性和效率。为了解决这一问题,本文提出一种新的文本向量处理方法:对预训练语言模型

12、 编 码 的 文 本 向 量 进 行 小 波 变 换(W a v e l e tT r a n s f o r m),可以清洗和去除文本向量中的无关信息,从而提高实体关系的表示准确性。此外,本文还引入多头注意力机制8和残差连接,进一步加强文本向量的表示能力,有助于提高关系抽取的准确性和鲁棒性。1 相关工作早期的研究主要集中在句子级关系抽取9,其目标是预测单个句子中两个实体之间的关系。然而,很多复杂的关系实际上是由多个句子共同表达的,因此近年来的研究开始转向D o c R E。目前,基于T r a n s f o r m e r模型1 0的D o c R E是最流行且取得最好结果的方法。为了通过

13、实体提及增强实体对表示,V e r g a等1 1提出一种使用T r a n s f o r m e r模型实现D o c R E和多实例学习的方法,通过合并多个实体对提及实现关系抽取。由于提及加强实体对表示之后缺少相应的上下文表示,因此Z h o u等1 2使用预训练语言模型中的注意力提取与实体有关的上下文,并对每个实体对采用自适应阈值解决抽取关系的多标签分类问题。为了用提及之间的依赖关系增强实体对表示,X u等1 3改进传统的T r a n s f o r m e r模型,将提及之间的依赖关系嵌入到注意力机制中,从而在整个编码阶段贯穿提及之间的语义信息。X u等1 4设计了一个评估句子重要

14、性的框架,通过聚焦句子损失获取句子重要性框架,鼓励模型重点关注证据句子。Y u等1 5关注文档中实体不同提及的不同语义,通过将预训练语言模型编码的提及表示与候选关系进行注意力机制加权运算,选择性地关注不同的提及关系,从而获得实体的灵活表示。T a n等1 6提出使用轴向注意力和知识蒸馏的方法来加强 实体表示,以 提高关系抽 取的推理 性能。H u a n g等1 7使用预训练语言模型作为文档输入的编码器,同时提取关系和证据句子,但并未将提取到的证据句子特征补充到实体中,仅使用预训练语言模型中的注意力矩阵关注实体相关的上下文。X i e等1 8在此基础上将抽取的证据句子形成伪文档,并与原文档抽取

15、的结果进行融合,从而提升关系抽取的准确率。M a等1 9针对证据句子检索面临的高内存消耗和有限注释可用性问题,通过采用证据信息作为监督信号引导D o c R E模型的注意力模块对证据赋予较高权重,并采用自我训练策略在海量数据中自动学习证据句子的提取方法。上述思想都是从实体、提及、证据句子、上下文这四个角度进行优化和提升,基础编码器均为预训练语言模型。M a h a j a n等2 0首次将基于小波变换的算法应用于短文本分类中的特征选择。基于此,本文直接从预训练语言模型的角度出发,将其编码生成的文本向量作为输入信号,使用小波变换进行数据清洗和去噪,并使用注意力机制重新获取文本向量中实体标记之间的

16、上下文表示,为了保持全局信息的有效性,使用残差连接将两种文本向量融合。其中,小波变换是一种多尺度的信号分析方法2 1,其特点是在相同宽度的频带上进行信号去噪2 2。在小波变换的过程中,信号经过逐层分解,每层分解将信号分成两个子信号,分别代表不同频率分量。这样的分解过程使得小波变换能够提供更全面和细致的信号特征,从而使信号的表达更加丰富和准确。首先,信号去噪是小波变换的主要应用之一2 2,能够有效地清洗和去噪输入信号,通过去除无关信息和冗余,提高输入信号的质量和准确性。这对于提取干净的信号非常重要,尤其在复杂环境下的实际应用中,信号通常伴随着噪声和干扰。小波变换能够对信号进行逐层分解和重构,从而

17、去除噪声,使得提取的信号特征更加可靠和准确。其次,小波变换提供了非常好的特征提取能力2 3,能够捕捉信号的细微特征和频率信息。通过在不同尺度上对信号进行分解,小波变换能够获取不同频率分量的信息,从而更准确地描述实体之间的关系和语义信息。此外,引入多头注意力机制和残差连接进一步增强了输入信号的表示能力,提高了关系抽取的准确性和鲁棒性。综上所述,通过将预训练语言模型编码的文本向量应用小波变换,可以有效去除无关信息,增强文本的表示能力,从而提高D o c R E的准确性和鲁棒性。2 模型架构本文采用的方法与传统的关系抽取的管道模型不同,它采用联合抽取模型实现对D o c R E任务的一体化处理。在此

18、过程中,除了关系抽取外,还同时提取文档中的证据句子。接着,利用这些抽取的证据句子构建一个证据文档。随后对证据文档进行关系抽取,得到另一组关系预测结果。将两组关系抽取结果0112期杨肖等:文档级关系抽取中的小波变换特征增强方法进行融合,得到最终的关系预测结果。这种联合抽取模型的设计,能够更好地处理D o c R E任务,充分利用了文档中的证据信息,提高了关系抽取的准确性和鲁棒性。基于小波变换的D o c R E模型如图1所示。图1 D o c R E模型的整体结构2.1 问题定义给定一个包含L个句子SnLn=1和N个实体eiNi=1的文档D。D o c R E的目标是预测给定实体对(ep,ec)

19、的所有关系类型,其中,ep和ec分别表示主实体和客实体。文档中所有关系的集合被定义为RN A,其中,R表示已经存在的关系,N A表示不存在关系的标记。实体集合eiNi=1中的每一个实体至少会出现一次,因此每个实体有多个实体提及mijN ej=1,实体提及是实体的另一种表现形式,实体对之间的关系都是通过实体提及表示的。关系r如果存在于实体对(ep,ec)之间,对于该实体对而言就属于有效关系PTr,反之属于无效关系NTr,不存在关系的实体对就会被标记为N A,本文将具有关系的实体对(ep,ec)所在的句子称为证据句子E v ip,c=SeKe=1,数据集D o c R E D2 4存在证据注释句子

20、,但是人工注释的证据句子不能被用来推理实体对的关系。2.2 增强预训练语言模型编码在本 节 中,将 基 于 现 有 的 预 训 练 语 言 模 型B E R T和R o B E R T a作为本文模型的编码器并结合小波 变 换 做 数 据 清 洗 和 特 征 提 取,进 一 步 增 强D o c R E的性能。在训练中,本文使用联合抽取模式预测实体对关系和证据句子,两个部分共享编码器2 5的所有参数,可以增强关系抽取的准确性,但是分别使用不 同的分类器 实现关系抽 取和 证据抽取。给定文档d=xtmt=1,m表示所有标记个数,t表示每个标记所在位置,本文通过在实体提及的开始位置和结束位置 插入

21、“*”表示实体提及的位置,其改编自实体标记技术2 6,将文档输入到预训练语 言模型中可 以获得标记 的嵌 入表示,如式(1)所示。H,A=P R LM_Em b e d d i n g(x1,x2,xl)(1)其中,H=h1,h2,hN 是文档中的标记的矩阵表示,A表示T r a n s f o r m e r最后一层注意力平均值。小波变换能够将文本数据转换到小波域,从中提取频域特征和时域特征,有助于捕捉实体对之间的关系。本文采用一级小波变换,将H作为原始的输入信号,并使用具有双正交性的小波基b i o r 3.5对111中 文 信 息 学 报2 0 2 4年其进行卷积运算,得到近似系数和细节

22、系数。经过小波变换可以在不同频率和时间尺度上对输入信号进行分解,从而获得更全面和详细的信号特征,小波变换特征提取模型如图2所示。图2 小波变换特征提取模型其中,H(n)为原始输入信号,其中n表示数据的索引。然后,定义低通滤波器系数为h1(n),高通滤波器系数为g1(n)。利用这些滤波器系数,计算一级小 波 变 换 的 近 似 系 数A1(n)和 细 节 系 数D1(n)。近似 系 数A1(n)可 以 通 过 将 输 入 信 号H(n)与低通滤波器系数h1(n)进行卷积运算得到。近似系数反映了较低频的特征成分,代表输入数据在时间尺度上的平滑部分,在实体关系分析中能够有效地提取输入数据的整体趋势和

23、共性特征。细节系数D1(n)可以通过将输入信号H(n)与高通滤波器系数g1(n)进行卷积运算得到。细节系数反映了较高频的细节成分,代表输入数据在时间尺度上的快速变化部分。本文选择保留小波变换中的低频系数舍弃细节系数的原因如下:首先,这样的处理方式能够在处理文本向量时去除噪声和冗余信息,从而提高文本向量的质量和准确性。其次,通过保留文本数据的整体趋势,可以更好地捕捉文本数据中的局部特征和全局特征,从而更好地描述实体之间的关系和语义信息。另外,这种保留低频系数的处理方式有助于降低计算复杂度和存储开销,因为细节系数通常包含更多的细节信息,可能会导致向量维度增加。通过舍弃细节系数,能够在保证关系抽取准

24、确性的同时减少计算资源的使用,从而提高模型的效率和速度。具体运算如式(2)、式(3)所示。A1n=(H*h)n(2)(H*h)n=kHk hn-k(3)其中,h代表与b i o r 3.5相关的低通滤波器系数矩阵,用于计算近似系数A1n,“*”表示进行卷积运算。经过小波变换处理之后的原始信号会失去原本的上下文信息,为了应对这一挑战,本文引入了多头注意力机制,这种机制允许模型同时关注文本向量中不同位置的信息,从而捕捉全局的语义关联和上下文信息。多头注意力机制在文本向量处理中具有多个优点。首先,它能够增强文本向量的表示能力,使模型可以更全面地理解实体之间的复杂关系和语义信息。其次,多头注意力机制提

25、供了多样化和丰富的特征表示,从而提高了关系抽取的准确性和鲁棒性。此外,多头注意力机制还能抑制噪声和冗余信息,增强模型的抗干扰能力。最重要的是,多头注意力机制能够有效建模长程依赖关系,增强对实体关系的全局理解能力。通过使用多头注意力机制,可以在经过小波变换后的文本向量中恢复相应的上下文信息,并充分利用全局的语义关联和上下文信息,从而提高D o c R E任务的准确性和鲁棒性。多头注意力模型如图3所示。图3 多头注意力模型首先对小波变换的结果A1(n)应用多头自注意力机制,其中使用不同的线性映射矩阵Q、K、V。通过 汇 集 所 有 注 意 力 头 的 输 出,获 得 中 间 结 果W a v eH

26、(n)。接下来,将W a v eH(n)与原始输入数据H(n)进行残差连接。这种设计的目的是充分融合原始数据和经过多头自注意力机制处理的小波变换数据,以提高模型对关系抽取任务的建模和表征能力。整体运算如式(4)式(7)所示。A t t e n t i o n(Q,K,V)=S o f t m a xQ KTdkV(4)H e a d i=A t t e n t i o n(A1(n)(5)W a v eH(n)=Whc a t(H e a d1,H e a d2,H e a d8)+bh(6)H(n)=H(n)+W a v eH(n)(7)其中,i的取值为注意力的头数,如式(6)所示。c a

27、t表示对不同的注意力的结果进行拼接,Wh表示权2112期杨肖等:文档级关系抽取中的小波变换特征增强方法重矩阵,bh表示偏置项。2.3 实体抽取与关系分类将实体提及应用L o g S u m E x pP o o l i n g技术2 7,可以获取全面的实体嵌入表示ei=l o gNej=1e x p(mij),这种表示能够捕捉实体的语义信息。为了预测不同实体对之间的关系,需要关注特定实体对的上下文,如式(8)所示。c(p,c)=HTApAcATpAc(8)其中,Ap,Ac分别是文档中实体ep,ec的注意力表示,“”是H a d a m a r d乘积。为了预测实体对(ep,ec)之间的关系,本

28、文采用一种基于上下文的表示方法。首先,将实体嵌入(ep,ec)与它们所处上下文的特征c(p,c)进行结合,以获取上下文信息的实体表示。随后,利用双线性函数计算实体嵌入ep和ec之间存在关系rR的概率值l o g i t,帮助量化实体对之间关系的强度,如式(9)式(1 1)所示。zp=t a n h(Wpc a tep,c(p,c)+br1)(9)zc=t a n h(Wcc a tec,c(p,c)+br2)(1 0)yr=zpWtzc+br3(1 1)其中,Wp、Wc、Wt是权重矩阵,br1、br2、br3是偏置项,分别用于将实体嵌入和上下文嵌入进行线性变换。t a n h函数用于引入非线性

29、特性,从而捕捉更复杂的关系表达式。本文引入了自适应阈值损失1 2方法解决D o c R E中的多标签问题。该方法学习了一个虚拟关系类TH,其目的是为每个实体对动态地确定一个适应性阈值。通过学习这个阈值,可以根据实体对的特定置信度来进行关系预测的判断,如式(1 2)所示。yTH=zpWtzc+bt h(1 2)根据给出的自适应阈值yTH和实体对之间存在关系的概率值yr可以获得实体三元组(ep,ec,r)在推理过程中的预测分数:S(O)p,c,r=yr-yTH。为了获取每个实体对的自适应阈值,将设计如下的损失函数,如式(1 3)所示。LR E=-pcrPTrl o ge x p(yr)r PTrT

30、He x p(yr)-l o ge x p(yTH)r NTrTHe x p(yr)(1 3)2.4 证据分类证据分类的目的是从文本中提取与实体对关系相关的证据句子。因此,小波变换清洗后的数据对证据句子提取具有重要的有效性。为了获取句子嵌入表示Sn,本文采用L o g S u m E x pP o o l i n g技术2 7对句子中的所有标记进行处理:Sn=l o gLl=1e x p(tl)。如何判断一个句子是证据句子,主要在于形成句子的标签对实体对关系预测的重要程度,因此对于实体对的上下文表示c(p,c)的贡献应更加显著。为了衡量句子Sn对实体对(ep,ec)的重要性,本文使用一个双线性

31、函数,该函数将上下文表示c(p,c)和句子嵌入Sn作为输入,通过选择最大值,可以筛选出具有最高预测得分的句子,判别给定句子对实体对(ep,ec)的重要性。通过这种方式,可以更好地判断句子是否提供对实体对关系的有力证据,如式(1 4)所示。P(Sn|ep,ec)=m a x(SnWsc(p,c)+bv)(1 4)其中,Ws是权重,bv是偏置项,P(Sn|ep,ec)表示当前句子是证据句子的概率。由于每个实体是由多个提及得到的,所以一个实体对会涉及到多个证据句子,因此本文使用二元交叉熵作为损失函数来训练证据提取部分。LE V I=-pc,NAPTrsnDynP(Sn|ep,ec)+(1-yn)l

32、o g(1-P(Sn|ep,ec)(1 5)通过这个损失函数,可以获取最小化损失值,以便模型能够准确地辨别与给定实体对(ep,ec)相关的证据句子。该损失采用了一个二元分类任务的形式,其中每个句子Sn都被分配一个证据标签yn。当一个句子Sn被标注为证据句子时,其对应的证据标签yn的值为1,本文希望模型的条件概率P(Sn|ep,ec)趋近于1。反之,当一个句子Sn不是证据句子时,其对应的证据标签yn的值为0,本文希望模型的条件概率P(Sn|ep,ec)趋近于0。这些证据标签是通过人工注释和启发式规则2 8构建的,用于指示哪些句子是与实体对关系相关的证据句子。通过最小化损失函数,模型被训练来增加正

33、确证据句子的概率,并降低错误证据句子的概率。最终目标是训练一个能够自动提取出关键证据句子的模型,以支持更有效的实体关系抽取任务。由于本文是实体关系提取证据句子提取的联合模型,所以最后的总损失如式(1 6)所示。L=LR E+LE V I(1 6)311中 文 信 息 学 报2 0 2 4年2.5 融合证据推理为了提高D o c R E任务的准确性,需要将提取的证据句子有效地融入到关系推理过程中。尽管本文已经提取与关系相关的证据句子,但仅依赖这些句子可能会导致信息的不完整和性能下降。为了解决这个问题,本文采取一种综合的方法,将原始文档和提取的证据结合起来。首先,将原始文档作为背景知识,并利用启发

34、式规则或人工注释标签来标注证据句子的标签。然后,使用一个证据分类器来预测证据句子的概率值。通过最小化损失函数训练模型,使得正确的证据句子具有更高的概率,错误的证据 句 子 具 有 更 低 的 概 率。接下来,将获取的所有证据句子按照序号进行排序,组成一个证据文档,就可以从原文档中获取一组实体对关系预测分数SOp,c,r,从证据文档中获取一组关系证据句子的实体对关系预测分数SEp,c,r。最后,通过一个混合层2 9聚合两组预测值来融合结果,得到最后预测结果。这样,通过综合考虑原始文档和证据文档的信息,提高模型在关系推理任务中的准确性和性能,如式(1 7)所示。PF u s e(r|ep,ec)=

35、(SEp,c,r+SOp,c,r-T)(1 7)选择这种设计方案的合理性主要基于以下几个方面考虑。首先,该设计具有简洁性,只引入一个可学习参数T,能够有效降低模型的复杂度,简化模型的结构。在模型的开发阶段,能够更好地控制过拟合的风险,提高模型的泛化能力。其次,通过在开发集上对参数T进行优化,能够进一步优化模型的性能,可以调整模型的学习能力和适应性,使其更好地拟合开发集的数据分布。通过选择这种简洁而有效的设计方案,并在开发集上对参数T进行如下优化,如式(1 8)所示。LF u s e=-dDpcrRyrPF u s e(r|ep,ec)+(1-yr)l o g(1-PF u s e(r|ep,e

36、c)(1 8)通过最小化损失函数LF u s e,可以优化超参数T的取值,使得模型能够更准确地估计关系概率PF u s e(r|ep,ec),从而提高模型在关系推理任务中的性能。3 实验3.1 数据集 本文对公共D o c R E数据集D o c R E D2 4进行评估。以下 是 对 数 据 统 计 的 详 细 信 息 进 行 总 结:D o c R E D是一个经过大规模人工标注的数据集,该数据集的文档来源于维基百科,总共包含50 5 3篇文档。每篇文档平均含有2 6个实体,约7%的实体对存在多个关系标签。本文将详细的数据统计信息列于表1中。表1 数据集详细信息数据集配置值训练集文档30

37、5 3验证集文档10 0 0测试集文档10 0 0不同关系类型9 6实体总数1 3 23 7 5关系总数5 63 5 43.2 实验参数设置与评价指标本研究采用P y T o r c h框架实现所提出的方法,选择B E R T-b a s e6和R o B E R T a-l a r g e7作为编码器,其中B E R T使用T e s l a V 1 0 0进行实现,而R o B E R T a使用T e s l aA 1 0 0进行实现。为了优化模型性能,选用A d-a mW3 0作为优化器,并在前6%的步骤中进行线性预热3 1,然后线性衰减到0,其他参数学习为1 e-4。值得注意的是,本

38、研究的实验在武汉大学超算资源分区平台上进行,表2显示了具体的训练参数设置。本文在验证集和测试集上选用F1得分和忽略标注的关系类型I g n_F1得分作为评价指标。3.3 实验结果分析3.3.1 基线模型实验对比分析 为验证本文模型的有效性,本文与近三年内基于T r a n s f o r m e r的D o c R E模型进行对比。表2 训练参数设置编码器参数值B E R T-b a s eT r a i n B a t c h S i z e4T e s t B a t c h S i z e8学习率3 e-5e p o c h4 0R o B E R T a-l a r g eT r a

39、i n B a t c h S i z e4T e s t B a t c h S i z e8学习率1 e-5e p o c h6 04112期杨肖等:文档级关系抽取中的小波变换特征增强方法 A T L O P1 2:该模型使用一种新的自适应阈值处理实体对的多标签分类问题,并且使用上下文信息增强实体对表示。S S A N:X u等1 3提出一种基于实体提及依赖建模表示的方法,该方法在标准的注意力机制中嵌入实体提及之间独特的依赖性结构,从而得到一种新的实体编码结构注意力网络。K D1 6:通过应用轴向注意力来学习实体对之间的相互依赖关系,从而增强实体对的表示能力。随后,采用自适应焦点损失算法解

40、决D o c R E类别的平衡问题。最后,利用知识蒸馏的方法来克服人工标注数据和远程监督数据之间的差异。E i d e r1 8:首先通过训练标记证据句子,然后将证据句子形成伪文档表示,和原文档一起抽取实体对关系,将得到的关系在推理阶段进行融合并获取最终的实体对关系预测值。D R E E A M1 9:该模型采用证据句子作为监督信号,从而引导D o c R E模型使用注意力机制对证据句子赋予较高权重,在自我训练的策略下从海量的数据集中自动学习提取证据句子,获取实体对的关系。本文提出的模型采用4.2节的参数设置和评价指标,对比模型均采用原文实验结果,其中,带“*”号的对比模型是在本文环境下得到的

41、实验结果,对比实验结果如表3、表4所示。表3 基于B E R T-b a s e编码的对比模型实验结果(单位:%)模型D e vT e s tF1I g n_F1F1I g n_F1A T L O P6 1.0 95 9.2 26 1.3 05 9.3 1S S AN5 8.9 55 6.6 85 8.4 15 6.0 6K D6 2.0 36 0.0 86 2.0 86 0.0 4E i d e r*6 2.2 36 0.2 46 2.1 96 0.0 7D R E E AM6 2.5 56 0.5 16 2.4 96 0.0 3O u r s6 3.0 56 1.1 16 2.7 26 0

42、.4 7表4 基于R o B E R T a-l a r g e编码的对比模型实验结果(单位:%)模型D e vT e s tF1I g n_F1F1I g n_F1A T L O P6 3.1 86 1.3 26 3.4 06 1.3 9S S AN6 2.0 86 0.2 56 1.4 25 9.4 7K D6 4.1 96 2.1 66 4.2 86 2.5 7E i d e r*6 3.9 16 1.8 96 4.0 26 1.8 5D R E E AM6 4.2 06 2.2 96 4.2 76 2.1 2O u r s6 4.4 26 2.4 46 4.8 56 2.6 5 由表3

43、、表4可知,应用本文方法在D o c R E D数据集上实现了全局整体最优,说明本文方法在处理预训练语言模型编码的文本向量的有效性。本研究基于E i d e r模型实现D o c R E任务,并对验证集和测试集进行多次实验。验证集的F1值和I g n_F1值是基于五次实验结果的平均值,而测试集的F1值和I g n_F1值则是基于C o d a l a b平台上得到的最佳实验结果。值得注意的是,与E i d e r模型相比,本研究提出的模型取得明显的进步。当使用B E R T作为编码器时,验证集的F1值提升了0.8 2%,I g n_F1值提升了0.8 7%;在测试集上,F1值提升了0.5 3%

44、,I g n_F1值提升了0.4%。而当使用R o B E R T a作为编码器时,验证集的F1值提升了0.5 1%,I g n_F1值提升了0.5 5%;在测试集上,F1值提升了0.8 3%,I g n_F1值提升了0.8%。这些结果充分证明了本文方法的有效性。本文分析认为,我们的模型性能较优的主要原因在于:将小波变换应用于预训练语言模型编码后的文本数据进行特征提取和数据增强,并且可以对数据进行清洗,获得511中 文 信 息 学 报2 0 2 4年更准确的文本数据特征。随后,通过注意力机制获取清洗后的数据的上下文特征和全局语义信息,有效地防止清洗后的文本特征之间缺乏相互关联性。为了保留原有文

45、本特征的全局信息,本文进一步采用残差连接对文本特征进行融合,从而提升证据句子提取和实体对关系抽取的准确性。本文的模型对预训练语言模型生成的文本向量进行处理,并生成相应的处理结果,同样也是文本向量。因此,本文的模型可以作为一种特征增强方法,用于处理预训练语言模型生成的文本向量,并在下游的实体对关系抽取任务中应用。S S AN模型将实体结构表述为提及对之间的独特依赖性关系,并且将这些依赖性结构嵌入到标准的自注意力机制中,并且贯穿整个编码阶段,以加强实体的表示,从而影响实体对的关系推理。本文提出的模型使用了B E R T编码时,在整体上分别提升4.1%,4.4 3%,4.3 1%,4.4 1%;而当

46、使用R o B E R T a编码时整体提升2.3 4%,2.1 9%,4.3 1%,5.0 5%。A T L O P是一个D o c R E的基础模型,该模型提出用一个可学习的实体相关阈值代替以往实验中的多标签分类的全局阈值,再利用本地上下文直接将注意力从预先训练好的语言模型转移到有助于确定关系的相关上下文,以解决实体对的多标签问题。本文提出的模型在使用B E R T编码时在整体上分别提升1.9 6%,1.8 9%,1.4 2%,1.1 6%;而当使用R o B E R T a编码时整体提升1.2 4%,1.1 2%,1.4 5%,1.2 6%。K D模型首先利用轴向注意力模块作为编码器处理

47、两跳推理路径内的元素,捕获关系三元组之间的相互依赖关系,随后使用自适应焦点损失解决实体对标签的分布不平衡问题,最后利用知识蒸馏的方法克服带注释数据和远端监督数据之间的差异。本文提出的模型在使用B E R T编码时在整体上分别提升1.0 2%,1.0 3%,0.6 4%,0.4%;而 当 使 用R o B E R T a编码时整体上有小幅度提升。文本向量表示的准确性会影响实体在推理阶段进行关 系 抽 取 的 准 确 性,从 表3、表4可 以 看 出D R E E AM模型在关系抽取方面具有整体优越性。E i d e r在经过本文方法处理之后可以明显看到本文模型在使用B E R T编码时,验证集上

48、和测试集上对比D R E E AM模型分别提升0.5 5%,0.6%,0.2 3%,0.4 4%,在使用R o B E R T a编码时验证集上有小幅度提升,测试集分别提升0.5 8%,0.5 3%,说明本文方法提升了实体对向量表示的准确性和关系推理中的有效性。3.3.2 基础模型实验对比分析通过小波变换对预训练语言模型编码后的文本向量进行清洗,可以得到更准确、更精细的数据,其中的关键特征更加突出,这使得清洗后的文本向量在提取证据句子时能够提供更有用的信息。通过将清洗后的小波变换数据与其他特征进行融合,能够更准确地识别与实体对关系相关的句子。这种有效性体现在它帮助模型过滤掉无关的文本片段,将注

49、意力集中在重要的证据句子上,从而提高关系抽取任务的准确性和性能。为了进一步验证本文方法在关系抽取和证据句子抽取,以及推理方面的有效性,本文在统一使用B E R T编码的基础上进行对比实验。分别评估E i d e r*整体模型和去除证据句子提取的E i d e r-e v i*模型。具体实验结果如表5所示。表5 实体对关系提取效果对比分析(单位:%)模型D e vT e s tF1I g n_F1F1I g n_F1E i d e r*6 2.2 36 0.2 46 2.1 96 0.0 7E i d e r-e v i*6 2.1 96 0.1 36 1.8 35 9.5 6O u r s6

50、3.0 56 1.1 16 2.7 26 0.4 7O u r s-e v i6 2.5 76 0.6 16 2.4 46 0.2 9 从表5可以看到,本文模型在整体上针对E i d e r*模型都有明显的提升效果,表明本文方法在证据句子提取、证据推理融合、关系预测方面的有效性。去掉证据句子提取之后可以看到,E i d e r-e v i*模型在测试集上的效果有明显的降低。本文的O u r s-e v i与E i d e r-e v i*对比发现,模型整体提升为0.3 8%,0.4 8%,0.6 1%,0.7 3%。表明更准确的文本向量在未注释的数据集上进行关系抽取的效果更为显著。同时本文的O

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服