基于证据句与图卷积网络的文档级关系抽取.pdf

资源描述

1、第 49卷第 8期2023年 8月Computer Engineering 计算机工程基于证据句与图卷积网络的文档级关系抽取马建红，龚天，姚爽（河北工业大学人工智能与数据科学学院，天津 300401）摘要：针对基于图卷积网络的文档级关系抽取模型存在未对邻居节点贡献度加以区分及句子噪声的问题，在将证据句融入图卷积网络进行消息传播的基础上，构建一种改进的文档级关系抽取模型。基于启发式路径得到包含证据句的路径信息，在包含证据句的路径信息基础上进行关系抽取，统计所有样本路径中的句子占比，并在异构图中融入证据句路径信息进行相似度计算，得到与样本相关的 3句证据句。在证据句信息的基础上对不同类型的边根

2、据贡献度区分规则赋予相应权重，并使用图卷积操作对节点信息进行二次增强，最终实现文档级关系抽取。在DocRED 数据集上的实验结果表明，该模型的 F1 值达到 56.96%，相比于 Paths、Hin-Glove 等基线模型提升了 0.4213.51个百分点，验证了在文档图中融入证据句信息对于提升文档级关系抽取模型性能的有效性。关键词：文档级关系抽取；图卷积网络；证据句；异构图；权重开放科学（资源服务）标志码（OSID）：源代码链接：https：/ J.计算机工程，2023，49（8）：104-110.英文引用格式：MA J H，GONG T，YAO S.Document-level relat

3、ion extraction based on evidential sentences and graph convolutional network J.Computer Engineering，2023，49（8）：104-110.Document-Level Relation Extraction Based on Evidential Sentences and Graph Convolutional NetworkMA Jianhong，GONG Tian，YAO Shuang（School of Artificial Intelligence，Hebei University o

4、f Technology，Tianjin 300401，China）【Abstract】In document-level relation extraction models based on a Graph Convolutional Network（GCN），the contribution of neighboring nodes and sentence noise cannot be distinguished.To address this issue，an improved document-level relation extraction model is built，wh

5、ereby evidential sentences are integrated into the GCN for message propagation.Based on heuristic paths，path information containing evidential sentences is obtained to extract relations.The proportion of sentences in all sample paths is counted，and evidential sentence path information is integrated

6、into heterogeneous graphs for similarity calculations to obtain three evidential sentences related to the samples.The evidential sentence information is subsequently used to assign corresponding weights to different types of edges according to contribution differentiation rules.A graph convolution o

7、peration is used to enhance the node information twice，ultimately achieving document-level relation extraction.The experimental results on the Document-level Relation Extraction Dataset（DocRED）show that the F1 value of the model reaches 56.96%，which is 0.42-13.51 percentage points higher than those

8、of models such as Paths and Hin-Glove.This verifies the effectiveness of incorporating evidential sentence information into document graphs to improve the performance of document-level relation extraction models.【Key words】document-level relation extraction；Graph Convolutional Network（GCN）；evidentia

9、l sentence；heterogeneous graph；weightDOI：10.19678/j.issn.1000-3428.00654610概述目前，互联网上的信息多数是以半结构化或者非结构化数据的形式存在，这就需要利用可学习文本语义的模型对其进行数据挖掘与分析，因此信息抽取技术应运而生。关系抽取作为信息抽取的子任基金项目：科技部创新方法工作专项（2019IM020300）。作者简介：马建红（1965），女，教授、博士，主研方向为自然语言处理、知识图谱；龚天，硕士研究生；姚爽（通信作者），助理研究员、硕士研究生。收稿日期：2022-08-08 修回日期：2022-11-10 Em

10、ail：人工智能与模式识别文章编号：1000-3428（2023）08-0104-07 文献标志码：A 中图分类号：TP391.3第 49卷第 8期马建红，龚天，姚爽：基于证据句与图卷积网络的文档级关系抽取务，受到研究人员的广泛关注，通过对海量数据进行关系抽取并将非结构化文本转化为结构化的关系数据，为问答系统、知识图谱等下游任务提供支持，同时对篇章理解、摘要生成等任务也具有重要作用。关系抽取的目的在于识别出头尾实体之间的关系。早期的关系抽取工作1-3侧重于提取句子内的关系，但是现实世界中实体之间的大量关系通常跨多个句子，根据对维基百科语料库的分析4，至少40.7%的关系无法简单通过单个句子获

11、取，因此近些年的研究5-7将其提升到了文档层面。相较于传统卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN）等网络结构，图神经网络能够更好地在文档层面建立实体之间的联系，进而更好地完成文档级推理。因此，在解决文档级关系抽取问题时，基于文档图的关系抽取8成为主流方法，同时使用图神经网络进行文档级关系抽取主要分为基于同构图9和基于异构图10两类。在图神经网络编码方面，Glove11和 BERT12都可以得到 token级别嵌入，包含自身语义、类型、相对位置等多种信息。在图神经网络迭代方面，图卷积

12、网络（Graph Convolutional Network，GCN）13-15以及图注意力网络（GAT）16可以为邻域中的不同节点指定不同的权值，注意力图卷积网络17-18经过多次迭代可得到平滑后的节点结构化特征。部分图神经网络模型使用多个层级的图神经网络抽取不同层级的结构化特征。GAIN10构建指称级别和实体级别的两个图，通过指称级别的图卷积网络得到更好的指称嵌入，并以此得到更好的实体嵌入。DHG19将词和句子构建为挖掘实体的结构特征图，并建立指称和实体的关系推理子图，得到推理层级信息。在图神经网络分类方面，通常在图神经网络得到节点结构化特征后，模型会使用跳跃连接的方式将节点的语义和上下文

13、特征与结构化特征进行联合，通过双线性函数对实体对进行关系分类，由于同一个实体对之间可能存在多种关系，因此通常使用多标签Sigmoid的方式输出全部类别下的概率，使用二元交叉熵损失进行训练。Sigmoid 函数输出存在阈值选择问题，ATLOP 模型20使用自适应阈值技术解决了Sigmoid函数阈值选择和多标签分类问题。HUANG等21通过在 DocRED5和 GDA22数据集上的实验结果表明，仅通过 1 句证据句就能预测实体对之间关系的比例超过 50%，当达到 3句证据句时可覆盖 95%以上的实体对关系，通过使用证据句可大幅缩短文档中与该实体对无明显语义关系的句子数量，避免分散注意力。近年来，在

14、图卷积网络上进行跨句子关系抽取的研究主要集中于图卷积网络的聚合过程。虽然图卷积网络有很强的聚合信息的能力，但在聚合过程中仍存在：1）句子噪声问题，在文档级关系抽取中，虽然推断一个关系可能需要多句句子，但文档中的句子对每个实体对而言并不同等重要，有些句子可能与关系预测无关，这些无关句子会给模型带来一定的噪声，在图卷积网络中更新一个节点时会依赖邻居节点信息进行消息传递，这可能使一些无关的句子节点也会对该节点的更新产生影响；2）没有有效区分邻居节点的贡献度，图卷积网络充分利用了全局信息，根据边类型进行更新，保证了信息完整性，但是没有对邻居节点贡献度加以区分。针对以上问题，本文提出基于证据句与图卷积网

15、络的文档级关系抽取模型（ESAG），通过基于图卷积网络的证据句抽取来减少无关句子的数量，以解决句子噪声问题，同时在证据句的基础上对不同类型的边赋予相应权重，构造一个带权重的异构图区分邻居节点贡献度。1基于证据句与图卷积网络的关系抽取模型ESAG 主要包括编码、证据句抽取、贡献度区分、关系预测等 4个模块，如图 1所示。在模型训练过程中，编码模块的作用是将训练集经过 Glove的映射处理后使词转化为词向量，然后经过 BiLSTM 的处理获取包含语义信息的词嵌入。证据句抽取模块主要是得到 3 种不同的表征，分别是经过 GCN 后的词嵌入表征、包含头尾实体词的证据句表征以及在语义的基础上包含与头尾实

16、体词义相近的证据句表征，具体为：基于编码模块输出的词向量构造无权异构图，通过 GCN 进行一次特征增强图 1ESAG模型框架Fig.1Framework of ESAG model1052023年 8月 15日Computer Engineering 计算机工程可以得到相应节点的向量表示；基于启发式路径21对训练集中每个文档进行处理，得到包含每个样本中头尾实体词的证据句；为了不局限于词语本身，基于前两种输出并在相似度计算的基础上得到与头尾实体词义相近的证据句。为了使模型更加关注每个样本中与证据句相关的节点，在 GCN 后的词嵌入和包含语义的证据句基础上采用有权图进行贡献度区分，经过二次增强来区

17、分不同节点的作用。在关系预测模块中基于多种表征来构成实体对表征，并在多分类器的基础上进行预测，最后通过反向传播更新参数。1.1编码模块编码模块是将文档Dd=wini=1转换为向量序列gini=1。对于文档中的每个单词wi，将其对应的单词嵌入、实体类型嵌入和共指嵌入相连接，如式（1）所示：xi=Ew(wi)；Et(ti)；Ec(ci)（1）其中：Ew()、Et()和Ec()分别表示单词嵌入、实体类型嵌入和共指嵌入；ti和ci表示实体类型和实体 id，使用 None表示不属于任何实体类型的情况。将包含 3 种信息的词表征输入编码器，获得每个词的上下文表示，如式（2）所示，其中，编码器可以是 Glo

18、ve、LSTM、BERT等。g1 g2 gn=Encoderx1x2xn（2）1.2证据句抽取模块1.2.1 无权异构图构建为了对文档级信息、提及和实体之间的交互进行建模，采用无权异构图进行处理，异构图中有指称节点、实体节点、句子节点等 3 种不同类型的节点，其中：指称节点对应于文档中实体的不同提及，通过计算包含这些实体的单词特征的平均值来表示；实体节点表示独特的实体概念，每个实体可能有多个指称，因此实体节点的特征依赖于指称节点的特征，由与实体相关的指称节点特征的平均值来表示；句子节点由句子中所有单词特征的平均值来表示。为了区分图中不同的节点类型，将节点类型信息嵌入每个节点表示，并根据节点类型

19、设计 5 种类型的边：1）指称-指称（M-M）。在不同句子中同时出现的指称和指称可能是一种比较微弱的关系，只有当不同的指称位于同一个句子中时，才会创建指称与指称的边。2）指称-实体（M-E）。同一个实体包含多个指称，因此创建指称与实体的边。3）指称-句子（M-S）。将指称与其所在的句子构建一条指称到句子的边。4）实体-句子（E-S）。实体的表征是对应指称求和之后的平均值，因此实体到句子的边是由对应指称所在句子决定的。5）句子-句子（S-S）。与指称到指称的边类似，为了减少图中边的数量，只考虑相邻句子之间的情况。1.2.2 一次特征增强在构建异构图后，在异构图上应用图卷积网络来聚合邻居节点的信息

20、，这是对全图节点的特征进行增强，图卷积运算定义如下：h(l+1)u=(k=Knv Nk(u)nW(l)kh(l)v+b(l)k)（3）其中：K表示 5 种类型的边；W(l)k Rd d和b(l)k Rd表示可学习的参数，l表示图卷积网络的层数；Nk(u)表示节点u的第k类边所对应的邻居节点集合；为激活函数。GCN 的每一层表示不同抽象级别的特征，为了覆盖所有层级的特征，将每个层的隐藏状态进行融合，得到指称节点、实体节点、句子节点的最终表示，如式（4）式（6）所示：mu=1Ll=1Lm(l-1)u（4）ei=1Q+1(1Ll=1Le(l-1)i+j=1Qmj)（5）sn=1Ll=1Ls(l-1)

21、n（6）其中：L表示 GCN 的层数；Q表示实体节点对应的指称节点个数。1.2.3 证据句抽取通过对 3 个广泛使用的数据集 DocRED、DGA和 CDR23进行统计发现：95%以上的实例需要不超过 3句证据句，其中 87%甚至只需 2句或更少。为了加速模型训练，假定只需要 3 句证据句就能得到每个实体对之间的关系。该模型在训练前通过启发式路径获取每个样本关于证据句的 3类路径信息，分别是连续路径、多跳路径和默认路径，优先级依次降低。连续路径表示的头尾实体出现在连续的 3 句句子中，那么头尾实体所在的句子就构成了连续路径。多跳路径表示的是头尾实体不出现在 3 句连续的句子中，但可以通过桥实体

22、连接，如句子 A 包含头实体和桥实体，句子B 包含尾实体和桥实体，并且句子 A 和句子 B 不在3句连续的句子中，那么句子 A 和句子 B就是多跳路径，考虑到只有 3 句证据句，因此仅涉及 1 跳和 2 跳的情况。默认路径表示头尾实体所在的任意 2句句子的组合。考虑到每条路径都有自己独立的语义信息，将每条路径的句子按原文档的顺序组合成一个新的文档，重新经过 BiLSTM 得到与上下文有关的特征，通过双层感知器得到当前样本所对应的每条路径的概率，然后选择概率最高的路径作为局部信息。为了106第 49卷第 8期马建红，龚天，姚爽：基于证据句与图卷积网络的文档级关系抽取选择与头尾实体词义相近的词，

23、从统计学角度出发，将样本中所有路径包含的句子进行统计，依据每条路径中句子的占比分配，统计占比最大的 2 句句子作为证据句，并通过将目标实体对与sn做相似度计算，得到相似度最大的 1句句子，最终得到每个样本所对应的 3句证据句。1.3贡献度区分模块1.3.1 贡献度区分规则为了使模型更加关注每个样本中与证据句相关的节点，采用有权图进行贡献度区分。有权图中节点的类型和边的类型采用与第 1.2.1 节相同的类型，不同的是每条边都赋予一定的权重。为了对与证据句相关的边进行增强，将边分为4 种类型，分别是与句子无关且没有自反边的 M-E、与句子无关但有可能包含自反边的 M-M、与句子相关且没有自反边的

24、M-S和 E-S、与句子相关但可能包含自反边的 S-S，其中，自反边是为了防止丢失节点自身携带的信息，为每个节点添加一条指向自身的边18。不同类型的边采用不同的权重策略，贡献度区分规则如下：1）M-E的权重通过超参数进行调整。2）M-M 的权重根据是否包含自反边进行区分，如果不包含自反边，则权重通过超参数进行调整，否则设置权重为 1，这样便于在消息传播过程中保留自身节点信息。3）M-S、E-S 根据相应的句子节点是否为证据句进行不同的设置，如果是证据句，则权重设置为，如式（7）所示，否则直接通过超参数进行调整。=+F(Sevijnnodej)j=13i=1njF(Sevijnnodej)（7）

25、其中：nj表示以证据句j为节点的边的数量，边的一端是以证据句j为节点，另一端的节点用nnodej表示，nnodej使用经注意力机制增强后的节点进行表示，使实体、指称节点更趋近证据句；证据句j由Sevij来表示；F是相似度计算函数；加入超参数进行调整，使相应边的权重具有一定适应性。4）S-S 的权重在规则 3）的基础上还要考虑自反边的情况。1.3.2 二次特征增强在得到有权异构图后，在异构图上应用图卷积网络来聚合邻居节点信息，此时的特征增强是在贡献度区分规则的基础上进行，以样本节点为基本单位进行增强。图卷积运算定义如下：L(l+1)u=(k=Knv Nk(u)nD-1/2AD-1/2h(l)uW

26、(l)（8）在式（8）中，将邻接矩阵A和度矩阵D进行加权求和，W表示可学习的参数。1.4关系预测模块每个实体由四部分特征构成，分别是经过编码器处理得到的全局表征g、经过第 1次图卷积操作后得到的局部表征l1、经过第 2次图卷积操作后得到的局部表征l2以及基于启发式路径得到的局部表征l0，具体表示如下：e=l0；l2；(l1+g)/2（9）每个实体对eht通过以下内容进行连接：有权图经过消息传递后得到的头部和尾部实体表示eh和et，两个实体表示之间的减法绝对值|eh-et|，对应向量的乘法ehet和对应实体对的证据句信息。eht=eh；et；|eh-et|；ehet；s1；s2；s3（10）在得

27、到实体表征后就可以进行关系预测，而关系预测任务通常视作多标签分类任务，概率函数如式（11）所示：P(r|ehet)=Sigmoid(W2(W1eht+b1)+b2)（11）其中：W和b都是可学习的参数；是激活函数，使用二分类交叉熵作为分类损失进行模型训练，由于二分类中会涉及阈值选择问题，因此采用自适应阈值方法进行处理。损失函数定义如下：L=-h tri Ryri=1lb P(ri|ehet)+yri=0lb(1-P(ri|ehet)（12）其中：R表示关系类型的集合；yri=1表示在预测的ri与真实关系类型相同的情况下取值为 1，否则为 0。2实验结果与分析2.1数据集DocRED 是一个由

28、Wikipedia和 Wikidata构建的大规模文档级人工标注的数据集，包含 96种关系类型、56 354 个关系事实和 132 275 种实体，其中的文档平均包含 8句句子，至少 40.7%的关系无法简单通过单句获取，61.1%的关系事实需要通过各种推理获取，如逻辑推理。为了遵循数据集的标准划分，将1 000个文档作为测试集，1 000个文档作为验证集，3 053个文档作为训练集。2.2性能评价指标对于关系抽取任务，采用 F1 值（F）作为最终评价指标，计算公式如式（13）所示。准确率（P）和召回率（R）的计算公式如式（14）、式（15）所示。F=2 P RP+R（13）P=预测与实际都为

29、正样本的数量预测为正样本的数量（14）R=预测与实际都为正样本的数量实际为正样本的数量（15）2.3模型训练模型每次训练都需要对一个文档进行以下操作：1）通过词与向量的映射文件将训练集文档转换1072023年 8月 15日Computer Engineering 计算机工程为向量表示；2）基于 BERT或者 BiLSTM 获取包含上下文语义的信息；3）将包含上下文语义的向量经过GCN 增强后融入全文信息，完成与邻居节点的信息交互，并通过增强的实体节点得到相似度较高的证据句；4）对与证据句相关的边赋予一定的权重，再次进行 GCN 进行增强；5）将包含全局信息和上下文信息的实体表征与位置向量进行拼

30、接，进行双线性变换，经 Sigmoid函数得到预测值。词向量维度设置为100，BiLSTM 隐藏层的输出维度设置为 256。采用Adam 优化模型参数，二元交叉熵作为损失函数。学习率设置为 0.001，在训练过程中随着训练次数的变化而动态调整。2.4结果分析首先分析 GCN 层数、实体表征中的特征组成、有权图的权重设置对关系抽取效果的影响，然后进行消融实验，最后对模型训练过程中不同的特征进行比较分析。2.4.1 超参数对关系抽取效果的影响表 1 给出了 EASG 在 Glove基础上的实验结果，其中 GCN 层数为 ESAG 中独立的 2个图卷积网络的层数。通过实验 1与实验 24的对比说明了

31、 GCN 层数对于模型训练的效果有很大影响，并且达到一定层数时，随着层数的增加，效果反而会变差。通过实验 2 和 3 说明了在第 1 个图中进行图卷积时影响更大，导致在第 2 个图中进行图卷积时更多的节点产生了过度平滑问题，因为在第 1 个图中会进行全图的图卷积操作，在第 2 个图中进行图卷积操作时只针对不包含 S 的边（M-M 和 M-E）进行操作，使得每个样本中存在部分节点没有更新的情况。表 2 给出了实体对表征中不同的特征组成对关系抽取效果的影响，其中，g、l0、l1、l2是构成实体表征的 4 种特征，维度指的是实体表征拼接后经过线性层处理后的维度。通过实验 13的对比说明了不同特征对模

32、型效果有一定的影响，其中l1相较于g影响更大，因为l1经过第 1个图的图卷积操作可更好地聚集信息，此外(l1+g)/2的影响大于单独的g和l1，因为这种特征相对于l1会减小与l2的相似性，相对于g能从图中获取更多的隐含信息。通过实验 3 和 4 的对比说明了实体表征包含的信息可能会被降维后的维度所影响，导致结果非常接近，因此通过补充实验 5和 6 说明了当实体表征包含更多的信息时，适当增加维度有利于更好地表达实体。表 3 给出了有权图中不同权重对关系抽取效果的影响。以实验 2 中的 S-S 为例：如果是自反边，权重设置为 1，便于保留自身特征；如果有 1 句句子是证据句，权重设置为1+ssim

33、，ssim表示的是节点之间相似度的绝对值；如果 1条边连接的 2句句子都不是证据句，设置权重为 0.5。通过实验 1 和 2 的对比说明了设置自反边有利于更好地提取关系，通过实验 2和 3 的对比说明了提高 S-S 中非证据句的权重将间接降低 S-S 中证据句的权重，因此抽取效果也会变差。表 4给出了 ESAG 消融实验结果，通过不同的特征进行建图，验证了不同特征对于文档级关系抽取任务的重要性。实验 2 是删除了 ESAG 的无权异构图结构（-无权图），实验 3 是删除了 ESAG 的无权异构图和有权异构图结构（-无权图和有权图），实验 4是删除了 ESAG 的有权异构图结构（-有权图），实验

34、 5 是将 ESAG 中的有权异构图结构替换为图注意力网络（GAT）。通过实验 2和 4的对比可以看出，基于有权图得到的局部变量相较于无权图得到的局部变量对于关系抽取的影响更大，验证了贡献度区分模块对于关系抽取性能有一定的作用。通过实验 4和 5的对比可以看出，将有权图替换为图注意力网络进行二次增强，结果变差的原因在于图注意力网络基于注意力机制进行权重分配，并没有考虑一些句子节点可能与样本中需要抽取的关系是无关的情况。通过实验 13 可以发现，基于 Paths21启发式路径得到局部变量能达到较好的效果，这也验证了表 1GCN层数对关系抽取效果的影响 Table 1Influence of GC

35、N layers on relation extraction effect实验序号1234GCN层数1和 11和 22和 12和 2训练集中的 F1值/%67.0462.7460.4558.43验证集中的 F1值/%56.9653.4852.2751.24表 2实体对表征对关系抽取效果的影响 Table 2Influence of entity pair representations on relation extraction effect实验序号123456实体对表征l1;l2;gl0;l2;l1l0;l2;(l1+g)/2l1;l2l0;l2;(l1+g)/2l0;l2;l1维度51

36、2512512512768768验证集中的 F1值/%52.5555.9856.5056.4956.9656.23表 3权重对关系抽取效果的影响 Table 3Influence of weight on relation extraction effect实验序号123权重M-M00或 10或 1S-S0.5或1+ssim0.5或1+ssim或 11+ssim或 1验证集中的F1值/%56.3456.9655.87108第 49卷第 8期马建红，龚天，姚爽：基于证据句与图卷积网络的文档级关系抽取证据句信息对于关系抽取任务具有重要作用。2.4.2 与不同模型的对比表 5 给出了 EASG-G

37、love 在 DocRED 数据集上与 GCNN8、EOG7、LSR-Glove9、AGGCN17、Paths21、Context-Aware24、Hin-Glove25等基线模型的对比结果。由表 5 可以看出，ESAG-Glove 在验证集中的F1 值相比于基线模型提高了 0.4213.51 个百分点。Paths21模型因为在训练前通过启发式规则得到每个样本关于证据句的路径信息，利用证据句信息能减少无关句的影响，所以能在基于序列的模型中取得较好的效果。ESAG-Glove比 Paths模型效果更好的原因在于使用了基于证据句的图卷积模块，使样本节点信息在证据句的基础上进行二次增强，有利于关系分

38、类。3结束语本文提出一种基于证据句与图卷积网络的文档级关系抽取模型。以图卷积网络为基准，采用异构图的形式进行证据句的抽取，并在图卷积网络中引入证据句信息与贡献度区分规则，对异构图中不同类型的边赋予相应权重，构建融入证据句的图卷积网络，并使用有权图卷积对样本节点信息进行二次增强。经过实验证明，所提模型在一定程度上能缓解句子噪声问题，使图卷积网络更好地聚合有效信息。下一步将引入篇章关系，使模型能挖掘篇章的内在逻辑关系，从而对相关联的文档进行更准确的关系预测。参考文献 1 ZENG D，LIU K，LAI S，et al.Relation classification via convolution

39、al deep neural network C/Proceedings of the 25th International Conference on Computational Linguistics.Dublin，Republic of Ireland：s.n.，2014：2335-2344.2 ZHANG S，ZHENG D，HU X，et al.Bidirectional long short-term memory networks for relation classification C/Proceedings of the 29th Pacific Asia Conferen

40、ce on Language.New York，USA：ACM Press，2015：73-78.3 ZHANG Y H，QI P，MANNING C D.Graph convolution over pruned dependency trees improves relation extractionC/Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，USA：Association for Computational Linguistics，2018

41、：2205-2215.4 李明耀，杨静.基于依存分析的开放式中文实体关系抽取方法 J.计算机工程，2016，42（6）：201-207.LI M Y，YANG J.Open Chinese entity relation extraction method based on dependency parsingJ.Computer Engineering，2016，42（6）：201-207.（in Chinese）5 YAO Y A，YE D M，LI P，et al.DocRED：a large-scale document-level relation extraction datase

42、t C/Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，USA：Association for Computational Linguistics，2019：764-777.6 VERGA P，STRUBELL E，MCCALLUM A.Simultaneously self-attending to all mentions for full-abstract biological relation extraction C/Proceedi

43、ngs of 2018 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.Stroudsburg，USA：Association for Computational Linguistics，2018：872-884.7 CHRISTOPOULOU F，MIWA M，ANANIADOU S.Connecting the dots：document-level neural relation extraction

44、with edge-oriented graphs C/Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg，USA：Association for Computational Linguistics，2019：4925-4936.8 SAHU S K，CHRISTOPOULOU F，MIWA M，et al.In

45、ter-sentence relation extraction with document-level graph convolutional neural network C/Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，USA：Association for Computational Linguistics，2019：4309-4316.9 NAN G S，GUO Z J，SEKULIC I，et al.Reasoning with

46、latent structure refinement for document-level relation extraction C/Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，USA：Association for Computational Linguistics，2020：1546-1557.10 ZENG S A，XU R X，CHANG B B，et al.Double graph based reasoning for do

47、cument-level relation extraction C/Proceedings of 2020 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，USA：表 4消融实验结果Table 4Ablation experimental results实验序号12345特征EASG-Glove-无权图-无权图和有权图-有权图+GAT验证集中的 F1值/%56.9656.5955.9456.1256.61表 5不同模型的对比实验结果 Table 5Comparative experiment

48、al results of different models类型基于序列基于文档图模型CNNBiLSTMContext-AwareHin-GlovePathsGATGCNNEOGAGGCNLSR-GloveGAIN-GloveEASG-Glove验证集中的 F1值/%43.4550.9451.0952.9556.5451.4451.5252.1552.4755.1755.2956.961092023年 8月 15日Computer Engineering 计算机工程Association for Computational Linguistics，2020：1630-1640.11 PENNI

49、NGTON J，SOCHER R，MANNING C.Glove：global vectors for word representation C/Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，USA：Association for Computational Linguistics，2014：1532-1543.12 DEVLIN J，CHANG M W，LEE K，et al.BERT：pre-training of deep bidirectio

50、nal transformers for language understanding EB/OL.2022-07-14.https：/arxiv.org/abs/1810.04805.13 FU S C，LIU W F，ZHANG K，et al.Semi-supervised classification by graph p-Laplacian convolutional networksJ.Information Sciences，2021，560：92-106.14 QUIRK C，POON H.Distant supervision for relation extraction

展开阅读全文