收藏 分销(赏)

开放信息抽取研究综述.pdf

上传人:自信****多点 文档编号:583741 上传时间:2024-01-02 格式:PDF 页数:19 大小:1.71MB
下载 相关 举报
开放信息抽取研究综述.pdf_第1页
第1页 / 共19页
开放信息抽取研究综述.pdf_第2页
第2页 / 共19页
开放信息抽取研究综述.pdf_第3页
第3页 / 共19页
亲,该文档总共19页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023,59(16)开放信息抽取研究综述胡杭乐1,程春雷1,2,叶青1,彭琳1,沈友志11.江西中医药大学 计算机学院,南昌 3300042.江西中医药大学 中医人工智能重点研究室,南昌 330004摘要:开放信息抽取(open information extraction,OpenIE)旨在从自然语言文本中以关系短语及参数的形式生成信息的结构化表示,为知识库自动化构建、开放域问答和显式推理等下游任务提供基础支持。近年来,该领域的研究与应用不断深入,涌现了众多卓有成效的OpenIE研究思路和拓展模型。从OpenIE的定义、数据集和基准度量出发,详细深入地综述和比较了传统的OpenIE模型和基

2、于神经网络的模型。针对传统方法,分类介绍了基于学习的模型和基于规则的模型,并深入研究了不同模型的评估方法,分析了不同类别模型之间的差异。针对基于神经网络的模型,根据抽取谓词的不同方式,将其分为联合抽取和分步抽取两种类型,并对每种模型进行了综述和对比分析。对OpenIE常用的数据集以及主要的评估基准进行了概述,并在此基础上进行了对比分析。从训练、改进以及应用三个角度对OpenIE的工作进行了总结,并对该工作的未来进行了展望。关键词:自然语言处理;开放信息抽取(OpenIE);神经网络文献标志码:A中图分类号:TP391.1doi:10.3778/j.issn.1002-8331.2212-025

3、1Survey of Open Information Extraction ResearchHU Hangle1,CHENG Chunlei1,2,YE Qing1,PENG Lin1,SHEN Youzhi11.School of Computer Science,Jiangxi University of Chinese Medicine,Nanchang 330004,China2.Key Laboratory of Artificial Intelligence in Chinese Medicine,Jiangxi University of Chinese Medicine,Na

4、nchang330004,ChinaAbstract:Open information extraction(OpenIE)aims to generate a structured representation of information from naturallanguage text in the form of relational phrases and parameters,providing basic support for downstream tasks such asknowledge base automatic construction,open domain q

5、uestion answering,and explicit reasoning.In recent years,with thedeepening of research in this field,researchers have expanded OpenIE from multiple directions and proposed manyOpenIE models based on neural networks.Starting from the definition,dataset and benchmark measurement of OpenIE,this paper s

6、ummarizes and compares the traditional OpenIE model and the model based on neural network in detail.Firstof all,according to the traditional methods,the learning-based model and rule-based model are introduced,the evaluationmethods of different models are deeply studied,and the differences between d

7、ifferent types of models are analyzed.Sec-ondly,according to the different ways of extracting predicates,the models based on neural networks are divided into twotypes:joint extraction and step extraction,and each model is reviewed and compared.Then,the datasets commonly usedby OpenIE and the main ev

8、aluation benchmarks are summarized,and a comparative analysis is made on this basis.Finally,the work of OpenIE is summarized from three aspects of training,improvement and application,and the future of thiswork is prospected.Key words:natural language processing;open information extraction(OpenIE);n

9、eural network基金项目:国家自然科学基金(82260988);江西省自然科学基金(20224BAB206102);江西省教育厅科学技术研究项目(GJJ2200923);江西省卫生和计划生育委员会科技计划项目(202211404)。作者简介:胡杭乐(1998),男,硕士,CCF会员,研究方向为自然语言处理,E-mail:;程春雷(1976),男,通信作者,博士,副教授,硕士生导师,CCF会员,主要研究方向为机器学习、知识表示与学习、知识图谱;叶青(1967),女,硕士,教授,研究方向为计算机应用技术;彭琳(1975),女,硕士,副教授,研究方向为物联网、管理信息模型;沈友志(1997

10、),男,硕士,研究方向为自然语言处理。收稿日期:2022-12-19修回日期:2023-04-11文章编号:1002-8331(2023)16-0031-19Computer Engineering and Applications计算机工程与应用31Computer Engineering and Applications计算机工程与应用2023,59(16)信息抽取(information extraction,IE)旨在将自然语言文本中表达的非结构化信息转化为关系元组形式的结构化表示1。封闭域信息抽取的方法侧重于在小型同质语料库上基于预定义的概念与关系对文本进行三元组抽取,限制了模型处理

11、预定义之外的文本数据。在转换到新领域的任务时,传统IE方法不仅需要重新命名目标关系,还需要手动定义新的抽取规则或者人工标注新的训练数据,过度依赖人工操作,限制了其应用范围。因此,开放文本需要探索一种高效的信息抽取技术,更普适地抽取文本中的关系事实。开放信息抽取(open information extraction,OpenIE)是一种独立于域的知识发现方法,可以在不预先定义关系和实体的情况下,抽取文本中可能存在的所有关系,特别适合于目标关系事先未知的大规模文本语料库。例如,给定句子“Deep learning is a subfield of machine learning.”,则可以抽取

12、三元组(deep learning;is a subfield of;machinelearning),其中关系短语“is a subfield of”表示两个参数之间的语义关系。封闭域与开放域关系抽取方法的区别如图1所示。OpenIE自 Yates等人2提出后,其相关技术在各大顶级学术会议和期刊上备受关注。在深度学习之前,OpenIE主要是基于学习和规则的模型,主要依赖词法、句法等特征3。早期的相关工作集中于如何学习表达关系的通用模式。为减少错误元组的数量,基于规则的模型利用启发式规则,结合语法特征对依存解析的输出进行处理。由于自然语言的复杂性,有限的提取模式难以涵盖所有可能的句法结构;同时

13、部分参数短语过于冗长,且该部分可以进一步抽取以生成包含有效信息的元组。为此,部分研究尝试通过将输入句分割成由原句所涵盖且在句法上和语义上都能独立存在的句子,降低句子的复杂性以处理上述情况。此外,通过添加额外标记或属性的方法来关注元组间的上下文信息,可以帮助识别文本中假设或条件性的事实,并保留元组间的语义联系。然而,从解析树获取特征的质量限制了模型的性能。最近,由于大规模的OpenIE基准被提出(如Open-IE20164、CaRB5、BenchIE6),以及基于神经网络的模型在各种自然语言处理任务上的良好表现(如命名实体识别(named entity recognition,NER)7、机器翻

14、译8),基于神经网络的OpenIE模型得到了广泛的应用。相关工作主要有序列标记与生成两种范式。由于文本结构的复杂性,直接对三元组成分进行抽取存在困难。随着新方法被不断提出,部分研究表示,通过先提取谓词并将其作为额外信息输入到参数抽取任务中,可以帮助模型更好地学习文本特征以提升模型性能,使得后续出现了抽取实体和关系的流水线方法。当前OpenIE领域仍旧存在的各种问题(如数据饥饿、误差传播等),许多方法被引入以改进抽取(如计算机视觉9、可解释模型10、规则与神经网络的结合11)。OpenIE抽取的三元组是保留源文本关键信息的有效中间表示12,抽取的三元组可用于浅层语义查询,并与如实体解析之类的其他

15、技术相结合,用作下游任务的输入,如目标信息抽取、语义角色标注、共指解析或本体扩展等。国外对OpenIE的研究随着神经网络技术的发展不断深入,而国内仍然缺少有关OpenIE研究全面而深入的综述。本文从方法和技术层面,全面深入地综述和比较了传统OpenIE模型和基于神经网络的模型,主要贡献如下:(1)针对传统方法,分类介绍了基于学习和基于规则的OpenIE模型,并针对不同方法进行了深入的差异分析。针对基于神经网络的OpenIE模型,深入挖掘并研究了每种模型抽取组元的方法,根据抽取组元顺序的不同将已有方法分为联合抽取和分步抽取两个类别,同时进行了详细的对比分析。(2)介绍了OpenIE常用的数据集及

16、评估基准,并进一步对基于评估基准的不同方法模型的常见错误进行了总结,对模型效果进行了深入对比分析。(3)从训练、改进和应用三个角度讨论了OpenIE的最新研究趋势和未来方向。1相关工作最初该研究领域主要的挑战是如何学习大量关系短语之间的高精度推理规则,使由短语表达的信息可关联到其他同义或可推断短语。由于依赖基于规则的句法或语义解析,不可避免地受到浅层特征错误传播的影响。随着神经网络应用的发展,问题的核心从规则的学习转移到了大规模高质量标注数据与神经网络特征表达之间的拟合。基于神经网络强大的特征拟合能力,许多研究者提出了基于神经网络的OpenIE模型,该类方法也成为目前解决信息抽取的主要技术。1

17、.1传统OpenIE模型传统的OpenIE模型多数集中在句法和结构上,主要从两个角度解决开放信息抽取问题:一类是基于学习的模型,主要通过Bootstrapping方法自动构建训练数据,封闭域关系抽取关系抽取非封闭域关系抽取封闭域实体对关系抽取封闭域联合关系抽取半开放域关系抽取开放域关系抽取给定不给定不给定给定关系是否给定主语是否给定实体对是否给定不给定给定图1关系抽取分类Fig.1Relation extraction classification322023,59(16)并利用依存解析学习表达关系的通用模式;另一类是基于规则的模型,通过人工构建的启发式规则以结合领域知识来抽取模式无法覆盖的文

18、本结构,修正错误抽取。基于规则的模型主要从两个角度处理 OpenIE 任务:一类利用依存解析结合启发式规则将句子拆分成包含核心信息的子句以简化文本;另一类关注上下文信息以捕获元组间关系。1.1.1基于学习的模型OpenIE最初的工作主要是从自动标注的训练数据集学习抽取模式,该类模型被称为基于学习的模型,主要包含三个步骤:(1)标签:使用启发式或远程监控自动标记文本。(2)学习:使用基于序列标记的概率图模型(例如条件随机场(conditional random field,CRF)学习关系短语提取器,或在解析文本之后,通过占位符替换元组的参数和关系词以学习提取模式。(3)提取:一些模型(如Tex

19、tRunner2、WOE13)以一个句子为输入,从句子中识别一对候选NP(名词短语)参数(Arg1,Arg2),然后使用学习的提取模型将两个参数之间的每个单词标记为关系短语的组成部分。另一些模型(如OLLIE14、BONIE15)将学习的模式与句子的依存分析相匹配,并识别参数和关系的基本节点,在此基础上进行扩展以表示与提取相关的所有信息。Yates等人2引入了开放信息提取(OpenIE)范式并提出了TextRunner。该模型将参数与关系抽取任务转换为序列标记问题,具有高度的可扩展性,可以从大规模Web内容中提取事实。具体来说,该模型将开放信息提取任务分为三个子任务,首先通过一个单通道模型来生

20、成候选元组,再使用CRF模型来评估候选结果的可靠性。最后使用自监督的学习模型来评估候选答案中单词的频率,并保留频率较高的单词作为最终结果。该模型主要的提取模式是:提取句子中的名词或名词短语作为参数,再提取单词或短语作为谓词来表达参数之间的关系。Wu等人13提出了一个无监督抽取模型 WOE。该模型利用 Wikipedia 作为训练数据的来源,以获得与TextRunner相比精确度和召回率的提高。该模型通过Bootstrapping 方法来学习 POS 标签(WOEpos)和依存关系解析(WOEparse)的抽取模式。与基于浅层语言特征的TextRunner相比,使用依存解析特征可以提高抽取的准确

21、度和召回率。而性能上的提高是以牺牲抽取速度为代价,为了在大规模文本上运行,OpenIE模型需具有处理准确与高效的特点,因此对模型的可伸缩性产生了负面影响。OLLIE14遵循WOE中基于依存解析的Bootstrapping模式学习的思想,该模型架构如图2所示。但与之前的模型相比,OLLIE在两方面存在不同:首先,该模型通过关注由名词和形容词介导的关系来扩展涵盖的语法范围,以增加提取的正确元组数量。其次,通过分析上下文信息,该模型能够识别具有假设性或条件性的事实。通过降低置信度,或在提取中以归属和句子修饰语的形式关联额外的上下文,从而提升准确度。Saha等人15提出BONIE模型以抽取一个参数是数

22、字或数量单位的三元组。该模型遵循OLLIE的设计,在训练阶段创建种子事实,通过Bootstrapping生成训练数据并学习基于依存解析的模式。不同的是该模型设计了针对数值抽取的方法,如扩展抽取模式,通过启发式方法生成高质量关系模板和训练数据,非名词参数的处理和新的关系短语构建步骤。1.1.2基于规则的模型基于规则的模型没有学习关系表示模式的阶段,主要使用手工制作的抽取规则。基于规则的模型较易合并领域知识并可以跟踪和修复错误16。启发式规则可以避免不合逻辑的抽取17。例如,两个实体之间的动词短语可能代表一种关系。因此,为了降低抽取的不连贯性,可定义一条规则:如果一个动词有多个可能的抽取,则选择其

23、中最短的作为输出。通过从词性标注(part-of-speech tagging,POS)、依存解析或其他语法分析生成的模式,可设计不同的规则。REVERB17是此类方法的主要代表。Fader等人17指出了之前模型存在的非关键提取(省略关键信息的提取)、非一致性提取(关系短语无有意义的解释)两个关REVERB万维网Bootstrapper开放模式学习抽取学习元组模式匹配上下文解析输出元组输入句图2OLLIE模型架构Fig.2OLLIE model architecture胡杭乐,等:开放信息抽取研究综述33Computer Engineering and Applications计算机工程与应用

24、2023,59(16)键问题。为此,REVERB首先引入句法约束,该约束用简单的基于词性的正则表达式表示,如表1所示,以覆盖英语文本中约85%的基于动词的关系短语,从而减少错误抽取的数量。此外,基于有效的关系短语应该在大型语料库中包含多个不同参数的思想,该模型设计了词汇约束以避免满足句法约束但关系短语过于冗长的情况。该模型主要问题是无法捕捉谓词和参数之间的长距离依赖关系。多数元组主要有参数识别错误,这是由于该模型在参数搜索时,通常将谓词左侧最近的名词短语作为参数,如果参数和谓词相距较远,则无法输出正确的三元组。KRAKEN18和 EXEMPLAR19尝试抽取多元关系,以避免之前模型由于不完整抽

25、取或忽略关键信息导致的错误。KRAKEN通过抽取句子中每个短语的参数中心词,以保证关键信息抽取的完整性,从而输出任意参数数量的元组。其中关系短语及其对应参数的识别是基于人工制定的抽取规则,存在诸如检测依存解析错误的启发式方法不够精确、在噪声数据上效果较差等问题。EXEMPLAR采用类似的方法抽取n元关系,使用基于依存解析的手工抽取模式来识别关系短语及其相关参数。Stanovsky 等人20提出了一种基于规则的转换器PROPS,将依存关系图(dependency graph)转换为谓词和参数的类型图(typed graph)。与依存关系图相比,该表示方法掩盖了非核心的句法细节,如时态或定语;统一

26、了在语义上等价的结构,如主动或被动;并关注了隐含的事实,如所有格或同位语。该方法生成的类型图可以结合规则直接应用于元组抽取。由于引入了额外节点处理隐式谓词,可以生成内容更为丰富的元组。之后,Falke等人21通过将PROPS的规则移植到德语,提出了一个性能与英语相当的OpenIE模型PROPSDE。Kuebler等人22针对科学文本中的多词表达式,提出了一组基于依存解析的信息抽取规则。具体来说,通过设计的启发式规则以先识别参数再识别关系动词短语的顺序,对用标记(如NP替换名词短语,CA替换参数,VP替换动词短语等)简化后的解析树进行解析与重组,从而提取事实元组和条件元组。通过这种方法,可以降低

27、解析树的复杂度,简化提取模式。此外,通过修改规则可以最大限度地适应依存解析,但是解析树识别错误会对后续步骤产生较大影响,且很难处理复杂的句子。从上述方法可以看出,与依赖训练数据的神经网络相比,基于规则的方法可以通过修改解析规则以适应依存解析树,设计更为严格的元组生成规则,以最大限度地提高精度。但是该方法对于复杂句的处理存在限制,且易出现解析错误,影响了召回率。基于子句的模型。部分OpenIE模型倾向于抽取具有长参数的元组,其中长参数可以进一步拆分成有意义的元组,每个元组代表一个独立的事实。拆分对于下游应用,如问答(questions and answers,QA)或文本蕴含等任务,可改善混合了

28、多个元组成分(可能在语义上不相关)的冗余提取,此类方法受益于尽可能凝练简洁的提取。因此,在探索如何设计更高精度推理规则的同时,部分研究为提高OpenIE方法的准确性,引入了句子重构思想,目标是将原始句子转换为一组易于分割的独立子句。基于该方法,可提供一种更易于OpenIE模型处理的语言结构。此类方法的开端是 CLAUSIE23,该模型利用英语的语法知识,将输入句子的依存关系映射到子句的组成成分中,输出一组语言结构相对简单的子句,最后为每个子句生成包含一个或多个谓词参数的抽取。用于此任务的基本模式集如表2所示。与之前的方法相比,该模型在同等精度的情况下显著增加了元组生成的数量,并保证了良好的可扩

29、展性,但可能会生成过于具体的抽取。因为此类抽取中的成分包含特定的修饰语,甚至完整的子句,对模型输出的有效性产生影响(例如,此类抽取多数在相关提取任务中被删减)。与 CLAUSIE类似,Schmidek等人24将原句子分解为更易处理的简单句子,以防止由于自然语言处理(natural language processing,NLP)工具(如POS标记)在处理长而复杂的文本时出现错误。该方法首先应用V|VP|VW*PV=verb particle?adv?W=(noun|adj|adv|pron|det)P=(prep|particle|inf.marker)表1REVERB中基于POS的正则表达式

30、Table 1POS-based regular expressions in REVERBSentenceS1S2S3S4S5S6S7PatternSViSVeASVcCSVmtOSVdtOiOSVctOAAVctOCClause typeSVSVASVCSVOSVOOSVOAAVOCExampleAE died.AE remained in Princeton.AE is smart.AE has won the Nobel Prize.RSAS gave AE the Nobel Prize.The doorman showed AE to his office.AE declared

31、the meeting open.Derived clauses(AE,died)(AE,remained,in Princeton)(AE,is,smart)(AE,has won,the Nobel Prize)(RSAS,gave,AE,the Nobel Prize)(The doorman,showed,AE,to his office)(AE,declared,the meeting,open)表2命题提取的基本模式Table 2Basic patterns of proposition extraction342023,59(16)分块法11将原始句子分解为基本构件,并对组块进行

32、分析以拆分和重构句子。其次,设计了两种分析策略以判断组块间的相关性。一种方法是使用依存解析,显著提升了准确度;另一种方法使用朴素贝叶斯分类器,具有与依存解析相比更低的复杂度与更快的抽取速度。基于模式匹配的方法处理域外(out-of-domain)文本和长程依赖(long-range dependencies)时存在困难。针对该问题,Angeli等人25利用语言结构进行抽取,提出了Stanford OIE。具体来说,该模型首先利用远程监督训练的多分类逻辑回归分类器对依存解析进行操作(如生成、递归与停止),将句子分割任务简化为搜索问题,以生成由原句所涵盖且在句法上和语义上都能独立存在的句子。其次,

33、结合自然逻辑,在保持必要上下文的同时最大限度地缩短这些句子。最后,将其映射到手工制作的依赖模式以生产三元组。由于依存解析的限制,该模型在处理超过10个单词的句子时性能会快速下降。捕获元组间关系的模型。之前的OpenIE模型缺乏抽取复杂文本所需的表达能力,部分是由于元组的完整性没有得到保证且忽略了上下文信息。此类模型不区分句子中的声明、假设或条件。其中一个示例是从“Democrats believe that Barack Obama was a goodpresident”中抽取的关系三元组。该三元组抽取错误是由于输入句中并没有明确肯定该关系事实。为了正确处理此类情况,OLLIE14首次引入额

34、外属性以抽取上下文,从而表示某个主体假设或声明的事实(attributed to believe;democratics)。这种将附加属性引入关系抽取的思想在捕获元组间关系的模型中得到实现。在OLLIE之后,Mausam等人12综述了迄今OpenIE领域的研究进展,结合 SRLIE26和 RELNON27的优点,提出了OpenIE4。SRLIE旨在将SRL(语义角色标注)模型的输出转换为OpenIE形式的抽取。该模型通过分析语义之间的层次结构以构造多动词和嵌套关系元组,并可以输出n元抽取。RELNON针对组织名称、人物名称以及复合关系名词,通过规则和语义列表的组合以提升复合名词短语的抽取质量。

35、此后,下一代模型OpenIE5被提出。该模型集成了BONIE15和 CALMIE28。BONIE 抽取一个参数是数字或数量单位短语的命题。CALMIE是一种连词解析模型,将包含连词的复杂句拆分成若干个简单句子,并提出了数据结构层次协调树,用于表示连接结构之间的组成或包含,并通过启发式约束辅助连词短语的识别,从而在OpenIE4的基础上提升了召回率。与OLLIE类似,CSD-IE29将上下文句子分解(con-textual sentence decomposition,CSD)应 用 到 OpenIE中,旨在通过上下文信息进一步抽取三元组。该模型融合基于子句的方法的思想,通过手工制作的规则对成分

36、解析的输出进行处理,将输入句分割成语义上相连的子句,以形成“上下文”。为了保持不同上下文间的依存关系,该模型将上下文修饰符直接分配给相应的关系元组,以独立、链接的形式表示上下文信息,从而生成了更简短且覆盖信息更多的元组。Bhutani等人30提出了另一种捕捉命题间关系的方法,即NESTIE,为OpenIE提供了一种嵌套表示方法以表达复杂的依存关系,生成数量更多、信息更丰富的三元组。与OLLIE和WOE类似,NESTIE使用Bootstrapping方法来学习n元元组和嵌套元组的抽取模式,以对依存解析的结构相匹配。此外,考虑元组的结构特征和关系短语之间的句法依赖,设计了一组规则将生成的元组进行链

37、接以捕捉上下文信息。Bhutani等人30认为,嵌套表示直接增加了元组的信息性。但该模型主要使用依存解析,错误的解析会对模式匹配和元组链接造成影响,导致抽取错误。Gashteovsk等人31指出OpenIE的目标应该是生成包含有效信息且内容紧凑的抽取,保持较高的准确度和召回率,为此提出了MINIE。该模型为每个元组提供语义标注,如极性、情态、归属和数量;从同位语和属有词中产生由非介词动词构成的隐性抽取;通过设计多种模式删除冗余的单词来最小化参数,以权衡准确度和召回率。虽然随着删减程度的提升,生成元组的数量有所下降,但在保证元组的紧凑性的同时仍有较高的准确度。为了处理长且复杂的句子,Cetto

38、等人32提出了GRAPHENE以将其转换成简洁紧凑的结构。该模型结合修辞结构理论(rhetorical structure theory,RST)33以自顶向下的方法递归地遍历并拆分话语树(discoursetree),并确定核心句子及其相关上下文之间的修辞关系,以保持语义关系,从而生成包含核心信息和上下文信息的双层表示结构,最后用启发式方法确定抽取的元组。该模型的目的不是为每一个可能的动词创建细粒度的关系,而是用附加的(上下文)论元(arguments)来确定主要的关系,这些论元通常包含部分动词。该模型通过牺牲召回率,保证了较高的准确度。1.1.3传统OpenIE模型之间的差异正如上文所述,

39、传统OpenIE模型多数都集中在句法和结构上,尤其是多数模型主要依赖于句法依存解析。表3针对传统OpenIE模型,从具体模型技术特点、优缺点及适用范围进行总结整理。虽然基于学习的模型展现了良好的性能,但仍旧存在一些问题。首先,仅依赖学习的模式无法覆盖所有可能的文本结构。其次,抽取的元组中存在大量如非关键提取(省略关键信息的提取)、非一致性提取(关系短语无有意义的解释)和冗余关系提取(传递过多的信息),为下游任务中的应用带来了困难。胡杭乐,等:开放信息抽取研究综述35Computer Engineering and Applications计算机工程与应用2023,59(16)基于规则的Open

40、IE模型使用人工构建的规则进行实体关系抽取。通过引入句法约束,优先抽取关系以减少不连贯和无意义的抽取。此外,此类模型可以通过修改提取模式以适应依存解析,更好地扩展到同类文本。基于子句的模型与捕获元组间关系的模型都利用手工制作的规则以提取文本中的关键特征,但前两类模型与基于规则的模型之间仍旧存在差异。多数基于规则的模型利用设计的规则整体识别输入文本。当句子结构简单且存在相匹配的模式时准确率较高,但处理结构复杂的文本时(如连接句、嵌套结构)会生成错误元组。基于子句的模型与捕获元组间关系的模型分别从句子拆分和上下文信息提取两个角度对文本进行处理,以增加模型正确表示复杂事实的能力。前者通过简化文本结构

41、来进行高精度的三元组抽取,后者对成分解析的输出进行处理,以生成语义丰富的元组,避免因忽略上下文信息而造成的不完整或不连贯提取。识别和匹配文本结构是从文本中提取语义信息的模型和算法中的核心组件,上文提及的模型多数使用依赖树34以恢复文本的句法结构,因为该方法直接将谓词连接到参数,并且其深层语法的扩展节点也标记了远程依赖关系,进一步扩大了谓词参数的覆盖范围35。尽管依存解析有很大优势,但很难从中解析出句子中表达的所有事实的完整结构,主要是以下原因:(1)不同的谓词以非统一的方式表示(例如,被动与主动、动词与形容词谓词、同位语与连接词);(2)命题边界不易检测;(3)依存结构未表示文本核心的句法细节

42、。因此,多数模型设计规则或通过启发式方法,以抽取解析结构中的特定信息。虽然启发式方法主要以特定的方式构建,类别基于学习的模型基于规则的模型模型TextRunner2WOE13OLLIE14BONIE15REVERB17KRAKEN18EXEMPLAR19PROPSDE21Kuebler等人22CLAUSIE23Schmidek等人24Stanford OIE25OpenIE412OpenIE5CSD-IE29NESTIE30MINIE31GRAPHENE32主要特点第一个自监督学习的OpenIE系统使用 Wikipedia 数据学习提取模式;引入依存解析扩展关系词范围与特征表示设计针对数值提取

43、的规则与方法基于关系动词进行抽取结合规则识别完整参数集结合语义方法识别关系与参数的联系将英文规则集移植到德语多轮解析以准确提取科学文本中的多词表达式句子拆分简化提取对复杂句进行拆分并重组将句子拆分简化为搜索问题;结合自然逻辑删减子句结合SRLIE26和RELNON27结合BONIE15和CALMIE28引入上下文句子分解(CSD)学习高精度种子模板提取事实;链接以形成嵌套表示额外的语义标注信息与多种最小化模式递归地将句子拆分并保留核心信息和相应的上下文特征优势可处理非预设的关系,避免了特定领域的训练数据,具有良好的可扩展性依存解析捕获更多特征生成更多元组;捕捉上下文信息以提升准确度保证了数值元

44、组抽取的性能引入约束辅助关系抽取更完整地抽取更多事实精确的句法模式匹配,覆盖更多的关系模式无需重新设计规则,保持了与英文相当的抽取性能多轮解析在简化抽取的同时提升准确度降低抽取复杂度;可以并行处理;抽取更多元组提升模型处理复杂句的能力高质量抽取有助于下游任务处理名词介导的关系和远程依赖关系数字信息提取;连接句拆分在解析句子结构时捕获了上下文信息嵌套表示提升了元组的信息度,并生成了更多元组提供有效且紧凑抽取的同时保证高精度和召回率的提取元组语义更丰富且内容更简洁直观不足无法捕捉长距离关系,召回率较低依存解析减慢了抽取速度,且会错误传播解析错误影响模型性能对连接词处理不佳,召回率较低启发式方法难以

45、抽取正确参数易受噪声和不合语法的文本的影响模式匹配难以覆盖所有事实没有对错误抽取进行改进难以处理复杂句,错误识别会向后传播主要是解析错误,未考虑子句间关系缺乏对其他复杂结构的处理分类器错误影响性能运行时间长,解析错误会向后传播依存解析导致的错误传播解析错误对模型影响较大过于依赖依存解析;嵌套结构中会出现空参数数字的准确度较低,忽略了上下文信息基于规则的解析会导致部分参数错误分配,召回率较低应用场景Web抽取基于维基百科的元组抽取二元信息抽取二元开放数值抽取二元信息抽取二元或n元信息抽取二元或n元信息抽取针对德语的多元信息抽取针对科学领域文本的二元信息抽取二元信息抽取与其他 OpenIE 模型结

46、合复杂句的二元信息抽取处理n元与嵌套关系处理数字信息和连接句对接语义搜索等应用程序处理复杂文本的多元信息抽取生成最小化抽取处理复杂文本,促进下游任务应用表3传统的OpenIE模型Table 3Traditional OpenIE models362023,59(16)在不同的应用中也有不同,但创建启发式方法都需要坚实的语法基础句法结构,可靠地表达多数的谓词。表4对模型的训练数据集、评估方法以及结果进行了总结。从中可以看出,对于模型性能的度量,早期模型多数利用小型数据集进行人工评估,且各个模型采用的评价指标也存在差异,因此在OpenIE任务上难以进行统一的性能比较。此外,多数模型对训练数据的依赖

47、较低,大多使用规则或启发式方法提取句法特征。总体来说,仅依赖提取模式和规则的设计很难兼顾所有的关系模式,同时多数模型使用手工制作的规则或标注数据中学习的模式从自然语言文本中抽取关系元组,并在抽取过程中应用了非线性规划工具(如依存解析),模型的性能取决于从非线性规划工具获得的特征的质量,该类模型面临着错误传播的问题2,32,47,使得近年来越来越多的学者开始引入神经网络方法。1.2基于神经网络的模型与传统模型相比,基于神经网络的模型省略了抽取模式的设计并缓解了错误传播。相关研究主要有两种抽取范式:第一类模型基于序列标注或生成方法,以端到端(end-to-end)或序列到序列(seq-to-seq

48、)的方式联合抽取谓词和参数,直接生成三元组。另一类模型将OpenIE视为流水线任务,包括两个独立的子任务,分别是抽取谓词和抽取相应的参数。模型分类如图3所示。1.2.1联合抽取基于联合抽取的模型主要分为两种方法:第一种是基于序列标注的模型。此类模型将句子中的每个单词标注为四类标签(主语、谓语、宾语或无),因此可以应用所有与序列标注相关的技术。为了识别包含重叠、不连续或嵌套元素的复杂文本,模型以迭代方式逐个标注标签序列。例如,将一个标签序列的预测标签传递到下一个迭代以填充另一个序列,从而避免冗余抽取。另一种是基于生成的模型。此类模型将OpenIE视为序列到序列生成问题,其中输入序列是句子,输出序

49、列是三元组事实42,48-50。下面从两个角度对基于联合抽取的模型进行介绍。(1)基于序列标注的模型基于序列标注的模型将OpenIE转换为序列标注任务。此类模型与NLP中基于序列标注的神经网络模型拥有类似的架构(例如NER7)。模型通常包含三个模块:用于生成词向量的嵌入层,用于生成包含上下文特征的隐向量的编码器,以及通过词向量和标注方案来预测标签的解码器。嵌入层通常将词嵌入与语法特征嵌入组合,以更好地抽取句子中的语法信息。预训练语言模型(pre-trained language models,PLM)在各种自然语言处理任务中表现出优异的性能51。PLM生成包含上下文特征的隐向量,可以用于词嵌入

50、的生成或作为模型的编码器。RnnOIE52是首个监督神经网络模型,通过结合定制的BIO标注方案,将OpenIE任务转换为序列标记任务,并从标记中重构抽取,为参数的每一种可能的方式生成一个元组。该模型为预测的每个BIO标签分配了概率,并通过启发式方法将其结合到一个提取级别(extraction-level)的置信度指标中。通过上述方法,可以有效地识别隐性谓词,生成更多且较短的元组,但召回率较低。之后的研究在 RnnOIE 上进行了扩展和改进。SenseOIE53遵循序列标注方法,将无监督模型的结果与其他语言特征(如词嵌入、词性标签等)作为输入,使用双向长短期记忆网络(bi-directional

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服