收藏 分销(赏)

因果关系抽取研究综述.pdf

上传人:自信****多点 文档编号:607503 上传时间:2024-01-12 格式:PDF 页数:12 大小:3.13MB
下载 相关 举报
因果关系抽取研究综述.pdf_第1页
第1页 / 共12页
因果关系抽取研究综述.pdf_第2页
第2页 / 共12页
因果关系抽取研究综述.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、因果关系抽取是自然语言处理技术的一个重要研究分支 以时间为轴线概述了各阶段的特点 因图神经网络能更好应对复杂因果关系重点总结了基于图神经网络因果关系抽取的模型从依赖路径、语义结构、时序等方面分析了现有研究中图结构的构建方式并对各模型进行了归纳与比较 最后展望了因果关系抽取领域的发展趋势关 键 词:因果关系关系抽取图神经网络实体抽取事件抽取中图分类号:.文献标志码:():().:收稿日期:基金项目:国家自然科学基金资助项目()作者简介:第一作者:冉紫涵女硕士研究生通信作者:向尕女博士讲师 引言信息抽取()旨在从非结构化文本中抽取出结构化的信息例如从病人的医疗记录中抽取出症状、检验结果等一系列信息

2、信息抽取主要包括实体抽取、事件抽取、实体关系抽取和事件关系抽取等任务 其中关系抽取是信息抽取的主要研究方向之一旨在从非结构化的文本数据中抽取关系信息并用结构化数据表示以加深对文本的理解 关系抽取主要分为实体关系抽取和事件关系抽取)实体关系抽取 实体是文本中基本的信息元素是正确理解文本的基础 狭义地讲实体是指现实世界中的、具体的或抽象的实体如人名、组织名、公司名、地名等 广义地讲实体还可以包含时间、因果、数量表达式等 实体之间的关系能预先定义为地理位置关系()、因果关系()、雇佣关系()等)事件关系抽取 事件在不同领域中有着不同的 含 义 在 话 题 检 测 追 踪()中事件是指关于某一主题的一

3、组相关描述这个主题可以是由分类或聚类形成 在信息抽取中事件是指在某个特定的时间片段和地域范围内发生的由一个或多个角色参与由一个或多个动作组成的一件事情 一个事件内包含着参与者、地点、时间、行为等基本论元多个事件间也存在着以共指、因果、顺承 种关系为主的外部联系 现有事件关系抽取研究主要包括共指关系抽取、因果关系抽取以及时序关系抽取其目的主要是提取一段文本内容中多个事件之间可能存在的关系 它在文本理解、逻辑推理和知识图谱构建等众多应用中都发挥出了重要作用 北京信息科技大学学报第 卷在实体和事件的各种关系中因果关系是对问题更本质的认识诸如物理学、行为学、社会学和生物学中许多研究的中心问题是对因果关

4、系进行阐述即对变量或事件之间直接作用关系的阐述 追溯文本中的因果联系对于航空安全、军事、医学、社会安全等多个领域的事件检测与预测、情景生成等都具有重要意义 例如在河南暴雨致人死亡的事件中认真梳理相关事件的因果关系和先后联系就能归纳出相关的原因便于相关部门有针对性地、及时地采取有效措施减轻灾害的影响 比如:群众“被困”原因是地铁“积水”“积水”的原因可能有“排水口堵塞”、“降雨量过大”、“没有及时疏散”等各类情况 对海量文本进行关系抽取和因果关系分析可以对原因进行梳理和归纳下次发生类似事件时可以快速进行一个合理推测预防事件发生 在智能问答中也可以达到相应的效果对相关问题给出快速解答因果关系抽取的

5、研究是文本挖掘中的一项基本任务对于关系推理具有重要意义具有重要的学术研究价值 在军事、医学、情报分析和舆情监控等领域的关系推理中有重要的应用价值 本文聚焦于因果关系抽取的研究进展对因果关系抽取的概念、分类和相关数据集进行介绍综述了因果关系抽取的主要方法 重点分析总结了基于图神经网络的因果关系抽取相关研究 对因果关系抽取面临的挑战及未来研究进行了展望 因果关系及其分类因果关系包括实体之间的因果关系和事件之间的因果关系 实体之间的因果关系抽取是从非结构化文本数据中抽取实体与实体之间原因与结果的关系事件之间的因果关系抽取是抽取事件与事件之间原因与结果的关系 无论实体之间还是事件之间的因果关系都反映了

6、原因与结果之间某种确定的联系是人类认识世界的客观基础 从信息抽取的角度看实体因果关系与事件因果关系的抽取原理基本相同 本文对实体因果关系和事件因果关系抽取的研究进行了综合分析重点对二者共通的技术进行概述.根据因果数量分类因果关系表示客观事物间存在的一种普遍联系事物的因果关系主要由原因主体和结果主体两个部分构成 根据原因与结果的不同可以分为:一因一果(一个原因导致了一个结果)、多因一果(多个原因导致了一个结果)、一因多果(一个原因导致了多个结果)、多因多果(多个原因导致了多个结果)一因一果 文本中只包含着相对应的一个原因和一个结果 例:台风导致了死亡 一个原因(台风)对应着一个结果(死亡)多因一

7、果 文本中包含多个原因对应一个结果的情况 例:小强生病了可能是因为他昨晚过劳而且着凉了 小强一个“生病”的结果有着“过劳”和“着凉”两个原因导致一因多果 文本中包含一个原因对应了多个结果的情况 例:小丽整容之后变得更加自信了也收获了爱情“整容”原因对应着“自信”和“收获爱情”的两个结果多因多果 文本中包含着多个原因与多个结果相对应的情况 例:食物残渣和幽门螺旋杆菌造成了她的胃溃疡和胃穿孔 其中“食物残渣”、“幽门螺旋杆菌”这多种病理原因导致了“胃溃疡”和“胃穿孔”的多种病理实体结果.根据因果结构分类因果关系也可以根据因果结构或者因果本身的明确与否分成显式因果关系与隐式因果关系 显式因果关系多指

8、原因和结果在文本中同时出现或者有着明确的连接词成分存在连接上的关联词比如“导致”、“引起”、“是因为”等隐式因果关系通常指原因与结果不同时在一个语句中出现或者无明确的连接词出现)显式因果 有明显连接词或因果同时出现例:中东的暴乱导致了难民潮 此处“导致”为明显的连接词且“暴乱”、“难民潮”对应因果关系均在句内出现)隐式因果 原因结果没在同一句内或无明确连接词出现无明显连接词 例:木材是一种多孔性材料具有吸湿性 木材具有“吸湿性”的原因是它本身是一种“多孔性材料”此处无明显连接词存在但又包含着因果关系非句内因果 例:据河南日报消息柘城县“”重大火灾事故发生后河南省委省政府立即成立事故调查组 目前

9、柘城县委书记、县长远襄镇党委书记、镇长已免职武术馆经营者陈林等 名涉事嫌疑人已被公安机关依法采取刑事强制措施在这一段文本中可以把结果事件理解为柘城县委书记、县长远襄镇党委书记、镇长已“免职”将相应的原因事件归纳为柘城县“”重大火灾事故“发生”两个事件所在的文本位置并不在同一句内分别在上下句中第 期冉紫涵等:因果关系抽取研究综述 因果关系抽取方法因果关系抽取任务旨在从非结构化文本中抽取原因和结果并以结构化的形式将其呈现出来 完成因果关系抽取任务一般需要两步:候选信息对的抽取因果关系分类即给定句中的因果候选对判断是否有因果关系 候选事件对抽取需要对文本中的实体、事件触发词和相关论元进行定位抽取关系

10、分类需要对候选事件进行过滤找出属于因果关系的事件对并确定原因事件和结果事件因果关系的抽取方法主要分为 类:基于模式匹配的方法、基于模式匹配与机器学习相融合的方法以及基于深度学习的方法.基于模式匹配的方法早期的因果关系抽取都是通过模式识别来完成利用语义特征、词汇符号特征和自构约束等方法人工找寻并构建事件对之间的关系之后将规则与预处理的非结构文本相匹配提取出具有因果关系的事件对最早提出了一种 的 自动定位工具根据文本中的语言规则对法语相关领域的技术文本的触发词即动词进行定位从中获取因果知识实现因果关系的提取 等发现除了动词以外有些介词也能成为新的语言线索进行模式匹配并对华尔街日报进行了因果知识的抽

11、取随后又在 年运用图形模型在医疗数据库中提取了因果知识模式匹配的方法虽然多为早年间学者使用的一种方法但随着自然语言处理分词等技术的发展模式匹配的方法也因此具有了较高的可行性仍有不少研究者投身于其中取得了一些成果 等给日语中谓语赋予了词义属性将其分为刺激性、抑制性和中性发现刺激性谓语能够有效地提取因果关系对并从一个 亿页的 语料库中提取出了 万个因果关系对精度达到 左右 等基于大约 种语言模式和不同句法特征集定位因果关系中的语法助词首次完成针对阿拉伯文本中事件因果关系的抽取即使具有较高的可行性模式匹配的缺陷依然很明显:需要耗费大量的时间和精力去研究语言学本身观察得到相应的语义特征以制定相关规则难

12、度很高人工工作量很大研究人员通常仅进行单一语言及领域的因果关系文本挖掘因此模式匹配的方法跨域适应性差可迁移性弱不能适应需要广泛的领域知识的情况 为了使整个抽取过程变得更加便捷高效学者们开始利用模式匹配与机器学习相融合的方法进行抽取.基于模式匹配与机器学习相融合的方法因果关系的抽取通常可以将其看成流水线式的两个子任务:候选因果对的抽取和关系分类 基于模式匹配和机器学习相融合的主流研究思路是用模式匹配、机器学习两种方式对应两个子任务即使用模式匹配方法进行候选信息对的抽取然后使用机器学习方法来识别有效信息 本质转换成了文本分类的问题即将具有因果关系的信息对从众多候选信息对中进行选择分类 各类研究的区

13、别在于各分类器的构造和特征的选择发现 的编码模式只关注了语言模式而没有依据知识进行推论 受此启发 设计了一种约束于词汇句法()语义关系的因果分类方法利用.决策树进行学习 等为了区别显示因果标志词中的模糊特征词提出了一种新编码模式来检测动词短语和副词从句之间的特征标记使用了.决策树进行分类 等将词汇句法模式设定为一对相互关联的连接标记和一个表示因果边界的结束标记基于局部的语义依赖树的解析器来提取时间的谓语参数 等认为特征之间不是独立的结合了语境句法连接词位置等类别特征利用隐藏朴素贝叶斯进行因果分类 随后 等发现已有基于词汇句法模式不能识别事件的边界并且相关参数容易丢失导致因果关系事件的抽取不完整

14、于是提出了一种朴素贝叶斯概率的方法识别因果事件的边界接着提出了多类决策树以解决识别因果事件边界中可能导致参数缺少的问题 该方法对大规模的中文网络语料库有很好效果机器学习的方法虽然不依赖于语料的内容与格式但依然没有解决模式匹配中需要大量人工标注以构建标准语料库的问题 且机器学习的难点在于如何对于离散型数据进行合理处理以及如何对文本特征进行选择 大部分使用机器学习研究的文本仍然局限于句内的显式因果关系并没有适应于跨句乃至跨段的文本内容此外如何摒弃传统的流水方法直接对事件对进行联合抽取也成了学者们进行研究的主要方向.基于深度学习的方法深度神经网络具有学习上下文语义、读取隐含事件特征的能力弥补了模式匹

15、配与机器学习方法 北京信息科技大学学报第 卷的诸多不足能够更好抽取语句间的因果关系 因此近年来构建深度学习模型实现因果关系抽取已成为研究的主流 等使用卷积神经网络()对文本中的因果关系进行分类对因果关系的方向识别有正向的效果 等通过基于长短期记忆()网络的深层模型进行浅层的语义分析以挖掘语言上的因果关系 周威面向金融新闻对比了 个不同的序列标注模型发现基于双向长短期记忆网络与条件随机场()结合的 模型具有最好的性能郑巧夺等针对关系边界识别能力弱和文本语义表征不足的问题 结合了门控循环单元()提出了一种基于双层 深度学习模型的事件因果关系抽取方法 等提出了多列卷积神经网络丰富了事件的语义表征实现

16、了事件因果关系的分类.小结因果关系抽取研究早期因为模式匹配的高可行性成为学者们研究的主流手段随着机器学习的出现句法模式与分类器相结合减少人工的工作量而成为热点神经网络如今蓬勃发展也吸引了更多研究者开展基于深度学习的因果关系抽取研究 神经网络的出现让可以用线性结构表征的许多研究问题得到了一定程度上的解决但自然语言中的的许多情景并不能简化为固定的排列规则和顺序 针对不适用于线性结构的场景面向图类结构的图神经网络就占据了很大的优势 基于图神经网络的因果关系抽取图()是 由 个 顶 点()和 边()组成的集合顶点又可以称为节点()两个节点之间可能存在着方向依赖关系 如果有方向依赖关系是有向图否则是无向

17、图 一个图可被记为()其中 是数量为 的节点集合 是数量为 的边集合 边()表示由 和 者两个节点相连如图 所示 图结构广泛存在于文本关系中句法依存、语义关系、事理图谱等都是典型的图结构图 简单的图结构目前因果关系抽取的主要手段依然是序列标注 可以将句子中的每一个单词都看作节点在词与词之间建立各种类型的边所以选词的不同、关系类型的不同序列标注中的图的构建更加多样 常规的神经网络不能解码很多关于图类的结构来学习特征以完成相应的任务 针对这类问题图神经网络应运而生.图神经网络的基础模型.图神经网络基础 的 图 神 经 网 络()可以将每个节点 的初始隐含状态用向量 表示然后随着时间步 的推移递归式

18、的计算节点后续隐含状态来更新和完善特征如图 所示 在节点间信息不断交换的过程中达到自我更新的平衡稳定之后特征也随之出现图 节点隐含状态的迭代第 期冉紫涵等:因果关系抽取研究综述 基础的图神经网络把神经网络带入了图的领域是后续变体模型研究的基础 但其不足之处也十分明显:一是其迭代求解隐含状态的计算效率低下且每一层的参数相同导致模型性能也不够理想其次基础的 模型忽略了边的特征不能对边进行建模也不能学习边的隐含状态而在因果关系中边的信息十分重要是区分其他信息关系的重要特征.图卷积神经网络图卷积神经网络()前期大量的研究都聚焦于卷积算子的构建 等和 等提出了谱域的图卷积方法将图卷积网络的实用性提升到一

19、个新的阶段 在此基础上 等将层级运算的 限制为 将图卷积的谱域和空域结合起来提出了 最经典的模型他将 模型拓展到具有多个边类型的有向关系图 该模型可以利用不同权重来收集具有不同标签边的信息增加了实用性尤其适用于关系数据的建模 但它过于聚焦于邻居节点的权重参数较少不能高效利用节点信息导致传播范围窄或特征向量过于平滑.图注意力神经网络自注意力机制的引入可以为每个相邻节点分配不同的注意力分数使模型能够专注于和当前任务最相 关 的 信 息 图 注 意 力 网 络()这一概念最早由 等提出它与带有门的 变体非常相似两者之间的边界不是很严格其结构模型如图 所示 其中代表了模型参数权重 可通过对邻居节点进行

20、归一化得到图 图注意力层的模型结构自注意力机制的引入使得图注意力神经网络可以获取更多的信息通过邻居节点分配任意权重实现了模型容量的提升此外自注意力层的操作可以进行所有边的并行化计算避免了在代价较高的矩阵计算中的时间消耗效率较高.基于图神经网络的实体因果关系抽取目前因果关系抽取的主要手段依然是序列标注加之图神经网络只能处理非线性结构的特征提取因此为了适应图神经网络在图上的推理不少学者从依赖路径、句法结构、时序关系等方面对图化层进行改进以提升模型性能实体因果关系的数据集早期都只关注于同一句内的二元关系 为了研究跨句的多元实体关系提出了一种基于双向的有向无环图()的 模型 该研究建立图结构的规则是以

21、单词为节点句内关系根据句法结构在具有关系的词之间添加边跨句关系则在具有关系的根节点之间建立边以从前往后和从后往前这两个相反的方向将给定文本分成了两个 用树状 分别对两个 进行编码 这种基于双向 的 模型在生物医药领域的数据集上取得了比传统树状 更好的效果 但是这种只查看限于实体间的依赖关系的剪枝方法过于激进导致了很多关键信息的丢失也忽略了语义上的交互信息 等认为传统的依赖于句法依存树的特征转换会忽略许多可能会影响因果关系判断的文本信息例如:“她去年被诊断出患有癌症并于今年 月去世”传统依赖路径中“她诊断癌症”因为漏掉了“死亡”的依赖关系所以并不能证明“癌症”是“死亡”的原因 于是 等以路径为中

22、心结合依赖路径中的信息提出了新的剪枝技术将距离最近公共祖先()子树依赖路径设为 表示为将树剪枝到依赖路径 表示直接连接到依赖路径的所有节点 表示保留整个 子树 为了处理这种树结构 等引入了结合上下文位置感知的注意力机制()采用 模型从树中提取关键信息发现在 时实验效果达到最佳 这种新的剪枝技术在不破坏关键内容的情况下最大程度地去除了无关信息提高了模型的稳定性但其针对的是多元的实体关系并不是专门针对实体因果关系所以一些关键信息依然会丢失可移植性低 为了进一步获取实际句子中词之间更深层次的依赖关系改进传统序列标注模型中的注意力机制过度关注于局部信息的缺陷许晶航等提出了 模型忽略不 北京信息科技大学

23、学报第 卷包含因果关系的句法结构以及“”指向根节点的弧将句法依存树拓展到句法依存图使传统注意力机制互相独立的线性数据转化为具有依赖关系的图形数据 将有边的对应矩阵元素设为 无边的设为 构建了有向图、无向图、有向图 “自我指向”、无向图 “自我指向”种句法依存图的邻接矩阵如图 所示 于凯馨也沿用这 种句法依存图提出了 模型进行研究 实验结果显示在其自构建的语料库上有向图的效果远优于其他 种说明了图的选取确实会影响实验的结果图 句法依存图的邻接矩阵 除了句法结构方面认为时间关系中包含事件发生的顺序也有助于判断因果关系 时间关系与因果关系的相关性在后续研究中 也有所验证 郑余祥等将时间关系转换为时间

24、关系矩阵根据 时间事件标注标准 表示在之前 表示在之后 表示为同时发生 表示时间上包含 表示时间上被包含 表示不具有时间关系如图()所示 事件 和事件 的时间关系定义如图()所示 郑余祥等使用 模型进行深度学习发现时间关系的引入能够把握事件发生的顺序有助于辨明抽取结果里的原因实体和结果实体.基于图神经网络的事件因果关系抽取事件的因果关系可以看作实体因果关系的一个拓展即把事件对中的单个事件本体看作实体中的一个长文本的事件实体 事件因果关系是实体因果关系的更粗粒度的文本层级 实体因果关系抽取的文本层级通常为句子级事件因果关系抽取的文本层级通常为篇章级两者的核心技术手段与中心思想相同但针对事件因果关

25、系的抽取任务比实体因果关系抽取中更多一步对子句即每个事件的编码工作所以相较于实体因果关系抽取任务事件因果关系的抽取任务也更加复杂、更加困难图 时间事件图结构 事件因果关系由于是更粗粒度的文本级别面对的复杂因果关系也更多 为了探索更深层次的复杂因果关系 等研究了大部分是隐形因果和跨句因果的 数据集将给定文本中的事件因果关系转化为因果图节点是事件 由于在篇章级的文本中存在大量时间所有事件节点间都可能存在因果关系所有节点都可能相连 为了更好识别各种文本中的因果关系 区分了因果关系图中边的方向将其分为:正向因果关系()、反向因果关系()和无因果关系()并使用 基 于 语 境 的 图 推 理 机 制()

26、进行抽取以捕捉事件间因果关系的深层关联事件因果关系的抽取由于需要保证原因事件和结果事件准确抽取以及准确的因果匹配两个方面为了提升原因事件和结果事件抽取的准确率李岳泽引入了原因子句与结果子句构建了子句级的第 期冉紫涵等:因果关系抽取研究综述 图使用子句中的单词作为图的实体节点子句节点与子句中每个单词的实体节点均有边连接 然后用面 向 子 句 的 图 卷 积 神 经 网 络()来学习文档的表示其模型结构如图 所示 此种图构建的方法是由所有单词作为节点来表示文本可迁移性强图 模型与 对比 除了在图的元素选取上进行方法探索外等则构建了外部词典来解决传统模型在复杂因果抽取上准确率低的问题优于此前最先进的

27、方法 等将因果指示词 词典作为外部知识建模成无定向因果关联图()使用 来学习 节点中的语义信息及其丰富的关系并将学习到的图嵌入到 中以生成全局的语义表示 实验结果发现因果指示词典的引入使得模型对事件短语和因果关系更加敏感此外事件之间的关系可以用事理图谱这种形式进行表示 因果事理图谱可以作为后续研究的先验知识因果图 部分围绕因果关系抽取展开的研究构建了因果事理图谱涉及到了航空安全、互联网热点、金融等领域.小结本文对提到的研究成果进行了总结整理结果如表 所示表 相关文献模型总结信息类型技术模型数据集实体 生物医学(自构)/英文维基百科 (自构)/事件/(自构)微博中文数据集拓展 因果关系的抽取是一

28、个正在发展的新领域 融合图神经网络的研究都集中在最近几年时间线路上的技术发展尚不明晰 但由于任务难度的不同实体因果关系抽取的研究进度比事件因果关系抽取的研究更快实验效果也更理想对复杂因果的探索也成为现在的重点研究方向 事件之间的因果关系由于文本本身的体量层级包含的复杂因果也更加丰富识别难度也更大图神经网络的运用也成了复杂文本研究的必要技术手段 从以上研究对比中可以看到各文献的数据集并不相同对模型无法进行横向比较学者们采用的评价体系也大不一样实验文本对象总体量的提升使得沿用传统的评价体系难以准确判断模型的实验效果因此可以看到有些研究采用了原因和结果分别计算抽取准确值的方法目前为了提高抽取准确率基

29、于图神经网络因果关系抽取的相关研究研究者们的改进方向都在图元素的选择上 图形的选择构建不同抽取结果也不同 另一方面时序关系的结合、外部因果知识库的拓展都对模型效果起到正面作用 相关数据集目前面向因果关系抽取可使用的数据集有 数 据 集、数 据集、数据集、数据集等 不同数据集的文本体量不同文本类型不同标注方式也不同 语料库是由语言数据联盟()发布的它是由实体、关系和事件注释组成的各种类型的数据包括英语、阿拉伯 北京信息科技大学学报第 卷语和 汉 语 目 标 是 为 开 发 自 动 内 容 提 取 技 术()提供训练数据支持以文本形式自动处理人类语言 数据集中包含已经标注了多种类型的实体、关系和事

30、件的语料数据集但其中事件的标注只有中英两种语言语料库 数据集内整体中英文训练集分别各有 万个词测试集分别各有 万个词 尽管 是事件抽取方面最经典的数据集之一包含了 个事件类别:(生 活)、(移 动)、(事 务)、(商业)、(冲突)、(交流)、(职场)、(法律)但数据集体量整体较小存在着数据稀疏的缺点其 个事件子类别超过 的类型样本数不超过 个甚至有 个事件类型的样本没有超过 个数 据 集 是 中一个子任务数据集 数据集中共包含训练集 条、测试集 条 数据集中存在的关系有(原因结果)、(实体起源)、(信息主题)、(部分整体)等 事件因果关系抽取的数据集来自其中的 部分分别占比训练集和测试集.和.

31、由于语料库内有明确的因果关系标注 数据集在事件因果关系抽取研究领域内是目前使用最广泛的数据集其缺点也是与 一样包含数据较少此外其样本数量并不均衡因果正反例大约在()采用分类方法时需要引入其他关系作为反 例 为 了 满 足 实 验 所 需 一 些 学 者 在 数据集进行了拓展和补充比如:、数据集、数据集等 其中因果关系定义和实例如表 所示表 数据集实例定义例句 ()()()/.()()().数据集是 为了满足因果关系研究的下游需求从维基百科 年 月 日的复杂英语文本和简单英语文本中创建的一个新的因果关系语料库 该数据集中共有 个含有因果关系的句子 个无因果关系的句子数据量较大解决了先前公开数据集

32、体量较小的问题 但数据内容依然存在噪音较大的问题需要进行预处理后才能继续进行相应的后续研究 该数据集用 与 区分是否含有因果关系用连接词将文本进行切割分为前半句(子句)和后半句(子句)如表 所示表 数据集实例因果关系子句 连接词子句 数据集是现有唯一公开的中文因果事件数据集是上海大学(语义智能实验室)以交通事故、火灾、恐袭、地震以及食物中毒等 类突发事件的新闻报道为基础生语料进行人工标注而成一共含有 篇文章、组因果关系 虽然整体数据量偏小但是包含了多种因果关系类型一因一果、多因一果、一因多果、多因多果句内跨句跨段的因果关系都被涵盖到 数据集以 文件的形式进行存储一个文件代表一篇新闻因果关系相关

33、数据集的标注方法和文本类型截然不同不能简单地将数据集进行合并使用 各研究用的数据集不同便不能简单地将实验结果直接进行对比这也是限制现在因果关系抽取研究发展的重要因素之一 语料库是上述介绍的 个语料库中唯一一个非公开数据集 数据集是侧重事件因果的中文数据集除了 数据集的体量较大以外其余数据集的体量都偏小 总结整理如表 所示表 相关数据集特点数据集文本类型标注对象是否公开 体量中文/英文/阿拉伯语实体/关系/事件(无阿拉伯语)否较小英文实体/关系是较小复杂英文/简单英文关系是较大中文关系/事件是较小第 期冉紫涵等:因果关系抽取研究综述 结束语因果关系抽取技术在经过十多年的不断发展沉淀后在许多方面取

34、得了丰硕成果 但仍有许多问题)事件因果关系抽取方面事件抽取精度和因果关系匹配准确性有待提高 因果关系的抽取需要准确识别事件对与因果关系才能成功完成抽取任务 由于有效信息分布于文本各处特征选择过程十分复杂繁琐另外触发词在不同文本中侧重点不同容易出现触发词识别偏差导致事件抽取的失败而因果关系的匹配需要将所有候选对的关系进行分类判断在有的文本中因果关系具有隐蔽性导致因果关系的准确识别率受到影响)实体因果关系抽取方面用于训练的语料一般经过严格的文本标注但面向非结构化文本时过于结构化的标注体系会导致相关实体的界限设定过于严格影响实体抽取的精度也会影响介词的准确划分导致抽取的实体因果难以准确表达文本的因果

35、含义 此外现有模型在抽取多处因果关系时往往只能识别部分因果关系导致抽取准确率不理想)在因果关系抽取数据集方面目前常使用的、等数据集数据体量都比较小关系分类定义有所差异 也不能简单地将各数据集直接合并起来使用未能形成较为通用、全面、规模较大的数据集难以满足研究需要为了突破当前的研究困境我们认为亟需解决的问题及研究方向如下)打破数据集的不平衡僵局推进数据集的可继承化 由于研究主体分散形成了数据稀疏、数据集体量小等自适应困境限制了研究的广度和深度这些实体和事件抽取研究数据集的不平衡特点必然是未来亟需突破的攻坚点 因此实现数据的可继承能够弥补研究之间数据标注体系迥异的缺点增强研究之间的可对比性 同时通

36、过生成因果事理图谱以此扩大图数据集体量能够促成数据集向可继承化转变)进一步研究多因果关系抽取 虽然已有一些研究不仅限于一因一果关系但一对多、多对一因果关系的抽取效果并不理想 面对更复杂的因果关系研究图神经网络的引入解决了部分问题但多因果关系的抽取、标注体系和评价体系都需要进一步研究和完善才能提升多因果关系的识别准确率)挖掘图神经网络的潜在优势提升信息抽取精度 图神经网络具有处理非结构化数据的天然优势在联合抽取方式下具有巨大潜力 然而在使用图神经网络时实验前期准备如数据预处理以及标注层面到底应该怎么调整模型与数据之间的交互磨合亦或是相关词典的数据图化都还需要进一步展开精细化研究以进一步发挥出图神

37、经网络的优势从而使其研究登上新的台阶参考文献:.():.代建华彭若瑶许路等.基于深度神经网络的信息抽取研究综述.西南师范大学学报(自然科学版)():.赵妍妍秦兵车万翔等.中文事件抽取技术研究.中文信息学报():.李保利陈玉忠俞士汶.信息抽取研究综述.计算机工程与应用():.车万翔刘挺李生.实体关系自动抽取.中文信息学报():.高强游宏梁.事件抽取技术研究综述.情报理论与实践():.赵军刘康何世柱等.知识图谱.北京:高等教育出版社.:.(/):.赵森栋刘挺.因果关系及其在社会媒体上的应用研究综述.软件学报():.许晶航.基于深度学习与图注意力网络的因果关系抽取研究.长春:吉林大学.干红华潘云鹤.

38、基于事件的因果关系的默认规则表达与推理模型.模式识别与人工智能():.王天思.试论因果结构 兼评哥本哈根学派的因果观.中国社会科学():.王朱君王石李雪晴等.基于深度学习的事件因果关系抽取综述.计算机应用 北京信息科技大学学报第 卷():.刘辉江千军桂前进等.实体关系抽取技术研究进展综述.计算机应用研究():./:.():./:.:/:.():./:./():.:.:.:/:.():.:/:.周威.融合因果事件的知识图谱构建及其应用研究.上海:华东师范大学.郑巧夺吴贞东 邹俊颖.基于双层 的事件因果关系抽取.计算机工程():.():.陈雨龙付乾坤张岳.图神经网络在自然语言处理中的应用.中文信息

39、学报():.第 期冉紫涵等:因果关系抽取研究综述 .():.徐冰冰岑科廷黄俊杰等.图卷积神经网络综述 .计 算 机 学 报():./.().:/././:.:./:./:./:.()/():.:./:.许晶航左万利梁世宁等.基于图注意力网络的因果关系抽取.计算机研究与发展():.于凯馨.基于语义依存分析与预训练语言模型的 因 果 关 系 抽 取 .长 春:吉 林 大学./:.:/:./(:):.郑余祥左祥麟左万利等.基于时间关系的 因果关系抽取.吉林 北京信息科技大学学报第 卷大学学报(理学版)():.:.李岳泽.基于预训练语言模型与图卷积神经网络的文档级因果关系抽取.长春:吉林大学.:():./.().:/././(:):./:./():.胡欢.面向热点话题的因果事理图谱构建及应用研究.青岛:青岛大学.谭云彭海阔秦姣华等.基于权重计算的中文因果关系分析.华中科技大学学报(自然科学版)():./:./:.:/:./(:):.付剑锋刘宗田刘炜等.基于层叠条件随机场的事件因果关系抽取.模式识别与人工智能():./:.:.

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签
资源标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服