1、第 卷第 期计算机应用与软件 年 月 基于 模型的航空安全事故因果事件的同指消解王红王阳吴浩正(中国民航大学计算机科学与技术学院天津 )收稿日期:。国家自然科学基金项目();空中交通管理系统与技术国家重点实验室开放基金资助项目()。王红,教授,主研领域:语义数据挖掘与知识图谱。王阳,硕士生。吴浩正,硕士生。摘要针对航空安全事故因果事件的抽取结果复杂难以快速确定事故发展过程的问题,提出一种将孪生神经网络()与 模型相结合的因果事件同指消解方法。该方法在孪生神经网络中将事件句分别输入到相同权重的两个 模型,经平均池化得到句子级语义向量,再通过 分类器进行同指判断并消解,在同指消解的基础上采用逆遍历
2、去冗余,实现了航空安全事故因果链的构建。实验结果表明,该方法有效提高了航空安全事故因果关系的可解释性,为多事故的关联分析奠定了基础。关键词航空安全事故因果事件同指消解孪生神经网络 中图分类号 文献标志码 :(,),引言事件同指消解 是将指向现实世界中同一个事件的描述句链接到同一个事件链的任务。早期的事件同指消解大都基于已知事件,可以充分利用事件的标注属性 ,而基于未知事件的同指消解由于无法使用标注信息,因而任务难度大,相关研究也较少。等 首次使用神经网络的方法对文档内事件进行同指消解,基于 对句子和触发词上下文进行特征抽取,并通过特征之间的余弦相似度判断事件是否同指。此后,基于未知事件的同指消
3、解研究也大部分都是使用简单浅层网络 和基于特征抽取 的方法进行事件同指消解。在航空安全事故管理 中,航空安全事故调查报告 对事故原因的产生与发展过程的描述一般较为复杂。航空安全事故因果事件同指消解属于未知事件的同指消解,用于识别因果关系抽取结果中的同指事件并构建因果链。目前针对航空安全事故因果事件同指消解的研究主要是祝寒 采用 词向量 计算机应用与软件 年相似度计算方法实现的句子主语之间、触发词之间、宾语之间的同指消解,该方法可以较好地处理单词之间的相似度,但是它无法得到句子级的语义相似度且不能解决多义词的问题。模型 是一种关联上下文的深层双向编码器,不仅能区分多义词,而且将负采样提升至句子级
4、别,充分描述字符级、词级、句子级甚至句间关系特征。中文 模型 基于中文 模型在预训练中增加了全词遮罩(),将句子的切分粒度由字变成了词,在多个中文数据集上超过了中文 模型的效果。但是,在计算语义相似时它需要将两个句子一起放入网络,大量的计算开销使其不适合语义相似搜索之类的无监督任务。如果仅将单句放入网络,使用在句子前插入的 符号对应的输出向量作为整个句子的语义表示,会导致效果变差 。孪生神经网络 是一种用两个网络结构分别来表征句子对中的句子然后计算其相似度的方法,适用于类别数多但每个类别的样本数量少的情况,可以降低计算开销。为此,本文将孪生神经网络与中文 相结合,通过构建 模型,对航空安全事故
5、因果事件进行同指消解,旨在进一步提高事故因果链的语义效果和可解释性。研究思路因果事件由句子描述,例如:事件 为“飞行员没有维持目视飞行程序”,事件 为“飞机在最低安全高度下面飞行”。如果事件 导致事件 ,则称二者是一个因果对 ,。基于从事故调查报告抽取的多个因果对,本文的研究思路如图 所示。图 研究思路()句子预处理。利用正则表达式清洗句子使其具有语义,并用字符串匹配删除相同因果对。()因果事件同指消解。针对单个事故,计算每个结果句和与之不成对的原因句以及标题句是否同指,将同指的句子消解,获得有价值的因果对。()因果链去冗余。将事故标题句作为终点句,通过逆遍历删除与终点句无关的事件,并根据消解
6、和去冗余后的因果对构建航空安全事故因果链。因果事件同指消解方法 模型 是双向 的编码器,它不仅通过双向 关联了上下文,还通过全词遮罩任务和下一句预测任务进行了数据的预训练,从而能够在大规模中文语料上进行无监督学习,有效解决句子级的语义相似度计算问题。模型如图 所示。图 模型结构用 模型比较任意两个句子是否语义相似时,先将它们分别输入到共享权重的两个 中,再通过平均池化可以得到固定大小的句向量 和 ,然后采用下式进行 分类:(,)()式中:权重 ;是句向量的维度;是分类标签个数。训练 模型时,考虑到效率和泛化性,设置批量大小()为 ,使用 优化器,先在 的数据上进行学习率预热()使模型慢慢趋于稳
7、定,再沿用 模型句对匹配的最佳学习率 ,在中文维基百科数据集中进行 轮()训练。是哈工大深圳研究生院智能计算研究中心发布的句对分类数据集,由 、和 第 期王红,等:基于 模型的航空安全事故因果事件的同指消解 组成,为 时说明 与 相似,为 时则不相似。为了验证 模型的有效性,将其与 和 在 中分别进行测试。其中,是通过词向量来计算句子相似度的方法,用于航空安全事故因果事件同指消解 ,是直接使用 的 标记得到句向量的相似度计算方法。的评测指标是正确率(),即正确判断的数量占样本总量的百分比,实验结果如表 所示。表 评测结果()方法 正确率 由表 可见,的正确率高于 ,因为 的语义是词级的而且不能
8、区别多义词,而 不仅关联上下文将语义提升至句子级别,还可以区别多义词。的正确率比 还低是因为用它得到的任意句向量之间的距离都很近。同指消解过程,是从航空安全事故调查报告中抽取出的多个因果对,其中事件 导致了事件,和 分别是事故的原因事件集合和结果事件集合,事故唯一的标题 是事故终点句。在对单个航空安全事故的因果事件进行同指消解时,为避免标题句 被覆盖,对 中所有结果句,先与 进行同指判断,再在所有与之不同对的原因句()中进行语义相似搜索,相似即为同指。()结果句和标题句同指消解过程。结果句和标题句的同指消解过程如图 所示。图 结果句和标题句同指消解过程单个航空安全事故中,只用 模型判断两句话是
9、否同指会遗漏一些同指情况。比如“美国航空公司 飞机圣路易斯发动机起火”和“发动机起火”在这起事故中是同指的,“哥伦比亚机场冲出跑道”与“事故”也是同指的,但如果只用 模型判断,一句描述具体事件,一句描述一类事件,不能被认为同指。航空安全事故中不存在因句子结构划分而存在歧义的情况,因此,在 模型判断相似前,先通过字符串匹配判断句子字面包含关系来识别单个事故中广泛描述句和具体描述句是否同指。如果标题句 包含结果句、结果句 包含“事故”二字,或者通过 模型判断出两句相似,则两句同指,将结果句改为与标题句相同的句子。()结果句和原因句同指消解过程。结果句和与之不同对的原因句的同指消解过程如图 所示,也
10、是先判断句子字面包含关系,再用 模型判断相似。图 结果句和原因句同指消解过程如果结果句 和原因句()有包含关系,或者通过 模型判断出两句相似,则两句同指。其中,用来记录原因句 是否修改过,初始值为 表示未修改,为 时则表示修改过。对同指的两句进行消解时,如果原因句未修改过,将原因句改为与结果句相同的句子,否则将结果句改为与原因句相同的句子。计算机应用与软件 年 实验结果及分析 数据处理原始数据是从世界航空安全事故调查报告的 个事故中抽取的 个因果对。用正则表达式删除句子中不必要的词,生成具有语义的句子,需删词语的正则表示如表 所示。再通过字符串匹配删除重复的因果对,最终得到 个符合要求的因果对
11、作为实验数据。表 需删词语的正则表示句子类型删除项标题句 事件原因句从而?是?这?有可能?可能?这可能?总结?导致?并且?所以?因此 是:导致:如下:随后 包括:为:称:因素为 ,总结:,。,表示结果句 导致 可能的原因 ,认为 的 了 ,此外 ,。,称 同时含有不同因果对数量的事故个数如图 所示,每个航空安全事故都包含至少 个因果对,至多 个因果对。大部分航空安全事故的因果对数量都在 以内,占事故总量的 。图 个航空安全事故的因果对数量分布 同指消解结果在单个航空安全事故内,将每个结果句和与之不在同一因果对的其他原因句以及事故标题句进行同指消解。同指消解效果评估指标值包括准确率 ()、召回率
12、 ()和 值(),其中:是同指消解结果中正确消解数量占实际消解数量的百分比,反映了同指消解的准确程度;是同指消解结果中正确消解数量占应消解总数的百分比,反映了同指消解的完备性;值是结合二者的综合评估指标,采用式()计算。()如表 所示,模型的效果比 更好,因为它解决了 存在的多义词的问题,关联了上下文充分描述句子语义,基于 模型再加入字符串匹配后还能识别单个事故中广泛描述句和具体描述句的同指关系。表 航空安全事故因果事件同指消解结果()模型准确率召回率 值 航空安全事故的因果事件同指消解后,同一个事件都只能由相同的句子描述。以标题 是“年 月 日 航空 阿拉木图附近撞地坠毁”的事故 为例,它的
13、 个因果对如表 所示。表 事故 的因果对句子表示因果对句子表示,心脏病发作,机长失能 ,机长突然失能,升降舵反转 ,反转的升降舵,飞机俯冲 ,机头向下俯冲,撞地 ,驾驶舱资源管理不当,飞行参数缺乏监控 ,飞行员对飞行参数的监控不足,向下俯冲 ,大雾中能见度降低,缺乏地面目视参考 ,失去目视参考,躯体重力感知错觉 ,缺乏对地面的目视参考,复飞 ,飞行员出现躯体重力感知错觉,事故 ,撞地坠毁,人员伤亡 ,机长的安全肩带没有勒紧,机长大面积受伤 事故 的所有结果句 在标题句 和原因句()中对同指的句子进行消解,过程如下:)与 同指,替换为,。)与 同指,替换为,。)与 同指,替换为,。)与 同指,替
14、换为 ;()与 同指,替换为 ,。)与 同指,替换为,。)与()同指,因 ,替换为。)与 同指,替换为,;与同指,替换为,。)与 同指,替换为,。第 期王红,等:基于 模型的航空安全事故因果事件的同指消解 )没有同指句。)与 同指,替换为 ;()与 ()同指,因 ,()替换为 ()。)没有同指句。)没有同指句。同指消解前后的因果对如表 所示。相同事件的句子描述被统一,使得原本包括标题句在内的 个事件句简化为了 个事件句。表 事故 同指消解前后的因果对原始因果对同指消解后的因果对,去冗余同指消解后的因果对虽然可以构成因果链,但是仍存在冗余,从事故终点句 开始,逆遍历所有能够直接或间接导致 的事件
15、,将它们加入列表 ,遍历完之后仍不在 中的就是需要删除的冗余。去冗余流程如图 所示。图 因果链去冗余流程事故 中,同指消解后由相同节点和因果对关系构成因果链如图 所示,、是删除的冗余事件。通过同指消解和去冗余,最初的 个因果对和包括标题在内的 个事件句,简化为因果链中的 个因果对和包括标题句在内的 个事件句。直接或间接导致最终结果的事件都被保留,因果链仍能有效描述事故发展过程。图 事故 的因果链构建过程 个航空安全事故的因果对数量统计结果如图所示,因果对总量由 减至 ,减少了 ,有效降低了因果链的信息冗余。图 个航空安全事故处理前后的因果对数量分布对比 结语本文提出的 模型,通过在孪生神经网络
16、中使用 获取句向量,将事件句的语义表示由词级提升至句子级并减少计算开销。与原有的航空安全事故因果事件同指消解方法相比,综合评估指标 值提高了 百分点,进一步增强了事故因果链的可解释性,为多航空安全事故的因果链的构建和关联分析奠定了基础。参考文献 ,:,:,计算机应用与软件 年 :,:,:,:,:,:,:陆震寰,孔芳,周国栋 面向多语料库的通用事件指代消解 中文信息学报,():宦敏,程昊熠,李培峰 基于结构化表示的中文事件同指消解方法 中文信息学报,():中 国 民 用 航 空 局 民 用 航 空 安 全 信 息 管 理 规 定:北京:中华人民共和国交通运输部,中国民用航空安全信息系统 :祝寒
17、基于事理图谱的航空安全事故因果关系研究 天津:中国民航大学,:,:,:,:,:,:,():,:,:(上接第 页),():,():,():,:,():郭庆,朱一凡,谢莹莹,等 面向大规模网络流量数据的实时汇聚查询关键技术研究 小型微型计算机系统,():王智远,陈榕,任崇广 基于集成学习的云平台异常点检测 计算机工程与设计,():霍东雪,刘辉,尚振宏,等 一种异构集成学习的儿科疾病诊断方法研究 计算机应用与软件,():,():,():王锟朋,高兴宇 基于附加间隔 特征的人脸聚类算法 计算机应用与软件,():王韫烨,孔珊 基于检测器集层次聚类的否定选择算法 计算机工程,():赵仁和,王军锋 自适应尺度的局部强度聚类图像分割模型 计算机工程与科学,():陈怡君,曹逻炜,杜玉倩 基于自步数据重构正则化的模糊 均值聚类算法改进 计算机与现代化,():