1、May,2023JOURNAL OF CHINESE INFORMATION PROCESSING2023年5月Vol.37,No.5第5期第37 卷中文信息学报文章编号:10 0 3-0 0 7 7(2 0 2 3)0 5-0 10 1-11基于异构图神经网络的高考阅读理解问答研究杨陟卓1,李沫谦,张虎,李茹1,2(1.山西大学计算机与信息技术学院,山西太原0 30 0 0 6;2.山西大学计算智能与中文信息处理教育部重点实验室,山西太原0 30 0 0 6)摘要:机器阅读理解是自然语言处理领域的核心任务,高考阅读理解自动问答是近年来阅读理解任务中的重要挑战。由于高考题难度较大,同时高考阅读
2、理解问答的数据集较少,导致传统的方法答题效果欠佳。基于此,该文提出一种基于异构图神经网络的答案句抽取模型,将丰富的节点(句子节点、词语节点)和节点之间的关系(框架关系、篇章主题关系)引入图神经网络模型中,问句不仅可以通过中继词语节点与候选句节点进行交互,还可以通过框架语义和篇章主题关系与候选节点进行相互更新。不同类型的语义节点和多维度的语义关系可以帮助模型更好地对信息进行筛选、理解和推理。模型在北京高考语文真题上进行测试,实验结果表明,基于图神经网络的问答模型答题效果优于基线模型,F1值达到了7 8.0 8%,验证了该方法的有效性。关键词:阅读理解问答;答案句抽取;异构图神经网络;框架语义;篇
3、章主题中图分类号:TP391文献标识码:AQuestion Answering in Reading Comprehension of College EntranceExamination Based on Heterogeneous Graph Neural NetworkYANG Zhizhuo,LI Moqian,ZHANG Hu,LI Rul-?(1.School of Computer and Information Technology of Shanxi University,Taiyuan,Shanxi 030006,China;2.Key Laboratory of Com
4、putation Intelligence and Chinese Information Processing of Shanxi University,Taiyuan,Shanxi 030006,China)Abstract:The question answering of college entrance examination reading comprehension is an important challengein reading comprehension task in recent years.This paper proposes a model of answer
5、 sentence extraction based onheterogeneous graph neural network.Rich relationships(frame semantics and discourse topic relationships)between nodes(sentences and words)are introduced into the graph neural network.Therefore,questions can inter-act with candidate answer sentences through both words nod
6、es and frame semantics and discourse topicrelationships.The results show that the proposed model outperforms the baseline model with 78.08%Fr value.Keywords:reading comprehension QA;answer sentence extraction;heterogeneous graph neural network;frame se-mantics;discoursetopic0引言近年来,让计算机通过不同层次的入学考试成为人
7、工智能领域的一项重大挑战 1。众所周知,高考是基础教育考试中具有选拔性质的考试,在各类考试中难度系数最大。2 0 15年我国也开展了8 6 3项目“语言问题求解和答案生成关键技术”的研究,主要目标是研制出能够参加我国高考并考取大学的智能答题机器人。在该课题的推动下,目前面向高考试卷的阅读理解已成为机器阅读理解任务中的一个重要研究方向。收日期:2 0 2 1-10-0 9定稿日期:2 0 2 2-0 1-0 4基金项目:国家重点研发计划项目(2 0 18 YFB1005103);山西省基础研究计划项目面上基金(2 0 2 10 30 2 12 346 9);国家自然科学基金(6 2 17 6 1
8、45)1022023年中文信息学报高考语文阅读理解所涉及的复杂问题包含大量主观问答题,通常包含一篇或多篇背景材料、一个或多个问题。答案要点经常分布在背景材料中的不同段落,即一个问题可能需要理解多个段落甚至多篇材料。这类问题重点考察考生对文章的理解能力、筛选并整合文中信息、归纳内容要点和概括中心意思的能力。高考阅读理解中问答题样例如表1所示。表1高高考阅读理解问答题示例2016年北京高考语文第8 题问句:请结合上面三则材料,简要说明从“蚊龙”号到“彩虹鱼”号,我国载人深海潜水事业的发展有哪些特点。背景材料:材料一自助科技创新催生“蚊龙”入水二十一世纪以来,世界各国材料二“蛟龙”潜水世界关注近日美
9、国某网站称英国媒体对“蛟龙”号也作了详细报道日本通讯社称材料三“彩虹鱼”中国深浅新利器国际上对海洋的深度区是这样划分的根据“彩虹鱼”项目总体设计参考答案对应的答案句(来自背景材料中):材料一第三段:2 0 13年,“蛟龙”号转入试验性应用,并首次搭载科学家下潜,取得了大量宝贵样品,标志着我国已经具备了进行深海实地科学考察和研究的能力。材料一第四段:“蛟龙”号载人潜水器的研制充分体现了我国自主科技创新的追求。(段落主题句)材料一第四段:“蚊龙”号的自动驾驶水平、水声通信功能也要略胜一筹,特别是水声通信传输图像的能力和微地形地貌的探测能力更是“新阿尔文”号所不具备的。材料二第三段:该报还认为,“蛟
10、龙”号代表中国“打响了征服海洋的战斗”,尽管它目前的任务仅限于纯科学领域,但是中国政府希望“蛟龙”号探索深海的能力使中国处于领先的优势地位,对深海的大量金属矿藏进行合理利用。(段落主题句)材料三第六段:因此,“彩虹鱼”号载人潜水器需要克服压力巨大、深海低温和深海供氧等难题。(段落主题句)材料三第四段:万米级深渊科技流动实验室建成后,将具备目前美国、欧洲和日本的深海载人潜水器所没有的万米深渊作业功能,能够填补我国在深渊科技这一前沿技术领域的空白,提升我国开展大洋深海交叉科学研究的综合能力,占领世界深渊科技研发的制高点。(作者观点句)近年来,深度学习方法在普通阅读理解任务上取得了较好的答题效果,但
11、是直接应用在高考语文阅读理解问答任务上效果较差。一方面,对于高考语文阅读理解任务,训练数据的匮乏是制约深度学习方法深入应用的关键性问题。另一方面,高考阅读理解问答相对普通理解任务难度较大,传统深度学习模型的缺点主要体现在以下几个方面:(1)问句和候选句之间的语义鸿沟较深,模型缺乏问句中的抽象词与材料中的具体词之间的语义对应分析。例如,在表1所示的2 0 16 年高考语文问答题中,该问题包含抽象词语“特点”,而与该问题相关的答案候选句包含具体词语“自主创新”。(2)模型进行信息筛选、理解和推理能力不够强,导致模型输出的与答案要点相关的候选答案句排序靠后。例如,2 0 16 年高考语文问答题中,由
12、于很多段落中的句子都包含问句中的关键字“蛟龙”和“彩虹鱼”,对模型造成了严重的干扰,导致包含这些关键字的非答案句排序非常靠前。(3)高考语文阅读理解问答通常考察学生对文章主旨的理解、对作者观点概括的能力,而传统的深度学习模型缺乏分析文章主旨与作者观点的能力。例如表1的在参考答案中,很多答案句都是文章中的段落主题句和作者观点句,如何将这些语义关系有机融人深度学习模型是一项挑战。针对以上问题,本文利用异构图注意力网络对高考阅读理解问题进行建模,提出一种基于异构图神经网络的阅读理解答案句抽取模型。具体地,针对问题(1)和问题(2),将丰富的节点(句子节点、词语节点)和节点之间的关系(框架关系、篇章主
13、题关系)引人图神经网络模型中,在网络图中,问句不仅可以通过中继词语节点与候选句节点进行交互,还可以通过框架语义关系与候选节点进行相互更新。不同类型的语义节点和多维度的语义关系可以帮助模型更好地对信息进行筛选、理解和推理,缓解问句与答案候选句之间较深的语义鸿沟问题。针对问题(3),本文通过基于篇章主题的候选句分析方法,发现与问句相关的文章主题句和作者观点句,并且将这种关系有效融人图神经网络模型中。最后综合全局语义信息,在统一的图神经网络模型中,分析、推理与问句相关的答案候选句。本文的贡献主要有:基于端对端的神经网络模型对高考阅读理解中复杂问题的解答进行了探索。构建异构关系神经网络图,在神经网络模
14、型中加入了不同粒度的语义节点,包括词语、问题和候选句。在神经网络模型中融人了丰富的语义关联,包括问词语与问题、候选句之间的关联,问句和候选句1035期杨陟卓等:基于异构图神经网络的高考阅读理解问答研究之间的语义关联。在统一的神经网络图模型中,综合考虑全局语义信息,对答案句进行获取和推理。1相关工作1.1机器阅读理解问答机器阅读理解旨在衡量机器根据给定的上下文理解自然语言的能力,近年来受到了越来越广泛的关注。随着深度学习和大规模数据集的快速发展,国内外对于机器阅读理解的研究不断深入。常见的机器阅读理解任务可以分为四种类型:完形填空、多项选择、片段抽取、自由回答。随着各种阅读理解任务集合 2-9
15、的发布,机器阅读理解从完形填空任务发展到抽取片段任务,从参考单一阅读材料发展到参考多个阅读材料,从简单事实类问题发展到需要深度理解和推理的复杂类问题。阅读理解问答是指在阅读材料中抽取与问题相关的答案句。普通阅读理解问答 10-141要求问答系统自动分析问题与阅读材料,对阅读材料中的答案句进行精准的定位,向用户返回一个精确的答案。Yang等 15采用LSTM和注意力机制编码问题句和材料句,捕捉问题句和材料句的交互;Wang等 16 关注材料句与问题句之间的匹配方式,采用神经网络、减法、乘法等方式对材料句与问题句进行交互;卓 17 采用双向LSTM捕捉上下文语义信息,并采用注意力机制对句子的语义特
16、征进行更好的表示,实现问答匹配算法。Li等 18 采用循环神经网络编码句子语义信息,并结合CRF将答案句抽取任务转换为序列标签预测任务;栾 19 针对答案自动抽取和句子排序,提出采用句子内部的注意力机制对问题及材料句进行特征提取,并引人词共现特征、文档倒数特征、词相似度特征等提升答案抽取的准确性,同时结合深度学习技术对抽取的答案句进行融合;苏等 2 0 针对已有工作无法解决多片段答案的问题,提出了面向多片段答案的抽取式阅读理解模型BERT-Boundary,采用BERT对问题和材料句进行编码,利用边界序列标注对答案的起始和结束位置进行标注,进而抽取出答案句;已有阅读理解问答模型通常采用序列编码
17、的方式对阅读材料中的句子和问题进行编码,通过对句子和问题进行特征交互或者匹配来计算二者的交互概率或匹配程度。在考试阅读理解问答方面,Zhang等 2 1针对高考历史问答题,提出一种混合神经网络模型,该方法首先为每个问题标记相应的语义标签,然后采用合作门控神经网络检索答案句。李等 2 2 针对高考语文问答题,提出借助框架匹配和框架关系匹配的方法抽取答案候选句,并且利用流形排序的方法对候选句进行重新排序。杨等 2 3针对框架匹配方法 2 2 的缺点,通过识别篇章主题选择与问题语义相关的答案句。1.2图表示学习近年来,图表示学习在表示学习方面显示出了强大的潜力,并且在很多自然语言处理任务中取得了较为
18、可观的性能 2 4,例如,文本分类 2 5-2 6、推荐系统 2 7-2 8、自动文摘 2 9-30 等。图表示学习旨在学习图的结构信息和节点内容信息,将图结构中的节点和内容信息表示为低维向量,通过深度学习方法将学习到的节点表示用于下游任务。典型的神经网络模型包括图卷积网络(GraphConvolutionNetworks,GCN)31、图注意力网络(Graph Attention Net-works)32、图自编码器(GraphAutoencoders)3图生成网络(Graph GenerativeNetworks)34等。Lv等 35引人外部知识,根据问题和答案选项,从外部知识库中抽取出关
19、键句并构建图结构,采用GCN和图注意力机制对节点进行编码;Asai等 36 将Wikipedia以图的形式组织,提出了RecurrentRetriever的结构,采用RNN进行检索与答案段预测。图表示学习目前在阅读理解方面的工作并不多,Zheng等 37 提出多粒度机器阅读理解框架,利用图注意力网络获得文档、段落、句子不同粒度的表示,对长、短答案之间的依赖关系进行建模,对两个子任务进行联合训练;Ding等 38 提出一种新颖的迭代框架,使用两个系统来维护一张认知图谱,系统1在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统2 利用图神经网络在认知图谱上进行推理计算;Song等 39
20、 提出一种新的方法将背景材料构建为一张全局信息图,采用两种图神经网络对图中的信息进行证据集成,然后在该图上进行多跳推理。这些工作通常以文档或句子为节点构建同构图,并利用图神经网络模型学习节点的表示。此外,以上的工作都应用在英文数据上,都是对简单的事实型问题进行解答,一般通过实体以及实体的关系可以找到答案。然而,高考阅读理解的问题大部分是复杂、抽象类的问题,问题语义概括程度较高,阅读材料篇幅较长,答案句较多,并且分布在材料中的各个段落,必须对问题和材料信息进行深度理解和推理才能获取较全面的答案,因此阅读理解问答任务中答案句抽取的难度更大。另外,由于高考训练数据缺乏,端对端的神经网络模型训练不够充
21、分,且传统的方法容1042023年中文信息学报易带来联机错误。因此,本课题针对传统方法的缺点,研究基于图神经网络的高考阅读理解问答方法,该方法在网络模型中引人丰富的节点和节点之间语义关系,缓解数据稀疏问题。在较少的标注语料条件下,充分利用问句与答案候选句之间的内在语义关联,显著提升问答系统的答题效果。2问答异构图的定义与构建2.1问题定义近年来,研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于处理图数据的各种神经网络结构,与其他图神经网络最大的不同是,图注意力网络引人了注意力机制,给予那些较为重要的节点更大的权重。在端对端的框架中,注意力权重和神经网络参数共同被学习得到
22、。为了方便地将语义节点和关系融人图神经网络,本文利用图注意力网络对阅读理解问答任务进行建模。在高考语文阅读理解任务中,给定背景材料D=(S1,,S,),问句Q,本文的目标是为每个句子预测一个标签y1,yn,(y;E0,1)y;=1表示句子被选择为问句的答案句,n表示背景材料中句子的总数。以往的研究在阅读理解任务中构建的网络图都是同构的,图中节点的关系也比较单一,导致对候选句推理不够充分,为克服之前研究工作的缺点,本文构建异构网络图,将丰富的节点与节点之间的语义关系引人网络图中。给定异构图G=(V,E)V 是图的节点集合,由两种类型的节点组成:作为超节点的句子节点S,和作为中继节点的词语节点W,
23、其中,词语节点表示问句和候选句中共同出现的词语。E代表图中节点间边集合:包括超节点之间的边和中继节点与超节点之间的相连。2.2问答异构图的构建问答异构图模型如图1所示,圆型代表词语节点、长方形代表文章句子节点、正方形代表问题节点;实线表示词语节点与文章句子、问题节点之间的关系,虚线表示文章句子节点与问题节点的语义关系。候选句抽取异构网络图QS1W3SW3QW3S1SW11QuestionQWW1SWS2QW2SW27W21111Qs2WordBERTTF-IDFBERT语义关联Encoder问句词语候选句图1基于图神经网络的问答题候选句抽取模型1055期杨陟卓等:基于异构图神经网络的高考阅读理
24、解问答研究2.2.1节点初始化令XERxdw表示词语的输入特征矩阵,X,ERxd.和X。ER n x d a 分别表示背景材料句子节点和问题节点的输入特征矩阵,其中,d为嵌入词语的维数,d,d。是文章句子和问题表示向量的维数。具体来说,本文首先利用Word2Vector获得训练好的词向量X,然后使用BERT模型 37 得到问句和候选句的编码表示X,和X。2.2.2边的初始化2.2.2.1中继节点(词语)-超节点(问句和候选句)为了衡量词语与文章句子、问题节点间的关系,本文使用TF-IDF值计算词语和句子之间的关联。词频(TF)是句子中出现的词频,而反文档频率(IDF)是逆文本频率指数。2.2.
25、2.2超节点(问句)-超节点(候选句)(1)基于汉语框架网的候选句分析建立问句与答案候选句的语义关联是问答系统的核心步骤,本文利用汉语框架网和篇章主题对答案候选句进行语义分析和推理 2 3。其中,基于框架相似性的方法是通过计算背景材料与问句之间语义场景(框架)的相似度来进行答案句检索;基于框架关系的方法可以从语义相关角度获得与问句语义相关的答案句。基于框架匹配的候选句抽取示例如图2 所示。问句中目标词“发展”激起的框架与候选句中目标词“提升”激起的框架相同;问句中目标词“发展”激起的框架与候选句中的目标词“开展”激起的框架存在间接关系。问句与候选句涉及的语义场景非常相似。因此,基于框架匹配的方
26、法将该句抽取出来,作为答案候选句。2016北京语文阅读理解问答题:Q:请结合上面三则材料,简要说明从蛟龙Na号到彩虹鱼No号,我国载人深海潜水事业的 有哪些特点。使发展过程总分关系因果关系使用关系过程初始状态进展S:万米级深渊科技流动实验室建成后,将具备目前美国、欧洲和电本的深海载人潜永器所没有的万米深渊作业功能,能够填补我国在深渊科技这一前沿技术领域的空白,我国 大洋深海交又科学研究的综合能力,占领世界深渊科技研发的制高点。图2基于框架匹配的候选句抽取示例(2)基于篇章主题的候选句分析通过分析历年高考试题发现,高考真题经常考察考生归纳内容要点、概括中心意思、提炼作者观点态度的能力。因此,与问
27、句相关的段落主题句和作者观点句是最终答案的概率较高,如表1所示。本文利用基于篇章主题的候选句分析方法,查找背景材料中的段落主题句和作者观点句,弥补语义信息难以匹配的需要深层次语义理解、推理的答案候选句。可以通过位置信息和句子之间的语义相似性计算各个句子是否是篇章主题和作者观点,具体计算方法参考文献 2 3。最终,利用基于框架匹配和篇章主题的方法对问句Q和候选句S节点之间的边权重进行计算,如式(1)所示。e Qs=入,Scoresumword+入,XScoresumFrame入,XScoreTopic+入X Scoreopinion(1)其中,Scoresumword是结合Hownet和word
28、2vec词向量计算词汇间相似度;ScoresumFrame是利用汉语框架网(CFN)捕捉语义场景下的语义信息;Scoretopic表示每个候选句是段落主题句的得分,Scoreopinion表示每个候选句是作者观点句的得分,入k为第k个维度的权重,且0 入1,入=1。k=13基于问答异构图的问答题候选句抽取本节主要介绍基于阅读理解问答异构图的节点表示学习过程及候选句的抽取方法。3.1节点表示学习(1)图注意力层给定一个已构造的具有节点特征XUX。UXX,和边特征E的图G,本文使用图注意网络 30来更新节点的表示。本文将h;ER d h(i E(1,(m十n)作为输入节点的隐藏状态,图注意力层GA
29、T的更新规则定义如式(2)式(4)所示。Zi,j=LeakyReLU(WaW,h;W,h,J)(2)exp(2;)ai(3)IEN;exp(zit)u:=。(Z,;Wuh,)(4)iEN其中,Wa、W。、W k、W 为可训练权重,;是hi和h;之间的注意力权重,多头注意如式(5)所示。u:=I,o(2)v.a,Wkh.)(5)jEN;1062023年中文信息学报另外,为了避免多次迭代后梯度消失,还添加了一个残差连接。因此,最终输出如式(6)所示。h=u;+h;(6)z是根据输人节点的特征,使用自注意力机制计算得到的节点对节点i的影响力系数,但上述方法没有考虑超节点间的语义关系。因此,本文在此基
30、础上加人句和候选句语义关系权重eQsERmnxde,修改后的影响力系数计算如式(7)所示。Zi,j=LeakyReLU(W.W,h,;W,h,;eQs)(7)在每个图注意力层GAT之后,本文引人一个位置前馈层(position-wisefeed-forward(FFN),该层类似Transformer中的模块,由两个线性变换组成。(2)迭代更新消息传递是一种聚合邻接节点信息来更新中心节点信息的范式,其实现了图与神经网络的连接 31-3。本文的任务是阅读理解问答,可以通过词语、候选句以及问题之间的语义关系更新各个节点的表示。为了得到每个节点的最优表示,更新的过程需要重复多次。词语节点、背景材料候
31、选句节点和问题节点之间传递消息方式如图3所示。其中,长方形、正方形和图形节点是背景材料中的候选句(S,)、问题(Q)和词语(W,)节点。实线与虚线指向当前信息的流动方向。图3(a)为候选句节点S;更新过程,通过相邻的词语W1、W 3和Question更新;图3(b)是词语节点W1更新过程,通过其相邻的S1、S2 和Q更新;图3(c)是问题节点Q更新,通过Wi、W.W 3与S1、S2 的语义关联更新。节点之间的关联在2.2.2 节进行阐述。重复执行上面所述三类节点的更新,直到节点的重要度不再发生变化。030303SSSQuestionQuestionQuestionSS2S202202(a)Up
32、date Si(b)Update)(c)Update Question图3异构图中词语、句子和问题节点的详细更新过程具体地,在节点及边初始化之后,通过上面的GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点,如式(8)、式(9)所示。U-s.g=GAT(H%,H,H)(8)HW=FNN(Uu-S.+H%)(9)其中,H=Xw,H=Xs,Uu-s.aERmxdn,GAT(H,H,H)表示使用H%作为注意查询,H,H作为键和值。在此之后,使用更新的词语节点和初始化后的文章候选句节点获得问题节点的表示,如式(10)、式(11)所示。U&-s.w=GAT(H,H,H)(10
33、)H,=FNN(U-S.w+H)(11)最后,以相同的方式可以得到第一轮送代过程中最终的候选句表示Hs,送代t次结束时,使用时间t时刻的词语节点H和问题节点H。更新得到候选句节点Hs,如式(12)、式(13)所示。=GAT(HS,Hw,H,)(12)Hs=FNN(Us-w.+Hs)(13)3.2问答题候选句抽取在学习到问答异构图中的节点表示之后,需要从异构图中提取文章中包含的候选句。因此,本文对句子进行节点分类,并以交叉熵损失作为整个系统的训练目标。J=o(ZM,y:log(f(Hs)(14)最后,根据候选句的分数高低进行排序,选取前6句作为答案句集。4实验与结果分析本文使用基于图注意力网络的
34、问答模型在真实的高考题数据集上进行了实验。本节首先描述任务的语料库;然后给出了问答模型的实现细节1075期杨陟卓等:基于异构图神经网络的高考阅读理解问答研究及比较的基线系统;最后分析了模型的实验结果。4.1实验数据本文采用的数据集包括各省的高考真题、模拟题以及将选择题改造成的问答题。最终在各省近12年高考真题上形成132 个问句,在各省高考模拟题上形成511个问句。4.2实验设置4.2.1实验参数本文的词向量使用在语Word2Vec料库训练得到的30 0 维词向量;BERT模型采用BERT-Base-Chinese预训练语言模型;本文的问答异构图由两层GAT构成,其中每层GAT的隐层数为7 6
35、 8,Head数为4。本文的模型使用Adam算法最小化交叉损失,BERT和异构图神经网络模块的学习率分别设置为1e-5和1e-3,训练轮次设置了10 0轮。入k的权重设置为0.3、0.2、0.3和0.2。4.2.2度量标准本文按照试题所给的参考答案人工找到其在阅读材料中对应的多个句子,标记为答案句的集A,SA是使用本文方法,根据分数从高到低排序的前6句的集合。SA中答的句子P(准确率)=X100%(15)SA的句子SA中答的句子R(召回率)X100%(16)A的句子2PRF1P+R(17)4.3实验结果及分析4.3.1不同实验方法结果比较本文采用五倍交叉实验,将语料平均分成五份,使用其中一份作
36、为验证集,其他四份作为训练集,重复五次实验,取平均值作为最终结果。为了验证本文方法的有效性,使用文献 2 2 的框架匹配方法作为Baselinel。基于CFN和篇章主题的概括型问答题的解答 2 3作为Baseline2。同时为了与国际上阅读理解任务中效果较好的方法相比较,本文将BERT模型(Baseline3)12加人比较。由于原始的BERT模型只能输出连续的答案区间,而高考问答题的答案区间通常是不连续的,因此本文利用BERT模型对候选句进行二分类,即判断背景材料中每个候选句是否为答案句。为了与其他基于图神经网络方法进行比较,本文与基于GCN的问答方法 39(Baseline4)进行实验比较。
37、将利用除北京外各省高考真题和模拟题(包括12 2 道高考真题和511道高考模拟题,根据标准答案人工标记背景材料中的答案句)训练模型。各种方法在北京12 年真题上进行测试,实验结果如表2 所示。表2不同实验方法结果比较方法P/%R/%F值基于框架匹配的问答方法33.3350.4840.15(Baselinel)基于CFN和篇章主题的问答方法51.67 68.6958.98(Baseline2)Bert(Baseline3)35.30 39.50 37.28基于GCN的问答方法(Baseline4)61.3257.90 59.56异构网络图问答模型85.0072.2078.08从表中可以看到,BE
38、RT模型答题效果最差,主要是由于高考问题较难,而有监督数据集规模较小,在当前数据规模条件下,不足以训练一个有效的高考答题模型。基于框架匹配方法答题效果优于Bert模型,这是由于框架匹配的问答方法考虑到问题和答案句间的语义关系。基于CFN和篇章主题的问答方法(Baseline2)的效果优于基于框架匹配的方法(Baselinel)方法,这是因为Baseline2不仅使用了框架匹配方法衡量问句与候选句的相关度,而且还通过篇章主题的方法找出与答案要点相关的文章主旨和作者观点。在高考问题中,这些句子往往与答案要点密切相关。基于GCN的方法(Baseline4)性能超过Baselinel、Ba s e l
39、i n e 2 和Baseline3,这是因为基于GCN的问答方法可以捕捉到阅读材料、问题和答案中词语之间的关联信息,能够利用邻居节点的表示更新词语节点,但是由于其忽略了问句和候选句之间的潜在语义关联,因此不适合高考阅读理解问答任务。本文的方法相比其他方法性能指标都有大幅度的提升,说明基于端对端的神经网络可以自动的提取特征,挖掘问句与候选句之间的关联。此外,本文将丰富的节点和语义关系融人图神经网络中,这些节点和语义关系可以更好地捕捉问句与候选句之间的语义关联,帮助模型筛选、理解和推理与问题相关的答案候选句。4.3.2消融实验在本文构建的异构网络图中,将词语记为W,1082023年中文信息学报问
40、句记为q,候选句记为S,词语-候选句、问句之间的关系记为w2sq,问句和候选句之间的关系记为q2s,以此类推。为了验证问答异构图的有效性,本文分别对异构网络图中的节点和边进行消融实验,实验结果如表3所示。表3消融实验(单位:%)方法PRF值withoutw2sq+sq2w19.8725.3122.26withoutq2s+s2q32.5639.5535.71without框架匹配31.3340.6935.41without主题句33,3350.3240.10without观点句69.8452.6543.45异构网络图问答模型85.0072.2078.08当将模型中的词语节点去除,同时去除词语节
41、点与问题和候选句节点之间的关系(withoutw2sq十sq2w),异构网络图转变为同构网络图,实验结果达到最大幅度的下降,F1值下降到2 2.2 6%。说明在网络图中加人词语节点是非常有必要的,词语节点作为中继节点,可以对问句和候选句节点进行更新。当将网络图中问句与候选句节点之间的关系去掉(withoutq2s十s2q),问句和候选句仅仅通过词语节点进行更新,实验效果F1值下降到了35.7 1%,说明问句和候选句之间的语义鸿沟较大,仅仅通过共现词语不能对它们之间的关系进行很好的表示。而基于汉语框架网和篇章主题的候选句分析方法可以在某种程度上发现问句中的抽象词和候选句中的具体词之间的语义关系。
42、当去掉问句和候选句之间的某个关系时(如框架匹配、主题句、观点句)实验结果都有不同程度的下降,说明各种关系在进行候选句分析和推理时都会发挥不同的作用。最终当在网络图中引入不同的节点以及丰富的语义关系后,实验结果达到最优,说明本文构建的异构图神经网络模型可以根据问题对背景材料进行信息筛选、理解和推理。4.3.3示例分析为了验证异构图神经网络问答模型的作用,本文将表1所述的题目使用本文的方法抽取出的候选句如下,加粗显示候选句中与答案要点相关的内容。例:北京高考2 0 16 年8 题问题:请结合上面三则材料,简要说明从“蛟龙”号到“彩虹鱼”号,我国载人深海潜水事业的发展有哪些特点。候选句:句1:2 0
43、 13年,“龙”号转入试验性应用,并首次搭载科学家下潜,取得了大量宝贵样品,标志着我国已经具备了进行深海实地科学考察和研究的能力。句2:“蛟龙”号载人潜水器的研制充分体现了我国自主科技创新的追求。句3:“蛟龙”号的自动驾驶水平、水声通信功能也要略胜一筹,特别是水声通信传输图像的能力和微地形地貌的探测能力更是“新阿尔文”号所不具备的。句4:该报还认为,“蛟龙”号代表中国“打响了征服海洋的战斗”,尽管它目前的任务仅限于纯科学领域,但是中国政府希望“蛟龙”号探索深海的能力使中国处于领先的优势地位,对深海的大量金属矿藏进行合理利用。句5:因此,“彩虹鱼”号载人潜水器需要克服压力巨大、深海低温和深海供氧
44、等难题。句6:万米级深渊科技流动实验室建成后,将具备目前美国、欧洲和日本的深海载人潜水器所没有的万米深渊作业功能,能够填补我国在深渊科技这一前沿技术领域的空白,提升我国开展大洋深海交叉科学研究的综合能力,占领世界深渊科技研发的制高点。对从上述问题句与候选句的语义来看,候选句中“标志着能力”“体现了追求”、“处于优势地位”都是问句中“潜水事业发展特点”的体现,图神经网络可以发现问句中抽象词“能力”和候选句中具体词语“能力”“追求”和“地位”的对应关系。此外,汉语框架网可以召回与问句语义场景一致或者相似的候选句,例如,句6 与问句语义场景相关,因此能够被系统召回。同时,模型中增加了对文章主旨和作者
45、观点的注意力,因此段落主题句和作者观点句(如句2、句4、句5和句6)的排序更加靠前。说明加入这些关系能较好地推理出与问题语义相关的候选句。4.3.4不同省份真题及模拟题实验结果比较不同省份真题及模拟题上的召回率如图4所示,从中可以看到,本文的模型在各个省份真题及模拟题上性能均有不同程度的提高,说明本文提出的模型具有一定的泛化性。同时可以发现在江西真题上的召回率最高,而在有些(湖北)省份的真题上结果较差。109杨陟卓等:基于异构图神经网络的高考阅读理解问答研究5期本文模型自basellinelbaselline21.00000.80000.60000.40000.20000.0000浙江真题图4
46、不同省份真题及模拟题实验结果比较在实验过程中,本文采用五倍交叉验证实验,可避免模型过拟合,但是由于训练数据的分布不均衡,在训练语料中,记叙风格的科技文语料较多,而其他体裁的语料较少,导致在北京高考真题上的效果较好,而其他省份上的实验结果略差,模型的泛化性有待进一步提高。5结论与展望针对高考语文阅读理解中问答题候选句抽取的问题,本文提出一种基于异构关系图神经网络的阅读理解答案句抽取模型。首先,在异构神经网络图中通过不同类型的节点(词语、问句、候选句节点)和不同维度的语义关系(框架关系、篇章主题关系)学习每个节点的表示,增强深度学习模型对问题和背景材料的理解、推理能力。然后,对材料中的句子进行排序
47、,选出Top-6作为答案句输出。本文方法的在高考阅读理解真题上进行测试,F1值达到了78.08%,验证了方法的有效性。下一步计划将探索问题和材料句中更深层次的语义信息,将篇章层面的语义信息建模到深度学习模型中。此外,目前的答案都是抽取式的,无法回答一些需要总结和概括的问题,计划利用深度学习模型学习高考语文阅读理解问答题的答案生成模式,进一步提升系统的答题效果。参考文献1FUJITAA,KAMEDAA,KAWAZOEA,etal.O-verview of todai robot project and evaluation frame-work of its nlp-based problem
48、solvingCJ/Proceed-ings of the 9th International Conference on LanguageKesources and Evaluation,2014:2590-2597.2HERMANNK M,KOCISKYT,GREFENSTETTEE,et al.Teaching machines to read and comprehendCJ/Proceedings of the 28th International Conferenceon Neural Information Processing Systems,2 0 15:1693-1701.
49、3CUI Y,LIU T,CHEN Z,et al.Consensus attention-based neural networks for Chinese reading comprehen-sionCJ/Proceeding of the 26th International Confer-ence on Computational Linguistics.Japan,2016:1777-1786.4RICHARDSON M,BURGESCJ C,RENSHAW E.MCTest:a challenge dataset for the open domain ma-chine compr
50、ehension of text C/Proceeding of theConference on Empirical Methods in Natural LanguageProcessing.Seattle,Washington,USA:AssociationforComputational Linguistics,2013:193-203.5RODRIGO A,PENAS A,MIYAO Y,et al.Over-view of CLEF QA entrance exams task 2015CJ/Pro-ceedingof theCLEF,2015:59-99.6PENAS A,MIY