基于复合语义特征的事件图谱构建技术研究进展.pdf

资源描述

1、世界是由无数相互关联的事件组成的,人们的社会活动也往往是由不同的事件来触发和驱动的.针对事件与事件之间关系的演化规律进行研究,不仅有助于人们认识和了解社会事件的演化规律与模式,同时也为基于人工智能的机器推理与思考提供了重要的决策支撑,并且已成为目前人们关注的研究前沿和新焦点.与传统的知识图谱不同,事件图谱是以现实世界中的抽象事件为节点,以不同事件之间的状态变化或动作序列等形成的逻辑关系来构建复合语义特征的知识网络,并在更高层语义条件下,通过抽象复杂的事件与事件间隐含的逻辑关系,刻画出事物发展演化的行为规律.在事件图谱构建方法的基础上,围绕开放域事件抽取、建立通用的事件标准、事件间关系抽取、事件

2、图谱的融合与加工,以及事件图谱的表示学习等关键技术问题展开深入分析,并对目前相关领域中存在的核心技术、常见的评测数据集以及相关指标进行综述与总结,并对未来发展的新方向进行了展望.关键词:知识图谱;事件抽取;关系抽取;事件图谱;表示学习中图法分类号T P O v e r v i e wA b o u tC o m p o s i t eS e m a n t i c b a s e dE v e n tG r a p hC o n s t r u c t i o nZ HA IL i z h i,L IR u i x i a n g,YAN GJ i a b e i,R AOY u a n,Z

3、HAN GQ i t a n,a n dZ HOUY u nT h e t hR e s e a r c hI n s t i t u t eo fC E T C,S h i j i a z h u a n g ,C h i n aH e b e iK e yL a b o r a t o r yo f I n t e l l i g e n t I n f o r m a t i o nP e r c e p t i o na n dP r o c e s s i n g,S h i j i a z h u a n g ,C h i n aS c h o o l o fS o f t w a

4、 r eE n g i n e e r i n g,X ia nJ i a o t o n gU n i v e r s i t y,X ia n ,C h i n aP l Aa r m yE q u i p m e n tD e p a r t m e n tS h i j i a z h u a n g s t hr e g i o nm i l i t a r yr e p r e s e n t a t i v eo f f i c e,S h i j i a z h u a n g ,C h i n aA b s t r a c t T h ew o r l d i sm a d

5、eu po f c o u n t l e s s i n t e r c o n n e c t e de v e n t sa n dt h es o c i a l a c t i v i t i e so fh u m a nb e i n g sa r eo f t e nd r i v e nb yt h e s ev a r i o u se v e n t s R e s e a r c ho nt h ep r o c e s so f e v o l u t i o na n d i n f l u e n c eo f e v e n t sc a nn o to n l

6、 yh e l p su su n d e r s t a n dt h ee v o l u t i o nl a w so fh u m a nb e h a v i o r sa n ds o c i a l a c t i v i t i e s,b u ta l s op r o v i d eas t r a t e g yf o rr e a s o n i n ga n dt h i n k i n ga b o u ta r t i f i c i a l i n t e l l i g e n c et e c h n i q u e s,w h i c hh a sb e

7、 e np a i da l o ta t t e n t i o na n db e c o m e so n eo f t h en e wh o t t e s tr e s e a r c hf i e l d U n l i k et r a d i t i o n a lk n o w l e d g eg r a p h,e v e n tg r a p h sc a na b s t r a c tv a r i o u se v e n t sf r o mt h er e a lw o r l da sn o d e sa n dr e c o g n i z et h e

8、l o g i c a lr e l a t i o n s h i p sb e t w e e ne v e n t s,s u c ha ss t a t et r a n s f o r m so ra c t i o ns e q u e n c e sb e t w e e nd i f f e r e n te v e n t s,t of o r ma ni n n o v a t i o nk n o w l e d g en e t w o r kw i t hs o m ec o m p o s i t es e m a n t i cf e a t u r e s F

9、r o mt h eh i g h e r l e v e ls e m a n t i cv i e w p o i n t s,t h ee v o l u t i o no ft h ec o m p l e xe v e n t sr e f l e c t st h ep r o c e s so f s o c i a l a c t i v i t yw i t ha c e r t a i no f h i d d e n l o g i c a l r e l a t i o n s h i p sb e h i n do f t h e m I n t h i sp a p

10、 e r,s o m e c r i t i c a l c h a l l e n g e s i n t h ep r o c e s so f e v e n tg r a p hc o n s t r u c t i o nh a v eb e e na n a l y z e d,i e,h o wt oe x t r a c tt h ee v e n t i no p e nd o m a i n,t oe s t a b l i s hac o mm o ne v e n t s t a n d a r d s,t oe x t r a c t t h er e l a t i

11、 o n s h i pb e t w e e ne v e n t s,t of u s i o na n do p t i m i z et h ee v e n tg r a p h,a n dt ob u i l das t r a t e g yf o re v e n tg r a p hr e p r e s e n t a t i o nl e a r n i n g I na d d i t i o n,t h i sp a p e ra l s oo v e r v i e w sa n ds u mm a r i z e ss o m ec o r e t e c h n

12、 o l o g i e s,p u b l i ce v a l u a t i o nd a t as e t s,r e l a t e dm e a s u r e i n d i c a t o r s,a n dt h e ns o m er e s e a r c hd i r e c t i o n s i nf u t u r eh a v eb e e n i l l u s t r a t e d K e y w o r d s K n o w l e d g eg r a p h,E v e n t e x t r a c t i o n,R e l a t i o n

13、e x t r a c t i o n,E v e n tg r a p h,R e p r e s e n t a t i o nl e a r n i n g事件是描述客观世界复杂现象以及人类社会行为的核心概念之一,人们通过事件以及不同事件之间的关系来认识和了解世界.S c h a n k等针对知识的本质以及如何利用知识等核心问题,结合心理学、语言学和人工智能等多学科的理论与模型,首次提出了脚本事件的概念,即用来表示人们记忆中标准化的一种广义情节,并进一步认为人们是通过记忆中的脚本事件来填补当前场景中的理解与认知空白.例如,当有人问我们要一杯水时,我们不必问他为什么要水,因为当我们脑海中

14、存储着喝水这一常见的动作序列后,很容易理解他的目的以及后续的计划行为.随后,手工编写的脚本事件也一度成为在当时条件下知识表示的核心任务,并被用于支持知识推理、预测等N L P任务.但手工编写脚本事件只能涵盖有限的场景,无法满足广泛场景下的真实需求.因此,利用机器学习来自动抽取事件及构建脚本事件链成为目前研究的主要方向之一.在知识图谱的概念基础上,L i u等首次提出事理图谱的概念,事理图谱是以事件为核心、反映出事物的演化规律与行为模式的新一代知识库.特别是在金融、司法、交通等领域的业务场景中,构建特定领域的事件图谱,能够为知识挖掘与推理等任务提供有效的辅助决策依据,从而引起了业界的极大兴趣与广

15、泛关注,并成为目前知识表示领域中的研究热点之一.本文在事件抽取以及事件图谱基本概念的基础上,针对开放域与限定域不同条件下的事件图谱构建过程中,事件抽取、事件之间因果、顺承等富语义关系的抽取、事件图谱的加工与补全机制、图谱质量评价、表示学习过程中所存在的一些亟需解决的关键性问题与挑战进行了系统的梳理与分析,对该领域最新的研究成果进行总结与综述,并指出了该领域未来的重点研究方向与应用领域.事件图谱的定义事件的基本概念虽然事件是人们认知和理解世界的重要知识资源这一概念早已深入人心,但关于事件的概念、事件的表示方式等基础问题在人工智能领域中始终没有统一的答案.S c h a n k等将事件表示为最简

16、化形式下的动词和具有类型依赖表示的参与者组合的多元组.L i等将事件定义为由一个抽象的、广义的和语义的完整动词短语表示,且每个事件必须包含一个触发词用来指示事件的发生,同时还包括一些其他的必要属性特征,如主体与客体对象或修饰词等以确保语义完整性,例如“吃火锅”“看电影”“去机场”等.上海大学语义智能实验室构建的中文突发事件语料库(C h i n e s eE v e n tC o r p u s,C E C)将事件定义为:在某个特定的时间和地点环境下发生的、由若干角色参与、表现出若干动作特征的行为序列,包含了时间、地点、主体、客体和触发词这个个特征所形成的五元组.国际上最具影响力的事件抽取公开

17、评测会议自动内容抽取国际评测会议(A u t o m a t i cC o n t e n tE x t r a c t i o n,A C E)在事件抽取任务中将事件定义为:发生在某个特定时间点或时间段,某个特定地域范围内,由一个或多个角色参与的一个或者多个动作组成的事情或者状态的改变.从A C E对事件的定义中可以看到,事件包括时间、地址、角色、行为动作、对象状态以及迁移这种抽象的核心要素.在此基础上,针对文本中描述事件的短语或句子,可以将事件进一步进行形式化定义,如下所示:E v e n tE T,E A,A R,E T其中,E T表示事件触发词(E v e n tT r i g g

18、e r),指能够清晰准确表达某类事件发生的关键词,通常是动词或名词;E A表示事件元素(E v e n tA r g u m e n t s),也称事件论元,指参与一个具体事件所涉及的核心要素,包括事件相关概念、不同人名、地名、组织机构、交通工具等事件实体(E n t i t y)、数值以及时间等所形成的集合;A R表示元素角色(A r g u m e n tR o l e s),也称论元角色,指在事件中不同事件元素以及事件元素之间的关系;E T表示事件类型(E v e n tT y p e),指某一特定的事件类别,A C E测评定义了种事件类型,种子事件类型,并且构建了相应的事件表示框架.

19、为了进一步衡量事件抽取的准确性与有效性,A C E进一步定义了以下几种评测规则标准:)如果一个事件触发词的位置偏移和事件类型与标注内容匹配,则表示正确识别该事件触发词.)如果一个事件元素词的位置偏移和对应事件与标注内容匹配,则表示正确识别该事件元素.)如果一个事件元素词的位置偏移、对应事件及元素角色与标注内容匹配,则表示正确识别并分类.事件图谱事件图谱,也称事理图谱,是一个描述事件之间顺承、因果关系的事理演化逻辑的有向图.类比知识图谱的定义,事件图谱可形式化定义为:E v e n tG r a p h(E,R,S)()其中,Ee,e,e|E|表示事件图谱中的事件所构成的集合;Rr,r,r|R|

20、表示事件图谱中代表事件之间的顺承、因果、条件和上下位等逻辑关系的关系集合;S包含于ERE,表示事件图谱中三元组的集合.根据上述定义,构建一个完整的事件图谱需要完成以下步骤:)在原始的结构化与非结构化数据进行事件抽取以及事件间关系抽取的基础上,一方面形成事件的结构化特征表示,另一方面形成事件关系三元组,并生成初步的事件图谱框架;)通过事件泛化、本体构建、质量评估来生成一个完整的事件图谱;)通过知识推理来完成事件的属性与关系补全,最终形成一个可持续优化的优化事件图谱,为智能化的推理与应用提供事理的基础.因此,事件图谱的构建与知识图谱构建相似,均具有较高的复杂性.为了降低事件图谱构建与处理应用过程的

21、复杂性,特别是事件抽取的复杂性,事件抽取也可以进一步减化并采用抽象、泛化、语义完备的谓词短语来表示,通过事件触发词以及明确的事件元素来保持该事件的语义完备性.例如“吃火锅”“看电影”“去机场”表达了明确的事件语义,而“去地方”“做事情”“吃东西”则是不合理或不完整的事件表达.考虑到事件的类型以及数据来源不同,事件图谱的构建也可以分为数据获取、事件抽取、事件关系抽取、知识融合与加工部分,事件图谱构建框架如图所示.翟利志,等:基于复合语义特征的事件图谱构建技术研究进展图事件图谱构建框架F i g E v e n tm a p p i n gc o n s t r u c t i o nf r

22、a m e w o r k 存在的关键技术挑战根据事件图谱的形式化定义中所包括的个核心要素,目前事件图谱生成领域仍然面临着以下方面的关键问题与挑战.挑战事件的分类描述与准确抽取.事件抽取不同于实体抽取,为了准确识别事件类别以及抽取其所包含的事件各要素,首先需要对事件以及事件类别的特征进行定义和描述,而现有的A C E,MU C,K B P等公开评测数据集均是针对特定领域的有限标注语料及事件表示.由于目前缺乏统一、通用的事件定义与表示框架标准,例如,在金融、医学以及司法等不同领域与任务场景中,对于已标注好的事件数据,在事理逻辑与表达上存在着明显的差异,导致大量的事件抽取成果仅仅只能局限在特定任务

23、的事件处理中,从而限制了应用的推广.因此,如何建立标准和通用的事件表示学习框架,在开放领域下实现完备性语义的复杂事件抽取,是目前面临的重大挑战之一.此外,由于手工标注的训练数据生产成本昂贵,事件类型覆盖率低,且标注的数据量有限,因此传统的有监督学习方法难以应用于开放域大规模语料的事件抽取任务中.如何通过大规模、高质量的标注语料进行训练与学习,实现事件的准确抽取,也是目前迫切需要解决的关键性问题.挑战复合语义特征条件下的事件关系抽取.一般地,事件间关系可分为局部关系与全局关系.其中,局部关系指不同事件中各要素之间存在的相关关系,如空间关系与主题关系等;全局关系则指以事件作为基本语义逻辑单元的不同

24、事件之间所存在的时序、因果、共指、子事件等语义逻辑关系.事件间的全局逻辑关系在文档中的表现形式通常具有隐蔽性和多样性,导致事件间的全局关系相对不容易获取.目前,广泛采用的因果关系抽取方法往往通过识别和挖掘表示事件关系的连接词来确定事件关系.而对于复杂且隐含的事件关系而言,如何能够对事件关系进行准确抽取,不仅需要考虑文本内容的语法逻辑结构特征,也需要考虑文本内容的深度语义理解.因此,如何对事件关系进行准确抽取具有重要的研究价值并且是一项具有挑战性的任务.挑战事件图谱构建与补全.如何将获取到的事件和事件关系所蕴含的知识系统地组织起来,形成事件图谱也面临着许多挑战.首先,事件抽取任务中,事件的表示形

25、式常根据目标应用的差异而有所不同,因此一些已构建的事件图谱的构建中往往具有不同类型和含义的事件节点,难以将事件知识进行广泛的应用与融合.其次,对于已构建的事件图谱的知识体系的构建目前还处于研究的初步阶段,为使构建的事件图谱具有一定的体系结构,对于获取到的事件应进行分类与抽象,但是如何进行事件的抽象,目前的研究还尚显不足.与知识图谱的构建相似,从结构化或半结构化的原始数据中抽取出来的事件以及事件间的关系往往具有大量的冗余、语义冲突甚至是错误.为了保证所构建事件图谱的质量,一方面,需要对所构建的事件图谱中的事件特征与链接特征进行清洗与融合处理,消除事件冗余与冲突;另一方面,需要通过事件图谱中的知识

26、挖掘与推理,对事件与关系抽取时所缺失的属性特征与关系特征进行补全,从而提高事件图谱构建的质量.此外,在构建与补全任务的基础上,如何针对所构建的事件图谱的质量进行客观、标准化的评价,并建立标准化的评价指标体系,这也是目前迫切需要解决的关键性问题.本文的贡献在于,根据已有的事件图谱构建技术研究现状以及工程应用中面临的实际问题,总结归纳了个亟待突破的关键性技术挑战,并以此作为本文综述的分类体系,对已有工作进行了回顾和梳理.具体而言,针对挑战事件的分类描述与准确抽取,本文梳理了复杂场景下的事件表示与抽取技术,分别从复杂事件的表示、限定域条件下的复杂事件抽取、开放域

27、条件下的复杂事件抽取个方面进行分类综述;针对挑战复合语义特征条件下的事件关系抽取,本文梳理了复杂事件关系抽取技术,分别从事件时序关系抽取和事件因果关系抽取两个方面进行分类综述;针对挑战事件图谱构建与补全,本文从事件图谱体系结构、事件共指与融合、知识补全与事件推理个方面进行分类综述.同时,总结归纳了事件图谱构造相关基准数据集,从针对事件抽取领域的公共数据集和事件关系抽取公共数据集进行分类综述.最后,根据已有工作的研究现状,探讨了事件图谱未来的发展方向.本文总结归纳的关键技术体系如图所示.C o m p u t e rS c i e n c e计算机科学V

28、 o l ,N o ,S e p 图关键技术体系图F i g K e yt e c h n o l o g ys y s t e m复杂场景下的事件表示与抽取技术事件作为一种涉及多要素的、动态的复杂知识单元,会因为事件类型、事件载体、具体应用的不同而具有不同的事件表示,这不利于事件知识的广泛应用与融合.因此,复杂场景下的事件表示与抽取任务是事件图谱构建的核心基础,其任务是从自然语言文本中抽取出用户感兴趣的结构化的事件,并通过事件类型所对应的事件元素语义角色框架来抽取相应的事件元素,从而更加准确地概括和区分出不同的事件.下面针对复杂场景下的事件表示、限定域以及开放域环境下的复杂事件抽取过程中存在

29、的关键问题和挑战进行分析与综述.复杂事件的表示事件作为一种人们所共识的知识形式,由于其自身的复杂性以及人们需求的不同,目前尚未形成不同领域中的统一定义.S c h a n k等提出的脚本事件(S c r i p t s)可用来表示人类记忆中的事件情节知识,这些脚本事件由一系列顺序发生的包含元动作的子事件链组成,分为主线场景和分支场景.其中,元动作指每个子事件的核心,S c h a n k进一步定义了种元动作,每个元动作均表示一种类型的动作,例如,类似“g o”“p u t”等表示物体位置改变的动作都属于“P T R AN S”类型;“s e e”等表示感官参与或感受某种刺激的动作属于“A T

30、 T E N D”类型.D i n g等提出的事理图谱中,将事件表示为抽象、泛化和语义完备的三元组S,P,O,其中P表示动作,S和O分别表示动作的主体和客体.L i等用事件主体、事件谓词以及能够代表文章主旨的句子来表示每篇金融报道中的事件.自动内容抽取评测会议(A u t o m a t i cC o n t e n tE x t r a c t i o n,A C E)则将事件定义为一个动作的发生或状态的改变,并将事件划分为种细分的事件类型,进一步细分为种子事件类型,针对每一种事件类型都定义了不同的事件表示框架.因此,事件的语义表示结构受到事件类型、呈现载体和具体应用个层面的影响.不同的事

31、件类型所关注的焦点不同,导致其具有不同的事件语义表示结构.在金融领域,Y a n g等为不同类型的金融事件定义了一个包含关键事件元素的表示框架,例如为股权质押事件定义了包含股东名称、质押机构、质押股票数量、质押起始日期和质押结束日期的事件表示结构.在音乐领域中,D i n g等通过聚类事件种子,自动学习音乐领域无标注文本的事件模式,抽取了包含歌手、专辑和发布日期等要素的音乐事件.在生物医学领域中,B i o N L P 定义了生物医学文献中有关N FkB蛋白的相关事件,这些事件可分为简单事件和调控事件,其中,简单事件只有一个事件元素,即主体(T h e m e)

32、,调控事件则由主体(T h e m e)和原因(C a u s e)组成.而在突发事件的新闻报道中,中文突发事件语料库(C h i n e s eE m e r g e n c yC o r p u s,C E C)将事件定义为五元组P,O,T,L,D,分别定义了事件的主体、客体、时间、地点、触发词个核心的事件要素.W a n g等考虑到以主体、谓语、客体三元组的形式来表示事件会造成信息丢失,因此采用主体与主体的修饰成分、触发词与相关修饰词,以及客体和客体的修饰成分共同来表示空难事件.另外,事件表达的载体具有多样性,它不仅可以借助文本、图像、音频等不同载体或模态的方式来表达,也可以采用混合模

33、态的组合方式来表达.由于不同的载体对事件的表示能力以及表示方式存在着很大的差别,特别是针对多模态条件下的事件表示成为了目前一个关键的技术挑战.例如,L i等针对视频语义在表示框架中涵盖了不同层次的语义信息,并能够根据不同的用户背景和需求从不同角度解读和生成事件语义,从而对视频中的深度语义进行扩展.而音频数据事件不同于文本或是视频中的事件,在许多方面都表现出了可变性的特点,即声音事件可能来自各种源头,且声音来源可能是移动的、短暂的、连续的或间歇的,可能具有明显的声音特性,也可能是类似于噪音的背景声音.因此,音频事件检测通常包含两个子任务:分类和定位.其中分类任务指确定音频记录中发生的声音事件的

34、类型,而定位指确定每个声音事件发生的准确的开始和结束时间.W a n g等基于多实例学习框架,对比了种类型的池化函数用于音频事件检测,发现线性s o f t m a x池化函数效果优于其他方法.C a k i r等提出了使用多标签神经网络来检测现实环境中时间重叠的声音事件,逐帧采用频谱域特征作为输入来训练多标签分类的深度神经网络,并利用现实日常环境下的音频记录对模型进行评估,获得的总体准确性达到 .翟利志,等:基于复合语义特征的事件图谱构建技术研究进展图像、视频数据能够记录更加详细、丰富的事件动作信息与场景信息,而对于非结构化的文本事件,在写作时常会将事件中的不同元素分散地表述在篇章中不同

35、的地方,文本事件信息的表示与抽取则更加复杂,且不同的研究应用对最终事件表示的影响也不相同.例如,哈工大社会计算与信息检索研究中心构建了一个面向金融领域的事理图谱,其中包括超过万个事件节点和万条有向边,且在事理图谱中常用谓词短语的形式来表示事件.另外,Y u等针对智能化交通场景中动态事件的语义表达方法不具有通用性的问题,提出了一种描述交通场景中动态事件的本体结构,该本体结构以分层的形式由下至上分别定义了对象本体、场景本体、对象间的相互关系、对象与场景的相互关系、场景间的相互关系等概念.限定域条件下的复杂事件抽取一般地,针对限定域的复杂事件抽取技术可分为种类型:模式匹配方法、基于特征工程的方

36、法和基于神经网络的方法.)基于模式匹配的事件抽取方法:常应用于工业应用中,它将待抽取的句子和已定义的模板进行匹配 ,因此,该方法准确率较高,但往往依赖于具体领域,可移植性较差,召回率低.而针对召回率低的问题通常有两个解决方案:一是使用半自动方法来构建触发词字典 ,二是将统计方法和模式匹配方法进行混合形成新方法.Q i n等进一步提出了基于自动触发词扩展的事件类型识别方法,并在哈工大T o n g Y i C i C i L i n语料库的基础上扩展事件的触发词,以解决数据不平衡问题,然后结合词汇特征、上下文特征和语料库信息来抽取事件,提高了小规模语料库的分类精度.D i n g等提出了一

37、个自动构建事件类型范式的E T D(E v e n tT y p eD i s c o v e r y)算法,将具有相似含义或用法的一组触发词视为相同的事件类型,进而通过触发词集群来发现事件类型.C h e n等则采用触发候选词频率(T C F)和触发事件类型频率(T E T F)来估计动词作为触发词的概率,进而过滤和扩充已检测出的触发词库.L i a o等将模式匹配与统计模型结合在一起进行模型训练,通过构造一个基于最大熵的分类器,实现了将A C E训练语料库中的事件的触发词和参数组成序列特征来构建事件模式.)基于特征工程的事件抽取方法:特征工程是机器学习的一种经典方法,它将事

38、件抽取任务转化成一个多分类问题,通过将文本的语义特征输入到分类器中进行训练,从而抽取相关事件的特征要素.A h n 将事件抽取任务分解为个阶段的多分类子任务,其中包括:()事件触发词分类,判断词语是否为事件触发词和事件类型;()事件元素分类,判断实体词语是否为事件元素;()事件属性分类,判断事件属性;()事件共指消解,判断两个事件实例是否属于同一事件.随后,A h n将语句中的句法特征、实体特征、词汇特征和字典特征作为模型的输入,采用T i m b l和M e g a M模型进行分类,从而实现了触发词的分类子任务;进而利用事件类型、触发词特征、实体特征以及句法特征完成了事件元素分类子任务.在此

39、基础上,一些基于特征工程的事件分类方法纷纷被提出,例如,L i等提出了一个基于结构预测的事件抽取联合模型,从全局特征和整体结构中同时抽取所有的事件信息,避免了误差传递导致的性能下降.Y a n g等综合利用句子级特征和文档级特征抽取事件,其中,句子级特征采用B i L S TMC R F模型抽取事件触发词和事件元素,文档级特征通过一个卷积神经网络得到表达文档核心事件的触发词.J i等利用相关文档集合中具有相同类型事件的相似触发词的分布特征,对每个触发词模板和事件元素模板进行扩充和过滤.B j r n e等建立了一个基于手动注释的训练数据自动学习模型,有关句子的信息都被转换为多个描述文本

40、中特定方面的特征,并构造分类器将所有这些特征之间的关联关系进行分类,进而抽取事件.)基于神经网络的事件抽取方法:自然语言处理工具容易造成误差,因此,如何利用深度神经网络直接从文本中获取事件的富语义特征并进行事件的自动化抽取成为了目前的研究热点 .卷积神经网络能有效捕捉输入序列的局部特征.N g u y e n等构造了包含种特征信息的词嵌入向量表,即捕获语义和句法特征的词嵌入表、捕获当前词相对位置特征的位置嵌入表、捕获实体和实体类型特征的实体类型嵌入表,然后将构造的词嵌入表拼接输入多尺寸卷积神经网络中得到当前词的隐藏表示,并最终预测事件触发词和事件类型.C h e n等提出传统C NN可能会

41、在池化过程中损失针对事件不同要素的有用信息,因此提出了一种动态多池化的卷积神经网络(D y n a m i c M u l t i p o o l i n g C o n v o l u t i o n a lN e u r a lN e t w o r k,DMC NN),如图所示.图动态多池化卷积神经网络抽取事件元素 F i g D y n a m i cm u l t i p o o l i n gc o n v o l u t i o n a l n e u r a l n e t w o r kt oe x t r a c t e v e n t e l e m e n t s 与传

42、统C NN不同,DMC NN按当前词的位置或当前词与触发词的位置,将卷积后得到的特征向量分成两部分或三部分分别池化,从而更大限度地保留了有用信息.F e n g等提出利用循环神经网络(R e c u r r e n tN e u r a lN e t w o r k s,R NN)进行事件检测,取得了较好的性能,但并没有充分考虑到循环神经网络在事件元素抽取阶段的效果.为了更好地考虑事件内部结构和各个元素间的关系,N g u y e n等将联合抽取模型与R NN相结合,利用带记忆的双向R NN抽取句子中的特征,并联合预测事件触发词和事件元素,进一步提升了抽取效果.L a i

43、等则进一步将事件检测公式化为多次学习问题,从而将事件检测扩展到新的事件类型.同时,其通过所提出的两个新颖的损耗因子,与支持集中的示例相匹配,从而为模型提供了更多的训练特征,这些训练结果也可以应用到基于度量的学习模型之中.相关工作总结如表所列.C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 表限定域事件抽取工作总结T a b l eS u mm a r yo fw o r ko nr e s t r i c t e dd o m a i ne v e n t e x t r a c t i o n(单位:)参考文献方法/模型针对的问题数据集

44、评测任务模型表现P r e c i s i o nR e c a l lFF e n ge ta l HNNB i L S TM和C NN为句子中的每个单词提供连续表示,用于检测句子中的事件触发词并指明事件类别A C E E n g l i s h触发词识别触发词分类 A C E C h i n e s e触发词识别触发词分类 E R ES p a n i s h触发词识别触发词分类 C h e ne ta l DMC NN提出了一种动态多池卷积神经网络(DMC NN),它根据事件触发器和参数使用动态多池层来保留更多的关键信息A C E 触发词识别触发词识别及分

45、类事件元素识别事件元素识别及角色分类 Y a n ge ta l P LME E通过编辑原型自动生成标记数据并通过对质量进行分级来筛选出生成的样本的方法A C E 触发词识别触发词识别及分类事件元素识别事件元素识别及角色分类 L ue ta l D e l t aL e a r n i n g提出了一种D e l t a学习方法,它可以抽取知识和泛化知识用于事件检测A C E 触发词识别及分类 K B P 触发词识别及分类开放域条件下的复杂事件抽取由于限定域事件抽取任务受限于人工标注训练数据昂贵的生产成本、覆盖事件类型有限以及样本数据量不足等,其很难被用于大规模知识库的构建,因此越

46、来越多的学者开始关注开放域条件下的复杂事件抽取.开放域事件抽取指不限定事件类型的事件抽取任务,此类任务试图解决以下两个方面的问题:)需要为事件生成或寻找现有知识库中的事件类型框架;)需要自动化标注生成大规模和高质量的训练数据集.考虑到利用远程监督算法来实现关系抽取任务中的训练数据自动标注已被多项研究工作证明有效 ,借鉴相同的思想,许多研究也试图采用远程监督的方法为事件抽取任务标注训练数据.但是,采用远程监督方法自动标注事件数据也存在两方面的问题:)事件信息通常分布在一篇文档的多个句子中,导致要在一句话中找到结构化知识库中所对应的一个事件的全部事件元素十分困难;)结构化知识库中通常采用某种抽象结

47、构来表示事件,例如F r e e b a s e中采用复合值类型C V T来代表事件,所有的事件元素都与C V T类型的编号相关联,这与关系抽取任务中的标注策略存在明显差异,即可以在文本中直接找到一个事件的实体用来关联其他的事件元素.为了解决上述问题,C h e n等提出了一种包含个模块的自动标注训练数据方法,如图所示.图大规模事件抽取自动标记数据生成 F i g A u t o m a t i c t a g g i n gd a t ag e n e r a t i o nf o r l a r g es c a l ee v e n te x t r a c t i o n其中关键

48、论元检测模块(K e yA r g u m e n tD e t e c t i o n)为每种事件类型的论元排序,并从中选出每种事件类型的关键论元;触发词检测模块(T r i g g e rW o r dD e t e c t i o n)采用不同类型事件中所对应的关键论元来标记W i k i p e d i a中可以用来表达事件的文本,并选出包含某一类事件中所有关键论元的句子作为表示该类事件的句子,然后用这些句子来选择触发词;触发词过滤和扩展模块(T r i g g e rW o r dF i l t e r i n ga n dE x p a n s i o n)使用词嵌入将F r e e b a s e中的事件映射到F r a m e N e t框架中,并过滤掉那些在相应框架中不存在但在上一步选出的候选触发词和动词,并利用框架中具有高置信度的名词触发词来扩展相应事件的触发词词典;自动标记的数据生成模块(A u t oL a b e l e dD

展开阅读全文