融合机器阅读理解的中文医学命名实体识别方法.pdf

资源描述

1、医学命名实体识别是自动构建大规模医学知识库的关键,但医学文本中存在实体嵌套现象,采用序列标注的方法不能识别出嵌套中的实体.文中提出了基于阅读理解框架的中文医学命名实体识别方法,该方法将嵌套命名实体识别问题建模为机器阅读理解问题,使用B E R T建立阅读理解问题和医学文本之间的联系,并引入多头注意力机制强化问题和嵌套实体之间的语义联系,最后用两个分类器对实体开头和结尾位置进行预测.与目前种主流方法相比,该方法取得了最优结果,综合F 值达到了 ;与经典的实体识别模型B i L S TM C R F相比,F 值提升了 ,其中嵌套较多的临床表现实体提升 .关键词:命名实体识别;中文医学;嵌套实体;机

2、器阅读理解;多头注意力机制中图法分类号T P C h i n e s eM e d i c a lN a m e dE n t i t yR e c o g n i t i o nM e t h o dI n c o r p o r a t i n gM a c h i n eR e a d i n gC o m p r e h e n s i o nL UOY u a n y u a n,YANGC h u n m i n g,L IB o,Z HAN G H u ia n dZ HA OX u j i a n,S c h o o l o fC o m p u t e rS c i e n

3、c ea n dT e c h n o l o g y,S o u t h w e s tU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,M i a n y a n g,S i c h u a n ,C h i n aS c h o o l o fM a t h e m a t i c sa n dP h y s i c s,S o u t h w e s tU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,M i a n y a n g,S i c h

4、 u a n ,C h i n aS i c h u a nB i gD a t aa n dI n t e l l i g e n tS y s t e mE n g i n e e r i n gT e c h n o l o g yR e s e a r c hC e n t e r,M i a n y a n g,S i c h u a n ,C h i n aA b s t r a c t M e d i c a ln a m e de n t i t yr e c o g n i t i o ni st h ek e yt oa u t o m a t i c a l l yb u

5、 i l dal a r g e s c a l em e d i c a lk n o w l e d g eb a s e H o w e v e r,m e d i c a l e n t i t i e sa r eo f t e nn e s t e d,a n di tc a nn o tb er e c o g n i z e db yt h es e q u e n c el a b e l i n gm e t h o d T h i sp a p e rp r o p o s e saC h i n e s em e d i c a ln a m e de n t i t

6、yr e c o g n i t i o nm e t h o db a s e do nr e a d i n gc o m p r e h e n s i o nf r a m e w o r k I tm o d e l s t h en e s t e dn a m e de n t i t yr e c o g n i t i o np r o b l e ma sam a c h i n er e a d i n gp r o b l e m,u s e sB E R Tt oe s t a b l i s ht h ec o n n e c t i o nb e t w e e

7、nt h er e a d i n gc o m p r e h e n s i o np r o b l e ma n dm e d i c a l t e x t,a n di n t r o d u c e sam u l t i h e a da t t e n t i o nm e c h a n i s mt os t r e n g t h e nt h es e m a n t i cc o n n e c t i o nb e t w e e nt h ep r o b l e ma n dn e s t e dn a m e de n t i t y,a n df i n

8、a l l yu s e st w oc l a s s i f i e r st op r e d i c tt h eb e g i n n i n ga n de n dp o s i t i o n so fe n t i t i e s T h i sm e t h o da c h i e v e s t h eb e s t r e s u l t sw i t ha nF s c o r eo f w h e nc o m p a r e dw i t ht h ec u r r e n t f i v em a i n s t r e a mm e t h o d s C o

9、 m p a r e dw i t ht h em o s t c l a s s i c a lB i L S TM C R F,t h eF s c o r e i m p r o v e sb y ,a n dt h en e s t e d“s y m p t o m”e n t i t i e s i n c r e a s eb y K e y w o r d s N a m e de n t i t yr e c o g n i t i o n,C h i n e s em e d i c a l,N e s t e de n t i t i e s,M a c h i n er

10、 e a d i n gc o m p r e h e n s i o n,M u l t i h e a da t t e n t i o nm e c h a n i s m引言医学实体指蕴含在非结构化医学文本中的疾病、临床表现、身体、医疗程序等概念术语.从海量的医学教材、临床病例、检验报告、医学文献等非结构化医学文本中自动识别医学实体,是构建高质量医学知识库的关键.医学实体通常由专业术语构成,在不同类型的医学文本中常会出现实体嵌套现象,如“呼吸肌麻痹”是一个临床表现实体,同时里面嵌套了身体实体“呼吸肌”,如图(a)所示.“HL A D QA 基因”“脑脊”在无明确上下文提示时,既属于身体

11、实体,也是医学检验项目实体,如图(b)所示.由于中文医学文本的复杂性和专业性,要准确识别医学实体,不仅要识别出实体边界,还需明确实体的类别,这使得模型需要具有完备的特征表达能力和极强的特征提取能力.经典的命名实体识别模型采用序列标注的方法,即对医学文本的每个字符打上预设的标签,但当存在嵌套实体时,一个字符存在多个标签,就无法为医学实体打上合适的标签,不能准确识别出嵌套的实体.因此,本文将嵌套实体识别问题看作是机器阅读理解问题,即通过对医学文本中需要识别的实体类型进行提问,以此来明确该类实体的边界.比如要识别图(a)中的身体类型实体,提问为:“哪一部分是文本中提到的身体?”即可将身体实体与临床表

12、现实体区分开.同时,由于提问的问句带有先验信息,也能较好地识别出非嵌套的医学实体.该模型首先使用改进的C h i n e s e r o b e r t w wm l a r g e模型构建机器阅读理解的编码部分和交互部分,建立问题和医学文本之间的联系,然后引入多头注意力机制(M u l t i H e a dA t t e n t i o nM e c h a n i s m)强化问题和嵌套医学实体之间的语义联系,最后通过全连接层和s o f t m a x函数计算将最终隐藏状态转化为答案跨度的概率.(a)长实体包含短实体(b)一个实体存在两种类别图中文医学实体的两种嵌套情况F i g T

13、w oc a s e so fn e s t e dC h i n e s em e d i c a l e n t i t i e s相关工作命名实体识别任务通常被建模为序列标注任务,即对输入序列的每一个字符预测其标签,并计算出联合概率最大的标记组合.早期命名实体识别多采用机器学习的方法,比较经典的模型有隐马尔可夫(H i d d e n M a r k o v M o d e l,HMM)、支持向量机(S u p p o r tV e c t o rM a c h i n e,S VM)、条件随机场(C o n d i t i o n a lR a n d o mF i

14、 e l d s,C R F)等.但机器学习的方法比较依赖于特征工程,在建立特征时耗时耗力.随着深度学习在自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,N L P)任务中的深入研究,基于深度学习的命名实体识别方法受到广泛关注.相比机器学习方法,基于深度学习的方法能容纳更丰富的语义信息,具有较强的特征提取能力.其中最典型的有卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k s,C NN)和循环神经网络(R e c u r r e n tN e u r a l

15、N e t w o r k,R NN).基于R NN C R F的方法在中文命名实体识别任务中取得了很好的效果.X u等提出基于双向长短期网络(B i d i r e c t i o n a lL o n gS h o r t T e r m M e m o r y,B i L S TM)和C R F的医学命名实体识别模型.T a n g等提出了基于注意力的C N N L S TM C R F模型,用于识别中文临床文本中的实体.此外,由于中文医学文本具有极强的专业性,且比较依赖语义信息,为了提高中文字词表征的多义性,研究者们在模型中增加预训练方法来对单词进行表征.早期最常见的预训练模型采用了

16、W o r d v e c 工具训练词向量,之后B E R T(B i d i r e c t i o n a lE n c o d e rR e p r e s e n t a t i o n s f r o mT r a n s f o r m e r)预训练模型被提出,B E R T一度成为了最受欢迎的预训练模型.D a i等提出基于B E R T B i L S TM C R F的中文电子健康档案命名实体识别模型,结果明显优于非预训练的模型.L i等提出基于变异B E R T结构的中国临床命名实体识别模型,利用未标记的特定领域知识,预先训练出未标记的中文医疗文本.与常规的命名实体识

17、别不同的是,中文医学文本标注语料较少、实体边界模糊、结构嵌套等难点给中文医学文本命名实体识别任务带来了极大的挑战.以往的方法忽略了实体嵌套结构问题,在标注时直接标注长度最大的实体.当嵌套结构较少时,对整体结果影响并不大,但是当嵌套结构较多时,对整体F 值的影响较大.嵌套命名实体识别一般被看作多层次的序列标注问题,即根据嵌套实体的层数,每一层用一个命名实体识别模型进行识别.X u等采用双层B i L S TM C R F方法来识别中医药文献中的实体.分层标注的方法存在层次越深、标签分布就越稀疏的问题,训练的难度也随之增加,容易造成层与层之间的错误传播.对此,有学者对此类序列标注模型进行了改进.

18、S u n等认为序列都是由一个个跨度组成的,给每个跨度打标签能解决嵌套问题,但需要在跨度的选择上加以限制.跨度的选择是一个复杂的问题,且其得到的负样本依然很多.此外,对多个子序列进行分类的计算成本很高,时空复杂度也较高.另外,嵌套的实体也可被看作是状态之间的转换,并以此构建图来进行识别.W a n g等根据不同形式的词设计不同的动作,通过这些动作来处理不同的实体构建解析树,并根据实体的当前状态来决定是否打标签或是打更高层次的标签.另外,将嵌套实体所在的句子构建为超图,能有效捕捉长度不限的重叠的实体,使得实体的边界、类型和头部信息可以在一个框架中共同学习.然而构建超图或者解析树依赖特定的转换

19、系统,需要领域专家,不够一般化,且在构建时容易出现伪结构,在推导时会出现二义性,导致不能确定最终结果.嵌套命名实体主要是实体的重叠问题(长实体覆盖短实体、同一实体表达出不同的类别),对其进行识别的关键是明确实体在句子中表达的语义,以此来确定实体的边界.机器阅读理解(M a c h i n eR e a d i n gC o m p r e h e n s i o n,MR C)通过对句子提问来明确句子中实体的语义,能很好地改善实体重叠的问题.如C a o等提出基于B E R T的机器阅读理解框架的中文电子病历嵌套实体识别方法,但未充分利用提问信息,采用不同提问方式得到的效果差异较大.C h

20、i a n g等提出的基于QA S L的中文电子健康记录命名实体识别框架就采用了机器阅读理解和序列标注融合的方法,但此方法的嵌套实体较为特殊,并不适合常规的中文医学命名实体识别.为解决现有方法不能解决中文医学实体嵌套结构的问题,机器阅读理解方法不能完全利用提问信息,本文在B E R T MR C 模型中引入多头注意力机制,进一步捕获医学实体和提问信息之间的依赖关系.实验结果表明,相比其他方法,该方法在中文医学数据集上取得了最好效果.融合机器阅读理解的中文医学命名实体识别模型模型描述中文医学命名实体识别指识别并抽取出与医学临床相关的实体,并将实体归类到预定

21、义好的类别.实体识别任务可被看作是阅读理解过程,即给出不同医学实体的提问或描述(Q u e s t i o n),然后在医学文本(C o n t e x t)中找出对应的答案(A n s w e r).其基本的流程为:分别对Q u e s t i o n和C o n t e x t进行嵌入和特征提取,然后在交互层将C o n t e x t和Q u e s t i o n的语义信息融合,使模型更容易找出C o n t e x t中对应问题的答案部分,最后根据具体的问题任务来预测答案.具体流程如图所示.C o m p u t e rS c i e n c e计算机科学V o l ,N o ,

22、S e p 图机器阅读理解流程F i g M a c h i n er e a d i n gc o m p r e h e n s i o np r o c e s s因此,利用机器阅读理解进行医学实体识别的任务可被描述为一个有监督的学习问题:给出三元组形式的训练数据(C o n t e x t,Q u e s t i o n,A n s w e r),其中C o n t e x t表示含有嵌套实体的医学句子,Q u e s t i o n表示对对应实体的问题或描述,A n s w e r表示应当找出的实体答案.任务目标是学习一个预测器f,能够将相关句子C o n t e x t与问题Q u

23、 e s t i o n作为输入,返回一个对应的答案A n s w e r作为输出.f:(C o n t e x t,Q e s t i o n)A n s w e r()其中,C o n t e x t是每一个医学文本句子Xx,x,xn,n是句子的长度,实体类别标签集合Yy,y,yk(如疾病、药物和身体).对于每一个类别标签类型yY,提出一个问句Qyq,q,qm,其中m是问题的长度.每一个标注的实体xs t a r t,e n dxs t a r t,xs t a r t,xe n d,xe n d 就是答案,xs t a r t,e n d是句子X的子串,类型是y.下标s t a r t,

24、e n d表示句子X中索引从s t a r t到e n d的序列,且s t a r t e n d.对每一个句子X,根据标签类别y生成的问题Qy,构造出三元组(X,Qy,xs t a r t,e n d)以进行训练.综上,基于阅读理解的医学实体识别模型B E R T MHAM MR C如图所示,首先采用B E R T将Q u e s t i o n和C o n t e x t序列转化为模型可识别的向量表示,并建立起问句和实体语句间的联系,然后进一步使用多头注意力机制聚焦句子中与问题关联的部分,最后融合B E R T输出和多头注意力输出,用两个分类器分别预测实体答案

25、是开头还是结尾的概率,其中实体的类型就是问句所代表的类型.图B E R T MHAM MR C模型F i g B E R T MHAM MR Cm o d e l 阅读理解问题和医学文本嵌入为了建立问句与实体所在句子的语义关联,本文采用B E R T 来对输入进行嵌入.与基础B E R T不同,C h i n e s e r o b e r t wwm更加专注于中文数据集.为获取字符级的上下文关系,问句和句子均以字符作为输入,问题Qy和句子X分别用C L S 和S E P 连接起来,输入如式()所示:i n p u tC L S,q,q,qm,S E P,x,x,xn,S E P()模型的输

26、入表示由t o k e ne m b e d d i n g(字符嵌入)、s e g m e n t e m b e d d i n g(分段嵌入),p o s i t i o ne m b e d d i n g(位置嵌入)部分组成,如图所示.最终采用B E R T最后一层隐藏层的上下文表示矩阵ERnd来进行下一步操作,其中d是维度,n是输入医学文本C o n t e x t的长度.图B E R T MHAM MR C模型的输入表示F i g I n p u t r e p r e s e n t a t i o no fB E R T MHAM MR Cm

27、o d e l罗媛媛,等:融合机器阅读理解的中文医学命名实体识别方法多头注意力机制强化语义联系尽管B E R T充分利用了句子中的字符信息和位置信息,但针对某些实体类型的问句信息的利用依然较少.注意力机制(A t t e n t i o nM e c h a n i s m)本质为查询语句(Q)到目标语句(K V)的映射,通过将有限的注意力权重分配给不同的特征向量,能快速筛选出对实体贡献较大的关键信息.Q,K,V都由输入的特征向量得到,能获取输入向量中局部关注的信息.多头注意力是进行多次注意力计算后的结果,使模型可以从不同空间学习语义特征.本文获取到B E R T输

28、出ERnd后,采用多头自注意力(M u l t i H e a d S e l f A t t e n t i o n)为其重新分配权重,这样能缓解B E R T对实体问题信息利用不充分的问题.注意力A t t e n t i o n的计算公式如式()所示,h e a di是单头的注意力得分,最后将所有单头注意力进行拼接,得到多头注意力的输出M u l t i H e a d.A t t e n t i o n(Q,K,V)s o f t m a xQ KTdkV()h e a diA t t e n t i o n(QWQi,KWKi,V WVi)()M u l t i H

29、e a dC o n t a c t(h e a d,h e a d,h e a de)()其中,QKVE;dk为缩放因子,用于缓解内积过大产生的梯度弥散问题;WQi,WKi,WVi为神经网络权重参数.最终将经过多头自注意力的输出和原本的B E R T输出按照的比例联合起来作为整体输出,并将这个输出用于分类.答案预测为了能准确识别出嵌套实体,将上一步融合的多头注意力和B E R T的输出向量连接起来作为整体的输出表示,由于输出已经包含了答案实体的信息,具备了生成答案的条件,此时用两个s o f t m a x分类器分别预测每一个t o k e n是开头还是结尾的概率,并将该概率映射到坐标,然

30、后将开始和结尾坐标进行s i g m o i d匹配约束,得到最终答案.通过s o f t m a x分类器得到的开始或结束的概率计算如下:Ps t a r ts o f t m a x(ETs t a r t)Rn()Pe n ds o f t m a x(ETe n d)Rn()其中,Ts t a r t,Te n dRd是在训练过程中学习到的参数矩阵,E是上层多头自注意力和B E R T融合的输出,P代表该位置是实体开始或结束的概率.随后需要将概率映射到实际坐标,对每一行的概率做a r g m a x,能得到两个长度为n的序列.如第k个位置是,说明第k个位置就是实体开始或结束的位置.I

31、s t a r ti|a r g m a x(P(i)s t a r t),i,n()Ie n dj|a r g m a x(P(j)e n d),j,n()得到开始坐标和结尾坐标的序列后,需要将开始和结尾的实际坐标匹配才能得到最终的实体答案,对Is t a r t中每个为的位置i,和Ie n d中每个为的位置j(满足ij的连续字符序列xi,j),计算xi,j是实体且类型是y的概率Pi,j的公式如式()所示,采用s i g m o i d函数进行匹配约束,其中mRd是需要学习的向量.Pis t a r t,je n ds i g m o i d(mc o n c a t(

32、Eis t a r t,Eje n d)()实验与结果分析数据集与评价指标本文使用CH I P T a s k 所发布的中文医学文本命名实体识别数据集,将医学文本命名实体分为类,分别是疾病、临床表现、药物、医疗设备、医疗程序、身体、医学检验项目、微生物类和科室.表列出了种命名实体的类型、描述和示例.标注之前对文章进行自动分词处理,所有的医学实体均已正确切分.原标注文件中“临床表现”实体存在嵌套,该实体内部允许存在其他类实体.另外限制每一条数据的最大长度为个字符,最后总共有条数据和个实体,按照的比例随机划分为训练集、验证集和测试集,实体分布如表所列.表C H I P 数据集详细说明T

33、a b l eD e t a i l e dd e s c r i p t i o no fC H I P d a t a s e t实体类型描述子类样例疾病(d i s e a s e)疾病指导致病人处于非健康状态的原因或者医生对病人做出的诊断,并且是能够被治疗的疾病或综合征;中毒或受伤;器官或细胞受损尿潴留、泌尿系感染临床表现(s y m p t o m)临床表现是疾病的表现,泛指患者的不适感觉以及通过检查得知的异常表现症状;体征呼吸困难、阵发性喘憋医疗程序(p r o c e d u r e)医疗程序泛指诊断或治疗所采取的措施、方法及过程检查程序;治疗或预防程序免疫学方法检测、抗体检测医

34、疗设备(e q u i p m e n t)医疗设备泛指诊断或治疗所使用的工具、器具、仪器等检查设备;治疗设备显微镜药物(d r u g)药物指用来预防、治疗及诊断疾病的物质药物E B V疫苗医学检验项目(i t e m)医学检验项目指检查涉及的体液检查项目、重要生理指标以及其他检查项目,本文规定“医疗检验项目”主要针对人体而言,是能够通过设备或实验检测出的项目,并且能够被量化,有其对应的测量值或指标值医学检验项目渗透压、肾溶质负荷、热能密度、黏稠度身体(b o d y)身体泛指细胞、组织以及位于人体特定区域的由细小物质成分组合而成的结构、器官、系统、肢体,另外包括身体产生或解剖身体产生的物质

35、等身体物质;身体部位脾、脾脏科室(d e p a r t m e n t)科室主要指医院或医疗机构所设有的科室科室眼科微生物类(m i c r o b e s)微生物类包括细菌、病毒、真菌以及一些小型的原生生物、显微藻类等在内的一大类生物群体,另外包括微生物类产生的毒素、激素、酶等微生物类寄生虫成虫、寄生虫C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 表C H I P 数据集实体分布情况T a b l eE n t i t i e sd i s t r i b u t i o no fC H I P d a t a s e t数据集疾病

36、临床表现医疗程序医疗设备药物医学检验项目身体科室微生物类训练集验证集测试集按照机器阅读理解的输入格式,需要对输入的医学文本分别构建问题,将训练集、验证集和测试集构造为机器阅读理解能识别的(C o n t e x t,Q u e s t i o n,A n s w e r)三元组数据.以图(a)中的医学文本为例,“C o n t e x t:呼吸肌麻痹和呼吸中枢受累患者因呼吸不畅可并发肺炎、肺不张等”,需要构建如表所列的Q u e s t i o n和A n s w e r,其中Q u e s t i o n是基于关键字的方式进行构造的.评价指标精确率P r e c i s i o n、召

37、回率R e c a l l和F 值的计算公式如下所示:P r e c i s i o nT PT PF P()R e c a l lT PT PFN()FP r e c i s i o nR e c a l lP r e c i s i o nR e c a l l()其中,T P表示正确识别当前实体类别的样本数量;F P表示错误识别当前类别的样本数量;FN表示本属于当前类别但没有被识别到的样本数量;T PF P则表示被识别为当前类别的所有样本数量;T PFN则表示被标注为当前类别的所有样本数量.表机器阅读理解三元组数据格式例子T a b l eE x a m p l eo fm a c h

38、i n er e a d i n gc o m p r e h e n s i o nt r i p l ed a t af o r m a tQ u e s t i o nA n s w e r找出疾病:包括疾病或综合症、中毒或受伤、器官或细胞受损肺炎,肺不张找出临床表现:包括症状、体征呼吸肌麻痹,呼吸中枢受累,呼吸不畅找出医疗程序:包括检查程序、治疗或预防程序找出医疗设备:包括检查设备和治疗设备找出药物:包括药物找出医学检验项目:包括医学检验项目找出身体:包括身体部位和身体物质呼吸肌,呼吸中枢找出科室:包括科室找出微生物类:包括微生物类实验及参数设置B E R T MHAM MR

39、C模型在CH I P 上的参数设置如下:B E R T采用哈工大改进的C h i n e s e r o b e r t wwm l a r g e模型;优化器采用A d a mw;学习率是;设置B E R T隐藏单元为 ;添加注意力头数的个数为;最小批处理尺寸为;D r o p o u t为.由于机器阅读理解中问题带有实体的先验知识,对最终结果的影响较为明显,因此构造合适的问题是非常重要的.在实际构造问题的过程中,可根据对实体类型的不同维度(如实体解释说明、实体位置等)构造出不同问题,每种方法会产生不同的效果.一般来说,问题构造需要尽可能区别出实体类别,对问题的形式没有特别要求.

40、在B E R T MHAM MR C模型上比较了两种不同的问题构造方法对中文医学命名实体的影响,一种是基于关键词的构造方法,即表所用的提问方法;另一种是按照注释指南(A n n o t a t i o n G u i d e l i n eN o t e s)方式,即数据构建者提供的实体类型说明,采用表中所列数据集的描述.两种方法的结果如表所列.表两种问题生成方式的F 值T a b l eF v a l u e so f t w oq u e s t i o ng e n e r a t i o nm e t h o d s(单位:)提问方式疾病临床表现医疗程序医疗设备药

41、物医学检验项目身体科室微生物类综合注释指南关键字另外,由于要对比普通序列标注方法和B E R T MHAM MR C方法的优劣,因此普通序列标注方法采用最大标记法,即存在长实体中嵌套短实体的情况,只标注最长实体,预测时也只需预测出最长实体.选取种序列标注模型和种融合机器阅读理解的模型与B E R T MHAM MR C进行对比.C R F:C R F是给定一组输入序列的条件下,另一组输出序列的条件概率分布模型.使用基于C R F s u i t e库的轻量级s k l e a r n c r f s u i t e工具包,使用的特征为“前一个词,当前词,后一个词,前一个词当前词,当前词后一

42、个词”.C R F也是序列标注模型的基线模型.B i L S TM C R F:使用双向L S TM网络和C R F的经典模型.B E R T C R F:采用B E R T预训练和C R F相结合的模型进行命名实体识别.B E R T B i L S TM C R F:在经典的B i L S TM C R F模型上添加B E R T预训练模型.B E R T MR C:采用B E R T做机器阅读理解的方法进行命名实体识别,也是机器阅读理解模型的基线模型.图给出了种模型在C H I P 数据集上的整体F 值对比,具体准确率、召回率和F 值如表所列.图种模型整体F 值对

43、比F i g C o m p a r i s o no f o v e r a l lF v a l u e so f s i xm o d e l s罗媛媛,等:融合机器阅读理解的中文医学命名实体识别方法表不同模型在各个实体类别上的效果T a b l e E f f e c t so f d i f f e r e n tm o d e l so nv a r i o u s e n t i t yc l a s s e s(单位:)模型指标疾病临床表现医疗程序医疗设备药物医学检验项目身体科室微生物类综合C R FP R F B i L S TM C R FP R F B E R T C

44、R FP R F B E R T B i l S TM C R FP R F B E R T MR CP R F B E R T MHAM MR CP R F 实验结果与分析不同问题生成方式的对比分析从表中可以发现,相比基于注释指南构造问题的方法,基于关键字的构造方法的F 值提升了 .这表明对实体的描述并没有让B E R T获取到最相关的信息,而关键词直接指向关键信息,可在一定程度上提升模型的效果.因此在后续的实验中采用基于关键字的构造问题方式.模型对比与分析从图可以发现,B E R T MHAM MR C相比其他种模型都取得了最佳效果.相较于C R F模型,B E R T MHAM MR

45、C模型的F 值提升了 ,比经典B i L S TM C R F模型提升了 ,相比B E R T C R F和B E R T B i L S TM C R F分别提升了和 ,这两个模型的结果差距不大.B E R T B i L S TM C R F相比B i L S TM C R F提升较大,F 值提升了 ,说明B E R T预训练模型能显著影响实验结果.B E R T MR C也采用机器阅读理解的方法识别命名实体,相比之前的序列标注模型提升也较大,说明机器阅读理解模型能有效解决命名实体识别任务.B E R T MHAM MR C在B E R T MR C的基础上增加了多头注意力机制,F 值提

46、升了 ,说明增加多头注意力使模型更加专注于医学文本中实体的关键信息,能有效提升在中文医学文本上的识别效果.从表可以发现,不同类型的实体识别结果差异较大,B E R T MHAM MR C在不同实体上的提升差异也较大.综合表中的内容,这种差异与实体的数量、长度和组成结构呈现一定的相关性,但同时也与实体嵌套数量呈现较大的相关性.对C H I P 中每一类型实体包含嵌套的数量进行统计(即此类实体中含有其他实体),结果如表所列.从表可以发现,临床表现实体存在嵌套的情况最多,占总嵌套数量的 .结合表和表进行分析,B E R T MHAM MR C相比C R F在临床表现实体上F 值提升了 ,比B i L

47、 S TM C R F提升了 .由于C R F,B i L S TM C R F,B E R T C R F和B E R T B i L S TM C R F均采用最大标注法进行实体识别,存在嵌套的情况被忽略.例如,“呼吸肌麻痹”是一个“临床表现”实体,但其中嵌套了“呼吸肌”这样一个身体实体.序列标注模型极易只标注“呼吸肌”这个身体实体,这也是所有的序列标注模型中临床表现实体效果都不太好的原因.而B E R T MHAM MR C采用对实体类型提问的方式,能分别识别临床表现实体和其他实体,解决了嵌套的问题.表 C H I P 中每类实体存在嵌套的数量T a b l e N u m b e ro f n e s t e de n t i t i e so f e a c h t y p e i nC H I P 疾病临床表现医疗程序医疗设备药物医学检验项目身体科室微生物类 B E R T MHAM MR C不仅在嵌套实体上的识别效果较好,在非嵌套和嵌套数量极少的实体类别上表现也较好,分别都有不同程度的提升.这说明B E R T MHAM MR C不仅能较好地解决嵌套命名实体识别问题,在非嵌套的实体识别上表现也较好.B E R T B i L S TM C R F和B E R T C R

展开阅读全文