收藏 分销(赏)

电子病历的关系语义实体识别.pdf

上传人:自信****多点 文档编号:617235 上传时间:2024-01-17 格式:PDF 页数:9 大小:4.14MB
下载 相关 举报
电子病历的关系语义实体识别.pdf_第1页
第1页 / 共9页
电子病历的关系语义实体识别.pdf_第2页
第2页 / 共9页
电子病历的关系语义实体识别.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第40 卷第3 期2023年9 月doi:10.12084/j.issn.2096-3289.2023.03.008苏州科技大学学报(自然科学版)Journal of Suzhou University of Science and Technology(Natural Science Edition)电子病历的关系语义实体识别Vol.40 No.3Sep.2023蔡翟源1,2,陈杰1,2,奚雪峰1,2 3*,崔志明1,盛胜利4(1.苏州科技大学电子与信息工程学院,江苏苏州2 150 0 9;2.苏州虚拟现实智能交互及应用技术重点实验室,江苏苏州215009;3.苏州智慧城市研究院,江苏苏州2

2、 150 0 9;4.德州理工大学,得克萨斯州拉伯克市7 940 1)摘要:医疗实体识别是医疗智能化的基础,随着国内首个公开电子病历数据集一一依渡云数据集的发布,国内对于电子病历实体识别的研究也逐渐增多。然而医渡云实体数据集标注的疾病类别粒度过粗,未包含应有的语义修饰信息,这不利于后续的数据挖掘。论文在医渡云数据集的基础上将原有疾病标签实体改为包含语义信息的多标签实体。并提出一种ALBERT-BiLSTM-Attention-CRF模型,提高了识别精度。实验表明,该模型优于主流模型。关键词:医疗智能化;实体识别;医渡云数据集中图分类号:TP391自然语言处理(Natural Language

3、Processing,NLP)是人工智能领域的一个重要分支,其中命名实体识别(Na m e d En t i t y Re c o g n i t i o n,NER)是NLP领域的最基础、最重要的任务之一。命名实体识别的一般目标是对包括3大类以及7 小类的文本段进行命名实体的抽取,将文本从非结构化的数据形式转化为结构化数据形式,方便存储以及后续对文本的处理应用,在信息抽取、机器问答等自然语言处理任务中有较为广泛的应用。目前随着生物医学技术的发展,医疗领域的文献以及资料数目已经成几何级增长,运用NER技术实现医疗文本的实体识别可以大大提高医疗效率。特别是目前新型冠状病毒的爆发,更加引起人们对健

4、康的关注,并且有力带动医疗技术的快速进步。在医疗领域,医务工作者通过医疗管理系统,直接将患者的基本信息和病况信息录入系统,存储在服务器中,生成电子医疗数据,其中电子病历是最为常见的一种电子医疗文本。对电子病历文本进行实体识别,将繁杂的医疗文本以结构化的数据形式存储起来,给医学工作者在后续的分析数据工作中节省了很多时间,并为医学工作提供更加高效的分析、研究和决策。电子病历实体识别主要关注于临床病历中的疾病症状、检查、手术、药物等专有词语,相较于通用领域实体识别,电子病历实体识别的词语更倾向于短语结构,例如,在病历记录中,记录患者“无静脉曲张”包含疾病词“静脉曲张”和“患者未患有”两种信息。目前国

5、内公开的电子病历实体识别数据集一一医渡云数据集,在疾病实体标记时,只标记出与疾病相关的专有名词,而没有将疾病与患者关联起来,例如“无静脉曲张”,医渡云数据集将“静脉曲张”标记为疾病实体,但是事实上,患者并未患有该病。假如需要统计患有静脉曲张的病人数,仅识别出静脉曲张将会导致统计错误。1相关工作电子病历的命名实体识别主要实现方案可以分为四大类:基于字典的方法、基于规则的方法、基于传统机器学习的方法以及基于深度学习的方法。早期基于字典的方法提取实体虽然在结构上有易于实现的优点,但是无法解决一词多义等问题,需要人工维护词典,并且召回率也比较低;后来出现了基于规则的方法,例收稿日期 2 0 2 1-0

6、 7-31基金项目】国家自然科学基金资助项目(6 16 7 2 37 1;6 18 7 6 2 17;6 18 7 6 12 1);苏州市科技计划项目(SYG201817);江苏省“六大人才高峰 高层次人才项目(XYDXX-086)作者简介】蔡翟源(1997 一),男,江苏泰州人,硕士研究生,研究方向:自然语言处理,E-mail:。*通信作者:奚雪峰(197 8 一),男,博士,教授,硕士生导师,E-mail:x f x i u s t s.e d u.c n。文献标志码:A文章编号:2 0 96-32 8 9(2 0 2 3)0 3-0 0 6 2-0 9第3期如,李莹对家族史病历,通过人工

7、学习和发现的办法学习了一套浅层句法分析器,实现了家族病史实体提取。这种基于规则的方法,需要手工制作符合数据集的特征集,在不满足提取规则的文本上无法正确提取结果。以上两种方法均不能成功应用于未训练过的的实体识别,而医疗领域出现了新的病症名、药物名等词汇是较为常见的。后来,基于统计的机器学习方法被应用于命名实体识别,包括隐马科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、条件随机场模型(CRF)。在医疗领域使用最多的就是条件随机场模型(CRF),刘凯等人2 将CRF模型应用在中医电子病历实体识别中,通过结合特征模板MT3糖尿病病症的实体提取结果F可以达到80%;栗伟等人3使用CRF与规则相结合

8、方法,先用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,最后实体识别最高Fi值可以达到8 7.2 6%。随着计算机算力的大幅提升,基于深度学习的命名实体识别方法也应运而生,并且在命名实体领域取得了很好的结果。基于深度学习的方法可以解决采用传统方法带来的过于依靠人工特征提取,提高了效率,因此成为近来的研究热点。曹依依等人4构建了卷积神经网络CNN与条件随机场CRF的融合模型框架,Fi值达到了9 0.31%。陈德鑫等人5构建了基于CNN+BiLSTM模型的在线医疗实体抽取研究,最后疾病和医院实体抽取Fi值可以达到9 7%,其余的多种实体也都可以达到9 1%以上。张华丽等人使用

9、结合注意力机制的BiLSTM-CRF融合模型进行中文电子病历命名实体识别,通过注意力机制获取字符间的依赖关系,从而优化实体识别准确率。2 0 18 年,Devlin等人7 首次提出了BERT预训练模型,此后BERT被应用于实体识别领域,BERT模型相比于传统的嵌入模型,可以更好的学习上下文语义信息。陈琛等人8 将BERT预训练模型应用到医疗命名实体识别中,构建了BERT-BiLSTM-CRF模型,其结果对比于Baseline的F值提高了1.1%。2多多语义电子病历实体识别介绍2.1医医渡云数据集介绍医渡云数据集包括150 0 标注文本,10 0 0 条非标注文本。其中标注的实体类别6 种,标注

10、的医疗实体词表6 2 9 2 个,总共标注了2 6 414个实体数据。标注数据集统计如图1所示。14000r12000-100008000-60004000-20000疾病和诊断检查图1实体类别统计对于医渡云数据集实体类别的基本释义见表1。医渡云数据集采用的标注策略为BIO标注模式,也就是将实体的开头字标记为B-X(其中X为实体类别),实体的中间字标记为I-X,其余字符定义为无关字符,标记为0。举例说明:“患者腹疼痛加重”。这句话中“患者”“加重”都是无关字符,标签定义为O,“腹疼痛”为医疗实体中的疾病类,具体细分“腹”为实体“腹疼痛”的开始,标签标记为B-疾病,“疼痛”为“腹疼痛”的内部,对

11、“疼痛”分别标记为I。该数据集对医疗领域的疾病专有名词做出标注,采用的标签为单语义标签,一个标签只包含名词类别,无法涵盖该名词与患者的关系,在很多场合,需要判断患者现在是否存在腹疼痛,或者是以蔡翟源,等:电子病历的关系语义实体识别检验药物63手术解剖部位64往出现过腹疼痛的情况,因此,单标签无法包含相应的语义信息。表1医渡云数据类别描述类别描述疾病与诊断医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断影像检查(X线、CT、M R、PET C T 等)+造影+超声+心电图,未避免检查操作与手术操作过多冲突,不包含此检查外其他的诊断性操作,如胃镜、肠镜等检验在实验室进行的物理

12、或化学检查,本期特指临床工作中检验科进行的化验,不含免疫组化等广义实验室检查手术医生在患者身体局部进行的切除、缝合等治疗,是外科的主要治疗方法药物用于疾病治疗的具体化学物质解剖部位指疾病、症状和体征发生的人体解剖学部位2.2数据集标签分类及标注策略在电子病历的文本信息挖掘任务中,除了医疗名词信息识别之外,名词实体与患者之间的关系信息识别也是其他任务展开的基础,这种关系信息的识别任务也是其他诸多工作的基础9。关系信息主要反映疾病或症状在病历文本中存在的状态,这种状态主要体现在疾病或症状是否发生在患者本人身上,或已发生的疾病或症状与患者本人之间的程度,如是否当下发生的疾病或症状。参照卫生部发布的电

13、子病历数据组与数据元标准9以及I2B22010评测任务提出的关系信息类别,并且对医渡云数据集进行观察分析,最终将“疾病与诊断”类和患者的关系分为四类:“当前的”“可能的”“既往的”“否认的”。表2 对这四类关系做出进一步描述。当前的可能的既往的否认的由于需要在标签中包含关系信息,原来的医渡云标注方案无法做到,因此,文中引入多标签标注方案,例如,医渡云数据集里:“2 0 14-11-2 0 复查MRI提示右附件区囊实性肿块,考虑卵巢癌。”该句话中将“卵”标注为B-疾病,“巢癌”分别标记为I-疾病,但在此句话中“卵巢癌”仅仅是医生推测患者可能存在的疾病,并非实质性确定为患者患有的疾病,在文中定义的

14、标签中,沿用原数据集的BIO标注模式,并结合上下文语义,将其标签做出调整。上例中调整后,“卵”:B-疾病-可能的;“巢癌”:I-疾病-可能的。经过这样的转换,将仅包含名词实体信息的标签转换为带有关系的实体标签。标注实例如图2 所示。2104-11-20复查MRI提示右附件区囊实性肿块,考虑卵B-Di-PoI-Di-Po(O代表无关字,B,I代表实体开始和内部,Di代表疾病实体,Po代表患者可能患有该疾病)图2 多标签标注实例相对于专业名词标注,疾病与患者的关系语义不需要专业知识也可以进行标注。笔者在医渡云数据集标注的基础上进行疾病关系标注,该数据集并未完全将所有的疾病或者症状标注出来,因此,文

15、中也不会对原来未标注的专有名词进行标注。原数据集不仅提供了原文以及标签数据,还提供了已经标注的名词的词表,这便利了研究者的标注工作。根据词表中的疾病与诊断类对应的专有名词笔者定位到原文中,通过阅读上下文,将标注为疾病类别的实体加人以上四类关系语义,形成多标签标注数据集。3模型苏州科技大学学报(自然科学版)表2 疾病与患者关系类别描述关系目前确定发生在患者身上的症状或者疾病目前并不能确定,推测可能发生的疾病或症状不是患者当前的疾病或症状,而是过去发生过的在患者身上不存在的疾病或症状巢癌02023年描述文中提出的用于实体识别的模型基于端到端的结构I0)。主要由四部分组成:ALBERT预训练模型、第

16、3期BiLSTM编码层、Attention机制、CRF解码层。将电子病历文本输人ALBERT模型中,输出接BiLSTM的输人层,通过Attention机制获得强关注信息,最后将Attention向量输人到CRF层进行序列解码,得到每个字的标注类型,模型的结构图如图3所示。蔡翟源,等:电子病历的关系语义实体识别输出B-疾病-可能65I-疾病-可能I-疾病-可能CRFCRFAttentiona2h1h2a3h3a4a5h4h5BiLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMALBERT输入3.1预训练模型层3.1.1BERT模型语言模型在自然语言处理中是

17、一个很重要的概念,BERT模型是谷歌在2 0 18 年提出的大型语料库预训练模型,该模型推出后,就在自然语言处理任务中被广泛应用,并且在很多方面取得了超越人类的能力。BERT模型解决了传统语言模型单向编码以及无法融合文本语义信息的缺陷,因而也可以通过上下文关联解决一词多义的问题。BERT模型结构图4所示。BRERT模型参照了GPT模型与ELMOL2模型的优点,采用了双向Transformer131结构作为编码器,使用Transformer替代LSTM,使得模型可以更好地表达语义信息。Transformer是一种基于注意力机制的编码单元。通过Transformer结构,可以将文字内部联系关联起来

18、。模型的结构图如图5所示。T1TrmTrm考T2TrmTrm虑图3模型结构图TNTrmTrm卵巢癌Feed ForwardAdd&NormalSelf-AttentionAdd&NormalFeed ForwardPositionalE1E2图4BERT预训练语言模型BERT在训练时增加Masked和下文预测两种任务。使得模型可以更好地获取词语间信息和整体表达。3.1.2ALBERT模型ALBERT模型是Lan等14在2 0 19年提出的轻量级BERT,,在3个方面对BERT模型进行了改进:(1)对ENEncodingX1L图5 Transformer 编码结构x266嵌的因式分解;(2)跨层

19、参数共享;(3)句间连贯性损失。将ALBERT预训练模型直接用于电子病历词表征会存在不准确的问题,因为电子病历的文字表述并不是与公共语料库描述方式相似,其中的词语与句子也是专业术语,因此,必须使用ABERT针对医疗领域语料库进行预训练,文中利用ALBERT模型对电子病历文本进行预训练学习文字表示。3.2BiLSTM层临床电子病历信息数据通常具有复杂的上下文关系以及复杂的医学用语,单向LSTM无法处理上下文信息,所以本文利用BiLSTM计算捕捉文本的双向语义依赖关系5。BiLSTM(长短期记忆神经网络)是一种特殊的RNN网络,解决了普通神经网络在长序列时出现的梯度爆炸以及梯度消失的问题。LSTM

20、结构有两个状态:一个c(cellstate);另一个h(hidden state)。RNN中的h相当于LSTM中的c,对于传递下去的c改变的很慢,通常输出的c是上一个状态传过来的ct-1加上一些数值。3.3Attention层经过BiLSTM后,虽然模型学习了丰富的上下文信息,但是每一个特征的权重都是一样的,没有突出不同词的重要程度。例如,“患者于5天前出现腹部疼痛”,“患者”该词对症状“腹部疼痛”的识别没有影响,模型将患者和其他词汇以同等的权重进行特征提取,无法突出关注更加有用的信息,因此,文中在基础的实体识别模型中加入Attention机制,使得模型可以学习到每一个元素的重要程度,从而提高

21、识别精度。Attention将BiLSTM输出隐层进行加权16 。3.4CRF 层模型的最后一层用于标签的预测,一般的实体标签预测的方法都是将预测的标签当做是相互独立的,但事实上每个标签都是有联系的。例如,疾病实体“慢性支气管炎”,经过标注的结果为(B,I,I,I,I,I),在这个标注的结果中,不能出现类似(B,O,I,I,I,I)这种在I之前的情况。所以在进行标签预测的时候还要对标签序列进行合理性约束,CRF通过特征约束捕捉序列标签的关系,输出序列预测类型。CRF约束标签的依赖关系,避免出现无效的序列标签输出。将通过Attention层的权重向量经过CRF层解码,最终输出预测的标签结果。4实

22、验设计4.1数据集文中构建的多语义电子病历数据集是在医渡云数据集基础进行人工标注形成,针对原数据集疾病与诊断实体类,额外增加了四类关系信息,将单标签数据变为多标签数据。在标注数据时发现原数据集某些标签存在偏移的现象,即一段病历描述中标签的起始和结束序列位置都与原文存在一定偏差,笔者对这些标签进行了校正。原数据集总共6 2 11个疾病与诊断实体,经过标注后,“当前的”疾病总共42 93个,“否认的”疾病总共418 个,“可能的”疾病共12 35个,“既往的”疾病共2 6 5个。文中将数据集大致按照8:1:1的比例进行分配为训练疾病和诊断-可能的集、验证集、测试集。各类实体分布见表3。疾病语义实体

23、验证集疾病和诊断-当前的3534疾病和诊断-可能的1 002疾病和诊断-既往的220疾病和诊断-否认的350总计5 106苏州科技大学学报(自然科学版)表3关系语义实体数量分布训练集35811620335272023年htanhtanhh-图6 LSTM内部结构测试集4011172535578第3期4.2评价指标该实验采用的评价指标主要是精确率(Precision)、召回率(Recall)和Fi-Score。精确率代表在被所有测试集中预测为正的样本中实际为正样本的概率,表达式为其中,TP代表预测为正,实际为正,预测正确;FP代表预测为正,实际为负,预测错误。召回率是针对原测试集而言的,其含义是

24、在实际为正的样本中被预测为正样本的概率,表达式为其中,FV代表预测为负,实际为正,预测错误;TP代表预测为正,实际为正,预测正确。Fi-Score同时考虑精确率和召回率,让两者同时达到最高,取得平衡。Fi分数表达式为4.3实验环境设置该实验的环境配置:操作系统(Ubuntu14.0),C PU(i 7-98 50 H 2.6 0 G H z)G PU(G T X2 0 8 0 T i*4),Py t h o n(3.7.3),Tensorflow(1.15.2),内存(16 GB DDR4)。该论文实验基于TensorFlow-Gpul.15.2深度学习框架和keras、n u mp y、s

25、e q e v a l 等第三方库,使用1.8 M大小的ALBERT_TINY模型;使用四块2 0 8 0 Ti显卡进行训练。4.4实验结果及分析4.4.1模型有效性分析为了验证模型的有效性,先使用文中的模型在医渡云原始数据集上进行测试,并对比上文所述的几种典型模型。包括CNN-CRF模型、BiLSTM-CRF模型、BERT-BiLSTM-CRF模型以及文中模型。实验结果对比见表4。CNN-CRFI1BiLSTM-CRFlBERT-BiLSTM-CRFALBERT-BiLSTM-Attention-CRF将文中的实验结果与CNN-CRF、Bi LST M-C RF、BERT-Bi LST M-

26、C RF三种模型的实验结果对比,根据Fi指标可以发现,检验实体识别可以达到最高96.3%的好效果,大多数实体的精确率、召回率均有所提升,不仅如此采用ALBERT预训练模型的训练速度也要提升不少。为了更加直观地展现提升情况,文中又构建了如蔡翟源,等:电子病历的关系语义实体识别Precision=TP/(TP+FP)Recall=TP/(TP+FN)Fi=(2召回率精确率)/(精确率+召回率)表4典型模型实验对比模型实体疾病和诊断检查检验手术药物解剖部位疾病和诊断检查检验手术药物解剖部位疾病和诊断检查检验手术药物解剖部位疾病和诊断检查检验手术药物解剖部位67(1)(2)(3)精确率召回率0.667

27、0.7060.8760.9230.6670.8060.6660.6180.7410.7070.7130.7060.7450.7650.9010.8860.9370.8860.8460.7910.8120.6450.8890.7660.8040.8230.9060.8910.9870.9210.8630.8060.83307290.9010.8310.8120.8180.9420.8920.9650.9310.8660.8170.8490.6630.9080.823Fi-Score0.6860.9000.8230.6410.7230.6920.7260.9220.9220.8030.7130.8

28、190.8050.9060.9450.8060.7400.8450.8150.9160.9630.8410.7450.86468图7 所示的Fi-Score对比图(其中疾病类代表疾病与诊断),从图中可以清晰的看到ALBERT-BiLSTM-CRF模型(粗实线)的描绘图面积最大,这说明在所有医疗实体识别类别中,该模型的效果好过其余典型模型。该模型Fi-Score均好于其他模型。由于BERT参数量众多(文中采用的BERT模型参数达到了334M),相较于BERT模型,文中采用的同样隐层量的ALBERT模型,参数量仅为18 M,如此巨大的参数缩减,极大降低了模型训练的成本,提高了模型运行的速度,并且得

29、到了比BERT模型更好的结果。解剖0.864-0.8450.8190.692苏州科技大学学报(自然科学版)疾病0.8150.950.8050.9K0.7260.85K0.6860.750.70.652023年0.9160.906检查0.9020.9-CNN-CRF.BiLSTM-CRF.BERT-BLSTM-CRF.ALBERT-BiLSTM-Attention-CRF0.745表5消融实验0.740.7230.713药物将对比模型与文中实验模型进行消融实验,用于研究模型每个组件对实体识别结果的贡献度。为了便于分析结果,该消融实验所得到的评价指标数值均为所有实体类别的平均值。表5中的衡量指标表

30、明了模型的各个部分被单独分割之后,模型的性能会出现降低。当去掉CRF解码层后,观察到三个基线模型和文中模型都出现了性能上的大幅降低降低幅度大概在10%,因此,表明CRF层对于此任务至关重;当BiLSTM-CRF、BERT-Bi LST M-C RF、A LBERT-Bi LST M-A t t e n t i o n-C RF这三个模型结构简化成单向版本,性能也出现了不同幅度的降低,降低幅度分别为5.32%、3.7 0%、3.2 0%,可以看出文中的模型相对于其他模型在鲁棒性上有所提升;该模型中的Attention层被去除后,模型的性能下降了2.2%。通过这些实验,可以发现文中的模型具有更好的

31、实验结果。CNN-CRF-crfBiLSTM-CRF-bidirection-crfBERT-BiLSTM-CRF-bidirection-crfALBERT-BiLSTM-Attention-CRF-bidirection-Attention-crf4.4.2多标签数据集实验上述实验证明了该模型的优越性,将该模型应用于标注的关系语义数据集,为了得到较为优秀的实验结果,对Dropout(丢弃率)进行调整实验,使用不同的Dropout分别进行实验,结果见表6。0.8230.9229.70.945检验-0.96 30.6410.803L0.8060.841手术图7 4个模型在6 种实体类别中的Fi

32、-Score表现雷达图精确率0.7220.6310.8550.8020.7780.8820.8450.8210.8900.8580.8360.813召回率0.7440.6560.7900.7380.7130.8340.7960.7650.8240.7920.7730.750Fi-Score0.7440.6390.8180.7650.7410.8410.8030.7940.8570.8240.8050.778第3期类型/Dropout疾病和诊断-当前的疾病和诊断-可能的疾病和诊断-既往的疾病和诊断-否认的从表6 可以看出,Dropout从0.1到0.5变化过程中,结果存在波动,但Dropout为

33、0.1时整体效果最好,因此,选用Dropout为0.1。最终得到关于精确率、召回率、Fi-Score三个评价指标的实验结果,见表7。类型疾病和诊断-当前的疾病和诊断-可能的疾病和诊断-既往的疾病和诊断-否认的总体观察实验数据,四类带有修饰信息的类别总体Fi-Score达到了7 4.1%,其中疾病和诊断-当前的类Fi-Score达到了8 0.3%的实验结果,相较于原数据集疾病和诊断类别8 1.5%的结果,最高分数的实体类实验结果下降了1.2%,这是由于将原疾病和诊断类别进行拆分后造成的。根据Fi-Score可以发现,当前的疾病诊断类的指标表现最好达到了8 0.3%既往的疾病诊断类最差只有6 5.

34、4%。这四类实体识别的精确率差距较大,推测原因主要是疾病和诊断-当前的类训练数据最多,疾病和诊断-既往的数据量最少,较少的数据量导致模型没有很好地学习到既往的类别的上下文语义特征。疾病和诊断-否认的类别和疾病和诊断-既往的类别训练数据都相对较少,但是疾病和诊断-既往的的语义信息较为复杂,识别结果比疾病和诊断-否认的类别效果差很大。5结语蔡翟源,等:电子病历的关系语义实体识别表6 不同Dropout对实验结果的影响0.10.20.8030.7950.7680.7730.6540.6020.7390.728表7 实体识别结果精确率召回率0.8120.7940.7770.7590.6530.6550

35、.7700.7080.7530.729690.30.50.8170.7440.7490.7160.6110.6230.6950.685Fi-Score0.8030.7680.6540.7390.741针对医疗领域实体数据集,笔者提出了ALBERT-BiLSTM-Attention-CRF模型,在上游采用ALBERT进行预训练模型,学习词表示,使用BiLSTM融合上下文表征,通过Attention进行关注表征,最后通过CRF约束标签预测。发挥了ALBERT模型的学习文本信息的优势,也融合了语义依赖表征,在极大削弱了BERT的参数的情况下,显著减少了训练时间,最后还取得了突破传统医疗实体识别方法的

36、效果。并且针对医渡云数据集标注不完善,缺少语义信息的问题,提出一种多标签的标注法,进行再标注。实验表明,再标注后的数据集识别效果良好,既可以识别出疾病诊断类,又可以识别疾病与患者的关系,为医疗实体数据集标注提出了一种新的标注策略。仍需要改进的地方:(1)标注的数据集数量过少,不利模型学习到足够特征,后续可以通过数据增强等技术扩大数据量。(2)文中仅针对疾病与诊断类进行语义关系标注,除此之外,手术、药物也存在相应的语义关系(手术药物均有既往的与当前的等语义信息),但由于医渡云数据选用的电子病历描述的手术、药物实体往往都是当前发生的实体,既往的或者其他语义的实体过少,不适合进行二次标注。后续笔者会

37、在新的数据集上应用文中的方法进行实验验证。(3)模型可以进一步考虑电子病历的特征,融人汉字偏旁等字形特征,提高识别精度。参考文献:1李莹.文本病历信息抽取方法研究D.杭州:浙江大学,2 0 0 9.2刘凯,周雪忠,于剑,等.基于条件随机场的中医临床病历命名实体抽取.计算机工程,2 0 14,40(9):312-316.3栗伟,赵大哲,李博,等.CRF与规则相结合的医学病历实体识别J.计算机应用研究,2 0 15,32(4):10 8 2-10 8 6.4曹依依,周应华,申发海,等.基于CNN-CRF的中文电子病历命名实体识别研究J.重庆邮电大学学报(自然科学版),2 0 19,31(6):8

38、6 9-8 7 5.5陈德鑫,占袁圆,杨兵,等.基于CNN-BiLSTM模型的在线医疗实体抽取研究.图书情报工作,2 0 19,6 3(12):10 5-113.706张华丽,康晓东,李博,等.结合注意力机制的BiLSTM-CRF中文电子病历命名实体识别.计算机工程与应用,2 0 2 0,40(S1):98-102.7 DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of deep bidirectional transformers for language understandingEB/OL.2019-01-15.https:/ 0 2

39、1(3):17 3-17 6.9 ZENG L,GAO D Q,RUAN T,et al.Analysis and marking of symptom composition based on CRFJ.Journal of East China University of Scienceand Technology(Natural Science Edition),2018,44(2):277-282.1O LEAMAN R,LU Z.NCBI disease corpus:A resource for disease name recognition and concept normal

40、izationJJ.Journal of Biomedical Informat-ics,2014,47:1-10.1 RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving language understanding by generative pre-trainingEB/OL.2019-02-25.https:/ PETERS M,NEUMANN M,IYER M,et al.Deep contextualized word representationsCJ/Proceedings of the 2018 Conference of the

41、 North Ameri-can Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long Papers),2018.13 VASWANI A,SHAZER N,PARMAR N,et al.Attention is all you needJ.arXiv,2017.https:/arxiv.org/abs/1706.03762.14 LAN Z,CHEN M,GOODMAN S,et al.ALBERT:A lite BERT for self-supe

42、rvised learning of language representationsJ.arXiv,2019.https:/arxiv.org/abs/1909.11942.15吕凡,胡伏原,沈军宇,等。一种双LSTM结构的图像多标签分类方法J.苏州科技大学学报(自然科学版),2 0 18,35(3):7 9-8 4.16杨,徐清,邵帮丽,等.一种基于端到端模型的中文句法分析方法.苏州科技大学学报(自然科学版),2 0 2 1,38(2):7 7-8 4.苏州科技大学学报(自然科学版)2023年Relational semantic entity recognition for electr

43、onic medical recordCAI Zhaiyuan-2,CHEN Jie-2,XI Xuefeng.-2.,CUI Zhiming,SHENG Shengli4(1.School of Electronic&Information Engineering,SUST,Suzhou 215009,China;2.Suzhou Key Laboratory of Vir-tual Reality Intelligent Interaction and Application Technology,Suzhou 215009,China;3.Suzhou Smart City Re-sea

44、rch Institute,Suzhou 215009,China;4.Texas Institute of Technology,Lubbock,Texas 79401,USA)Abstract:Medical entity recognition is the basis of medical intelligence.With the release of the first publicelectronic medical record data set in China,the research on electronic medical record entity recognit

45、ion is gradu-ally increasing.However,the disease categories labeled in the Yidu cloud entity dataset are too rough and do notcontain the semantic modification information,which is not conducive to the subsequent data mining.This paperchanged the original disease label entity into a multi label entit

46、y with semantic information based on the Yiducloud entity dataset.And an Albert bilstm attention CRF model was proposed.The model was applied to EMRentity recognition.The recognition accuracy was improved.The final experiment shows that the model is betterthan the mainstream model.Key words:medical intelligence;entity recognition;Yidu cloud data set责任编辑:谢金春

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服