收藏 分销(赏)

中文电子病历命名实体识别方法研究.pdf

上传人:自信****多点 文档编号:3079833 上传时间:2024-06-15 格式:PDF 页数:7 大小:2.73MB
下载 相关 举报
中文电子病历命名实体识别方法研究.pdf_第1页
第1页 / 共7页
中文电子病历命名实体识别方法研究.pdf_第2页
第2页 / 共7页
中文电子病历命名实体识别方法研究.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、中文电子病历命名实体识别方法研究陈婕卿竹志超张锋曾可姜会珍程振宁(中国医学科学院北京协和医院信息中心北京 北京工业大学信息学部北京 北京安妮福克斯信息咨询有限公司北京 )摘要目的 意义 探索基于中文电子病历的命名实体识别方法在构建医学知识图谱和相关应用推广方面的技术可行性。方法 过程 采用真实医疗电子病历数据对词嵌入表示模型进行精化,构建医学术语专有嵌入表示,并利用卷积神经网络等多模型提取局部语义特征,实现基于堆叠注意网络的中文医疗命名实体识别。结果 结论 堆叠注意网络模型 值达到 ,较其他模型具备更强的医疗命名实体识别性能。进一步解决中文医疗命名实体识别难点,在实现全局语义特征全面深入提取的

2、同时降低时间成本。关键词电子病历;命名实体识别;堆叠注意网络 中图分类号 文献标识码 ,;,;,()(),()(),;修回日期 作者简介陈婕卿,助理研究员,发表论文 余篇;通信作者:张锋,高级工程师。基金项目科技创新 “新一代人工智能”重大项目(项目编号:)。引言命名实体识别 是从自然语言文本中发现特定目标实体,而医疗命名实体识别则是从医疗文本中识别医疗实体边界并判断医疗实体类别 。常见医疗实体类别包括诊断名称、查体部位、治疗信息、检查或检验项目以及症状等。医疗命名实体识别的准确性影响事件抽取、关系抽取等任务效果,是医医学信息学杂志 年第 卷第 期 ,疗知识图谱构建的关键基础。医疗命名实体识别

3、方法主要包括 种:基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法。前两种需要耗费大量成本构建字典、制订规则或指定模型需要学习的特征。等 利用条件随机场(,)模型实现对医学文本中的基因等生物医学术语的高精度识别;等 建立一个结合 、基于规则文本注解的医疗命名实体识别模型并取得较好效果。深度学习方法使模型真正具有自主学习能力,因此应用广泛。研究识别生物医学命名实体时的单词嵌入方式和字符级表示方法。等 在循环神经网络的基础上同时考虑字符级嵌入和词级嵌入,取得很好的医疗实体识别效果。李灵芳等 研究基于双向编码器表征(,)模型、双向长短期记忆(,)模型和 的组合模型,通过 字嵌入模型更

4、好地表示文本,解决一词多义问题,最终通过实验验证所提出方法的有效性。虽然基于深度学习方法的命名实体识别模型性能显著,但尚存在缺陷,即通用领域词嵌入模型无法表示医学领域特有的医学术语,导致模型无法对特有的医学术语进行表示,专有特征出现丢失。但是,传统方法缺乏对字符间局部语义特征的提取。为解决上述问题,本文提出专用模型并使用大规模真实医疗电子病历数据对词嵌入表示进行精化,探索基于中文电子病历的命名实体识别方法在构建医学知识图谱和相关应用推广方面的技术可行性。数据处理 数据标记方法数据来自中国医学科学院北京协和医院 年度的真实电子病历文书,数据经初步清洗后,共计 条电子病历文书被纳入研究,在专业医学

5、专家和团队的指导下手动标记。随机抽取其中的 条作为训练集和验证集(训练集与验证集样本量比例为 ),其余电子病历文书作为测试集。对所有数据集进行预处理,包括病历文书章节分割,即根据章节标签进行拆分,采用 标记方法,其中“”表示医疗实体起始位置的标签,“”表示医疗实体剩余部分的标签,“”表示当前字符不是医疗实体。“”或“”中的“”是医疗实体的类别,该数据集共有 个不同标记,见表。每条文本均标有名称、起始位置和医学类别。本文将实体定义为类,包括“症状”“检查”“结果”“疾病”“治疗”和“否定”。表 标记方法及其示例类别标记症状 症状 症状检查 检查 检查结果 结果 结果疾病 疾病 疾病治疗 药物 药

6、物否定 否定 否定非医疗实体 数据预处理数据预处理阶段,前期由人工以及程序初步标注数据,然后训练命名实体识别和关系抽取模型。在命名实体识别和关系抽取过程中,将医疗本体和预训练语言模型学习到的文本特征相结合,增强特征区分能力,从而提高命名实体识别和关系抽取模型的识别精度。同时利用模型对未标注数据进行概念实体和关系的提取,过程中合理利用外部医学知识资源,互相融合扩充和优化,从而实现大规模医疗知识库的增量构建。此外,通过集成构建的实体对齐模型对图谱包含的实体进行对齐,以保证图谱质量。后期根据上述模型开发自动化标注程序,经过算法标注的数据再辅以人工审核和双人背对背校验,确保数据标注的有效性和一致性,减

7、少标注误差的影响。总体完成的已标注数据中包含疾病类别 种,共 条。医学信息学杂志 年第 卷第 期 ,研究方法采用由多种模型融合而成的堆叠注意网络(,)模型,包含 组模块:数据预处理模块、字符嵌入模块和语义分析模块(集成卷积神经网络(,)模型、堆叠 模型、注意力机制和 模型),见图 。数据预处理模块对输入的数据进行预处理,对字符、单词和句子进行分割,并对词性进行标注。字符嵌入模块使用大规模真实电子病历未标注语料(北京协和医院 年度电子病历文书)对基于 的优化版预训练模型 进行预训练,以精化字符嵌入,补充医学术语特征。语义分析模块利用 模型捕捉字符间的局部依赖关系特征,通过构建堆叠 全面充分捕捉文

8、本的全局语义特征,将其与 的输出进行拼接,构建语义特征更丰富的文本表示。最后,将注意力机制分配的权重与文本表示融合送入 计算预测序列标签。图 基于多模型融合的堆叠注意网络架构 的输入是电子病历句子中的字符,输出是字符的特征向量。通过输入 个不同的特征值(文本表示向量、句子分割向量和位置向量)获得特征向量,位置向量计算方式如下,编码方法利用 函数和 函数,是文本中的字符,表示维度,编码后的向量维度为 。(,)()()(,)()()卷积神经网络 模型能有效地捕捉像素点与像素点间的局部依赖关系信息,因此最初被广泛应用于计算机视觉。在自然语言处理领域,输入是以向量表示的句子或者文档。向量的每一行对应一

9、个字符或单词,即每行代表一个嵌入向量,卷积核滑过的是向量中的一“行”(单词),见图 。图 卷积神经网络模型运算方式医学信息学杂志 年第 卷第 期 ,堆叠 模型传统 模型序列标注任务的权重赋予是等价的,解决上下文依赖关系特征的捕捉问题,序列标注任务中当前状态之前和之后的状态是平权的。但现有研究中词嵌入表示呈现高维性,因此传统方法存在全局语义特征提取不充分的问题。随着技术的发展,等 利用带有多层隐藏层结构的堆叠 模型对全局语义特征进行提取,并证明其具有更强的全局语义提取特征能力。受其启发,本文构建一种带有多层隐藏层结构的堆叠 模型,更充分地捕捉文本全局语义特征并改进,见图 。图 堆叠 模型架构对比

10、(每个方向上 层)等 所提出的方式仅将两个独立 模型进行串联式拼接,而本文对其进行改进,将两个 模型融合在一起,以实现多次全局特征提取,同时上文和下文的全局特征提取操作互不干扰,特征提取更为纯粹,省略中间层的整合计算并减少时间消耗。注意力机制注意力机制最重要的贡献是区分文本中的关键信息,重点关注对结果影响较大的关键特征,尽可能地忽略无关特征。因此,引入注意力机制以增强模型的实体识别性能,见图 。运算方式如下,其中 、和 个参数分别代表 、和 。(,)(槡)()图 注意力机制的权重分配过程 条件随机场 模型是一种经典的判别概率无向图模型,通常用于序列标记任务。在 模型预测过程中,利用维特比算法求

11、解全局最优序列,计算方式如下。是 在函数中获得最高分数的序列。(,)()多模型融合经过微调形成的 表示能力优于原始的 模型,通过强力模型和高质量电子病历数据构建文本表示模型,可以为下游任务(如命名实体识别、关系抽取等)提供更准确的文本表示。目前模型的主要改进点和创新性体现在以下 方面:字符嵌入优化、增加 局部特征提取和提出多层结构堆叠 模型,见图 。虚线框为 模型相比传统模型的优化改进部分,字嵌入改进即为文本表示模型的改进,改进是为增加字符间的依赖关系特征,堆叠 模型能够提取全局深层特征。种改进方法的主要目的是为模型增加可利医学信息学杂志 年第 卷第 期 ,用的特征,增强模型学习过程,从而实现

12、更好的命名实体识别效果。选择“妊娠期糖尿病”数据进行训练的原因是其数据规模较大,模型训练更充分,结果更具说服力。图 基于堆叠注意网络模型训练过程 评估指标项评估指标采用精度、召回率和 值。其中 表示正确识别的实体数,表示识别的不相关实体数,表示未识别实体数。在预测过程中,判断医疗实体的预测是否完全正确的标准,即实体的边界和类别同时被正确预测。值为精度和召回率的加权平均值,具体计算过程如下。精度 ()召回率 ()精度 召回率精度 召回率 ()结果与讨论 多模型结果对比为确保实验结果的可靠性,本研究复现一些经典和高级模型作为基线模型进行比较,拟定模型名称的简写和含义如下:表示字典匹配;表示隐马尔可

13、夫模型;表示 ;表示 注意机制 ;表示 基础模型 ;表示微调 外部字典。基线和本研究所提出的 的性能结果,见表 。、和 利用深度学习技术,优于 。此外,和 使用基于字符嵌入的 模型学习字符级的单词表达进行实体识别,有效避免了错误的中文分词对模型的负面影响。同时,与 相比,得益于特定领域的知识和字典来增强模型,只进行一次全局语义特征提取,不足以充分挖掘全部特征。模型在数据集上实现最高 值()和较高性能,充分利用电子病历数据对字符嵌入进行精化,且 模型弥补局部依赖关系特征丢失。相比于现有 种典型方法,模型具有较高识别精度。使用电子病历数据验证,相比现有命名实体识别方法性能更优。表 不同模型的精度、

14、召回率和 值对比()模型精度召回率 医学信息学杂志 年第 卷第 期 ,多模型融合对比将特定领域医学知识迁移到 中,对字符嵌入进行精化并使用 补充局部语义特征,提出使用多层结构的堆叠 模型对文本表示进行深入的全局语义挖掘。为进一步验证这 种增强方法的有效性以及增加模型的可解释性,对构建模型组合进行比较,多模型融合后的名称简写和组合方式,见表,其中 代表 ,代表 ,代表堆叠,代表 ,代表注意力机制,代表 。表 多模型融合简写及其含义模型 微调 堆叠微调 堆叠 注意力机制 基线微调 微调 微调 未添加本文所强调的任何性能增强方法,即作为基线模型,对比结果,见表 。微调 、微调 以及 的结果指标分别优

15、于 、以及 。这一现象表明,在特定领域知识中精化后的 较没有经过微调的 生成更精确的字符嵌入,可以更好地表示医学文本,并提高模型的识别能力,这表明字符嵌入精化能增强模型的性能。观察 局部依赖关系特征提取对模型的影响可知,包含堆叠 模型的 、以及 在实体识别上的性能更为出色,这也进一步证明堆叠 模型强大的全局语义特征提取能力。结合 种增强方法的 模型得分最高、性能最好。这些实验结果增强模型可解释性的同时,也强有力地说明本文所提出的 种增强方法均能显著提升模型的实体识别能力。表 多模型融合的精度、召回率和 值对比()模型精度召回率 基线 微调 微调 微调 堆叠 模型的不同堆叠层数对比堆叠 模型提取

16、文本的全局语义特征,其堆叠方式与其他堆叠 模型存在较大区别。同时,堆叠 模型在不同隐藏层数下对模型的最终实体识别性能也有影响。因此,为验证本文所提出的堆叠方式更加优越以及确定最合理的堆叠层数,在保持其他条件不变的情况下进行对比实验,采用控制变量法,在不同堆叠方式下,对堆叠的层数逐层递增。值得注意的是,在堆叠层数为 层时(每个方向上),本文所提出的方法与既往研究所提到的并无区别,即 模型,将其设置为基线模型,与本文方式()和 等 提出的方式()对比实验的结果,见表 。表 堆叠 模型的不同堆叠层数对实体识别性能的影响()层数方式精度召回率 基线模型 随着隐藏层数的逐层增加,模型性能指标整体呈现增加

17、趋势。从 层增加到 层时的性能跨越较明医学信息学杂志 年第 卷第 期 ,显,提升近 个百分点。层和 层之间,以及 层和 层之间的跨越较微弱,但随着层数的递增训练时间在成倍增加,见表 。更多隐藏层结构的堆叠 模型确实能够比基线 模型在全局语义特征提取方面做得更好,但模型训练过程花费一定时间成本。因此,堆叠层数设置要根据具体任务需求进行权衡,本文认为将堆叠 模型的隐藏层数设为 层时最好,兼顾性能和时间成本。堆叠 模型的堆叠方式与既往研究中所提到的堆叠方式在实体识别性能上并无太大差别,主要原因是两种方式下的堆叠 在对文本的全局语义特征提取方面的操作并无实质区别,都是在同样方向上提取相同次数,模型在性

18、能上极为相似。表 堆叠 模型的不同堆叠层数对实体识别时间消耗的影响层数方式时间消耗(秒)时间消耗差值(秒)基线模型 从时间角度来看,堆叠 模型在每个机器学习训练轮数()上的时间消耗(秒)比既往研究提及方式更短,经方差分析可以看出堆叠层数为 时 ,堆叠层数为 和 时 ,均具有显著性差异。关于效率提升的原因,主要是堆叠 模型在结构上省去了运算中间的整合操作,并减少了运算步骤和时间。相比于深度学习模型而言,一般模型训练过程基本都要设置几百甚至上千个 才能逐渐收敛,而随着堆叠层数不断增加,时间将成倍增加。综上,堆叠 模型可以显著减少模型训练时间成本,提高模型学习效率。结语本文对医疗命名实体识别任务进行

19、研究,主要贡献在于:分析命名实体识别对医学研究的重要意义以及其特有的难点,探索基于中文电子病历的命名实体识方法在构建医学知识图谱和相关应用推广中的技术可行性,并通过真实医疗电子病历数据进行验证。本文实现基于堆叠注意网络的中文医疗命名实体识别,在数据集上的 得分达到 ,优于基线模型,具备更强医疗实体识别能力,证实该方法可以更精准地对医学文本进行表示。未来计划引入外部语言知识对模型进行优化,通过增加知识特征来进一步提高模型性能。利益声明:所有作者均声明不存在利益冲突。参考文献 ,():许思特,孙木 基于命名实体识别与 的中文电子病历知识图谱构建和应用 医学信息学杂志,():,():,(),():,():,():李灵芳,杨佳琦,李宝山,等 基于 的中文电子病历命名实体识别 内蒙古科技大学学报,():,:,医学信息学杂志 年第 卷第 期 ,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服