中文电子病历命名实体识别方法研究.pdf

资源描述

1、中文电子病历命名实体识别方法研究陈婕卿竹志超张锋曾可姜会珍程振宁（中国医学科学院北京协和医院信息中心北京北京工业大学信息学部北京北京安妮福克斯信息咨询有限公司北京）摘要目的意义探索基于中文电子病历的命名实体识别方法在构建医学知识图谱和相关应用推广方面的技术可行性。方法过程采用真实医疗电子病历数据对词嵌入表示模型进行精化，构建医学术语专有嵌入表示，并利用卷积神经网络等多模型提取局部语义特征，实现基于堆叠注意网络的中文医疗命名实体识别。结果结论堆叠注意网络模型值达到，较其他模型具备更强的医疗命名实体识别性能。进一步解决中文医疗命名实体识别难点，在实现全局语义特征全面深入提取的

2、同时降低时间成本。关键词电子病历；命名实体识别；堆叠注意网络中图分类号文献标识码，；，；，（）（），（）（），；修回日期作者简介陈婕卿，助理研究员，发表论文余篇；通信作者：张锋，高级工程师。基金项目科技创新 “新一代人工智能”重大项目（项目编号：）。引言命名实体识别是从自然语言文本中发现特定目标实体，而医疗命名实体识别则是从医疗文本中识别医疗实体边界并判断医疗实体类别。常见医疗实体类别包括诊断名称、查体部位、治疗信息、检查或检验项目以及症状等。医疗命名实体识别的准确性影响事件抽取、关系抽取等任务效果，是医医学信息学杂志年第卷第期，疗知识图谱构建的关键基础。医疗命名实体识别

3、方法主要包括种：基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法。前两种需要耗费大量成本构建字典、制订规则或指定模型需要学习的特征。等利用条件随机场（，）模型实现对医学文本中的基因等生物医学术语的高精度识别；等建立一个结合、基于规则文本注解的医疗命名实体识别模型并取得较好效果。深度学习方法使模型真正具有自主学习能力，因此应用广泛。研究识别生物医学命名实体时的单词嵌入方式和字符级表示方法。等在循环神经网络的基础上同时考虑字符级嵌入和词级嵌入，取得很好的医疗实体识别效果。李灵芳等研究基于双向编码器表征（，）模型、双向长短期记忆（，）模型和的组合模型，通过字嵌入模型更

4、好地表示文本，解决一词多义问题，最终通过实验验证所提出方法的有效性。虽然基于深度学习方法的命名实体识别模型性能显著，但尚存在缺陷，即通用领域词嵌入模型无法表示医学领域特有的医学术语，导致模型无法对特有的医学术语进行表示，专有特征出现丢失。但是，传统方法缺乏对字符间局部语义特征的提取。为解决上述问题，本文提出专用模型并使用大规模真实医疗电子病历数据对词嵌入表示进行精化，探索基于中文电子病历的命名实体识别方法在构建医学知识图谱和相关应用推广方面的技术可行性。数据处理数据标记方法数据来自中国医学科学院北京协和医院年度的真实电子病历文书，数据经初步清洗后，共计条电子病历文书被纳入研究，在专业医学

5、专家和团队的指导下手动标记。随机抽取其中的条作为训练集和验证集（训练集与验证集样本量比例为），其余电子病历文书作为测试集。对所有数据集进行预处理，包括病历文书章节分割，即根据章节标签进行拆分，采用标记方法，其中“”表示医疗实体起始位置的标签，“”表示医疗实体剩余部分的标签，“”表示当前字符不是医疗实体。“”或“”中的“”是医疗实体的类别，该数据集共有个不同标记，见表。每条文本均标有名称、起始位置和医学类别。本文将实体定义为类，包括“症状”“检查”“结果”“疾病”“治疗”和“否定”。表标记方法及其示例类别标记症状症状症状检查检查检查结果结果结果疾病疾病疾病治疗药物药

6、物否定否定否定非医疗实体数据预处理数据预处理阶段，前期由人工以及程序初步标注数据，然后训练命名实体识别和关系抽取模型。在命名实体识别和关系抽取过程中，将医疗本体和预训练语言模型学习到的文本特征相结合，增强特征区分能力，从而提高命名实体识别和关系抽取模型的识别精度。同时利用模型对未标注数据进行概念实体和关系的提取，过程中合理利用外部医学知识资源，互相融合扩充和优化，从而实现大规模医疗知识库的增量构建。此外，通过集成构建的实体对齐模型对图谱包含的实体进行对齐，以保证图谱质量。后期根据上述模型开发自动化标注程序，经过算法标注的数据再辅以人工审核和双人背对背校验，确保数据标注的有效性和一致性，减

7、少标注误差的影响。总体完成的已标注数据中包含疾病类别种，共条。医学信息学杂志年第卷第期，研究方法采用由多种模型融合而成的堆叠注意网络（，）模型，包含组模块：数据预处理模块、字符嵌入模块和语义分析模块（集成卷积神经网络（，）模型、堆叠模型、注意力机制和模型），见图。数据预处理模块对输入的数据进行预处理，对字符、单词和句子进行分割，并对词性进行标注。字符嵌入模块使用大规模真实电子病历未标注语料（北京协和医院年度电子病历文书）对基于的优化版预训练模型进行预训练，以精化字符嵌入，补充医学术语特征。语义分析模块利用模型捕捉字符间的局部依赖关系特征，通过构建堆叠全面充分捕捉文

8、本的全局语义特征，将其与的输出进行拼接，构建语义特征更丰富的文本表示。最后，将注意力机制分配的权重与文本表示融合送入计算预测序列标签。图基于多模型融合的堆叠注意网络架构的输入是电子病历句子中的字符，输出是字符的特征向量。通过输入个不同的特征值（文本表示向量、句子分割向量和位置向量）获得特征向量，位置向量计算方式如下，编码方法利用函数和函数，是文本中的字符，表示维度，编码后的向量维度为。（，）（）（）（，）（）（）卷积神经网络模型能有效地捕捉像素点与像素点间的局部依赖关系信息，因此最初被广泛应用于计算机视觉。在自然语言处理领域，输入是以向量表示的句子或者文档。向量的每一行对应一

9、个字符或单词，即每行代表一个嵌入向量，卷积核滑过的是向量中的一“行”（单词），见图。图卷积神经网络模型运算方式医学信息学杂志年第卷第期，堆叠模型传统模型序列标注任务的权重赋予是等价的，解决上下文依赖关系特征的捕捉问题，序列标注任务中当前状态之前和之后的状态是平权的。但现有研究中词嵌入表示呈现高维性，因此传统方法存在全局语义特征提取不充分的问题。随着技术的发展，等利用带有多层隐藏层结构的堆叠模型对全局语义特征进行提取，并证明其具有更强的全局语义提取特征能力。受其启发，本文构建一种带有多层隐藏层结构的堆叠模型，更充分地捕捉文本全局语义特征并改进，见图。图堆叠模型架构对比

10、（每个方向上层）等所提出的方式仅将两个独立模型进行串联式拼接，而本文对其进行改进，将两个模型融合在一起，以实现多次全局特征提取，同时上文和下文的全局特征提取操作互不干扰，特征提取更为纯粹，省略中间层的整合计算并减少时间消耗。注意力机制注意力机制最重要的贡献是区分文本中的关键信息，重点关注对结果影响较大的关键特征，尽可能地忽略无关特征。因此，引入注意力机制以增强模型的实体识别性能，见图。运算方式如下，其中、和个参数分别代表、和。（，）（槡）（）图注意力机制的权重分配过程条件随机场模型是一种经典的判别概率无向图模型，通常用于序列标记任务。在模型预测过程中，利用维特比算法求

11、解全局最优序列，计算方式如下。是在函数中获得最高分数的序列。（，）（）多模型融合经过微调形成的表示能力优于原始的模型，通过强力模型和高质量电子病历数据构建文本表示模型，可以为下游任务（如命名实体识别、关系抽取等）提供更准确的文本表示。目前模型的主要改进点和创新性体现在以下方面：字符嵌入优化、增加局部特征提取和提出多层结构堆叠模型，见图。虚线框为模型相比传统模型的优化改进部分，字嵌入改进即为文本表示模型的改进，改进是为增加字符间的依赖关系特征，堆叠模型能够提取全局深层特征。种改进方法的主要目的是为模型增加可利医学信息学杂志年第卷第期，用的特征，增强模型学习过程，从而实现

12、更好的命名实体识别效果。选择“妊娠期糖尿病”数据进行训练的原因是其数据规模较大，模型训练更充分，结果更具说服力。图基于堆叠注意网络模型训练过程评估指标项评估指标采用精度、召回率和值。其中表示正确识别的实体数，表示识别的不相关实体数，表示未识别实体数。在预测过程中，判断医疗实体的预测是否完全正确的标准，即实体的边界和类别同时被正确预测。值为精度和召回率的加权平均值，具体计算过程如下。精度（）召回率（）精度召回率精度召回率（）结果与讨论多模型结果对比为确保实验结果的可靠性，本研究复现一些经典和高级模型作为基线模型进行比较，拟定模型名称的简写和含义如下：表示字典匹配；表示隐马尔可

13、夫模型；表示；表示注意机制；表示基础模型；表示微调外部字典。基线和本研究所提出的的性能结果，见表。、和利用深度学习技术，优于。此外，和使用基于字符嵌入的模型学习字符级的单词表达进行实体识别，有效避免了错误的中文分词对模型的负面影响。同时，与相比，得益于特定领域的知识和字典来增强模型，只进行一次全局语义特征提取，不足以充分挖掘全部特征。模型在数据集上实现最高值（）和较高性能，充分利用电子病历数据对字符嵌入进行精化，且模型弥补局部依赖关系特征丢失。相比于现有种典型方法，模型具有较高识别精度。使用电子病历数据验证，相比现有命名实体识别方法性能更优。表不同模型的精度、

14、召回率和值对比（）模型精度召回率医学信息学杂志年第卷第期，多模型融合对比将特定领域医学知识迁移到中，对字符嵌入进行精化并使用补充局部语义特征，提出使用多层结构的堆叠模型对文本表示进行深入的全局语义挖掘。为进一步验证这种增强方法的有效性以及增加模型的可解释性，对构建模型组合进行比较，多模型融合后的名称简写和组合方式，见表，其中代表，代表，代表堆叠，代表，代表注意力机制，代表。表多模型融合简写及其含义模型微调堆叠微调堆叠注意力机制基线微调微调微调未添加本文所强调的任何性能增强方法，即作为基线模型，对比结果，见表。微调、微调以及的结果指标分别优

15、于、以及。这一现象表明，在特定领域知识中精化后的较没有经过微调的生成更精确的字符嵌入，可以更好地表示医学文本，并提高模型的识别能力，这表明字符嵌入精化能增强模型的性能。观察局部依赖关系特征提取对模型的影响可知，包含堆叠模型的、以及在实体识别上的性能更为出色，这也进一步证明堆叠模型强大的全局语义特征提取能力。结合种增强方法的模型得分最高、性能最好。这些实验结果增强模型可解释性的同时，也强有力地说明本文所提出的种增强方法均能显著提升模型的实体识别能力。表多模型融合的精度、召回率和值对比（）模型精度召回率基线微调微调微调堆叠模型的不同堆叠层数对比堆叠模型提取

16、文本的全局语义特征，其堆叠方式与其他堆叠模型存在较大区别。同时，堆叠模型在不同隐藏层数下对模型的最终实体识别性能也有影响。因此，为验证本文所提出的堆叠方式更加优越以及确定最合理的堆叠层数，在保持其他条件不变的情况下进行对比实验，采用控制变量法，在不同堆叠方式下，对堆叠的层数逐层递增。值得注意的是，在堆叠层数为层时（每个方向上），本文所提出的方法与既往研究所提到的并无区别，即模型，将其设置为基线模型，与本文方式（）和等提出的方式（）对比实验的结果，见表。表堆叠模型的不同堆叠层数对实体识别性能的影响（）层数方式精度召回率基线模型随着隐藏层数的逐层增加，模型性能指标整体呈现增加

17、趋势。从层增加到层时的性能跨越较明医学信息学杂志年第卷第期，显，提升近个百分点。层和层之间，以及层和层之间的跨越较微弱，但随着层数的递增训练时间在成倍增加，见表。更多隐藏层结构的堆叠模型确实能够比基线模型在全局语义特征提取方面做得更好，但模型训练过程花费一定时间成本。因此，堆叠层数设置要根据具体任务需求进行权衡，本文认为将堆叠模型的隐藏层数设为层时最好，兼顾性能和时间成本。堆叠模型的堆叠方式与既往研究中所提到的堆叠方式在实体识别性能上并无太大差别，主要原因是两种方式下的堆叠在对文本的全局语义特征提取方面的操作并无实质区别，都是在同样方向上提取相同次数，模型在性

18、能上极为相似。表堆叠模型的不同堆叠层数对实体识别时间消耗的影响层数方式时间消耗（秒）时间消耗差值（秒）基线模型从时间角度来看，堆叠模型在每个机器学习训练轮数（）上的时间消耗（秒）比既往研究提及方式更短，经方差分析可以看出堆叠层数为时，堆叠层数为和时，均具有显著性差异。关于效率提升的原因，主要是堆叠模型在结构上省去了运算中间的整合操作，并减少了运算步骤和时间。相比于深度学习模型而言，一般模型训练过程基本都要设置几百甚至上千个才能逐渐收敛，而随着堆叠层数不断增加，时间将成倍增加。综上，堆叠模型可以显著减少模型训练时间成本，提高模型学习效率。结语本文对医疗命名实体识别任务进行

19、研究，主要贡献在于：分析命名实体识别对医学研究的重要意义以及其特有的难点，探索基于中文电子病历的命名实体识方法在构建医学知识图谱和相关应用推广中的技术可行性，并通过真实医疗电子病历数据进行验证。本文实现基于堆叠注意网络的中文医疗命名实体识别，在数据集上的得分达到，优于基线模型，具备更强医疗实体识别能力，证实该方法可以更精准地对医学文本进行表示。未来计划引入外部语言知识对模型进行优化，通过增加知识特征来进一步提高模型性能。利益声明：所有作者均声明不存在利益冲突。参考文献，（）：许思特，孙木基于命名实体识别与的中文电子病历知识图谱构建和应用医学信息学杂志，（）：，（）：，（），（）：，（）：，（）：李灵芳，杨佳琦，李宝山，等基于的中文电子病历命名实体识别内蒙古科技大学学报，（）：，：，医学信息学杂志年第卷第期，

展开阅读全文