一种融入注意力机制的医疗病例实体识别方法_帅英杰.pdf

资源描述

1、广西教育学院学报2022年第6期2022年第6期（总第182期）广西教育学院学报GUANGXI JIAOYU XUEYUAN XUEBAONO.6，2022（Serial NO.182）收稿日期：2022年3月30日命名实体识别在自然语言处理中是比较重要的任务，也是近几年热门的研究领域，其主要任务是在大量的文本中识别出有价值的实体并为后期搭建知识图谱提供实体数据。在识别过程中，识别方法要同时保证识别准确率和识别效率。早期传统的命名实体识别LaSIE-II1、NetOwl2等主要是基于规则、词典或在线知识库的方法，因医学领域的规则和词典不完整导致传统方法在进行命名实体识别时存在着很

2、多局限性，而基于监督学习3和半监督学习4的识别方法是在早期传统方法之后的重要研究方向。近些年，深度学习网络模型被广泛应用在命名实体识别任务上，基于双向长短时记忆网络结合条件随机场5（BiLSTM-CRF）的网络模型是命名实体识别任务中最常见的模型结构。在医学领域命名实体识别的任务中，当前的模型和方法虽然已经取得不错的识别效果，但在识别方法的识别效率以及模型训练的时间上还有较大的提升空间。本文提出一种基于文本卷积神经网络、双向简单循环单元网络和自注意力机制的多网络联合模型（TextCNN-BiS-RU-SelfAttention），以此解决传统网络模型对语义特征提取不充分的问题，提升模型准确率，

3、缩短模型训练时间。1.相关工作医疗病历文本的命名实体识别主要包括以下三个重要步骤：首先对医疗病历的文本进行语义特征的提取，然后通过神经网络模型对特征进行一种融入注意力机制的医疗病例实体识别方法帅英杰1，黄勇2（1.广西民族大学人工智能学院，广西南宁530000；2.广西壮族自治区党委网信办，广西南宁530000）摘要：在医疗病历实体识别领域中，传统的命名实体识别方法因网络模型单一的原因，存在对语义特征提取不充分、模型训练时间过长等问题，导致模型鲁棒性不强、识别精准度不高。针对以上问题，本文提出一种基于文本卷积神经网络、双向简单循环单元网络（BiSRU）和自注意力机制的多网络联合模型（TextC

4、NN-BiSRU-SelfAttention），利用SRU神经网络解决模型训练时间过长的问题，引入文本卷积神经网络解决传统BiLSTM神经网络模型无法提取局部语义特征的问题，通过自注意力机制使得模型训练的重点放在相关数据上，尽可能忽视无关数据，从而解决传统模型不能很好关注相关数据的问题。最后将多元特征向量融合，充分提取相关数据的局部特征和全局特征以提高模型识别的精确度。实验结果表明，在ChineseBLUE（cMedQANER）17数据集上，该模型在精准度、召回率、F1-Measure值都有较为显著的提升，同时模型训练时间明显缩短。关键词：注意力机制；神经网络；条件随机场；医疗病历实体中图分类

5、号：R-3文献标识码：A文章编号：1006-9410（2022）06-0046-07-46学习，最后进行医疗实体的识别以及实体识别精确度的计算。1.1 命名实体识别方法命名实体是一个词或短语，它可以在具有相似属性的一组事物中清楚地标识出某一个事物1。在命名实体识别的研究历程中大致分为三个阶段：早期基于规则、词典以及在线学习的方法；基于监督学习和半监督学习的命名实体识别方法；以及近几年被自然语言处理广泛应用的神经网络模型。基于规则、词典或在线知识库的方法，是早期常见的命名实体识别方法，它们依赖于语言学专家手工构造的语言规则，具有较强的依赖性。每条规则都有一个权值，当不同的规则发生冲突的时候，权值

6、高的规则确定了实体所属的类型。较为著名的基于规则的命名识别系统有LaSIE-II1、NetOwl2、Facile6等。E.Alfonseca和Manandhar8提出了一种基于WordNet的实体分类方法。Word-Net区别于普通词典之处是根据语义而不是词形来组织词汇信息，WordNet 相当于一部语义词典，其中语义关系包括反义关系、上下位关系、部分关系等。由于医学领域的规则和词典并不完整，后期对词典和规则进行补充和完善的工作也比较难处理，因此基于规则的命名实体识别方法往往存在着很多局限性。另外，不同细分医学领域的规则难以通用，此类方法往往难以推广到其他领域，无形之中给自然语言处理的工作者增

7、加了工作量。当基于监督学习和半监督学习的方法被应用在命名实体识别中时，命名实体识别被看作一个序列标注的任务。经典的命名实体识别方法使用的是“BIO”标注法。其中“B”表示一个实体的头部，“I”表示一个实体的中部，“O”表示非实体。常见的序列标注模型有隐马尔科夫模型（HMM）9，基于隐马尔科夫模型的识别方法假定了标签序列之间存在较强的马尔科夫性，但从实验效果看，并没有显著的效果提升。另外，在实际的命名实体识别任务中，还面临着缺少标注语料这一至关重要的问题，为此，半监督学习方法应运而生，较为典型的半监督学习方法是自举法10。该方法通常从少量标记的数据、大量未标记数据和一小组初始假设或分类器开始，迭

8、代生成更多带标记的数据，直至达到某个阈值。此外，M.Collins和 Singer11提出了一种基于协同训练的方法，该方法主要是学习两套不同的实体规则，在学习的过程中，每类规则为另一类规则提供弱监督，两类规则协同进行实体识别。监督学习方法和半监督学习方法在命名实体识别的任务中取得了较为不错的识别效果。近几年，基于深度学习的命名实体识别方法受到了众多研究者的关注，被广泛地应用于自然语言处理的各项任务中，取得了显著成效。在基于神经网络的命名实体识别任务中，命名实体识别同样被看作一个序列标注的任务，相对于传统的命名实体识别方法，基于深度学习的命名实体识别方法更具有灵活性，而且大大节约了人工标注的成本

9、。在识别过程中不局限于有限的规则，极大地提高了识别任务的效率。在基于深度学习的命名实体识别的方法中，最为典型的方法是基于长短时记忆网络结合条件随机场的方法。其中，长短时记忆网络是循环神经网络12（RNN）的变种，条件随机场13是一种隐马尔科夫模型（HMM）改进的方法。但是，因为存在无法提取局部语义特征和模型训练时间过长的问题，此模型在命名实体识别的效果上还有一定的提升空间。1.2 本文研究动机医学领域的命名实体有着医学领域固有的特征，也是区别于其他领域的标志特征。首先，如何针对特定的医疗病历文本进行详细的特征提取是较为关键的一步。其次，如何更加精确地提升识别效果也是至关重要的一步。为此，本文针

10、对医学领域的医疗病历文本提出一种融入注意力机制和神经网络的命名实体识别方法，该方法包含了文本卷积神经网络模型和简单循环单元网络模型以及注意力机制等。在保证提取复杂的医学领域实体特征的同时，进一步提高识别的精确度。在同等训练语料的情况下，相比其他已有的命名实体识别方法，在识别精准度上有一定的提升，同时大大缩短模型训练的时间。2.TextCNN-BiSRU-SelfAttention联合神经网络模型针对医疗病历文本中的数据特点，本研究中经济学政治学哲学法学管理学聚焦帅英杰，黄勇一种融入注意力机制的医疗病例实体识别方法-47广西教育学院学报2022年第6期提出一种联合神经网络模型（TextCNN

11、-BiSRU-SelfAttention）。首先，将医疗病历数据进行预处理，过滤掉无用数据，进行分词、构建序列词典和标记词典等工作。其次，通过 Word2vec提取数据的语义特征。然后，将特征向量同步传到文本卷积神经网络和双向简单循环单元中，通过文本卷积神经网络模型提取文本局部语义特征，通过简单循环单元神经网络模型（SRU，变种的循环神经网络模型）提取上下文语义特征的同时提升模型的训练速度。再将两个网络模型学习到的特征向量进行拼接，之后将拼接的向量送到自注意力机制中获得重新分配权重的特征向量，使得模型识别效果更佳。最后，将注意力机制模型学到的特征向量再与之前的融合向量进行再拼接，拼接之后的特征

12、向量送到条件随机场进行实体标签的分类预测，从而完成实体识别。本文提出的联合神经网络模型框架如图1所示。本方法的算法描述：输入：中文医疗病历文本输出：中文医疗病历文本中实体的标签算法步骤：（1）将输入文本的标签和文字序列分开，分别进行字典的创建；（2）通过文本序列训练 Word2vec 模型，得到更适合医学领域的语义词向量；（3）将语义词向量输入 TextCNN 网络模型中，经过TextCNN模型得到局部特征向量；（4）将语义词向量输入BiSRU网络模型中，经过BiSRU模型得到全局特征向量；（5）将局部特征向量和全局特征向量进行拼接，得到拼接后的融合特征向量；（6）将融合特征向量再经过Self

13、Attention层，对融合特征向量进行权重分配；（7）最后将重新分配权重的融合特征向量，经过CRF层，进行实体标签预测；（8）进行精确度的计算，模型评估。3.实验3.1 实验数据及字词特征3.1.1数据集简介及标注图1 TextCNN-BiSRU-SelfAttention联合神经网络模型框架本实验收集到了生物医学文本挖掘任务语料库（ChineseBLUE）17，该语料库是由不同的生物医学文本挖掘任务和语料组成。该语料库涵盖了各种文本类型和不同大小的数据集，能为不同难易程度的自然语言处理任务提供数据支持，同时突出了常见的生物医学文本挖掘挑战。因此，该数据集有较高的实用价值，使用该数据集进行实

14、验的实验结果具有可参考性。本文主要使-48用该数据集中针对命名实体识别的医疗病历文本数据集（cMedQANER），该数据集包括疾病、药物、综合征等 25 个分类标签，采用传统的“BIO”标注规则，结合医学领域的特定情况，给出了较为详尽的医学领域的标签。具体的分类标签如下表1所示：表1医学领域实体标签分类及解释3.1.2数据集预处理本实验对数据进行了数据格式转换和数据清洗工作，过滤掉了文本中的空格、字符表情符号等没有意义的数据内容，获取到了更高质量的数据，保证了实验结果的客观性。3.1.3语义特征提取本实验使用 Word2vec对医疗病历文本进行语义特征提取，得到语义词向量，词向量表现为矩阵形式

15、。3.2 实验评价指标命名实体识别任务属于自然语言处理范畴，通常情况下采用的是自然语言处理任务中所使用的评价标准。本文采用的是F1-Measure、精确率（Precision）、召回率（Recall）三个评价标准。各评价标准的计算公式（1）、（2）、（3）如下，其中 P、R、F1分别表示精确率、召回率、F1-Measure：P=识别结果中被识别为正确实体的个数识别结果中被识别出总实体的个数（1）R=识别结果中被识别为正确实体的个数实际上总的实体的个数（2）F1=2（PR）（P+R）（3）经济学政治学哲学法学管理学聚焦帅英杰，黄勇一种融入注意力机制的医疗病例实体识别方法标签解释START_T

16、AG实体头部END_TAG实体尾部O非实体B_symptom症状实体头部I_symptom症状实体中部B_disease疾病实体头部I_disease疾病实体中部B_test检查实体头部I_test检查实体中部B_body身体实体头部I_body身体实体中部B_feature特征实体头部I_feature特征实体中部标签解释B_drug药品实体头部I_drug药品实体中部B_crowd人群实体头部I_crowd人群实体中部B_physiology生理实体头部I_physiology生理实体中部B_treatment治疗实体头部I_treatment治疗实体中部B_time时间实体头部I_tim

17、e时间实体中部B_department科室实体头部I_department科室实体中部-49广西教育学院学报2022年第6期3.3 实验环境及参数设置本实验中，实验环境为 RTX8000、CU-DA9.2，开源的框架选用的是 Python3.8 和 Py-torch1.8.0。实验参数的设置分别为：语义词向量训练模型为Word2vec，使用的是skip-gram算法，训练的窗口大小为5，设置词频小于一次的词被丢弃，使用 HS 的方法，词向量的维度为 512，训练轮次为 50 轮。双向简单循环单元网络（BiSRU）设置为 2 层，输入词向量大维度为512，每个批次读取数据的大小为6

18、4，Dropout为0.5，隐藏层的维度为1024。文本卷积神经网络（TextCNN）分别采用了卷积核大小为 2，3，4的三个尺寸标准，每个尺寸的卷积核个数设为2个，输入词向量维度为512，步长为1。自注意力机制层为1层。模型的训练轮次为50轮，联合网络模型的学习率为0.001，优化器采用Adam优化器。3.4 实验结果与分析本实验采用的网络模型是由双向简单循环单元网络模型、文本卷积网络模型、自注意力机制联合的网络模型，实验数据集为ChineseBLUE数据集中提供的命名实体识别任务数据集（cMedQANER）。本实验中共设计了 4 组对照实验，将 BiLSTM

19、-CRF、TextCNN-BiLSTM-CRF、BiSRU-CRF、TextCNN-BiSRU-CRF 等用于命名实体识别的网络模型作对比实验，实验对比结果如下表2。表2 ChineseBLUE中cMedQANER数据集测试结果相比传统的神经网络模型，本文提出的联合网络模型在实验中有较好的表现。首先，使用简单循环单元网络模型，可以实现GPU并行计算，大大地提高了网络模型的训练速度，节省了时间成本，从时间上解决了长短时记忆网络由于串行结构而导致的模型训练时间过长的问题。模型训练时间对比可以参考表 3。由表 3 可以看出，BiSRU-CRF 模型在训练时间上比 BiLSTM-CRF模型提升了57%

20、。表3模型训练的时间对比其次，由于卷积神经网络能很好地关注局部特征，将文本卷积神经网络提取的特征与循环神经网络提取的全局特征进行拼接，可以更好地捕获文本特征，由表 2 中的 TextCNN-BiLSTM-CRF、TextCNN-BiSRU-CRF网络模型可以看出，拼接后的模型相比原来的BiLSTM-CRF、BiSRU-CRF神经网络模型在F1-Measure、精确率（Pre-cision）、召回率（Recall）的评价标准上均有一定的提升。最后，由于自注意力机制能更好地重新分配权重，将更多的权重分配给更有价值的信ModuleBiLSTM-CRFTextCNN-BiLSTM-CRFB

21、iSRU-CRFTextCNN-BiSRU-CRFTextCNN-BiSRU-SelfAttention-CRFF1（%）75.0477.2275.2876.0079.99P（%）76.7877.9477.8078.8281.51R（%）73.3976.5272.9173.3878.54模型BiLSTM-CRFBiSRU-CRF训练轮次模型层数训练时间增加百分比5025h18min-5023h22min0.57-50息，所以将 TextCNN-BiSRU 神经网络模型输出的向量传到自注意力机制，再将自注意力机制输出的向量与原来神经网络模型输出的向量进行拼接后进行标签预测。由模型（TextCNN

22、-BiSRU-SelfAttention-CRF）可以看出，该模型相比其他模型在精确度、召回率和 F1-Measure 的评价指标上都有一定的提升。4.结语命名实体识别是近几年自然语言处理的一个热点。首先，传统用于命名实体识别的神经网络模型无法解决模型训练时实现并行运算的问题，本文提出的将简单循环单元神经网络用于命名实体识别则可以有效地解决这一问题，实现模型训练时在 GPU上的并行运算。其次，将文本卷积神经网络与简单循环单元神经网络二者输出的词向量进行拼接，可以有效地弥补传统的神经网络模型不能同时获取局部特征和上下文特征的缺点。最后，引入自注意力机制，可以有效地提升模型的识别效果。实验证明，该

23、模型在医疗病历文本的实体识别任务上表现出了不错的识别效果，在各评价指标上都有一定的提升。在今后的研究中，可以从词向量特征方面进行考虑，融合更多的特征向量，比如位置特征、词长特征等来提升模型识别的精准度。参考文献：1 Humphreys K，Gaizauskas R，Azzam S，etal.University of Sheffield：description of the LaSIE-II system as used for MUC-7C/Proceedings ofthe 7th Message Understanding Conference，Fairfax，Apr 29-May 1，

24、1998.Stroudsburg：ACL，1998：207-220.2Krupka George R，Kevin H.IsoQuestInc：description of the NetOwl extractor system as usedfor MUC-7C/Proceedings of the 7th MessageUnderstanding Conference（MUC-7），Washington，Jan，1998.Stroudsburg：ACL，1998：133-138.3Xiao，Liu，Fanjin，et al.Self-supervisedLearning：Generative

25、 or ContrastiveJ.ComputerScience，2020：1-1.4Zhang Q，Sun S.An Introduction toSemi-Supervised LearningJ.Morgan and Claypool Publishers，2010：1-6.5Huang Z，Wei X，Kai Y.BidirectionalLSTM-CRFModelsforSequenceTaggingJ.Computer Science，2015：10401050.6Black W J，Rinaldi F，Mowatt D.Facile：Description Of The Ne S

26、ystem Used For Muc-7C/Seventh Message Understanding Conference（MUC-7）：Proceedings of a Conference Held inFairfax，Virginia，April 29-May 1，1998.1998.7Kim Y.Convolutional Neural Networksfor Sentence ClassificationC.Proceedings of the2014 Conference on Empirical Methods in NaturalLanguage Processing，201

27、4：1746-1751.8Tao L，Yu Z.Training RNNs as Fast asCNNsJ.Computer Science，2017.9Rabiner L R.A tutorial on hidden Markovmodels and selected applications in speech recognitionJ.Proc IEEE，1989：267-296.10Ellen R，Roise J.Learning dictionaries forinformationextraction by multi-level bootstrappingJ.In：AAAI/IA

28、AI，1999：474479.11Collins M，Singer Y.Unsupervised modelsfor named entity classificationC/Proceedings ofthe Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very LargeCorpora，College Park，Jun 21-22，1999.Stroudsburg：ACL，1999：100-110.12Graves，A.Generating Sequences With Re

29、current Neural NetworksJ.Computer Science，10.48550/arXiv.1308.0850.2013.13Lafferty J，Mccallum A，Pereira F.Conditional Random Fields：Probabilistic Models forSegmentingandLabelingSequenceDataC/经济学政治学哲学法学管理学聚焦帅英杰，黄勇一种融入注意力机制的医疗病例实体识别方法-51广西教育学院学报2022年第6期Proc.18th International Conf.on Machine Learnin

30、g.2001：282289.14Bahdanau D，Cho K，Bengio Y.Neuralmachine translation by jointly learning to align andtranslateJ.arXiv：1409.0473，201415Zukov-GregoricA，BachrachY，Minkovsky P，et al.Neural Named Entity RecognitionUsingaSelf-AttentionMechanismC/2017 IEEE 29th International Conference on Toolswith Artifici

31、al Intelligence（ICTAI）.IEEE，2017：652-656.16陈琛，刘小云，方玉华.融合注意力机制的电子病历命名实体识别J.计算机技术与发展，2020，30（10）：5.17Ningyu Zhang，Qianghuai Jia，KangpingYin，Liang Dong，Feng Gao，Nengwei Hua.Conceptualized Representation Learning for ChineseBiomedical Text MiningJ.WSDM 2020 HealthDay，arXiv preprint arXiv：2008.10813，2020

32、.18李正民，云红艳，王翊臻.基于BERT的多特征融合的医疗命名实体识别J.青岛大学学报：自然科学版，2021，34（4）：7.19张海楠，伍大勇，刘悦，等.基于深度神经网络的中文命名实体识别J.中文信息学报，2017，31（04）：28-35.20李明扬，孔芳.融入自注意力机制的社交媒体命名实体识别J.清华大学学报：自然科学版，2019（6）：7.21Vaswani A，Shazeer N，Parmar N，et al.Attention Is All You NeedJ.Proceedings of the31st lnternational Conference on Neural lnformation Processing Systems，2017：6000-6010.作者简介：帅英杰（1994），男，山西忻州人，广西民族大学人工智能学院在读研究生，主要从事自然语言处理研究。黄勇（1979），男，壮族，广西忻城人，广西壮族自治区党委网信办教授，博士，硕士研究生导师，主要从事网络安全、自然语言处理研究。（责任编辑：覃凌波）-52

展开阅读全文