1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于词义增强的生物医学命名实体识别方法陈梦萱1,2,陈艳平1,2,扈应1,2,黄瑞章1,2,秦永彬1,2(1.贵州大学 公共大数据国家重点实验室,贵阳 550025;2.贵州大学 计算机科学与技术学院,贵阳 550025)摘要:生物医学命名实体识别(BioNER)是生物医学文本挖掘的核心任务之一,能够为下游任务提供有力支撑。与通用领域相比,生物医学数据中存在更多的未登录词,现有 BioNER方法通常将未登录词拆分为语素进行表示学习,这种方法缓解了未登录词表示信息不足的问题,但是破坏了单词的内部信息,对语
2、素进行标签预测时容易出现标签不一致和跨实体标签问题。此外,将单词分割为语素导致句子长度变长,加重了训练中存在的梯度消失问题。提出一种通过 BiLSTM-Biaffine 结构进行词义增强的 BioNER 方法。通过 BioBERT 预训练模型获取语素表示信息,使用 BiLSTM-Biaffine 进行词义增强,在单词层面利用 BiLSTM 分别获取语素的前向和后向序列信息,采用Biaffine注意力机制增强其关联信息并重新融合为单词表示,最后通过 BiLSTM-CRF 模型获取输入句子的标签序列。实验结果表明,在数据集 BC2GM、NCBI-Disease、BC5CDR-chem 和 JNLP
3、BA 上,该方法的 F1 值分别达到84.94%、89.07%、92.14%和 74.57%,与主流序列标注模型 MTM-CW、MT-BioNER 等相比平均分别提高了 2.99、1.84、3.09和 1.03个百分点,验证了所提方法在 BioNER任务中的有效性。关键词:生物医学命名实体识别;语素;词义增强;双向长短期记忆网络;注意力机制开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(10):305-312.英文引用格式:CHEN M X,CHEN Y P,HU Y,et al.Biomedical named entity recogni
4、tion method based on word meaning enhancement J.Computer Engineering,2023,49(10):305-312.Biomedical Named Entity Recognition Method Based on Word Meaning EnhancementCHEN Mengxuan1,2,CHEN Yanping1,2,HU Ying1,2,HUANG Ruizhang1,2,QIN Yongbin1,2(1.State Key Laboratory of Public Big Data,Guizhou Universi
5、ty,Guiyang 550025,China;2.College of Computer Science and Technology,Guizhou University,Guiyang 550025,China)【Abstract】Biomedical Named Entity Recognition(BioNER),as a core task of biomedical text mining,provides strong support for downstream tasks.There are more unregistered words in biomedical dat
6、a than in the general domain.Existing BioNER methods usually use the method of splitting unregistered words into morphemes to alleviate the problem of insufficient information of unregistered words;however,the internal information of words is also split,resulting in label inconsistency.Thus,cross-en
7、tity label problems are prone to occur in label prediction for morphemes.In addition,the segmentation of words into morphemes leads to longer sentence lengths,which aggravates the problem of gradient disappearance during training.To address the above problems,a BioNER method that uses the Bidirectio
8、nal Long Short-Term Memory(BiLSTM)-Biaffine structure is proposed for word meaning enhancement.First,morpheme representation information is obtained through the BioBERT pre-training model.Subsequently,BiLSTM-Biaffine is used to enhance the word sense,with BiLSTM at the word level to obtain forward a
9、nd backward sequence information of the morpheme and the Biaffine attention mechanism to enhance the associated information and reintegrate it into the words representation.Finally,the label sequence of the input sentence is obtained through the BiLSTM-CRF model.The experimental results show that on
10、 the BC2GM,NCBI-Disease,BC5CDR-chem,and JNLPBA datasets,the F1 scores of the method reached 84.94%,89.07%,92.14%,and 74.57%,respectively.Compared with mainstream sequence annotation models such as the MTM-CW and MT-BioNER,the proposed method provided an average improvement of 2.99,1.84,3.09,and 1.03
11、 percentage points,respectively,verifying its effectiveness in BioNER tasks.基金项目:国家自然科学基金(62166007)。作者简介:陈梦萱(1997),女,硕士研究生,主研方向为自然语言处理、命名实体识别;陈艳平(通信作者),副教授、博士;扈 应,博士研究生;黄瑞章、秦永彬,教授、博士。收稿日期:2022-09-29 修回日期:2022-12-06 Email:开发研究与工程应用文章编号:1000-3428(2023)10-0305-08 文献标志码:A 中图分类号:TP391.92023年 10月 15日Compu
12、ter Engineering 计算机工程【Key words】Biomedical Named Entity Recognition(BioNER);morpheme;word meaning enhancement;Bidirectional Long Short-Term Memory(BiLSTM)network;attention mechanismDOI:10.19678/j.issn.1000-3428.00658800概述随着生物医学文档数量的迅速增长,生物医学信息抽取变得越来越重要。实体作为句子的主体,包含了丰富的语义信息,因此,命名实体识别在生物医学文本的理解和处理过程中具
13、有非常重要的意义。生 物 医 学 命 名 实 体 识 别(Biomedical Named Entity Recognition,BioNER)指识别文本中的基因、蛋白质、化学药品、疾病等生物医学实体。深度学习技术在自然语言处理(Natural Language Processing,NLP)中的应用促进了生物医学信息抽取的发展。然而,将最先进的 NLP 方法直接应用于生物医学信息抽取时效果并不理想,一个重要原因是通用的预训练语言模型主要在包含一般领域文本的语料库上训练和测试,而生物医学语料库和一般领域语料库的词分布有很大差异。因此,越来越多的研究人员通过在生物医学语料库上训练通用预训练语言模
14、型得到生物医学领域特定的预训练语言模型,如 BioELMo1、KeBioLM2、ClinicalBERT3、BlueBERT4、SciBERT5、BioBERT6等。这些模型大多采用 WordPiece标记化方法处理未登录词,即将未登录词以频繁出现的语素来表示(如peri-kappa-per、#i、-、ka、#ppa),在很大程度上缓解了未登录词表示信息不足的问题。BioBERT是目前在生物医学信息抽取任务中使用最广泛、最有效的预训练语言模型之一,它在生物医学信息抽取的各种任务上表现都超过了 BERT 和之 前 的 先 进 模 型。现 有 的 BioNER 模 型 将 从BioBERT 预训练
15、模型获得的语素嵌入表示后,或直接输入神经网络进行训练,或增加额外的特征信息后输入神经网络进行训练,而忽略了在训练和标签预测过程中可能会出现的如下问题:1)标签不一致问题。一些语素作为独立单词在文本中出现,可能出现词内部标签不一致问题,比如“peri-kappa”,其真实标签为“B-DNA”,在语素级别进行标签预测时,可能会错误地将其部分语素识别为“kappaB”蛋白质实体的语素“ka”、“ppa”,则“peri-kappa”语素的标签类型既有 DNA 类型又有蛋白质类型,最终导致实体识别失败。2)跨单词标签问题。英文单词被拆分为语素后,词之间的边界变得模糊,从而产生错误依赖关系,将不同单词的语
16、素识别为同一单词的语素,则会导致实体识别错误。如“CD28 signaling cascadephospholipase A2 and 5-lipoxygenase”在进行表示学习 时,蛋 白 质 实 体“phospholipase A2”的 语 素 为“p hos ph oli pas e a2”,在标签预测时模型容易将“e a2”识别为疾病实体“EA2”的语素。3)语义梯度消失问题。将未登录词拆分为语素后,句长变为原来的几倍,在使用神经网络进行句子语义学习时容易出现梯度消失问题。生物医学数据集中存在大量的未登录复合词,会使得这一问题更加突出,通过统计发现,单词被拆分为语素后长句子明显增多,
17、一些句子长度甚至超过了 500。针对以上问题,本文提出一种基于 BiLSTM-Biaffine 词义增强的方法。首先经过 BioBERT 预训练后将单词拆分为语素,得到语素的嵌入表示后同一单词的语素间使用 BiLSTM 获取语素的前向和后向序列信息;然后使用 Biaffine注意力机制增强其关联信息并融合为单词表示,将单词表示作为句子级BiLSTM 的输入,使得文本长度得到控制,有效缓解梯度消失问题;最后以单词作为最小单位,使用 CRF序列化标注模型获得最终预测标签,规避由语素导致的词内部标签不一致和跨单词标签问题。本文的主要工作有:1)针对预训练模型对语素进行表示学习导致的标签不一致、跨单词
18、标签和语义梯度消失的问题,本文提出 BiLSTM-Biaffine词义增强方法,该方法对语素表示进行融合学习,能更好地学习句子中的词级语义特征。2)设计实现基于 BiLSTM-Biaffine 词义增强的生 物 医 学 命 名 实 体 识 别 模 型,通 过 在 BC2GM(BioCreative II Gene Mention)、NCBI-Disease、BC5CDR-chem 和 JNLPBA 数据集上进行实验,验证 BiLSTM-Biaffine词义增强方法的有效性。1相关工作为提升 BioNER的性能,现有相关研究大致分为3 类:1)通过多种神经网络的组合得到新的模型;2)融合多种特征
19、信息;3)通过在生物医学语料库上训练现有预训练语言模型,得到生物医学领域特定的预训练语言模型。BioNER任务通常被建模为一个序列标记问题,且已成功地将 CRF7、CNN8、LSTM9等模型应用其中。文献 10 在 BioNER 中将 CRF 作为基础的分类方法;文献 11 提出一种基于深度神经网络结构的BioNER 方 法;文 献12将 RNN 模 型 应 用 于BioNER,通过使用大型无标记语料库来解决或缓解复杂的手工设计特征问题;文献 13 提出一种使用BiLSTM 学习正字法特征的 BioNER 模型;文献 14开发多任务 CNN 模型,并将其应用于现有的各种生物医学命名实体数据集中
20、;文献 15 将 BiLSTM-CRF模型用于不相交标签集的 BioNER任务中;文献 16将 n-GRAM 与 BiLSTM-CRF 模 型 相 结 合,应 用 于BioNER;文献 17 使用一组 BiLSTM-CRF模型构建306第 49卷 第 10期陈梦萱,陈艳平,扈应,等:基于词义增强的生物医学命名实体识别方法联合模型,以便目标模型从其他协作者模型中获取信息,从而减少误报;文献 18 提出一种多任务学习框架,通过重用相应 BiLSTM 单元中的参数,来自不同数据集的输入可以有效地共享字符和字级表示;文献 19 提出基于 BiLSTM-CNN-CRF 交叉共享结构的 BioNER 模型
21、;文献 20 提出 DTranNER 模型,将 基 于 CRF 和 深 度 学 习 的 标 签 转 换 模 型 结 合 到BioNER中。为了弥补单纯词嵌入包含信息不足的问题,研究人员进行如下探索:文献 21 证实了字符级嵌入的信息对词嵌入信息有很好的补充作用;文献 22将深度神经网络、CRF、单词嵌入和字符级表征相结合,进行生物医学命名实体识别;文献 23 提出一种基于词嵌入和字符嵌入的 LSTM-RNN-CRF 神经网络架构,使用注意力模型将特定领域的预训练单词嵌入和通过字符嵌入查找表函数获得的每个字符嵌入相结合;文献 24 利用 CNN 训练单词以获取具有形态特征的字符级向量,将其与从背
22、景语料训练中得到的具有语义特征信息的词向量进行合并。此外,也有研究者通过加入其他词汇信息来提升实体识别的性能,如:文献 25 提出一种改进的基于语言信息嵌入的 BiLSTM 网络架构,除了预先训练的单词嵌入和字符嵌入之外,还包含了缩写嵌入和词性嵌入;文献 26 提出基于 CNN 和 LSTM 组合特征嵌入的 BioNER 方法,通过整合从 CNN 和 BiLSTM 中提取的 2 种不同的字符级表示来增强模型性能;文献 27 使用 KVMN 将语法信息合并到主干序列标记器中以改进 BioNER;文献 28 通过 BERT 进行语义提取以获得动态词向量,并加入词性分析、组块分 析 特 征 提 升
23、模 型 精 度;文 献29利 用 CNN 和BiLSTM 提取文本的字符向量,在训练过程中动态计算文本单词的 2 种字符向量权重并进行拼接,同时加入词性信息和组块分析作为额外特征。由于序列模型获取的信息在很大程度上依赖于词嵌入中包含的信息,因此近年来越来越多的研究者将序列模型的关注点转移到预训练语言模型上。常用的通用领域的预训练语言模型 Word2Vec30、GloVe31、ELMo32和 BERT33应用于生物医学文本时,会产生大量的未登录词,而且生物医学领域的新生词汇也在不断增长,因此,这些模型并不适用于生物医学领域。有研究者在此基础上提出了专门应用于 生 物 医 学 领 域 的 特 定
24、的 预 训 练 语 言 模 型,如:文 献1利 用 PubMed 摘 要 训 练 ELMo 得 到BioELMo;文 献2通 过 在 PubMed 摘 要 上 训 练BERT 得 到 KeBioLM;文 献3-4通 过 在 临 床 笔 记MIMIC 上 训 练 BERT 分 别 得 到 了 ClinicalBERT 和BlueBERT;文献 5 通过生物医学和计算机科学领域的论文训练 BERT 得到了 SciBERT;文献 6 通过PubMed摘要和 PMC文章训练得到了 BioBERT。WordPiece 技术被广泛应用在上述预训练语言模型中,有效缓解了缺少未登录词表示信息的问题,而现有的
25、BioNER 模型将从预训练模型获得的语素嵌入表示后直接输入神经网络进行训练,或增加额外的特征信息后输入神经网络进行训练,在英文命名实体识别上依旧存在训练时无法充分利用子令牌标签信息和 WordPiece破坏单词语义信息的问题,在未登录词占比较高的生物医学领域,这一问题更加突出。为此,本文提出基于 BiLSTM-Biaffine词义增强的生物医学命名实体识别方法。2BiLSTM-Biaffine词义增强模型图 1所示为基于 BiLSTM-Biaffine词义增强的生物医学命名实体识别模型整体结构。该模型由编码模块、特征提取模块和解码模块 3 个部分组成,其中,b、i、j、o和 x为张量对应维度
26、的数值。图 1BiLSTM-Biaffine词义增强模型结构Fig.1BiLSTM-Biaffine word meaning enhancement model structure3072023年 10月 15日Computer Engineering 计算机工程2.1编码模块语素是构成语言的基本单位,也是最小的语法和语义单位。汉语的语素是汉字,而英语的语素是词根词缀。在英语中,不同的单词可能有相同的词根或词缀,更能代表单词的词义,例如 IL-2 和 IL-2R都是 DNA 类型实体,都包含相同的语素“IL”,这有助于识别实体的类别,同时可以使用已知语素表示未知的新生词汇,有利于获取未登录词
27、的信息。在本文中,使用预训练版本的 BioBERT 模型来获取文本的语素嵌入表示。BioBERT 是基于 BERT 模型而提出的,是一种用于生物医学文本挖掘的特定领域 BERT,在许多生物医学文本挖掘任务中性能表现优于 BERT 和以前的模型,其获取词嵌入的过程如图 2所示。在图 2 中:Wi表示句子中的第 i 个单词;Wij表示第 i个单词的第 j个语素。文本以单词序列的形式输入 BioBERT,然后根据 BioBERT 词表将单词拆分为语素,最后以语素为基本单位进行编码获得语素嵌入表示。2.2特征提取模块特征提取模块由单词级的BiLSTM(Word-BiLSTM)和句子级的 BiLSTM(
28、Sentence-BiLSTM)构成。单词级的 BiLSTM 用于获取单词内部语素的序列信息,句子级的 BiLSTM 用于获取句子的上下文信息。LSTM 的计算公式如式(1)式(6)所示:it=(xt wi+ht-1 wi+bi)(1)ft=(xt wf+ht-1 wf+bf)(2)ot=(xt wo+ht-1 wo+bo)(3)ct=tanh(xt wc+ht-1 wc+bc)(4)ct=itct+ftct-i(5)ht=ottanh(ct)(6)其中:和tanh()为激活函数;it、ft、ot和ct分别对应t时刻的输入门、遗忘门、输出门和记忆单元;是点积运算;w和b分别代表权重矩阵和偏置向
29、量,它们的下标表示对应的输入门(i)、遗忘门(f)、输出门(o)和记忆单元(c);xt指t时刻输入语素的特征表示;ht表示t时刻的隐藏状态。2.2.1 BiLSTM-Biaffine单词被拆分为语素后,容易产生本文概述中描述的问题并且词的内部信息被割裂,可能会丢失部分词义信息,而 BiLSTM 能够捕获序列信息以及关联信息,因此,本文模型在同一单词的语素间应用BiLSTM,以获取语素的前向、后向信息,使用 Biaffine注意力机制加强语素间的信息交互,最终将语素表示融合为单词表示,计算公式如式(7)式(9)所示:fm=LSTM(wm1wm2wmj)(7)bm=LSTM(wmtwm(t-1)w
30、mj)(8)wm=fmUmbm+Wm(fmbm)+bm(9)其中:fm表示由 LSTM 获取的第m个单词语素的前向信息;bm表示由 LSTM 获取的第m个单词语素的后向信息;Um和Wm是与输入有关的矩阵;bm是可选偏置。2.2.2 Sentence-BiLSTM为了获取句子级的上下文信息,本文模型还在句 子 级 使 用 BiLSTM,即 Sentence-BiLSTM,将 由BiLSTM-Biaffine 得 到 的 单 词 表 示 作 为 Sentence-BiLSTM 的基本单位,能够有效控制句子长度,缓解梯度消失问题。Sentence-BiLSTM 为双向 LSTM,前向 LSTM 提取
31、每个单词表示的上文信息,后向 LSTM获取单词表示的下文信息。Sentence-BiLSTM 在t时刻的隐藏状态由前向和后向隐藏状态拼接而成,如式(10)所示:Ht=ht ht(10)其中:Ht表示 t时刻的隐藏状态;ht表示后向的隐藏状态;ht表示前向的隐藏状态。2.3解码模块NER 任务的最后一步是标签解码,它接受上下文相关的表示作为输入并生成与输入序列对应的标签序列。基于 CRF的解码层能够对最终预测的标签进行约束,弥补 BiLSTM 无法处理相邻标签之间依赖关系的缺点,以确保得到最合理的标签序列。将 BiLSTM 的输出作为 CRF 的输入,以单词为最小单位进行标签预测,规避了在语素级
32、别进行标签预测而产生的词内部标签不一致的问题。给定输入X,输 出 预 测 标 签 的 得 分,计 算 公 式 如 式(11)所示:score(Xy)=i=0nAyiyi+1+i=1nPiyi(11)其中:Ayiyi+1是矩阵中的元素,表示标签yi转移到标签yi+1的概率;yi表示y中的元素。在输入X确定的情况下,y预测结果的概率计算公式如式(12)所示:p(y|X)=escore(Xy)y Yxscore(Xy)(12)其中:y|X是所有可能的标签组合;y为真实标签。模型最终选择p(y|X)最大的标签序列,这个选择的过程通过对数似然函数实现。训练过程中的似然函数如式(13)所示:图 2BioB
33、ERT预训练过程Fig.2BioBERT pretraining process308第 49卷 第 10期陈梦萱,陈艳平,扈应,等:基于词义增强的生物医学命名实体识别方法loga(p(y|X)=score(Xy)-loga()y Yxescore(Xy)(13)最终从所有概率得分中通过式(14)选出概率最高的标签序列:y*=argmaxy Yx score(Xy)(14)其中:Yx表示所有可能的标签序列组合;y*为最终的标签序列。3实验验证3.1数据集在BC2GM、NCBI-Disease、BC5CDR-chem和JNLPBA等 4 个 BioNER 任务中常用的基准数据集上进行实验,验证本
34、文方法在生物医学数据集上的有效性。BC2GM数据集由生物医学出版物摘要中的20 128条句子组成,并对蛋白质、基因和相关实体的名称进行了注释。NCBI-Disease数据集由 793篇 PubMed摘要组成,对疾病提及进行了注释。BC5CDR-chem 是用于BioCreative V化学疾病关系任务的数据集,对化学实体和提及进行了手动注释。JNLPBA 数据集包含了扩展版本的生物实体识别数据集 GENIA版本 3命名实体语料库中的 MEDLINE 摘要,包含了“DNA”“RNA”“Protein”“cell_type”和“cell_line”这 5类实体。各数据集的实体类型及数量统计结果如表
35、1所示。数据集采用“B-实体类型”“I-实体类型”和“O”标签进行标记,使用“B-实体类型”标签标注实体的开始,“I-实体类型”标签标注组成实体的中间部分,“O”标签标注与实体无关的信息。3.2评估标准实验采用精确率(P)、召回率(R)和 F1 值(F1)3种测评指标,具体计算公式如式(15)式(17)所示:P=TpTp+Fp100%(15)R=TpTp+Fn100%(16)F1=2P RP+R100%(17)其中:Tp、Fp、Fn分别表示正确识别的实体个数、错误识别的实体个数和识别出的实体总数量。3.3实验设置本文使用预训练版本的 BioBERT 模型,所有的神经网络模型都是基于 PyTor
36、ch实现的,优化器采用Adam算法。实验参数设置如表 2所示。3.4结果分析为了验证本文模型的有效性,分别在 BC2GM、NCBI-Disease、BC5CDR-chem 和 JNLPBA 数据集上进行实验,将本文模型与近年来 BioNER领域具有代表性的序列标注模型进行对比,实验结果如表 3 所示,最优结果加粗标注。在表 3 中:MTM-CW 模型是文献 18 提出的融合单词和字符信息的多任务学习模型;文献 34 提表 1数据集统计信息 Table 1Statistics of datasets数据集BC2GMNCBI-DiseaseBC5CDR-chemJNLPBA实体类型及数量Gene/
37、Protein(24 583)Disease(6 881)chemical(12 694)Gene/Protein(35 336)Cell Line(4 330),DNA(10 589)Cell Type(8 649),RNA(1 069)表 2实验参数设置 Table 2Experimental parameters setting参数句子长度批量BiLSTM 维度Word-BiLSTM 隐藏层维度Sentence-BiLSTM 隐藏层维度BiLSTM 层数学习率warmup_proprotionhidden_dropout_prob训练批次/次值256876838412813e50.10.
38、130表 3不同模型的对比实验结果 Table 3Comparative experimental results of different models%数据集BC2GMNCBI-DiseaseBC5CDR-chemJNLPBA模型MTM-CWMT-BioNERMTLBiLSTM-BiaffineMTM-CWMT-BioNERMTLBiLSTM-BiaffineMTM-CWMT-BioNERMTLBiLSTM-BiaffineMTM-CWMT-BioNERMTLBiLSTM-BiaffineP82.1082.0182.2285.1485.8686.7387.6987.6689.1088.46
39、89.4091.9670.9167.4070.7970.70R79.4284.0481.9584.7486.4289.7087.2290.5288.4790.5288.3492.5176.3479.3577.9978.88F180.7483.0182.0984.9486.1488.1087.4589.0788.7889.5088.8792.1473.5272.8974.2274.573092023年 10月 15日Computer Engineering 计算机工程出的 MT-BioNER 模型结合了 BioBERT 和多任务学习;MTL 是文献 35 提出的机器阅读理解模型。以上模型的实验结
40、果均采用了原文献中的最优结果。从表 3 可以看出,BiLSTM-Biaffine 相较于对比模型取得了更优的性能,在 BC2GM、NCBI-Disease、BC5CDR-chem 和 JNLPBA 数据集上的 F1平均分别提升了 2.99、1.84、3.09和 1.03个百分点,并且在数据集 BC2GM、NCBI-Disease 和 BC5CDR-chem 上的精确率和召回率也都高于对比模型。这主要是因为以下原因:1)BiLSTM-Biaffine 能够获取 BioBERT 语素的序 列 信 息 以 及 关 联 信 息。对 比 模 型 虽 然 均 使 用BioBERT 预训练模型,但是丢失了语
41、素的序列信息和关联信息,BiLSTM 能够获取语素的序列信息,Biaffine 注意力机制加强了其关联并融合为单词表示。2)BiLSTM-Biaffine 结构能够有效利用丰富的语素信息增强词义表示。字符信息相较于语素包含的信息较少,多任务学习和机器阅读理解无法针对性地增强词义信息,而词义信息对于表示信息相对匮乏的生物医学领域是至关重要的。3)获取语素的表示信息后将其重新融合为单词表示,不仅解决了未登录词表示信息不足的问题,而且句子长度得到控制,缓解了梯度消失问题。在单词级别进行标签预测,规避了在语素标签预测过程中出现的标签不一致和跨单词标签问题。为了验证 Biaffine注意力机制的有效性,
42、将其分别与自注意力机制(Self-Attention)、多头注意力机制(Multi-Attention)进 行 对 比,实 验 结 果 如 表 4所示。从表 4 可以看出,相较于 Biaffine 注意力机制,Self-Attention 和 Multi-Attention 并不能有效提升模型的性能。原因如下:双仿射注意力机制可以进行语素间的信息交互,能够增强同一单词语素间的内部关联信息;自注意力机制和多头注意力机制主要关注怎样从所给输入中捕获重要语义特征,在信息量较少的情况下无法发挥作用。以上实验结果说明,相较于融合字符信息、多任务 学 习、机 器 阅 读 理 解 等 常 用 的 BioNE
43、R 方 法,BiLSTM-Biaffine 词义增强方法能够捕获更多的词义信息,使得 BioNER 具有更高的准确性。同时,与自注意力和多头注意力机制的对比实验结果也验证了 Biaffine注意力机制的有效性。3.5消融实验为了进一步验证 BiLSTM-Biaffine 方法的有效性,本文设计消融实验。在相同的实验环境下,对比BioBERT(模型 1)、BioBERT-BiLSTM-CRF(模型 2)和 BioBERT-BiLSTM-Biaffine-BiLSTM-CRF(模 型 3)在数据集 BC2GM、NCBI-Disease、BC5CDR-chem 和JNLPBA上的性能,实验结果如表
44、5所示。从 表 5 可 以 看 出,在 BC2GM、NCBI-Disease、BC5CDR-chem 和 JNLPBA 数据集上,模型 3 的 F1相较 于 模 型 1 平 均 分 别 提 高 了 1.99、3.31、1.92 和1.36 个百分点,相较于模型 2 平均分别提高了 0.98、0.99、0.55和 1.36个百分点。对模型 2 与模型 3 达到最优性能所需要的训练批次进行实验,结果如图 3 所示。从图 3 可以看出,模型 3 在 4 个数据集上的训练批次均小于模型 2,即模 型 3 具 有 更 快 的 收 敛 速 度,同 时 也 验 证 了BiLSTM-Biaffine 结 构
45、能 够 有 效 缓 解 梯 度 消 失问题。表 4不同注意力机制的对比实验结果 Table 4Comparative experimental results of different attention mechanisms%数据集BC2GMNCBI-DiseaseBC5CDR-chemJNLPBA注意力机制BiaffineSelf-AttentionMulti-AttentionBiaffineSelf-AttentionMulti-AttentionBiaffineSelf-AttentionMulti-AttentionBiaffineSelf-AttentionMulti-Atten
46、tionP85.1481.6381.2287.6686.7386.8291.9691.4690.4070.7069.3471.25R84.7482.4383.9590.5288.7089.2292.5190.5291.8478.8875.3576.83F184.9482.0382.5689.0787.7088.0092.1490.9891.1174.5772.2273.93表 5消融实验结果 Table 5Results of ablation experiment%数据集BC2GMNCBI-DiseaseBC5CDR-chemJNLPBA模型模型 1模型 2模型 3模型 1模型 2模型 3模
47、型 1模型 2模型 3模型 1模型 2模型 3P81.9883.5885.1486.1986.9987.6689.1389.7891.9669.2468.4470.70R83.9684.3584.7485.3489.1990.5291.3593.4792.5177.6679.7778.88F182.9583.9684.9485.7688.0889.0790.2291.5992.1473.2173.6774.57310第 49卷 第 10期陈梦萱,陈艳平,扈应,等:基于词义增强的生物医学命名实体识别方法相较于 BioBERT命名实体识别模型和 BioBERT预训练与 BiLSTM-CRF神经网络
48、模型相结合的命名实 体 识 别 模 型,本 文 BioBERT-BiLSTM-Biaffine-BiLSTM-CRF模型在不使用其他特征信息的情况下取得了更优的性能,并且收敛速度更快,验证了基于BiLSTM-Biaffine词义增强方法的有效性。4结束语生物医学命名实体识别作为生物医学文本信息的基础任务之一,对于医疗事业的发展有着至关重要的作用。本文从生物医学数据的特殊性出发,提出一种 BiLSTM-Biaffine词义增强方法,以有效利用语素来解决未登录词的表示问题,同时避免由于语素过多导致的文本过长、标签不一致和跨单词标签问题。通过 BioBERT 预训练模型获得语素嵌入表示,使用 BiL
49、STM-Biaffine方法获取语素的序列信息以及完整的单词信息,利用 BiLSTM-CRF 模型获取最终的预测标签序列。在 BC2GM、NCBI-Disease、BC5CDR-chem 和 JNLPBA 等 4 个 BioNER 任务常用基准数据集上进行实验,结果表明,BiLSTM-Biaffine词义增强方法能够有效提升 BioNER 的性能。下一步考虑将 BiLSTM-Biaffine 方法应用到其他 NER 模型中,并探究一种性能更优的语素融合方法。参考文献 1 JIN Q,DHINGRA B,COHEN W,et al.Probing biomedical embeddings fr
50、om language models EB/OL.2022-08-05.https:/arxiv.org/pdf/1904.02181.pdf.2 YUAN Z,LIU Y,TAN C,et al.Improving biomedical pretrained language models with knowledge EB/OL.2022-08-05.https:/arxiv.org/abs/2104.10344.3 ALSENTZER E,MURPHY J,BOAG W,et al.Publicly available clinical BERT embeddings EB/OL.202
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100