收藏 分销(赏)

基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf

上传人:自信****多点 文档编号:2414649 上传时间:2024-05-29 格式:PDF 页数:8 大小:4.44MB
下载 相关 举报
基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf_第1页
第1页 / 共8页
基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf_第2页
第2页 / 共8页
基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第41卷第1期2024年1月D01:10.3969/j.issn.1005-202X.2024.01.018基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别中国医学物理学杂志Chinese Journal of Medical PhysicsVol.41 No.1January 2024医学人工智能-125李盛青,苏前敏,黄继汉?1.上海工程技术大学电子电气工程学院,上海2 0 16 2 0;2.上海中医药大学药物临床研究中心,上海2 0 12 0 3【摘要】目的:提出一种基于BioBERT预训练模型的纳排标准命名实体识别方法(BioBERT-Att-BiLSTM-CRF),可自

2、动提取临床试验相关信息,为高效制定纳排标准提供帮助。方法:结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,并建立命名实体识别语料库以明确实体识别任务。BioBERT-Att-BiLSTM-CRF首先将文本转换为BioBERT向量并输入至双向长短期记忆网络以捕捉上下文语义特征;同时运用注意力机制来提取关键特征;最终采用条件随机场解码并输出最优标签序列。结果:BioBERT-Att-BiLSTM-CRF在纳排标准命名实体识别数据集上的效果优于其他基准模型。结论:使用BioBERT-Att-BiLSTM-CRF能更高效地提取临床试验的纳排标准相关信息,从而增强临床试验注册数据的科学性,

3、并为临床试验纳排标准的制定提供帮助。【关键词】纳排标准;命名实体识别;双向长短期记忆网络;条件随机场;临床试验【中图分类号】R318Named entity recognition of eligibility criteria for clinical trials based on BioBERT and BiLSTMLI Shengqing,SU Qianmin,HUANG Jihan?1.School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai

4、201620,China;2.Center forDrug Clinical Research,Shanghai University of Traditional Chinese Medicine,Shanghai 201203,ChinaAbstract:Objective To present a named entity recognition method referred to as BioBERT-Att-BiLSTM-CRF for eligibilitycriteria based on the BioBERT pretrained model.The method can

5、automatically extract relevant information from clinicaltrials and provide assistance in efficiently formulating eligibility criteria.Methods Based on the UMLS medical semanticnetwork and expert-defined rules,the study established medical entity annotation rules and constructed a named entityrecogni

6、tion corpus to clarify the entity recognition task.BioBERT-Att-BiLSTM-CRF converted the text into BioBERTvectors and inputted them into a bidirectional long short-term memory network to capture contextual semantic features.Meanwhile,attention mechanisms were applied to extract keyfeatures,and a cond

7、itional random field was used for decodingand outputting the optimal label sequence.Results BioBERT-Att-BiLSTM-CRF outperformed other baseline models on theeligibility criteria named entity recognition dataset.Conclusion BioBERT-Att-BiLSTM-CRF can efficiently extracteligibility criteria-related info

8、rmation from clinical trials,thereby enhancing the scientific validity of clinical trial registrationdata and providing assistance in the formulation of eligibility criteria for clinical trials.Keywords:eligibility criteria;named entity recognition;bidirectional long short-term memory network;condit

9、ional randomfield;clinical trial【文献标志码】A【文章编号】10 0 5-2 0 2 X(2 0 2 4)0 1-0 12 5-0 8前言根据世界卫生组织(WorldHealthOrganization,WHO)的定义,临床试验是一种以志愿者为主要研究【收稿日期】2 0 2 3-0 8-2 0【作者简介】李盛青,硕士研究生,研究方向:人工智能技术,E-mail:【通信作者】苏前敏,博士,副教授,研究方向:医学数据挖掘、医学数据分析,E-mail:对象的科学研究,旨在评估新的实验性药物、现有药品和医疗设备的疗效与安全性的系统性试验,对促进医学发展和提高人类健康具有

10、积极作用。美国临床试验注册中心是全球最大的临床试验注册平台之一,其数据覆盖范围广、数据质量高且更新及时,为临床试验的设计和优化提供有力的支持,其中的纳入排除标准(简称“纳排标准”)是决定受试者能否被纳人实验组的关键因素,也是试验成功的前提条件之一。患者数量招募不足是过去的临床试验经常面临-126-的问题之一 2 1,而这种情况通常与纳排标准存在直接或间接的关系。在早期的研究中,纳排标准的制定主要通过研究人员依靠手动检索与比较分析法进行,然而这两种方法费时且容易出现主观误差,严重影响筛选方案的制定效率和准确性。与复杂繁琐的手动流程相比,经过严格测试的人工智能算法能快速、高效地制定纳排标准,提高临

11、床试验的效率和质量,同时缩短试验的周期并降低成本。因此,采用人工智能算法辅助筛选方案的制定和优化已成为临床试验设计和实施的研究热点。作为信息抽取的子任务,命名实体识别可以识别处理医学中的专有名词(如药物名称等)3。但是,由于生物医学实体的多样性与变异性,识别生物医学实体是一项具有挑战性的任务。生物医学实体识别方法主要分为基于字典和规则的方法以及基于深度学习的方法。基于规则和字典的命名实体识别方法主要利用已有的标准术语词典及匹配算法识别文本中出现的术语,并结合领域专家的观点建立词典或规则模板 4-5。医学领域专业术语众多,随着新的实体名称不断出现,词典的及时更新将面临巨大挑战;此外,单纯依赖传统

12、的词典匹配方法也难以达到较高的性能,通常需要结合其他方法使用 6 。虽然基于复杂规则的系统精确率高,但随着规则变得越来越特殊,召回率会越来越低。因此,该方法通常与机器学习方法相结合以提高模型性能 7-8 。机器学习已被广泛应用于序列标注问题的研究中,对序列中的每个单词赋予特定标签,通过输入单词序列,输出相应的实体和预测结果。机器学习主要解决两个问题,即确定实体边界和预测实体类型,并且能为每个实体分配特定标签,以表明其开始、中间和结束等词位信息。自然语言处理(Natural Language Processing,NLP)的深度学习技术不断进步,为生物医学文本挖掘模型带来新的可能性。2 0 15

13、年,百度研究院提出深度学习应用于命名实体识别的模型,即双向长短期记忆网络-条件随机场(Bidirectional Long Short-Term MemoryNetwork-Conditional Random Field,BiLSTM-CRF),该模型通过深度建模上下文信息,再利用条件随机场解码整个句子的标签。如今,NLP已不再是单个模型处理单个任务,而是在大量语料上预训练通用模型,并对特定下游任务进行微调,ELMO、G T P、BER T 等微调后的模型在许多NLP任务上都表现优异。自动纳排标准采用了多种方法,包括基于模式匹配和规则的EliXR9、El i X R-T I M E 10 1

14、和ERGO系统等。此外,还有大量的研究集中在信息抽取方面,如EliIE和Criteria2Queryl12以及Tseo等 13 的工作。中国医学物理学杂志针对目前临床试验纳排标准标注语料匮乏和术语专业性强等问题,本研究参考医学术语系统UMLS,并结合医学专家定义和纳排标准数据的特点,预先制定纳排标准实体标注规则,采用BIO标注方式创建基于纳排标准的训练语料库,并将预训练语言模型BioBERT引人纳排标准实体识别任务中,提出一种基于BioBERT与BiLSTM的医学实体识别模型。1BioBERT-Att-BiLSTM-CRF命名实体识别模型本研究提出的医学实体识别模型BioBERT-Att-Bi

15、LSTM-CRF的整体架构如图1所示。首先将英语文本转换成BioBERT的输人格式。然后将其输人BioBERT网络中以识别句子特征。BioBERT通过编码层的BiLSTM捕捉词向量中的长距离依赖关系,得到句子中每个单词的正确标签;使用注意力机制提取重要特征并减少噪声干扰。最后采用CRF层为最终预测的标签引人约束条件,以提高标签预测的准确率。该方法在经典BiLSTM-CRF的基础上进行改进,引入BioBERT语言模型以及注意力机制,进一步提高命名实体识别的准确性和效率。labellabelCRF层CRF注意力层AttentionSTMBiLSTM层人LSTM嵌入层人word图1BioBERT-A

16、tt-BiLSTM-CRF模型架构图Figure 1 BioBERT-Att-BiLSTM-CRF model architecture1.1BioBERT模型BioBERT是针对生物医学领域的语言表示模型 1。该模型利用大规模的生物医学语料库进行预训练。BioBERT与BERT具有相同的架构,编码器均采用双向Transformer,并且基于注意力机制表示文第41卷labelLSTMLSTMBioBERTwordword第1期本序列的上下文关系,能很好地并行计算和捕获长距离文本特征。BioBERT的Embedding包括3种不同的嵌人特征,分别是TokenEmbeddings、Se g me

17、n t李盛青,等.基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别-127*Embeddings和Position EmbeddingS。具体嵌人特征如图2 所示。InputTokenEmbeddingsSegmentEmbeddingsPositionEmbeddings(CLS)ECLS)+EE图2 Embedding示意图Figure2EmbeddingdiagrammydogEEaEsEPEEiscuteSEPhelikesplayElke#ingSEPEngE为提高模型效果,该模型结合了“掩码语言模型(Masked Language Model)”和“下一句预测(Nex

18、tSentence Prediction)”两个任务。在掩码语言模型中,每次会随机选取文本序列中15%的词,其中,8 0%的词被掩盖,即用特殊的标记符号替换原始词汇;10%的词被替换为随机生成的其他词;10%则直接保留原始词,不进行任何处理。模型需要根据上下文信息预测被掩盖的词。下一句预测任务则需要输入两个句子A和B,从中随机选取两个句子进行训练,其中,50%的概率是连续的上下文,另外50%的概率则是不连续的。模型需要判断句子B是否为句子A的下一句,以判断这两个句子之间的关系。在生物医学语料库上进行预训练后,BioBERT在多种生物医学文本挖掘任务中的表现远远超过BERT和其他先进的模型。在生

19、物医学命名实体识别和生物医学关系提取任务中,BioBERT的F1值分别提高0.6 2%和2.8 0%;而在生物医学问答任务中,平均倒数排名提高12.2 4%,表现显著优于其他模型 14。BioBERT的预训练和微调概述如图3所示。首先,采用通用领域预训练的BERT权重对BioBERT进行初始化;随后,通过使用生物医学领域语料库(涵盖PubMed和PMC中的文本)对BioBERT进行进一步预训练;最后,对BioBERT进行微调,并通过命名实体识别、关系抽取和问答等任务进行评估。Pre-trainingofBioBERTPre-training CorporaPublMed 4.5BwordsPM

20、C13.5BwordsWeight InitializationBERTfromDevlinetal.Fine-tuningof BioBERTBioBERT Pre-trainingTask-SpecificDatasetsNamed Entity RecognitionNCBldisease,BC2GM,.Relation ExtractionTmTEU-ADR,ChemProt,.EEPre-trained BioBERTwithbiomedical domain corporaFigure 3 Pre-training and fine-tuning of BioBERTBioBERT

21、Fine-tuningtheadult renal failure cause.VOOB1TmTmVariantsintheGENESregioncontributetoDISEASES susceptiltyTrueQuestionAnsweringWhatdoesmTOR standsfor?BioASQ5b,BioASQ 6b,.mammalian target of rapamycin,图3BioBERT的预训练和微调1.2.BiLSTM模型传统的循环神经网络在处理长文本时可能会出现梯度消失或梯度爆炸的问题。为解决这个问题,Hochreiter等 15 提出长短期记忆网络(LSTM)。

22、相比传统的循环神经网络模型,LSTM通过增加门控机制和记忆单元的方式来捕捉长距离依赖关系。门控机制主要用于存储文本特征,而记忆单元则用于筛选已经存储的信息。LSTM模型通过累加更新的方式来传递信息,避免在处理长文本时可能出现的问题。LSTM的单元结构如图4所示。其中,X,表示t时刻的输人向量,C,表示记忆细胞,C,表示中间状态,h,表示隐藏状态,f表示遗忘门,;表示输入门,表示输-128-出门。遗忘门确定前一个步长中保留或摒弃哪些信息,输入门用于处理当前序列位置的输入,控制记忆单元决定存储哪些重要信息,输出门确定下一个隐藏状态。中国医学物理学杂志第41卷输出层后向传递层h前向传递层h.XXCa

23、nh送忘门输入门fLanhh-1?图4LSTM单元结构图Figure4LSTMunit structure遗忘门基于前一时刻的隐藏状态ht-,和当前时刻的输人词X计算得出,具体公式如下:,=o(W;ht-1,X,+b,)输人门的值和中间状态C,的计算公式如下:i,=o(W:h.1,X +b)(2)C,=tan(We hr.1,X,+be)(3)t时刻的细胞状态C,基于输入门的值遗忘门的值f中间状态,和前一时刻细胞状态C,.计算得出,具体公式如下:C,=o(fCr.1+i:C.)t时刻输出门的值o,和隐藏状态h,由前一时刻的隐藏状态ht-1、当前时刻的输人词X,和当前时刻隐藏状态h,计算得出,计

24、算公式如下:0,=o(W.h.-1-X,+b.)h,=o,*tan(C.)其中,为sigmoid函数,其输出值范围在0 到1之间,用于表示需要保留或遗忘的信息的比例;W和b分别表示链接两层的权重矩阵和偏置向量,通过反向传播算法更新,使得模型可以适应输人数据的特征。然而,LSTM模型还存在一些缺陷。通常情况下,前向LSTM无法处理下文的内容信息,从而限制模型在学习下文信息时的表现,对模型的最终性能产生不良影响,特别是在处理序列标注任务等NLP任务时,上下文信息对于单词、词组甚至字符都非常重要。为解决这个问题,有学者提出BiLSTM。BiLSTM本质上仍是一个循环神经网络,它将前向和后向LSTM网

25、络连接在一起,同时考虑前后两个方向的内容信息来提高整个NLP模型的性能。BiLSTM的结构如图5所示。X输出门图5BiLSTM结构图Figure5BiLSTM model structure1.3注意力机制2014年,Minh等 16 首次将注意力机制引人循环神经网络模型,并用于图像处理。随后,注意力机制逐渐被应用到NLP任务中。2 0 17 年,谷歌团队首次在文本表达中使用注意力机制 17 。该机制的工作原理是通过函数计算当前输入模块与整个输人信息之间的相似性,从而计算出每个输人模块对于当前输(1)出的重要性,并将其作为权重赋予输入语句,最终得到注意力分布i,用于调整不同输入模块在生成输出时

26、的贡献度,从而提高整个模型的性能。注意力打分机制f(Q,K)的公式如下:QTK,点积模型QTWK,双线性模型f(Q,K)WQK.(4)VTtanh(WQ+UK)加性模型其中,K和Q表示键和查询,VW和U是需要通过网络训练学习得到的参数矩阵。然后,使用softmax函数将其归一化得到概率分(5)布,从而得到每个键的权重。具体公式如下:(6)exp(f(Q,K)a;=sofmax(r(0,k.)Z,exp(f(0,K)最后,将权重和对应的值V进行加权求和,得到最终输出,公式如下:Attention(o,K,V)=Z,V,1.4 CRFCRF是一种判别式概率无向图学习模型,它是在隐马尔可夫模型和最大

27、熵模型的基础上发展而来的。CRF是一种非参数化的统计学习方法,它可以在标注和切分有序数据的条件概率模型中发挥重要作用,其一般定义如下 18 :设输人序列X和输出序列Y为随机变量,给定输入序列X的情况下,CRF可以计算输出序列Y的条件概率分布P(YIX)。假设由随机变量Y构成随机无向图G=(V,E),其中输入层缩放点积模型(7)(8)(9)第1期Y=(Y,IvEV)是以图中节点为索引的随机变量集合。在给定X的条件下,若每个随机变量Y,都满足马尔可夫属性,即对于任意节点v均满足式(10),则条件概率分布P(YIX)被称为条件随机场。P(Y,IX,Yu,w*)=P(Y,IX,Yu,wv)其中,wv表

28、示与顶点v直接相邻的所有顶点w;李盛青,等.基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别-129*Wv表示除顶点v以外的所有顶点;Y,与Y为顶点v与w对应的随机变量。在实际应用中,由于线性链CRF模型训练时间较短且操作便捷,因此其应用最为广泛。图6 展示了(10)两种主要的线性链条件随机场的图结构。X-(X,X2,X2.,)XX2X3XnYY2YYY2YYa:最大团是相邻两个顶点的集合Figure 6 Graphs of conditional random field of linear chainb:最大团是相邻三个顶点的集合图6 线性链的条件随机场图在序列标注任务中,模

29、型的观察序列通常使用X=(X,X2,X)表示,状态序列使用Y=(Yi,Y2,,Y)表示。在给定随机变量X取值为x的情况下,可以计算随机变量Y取值为y的条件概率分布P(ylx),计算公式可参考式(11):1exp(EuAat(yi-1yir,i)+Euus(yia,i)P(ylxZ(x)其中,tk、s,为特征函数,当特征条件被满足时才取值为1,否则为0;ku为对应权重。Z(x)为归一化因子:Z(a)-E,exp(EuAat(yi-yix,i)+Euuis(yix,)(12)为简化上述公式,用一个统一的符号来表示转移特征、状态特征及其权重。式(13)表示为简化后的模型:1P(ylexpEk-W.f

30、i(y,x)Z(x)其中,Z(x)=E,exp(Ek-,wkfi(y,x)通过式(15)计算条件概率:L=log(P(ylx)使用Viterbi算法来求解最大概率标签:j=argmaxP(ylx)实验结果与分析2.1实验数据本研究基于美国临床试验注册中心的相关临床试验注册数据进行研究,这些研究项目由临床研究者们在世界各地进行,其中包括有关人类志愿者医学研究的多方面信息,如疾病、干预措施、研究的标题、试验设计、纳排标准以及进行研究的地点等。数据集共有40 0 0 条临床试验标准,其中纳排标准数据(11)达2 52 94条,训练集与验证集按8:2 比例划分。2.2实验配置本研究的实验环境采用Pyt

31、hon语言以及开源的深度学习框架Pytorch。具体环境设置见表1。本研究使用BioBERT模型,该模型的隐藏层共有12 层,每层有7 6 8 个节点,并且使用12 个注意力头。BioBERT模型使用GELU作为激活函数,BiLSTM的隐藏单元数为12 8。在训练过程中,BioBERT-Att-BiLSTM-CRF的最大序列长度为512,batch_size为19 2。此外,BioBERT学习率设置为5e-5,Dropout为0.1。(13)Table 1Experimental environment configuration(14)项目操作系统(15)CPUGPU(16)Python版本

32、PyTorch框架表1实验环境配置实验环境Windows1oi7-11370H3.3GHzRTX3080(16G)3.7.01.7.1-130-2.3概念定义与标注文本在临床试验纳排标准中,需要对特定意义的医学实体进行标注,如疾病名称“Gout”、治疗方式“Dialysis以及过敏症“Quercetin”等。UMLS已被广泛应用于电子病历、临床研究以及文献分类等领域,旨在解决不同研究对医疗实体的定义和标注规则存在的差异问题。UMLS包含多种来自不同领域的医学词汇和术语,其中所包含的生物医学术语数量超过五百万,涵盖了至少两百万种医学概念。本研究考虑Zhang等 19 提出的医学实体标注规范,并结

33、合UMLS定义的实体类别,通过对临床试验的专业知识和纳排标准的综合分析,最终定义年龄(Age)、疾病(D i s e a s e)、治疗方式(Treatment)、过敏症(Allergy)、性别(Gender)以及妊娠(Pregnancy)共6 种类别的临床实体,表2 列举了具体实体类型及其含义。表2 实体类型及相关含义对照表Table 2 Entity type and the corresponding meaning序号实体类别1年龄表示能被治疗的病因或医生对病人做出的诊断,包2疾病括常见疾病、综合征、中毒/受伤、器官/细胞受损等表示用来预防、治疗及诊断疾病的化学物质,在UMLS3治疗方

34、式中对应临床药物、糖皮质激素、疫苗、抗生素等4过敏症5性别6妊娠命名实体识别的目的是识别出文本中的实体,需要对数据进行标注,本研究使用BIO标注方式进行标注。若标记非实体则标注为“O(Other)”,若为实体的第一个单词则标注为“B(Begin),若为同一实体的其余单词则标注为 I(Internal)。实体类别缩写(如Dis、G e n、Pr e 等)接在“B和 I标签后,用连字符(或下划线)分割,表3是对临床纳排标准文本中预测标签的示例。2.4评价指标为评估模型的性能,本研究采用精确率(Precision,P)、召回率(Recall,R)和F1值(F1-ScoreF1)来评估模型的性能。其中

35、,精确率表示正确识别的实体占识别出的实体总量的比例,召回率表示正确识别的实体占标准结果中实体总量的比例,F1值是精确率和召回率的调和平均值。各指标对应的计算公式如下:中国医学物理学杂志P=TP+FPTPR=TP+FN2PRF1=P+R2TP+FP+FN其中,TP表示正确地预测为正例的实际正例样本数量数量,FP表示错误地预测为正例的实际负例样本实体含义数量,FN则表示错误地预测为负例的实际正例样本受试者的年龄要求数量。2.5对比实验为验证本研究提出的BioBERT-Att-BiLSTM-CRF模型在临床试验纳排标准实体识别任务中的识别效果,设计了以下几种方法进行对比实验:(1)BiLSTM-CR

36、F受试者存在的过敏症模型,输入为word2vec训练得到的词向量,经过受试者的性别要求BiLSTM层后输出每个标记的概率,最后通过CRF层受试者是否怀孕进行实体识别。该模型在中英文生物医学实体识别任务中被广泛应用,取得了良好的效果。(2)A tt-BiL ST M-C R F模型,引人注意力机制以确保模型能关注标记本研究中同一token的多个实例之间的一致性。(3BERT-BiLSTM-CRF模型,使用BERT预训练模型提取句子特征,再将获取的特征与经典BiLSTM-CRF模型相结合。(4)BERT-Att-BiLSTM-CRF模型,在上个模型的基础上引人注意力机制,从而更好地利用上下文信息和

37、全局信息。(5)BioBERT-Att-BiLSTM-CRF模型,采用BioBERT替换上个模型中的BERT,与现有方法相比,该模型被证实对公共医疗数据集的实体识别具有较好的表现。2.6结果分析各模型对比结果见表4。整体实验结果表明BioBERT-Att-BiLSTM-CRF模型在临床试验纳排标准实体识别中表现最佳。相较BiLSTM-CRF,Att-BiLSTM-CRF模型的精确率提高2.59%,召回率提高2.84%,F1值提高2.7 2%,表明该模型可以通过引人注第41卷表3临床纳排标准实体预测标签定义Table 3 Clinical eligibility criteria entityp

38、rediction label definitions序号实体类别开始标签中中间标签1年龄2疾病3治疗方式B-TRE4过敏症B-ALL5性别6妊娠TP2TPB-AGEB-DISB-GENB-PREI-AGEI-DISI-TREI-ALLI-GENI-PRE(17)(18)(19)第1期意力机制来提高整个识别任务的准确率,从而更好地捕捉上下文关系和实体特征。BERT预训练语言模型的优越性在于其能更好地学习上下文信息,从而提高模型的泛化能力。因此,在实体识别任务中引人注意力机制和BERT预训练语言模型可以相互协作,提高模型的性能和准确率,从而更好地处理NLP中的实际问题。比较BERT-Att-Bi

39、LSTM-CRF和BioBERT-Att-BiLSTM-CRF模型的表现,前者的精确率、召回率和F1值分别是7 6.43%、7 6.95%和7 6.6 9%,后者分别为7 7.51%、7 7.30%和7 7.40%。相较BERT,基于BioBERT的实体识别模型效果更出色。因此,在进行多轮训练时,应选择BioBERT模型作为词嵌人层,并引人注意力机制,以提高模型效果。表4各模型整体对比结果(%)Table 4 Comparison among different models(%)模型BiLSTM-CRFAtt-BiLSTM-CRFBERT-BiLSTM-CRFBERT-Att-BiLSTM-

40、CRFBioBERT-Att-BiLSTM-CRF训练完成后,该模型被用于临床试验筛选方案实体识别任务中,以自动并高效地识别其中的实体。该模型对不同实体类型的识别结果如表5所示,整体而言,该模型在临床病历命名实体识别任务中展现了相对均衡的综合性能,总体F1值为7 7.40%。其中年龄和性别实体类型的表现相对较为显著,F1值分别达到8 2.8 2%和8 6.2 9%,疾病和治疗方式实体类型的性能也较为良好,F1值分别达到7 7.18%和77.23%。表5BioBERT-Att-BiLSTM-CRF对不同实体类型的识别结果(%)Table 5 Results of different entity

41、 types identified usingBioBERT-Att-BiLSTM-CRF(%)实体类型精确率年龄83.32疾病80.36治疗方式72.88过敏症71.56性别86.52妊70.42总体77.51李盛青,等.基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别精确率召回率F1值70.6569.5273.2472.3675.3274.1476.4376.9577.5177.30召回率F1值82.3382.8274.2577.1882.1477.2371.6171.5886.0686.2967.4168.8877.3077.40-1313 讨论过去的研究主要集中在临床病例

42、数据集,例如孙安等 2 0 、张柏嘉 2 1、唐国强等 、曹春萍等 2 3 以及万泽宇等 2 4 的工作,均专注于命名实体识别任务,提出了多样化的方法和技术以改善模型性能。他们解决了实体知识边界划分不明确、复合实体知识识别困难以及学习标签的依赖关系等问题,从而改善医学领域复合实体知识识别的效果,为临床病历文本中的复合实体识别提供可借鉴的方法。另一方面,蔡晓琼等 2 5 尝试对COVID-19临床文本进行命名实体识别,但其数据仅限于COVID-19的临床试验注册记录中的摘要文本,且存在实体种类多但数量不均衡的问题。与之前的研究相比,本研究关注临床试验纳排标准。这种聚焦相较于临床病例数据集更精准,

43、相比摘要文本能提供更多的信息。进一步而言,基于纳排标准的命名实体识别,能构建纳排标准知识图70.08谱,为医疗工作者制定纳排标准提供有效可靠的方72.80案。本研究将提升医学实体识别的水平,并通过提74.73高纳排标准的精度,进一步推动临床试验的科学性76.69和准确性。77.404结论本研究提出一种医学实体识别模型,采用基于BioBERT预训练语言模型的词嵌人技术,并融合了BiLSTM和CRF序列标注方法,引入注意力机制,可用于识别临床试验纳排标准中的新兴医学实体。多组实验对比验证了本研究方法的有效性。结果表明该模型的识别性能优于基准模型和主流预训练模型的实体识别方法,同时也能有效地完成相关

44、实体的识别任务。在接下来的工作中,将在纳排标准命名实体识别的基础上进行关系抽取,并设计纳排标准领域的知识图谱,从而为后续的纳排标准辅助决策提供支持。此外,本研究的文本分析主要基于英文,对中文文本的处理仍有待提升,可以借鉴现有的中文文本处理技术。本研究为临床试验纳排标准的自动化处理提供了有力支持,并为未来的相关研究提供了新的发展方向。【参考文献】1 Laine C,Horton R,Angelis C,et al.Clinical trial registration:lookingback and moving aheadJ.N Engl J Med,2007,356(26):2734-273

45、6.2 Shah P,Kendall F,Khozin S,et al.Artificial intelligence and machinelearning in clinical development:a translational perspectiveJ.NPJDigit Med,2019,2(1):69.3王怡,白雪,崔胜男,等。临床医学命名实体识别的病历质量筛选标132准研究 J.中国卫生质量管理,2 0 18,2 5(6):34-36.Wang Y,Bai X,Cui SN,et al.A study on medical record qualityscreening cri

46、teria for clinical medicine named entity identificationJ.China Health Quality Management,2018,25(6):34-36.4 Coletti MH,Bleich HL.Medical subject headings used to search thebiomedical literatureJ.J Am Med Inform Assoc,2001,8(4):317-323.5 Schuemie MJ,Mons B,Weeber M,et al.Evaluation of techniques fori

47、ncreasing recall in a dictionary approach to gene and protein nameidentificationJ.J Biomed Inform,2007,40(3):316-324.6Blaschke C,Valencia A.The frame-based module of the SUISEKIinformation extraction systemJ.IEEE Intell Syst,2002,17(2):14-20.7Corney DP,Buxton BF,Langdon W,et al.BioRAT:extractingbiol

48、ogical information from full-length papersJ.Bioinformatics,2004,20(17):3206-3213.8Fundel K,Kiffner R,Zimmer R.RelEx-relation extraction usingdependency parse treesJ.Bioinformatics,2007,23(3):365-371.9 Weng C,Wu X,Luo Z,et al.EliXR:an approach to eligibility criteriaextraction and representationJ.J A

49、m Med Inform Assoc,2011,18(Suppl 1):i116-i124.1o Boland MR,Tu SW,Carini S,et al.EliXR-TIME:a temporalknowledge representation for clinical research eligibility criteria J.AMIA Jt Summits Transl Sci Proc,2012,2012:71-80.11 Kang T,Zhang S,Tang Y,et al.EliE:an open-source informationextraction system f

50、or clinical trial eligibility criteriaJJ.J Am MedInform Assoc,2017,24(6):1062-1071.12 Yuan C,Ryan PB,Ta C,et al.Criteria2Query:a natural languageinterface to clinical databases for cohort definitionJ.J Am MedInform Assoc,2019,26(4):294-305.13 Tseo Y,Salkola M,Mohamed A,et al.Information extraction o

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服