收藏 分销(赏)

基于神经网络的医疗文本分类研究_许浪.pdf

上传人:自信****多点 文档编号:277522 上传时间:2023-06-26 格式:PDF 页数:7 大小:1.09MB
下载 相关 举报
基于神经网络的医疗文本分类研究_许浪.pdf_第1页
第1页 / 共7页
基于神经网络的医疗文本分类研究_许浪.pdf_第2页
第2页 / 共7页
基于神经网络的医疗文本分类研究_许浪.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 基于神经网络的医疗文本分类研究*许 浪1,2,李代伟1,2,张海清1,2,唐 聃1,2,何 磊1,2,于 曦3(1.成都信息工程大学软件工程学院,四川 成都 6 1 0 2 2 5;2.四川省信息化应用支撑软件工程技术研究中心,四川 成都 6 1 0 2 2 5;3.成都大学斯特灵学院,四川 成都 6 1 0 1 0 6)摘 要:传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于T r a n s f o r m e r双向编码器表示

2、B E R T、卷积神经网络C NN和双向长短期记忆B i L S TM神经网络的医学文本分类模型CMNN。该模型使用B E R T训练词向量,结合C NN和B i L S TM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型T e x-t C NN和T e x t R NN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.6 9%5.9 1%。关键词:自然语言处理;医疗文本分类;B E R T;C NN;B i L S TM中图分类号:T P 3 9 1文献标志码:Ad o i:1 0.3 9

3、6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 9M e d i c a l t e x t c l a s s i f i c a t i o n b a s e d o n n e u r a l n e t w o r kXU L a n g1,2,L I D a i-w e i1,2,Z HANG H a i-q i n g1,2,T ANG D a n1,2,HE L e i1,2,YU X i3(1.S c h o o l o f S o f t w a r e E n g i n e e r i n g,C h e n g d u U

4、n i v e r s i t y o f I n f o r m a t i o n T e c h n o l o g y,C h e n g d u 6 1 0 2 2 5;2.S i c h u a n P r o v i n c e E n g i n e e r i n g T e c h n o l o g y R e s e a r c h C e n t e r o f S u p p o r t S o f t w a r e o f I n f o r m a t i z a t i o n A p p l i c a t i o n,C h e n g d u 6 1

5、0 2 2 5;3.S t i r l i n g C o l l e g e,C h e n g d u U n i v e r s i t y,C h e n g d u 6 1 0 1 0 6,C h i n a)A b s t r a c t:T h e t r a d i t i o n a l m e d i c a l t e x t d a t a c l a s s i f i c a t i o n m e t h o d s i g n o r e t h e c o n t e x t o f t h e t e x t.E a c h w o r d i s i n

6、d e p e n d e n t o f e a c h o t h e r a n d c a n n o t r e p r e s e n t s e m a n t i c i n f o r m a t i o n.T h e t e x t d e s c r i p t i o n a n d c l a s s i f i c a t i o n e f f e c t a r e p o o r,a n d f e a t u r e e n g i n e e r i n g r e q u i r e s m a n u a l i n t e r v e n t i

7、o n,s o t h e g e n e r a l i-z a t i o n a b i l i t y i s n o t s t r o n g.A i m i n g a t t h e p r o b l e m s o f l o w e f f i c i e n c y a n d l o w a c c u r a c y o f m e d i c a l t e x t d a t a c l a s s i f i c a t i o n,t h i s p a p e r p r o p o s e s a m e d i c a l t e x t c l a

8、s s i f i c a t i o n m o d e l CMNN b a s e d o n b i d i r e c t i o n a l e n c o d e r r e p r e s e n t a t i o n s f r o m T r a n s f o r m e r(B E R T),c o n v o l u t i o n a l n e u r a l n e t w o r k(C NN)a n d B i-d i r e c t i o n a l l o n g a n d s h o r t-t e r m m e m o r y(B i L S

9、 TM)n e u r a l n e t w o r k.T h e m o d e l u s e s B E R T t o t r a i n w o r d v e c t o r s a n d c o m b i n e s C NN a n d B i L S TM t o c a p t u r e l o c a l l a t e n t f e a t u r e s a n d c o n t e x t u a l i n f o r m a-t i o n.F i n a l l y,t h e p r o p o s e d m o d e l i s c o

10、m p a r e d w i t h t h e t r a d i t i o n a l d e e p l e a r n i n g m o d e l s T e x t C NN a n d T e x t R NN i n t e r m s o f a c c u r a c y,p r e c i s i o n,r e c a l l a n d F1 s c o r e.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e CMNN m o d e l o u t p e r f o r m

11、s o t h e r m o d e l s o n a l l e v a l u a t i o n m e t r i c s,a n d t h e a c c u r a c y i s i m p r o v e d b y 1.6 9%5.9 1%.K e y w o r d s:n a t u r a l l a n g u a g e p r o c e s s i n g;m e d i c a l t e x t c l a s s i f i c a t i o n;B E R T;C NN;B i L S TM*收稿日期:2 0 2 2-0 9-2 7;修回日期:2

12、 0 2 2-1 1-1 5基金 项 目:欧 盟 项 目(5 9 8 6 4 9-E P P-1-2 0 1 8-1-F R-E P P KA 2-C B HE-J P);国 家 自 然 科 学 基 金(6 1 6 0 2 6 0 4);四 川 省 科 技 厅 项 目(2 0 2 1 Y F H 0 1 0 7,2 0 2 2 Y F S 0 5 4 4,2 0 2 2 N S F S C 0 5 7 1)通信作者:于曦(y u x i c d u.e d u.c n)通信地址:6 1 0 2 2 5 四川省成都市成都信息工程大学软件工程学院A d d r e s s:S c h o o l

13、o f S o f t w a r e E n g i n e e r i n g,C h e n g d u U n i v e r s i t y o f I n f o r m a t i o n T e c h n o l o g y,C h e n g d u 6 1 0 2 2 5,S i c h u a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o

14、 l.4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 1 1 6-0 71 引言随着信息化时代的快速发展,在线医疗咨询平台越来越受到人们的欢迎。患者可以在线描述自己的健康状况,方便、及时地咨询医生,从而获取用药和治疗方案等信息。这种通过网络进行诊疗的方式,可以很大程度上解决线下医疗面临的地理不便、服务 能 力 分 布 不 均、医 患 信 息 不 对 称 等 问题1,2,提高了有限优质医院资源的利用效率。更重要的是,近年来,人工智能作为新一轮技术革命和产业变革的重要动力,极大地推动了智能医疗的发展3。I s o b e等4开发

15、了辅助康复治疗的医疗A I系统。D i n g等5基于深度学习算法,利用大脑的1 8 F-F D G P E T对阿尔茨海默病进行早期预测。其中,根据患者病症自动正确地推荐科室是网络问诊的重要组成部分。因此,基于自然语言处理和深度学习技术的智能医疗指导受到越来越多的关注,而医学文本分类是其中不可或缺的一部分。本文提出了一种混合文本分类模型,该模型通过预训练模型B E R T(B i-d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s-f o r m e r)对 文 本 向 量 进

16、 行 编 码,然 后 利 用C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)提取局部特征,接 着 根 据 使 用B i L S TM(B i-d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y)网络的高内存容量捕捉到的长期依赖关系将提取的特征正确连接起来,从而保证了文本分类的准确性。实验结果表明,本文提出的模型比其他基线模型具有更好的性能。本文的重点如下:(1)为进一步提高文本分类效果,提出了一种结合预训练模型、C NN和B i L S TM的医学领域文本分类方

17、法,可有效提高文本分类准确率。(2)为了提高词向量表示的能力,本文在文本向量化过程中使用B E R T模型训练词向量。新模型还利用了C NN和B i L S TM的独特优势。C NN从空间角度提取文本的局部特征,B i L S TM得到句子的序列特征。(3)与其他先进的优化模型进行了深入的比较,从准确率、精确率、召回率和F1值方面进行评估。本文其余部分的组织如下:第2节介绍词嵌入技术和文本分类在医疗领域的相关研究;第3节详细介绍了本文提出的模型的结构;第4节进行实验来评价和比较所提模型与其他几种分类模型;最后,研究结论在第5节中给出,并总结了本文以及未来的工作。2 相关工作文本分类是自然语言处

18、理N L P(N a t u r a l L a n-g u a g e P r o c e s s i n g)的关键任务之一,其目的是根据文本的特点,将文本划分到一个或多个预定义的类别中。它在情感分析6、垃圾邮件检测7和主题分类8等领域有着广泛的应用,是帮助人们搜索、过滤和利用信息的有效手段。2.1 词嵌入文本分类最基本但最关键的部分是将文本转换为计算机可以理解的数字向量,以便计算机进行后续的计算和处理,这个过程称之为文本表示。词嵌入是一种常用的文本表示方法,它将文本中的文字嵌入 到 空 间 中,并 以 矢 量 的 形 式 表 达 出 来。O n e-h o t、B a g-O f-W o

19、 r d s模 型 和T F-I D F(T e r m F r e q u e n c y-I n v e r s e D o c u m e n t F r e q u e n c y)等是 常用的文本表示方法。然而,上述表示方法忽略了文本的上下文关系,每个词都是独立的,无法表示语义信息。并且,这些表示会导致特征矩阵的稀疏甚至维数灾难问题。因此,构建低维分布式密集词向量是后续研究的重点。w o r d 2 v e c9是一种考虑了上下文语义信息同时避免了维数问题的神经网络语言模型,其效果明显优于以往模型的。此外,F a s t T e x t1 0是F a c e b o o k在2 0

20、1 6年开源的词向量计算和文本分类工具。在处理分类任务时,F a s t-T e x t通常可以达到与深度网络相当的准确性,但在训练时间上比深度神经网络的更短。但是,由于词和向量是一一对应的,w o r d 2 v e c和F a s t T e x t都是静态模型,无法对特定任务进行动态调整和优化,因此无法解决一词多义的问题。B E R T是一个在大规模语料库上训练的预训练语言模型,基于多层T r a n s f o r m e r编码器的结构,利用注意力机制对词与词之间的相对位置进行编码,在考虑语境信息的基础上,很好地解决了一词多义的问题。B E R T更注重词的前训练过程,因此下游自然语

21、言处理任务只需要根据具体任务对模型进行微调操作。2.2 医疗文本分类模型最早应用于医疗领域的文本分类方法包括基于规则的方法和基于机器学习的方法。基于规则的方法需要人工参与来确定规则。Y a o等1 1提出了一种结合基于规则的特征和知识引导的有效疾7111许 浪等:基于神经网络的医疗文本分类研究病分类新方法。虽然手工制定的规则会更准确,但当规则发生变化或更新时,需要手工重新总结和制定,因此维护成本过高,扩展能力较差。在基于机器学习的方法中,规则可以通过数据驱动的方法建立。使用预先标记的样本作为训练数据,可以学习文本片段和它们的标签之间的内在关系。柏挺等1 2采用卡方进行特征词选取,对不同数量的特

22、征词和不同数量的类采用贝叶斯网络和朴素贝叶斯分类方法,提高了机器学习方法在远程医疗文本分类任务中的性能。近年来,深度学习因其优异的性能越来越多地被用于文本分类1 3,同时也成功地应用于医疗文本的自动处理。2种具有代表性的深度模型是卷积神经网络C NN和循环神经网络R NN(R e c u r-r e n t N e u r a l N e t w o r k),它们在许多临床数据挖掘任务中都取得了很好的性能。B e a u l i e u-J o n e s等1 4开发了一种神经网络方法来构建表型以对患者的疾病状态进行分类。该模型的性能优于支持向量机、随机森林和决策树模型的,成功地学习了表型分

23、层的高维电子健康档案数据结构。G e h r m a n n等1 5使用临床文本分析和知识抽取系统以及基于n-g r a m特征的逻辑回归,对卷积神经网络与传统的基于规则的实体提取系统进行了比较。他们利用出院总结记录,对1 0个不同的表型任务进行了性能测试。实验结果显示,C NN在所有1 0个任务的预测上均优于其他方法,因此文献1 5 得出结论,基于自然语言处理的深度学习方法提高了表型任务的性能。L u o等1 6,1 7应用C NN和R NN对i 2 b 2-VA挑战数据集中医学概念间的语义关系进行了分类,结果表明,仅带有词嵌入特征的C NN和R NN可以通过特征工程挑战参与者获得与先进系统

24、相似的性能。Z h a o等1 8使用基于预训练词向量的T e x t C NN提取短文本的大致信息,然后采用基于标签的文本特征表示模型提取中医领域词汇的特殊意义。将2种模型的输出融合到线性网络中对中医症状文本进行分类,解决了专业领域短文本分类训练数据不足的问题。I b r a h i m等1 9提出了一种用于多标签生物医疗文本分类的混合神经网络模型,利用C N N提取大多数判别特征,并利用双层L S TM准确获取生物医学文本的局部特征,有效提升了对医疗文本的分类效果。3 CMN N模型本文设 计 了 一 个 基 于B E R T、C NN和B i L-S TM的医疗短文本分 类模型CMNN(

25、C o n v o l u-t i o n a l M e m o r y N e u r a l N e t w o r k),模型结构如图1所示。该模型主要包括B E R T层、一维卷积层、双向L S TM层、特征合并层和S o f t m a x层。首先,在词嵌入层,为提高词向量表示能力,采用B E R T代替w o r d 2 v e c训练词向量表示,输出对应的语义丰富、维数低的词向量。C NN具有较强的提取局部特征的能力,并允许并行计算,具有较高的训练速度。但是,由于C NN缺乏获取上下文信息的能力,简单的循环神经网络存在梯度爆炸和梯度消失的问题,于是本文采用B i L S TM提

26、取上下文信息,以获得更准确的语义信息。然后,将基于C NN和B i L S TM学习得到的特征相结合,形成一个综合特征输入到全连接层。最后,通过S o f t m a x分类器输出分类结果。F i g u r e 1 S t r u c t u r e o f CMNN m o d e l图1 CMNN模型结构图3.1 B E R T在B E R T中,嵌入层有3种形式,分别是标记(T o k e n)嵌入、分段(S e g m e n t)嵌入和位置(P o s i-t i o n)嵌入。输入文本首先被标记化,在短语的开头(C L S)和 结 尾(S E P)添 加 额 外 的 标 记,C

27、L S 表示分类,可以理解为下游分类任务。在面对问答、句子匹配等任务场景时,输入的2个句子T e x t A和T e x t B被S E P 符号分割。文本分类任务只有一个句子输入,所以没有T e x t B。分段嵌入用于区分2个只有2种向量的相似文本。前一个向量给第1句中的每个标记赋值为0,后一个向量给第2句中的每个标记赋值为1。如果输入文本只有1个句子,则其分段嵌入为0。最后一层是位置嵌入,用来描述每个词在句子中的位置,从而8111C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)挖掘输入序

28、列的序列信息。将上述嵌入表示进行线性求和,以生成复合嵌入表示。3.2 C N N以词嵌入层输出的矩阵E作为C NN的输入,进行卷积运算。在卷积层中,许多具有不同窗口大小(这里只有高度h不同)的滤波器W会在E的整行上滑动,也就是说,滤波器的宽度通常与E的宽度相同。每个滤波器对E进行卷积,生成不同的特征映射Ci,如式(1)所示:Ci=f(WEi:i+h-1)+b(1)其中,b是用于调整输出及神经元输入加权和的偏置项,f()是非线性激活函数R e L U,使用R e L U是因为它能减少深度网络收敛所需的迭代次数。然后,对于位于同一特征映射中的元素,应用一个最大池化操作来提取最重要特征。3.3 B

29、i L S TMR NN将过去的输出和当前的输入连接在一起,然后通过激活函数t a n h控制两者的输出,以此考虑序列状态。R NN在时刻t的导数会传播到时刻t-1,t-2,1,这样就有一个乘法系数。连续乘法会产生2个问题:梯度爆炸和梯度消失2 0。因此,在正向过程中,起始序列对后续序列的影响越来越小,这就是长距离依赖的问题。L S TM2 1通过引入多个门来解决上述问题,可以有效地从输入文本捕获上下文信息。L S TM门结构选择性地记忆输入,重要的信息被记忆,次要的信息被遗忘。它决定在当前状态下保存哪些新信息。前一个状态输出ht-1和当前输入信息xt作为s i g m o i d函数的输入,

30、生成一个01的值,以确定需要保留多少新信息。通过遗忘门和输入门,得到下一时刻的完整状态ct,用于生成下一时刻的隐藏层输出ht,即当前单元的输出。输出门决定从单元状态输出什么信息。与输入门类似,有一个s i g m o i d函数生成ot,以确定需要输出多少单元格状态信息。当细胞状态信息乘以ot时,首先通过t a n h层激活 它,并获得 这个L S TM结构的输出信息ht。在使用L S TM获取语义信息时,不仅需要考虑词前的信息内容,还需要考虑词后的信息内容,B i L S TM2 2通过从句子的2个方向获取信息并融合,可以更好地满足这一需求。因此,它可以更好地捕获双向语义依赖。假设在时刻t,

31、前向L S TM输出隐藏层状态ht,后向L S TM输出隐藏层状态ht,则输出ht=ht,ht。4 实验及结果分析本节使用公开数据集来验证所提模型的性能。同时,还与其他几种基线模型进行比较。接下来,将依次描述实验数据集、基线模型、实验设置以及实验结果。4.1 数据集为评估CMNN模型的有效性,本文使用了3个医疗文本数据集进行实验。接下来,对数据集进行简要描述。(1)MD D数据集。该数据集来自G i t H u b的公共数据集“C h i n e s e M e d i c a l D i a l o g u e D a t a”(h t-t p s:/g i t h u b.c o m/T

32、o y h o m/C h i n e s e-m e d i c a l-d i a-l o g u e-d a t a),其中包含了7 9万多条在线问诊平台的医患问答记录,包括6大科室:男科(9万条)、内科(2 2万条)、妇产科(1 8万条)、肿瘤科(7万条)、儿科(1 0万条)和外科(1 1万条)。(2)MHQ(M e d i c a l H e a l t h Q u e s t i o n)数据集。该数据集由中华医学会提供的医疗健康问句组成,有5 0 0 0条数据,被分为诊断、治疗、解剖学/生理学、流行病学、健康生活方式、择医和其他7个大类。(3)KUAK E-Q I C(KUAK

33、E-Q u e r y I n t e n t i o n C l a s s i f i c a t i o n)数据集。该数据集是中国健康信息处理会议公开的医疗搜索检索词意图分类数据组成,有6 9 0 0余条样本。在本次测评中,医学问题被分为病情诊断、病因分析、治疗方案、就医建议、指标解读、疾病描述、后果表述、注意事项、功效作用、医疗费用和其他共1 1种类型。以上3个数据集均按照622的比例划分为训练集、测试集和验证集。4.2 实验设置所有实验均在AMD R y z e n 5 4 6 0 0 H C P U,1 6.0 G B R AM和NV I D I A G E F O R C E

34、R T X 1 6 5 0显卡的计算机上进行,W i n d o w s 1 0操作系统,使用P y t h o n 3.7、P y T o r c h 1.9.1+C UD A 1 1.1作为深度学习框架进行编程。采用B E R T-B a s e-C h i n e s e预训练中文特征向量。模型配置为1 2层双向T r a n s f o r m e r编码器,隐藏单元7 6 8个,多头注意力机制1 2个,参数1.1亿个。对于CMNN模型中混合神经网络层的超参数,为提取各种特征,在C NN层分别使用窗口大9111许 浪等:基于神经网络的医疗文本分类研究小为2,3和4的卷积核滤波器,各类型

35、的数量均为2 5 6。B i L S TM中隐藏层的大小为1 2 8。全连接层采用非线性激活函数R e L U,为避免过拟合,设置D r o p o u t为0.5,权重参数进行L2正则化处理。此外,选择A d a m作为梯度下降优化算法,交叉熵作为损失函数,在训练过程中设置初始学习率为0.0 0 1,迭代次数为2 0,批处理大小为1 2 8。4.3 评价指标分类模型的评价指标主要包括准确率A c c u-r a c y、精确率P r e c i s i o n、召回率R e c a l l和F1值,它们的定义如式(2)式(5)所示:准确率:正确分类的样本占总样本的比例。A c c u r a

36、 c y=T P+TNT P+TN+F P+FN(2)精确率:指在所有被预测为正样本中实际为正样本的比例。P r e c i s i o n=T PT P+F P(3)召回率:指在实际为正的样本中被预测为正样本的比例。R e c a l l=T PT P+FN(4)F1值:是精确率和召回率的加权调和平均值。F1=2*P r e c i s i o n*R e c a l lP r e c i s i o n+R e c a l l(5)其中,T P、F P、TN和FN分别表示真阳性、假阳性、真阴性和假阴性样本的数量。4.4 基线模型(1)T e x t C NN2 3:一种基于C NN的文本分

37、类模型。它具有简单的结构和快速的训练速度,利用多个不同大小的卷积核从句子中提取关键信息,可以捕获句子的局部相关性。(2)T e x t R NN2 4:一种基于R NN的多任务学习文本序列模型,它可以处理可变长度的文本序列,并从句子中学习长距离的依赖关系。由于不同的词向量会直接影响分类结果,本文分别使用w o r d 2 v e c和B E R T训练不同的词向量对上述基线模型进行实验,形成w o r d 2 v e c_T e x t C-NN、w o r d 2 v e c_T e x t R NN、B E R T_T e x t C NN、B E R T_T e x t R NN共4组

38、对 比 实 验。其 中,w o r d 2 v e c的词向量维数设置为3 0 0,B E R T的则设置为7 6 8。4.5 实验结果为验证CMNN模型的有效性,本文进行了大量实验,实验结果如表1表3所示。其中,黑体表示最优值,下划线表示次优值。T a b l e 1 C l a s s i f i c a t i o n r e s u l t s o n MD D d a t a s e t表1 MD D数据集上的分类结果%模型P r e c i s i o nR e c a l lF1A c c u r a c yw o r d 2 v e c_T e x t C NN8 0.7 07

39、 7.2 27 8.5 87 9.7 9w o r d 2 v e c_T e x t R NN8 1.6 47 9.2 98 0.1 18 1.3 0B E R T_T e x t C NN8 1.4 77 8.6 37 9.7 48 0.8 5B E R T_T e x t R NN8 2.0 48 0.5 38 1.1 78 2.1 4CMNN8 4.4 58 2.4 18 3.2 68 3.9 4T a b l e 2 C l a s s i f i c a t i o n r e s u l t s o n MH Q d a t a s e t表2 MH Q数据集上的分类结果%模型P

40、 r e c i s i o nR e c a l lF1A c c u r a c yw o r d 2 v e c_T e x t C NN6 9.9 46 7.2 46 8.3 27 1.7 3w o r d 2 v e c_T e x t R NN7 0.2 06 5.5 46 7.1 27 1.0 3B E R T_T e x t C NN7 3.2 77 4.0 57 3.4 47 4.4 9B E R T_T e x t R NN7 1.0 06 8.3 56 9.3 37 2.5 6CMNN7 6.5 07 2.9 77 4.5 87 6.1 8T a b l e 3 C l

41、a s s i f i c a t i o n r e s u l t s o n K U A K E-Q I C d a t a s e t表3 K U A K E-Q I C数据集上的分类结果%模型P r e c i s i o nR e c a l lF1A c c u r a c yw o r d 2 v e c_T e x t C NN7 7.7 67 3.4 27 4.2 97 3.3 8w o r d 2 v e c_T e x t R NN7 3.4 77 0.8 37 2.0 77 1.2 4B E R T_T e x t C NN7 6.8 57 5.4 17 5.9 07

42、 5.4 1B E R T_T e x t R NN7 5.3 26 9.5 67 1.0 17 4.9 6CMNN7 8.6 07 1.6 97 4.0 77 7.1 5 (1)根据表1表3所示的结果,用B E R T作为词嵌入层比用w o r d 2 v e c的准确率有显著提高。如表3所示,B E R T_T e x t R NN比w o r d 2 v e c_T e x-t R NN的 准 确 率 提 高 了3.7 2%。这 是 因 为w o r d 2 v e c模型只能输出单个词向量,且不生成句子向量;然而,B E R T可以将词语的位置信息集成到词嵌入中,并使用深度双向T r

43、a n s f o r m e r训练词向量。可见,与w o r d s 2 v e c相比,B E R T可以更好地挖掘词的上下文、语义和语法特征,具有更强的语义表示能力和泛化能力。因此,将B E R T集成到模型中可以显著提高分类性能。(2)与单一B i L S TM模型和C NN模型的变体相比,混合神经网络模型的性能更好。表2中,CMNN模 型 与B E R T_T e x t C NN和B E R T_ T e x t R NN相 比 准 确 率 分 别 提 高 了1.6 9%和3.6 2%。这是因为混合神经网络集成了C NN和B i L S TM网络各自的优势,结合了病症信息局部和上

44、下文信息特征。此外,从表1可得出T e x t R NN0211C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)优于T e x t C NN。但在表2和表3中,T e x t R NN表现却 不 如T e x t C NN,原 因 是MHQ数 据 集 和KUAK E-Q I C数 据 集 中 样 本 的 序 列 长 度 小 于MD D数据集的。这表明当文本序列较短时,R NN无法发挥其远程特征提取的优势,而C NN可以通过卷积运算快速收敛并提取局部关键特征,这使得C NN比序列网络更适合于短文

45、本分类。(3)所有模型的分类结果在MD D数据集上都明显优 于 在 另 外2个 数 据 集 上 的。分 析 显 示,MD D数据集有数十万样本,可见,用更多数据的训练集进行训练能够得到更好的模型性能。总体而言,根据各项评价指标的值,可以观察到CMNN在医学文本分类任务中表现最好,在3个数 据 集 上 分 类 准 确 率 分 别 提 升 了1.8%4.1 5%,1.6 9%5.1 5%和1.7 4%5.9 1%。原因是B E R T能够有效地提取和学习词语的上下文信息,C NN网络具有很强的局部学习能力,不同大小的过滤器可以从汉字中提取更多的信息,然后B i L S TM网络通过在句子层面提取特

46、征表示来更好地 刻 画 语 义 信 息。这 样,模 型 同 时 利 用 了B E R T、C NN和B i L S TM的优点,相较于其他模型,在各类评价指标上均有明显的提升。5 结束语由于患者在网络问诊时不知道该选择哪个科室,以及在线医疗咨询平台的发展趋势,根据患者描述的症状,自动地推荐科室成为了一项极其重要且有意义的任务。本文提出了一种基于B E R T、C NN和B i L S TM的医学文本分类模型CMNN。因此,CMNN模型能够得益于B E R T训练动态词向量增强文本表示能力、C NN模型提取的局部特征和B i L S TM高存储能力获取的长期依赖关系在最后的实验中获得了更高的分类

47、准确率,证明了CMNN模型 对 文 本 分 类 任 务 的 有 效 性。但 是,CMNN模型相比其他模型在训练中消耗了更多的内存和时间。在未来的工作中,将继续探索如何简化所提出的模型,同时达到相同甚至更好的分类效果。参考文献:1 L i Y F,S o n g Y Y,Z h a o W,e t a l.E x p l o r i n g t h e r o l e o f o n l i n e h e a l t h c o mm u n i t y i n f o r m a t i o n i n p a t i e n t s d e c i s i o n s t o s w i

48、t c h f r o m o n l i n e t o o f f l i n e m e d i c a l s e r v i c e sJ.I n t e r n a t i o n a l J o u r-n a l o f M e d i c a l I n f o r m a t i c s,2 0 1 9,1 3 0:1 0 3 9 5 1.1-1 0 3 9 5 1.8.2 Y a n g Y F,Z h a n g X F,L e e P K C.I m p r o v i n g t h e e f f e c t i v e n e s s o f o n l i n

49、 e h e a l t h c a r e p l a t f o r m s:A n e m p i r i c a l s t u d y w i t h m u l t i-p e r i o d p a t i e n t-d o c t o r c o n s u l t a t i o n d a t aJ.I n t e r n a t i o n-a l J o u r n a l o f P r o d u c t i o n E c o n o m i c s,2 0 1 9,2 0 7:7 0-8 0.3 M a Y W,C h e n J L,S h i h W K.

50、T h e s u r v e y f o r n e x t g e n e r a t i o n m o b i l e n e t w o r k s f r a m e w o r k a p p l i e d t o i n t e l l i g e n t i n t e r n e t o f m e d i c a lC P r o c o f 2 0 2 1 I E E E I n t e r n a t i o n a l C o n f e r e n c e o n S m a r t I n t e r n e t o f T h i n g s,2 0 2 1

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服