1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 1 2 1-1 1基于批数据过采样的中医临床记录四诊描述抽取方法王亚强1,2,3,李凯伦1,2,3,舒红平1,3,蒋永光4(1.成都信息工程大学 软件工程学院,四川 成都6 1 0 2 2 5;2.成都信息工程大学 数据科学与工程研究所,四川 成都6 1 0 2 2 5;3.成都信息工程大学 软件自动
2、生成与智能服务四川省重点实验室,四川 成都6 1 0 2 2 5;4.成都中医药大学 基础医学院,四川 成都6 1 0 5 0 0)摘 要:中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练。实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果
3、相比,该文方法将少见类别的抽取性能F1值平均提升了2.1 3%。关键词:中医临床记录;四诊描述抽取;类别分布不均衡;批数据过采样中图分类号:T P 3 9 1 文献标识码:AF o u rD i a g n o s t i cD e s c r i p t i o nE x t r a c t i o n i nC l i n i c a lR e c o r d so fT r a d i t i o n a lC h i n e s eM e d i c i n ew i t hB a t c hD a t aO v e r s a m p l i n gWAN GY a q i a n
4、g1,2,3,L IK a i l u n1,2,3,S HU H o n g p i n g1,3,J I AN GY o n g g u a n g4(1.C o l l e g eo fS o f t w a r eE n g i n e e r i n g,C h e n g d uU n i v e r s i t yo f I n f o r m a t i o nT e c h n o l o g y,C h e n g d u,S i c h u a n6 1 0 2 2 5,C h i n a;2.I n s t i t u t e f o rD a t aS c i e n
5、 c ea n dE n g i n e e r i n g,C h e n g d uU n i v e r s i t yo fI n f o r m a t i o nT e c h n o l o g y,C h e n g d u,S i c h u a n6 1 0 2 2 5,C h i n a;3.S i c h u a nK e yL a b o r a t o r yo fS o f t w a r eA u t o m a t i cG e n e r a t i o na n dI n t e l l i g e n tS e r v i c e,C h e n g d
6、 uU n i v e r s i t yo f I n f o r m a t i o nT e c h n o l o g y,C h e n g d u,S i c h u a n6 1 0 2 2 5,C h i n a;4.D e p a r t m e n to fP r e c l i n i c a lM e d i c i n e,C h e n g d uU n i v e r s i t yo fT r a d i t i o n a lC h i n e s eM e d i c i n e,C h e n g d u,S i c h u a n6 1 0 5 0 0,
7、C h i n a)A b s t r a c t:F o u rd i a g n o s t i cd e s c r i p t i o ne x t r a c t i o n i nc l i n i c a l r e c o r d sh a s c l i n i c a l a p p l i c a t i o n i n i m p r o v i n g t h ep r a c t i c e o ft r a d i t i o n a lC h i n e s em e d i c i n e.A s t h e f i r s t e x p l o r a t
8、 i o no f t h i s e x t r a c t i o n t a s k,w e f i r s t l yc o n s t r u c t a c l i n i c a l f o u r d i a g-n o s t i cd e s c r i p t i o ne x t r a c t i o nc o r p u sa n dt h e nf i n e-t u n eag e n e r a ld o m a i np r e-t r a i n e dl a n g u a g em o d e lb a s e do nu n l a-b e l e
9、dc l i n i c a lr e c o r d so ft r a d i t i o n a lC h i n e s em e d i c i n e.W et r a i nt h ep r o p o s e df o u rd i a g n o s t i cd e s c r i p t i o ne x t r a c t i o nm o d e l b yu t i l i z i n gas m a l l l a b e l e dd a t a s e t t h r o u g haw e l l-d e s i g n e db a t c hd a t
10、ao v e r s a m p l i n ga l g o r i t h m.T h ee x p e r i-m e n t a l r e s u l t ss h o wt h a t t h ep e r f o r m a n c eo f t h ep r o p o s e dm e t h o di nt h i sp a p e r i sb e t t e r t h a nt h a to f t h ec o m p a r e dm e t h o d s,w i t ha na v e r a g e i m p r o v e m e n to f t h
11、er a r ec l a s s e sb y2.1 3%F1s c o r e.K e y w o r d s:c l i n i c a l r e c o r d so ft r a d i t i o n a lC h i n e s em e d i c i n e;f o u rd i a g n o s t i cd e s c r i p t i o ne x t r a c t i o n;i m b a l a n c e dc l a s sd i s t r i b u t i o n;b a t c hd a t ao v e r s a m p l i n g收稿
12、日期:2 0 2 3-0 2-1 9 定稿日期:2 0 2 3-0 7-0 4基金项目:成都信息工程大学科技创新能力提升计划青年创新(领军)项目(KYQN 2 0 2 2 0 9)中 文 信 息 学 报2 0 2 4年0 引言辨证论治(又称辨证施治)是中医特有的一种对疾病研究、处理、认知和治疗的基本原则与方法1。辨证是论治的前提和依据,而四诊(即望、闻、问、切)信息是中医专家综合分析病人的病情,认知其疾病,最终辨清病人的证型的重要参考2。快速、准确地获取中医临床记录中的四诊信息,对提升中医专家辨证和诊疗的效率与质量,以及为中医临床辅助辨证提供更丰富的医学语义信息具有重要的价值3。在中医临床记录
13、的四诊信息中,局部、具体的疾病、症状、脉象、舌质等实体信息的抽取已开展了广泛的研究。W a n g等人4基于条件随机场等统计序列标注模型,首次尝试从中医临床记录中抽取症状信息。肖瑞等人5围绕中医临床记录中的疾病和症状信息抽取,采用深度学习模型展开研究。然而,面向全局的、叙述性的中医临床记录四诊描述信息抽取研究尚未见相关报道。中医临床记录中的四诊描述不仅包含局部的、具体的实体修饰信息(如实体的“有”或“无”、时间的“长”或“短”、情况的“重”或“轻”等修饰信息),还蕴含着实体之间的关联信息(如实体之间的因果关系、并列关系等关联信息)(图1)。因此,中医临床记录四诊描述抽取的结果将成为对实体信息抽
14、取研究的补充,为下游任务提供更丰富的医学语义信息。图1 中医临床记录中的四诊描述包含的修饰和关联语义信息与中医临床记录中的实体信息抽取任务不同,中医临床记录四诊描述抽取任务具有其特殊性。首先,与实体的字面值相比,四诊描述的文本长度通常较长,从而带来更强的稀疏性。在本文的实验数据集中,每段四诊描述平均包含1 2个字。此外,如图2所示,通过对不同长度的四诊描述累积计数发现,四诊描述呈现长尾分布。其次,由于中医专家的临床实践习惯不同,使得四诊描述天然存在类别分布不均衡的问题。一般地,望诊、问诊、切诊被中医专家更广泛地在临床实践中使用,而闻诊的使用相对较少。基于本文的实验数据统计发现(图3),中医临床
15、记录中包含望诊和切诊描述的实例数量少于包含问诊描述的实例数图2 中医临床四诊描述按长度累积计数结果量,而包含闻诊描述的实例数量相较于其他三诊描述格外稀少。图3 中医临床四诊描述分类按长度累积计数结果因此,本文首次开展了中医临床记录四诊描述抽取的研究。针对中医临床记录中四诊描述的特点,在最新的模型框架基础上,设计并验证了相应的改进策略和算法,取得以下三方面的主要成果:(1)本文将中医临床记录四诊描述抽取定义为基于字的序列标注任务,采用广泛使用的“B I O”标注模式6,提出基于B E R T+B i L S TM+C R F7的中医临床记录四诊描述序列标注模型。在该模型中,利用B E R T的动
16、态上下文语义嵌入学习能力和多头注意力机制8,实现对中医临床记录中四诊描述的文本语义信息增强,进而在数据稀疏的条件下,保证四诊信息抽取的性能。(2)采用在无标注的中医临床记录数据上微调通用领域B E R T的方法9,验证B E R T在进行领域适应后对中医临床记录四诊描述序列标注性能的影响。实验结果发现,本方法有助于提升中医临床记录四诊描述的整体标注性能。通过观察标注结果,221本文将中医临床记录中的标点符号也均视为字2期王亚强等:基于批数据过采样的中医临床记录四诊描述抽取方法该方法对“I-望”、“I-闻”、“I-问”、“I-切”等标签的标注有更积极的促进作用。(3)提出基于批数据过采样的模型训
17、练算法,提升模型对少见的四诊描述类别的标注性能。该算法在基于小批量梯度下降算法(M i n i-B a t c hG r a d i e n tD e s c e n t,M B G D)1 0的中医临床记录四诊描述序列标注模型训练框架上,通过过采样包含少见类别的数据实例,实现在每轮随机划分的批数据中,策略性地增加对少见类别数据的学习。该方法不仅使序列标注模型对常见的四诊描述类别的标注性能提升,还大幅提升了模型对少见类别的标注性能。实验结果表明,本文提出的基于批数据过采样的中医临床记 录四诊描 述抽取 方 法 的 效 果 优 于HMM1 1、C R F1 2、B i L S TM和B i L
18、S TM+C R F1 3等对比模型。与对比模型在本文任务上的最佳性能相比,本文提出方法的标注性能F1值平均提升了1.3 7%。特别地,本文提出方法大幅提升了少见类别的标注性能F1值,“B-闻”和“I-闻”标签的F1值分别达到了6 2.2 2%和6 1.5 4%,相比最佳的对比方法平均有2.1 3%的提升。1 相关工作1.1 中医临床记录信息抽取 中医临床记录信息抽取是近年来中医信息化领域广泛研究的课题。Z h a n g等人1 4综述了从2 0 1 0年至今,中医文本信息抽取的相关工作,中医临床记录信息抽取是其中的重要任务之一。中医临床记录信息抽取主要针对疾病、症状、方剂、药物等局部的、具体
19、的实体信息抽取研究任务展开,而针对包含丰富语言学和临床语义信息的中医临床记录四诊描述抽取的研究甚少。因此,本文开展了该项任务的探索研究。与一般领域的信息抽取任务相同,中医临床记录信息抽取通常采用序列标注方法实现1 5。该类方法将信息抽取任务转换为序列标注任务,通过对中医临床记录中的基本语义单元进行分类,实现对连续的基本语义单元构成的目标类别信息的抽取。其中,基本语义单元一般为中文字,分类标签通常会根据待抽取的目标信息,定义B I O标签集合,B表示语义单元在待抽取的目标信息的开始位置,I表示语义单元在待抽取的目标信息的中间和结束位置,O表示语义单元不是待抽取的目标信息6。作为初步探索工作,本文
20、沿用了该语义单元和分类标签的定义方法。1.2 序列标注模型HMM、C R F是被广泛使用的统计序列标注模型,在训练数据规模不大的情况下,因模型复杂度相对较低,它们通常能够取得与深度序列标注模型相当的性能1 6。作为中医临床记录四诊描述抽取任务的初探,本文在自建数据集上验证了HMM和C R F的性能,并将它们作为基线模型与被广泛应用的深度序列标注模型B i L S TM+C R F进行比较。目前,深度序列标注模型在各项信息抽取任务(包括中医临床信息抽取任务)上都取得了较好的性能,B i L S TM+C R F是其中的代表1 3。因此,本文将其作为S OT A基线模型应用于中医临床记录四诊描述抽
21、取任务。此外,B E R T能够基于上下文信息,利用多头注意力机制,获取当前待标注语义单元的多角度、丰富的语义信息,动态地形成语义单元的词嵌入,从而提升下游预测模型的性能。因此,本文采用B E R T+B i L S TM+C R F来解决中医临床记录四诊描述抽取任务由于数据稀疏带来的语义模糊问题。B E R T是利用通用领域大规模数据训练得到的预训练模型1 7,其生成的词嵌入携带的是通用语义信息。中医临床记录四诊描述抽取任务的待标注语义单元具有中医领域特殊含义,其上下文蕴含中医领域特殊语义。为更好地适应中医领域的特殊语义表达,借鉴Z h a n g等人1 8的思想,本文利用中医临床记录数据在
22、MC-B E R T的基础上进行微调,以期获得能够更好地表达中医临床记录语义的预训练语言模型。1.3 不均衡类别分布学习数据采样是在不均衡类别分布学习中广泛采用的方法之一1 9。该方法主要通过设计特殊的采样策略(如过采样、欠采样或过采样与欠采样融合等策略),改变数据集的类别分布,从而达到数据集类别分布均衡的目标。其中,过采样算法是在数据有限的条件下更多地被使用的数据采样方法。中医临床记录四诊描述抽取任务存在类别分布不均衡问题,由于通常特定领域任务的数据规模有限,所以本文将数据过采样方法应用到B E R T+B i L S TM+C R F的模型训练过程。B E R T+B i L S TM+C
23、 R F模型的训练主要采用321中 文 信 息 学 报2 0 2 4年MB G D框架实现,该框架参数学习过程的核心是基于每一组批数据估计梯度1 0。类别分布不均衡会直接导致各组批数据中包含少见类别数据的可能性低,从而导致少见类别学习不充分。为了让模型在训练的过程中更多地关注少见类别,借鉴数据过采样方法2 0-2 1。本文通过过采样少见类别数据,实现在每轮随机划分的批数据中策略性地增加对少见类别数据的学习,从而达到模型在训练过程中充分学习少见类别数据的目标。2 方法2.1 任务定义 中医临床记录四诊描述抽取是典型的序列标注任务,可以被形式化地定义为:给定一条中医临床记录x=x1,x2,xn,目
24、标是训练一个序列分类器,该序列分类器将顺序地预测输入序列x中,第i个文字xi对应的标签yi。本文采用“B I O”标注模式,因此有yi属于预定义的标签集合L=O,B-望,I-望,B-闻,I-闻,B-问,I-问,B-切,I-切。给定训练数据集D,中医临床记录四诊描述抽取任务的模型优化目标为:y=a r g m a xyP(y|x)(1)2.2 模型本文以B E R T+B i L S TM+C R F模型为基础实现中医临床记录四诊描述的抽取,该模型的基础框架如图4所示。图4 B E R T+B i L S TM+C R F模型基础框架 以图4中的标注过程为例,在模型的一次标注过程中,输入层接收一
25、条中医临床记录x=“舌紫暗,脉弦”,并以x中的各字为基本标注单元,将这些字在输入层先转换为B E R T词表中对应的索引值x1x6,形成索引序列。输入字的索引序列经过图4的B E R T层特征提取,得到包含丰富的上下文语义信息的字向量b1b6。多头注意力机制是B E R T模型最关键的部分。在B E R T层中,注意力机制通过字序列中字与字之间的关联程度调整权重系数矩阵中的参数,从而获得字序列中所有的字在引入上下文信息后的语义表征向量,其计算如式(2)所示。A t t e n t i o n(Q,K,V)=S o f t m a xQ KTdkV(2)其中,Q、K、V是B E R T的Em b
26、 e d d i n g层输出的所有字向量经过不同的线性变换后得到的加权矩阵,dk是字向量的维度。多头注意力机制从不同的角度学习输入序列中上下文的语义信息,并均衡单一注意力机制可能产生的偏差,给字向量注入更多元的上下文语义信息,其计算方法如式(3)、式(4)所示。MH(Q,K,V)=C o n c a t(h e a d1,h e a dn)WO(3)h e a di=A t t e n t i o n(Q WQi,KWKi,V WVi)(4)其中,WQi、WKi、WVi分别为多头注意力机制中第i个4212期王亚强等:基于批数据过采样的中医临床记录四诊描述抽取方法注意力头的Q、K、V所对应的权
27、重矩阵,WO为多头注意力拼接后得到的线性变换所需的权重矩阵。在图4中,B i L S TM层的前向过程和后向过程的L S TM单元可以舍弃当前时刻输入的字向量的无用信息,并将当前时刻输入的字向量的有用信息传递到下一时刻的L S TM单元。然后,将双向过程中每个时刻对应的输出拼接,如式(5)所示,得到包含长距离上下文信息的字向量p1p6。pt=ht,ht(5)其中,ht为前向过程的L S TM单元在时刻t的输出,ht为后向过程的L S TM单元在时刻t的输出。最后,在图4的C R F层中,C R F模型利用邻近标签之间的依赖关系,对B i L S TM层输出的所有字向量进行解码(解码目标如式(6
28、)所示),最终得到最优的预测序列。Y*=a r g m a xYYxs(x,Y)(6)在式(6)中,Yx表示中医临床记录x所有可能的标注序列,Y*表示解码后获得最大评分的输出序列,s表示标注序列对应的评分函数。2.3 模型训练方法2.3.1 模型训练流程 如第1节中所述,中医临床记录四诊描述抽取任务存在严重的类别分布不均衡的问题,闻诊描述的数量远少于其他三诊描述的数量。直接利用具有该特 点 的 数 据 作 为 训 练 数 据 集 训 练B E R T+B i L S TM+C R F模型,将使模型对训练数据集中较少的类别对应的标注模式学习不充分,进而影响这些类别的预测性能。为克服上述问题,本文
29、设计了基于批数据过采样的MB G D算法训练B E R T+B i L S TM+C R F模型,以期在一定程度上缓解类别分布不均衡对中医临床四诊描述抽取性能的影响。基于批数据过采样的MB G D算法训练B E R T+B i L S TM+C R F模型的流程如图5所示。图5 基于批数据过采样的小批量梯度下降算法训练B E R T+B i L S TM+C R F模型的流程图 图5描述的模型训练流程主要包含六个关键的步骤,分别是:(1)批数据过采样:在数据处理过程中,按批量大小M将训练数据集D划分为包含|D|/M个批量的批量集合B。然后,使用批数据过采样的方式增加批量中闻诊描述的实例数量,生
30、成新批量集合B 用于模型的训练,从而提高模型对闻诊描述的抽取性能(此步骤将在2.3.3节中详细介绍)。(2)模型参数0初始化:该步骤完成对模型B E R T+B i L S TM+C R F包含的初始化参数0的设置。其中,B E R T模型的参数是在无标注的中医临床记录数据上微调得到(该方法参见2.3.2节描述),B i L S TM模型和C R F模型的初始化参数为随机生成,服从均匀分布。(3)损失计算:该步骤将计算模型在当前批量包含的数据实例上的平均损失值。其中,fk(x i)代表模型以当前批量中第i个数据实例x i作为输入,且此时模型的参数为第k轮迭代的参数k。521中 文 信 息 学
31、报2 0 2 4年(4)梯度更新量计算:通过误差反向传播算法,利用当前迭代轮次的批量B k中的所有数据实例计算梯度的平均值作为模型在第k轮迭代时更新梯度的增量k。(5)参数更新:基于当前轮迭代过程中的模型参数k、梯度更新量k和学习率,计算第k+1轮迭代过程的模型参数k+1。(6)最优参数输出:步骤(2)到步骤(5)循环执行|D|/ME轮(E为对训练数据集D遍历的轮数,直到模型收敛,最终输出模型在收敛处的最优参数。上述步骤中,M、和E为模型训练过程中的超参数,它们在本文实验中的具体设置参见3.3节。2.3.2 领域适应方法为使通用领域的B E R T预训练语言模型所生成的词嵌入携带更丰富的中医临
32、床语义信息,使其更适用于中医临床记录四诊描述抽取任务,本文借鉴了关于特定领域B E R T的领域适应方法的相关工作,即文献9,2 2 的基本做法。在Z h a n g等人1 8提出的中文医疗预训练语言模型MC-B E R T的基础上,本文使用领域内的无标注中医临床记录数据,对MC-B E R T进行微调,使其可以更好地适应本文任务领域的语义表达。在领域适应的过程中,更新的掩码语言模型fLM(;e n c,LM)的参数包括从MC-B E R T模型上初始化的编码器参数e n c和分类头参数LM。2.3.3 批数据过采样由于带标注的中医临床记录数据集存在严重的类别分布不均衡问题,如图3所示,数据集
33、中闻诊描述的数量远少于其他三诊描述的数量,这一现象会严重影响模型对于闻诊描述的抽取性能。为解决这个问题,本文提出在利用MB G D算法训练四诊信息序列标注抽取模型的过程中,采用批数据过采样的方式去增加批数据中包含闻诊描述的实例数量,从而在一定程度上消除类别分布不均衡问题对模型抽取性能的影响。本文设计的批数据过采样算法的伪代码如图6所示,其中批数据过采样比例P为超参数,在本文中P的取值参见3.3节。图6 批数据过采样算法 在图6描述的批数据过采样算法中,闻诊信息数据集W由训练数据集D中所有包含闻诊描述的数据实例构成,有关W的具体信息将在后文3.1节中介绍。批数据过采样算法描述的过程在模型训练的过
34、程中,每轮对训练数据集D的遍历都会被执行。3 实验在测试数据集上,本文将所提出的中医临床记录四 诊 描 述 抽 取 方 法 与HMM、C R F、B i L S TM、B i L S TM+C R F等模型进行了比较。本节后续将依次具体介绍实验中使用的数据集、评价指标、实验设置以及实验得到的结果。3.1 数据集本文实验使用的无标注和带标注的中医临床记录数据集均是基于真实的中医临床记录数据创建,该数据由中医专家在日常诊疗疾病的过程中收集,6212期王亚强等:基于批数据过采样的中医临床记录四诊描述抽取方法包含1 12 5 1条中医临床记录。其中,无标注的中医临床记录数据集由此1 12 5 1条无标
35、注的中医临床记录直接构成。带标注的中医临床记录数据集则是在1 12 5 1条中医临床记录的基础上,经过一系列的处理过程得到,具体的处理步骤如下:(1)讨论并定义中医临床记录中的四诊描述,然后制定标注指南,用于指导后续的数据标注。(2)中医专家按照制定好的标注指南,利用Z h a n g等人2 3论文中所构建的标准化实验语料构建系统,对1 12 5 1条中医临床记录数据实例进行四诊信息标注。(3)中医专家对标注好的所有数据实例反复审查并修改,形成高质量的标注数据。(4)将步骤(3)得到的高质量的标注数据,按照预定义的标签集合L,转化为以字为基本标注单元的B I O标注数据。(5)将步骤(4)处理
36、后的数据中包含多重标签(即数据实例中的字具有多个不同标签)的数据实例移除,并将剩余的数据实例中的空格和“t”符号移除。经过上述处理过程,最终得到包含1 05 9 4条带标注的中医临床记录数据集。实验中将该数据集按照622的比例随机划分为三部分,得到训练数据集、验证数据集和测试数据集,分别包含63 4 6条、21 2 4条和21 2 4条带标注的中医临床记录实例。实验中还将训练数据集中所有包含闻诊描述的数据实例单独地复制,组成闻诊信息数据集W。各类实验数据具体的统计信息如表1所示。表1 所有实验数据集的详细信息数据集标签数量实例数量抽取信息的数量望闻问切无标注中医临床记录数据集1 12 5 1带
37、标注中医临床记录数据集91 05 9 4 93 8 81 3 2 1 26 0 783 8 1训练数据集963 4 6 56 5 28 275 7 050 2 8验证数据集921 2 4 18 8 12 825 4 516 6 1测试数据集921 2 4 18 5 52 224 9 216 9 2闻诊信息数据集97 99 48 21 3 96 53.2 评价指标本文利用F1值和准确率(A c c u r a c y)评价各模型的中医临 床 记 录 四 诊 描 述 抽 取 性 能,F1值 和A c c u r a c y(后文简写为“A c c”)的计算公式如下:F1=2P r e c i s
38、i o nR e c a l lP r e c i s i o n+R e c a l l(7)A c c u r a c y=P TP T+P N(8)式(7)中,P r e c i s i o n和R e c a l l分别表示模型在测试集上对各类标签预测的精确率和召回率,它们的具体计算方法可参见文献1 5。式(8)中,P T表示模型预测标签正确的字单元数量,P N表示模型预测标签错误的字单元数量。3.3 实验设置在采用领域适应方法微调MC-B E R T时,初始学习率被设置为5 e-5,批量大小被设置为5 1 2,最大句子长度被设置为2 5 6。本文提出的模型在训练时,采用了A d a
39、mW优化器,初始学习率被设置为3 e-5,1被设置为0.9,2被设置为0.9 9 9。此外,批量大小M被设置为6 4,最大句子长度被设置为2 5 6,批数据过采样比例P被设置为0.4,E被设置为4 0 0,D r o p o u t被设置为0.1。在对比实验中,HMM基于R a b i n e r等人的论文1 1实现。C R F模型使用了C R F+开源工具包,其特征定义为在窗口大小为2的上下文中的一元组和二元组。B i L S TM、B i L S TM+C R F等深度神经网络模型基于L a m p l e等人1 3论文中的开源代码实现,它们的输入为24 5 1(即实验数据集中包含的字表大
40、小)维的o n e-h o t向量,中间层字向量的维度被设置为1 2 8。3.4 实验结果及分析3.4.1 总体实验结果分析 表2列出了本文方法和对比方法在测试数据集上取得的最佳F1值和准确率(即表2中的A c c)结果。从表2可以看出,无论是F1值,还是A c c结果,本文方法在各类标签上的预测效果均优于所对比的方法。本文方法的A c c达到了9 5.7 0%,相比所有对比方法有0.7 8%至2.9%的提升。此外,本文方法 相 比 最 优 的 对 比 方 法,F1值 平 均 提 升 了1.3 7%。上述结果充分地证明了本文所提出方法在721实 验 语 料 构 建 系 统:h t t p:/h
41、 k n l p r e l.i t.s u n s h e e n.c n/HKK S N L P/b u i l d/i n d e x.h t m l#/L o g i n R e l a t i o nC R F+开源工具包:h t t p s:/t a k u 9 1 0.g i t h u b.i o/c r f p p/#s o u r c e中 文 信 息 学 报2 0 2 4年中医临床记录四诊描述抽取任务上预测能力的优越性。表2 总体实验结果(单位:%)方法F1OB-望I-望B-闻I-闻B-问I-问B-切I-切A c cHMM7 3.0 78 7.7 89 1.4 12 2.
42、9 92 6.1 58 4.1 39 6.0 29 3.0 79 2.4 59 2.8 0C R F8 0.9 09 3.9 69 4.7 16 1.5 45 7.9 78 8.8 69 7.0 59 4.8 29 3.9 49 4.9 2B i L S TM8 0.2 29 3.9 19 4.0 72 8.5 71 2.2 48 7.4 49 6.8 59 4.4 39 2.6 59 4.4 9B i L S TM+C R F8 0.9 79 4.0 89 4.8 13 2.2 63 5.0 98 7.7 09 6.9 39 4.4 89 3.2 19 4.6 7B E R T+B i L
43、S TM+C R F8 3.4 69 4.0 09 4.9 25 4.5 55 2.6 38 9.6 49 7.4 59 4.2 29 3.8 19 5.3 7B E R T+B i L S TM+C R F+B D O18 3.7 19 4.5 89 5.4 76 0.0 05 6.3 48 9.1 89 7.4 49 4.4 79 4.4 19 5.4 7本文方法-D A2-B D O18 4.4 99 4.3 99 5.2 65 4.0 55 1.2 88 9.7 09 7.4 19 4.8 29 4.3 99 5.4 9本文方法-B D O18 4.3 29 4.2 59 5.3 75
44、 0.0 05 3.7 38 9.1 19 7.4 59 4.6 79 4.5 79 5.5 2本文方法8 5.1 49 4.6 29 5.5 16 2.2 26 1.5 48 9.9 39 7.5 49 4.9 19 4.6 79 5.7 0 注:1“B D O”指“B a t c hD a t aO v e r s a m p l i n g”,即批数据过采样;2“D A”指“D o m a i nA d a p t a t i o n”,即领域适应。此外,通过消融实验,还进一步地验证了批数据过采样算法和领域适应方法对本文所提出方法在预测性能提升方面的重要贡献。从表2中可以观察到,当本文方
45、法移除领域适应方法和批数据过采样算法模块后,准确率仍优于其他对比方法。具体地,除少见类别“B-闻”和“I-闻”以外的其他标签的F1值均高于对比方法。这证明了本文将MC-B E R T+B i L S TM+C R F模型应用于中医临床记录四诊描述抽取的有效性。少见类别预测性能较差的主要原因是基于B E R T的深度神经网络模型结构复杂,参数量巨大,对训练数据集中包含的少见类别学习不充分,导致其预测性能低于模型复杂度相对较低的统计机器学习模型C R F。当本文方法训练不采用批数据过采样算法时,模型预测的准确率仍然优于所有对比方法。并且,在“I-望”“I-闻”“I-问”“I-切”等标签上的F1值优
46、于同时移除领域适应方法和批数据过采样算法的情况。这说明领域适应方法能够有效地提升模型抽取四诊描述的整体性能,且对于非开始边界的四诊描述标签的判别有较强的促进作用。当本文方法不移除任何组件时,其性能在准确率以及每个标签的F1值上均优于所有对比方法,这进一步地验证了本文方法包含的领域适应方法和批数据过采样算法的有效性。此外,本文方法对于类别分布不均衡问题的“B-闻”和“I-闻”标签的抽取效果有显著的性能提升,标签对应的F1值分 别达到了6 2.2 2%和6 1.5 4%。该结果说明,在训练模型的过程中,策略地增加批量中的闻诊信息,能够使模型更充分地学习闻诊描述特征,从而在一定程度上缓解了因类别分布
47、不均衡问题给模型预测性能带来的负面影响。3.4.2 批数据过采样算法效果分析从表2还可以看出,将批数据过采样算法应用于通用领域的B E R T+B i L S TM+C R F模型训练时,模型 在 少 见 的 四 诊 描 述 类 别 标 签“B-闻”和“I-闻”上的抽取性能F1值也出现了显著的提升,这验证了本文2.3.3节设计的批数据过采样算法的有效性。为进一步证明批数据过采样算法的有效性,本文对模型在测试数据集上的标注结果进行了案例分析,发现移除批数据过采样后的模型通常会将闻诊信息错误地标注为问诊信息。例如,将“肠鸣,少腹重坠略有缓解”一起标注为问诊,而“肠鸣”实则应标注为闻诊。这是由于训练
48、数据集中闻诊信息的数据量极少,直接利用MB G D算法对模型进行训练时,闻诊信息仅出现在少数用于计算更新梯度的批量中,在大多数批量中其出现次数甚至为0,即在模型的训练过程中,闻诊信息并没有获得模型的充分学习。图7是在移除了批数据过采样的模型训练过程中,对训练数据集进行一轮遍历时,以划分的批量为单位,对批量中包含的四诊描述的出现次数的统计8212期王亚强等:基于批数据过采样的中医临床记录四诊描述抽取方法结果。从图7中可以明显地看出,批量中闻诊描述出现的次数极少,几乎为0,与问诊描述在平均出现次数上的差值接近8 0。这导致模型无法充分地学习到闻诊描述特征,将闻诊描述错误地预测为其他类型的描述。图7
49、 批量中的四诊信息数量统计(P=0)从图8中可以看出,在不移除批数据过采样且P值被设置为0.4的情况下(采用图7相同的统计方法),批量中包含的闻诊描述的数量大幅提升,这将使模型能够在训练过程中更充分地学习闻诊描述特征,同时使模型对“B-闻”和“I-闻”标签的预测性能显著提升(如表2结果所反映)。图8 批量中的四诊信息数量统计(P=0.4)3.4.3 批数据过采样比例P对模型抽取性能的影响 为验证不同批数据过采样比例P的设置,对本文所提出的中医临床记录四诊描述抽取方法的影响,本文进一步地实验了在P被设置为0、0.2、0.4、0.6、0.8和1时,模型在测试集上,对L中的各类标签的预测性能,实验结
50、果如图9所示。图9 不同批数据过采样比例下的F1值 从图9所列结果可以看出,当P=0.4时,所有标签的F1值均达到最高,并且相较于其他标签,“B-闻”和“I-闻”的F1值增幅最大。该结果说明,当P=0.4时,本文模型能够最有效地从批数据中921中 文 信 息 学 报2 0 2 4年学习到闻诊描述特征,能够更好地消除类别分布不均衡对模型预测性能的影响。该结果进一步说明,在批数据中策略地增加包含闻诊描述的实例,间接地降低其他三诊描述在批数据中的占比,能够有效地避免模型在训练过程中过度地拟合望诊、问诊和切诊类别标签,同时让模型更充分地学习少见的闻诊类别标签,从而增强模型的预测性能和泛化能力。此外,当