1、 光流法修正的时序图像语义分割模型*邱晓梦1,2,王 琳3,谷文俊1,2,宋 伟1,田浩来4,胡 誉4(1.郑州大学河南省大数据研究院,河南 郑州 4 5 0 0 5 2;2.郑州大学计算机与人工智能学院,河南 郑州 4 5 0 0 0 1;3.北京唯迈医疗设备有限公司,北京 1 0 0 0 0 0;4.中国科学院高能物理研究所,北京 1 0 0 0 4 9)摘 要:医学成像技术的发展带来了海量的医学图像数据,这些图像反映了生物体的内部结构特征,医学图像分割技术可以提高医疗人员的诊断效率,从而成为现代医疗诊断的重要辅助手段之一。然而成像过程中不可避免地会出现噪声或伪影,它们给分割工作带来了极大
2、的挑战。现有的分割模型中,单帧医学图像语义分割模型未考虑图像帧与帧之间的关系,视频语义分割模型虽利用了时序信息,但在边缘提取上有所欠缺。为了解决以上问题,提出了一种以U-N e t为骨干,用光流法进行修正的时序语义分割模型。该模型能够提取视频前后帧之间的光流信息,并对当前帧与光流进行特征提取与权重分配,以达到修正的效果。实验结果表明,在果蝇电镜图、腹部综合器官图和冠状动脉造影图这些不同类型的数据集上,该模型在相似性系数、像素准确率和交并比这3个评价指标上都获得了最优结果,验证了所提模型的有效性和泛化性。关键词:U-N e t;光流;医学图像;语义分割;深度学习中图分类号:T P 3 9 1.4
3、 1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 4.0 1.0 1 1A t i m e s e r i e s i m a g e s e m a n t i c s e g m e n t a t i o n m o d e l m o d i f i e d b y o p t i c a l f l o wQ I U X i a o-m e n g1,2,WANG L i n3,GU W e n-j u n1,2,S ONG W e i1,T I AN H a o-l a i4,HU Y u4(1.H e n a n
4、 A c a d e m y o f B i g D a t a,Z h e n g z h o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 5 2;2.S c h o o l o f C o m p u t e r a n d A r t i f i c i a l I n t e l l i g e n c e,Z h e n g z h o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 0 1;3.B e i j i n g W e i m a i M e d i c a l E q u
5、 i p m e n t C o.,L t d.,B e i j i n g 1 0 0 0 0 0;4.I n s t i t u t e o f H i g h E n e r g y P h y s i c s,C h i n e s e A c a d e m y o f S c i e n c e s,B e i j i n g 1 0 0 0 4 9,C h i n a)A b s t r a c t:T h e d e v e l o p m e n t o f m e d i c a l i m a g i n g t e c h n o l o g y h a s g e n
6、 e r a t e d a m a s s i v e a m o u n t o f m e d i-c a l i m a g e d a t a,w h i c h r e f l e c t s t h e i n t e r n a l s t r u c t u r a l f e a t u r e s o f t h e h u m a n b o d y.M e d i c a l i m a g e s e g-m e n t a t i o n t e c h n o l o g y c a n i m p r o v e t h e e f f i c i e n c
7、 y o f m e d i c a l d i a g n o s i s,m a k i n g i t a n i m p o r t a n t a s s i s t i v e t o o l f o r m o d e r n m e d i c a l d i a g n o s i s.H o w e v e r,n o i s e o r a r t i f a c t s t h a t a r e i n e v i t a b l y p r e s e n t i n t h e i m a g i n g p r o c e s s b r i n g g r e
8、 a t c h a l l e n g e s t o t h e s e g m e n t a t i o n w o r k.I n e x i s t i n g s e g m e n t a t i o n m o d e l s,s i n g l e-f r a m e m e d i c a l i m a g e s e m a n t i c s e g m e n t a t i o n m o d e l s d o n o t c o n s i d e r t h e r e l a t i o n s h i p b e t w e e n i m a g e
9、 f r a m e s,w h i l e v i d e o s e m a n t i c s e g m e n t a t i o n m o d e l s u t i l i z e t e m p o r a l i n f o r m a t i o n b u t h a v e s o m e l i m i t a t i o n s i n e d g e e x t r a c t i o n.T o a d d r e s s t h e s e i s s u e s,t h i s p a p e r p r o p o s e s a U-N e t-b a
10、 s e d t e m p o r a l s e m a n t i c s e g m e n t a t i o n m o d e l m o d i f i e d b y o p t i c a l f l o w.T h i s m o d e l c a n e x t r a c t o p t i c a l f l o w i n f o r m a t i o n b e t w e e n c o n s e c u t i v e f r a m e s a n d p e r f o r m f e a t u r e e x t r a c t i o n a
11、 n d w e i g h t a l l o c a t i o n o n t h e c u r r e n t f r a m e a n d o p t i c a l f l o w f o r c o r r e c t i o n.E x p e r i m e n t s s h o w t h a t t h e m o d e l o b t a i n s o p t i m a l r e s u l t s o n t h r e e e v a l u a t i o n m e t r i c s,n a m e-*收稿日期:2 0 2 3-0 2-2 0;修
12、回日期:2 0 2 3-0 4-1 1基金项目:河南省科技攻关计划国际合作项目(1 7 2 1 0 2 4 1 0 0 6 5);河南省高等学校重点科研项目(2 2 A 5 2 0 0 1 0);基于人工智能的高能物理大数据技术研究与示范(E 2 2 9 5 1 S 3 1 1)。通信作者:宋伟(i e w s o n g z z u.e d u.c n)通信地址:4 5 0 0 5 2 河南省郑州市二七区大学北路7 5号郑州大学河南省大数据研究院A d d r e s s:H e n a n A c a d e m y o f B i g D a t a,Z h e n g z h o u
13、U n i v e r s i t y,7 5 U n i v e r s i t y N o r t h R o a d,E r q i D i s t r i c t,Z h e n g z h o u 4 5 0 0 5 2,H e n a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 6卷第1期2 0 2 4年1月 V o l.4 6,N o.1,J a n.2 0 2 4 文章编号:1 0
14、0 7-1 3 0 X(2 0 2 4)0 1-0 1 0 2-0 9l y D i c e s i m i l a r i t y,p i x e l a c c u r a c y a n d c r o s s-m e r g e r a t i o,o n d i f f e r e n t t y p e s o f d a t a s e t s,n a m e l y D r o s o p h-i l a e l e c t r o n m i c r o g r a p h s,c o m b i n e d h e a l t h y a b d o m i n a l o
15、 r g a n s e g m e n t a t i o n a n d c o r o n a r y a n g i o g r a m,w h i c h v a l i d a t e t h e e f f e c t i v e n e s s a n d g e n e r a l i z a t i o n o f t h e p r o p o s e d m o d e l.K e y w o r d s:U-N e t;o p t i c a l f l o w;m e d i c a l i m a g e;s e m a n t i c s e g m e n t
16、 a t i o n;d e e p l e a r n i n g1 引言医学图像处理非常重要且应用性极强,其中对医学图像中的器官、病灶和感兴趣区域进行分割是医疗诊断和手术计划等任务的重要辅助手段。医学图像分割在医学研究中的作用与价值主要体现在以下几个方面:(1)提取感兴趣的区域,从而忽略其他区域的干扰;(2)用于人体器官或病灶尺寸的测量,有助于医生诊断或修改病人的治疗方案;(3)获取解剖图谱信息,为医学图像的三维重建和可视化等提供原始数据。然而,受成像设备以及患者体位等因素的影响,医学图像不可避免地会出现伪影和噪声,且在传输过程中图像的质量也会受到不同程度的影响。以上这些给图像分割及诊断工
17、作造成了一定的困扰和挑战,故本文对医学图像分割方法进行研究,以寻求更佳的分割效果。传统图像分割方法包括阈值法、区域生长法和边缘检测法1等。其中,阈值法只考虑像素点灰度值本身的特征,不考虑空间特征;区域生长法需要人为选取种子,往往会导致区域内产生空洞,并且这2种方法对噪声比较敏感。边缘检测法不能保证边缘的连续性和封闭性,并且在高细节区存在大量碎边缘。为了解决以上问题,研究人员将深度学习方法应用于图像分割任务中,利用相关网络的学习功能弱化噪声对分割的影响,从而改善分割效果。语义分割作为图像分割的一个分支,它为输入图像的每个像素分配一个语义类别,以得到像素化的密集分类2。当前语义分割被广泛应用于地理
18、信息系统、无人驾驶、医学影像分析和机器人等多个领域,并取得了较好的效果。L o n g等3在2 0 1 5年提出了全卷积神经网络F C N(F u l l y C o n v o l u t i o n a l N e t w o r k),首次将深度学习应用于图像语义分割领域,成为语义分割的开山之作,但F C N在对各个像素进行分类时没有充分考虑到像素与像素之间的关系。R o n n e b e r g e r等4提出了U-N e t(U-s h a p e N e t w o r k),其编码、解码和跳跃连接结构充分地融合了不同尺度之间的信息,得到了更具鲁棒性的分割结果。U-N e t+5
19、通过不同深度的U-N e t有效集来降低未知的网络深度,它们可以部分共享一个编码器,通过深度监督同时进行学习。而后T r a n s UN e t6使用了一个结合卷 积 神 经 网 络C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)和T r a n s f o r m e r7的结构作为编码器,同时采用一个级联的上采样来确保预测的准确率,解决了T r a n s f o r m e r低 级 细 节 不 足 的 问 题。D S-T r a n s UN e t(D u a l S w i n T r a n s f o r m
20、e r U-N e t)8网络构建了一个双分支的T r a n s f o r m e r结构,缓解了分割时像素级信息丢失的问题。上述图像语义分割主要针对单帧图像,对带有时序特征的图像,即视频流,可以充分利用相邻帧之间的关系,将上一帧图像的分割结果作为先验知识传入到下一帧图像中,或者利用光流传递时序信息,进行消息传递,从而获取更多的分割信息。已有相关研究中,S T F C N(S p a t i o-T e m p o r a l F C N)9模型将长短期记忆网络和F C N相结合,构成了一种端到端的时空卷积神经网络。N e t w a r p1 0模型利用光流信息,把经过卷积层的上一帧特征
21、传递到当 前 帧 的 对 应 位 置 上。D F F(D e e p F e a t u r e F l o w)1 1 模型指定关键帧,计算其他帧到该帧之间的光流信息,减少了计算开销。D V S N e t(D y n a m i c V i d e o S e g m e n t a t i o n N e t w o r k)1 2使用轻量级决策网络来评估每个区域的置信度得分,在分割效率和质量之间取得了平衡。T D N e t(T e m p o r a l l y D i s-t r i b u t e d N e t w o r k)1 3是一种时间分布的视频语义分割网络,在每个时间
22、步中,只需执行轻量级计算就可从单个子网络中提取子特征组,然后用一种新的注意传播模块来补偿帧间的几何形变,最终收获了更快的速度和更短的延迟。C S AN e t(C r o s s a n d S e l f-A t t e n t i o n N e t w o r k)1 4是一种将自注意力和交互注意力并行的孪生神经网络,它不仅能在相邻帧之间传播时域空间特征,还能聚合当前帧内的空间语义信息。然而,医学图像的血管比较细,分割部分往往与周围组织的对比度低,因此,在对医学图像分割的过程中往往存在边缘提取效果不佳,且容易出现血管断裂的问题。在单帧语义分割中,U-N e t以其独特的网络结构较好地解决
23、了边缘提取问题,但并未充分利用时序信息中的先验知识,故无法进一步提高分割的精确度。同时,现有的视频语义分割模301邱晓梦等:光流法修正的时序图像语义分割模型型虽利用了时序信息,但在边缘提取上有所欠缺。本文结合了光流、U-N e t和能获取更多信息并进行特征提取的I n c e p t i o n1 5结构,提出了一种既考虑医学图像特征又兼顾时序信息的网络模型。该模型首先采用光流模块获取相邻2帧之间的运动信息,然后使用U-N e t网络和I n c e p t i o n结构分别对当前帧和光流信息进行特征提取,最后使用修正模块对当前帧和光流信息的特征进行权重分配,实现利用光流对当前帧的修正作用,
24、从而改善图像分割的效果。在相关数据集上的实验结果表明,本文模型取得了优于对比模型的预测结果。2 模型结构本文提出的模型结构如图1所示。模型包括数据预处理和模型训练2部分。数据预处理部分对应光流模块,用来获取相邻2帧之间的运动信息。模型训练部分包括特征提取模块和修正模块,特征提取模块使用2种方式对当前帧和光流信息进行特征提取,得到初步的分割图像。修正模块进行权重分配,使用光流信息对当前帧进行修正,从而使得分割结果通过获取上一帧的信息,得到更多的分割细节。F i g u r e 1 S t r u c t u r e o f t h e p r o p o s e d m o d e l图1 本文
25、所提模型结构2.1 光流模块模型预处理部分使用光流来获取图像的运动信息。光流是用来描述场景中的物体运动在连续2帧间产生动态变化的方法,其本质是一个二维向量场1 6。模型使用光流法有3个假设前提:(1)前后帧光照能量保持不变;(2)相邻帧之间同一像素点运动较小;(3)相邻像素点运动相似。设某一点在第1帧中的光照能量表示为f(x,y,t),该点经过时间为d t,运动的距离为(d x,d y),得到式(1):f(x,y,t)=f(x+d x,y+d y,t+d t)(1)其中,x、y为像素坐标,t为时间。为求解d x和d y,对式(1)右边进行一阶泰勒展开并去除余项,再对两边同除d t得到光流方程,
26、如式(2)所示:fxu+fyv+ft=0(2)其中,fx和fy为图像的梯度,ft为沿时间的梯度,且fx=f/x,fy=f/y,u=dx/dt,v=dy/dt,(u,v)为光流矢量,即(x,y)的瞬时速度,光流方程就是要求解这2个未知数。由于存在不适定问题(具体体现在孔径问题上),仅通过光流方程很难得到准确的光流场,故本文使用T V-L 11 7求解光流信息。假设相邻2帧图像为I0和I,则T V-L 1模型的能量函数如式(3)所示:E=I0-I(x+u(x)+u dx(3)其中,为有界区域,为权值常数,u(x)为点x的二维光流场,u为图像的二维梯度。前一项是数据约束项,表示相邻2帧图像在同一像素
27、点上的灰度值差,后一项是运动正则化约束,即假设运动是连续的。在获得光流信息后,就可以对当前光流使用w a r p函数来获得下一帧图像。假设输入帧为I1R3HW和I2R3HW,H为图像的高,W为图像的宽,I1和I2分别为t1和t2时刻的图像,则这2帧之间的前向光流为F12R2HW,后向光流为F12R2HW。此时向后和向前的w a r p操作分别如式(4)和式(5)所示:I1=w a r p(I2,F12)(4)I2=w a r p(I1,F12)(5)为了更直观地表现光流,对光流进行可视化。其中最简单的可视化方式就是用箭头表征光流,如图2 c表示图2 a和图2 b之间的光流。图中箭头的方向和长度
28、分别代表光流矢量的方向和大小。2.2 特征提取模块对当前帧的分割使用的是U-N e t模型结构,本文使用的U-N e t结构及其参数如图3所示,包含编码器、解码器和跳跃连接结构。在编码部分进行4次下采样操作,实现特征提取;解码部分进行4次上采样操作,用于恢复图像的大小并且定位分割信息的位置。每次卷积之后都使用R e L U激活401C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)F i g u r e 2 O p t i c a l f l o w v i s u a l i z a t i
29、o n图2 光流可视化函数,它不仅可以使网络训练更快并防止梯度消失,还能降低过拟合的风险。在每次上采样之后与特征提取部分对应通道数相同尺度的层进行融合。通过这种跳跃连接的结构,使得网络在每个阶段都能学习到模型在特征提取池化过程中丢失的相关特征,从而保证分割效果。F i g u r e 3 S t r u c t u r e o f U-N e t图3 U-N e t结构对光流提取的运动信息,本文采用I n c e p t i o n结构进行特征提取。该结构能在每一层感受野不变的情况下加深网络深度,使得网络的精度更高,并且这种结构可以有效地减轻网络的权重。I n-c e p t i o n结构及
30、参数如图4所示。F i g u r e 4 S t r u c t u r e o f I n c e p t i o n 图4 I n c e p t i o n结构I n c e p t i o n结构将不同的卷积层通过并联的方式结合在一起,在深度上拼接不同卷积层的结果矩阵,从而获得一个更深的矩阵。这种网络结构不仅可以防止过拟合问题,还可以降维处理尺寸较大的矩阵,聚合多尺度信息。为了获取更多的信息,本文使用了2层I n c e p-t i o n结构,中间使用2个卷积核为1的卷积层进行连接。这种卷积层不仅能实现通道数的降维,还能实现跨通道的信息交互和整合,此外,它还能大大减少参数量。2.3
31、 修正模块对当前帧和光流信息分别使用U-N e t和I n-c e p t i o n结构进行分割之后,为实现利用光流修正分割结果的目的,本文对2个分割结果进行权重分配。在神经网络中,线性层的输入一般是二维张量矩阵,但在实际应用中并没有限制。本文将当前帧和光流信息的分割结果以最后一个维度进行拼接,并按照每个通道展平后输入到线性层。此时将输出特征设置为2,则可以得到一个表示权重的矩阵。线性层的计算公式如式(6)所示:Y1(0,0)Y2(0,0)Y1(5 1 2,0)Y2(5 1 2,0)=X1(0,0)X1(0,5 1 2)X2(0,0)X2(0,5 1 2)X1(5 1 2,0)X1(5 1
32、2,5 1 2)X2(5 1 2,0)X2(5 1 2,5 1 2)W1W2 +b(6)其中,W1和W1表示权重矩阵,b为常数。紧接着对线性层的输出进行S o f t m a x操作,实现归一化,将线性模型输出的实数域映射到0,1,表示概率分布的有效实数空间,从而得到2个部分各自所占的权重。归一化的核心思想就是将每个转换后的结果除以转化结果的总和,即转化后的结果在总数中所占的百分比即概率值。最后将2个分割结果矩阵各自乘以自己所占的权重矩阵并进行拼接得到最终的分割结果。修正模块的结构如图5所示,其中P r o d表示点乘操作。F i g u r e 5 S t r u c t u r e o f
33、 c o r r e c t i o n m o d u l e图5 修正模块结构501邱晓梦等:光流法修正的时序图像语义分割模型时序图像语义分割模型的流程如算法1所示。算法1 时序图像语义分割算法输入:2幅相邻图像I1、I2 R3 HW。输出:语义分割图像O R1 HW。步骤1 计算2幅图像之间的运动信息,即光流信息,F12=T V-L1(I1,I2),F12 R2 HW。步骤2 使用U-N e t结构对I1进行分割,得到特征图F1 R3 HW。步骤3 使用I n c e p t i o n结构对F12进行分割,得到特征图F2 R3 HW。步骤4 使用修正模块进行权重分配,得到最终结果O=S
34、 o f t m a x(L i n e a r(F1,F2)。2.4 损失函数损失函数是一种用来衡量错误和损失程度的函数,它可以反映出图像和标签之间的差异,本文使用的损失函数如式(7)所示:L o s st o t a l=0.5L o s sd i c e+0.5L o s sb c e(7)骰子损失(D i c e L o s s)是医学影像分割中最常使用的损失函数之一,用来评估预测图像和标签图像之间相似度的一种度量损失,其计算方法如式(8)所示:L o s sd i c e=1-2XYX+Y(8)其中,X表示预测值集合,Y表示真实值集合,|XY|表示2个集合对应元素的点乘。二分类交叉熵
35、损失(B C E L o s s)是常用的二分类损失,用于评估数据在分割过程中对每个像素点进行分类时所产生的损失,可以衡量同一个随机变量中的2个不同概率分布的差异程度,其计算方法如式(9)所示:L o s sb c e=-ni=1yil o g(xi)(9)其中,n表示类别数,xi表示预测值,yi表示真实值。本文同时使用D i c e L o s s和B C E L o s s这2个损失函数,D i c e L o s s损失函数聚焦于相似性,可对分割细节进行优化,提高分割精度;B C E L o s s则可以使得像素保持平滑的梯度。3 实验与结果分析3.1 数据集为了更加全面地测试本文模型的
36、性能,选取不同类型的3个代表性数据集进行实验,在预处理阶段将图像大小设置为5 1 25 1 2,并采用两两分组的方式,将每对相邻帧分为一组。(1)冠状动脉造影图。该数据集为某医疗公司的真实数据,每幅图像都有对应的标签,黑色为背景,白色为血管。训练数据中共有1 2 0 0幅图像,将其按照82的比例划分为训练集和验证集;测试集中包含3 8幅图像。(2)果蝇电镜图。该数据集为I S B I(I n t e r n a-t i o n a l S y m p o s i u m o n B i o m e d i c a l I m a g i n g)挑战赛提供的公开数据集,其数据是3 0组来自果蝇
37、幼虫腹侧神经索的连续切片投射电镜的图像,每组由若干幅图像组成。每幅图像都带有一个对应的标注分割图,其中白色为细胞,黑色为膜。将该数据集按照82的比例划分为训练集和测试集。(3)健康腹部综合器官图。健康腹部综合器官数据集是一个由腹部造影C T和腹部MR造影图像组成的公开数据集。本文实验仅使用其中的C T图像,数据格式为D I C OM。其中训练集包含2 0 5 0个数据,验证集包含2 6 6个数据,测试集包含5 5 8个数据。3个数据集均为时序数据集,其中冠状动脉造影数据集和健康腹部综合器官数据集为人体医学图像,果蝇电镜图为生物医学图像。3.2 实验环境本文实验基于P y T o r c h框架
38、,硬件设备是显存为1 2 G B的英伟达G P U T i t a n V,编程语言为P y t h o n 3.7。在实验中使用的优化器为A d a m,学习率为1 0-4,批次大小为4,轮次为5 0 0。在实验中使用4块G P U和数据并行进行模型训练。3.3 实验结果及分析3.3.1 性能评价指标评价指标主要是用来评估模型的性能优劣,判断当前模型是否稳定且获得的结果是否精确。本文选取了相似性系数D i c e(D i c e s i m i l a r i t y)、像素准确率P A(P i x e l A c c u r a c y)、交并比I o U(I n t e r-s e c
39、t i o n o v e r U n i o n)3个评价指标。在计算这3个指标时,将问题转化为二分类问题,将要分割的2个部分分别看作正例和反例。其中,D i c e系数是一种集合相似度度量函数,用于计算2个样本的相似度;P A表示被分为正例的实例中实际为正例的比例;I o U表示某个类别预测结果与真实标签之间交集与并集之间的比值。具体计算公式分别如式(1 0)式(1 2)所示:601C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)D i c e=2T P 2T P+F P+FN(1 0)P
40、 A=T P+TN T P+F P+FN+TN(1 1)I o U=T PT P+F P+FN(1 2)其中,T P代表真正例,即模型预测类别为正例,真实类别也为正例;F P代表假正例,即预测类别为正例,真实类别为反例;FN代表假反例,即预测类别为反例,真实类别为正例;TN代表真反例,即预测类别为反例,真实类别也为反例。这3个指标的取值均在0,1,值越大表示分割效果越好。3.3.2 冠状动脉造影图分割结果基于该数据集的任务是分割出血管信息。为了验证本文模型的可靠性,在相同的实验环境下选取7个经典模型和本文模型进行对比。同时,随机选取3个样本,对它们在U-N e t、U-N e t+、A t t
41、 e n-t i o n U-N e t1 8、R e f i n e N e t1 9和本文模型上的预测结果进行展示,预测结果如图6所示。其中图6 a表示当前帧,图6 b表示标签,图6 c 图6 f为对比模型的结果,图6 g为本文模型的结果。从图6中的标注框可以看出,对比模型存在血管断裂的情况,相对于对比模型,本文模型出现断裂的次数更少,图像的连通性更好;同时,在对比模型中极易产生噪声,降低了分割的准确率,而本文模型基本未出现噪声;此外,从第2幅图的分割结果中可以看出,对比模型获得的细节信息较少,不如本文模型提取的信息丰富。综上,在冠状动脉造影图上本文模型取得了最佳的分割效果。F i g u
42、 r e 6 S e g m e n t a t i o n r e s u l t s o n c o r o n a r y a n g i o g r a m图6 冠状动脉造影图上分割结果3.3.3 果蝇电镜图分割结果为了进一步验证本文模型的有效性,使用相同的实验环境在果蝇电镜图数据集上进行实验。同样随机选取3幅图像,将它们在U-N e t、U-N e t+、P S P N e t(P y r a m i d S c e n c e P a r s i n g N e t w o r k)2 0、S e g N e t2 1以及本文模型上的预测结果展示在图7中。从图7中 的 标 注 框
43、可 以 看 出,U-N e t和U-N e t+的分割有较大可能出现断裂,导致细胞的连通性降低;同时,对比模型出现噪声的可能性更大,尤其是U-N e t+;在第3幅图中,S e g N e t预测结果中没有断裂也未产生噪声,但无法识别出细胞原本的锯形特征;而本文模型得到的分割信息在各方面都表现良好,分割的准确率高。3.3.4 腹部综合器官图分割结果为了验证本文模型和对比模型在腹部综合器官分割任务上的准确性和有效性,本文以相同实验环境在腹部综合器官数据集上进行分割实验。同样随机选取3幅图像,将它们在U-N e t、U-N e t+、A t t e n t i o n U-N e t、R e f
44、i n e N e t和本文模型上的预测结果展示在图8中。从第1幅预测图中可以看出,U-N e t+和R e-f i n e N e t在凸出的部位上预测并不准确,捕获的信息不充足。在第2幅图中,A t t e n t i o n U-N e t在预测图中产生了小黑洞。在第3幅图中,对比模型的预测都产生了噪声。可见,本文模型不仅在凸出部分的分割效果良好,并且基本不产生噪声,分割的准确率高。由3个数据集上的分割结果可知,本文模型均取得了较好的效果,为了更加直观地表现模型的分割效果,本文计算了各个模型在这3个数据集上的评价指标D i c e、P A和I o U,结果如表1所示。从表1可以看出,在冠
45、状动脉造影图数据集上,本文模型较次优模型(U-N e t)在3个指标上分别提高701邱晓梦等:光流法修正的时序图像语义分割模型F i g u r e 7 S e g m e n t a t i o n r e s u l t s o n d r o s o p h i l a e l e c t r o n m i c r o g r a p h图7 果蝇电镜图分割结果F i g u r e 8 S e g m e n t a t i o n r e s u l t s o n c o m b i n e d h e a l t h y a b d o m i n a l o r g a n
46、s e g m e n t a t i o n图8 腹部综合器官图分割结果了0.6%,0.1 3%和2.1 3%;在果蝇电镜图数据集上分别提高了0.4 2%,0.6 7%和0.8 3%;在腹部综合器官图数据集上分别提高了0.8 8%,0.0 2%和1.6 8%。由此可见,本文模型具有较好的有效性和泛化性。同时,还可以看出,U-N e t及其变体往往在分割结果上呈现出相对更好的效果,因此选取U-N e t作为骨干网络是非常合适的选择。3.3.5 参数分析及消融实验模型的重要参数都会对训练结果产生一定的影响,比如学习率和优化器,同时I n c e p t i o n结构的数量也会对本文模型的结果有
47、影响,故对这3个参数进行对比实验。如表2所示为它们在腹部综合器官图数据集上的实验结果。(1)学习率。学习率是最影响性能的超参数之一,可以通过损失函数的梯度调整网络权重,不同的学习率会对收敛产生影响。本文在训练中的学习率为1 0-4,选择1 0-2,1 0-3,1 0-5和1 0-6进行对比。从表2可以看出,评价指标都有所下降,说明过大或过小的学习率都会降低模型的预测结果。(2)优化器。在训练模型时,可以使用不同的优化器来最小化损失函数。本文选取的对比优化器是S G D(S t o c h a s t i c G r o d i e n t D e s c e n t)和A d a-g r a
48、d,其中,S G D又称随机梯度下降,每次只根据一个样本计算梯度,速度快;A d a g r a d优化器可以自动调节参数的学习率,降低跳过最优点的概率。本文使用的优化器是A d a m,它使用梯度的指数加权平均和梯度平方的指数加权平均来动态地调整每个参数的学习率。从表2可以看出,A d a m优化器更能改善分割效果。(3)I n c e p t i o n模块数量。本文模型在对光流信息进行操作时使用了2个I n c e p t i o n结构,为了验证该模块数量的影响,分别选择1个和3个模块801C o m p u t e r E n g i n e e r i n g&S c i e n
49、c e 计算机工程与科学 2 0 2 4,4 6(1)T a b l e 1 R e s u l t s o f c o m p a r i s o n e x p e r i m e n t s表1 对比实验结果D i c eP AI o UU-N e t40.7 9 6 60.9 9 1 50.8 3 7 6U-N e t+50.8 0 4 20.9 7 3 60.6 7 2 5A t t e n t i o n U-n e t1 80.8 0 3 20.9 7 8 30.6 8 5 3冠状动脉造影图P S P N e t2 00.7 5 0 40.9 8 8 60.7 7 2 5S e
50、g N e t2 10.7 8 4 70.9 7 1 10.6 4 5 7R e f i n e N e t1 90.7 8 7 30.9 7 0 50.6 4 9 2C S AN e t1 40.6 6 9 60.9 5 6 90.5 0 3 4O u r s0.8 1 0 20.9 9 2 80.8 5 8 9U-N e t0.9 8 8 20.9 8 1 10.9 7 6 7U-N e t+0.9 8 6 30.9 7 8 00.9 7 2 9A t t e n t i o n U-N e t 0.9 5 5 30.9 3 0 60.9 1 4 5P S P N e t0.9 8 3 0