1、2023 年 10 月 图 学 学 报 October2023第 44 卷 第5期 JOURNAL OF GRAPHICS Vol.44No.5 收稿日期:2023-05-25;定稿日期:2023-08-19 Received:25 May,2023;Finalized:19 August,2023 基金项目:宁夏自然科学基金项目(2021AAC03198,2023AAC03263);国家自然科学基金项目(61561002,62062003);宁夏医学影像临床研究中心创新平台建设项目(2018DPG05006)Foundation items:Ningxia Natural Science F
2、oundation China(2021AAC03198,2023AAC03263);National Natural Science Foundation of China(61561002,62062003);Ningxia Medical Imaging Clinical Research Center Innovation Platform Construction Project(2018DPG05006)第一作者:蒋武君(1998),男,硕士研究生。主要研究方向为计算机视觉、医学图像分析处理。E-mail: First author:JIANG Wu-jun(1998),maste
3、r student.His main research interests cover computer vision,medical image analysis and processing.E-mail: 通信作者:支力佳(1977),男,讲师,博士。主要研究方向为计算机视觉、医学图像分析处理等。E-mail: Corresponding author:ZHI Li-jia(1977),lecturer,Ph.D.His main research interests cover computer vision,medical image analysis and processing,
4、etc.E-mail: 基于通道残差嵌套 U 结构的 CT 影像 肺结节分割方法 蒋武君1,支力佳1,2,3,张少敏1,2,3,周涛1,3(1.北方民族大学计算机科学与工程学院,宁夏 银川 750021;2.宁夏回族自治区人民医院医学影像中心,宁夏 银川 750000;3.北方民族大学图像图形智能处理国家民委重点实验室,宁夏 银川 750021)摘要:早诊断早治疗对提升肺癌的存活率至关重要。肺结节是肺癌早期主要表现,但其异质性特征增加了计算机断层扫描对肺结节的检测难度,降低了分割结果的精确度。为提高肺结节分割结果的完整性和精确度,提出三维通道残差嵌套 U 网络(CR U2Net)。浅层特征同时
5、包含病灶细节和噪声信息,提出浅层信息处理 U结构平衡噪声信息的干扰;为加强不同层特征信息的交互,丰富特征表达和传递,提出通道残差结构,配合嵌套 U 结构实现特征信息的提取优化;考虑到浅层特征包含空间细节信息而深层特征具有语义抽象性,设计通道挤压 U 结构实现不同语义级别特征有效融合;将上述模块集成到 UNet 中构建出基于嵌套 U 结构的肺结节分割模型。提出的模型在 Lung Image Database Consortium and Image Database Resource Initiative 数据集中进行训练,达到了 83.83%的 Dice 系数。优于多数现有肺结节分割方法且与
6、UNet,UNet+以及 PCAMNet 网络相比领先了3.98%,1.96%和 1.26%;针对网络结构进行有效性验证,结果表明各模块均发挥作用,在可接受参数量和计算量的情况下达到最优性能。关键词:深度神经网络;肺结节分割;通道残差结构;嵌套 U 结构;通道挤压模块 中 图 分 类 号:TP 391 DOI:10.11996/JG.j.2095-302X.2023050879 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)05-0879-11 CT image segmentation of lung nodules based on channel residual
7、 nested U structure JIANG Wu-jun1,ZHI Li-jia1,2,3,ZHANG Shao-min1,2,3,ZHOU Tao1,3(1.School of Computer Science and Engineering,North Minzu University,Yinchuan Ningxia 750021,China;2.Medical Imaging Center,Ningxia Hui Autonomous Region Peoples Hospital,Yinchuan Ningxia 750000,China;3.The Key Laborato
8、ry of Images&Graphics Intelligent Processing of State Ethnic Affairs Commission,Yinchuan Ningxia 750021,China)Abstract:Early diagnosis and treatment are pivotal in elevating the chances of lung cancer survival.Early-stage lung cancer often manifests through lung nodules.However,their heterogeneity p
9、oses a challenge in their detection of lung 880 图像处理与计算机视觉 2023 年 1 nodules via computed tomography,subsequently diminishing the accuracy of segmentation results.To improve the completeness and accuracy of lung nodule segmentation results,a 3D channel residual nested U-network(CR U2Net)was proposed
10、for lung nodule segmentation.The shallow information processing U-structure(SIPU)was proposed to address the challenge of managing the interference of noise information while simultaneously incorporating key lesion details within shallow features.To enhance the interaction across different layers of
11、 feature information,and to enrich feature expression and transfer,the Channel Residual structure was introduced in conjunction with the nested U-structure to extract and optimize feature information.Acknowledging the spatial detail information found in shallow features and the semantic abstraction
12、in deep features,the channel extrusion U-structure(CEU)was designed to effectively fuse features at different semantic levels.By integrating the proposed modules into UNet,a lung nodule segmentation model based on nested U-structures was constructed.The proposed model was trained on the Lung Image D
13、atabase Consortium and Image Database Resource Initiative(LIDC-IDRI)dataset.And chieved the best Dice Similarity Coefficient performance,reaching 83.83%.This outperformed UNet,UNet+,and PCAMNet networks by 3.98%,1.96%,and 1.26%,respectively.In addition,ablation experiments were conducted to evaluate
14、 the structural validity of the proposed CR U2Net,demonstrating that each module within the proposed segmentation algorithm contributes to achieving optimal performance while adhering to acceptable parameter and computational constraints.Keywords:deep neural network;lung nodule segmentation;channel
15、residual structure;nested U structure;channel extrusion module 肺结节一般是指直径小于 3 cm 的肺部异常圆形或椭圆形病变,可为良性,也可为恶性。现如今常利用计算机断层扫描技术(computed tomography,CT)对肺部进行观察,通过三维重建技术对病灶区域进行还原,帮助医生做出合理的诊断、分析和治疗。这样不仅可以避免病灶信息的漏检、误检,还可以大幅降低医生的工作负担,提高诊断的可靠性,所以自动化的肺结节三维重建技术方法尤为重要。当前肺结节分割方法主要分为 2 种:传统肺结节分割方法,包括活动轮廓、边缘检测等;基于深度学习
16、的肺结节分割方法。UNet 网络结构的提出,为医学图像分割领域带来了革命性的进展,也加快了肺结节分割领域的研究。YU 等1提出了 3D ResUNet 分割网络,通过改进的编码器、解码器基本单元和残差机制强化并融合不同语义信息,学习到更细微的特征信息,且采用两阶段损失函数对模型进一步优化。KIDO 等2提出的三维全连接卷积网络使用残差结构替换了 UNet 基本块,该方法在 332 个肺结节上得到的 Dice 系数(Dice similarity coefficient,DSC)及交并比(intersection over union,IoU)分别为 0.845和 0.738。此外,更常见的设计
17、改进是基于多尺度的,主要包含 2 种:针对网络结构进行改进;针对网络的基本块进行改进。AGNES 和 ANITHA3提出了一种多尺度全卷积三维 UNet 模型,通过多尺度基本块 333 及 555 卷积提取不同尺度的特征信息,并利用 Maxout 激活函数优化多尺度特征信息,抑制低贡献特征。该模型方法在公共数据集 LIDCIDRI(Lung Image Database Consortium and Image Database Resource Initiative)上达到了83%的 Dice 分数。WANG 等4提出的高精度、轻量级的肺结节分割模型 SKV-Net 在 Luna16 数据集
18、下达到 79.6%的 Dice 分数。SKV-Net 继承了V-Net 的整体设计,将 V-Net 的 3D 卷积替换为SK-Block,其具有 3 条路径(333 卷积、555卷积和恒等路径),可以有效提取多尺度特征信息,并通过软注意力机制,自适应地选择不同尺度的特征图,可将其融合在一起,从而改善模型的性能。ZHOU 等5提出了级联 2.5D 的肺结节检测、分割方法,在分割网络的编码器中引入了CBAM(convolutional block attention module)注意力模块,以提升网络的编码能力,并在瓶颈层设计了不同膨胀率的卷积以精细分割结节区域。最终在 LIDC-IDRI 数据
19、集的 1 979 个样本中达到了86.75%的 Dice 分数。多尺度的结构设计有利于增大网络感受野,适应不同尺寸大小的结节,同时可更好地结合不同层级的语义信息,学习细微特征,减少误判,帮助网络做出合理的决策,并结合注意力机制使网络达到更好的性能。近些年,混合模型也受到了人们的关注和尝试。WANG 等6提出了混合模型(hybrid deep 第 5 期 蒋武君,等:基于通道残差嵌套 U 结构的 CT 影像肺结节分割方法 881 learning model,H-DL)用于分割具有各种大小、形状、边缘和不透明度的肺结节,该模型采用浅层 U网络(基于 VGG19)和深层 U 网络(基于密集连接)共
20、同学习的策略增加复杂肺结节分割的学习能力。将 2 个模型集成得到混合模型 H-DL,结果表明混合模型的分割结果优于单独的 U 结构模型。该方法在 327 个肺结节样本中达到了 0.75 的 Dice分数,接近医生勾勒的分割效果。多分支或混合模型提升了网络的表达和学习能力,使得网络达到更好的性能。以上方法从网络的结构、基本块或瓶颈层设计出发,引入了残差设计、多尺度结构、注意力机制以及混合模型的方法来提高网络对肺结节分割的性能,这些方法的研究是目前肺结节分割的主流方向。除此之外,通过生成训练样本或学习训练样本分布的方式也能达到较好的分割性能表现。训练数据匮乏以及类别不平衡因素一直是影响肺结节分割性
21、能表现的重要原因,数据匮乏会导致模型过拟合或无法收敛,而类别不平衡加大了模型对目标区域的分割难度。SONG 等7针对以上问题采用基于生成对抗网络提出了一种端到端的架构,用于全自动分割多种类型的肺结节。该模型由 2 个分支组成,第一个分支用于潜在肺结节分割和肺结节生成;第二个分支用于减少第一个分支产生的潜在假阳性结节。TYAGI 和 TALBAR8提出了基于条件生成网络的分割方法,通过生成器(基于空间和通道挤压激励模块的 UNet)和鉴别器对抗训练学习数据集的样本分布从而达到更好的分割性能,在 Luna16 数据集中达到了 80.74%的Dice 分数和 85.46%的敏感度。生成对抗网络的训练
22、方式使得网络性能有了更大的提升空间,并且还可以使得模型学习数据的样本分布,相较于有监督学习有着更大的优势。基于 CT 影像的肺结节准确分割任务是计算机辅助肺癌检测/诊断系统的一个关键组成部分。然而,由于肺结节的异质性,目前仍然是一项具有挑战性的任务6。额外的图象去噪操作和冗余的通道特征也进一步的造成了预处理方法复杂和模型臃肿。如何平衡浅层特征细节信息和干扰信息以及减少模型冗余特征,充分发挥模型的表达能力也是一大难题。针对上述问题本文提出将面向医学图像分割的端到端三维通道残差嵌套 U 网络用于精准分割具有不同形状、位置和纹理的肺结节。主要贡献:设计浅层信息处理U结构(shallow inform
23、ation processing U-structure,SIPU)有效平衡浅层特征图中的病灶细节信息和干扰信息,降低预处理样本时方法的复杂度,提升网络的稳定性;设计通道残差结构(channel residual structure,CR),配合不同深度的嵌套 U 结构9-10提升网络的表达和信息交互能力并有效降低网络的参数量和计算量;设计通道挤压 U 结构(channel extrusion U-structure,CEU),配合尺度不变的膨胀卷积模块,实现浅层空间位置信息和深层语义信息有效融合以获得完整的上下文全局特征信息。1 本文方法 本文基于 UNet 网络提出的 3D 通道残差嵌套U
24、 结构网络(channel residual U2Net,CR U2Net)如图 1 所示,包含信息编码和解码 2 个阶段。网络特征图可表示为“通道数分辨率”。输入输出特征图尺寸均为 xCHWD1646464,编码器由Eni,i1,4 4 部分组成,编码器的内部依次是 SIPU(深度为 7)、通道残差 U 结构(channel ReSidual U-structure,CRSUi,i4,5,6)基本块。SIPU 模块用于平衡浅层特征信息,CRSU 模块用于信息编码和传递,其中“4”“5”和“6”表示嵌套 U 结构的网络深度,其由不同的输入尺寸决定的。前 4 个阶 图 1 通道残差 U2Net
25、Fig.1 Channel residual U2Net 882 图像处理与计算机视觉 2023 年 段的输入分辨率依次为 646464,323232,161616 和 888。网络的通道数也由 1 通道依次增加至 32,64,128 和 256。在瓶颈层中设计了CRSU4F模块以及 CEU 模块用于感知和优化前 4 个阶段传递的特征信息,瓶颈层输入特征图大小为256444。解码器由 Dei,i1,4 4 部分组成,同样由 SIPU模块和 CRSU 模块依次填充,同一层解码器基本块与编码器基本块相同。解码器基本块的输入特征图来自同一层编码器基本块的输出特征图与解码器基本块上一层的输出特征图拼接
26、而成。以 De2的基本块输入为例,其输入是来自 En2编码器与De3的拼接特征图。经过特征提取并优化还原后得到预测肺结节区域 Output16464640,1,设置阈值为 0.5,若大于阈值则认为该像素属于肺结节,否则属于背景。1.1 浅层信息处理 U 结构 由于 CT 影像的成像机制以及设备限制等因素会造成 CT 影像中包含高粒度像素,干扰了疾病诊断。为缓解这一问题,常见的方法有连通区域选择11、高斯滤波、金字塔上采样12以及超分辨率等方法。但上述方法增加了样本处理的复杂度和丢失信息的可能性。本文针对网络浅层特征信息保留与优化,对三维残差嵌套 U 七层结构(ReSidual nested U
27、 seven-layer structure,RSU7)进行改进,如图 2 所示。本文在 RSU7结构基础上删除了残差连接(红色区域),得到浅层信息处理 U 结构(shallow information processing U structure,SIPU),也 可 称 为 U7。类 似 的 操 作 可 以 将RSUi,i4F,4,5,6改动得到 Ui,i4F,4,5,6基本块。图 2 残差嵌套 U 结构与浅层信息处理 U 结构 Fig.2 ReSidual nested U structure and shallow information processing U structure(a
28、)RSU7;(b)SIPU(U7)残差连接的设计初衷是为了解决深层神经网络的梯度消失和梯度爆炸问题。随着网络的加深,网络变得难以训练,梯度信息在大量的线性变换过程中逐渐变弱,引入残差连接可有效的缓解这一问题,并在正向传播过程中带来额外的特征信息。针对高质量清晰的训练样本残差结构的设计是有效的,但对复杂训练样本可能并未如此,如CT 影像。在网络浅层原始 CT 影像的信息是较为丰富的,不但包含了许多细节信息,还包含了干扰信息,在使用深层 U 结构优化特征图时,继续使用残差连接可能会进一步导致干扰信息的存在,而降低了权重优化模块的效果和网络的稳定性。在后续的实验中也证明了使用 RSU7结构,在五折交
29、叉验证实验中会存在性能波动的情况,即在某一折性能高于平均水平,另一折远低于平均水平。而 SIPU 结构的使用进一步提升了网络的泛化能力和稳定性。1.2 通道残差 U 结构 首先分析了通道残差结构(channel residual structure,CR)与经典残差结构13的异同。残差连接不仅可以有效缓解梯度消失问题,还可以进一步使得网络专注于需要抽象的特征,残差连接的运算流程可以表示为:x=F(x)+x,其中 F 为权重层,负责对特征的学习与优化;x 为原始特征图,进行恒等映射;x为输出特征图,是经权重层优化后与原始输入特征图 x 的和。第 5 期 蒋武君,等:基于通道残差嵌套 U 结构的
30、CT 影像肺结节分割方法 883 本文的CR如图3所示。与经典残差连接相比,CR 主要有 3 点不同:在权重层 F 前后引入通道拆分与通道打乱操作14,残差结构的相加操作替换为特征拼接操作;将恒等映射操作替换为111 的卷积层(ConvBnRelu,CBR)完成通道维度映射;经典的残差结构使用了完整的输入特征图与权重层优化后的特征图相加,而 CR 使用一半的特征图进行权重优化,另一半的特征图用于残差映射。图 3 通道残差结构 Fig.3 Channel residual structure CR 的设计优点有:(1)网络结构灵活。CR 的权重优化模块 F 可以进行任意替换,一般的权重优化模块也
31、能发挥出优异的性能。(2)有效的信息传递和交互。不同于经典残差结构使用特征图相加,层层递增优化特征图信息的方式,CR 采用逐步优化的方式,将一半的特征图使用 111 的卷积进行映射,卷积映射可以促进通道间的信息交互和特征表达。将另一半特征图通过权重优化层 F 优化,配合特征图拼接调换操作,实现原始特征图和映射特征图的逐步优化,也使得浅层原始信息可以传递至更深层,配合通道打乱操作增加特征之间的交互和信息流动,有助于防止网络过拟合,增强网络的鲁棒性,提高特征表示的多样性和丰富性。(3)参数量和计算量的降低。对于同一权重优化模块,假设输入特征图为 xCHWDR,那么 CR中的权重优化模块 F 和通道
32、残差分支(CBR 路径)处理的特征图大小为(C/2)HWD,而经典残差结构则需要处理 CHWD 大小的特征图,相比之下本文方法降低了近一半的计算量,同时对原始特征信息也有一定保留。通道残差分支进行通道维度映射时,也会增加一定的参数量和计算量,但参数量和计算量增幅并不明显。此外特征拼接操作相较于特征相加操作也会降低一定的计算量。在本文中 CR 中权重优化模块 F 设置为RSUi,i4F,4,5,6模块,嵌套后得到 CRSUi,i4F,4,5,6 4 种通道残差基本块,RSUi,i4F,4,5,6结构以及CRSUi,i4F,4,5,6特征图变化如图 4 所示。以输入尺寸 64323232、输出 1
33、28323232 为例,RSU6模块(图 4(a)的参数量是 2.33 M,计算量是30.59 GMac,在相同情况下,CRSU6参数量为1.83 M,计算量为 14.34 GMac,计算量和参数量降幅明显。1.3 通道挤压 U 结构 配合 CR 的设计可以使特征信息有效的传递至瓶颈层,为了对 En1En4前 4 个阶段的特征信息进行优化,在瓶颈层中设计了 CRSU4F模块以及 图 4 权重优化模块 Fig.4 Weight Optimization Module(a)RSU6;(b)RSU5;(c)RSU4;(d)RSU4F)884 图像处理与计算机视觉 2023 年 CEU。在经过 4 次
34、下采样后,瓶颈层的输入尺寸是256444。在 CRSU4F权重优化模块(图 4(d)中,利用不同膨胀率的膨胀卷积感知通道特征信息。此外为了进一步优化通道内的抽象特征,本文设计提出了 CEU,如图 5 所示。多尺度的设计可以扩大网络感受野,得到更丰富的局部细节以及全局信息,同时 U 结构的设计与卷积层推叠相比极大的降低了细节信息的损失且未显著增加网络的参数量和计算量,本文受到该思想的启发,在通道维度上对通道特征进行多尺度采样,在不改变输入特征图尺寸大小的情况下实现了对特征信息的优化。图 5 通道挤压 U 结构 Fig.5 Channel Extrusion U structure CEU 基本块
35、采用 333 大小的卷积核在通道维度上进行逐步上、下采样,模块内特征图通道变化如图 5 所示,利用跳跃连接弥补通道下采样的信息丢失。此外,比较逐层通道下采样与直接通道下采样,二者虽然均可降低大量的参数和运算量并产生通道挤压的效果,但是逐层通道挤压避免了在通道上、下采样时丢失大量的特征信息。跳跃连接也缓解了通道挤压过程丢失的特征信息,相较于直接通道下采样效果更好,后续实验本文使用 CBAM 方法中的通道注意力(channel attention,CA)模块进行对比,实验结果也证明了该结论。2 实验结果与分析 2.1 数据集 本文实验选用Lung Image Database Consortium
36、 and Image Database Resource Initiative(LIDC-IDRI)15数据集,其是当前世界上最大的公开肺癌数据集,共收录了 1 018 个研究病例,其中 CT 影像的病灶信息最多由 4 位医生标注。本文按照 Luna1616数据集的样本筛选策略(CT 层厚小于 2.5 mm,肺结节直径大于 3 mm,多名医生标注)挑选出 1 186 个肺结节训练样本6,8。2.2 实验平台 本文选用Ubuntu 18.04.3 LTS操作系统作为实验的基础平台,CPU型号为Intel(R)Xeon(R)-Gold 6140,内存大小为 187.4 G,软件环境以 Python
37、 3.8,Conda 10.1 和 Pytorch 1.8.1 在 Tesla V100-SXM2-32GB 显卡上进行实验。2.3 影像预处理 肺结节 CT 影像预处理步骤如下:步骤 1.金标准(ground turth,GT)。首先依据肺结节质心位置坐标,将同一 CT、同一结节掩码聚类,并使用开源 Pylidc 工具库对不同医生的标注结果求均值,clevel 设置为 0.56,获得金标准如图 6 所示。均值结果的使用相较于单一肺结节标注结果拥有更为可靠的病灶区域,是常见的处理手段。步骤 2.区域重采样。将裁剪区域重采样至1 mm,并将重采样后的影像块放缩至 64646417。步骤 3.影像
38、标准化。本文使用 Z-score 对肺结节影像标准化,使得 CT 影像数据转化为标准的正态分布,有效提升网络训练的稳定性。图 6 不同医生标注及均值结果(a)肺结节;(b)标注 1;(c)标注 2;(d)标注 3;(e)标注 4;(f)均值结果)Fig.6 Different physician labels and average results (a)Nodule;(b)Label 1;(c)Label 2;(d)Label 3;(e)Label 4;(f)Mean result)2.4 训练设置 对比模型均采用了相同的实验设置,实验结果为 5 折交叉验证的均值。在训练阶段,将数据集拆分为
39、 5 份7,轮流将其中 4 份作为训练集,剩余一份作为验证集,通过水平、垂直翻转增加训练样本,提升网络的鲁棒性。优化器选用 Adam,初始学习率为 0.000 3,Batch Size 大小为 8,训练最大迭代次数为 600,损失函数选择为 Dice 损失函数18。为防止模型过拟合,在 10 轮训练中未达到更小的损失时,提前结束模型训练。2.5 评估指标 本文选择查准率(precision,PRE)、查全率或称敏感度(sensitivity,SEN)、Dice 系数(DSC)及均交并比(mean intersection over union,mIoU)作为分割的评估指标。Dice 系数能够同
40、时考虑查准率和查全率,将其作为主要的评估指标,即 第 5 期 蒋武君,等:基于通道残差嵌套 U 结构的 CT 影像肺结节分割方法 885 TPPRETPFP(1)TPSENTPFN(2)2TPDSCTPFPTPFN(3)011KiTPmIoUKTPFPFN(4)其中,TP为预测正确样本的个数,即真阳性;FN为预测为负样本,实际上是正样本的个数,即假阴性;FP为预测为正样本,实际为负样本,即假阳性。2.6 模型性能对比 2.6.1 与现有文献方法对比 表1总结了不同3D肺结节分割方法所使用的数据集、输入尺寸、样本数量以及Dice系数等。目前研究多使用LIDC-IDRI数据集,并采用不同的样本选取
41、策略筛选训练样本。本文实验使用了LIDC-IDRI数据集中1 186个训练样本数据,遵循大部分研究者通用的实验条件和样本选取策略对肺结节分割算法进行研究。其中,文献1,6,8,19的方法依次取得了80.50%,79.60%,80.74%,80.89%,本文方法以646464为输入尺寸的情况下达到了83.83%的DSC指标,是目前较为领先的方法之一。此外,为了验证模型稳定性,采用五折交叉验证的实验设置,且在训练样本一致的情况下,更能反映模型的稳定性,避免了因为训练集和验证集划分不均衡导致的精度过高或过低现象。虽然一折验证的性能结果可能更好,但其方法的有效性还需要进一步讨论,如文献5和钟思华等20
42、的方法。2.6.2 与开源模型性能比较 为了验证本文方法的有效性,选择与近些年MIA,TMI,MEDICAL PHYSICS和MICCAI等期刊会议医学图像分割任务中的三维开源模型进行对比,包括UNet21,YNet22,UNet+17等经典模型,一些较新的卷积医学分割模型:WingsNet23,ReconNet24,PCAMNet25以及基于Transformer技术的分割模型:TransBTS26,Unetr27和ASA28。表2展示了各模型以646464为输入尺寸在肺结节分割任务中的性能表现。在传统的卷积分割模型中,UNet网络作为基准模型DSC性能表现为79.01%,性能表现最好的是P
43、CAMNet模型达到了82.57%。基于Transformer技术的三维分割模型中DSC表现较好的有ASA以及Unetr,分别达到了81.5%和79.34%。与基准模型UNet相比,本文方法提升了3.98%,与UNet+相比本文方法提升了1.56%,与PCAMNet相比本文方法提升了1.26%。2.7 消融实验 将UNet网络的基本块替换为RSUi,i4F,4,5,6,7模块获得基准模型Base,称为5阶段U2Net,该模型的设计是为了验证在相同深度下嵌套U结构的性能表现。此外根据替换基础网络(Base)的基本块结构进行命名。如,用BaseSIPU表示网络第一层使 表 1 不同肺结节分割方法一
44、览表 Table 1 Summary of different segmentation methods for pulmonary nodules 方法 数据集 输入尺寸 样本数量交叉验证DSC样本选取策略 传统肺结 节分割 方法 文献29 模拟数据 LIDC-IDRI-108 82 否 93.3090.10管电流:30197 mA,切片厚度:0.625 mm 管电流:40582 mA,切片厚度:0.6253.000 mm 文献30 LIDC-IDRI LC015-2 651 1 186 否 69.9076.00-基于深度 学习的肺 结节分割 方法 文献20 LIDC-IDRI 646432
45、 728 否 88.18切片厚度2.5 mm、肺结节直径3 mm 文献7 LIDC-IDRI 私有 2562563 2 635 3 200 5-折交叉82.0581.61依据 LIDC 结节尺寸报告 由至少 2 名经验丰富的医生筛选 文献1 LIDC-IDRI 484816 1 074 否 80.50至少 3 名医生进行标注 文献3 LIDC-IDRI 646464-否 83.00随机选取 300 个 CT 文件 文献8 Luna16 ILND 646432 835 200 否 80.7476.36切片厚度2.5 mm、肺结节直径3 mm 丢弃切片数量太少或数据不完整的 CT 文献5 LIDC
46、-IDRI 646464 1 979 否 86.75肺结节直径3 mm 文献6 Luna16 646432 1 086 否 79.60切片厚度2.5 mm、肺结节直径3 mm 文献4 LIDC-IDRI 646464 2 885 否 75.007 mm 肺结节直径45 mm 文献19 LIDC-IDRI-1 131 否 80.89肺结节直径3 mm 本文方法 LIDC-IDRI 646464 1 186 5-折交叉83.83切片厚度2.5 mm、肺结节直径3 mm 注:加粗数据为对比算法及最优值 886 图像处理与计算机视觉 2023 年 表 2 与开源方法的性能对比 Table 2 Comp
47、arison with open source methods 方法 评估指标 PRE SEN DSC mIoU Param FLOPs UNet 82.16 81.99 79.85 84.00 16.32 237.01 YNet 80.27 83.87 79.53 83.71 33.28 297.05 UNet+83.49 84.32 82.27 85.37 9.64 74.54 WingsNet 83.02 84.79 82.44 85.42 1.47 38.55 ReconNet 82.94 82.22 80.46 84.34 4.08 59.64 PCAMNet 82.83 85.10
48、 82.57 85.51 9.44 12.30 采用 Transformer 技术的 3D 分割模型 TransBTS 83.22 78.93 78.67 83.05 30.95 32.68 Unetr 83.57 79.96 79.34 83.49 92.34 21.49 ASA 82.17 84.57 81.50 84.86 85.29 52.86 本文方法 84.15 86.03 83.83 86.40 44.70 101.72 注:加粗数据为最优值 用SIPU模块,而其余结构与Base模型相同。BaseUall表示Base模型的基本块替换为Ui,i4F,4,5,6,7结构(1.1小节)
49、。2.7.1 浅层信息处理U结构验证 图7为Base,BaseSIPU以及BaseUall模型在5折交叉验证下模型性能变化图,表3中Eni/Dei,i1,4及瓶颈层中的加粗模块表示相邻模型的主要区别。观察可知,三者的参数量和计算量无明显变化,但3种模型的DSC性能逐步提升,依次为82.77%,82.96%和83.08%。且BaseUall模型的查全率、DSC及mIoU高于前两者。更高的查全率对于医学分割任务来说是有利的,避免了在临床使用时的漏诊和误诊问题。但该模型的查准率出现了明显的下降,BaseSIPU模型的查准率是最高的,达到了84.99%。图7展示了各模型5折交叉验证中的表现,BaseS
50、IPU多数情况下是优于Base模型的,BaseUall在Fold 1的性能表现远远优于其他模型结构,这不排除是测试样本划分不均衡造成的假象,造成了DSC的明显提升。整体看BaseSIPU模型稳定性在交叉验证中表现是最好的。图 7 不同 U 结构下的性能变化 Fig.7 Performance variation under different U-structure 表 3 浅层信息处理 U 结构验证 Table 3 Shallow information processing U-structure verification 方法 En1/De1 En2/De2 En3/De3 En4/De