基于CNN和Transformer耦合网络的低剂量CT图像重建方法.docx

资源描述

基于 CNN 和 Transformer 耦合网络的低剂量 CT 图像重建方法摘要：在投影角度个数不变的情况下，降低每个角度下的射线剂量，是一种有效的低剂量 CT 实现方式，然而，这会使得重建图像的噪声较大。当前，以卷积神经网络（CNN）为代表的深度学习图像去噪方法已经成为低剂量 CT 图像去噪的经典方法。受 Transformer 在计算机视觉任务中展现的良好性能的启发，本文提出一种CNN 和Transformer 耦合的网络（CTC），以进一步提高 CT 图像去噪的性能。CTC 网络综合运用 CNN 的局部信息关联能力和 Transformer 的全局信息捕捉能力，构建 8 个由CNN 部件和一种改进的Transformer 部件构成的核心网络块，并基于残差连接机制和信息复用机制将之互联。与现有 4 种去噪网络比较，CTC 网络去噪能力更强，可以实现高精度低剂量 CT 图像重建。关键词：低剂量CT；自注意力机制；卷积神经网络；残差连接计算机断层成像（computed tomography，CT）技术[1]是基于不同物质对X 射线的衰减不同，使用X 射线源和探测器阵列，对物体进行多个不同角度的扫描，再经过重建算法获得被检物体各个断层图像的影像技术[2] 。但较大的 X 射线剂量会引起一定的辐射危害，人们通过降低辐射剂量获取低剂量 CT 图像[3] ，减小辐射危害风险。但随着 X 射线剂量的降低，重建出的 CT 图像噪声较大，严重劣化图像质量，影响后续的医学诊断[4] 。近年来，为了解决这一问题，人们提出了许多算法来改善低剂量 CT 图像质量，其中，卷积神经网络（convolutional neural networks，CNN）[5] 已被证明在解决图像去噪任务方面具有很好的潜力，并能取得比传统方法更好的性能[6]。对于现有的 CNN 图像去噪网络，研究人员设计了多种不同的模型结构，包括全连接卷积神经网络、具有残差连接[7]的卷积编码解码网络、以及一些使用 3D 信息的网络变体[8] 等，所以 CNN 已成为解决低剂量 CT 图像去噪问题的重要方法之一[9]。卷积神经网络凭借其强大的非线性映射能力在图像去噪领域的应用越来越广泛。2016 年 Zhang等[10]提出了DNCNN 网络，一种利用残差学习和批归一化进行端到端可训练的深度卷积来进行高斯去噪；2017 年 Chen 等[11]提出了RED-CNN 网络，将残差连接运用于编码器和解码器之间以弥补上采样造成的信息失真等问题；2018 年 Zhang 等[12]提出了FFDNet 网络，将高斯噪声泛化为更加复杂的真实噪声，并将噪声水平图作为网络输入的一部分，通过调整噪声水平进行更加灵活的去噪；2019 年 Anwar 等[13]提出了RIDNet 网络，使用特征注意力机制加强了网络的通道依赖性，并采用模块化结构实现了对真实图像的盲去噪能力；2020 年 Tian 等[14]提出BRDNet 网络，使用两个并行的网络模型，并通过扩张卷积提升感受也获取更多细节信息。卷积神经网络对处理低剂量 CT 图像的复杂噪声具有很大的优势，能在保证去噪效果的同时更好地保留图像的细节和边缘信息[15] ，但同时也存在来自基本卷积层的两个问题。首先，图像和卷积内核之间的交互作用是与内容无关的，使用相同的卷积核来恢复不同的图像区域可能不是最好的选择；其次，在局部处理的原理下，卷积对于长期依赖建模是无效的[16]。针对以上问题，最近 Transformer 以一种自注意机制的方式来捕获上下文之间的全局交互[17] ，并利用其对数据中远程依赖进行建模使其在计算机视觉领域大放光彩[18] 。其中， 2020 年 Google 团队提出 Vit Transformer，该网络模型首次将 Transformer 应用于图像分类任务，将整幅图像拆分成小图像块，然后把这些小图像块的线性序列作为 Transformer 的输入，使用监督学习的方式进行训练[19]；2021 年 Liu 等[20]提出了Swin Transformer 网络架构，利用滑动窗口和分层结构，将注意力的计算限制在一个窗口中，在更好的利用细节信息的同时减少了计算量；2021 年 Wang 等[21]提出了一种Uformer 网络模型，设计了具有局部增强能力的 Transformer 模块，使用跳跃连接机制更有效的将编码器的信息传递到解码器。受上述启发，本文提出一种 CNN 和 Transformer 耦合的网络（ CNN-transformer- coupling network，CTC），利用多残差机制和信息复用机制，实现高精度低剂量 CT 图像重建。 1 方法低剂量 CT 图像去噪对临床医学诊断具有重要意义，深度学习法可以从大量的数据集中学习到难以被数学建模的图像特征和先验信息，具有很大的优势。近几年来，随着 Vit Transformer 的开创，Transformer 在计算机视觉领域表现出巨大的应用潜力[22]。受 Swin Transformer 的启发，本文将具有全局建模能力的 Transformer 和具有捕获局部特征的 CNN 有机的耦合，提出以 CNN 部件和一种改进的 Transformer 部件构成的核心网络块，即 CNN 和 Transformer 耦合模块（CNN-transformer-coupling block，CTCB）[23] ，且为更好的提取图像中的边缘轮廓信息，我们使用多方向的索贝尔算法作为图像边缘增强模块（ image edge enhancement block，IEEB）的主要构成，实现有效去噪的同时保留了更完整的图像细节信息。 1.1 CNN 和 Transformer 耦合模块（CTCB）本文中提出的 CNN 和 Transformer 耦合模块（CTCB）由 3 部分组成，第 1 部分是 3 × 3 的卷积层（conv）；第 2 部分是归一化层（layer normalization），多头自注意力（W-MSA）和 GRLU 激活函数；第 3 部分是归一化层（layer normalization），具有滑动窗口的多头自注意力（SW-MSA）和 GELU 激活函数，且采用了多残差机制。 CNN 和 Transformer 耦合模块（图 1），实现了 CNN 和 Transformer 优势的融合。这样设计的网络，一方面具有 CNN 的局部感知和参数共享特性，将原始图像作为输入，直接从大量样本中学习相应特征，避免使用复杂的特征提取过程捕获局部结构；另一方面又具有 Transformer 的动态注意全局特征和更好的泛化能力，且运用了滑动窗口机制，能在参数较少的情况下提取有效信息实现去噪。图 1 CNN 和 Transformer 耦合模块示意图 Fig.1 CNN-Transformer-Coupling block 具体过程是将 H × W ×C 的矩阵作为输入，其中 H × W 为输入图像的大小， C 为输入通道数。通过卷积变换，将输入划分为不重叠的 M × M 局部窗口，窗口总数为 HW/M2 ，则输入转化为 (HW/M2 ) × M2 ×C 对每个窗口分别进行注意力 A 计算，对于窗口特征 X ∈ RM2 ×C 对应的 Query，Key，Value 矩阵计算为： Q = XPQ ，K = XPK ，V = XPV ，（1）其中 PQ ， PK ， PV，是跨不同窗口共享的投影矩阵，且 Q ， K ， V ∈ RM2 ×d ，其中 d 为 Q/K 的维度，则注意力矩阵在对应窗口中自注意力机制计算为：其中B 是可学习的相对位置编码。本文实现两次自注意力计算，并将结果串联起来构成多头自注意力（W-MSA），之后连接 GELU 非线性激活层完成第 2 部分。第 3 部分通过移动窗口，再次进行多头自主注意力机制（SW-MSA），并连接 GELU 非线性激活层。 1.2 图像边缘增强模块（IEEB）常用于边缘检测的索贝尔算子使用简单、处理速度快且对噪声具有平滑抑制作用，所得图像边缘光滑且连续[24] 。为更好的提取图像信息，本文中的图像边缘增强模块利用 0。、 45。、90。、135。、180。、225。、270。、315。这 8 个方向的索贝尔算子矩阵模板（3 × 3）与对应的图像进行卷积，每个模板对相应方向的边缘影响最大，如图 2（a）所示。且该模块中加入可学习参数 α , 可以在训练过程中进行自适应调整，提取不同强度的细节信息，以更好的适用于肺部、腹部和头部的边缘提取。 -α -2α -α 0 0 0 α 2α α -α 0 α -2α 0 2α -α 0 α 0 α 2α -α 0 α -2α -α 0 具体流程图如图 2（b）所示，索贝尔算子的中心与要检测的像素点相对应，进行卷积运算后，得到一组用于提取边缘信息的特征图。该模块将其与输入的低剂量 CT 图像在通道维度上叠加在一起，得到一幅边缘增强图像。 -2α -α 0 -α 0 α 0 α 2α α 2α α 0 0 0 -α -2α -α α 0 -α 2α 0 -2α α 0 -α 0 -α -2α α 0 -α 2α α 0 0。 45。 90。 135。 2α α 0 α 0 -α 0 -α -2α 180。 225。 270。 315。（a）索贝尔算子矩阵模板示意图（b）图像边缘增强模块流程图图 2 图像边缘增强模块示意图 Fig.2 Image edge enhancement block 1.3 网络结构整体设计本文提出的 CTC 网络结构如图 3 所示，用于低剂量 CT 图像去噪。整个网络模型共有 9 层，其中前 8 层结构一致，每一层由 CNN 和 Transformer 耦合模块（CTCB）、图像边缘增强模块（IEEB）和 3 × 3 卷积层组成。输入的图像经过图像边缘增强之后，得到的特征图像通过残差连接与 CNN 和 Transformer 耦合模块以叠加通道数的方式进行融合。之后运用 3 × 3 的卷积使通道数转换为 32，以保证传播过程中通道数不发生变化，目的是尽可能地保留图像的细节信息，充分利用提取的边缘信息和原始输入。运用多残差机制有效避免了因网络过深而带来的梯度消失和梯度爆炸问题，更合理的利用图像信息。 nt block ling block Fig.3 The architecture diagram of the CTC network 采用图像边缘增强的信息复用机制，在每一个单元与核心模块融合再利用，使图像的轮廓更加突出，保留更加完整的细节信息。网络中通道数为 32，自注意力头数为 2。最后一层为 1 × 1 的卷积层，将通道数转换为输出通道数，并输出图像。受 Swin Transformer 的启发，我们在多头自注意力计算后采用多层感知器（MLP）[25]进行特征变换作为实验对比分析。该感知器具有两个全连接的层，层之间具有 GELU 非线性。为探索更优性能且考虑模型大小与时间复杂度问题，加快模型的收敛性，简化模型的主要结构的任务，本文中的Transformer 部件未加入多层感知器。后续加入多层感知器后的网络模型作为对比实验，我们标记为 CTC + ，在第 3 章第 1 节中具体说明。 2 实验设计 2.1 数据集的构建实验中所用数据集来自癌症成像档案（TCIA）提供的 AAPMMayo 诊所 2016 年低剂量 CT 挑战大赛更新后的数据集。该数据集包含从 140 例患者中收集的 3 种 CT 扫描类型，分别为腹部（C 系列）、胸部（L 系列）和头部（N 系列），收集自 48、49 和 42 例患者。每个患者的数据包括 1/4 剂量 CT 图像（LDCT）和相应的正常剂量 CT 图像（NDCT）。本文从中选取了 5000 对数据，图像大小为 256 × 256，其中 90％作为训练集，10％作为测试集，C 系列选取 2400 对，L 系列选取 2400 对，N 系列选取 200 对。 2.2 网络训练环境和超参数设定在网络训练过程中，使用的 CPU 是 Inter（R）Xeon（R）CPU E5-2620 v4 @ 2.10GHz， GPU 是 NVIDIA Geforce GTX 1080Ti。本实验在 Windows 操作系统下，使用 python 语言 Pytorch 深度学习框架实现。在实验中，本网络的损失函数使用均方误差（MSE）函数，采用Adam 优化器对损失函数进行优化，训练次数为 100 个 epoch，初始学习率为 2 × 10-3 ，下降到 2 × 10-4 ，训练过程中 batch size 为 6。 2.3 图像质量评价标准本文使用 3 种图像质量评价标准，分别为均方根误差（RMSE）E、峰值信噪比（PSNR） R 和结构相似度（SSIM）S，对实验中的网络进行定量描述。E 跟踪两幅图像之间的绝对像素到像素的损失；R 以降噪为目标，是衡量重建图像质量的一种指标；S 是一种关注于图像中可见结构的感知度量，是对视觉质量的度量，由亮度、对比度、结构 3 个模块组成。E， R ，S 的定义为：（3） R = 10lg （5）其中，公式（3）和公式（4）中 x 表示低剂量CT 图像，y 表示高质量图像， N2 是图像像素总数；公式（5）中 E2 为均方根误差的平方，max(I) 为图片可能的最大像素值；公式（4）中 μx 是 x 的平均值， μy 是y 的平均值， σx(2)是 x 的方差， σy(2)是y 的方差， σxy 是 x 和y 的协方差， c1 ，c2 是常数。 3 实验结果与分析 3.1 低剂量 CT 图像重建方法比较实验采用随机选取的 5000 对数据集，将 DNCNN、RED-CNN、BRDNet、Uformer 4 个经典网络与 CTC 网络及 CTC + 网络进行比较，使用峰值信噪比 R 、结构相似度 S 和均方根误差 E 评估算法的去噪性能和重建的低剂量 CT 图像的质量。表 1 给出了不同网络结构对低剂量 CT 图像去噪结果的定量比较。图 4～图 6 分别为 5 种网络结构的定性比较，其中图 4 选择了 C 系列（肺部）的去噪效果图，图 5 为图 4 的局部放大图，图 6 选择了L 系列（腹部）的去噪效果图，图 7 为图 6 的局部放大图。表 1 低剂量 CT 图像重建实验对比结果 Table 1 Experimental comparison of low dose CT image reconstruction 指标 DNCNN RED-CNN BRDNet Uformer CTC CTC+ R 31.518 32.325 33.232 33.223 33.574 33.695 S 0.941 0.944 0.954 0.947 0.957 0.958 E 0.028 0.025 0.023 0.023 0.022 0.022 训练时长/h 3.51 9.00 10.12 14.43 13.33 21.66 参数量/G 4.32 6.14 7.83 10.63 9.98 11.62 （a）低剂量CT图像（b）DNCNN （c）RED-CNN （d）BRDNet （e）Uformer （f）CTC （g）CTC+ （h）高质量图像图 4 肺部去噪效果图（显示窗口为 [0,1]） Fig.4 Lung denoising results (display window: [0,1]) （a）低质量（b）DNCNN （c）RED-CNN （d）BRDNet （e）Uformer （f）CTC （g）CTC+ （h）高质量图 5 肺部去噪效果局部放大图（显示窗口为 [0,1]） Fig.5 Local amplification of lung denoising effect (display window: [0,1]) （a）低剂量CT图像（b）DNCNN （c）RED-CNN （d）BRDNet （e）Uformer （f）CTC （g）CTC+ （h）高质量图像图 6 腹部去噪效果图（显示窗口为 [0,1]） Fig.6 Abdomen denoising results (display window: [0,1]) 由表 1 可见，我们提出的 CTC 网络模型在 R 、S 和 E 指标上都优于其他 4 种网络模型，表明该模型可以在有效去噪的同时保留更多的细节信息。如图4 所示，对于肺部 CT 图像的处理，CTC 网络模型效果最佳。图中红色框区域中该网络肺泡数量最多，且边界最为明显，更有利于医学诊断，详细细节信息可在图 5 中观察到。如图 6 所示，对于腹部 CT 图像的处理，DNCNN 和 RED-CNN 网络去噪效果图过于平滑，细节信息较少。如图中红色框区域所示，CTC 网络模型在细节方面显示最为明显，器官的轮廓也最为清晰。详细细节信息可在图 7 中观察到。CTC 与 CTC + 在数值分析上差值较小，在实验中 CTC + 用时较长，且二者去噪效果图视觉上难于区分优劣。综合考虑时间与性能，我们选取 CTC 网络模型实现低剂量 CT 图像去噪。（a）低质量（b）DNCNN （c）RED-CNN （d）BRDNet （e）Uformer （f）CTC （g）CTC+ （h）高质量图 7 腹部去噪效果局部放大图（显示窗口为 [0,1]） Fig.7 Local amplification of abdomen denoising effect (display window: [0,1]) 3.2 内部结构规律探索在其他参数一致的情况下，使用峰值信噪比和结构相似度两项客观指标评估 CNN 和 Transformer 耦合模块（CTCB）的数量对网络结构的影响。不同 CTCB 数量下 R 和 S 值的折线图如图 8（a）和图如图 8（b）所示。从中可以看出，网络性能与 CTCB 数量成正比，且随着层数的增多，网络性能逐渐达到饱和。综合考虑网络复杂性、网络性能与训练时长等因素，我们将该网络的 CTCB 数量设置为 8。 R S （a）CTCB 数量（b）CTCB 数量图 8 CTCB 数量对实验结果的影响示意图 Fig.8 Influence of CTCB quantity on experimental results 3.3 消融实验为了讨论 CTC 网络中图像边缘增强模块对其性能的影响，我们去除 CTC 网络中的图像边缘增强模块，将其标记为 CTC-，并与 CTC 网络进行定量和定性分析，其结果如表 2 和图 9 所示。由表 2 可见，CTC 网络模型的 3 项评估指标均优于 CTC-，其中 PSNR 指标提升最为明显，表明 CTC 网络去噪效果更优。图 9（e）与图 9（d）对应的黄色区域显示 CTC 网络具有更好的性能，更完备的信息，更适合医学诊断。 CTC 网络模型中的图像边缘增强模块使用 8 个方向的索贝尔算子，我们对 0。、90。、 180。、270。4 个方向的索贝尔算子进行实验与比较。实验结果如图 9 所示，对于腹部低剂量 CT 图像，图 9（c）中 8 个方向的索贝尔算子比图 9（b）中 4 个方向的索贝尔算子表 2 图像边缘增强优化器的影响实验结果 Table 2 Effect of image edge enhancement block on experimental results 网络模型评估指标 R S E CTC- 33.310 0.954 0.023 CTC 33.574 0.957 0.022 呈现更多的细节信息，所以我们使用8 个方向的索贝尔算子作为图像边缘增强模块。（a）低剂量 CT 图像（b）4 个方向检测结果图（c）8 个方向检测结果图（d）CTC- （e）CTC （f）高质量图像图 9 对比实验效果图 Fig.9 Ablation Study results 4 总结本文提出的 CTC 网络综合运用了 CNN 的局部信息关联能力和 Transformer 的全局信息捕捉能力，使网络具有 CNN 的局部感知和参数共享特性的同时具有 Transformer 的泛化能力。运用滑动窗口机制，更好地利用图像信息且减少了计算量。使用多残差机制有效避免因网络过深而带来的梯度消失和梯度爆炸等问题。网络中的图像边缘增强模块对不同部位的低剂量 CT 图像中的边缘信息进行提取利用，使得更多的细节信息得以保留。与现有的4 种经典网络对比，本文提出的 CTC 网络在低剂量 CT 图像去噪任务中，表现出更优的性能。该网络可以有效去噪的同时保留更完整的图像细节信息，具有一定的医学应用价值。未来，我们计划基于提出的 CTC 网络模型进一步探索更优的网络结构，引入多损失机制并将其扩展到其他图像处理任务中。参考文献 [1] BRENNER D J, HALL E J. Computed tomography: An increasing source of radiation exposure[J]. New England Journal of Medicine, 2013, 357(22): 2277−2284. [2] KOLTAI P J, WOOD G W. Three dimensional CT reconstruction for the evaluation and surgical planning of facial fractures[J]. Otolaryngology-Head and Neck Surgery, 1986, 95(1): 10−15. [3] MING C, LI L, CHEN Z, et al. A few-view reweighted sparsity hunting (FRESH) method for CT image reconstruction[J]. Journal of X-ray Science and Technology, 2013, 21(2): 161−176. [4] KANG E, MIN J, YE J C. A deep convolutional neural network using directional wavelets for low-dose X-ray CT reconstruction[J]. Medical Physics, 2017, 44(10): e360−e375. [5] PRASOON A, PETERSON K, IGEL C, et al. Deep feature learning for knee cartilage segmentation using a triplanar convolutional neural network[C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, Berlin, Heidelberg, 2013: 246-253. [6] YANG Q, YAN P, ZHANG Y, et al. Low-dose CT image denoising using a generative adversarial network with wasserstein distance and perceptual loss[J]. IEEE Transactions on Medical Imaging, 2018: 1348−1357. [7] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778. [8] YANG D, SUN J. BM3 D-Net: A convolutional neural network for transform-domain collaborative filtering[J]. IEEE Signal Processing Letters, 2017, 25(1): 55−59. [9] SINGH R, WU W, WANG G, et al. Artificial intelligence in image reconstruction: The change is here[J]. Physica Medica, 2020, 79: 113−125. [10] ZHANG K, ZUO W, CHEN Y, et al. Beyond a gaussian denoiser: Residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing, 2016, 26(7): 3142−3155. [11] CHEN H, ZHANG Y, KALRA M K, et al. Low-dose CT with a residual encoder-decoder convolutional neural network (RED-CNN)[J]. IEEE Transactions on Medical Imaging, 2017, 36(99): 2524−2535. [12] ZHANG K, ZUO W, ZHANG L. FFDNet: Toward a fast and flexible solution for CNN based image denoising[J]. IEEE Transactions on Image Processing, 2018. [13] ANWAR S, BARNES N. Real image denoising with feature attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3155-3164. [14] TIAN C, XU Y, ZUO W. Image denoising using deep CNN with batch renormalization[J]. Neural Networks, 2020, 121: 461−473. [15] MA Y, WEI B, FENG P, et al. Low-dose CT image denoising using a generative adversarial network with a hybrid loss function for noise learning[J]. IEEE Access, 2020, 8. DOI:10.1109/ACCESS.2020.2986388. [16] LIANG J, CAO J, SUN G, et al. Swinir: Image restoration using swin transformer[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 1833-1844. [17] YUAN K, GUO S, LIU Z, et al. Incorporating convolution designs into visual transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 579-588. [18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017. https://doi.org/10.48550/arXiv.1706.03762. [19] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16 × 16 words: Transformers for image recognition at scale[J]. arXiv Preprint arXiv: 2010.11929, 2020. [20] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer

展开阅读全文