资源描述
基于深度学习的低剂量 CT 成像算法研究进展
摘要:计算机断层扫描成像(CT)技术具有成像速度快分辨率高的优点,广泛应用于医学临 床诊断中。然而,提高剂量辐射会引发人体组织器官受损,降低剂量又会造成成像质量严重 下降。为解决上述矛盾,在确保成像质量满足临床诊断需求的条件下,研究如何最大程度地 降低 X 射线辐射对人体造成的伤害,已成为低剂量 CT 成像技术的研究热点。近年来,在人工 智能领域深度学习方法快速发展,已广泛应用于图像处理、模式识别、信号处理等领域。与 此同时,大数据驱动下的深度学习方法在 LDCT 成像领域的应用也有了长足的发展。本文从 CT 成像的过程、低剂量 CT 噪声建模以及成像算法的设计 3 方面,介绍近年来国内外低剂量 CT 成像算法的发展,尤其对深度学习领域的成像算法进行阐述与分析,并对 LDCT 图像成像 领域未来的发展进行展望。
关键词:深度学习;低剂量CT;伪影抑制;噪声建模
计算机断层扫描成像(computed tomography,CT)是一种广泛应用于生物医学、图像引 导介入、安检、工农业生产、地球物理与石油勘测[1]等领域的无损检测技术。作为医学诊 疗的重要辅助手段,CT 成像速度快、精度高,可以完整呈现被检查部位的三维信息,且在骨 伤、肿瘤与节点、血管病变与肺部积水、细胞癌变等的检测中发挥着不可替代的作用[2]。
目前,常规体检、特定医学诊疗等均需按照要求对被检者进行不同程度的 CT 检查。有 资料表明,在美国,CT 检查占所有放射检查的 13% ,但其导致患者接受的辐射剂量却占患 者接受的全部辐射剂量的 70% [3] 。一般地,人体做一次胸部 X 射线平片检查所承受的辐射 剂量大约为 0.1mSv,而 CT 检查需要重复使用 X 射线进行多角度扫描,致使人体承受的辐 射剂量比普通平片检查高得多。例如,人体在一次常规胸部 CT 检查中所受辐射剂量大约是 一次胸部平片检查的 100 倍,乳腺钼靶检查的 10 倍,而对于癌症患者接受多排 CT 或 CT 增 强扫描所承受的辐射剂量则更大。伴随着 X 射线辐射而来的潜在危害包括白内障、新陈代 谢异常、生育功能退化、染色体变异导致的胎儿畸变以及癌症等[4] 。由于体质弱于成年人, 儿童遭受辐射伤害后引发疾病的比例更高,一份来自英国的调查结果表明,在被调查的 15
周岁以下儿童中,有约 1/500 死于腹部 CT 扫描引发的癌症,约 1/1500 死于脑部 CT 扫描引 发的癌症[5] 。相对较高的辐射剂量已成为制约CT 成像技术在医学诊疗领域进一步发展的一 个重要因素。因此,降低 CT 扫描的辐射剂量已刻不容缓。然而,辐射剂量降低会引起 “光子饥饿 ”现象,导致重建图像中产生条纹伪影与斑点噪声,进而影响医学诊断的准确 性,尤其易导致对面积小、形态细微的早期病变的误诊和漏诊。在此背景下,衍生出了 CT 成像领域的一个重要研究方向−低剂量 CT(low-dose CT,LDCT)技术。
低剂量 CT 成像算法
自 LDCT 出现以来,针对如何提高低剂量条件下 CT 成像质量这一问题,学者们从降低扫 描剂量[6-7] 、提升硬件性能[8]与改善成像算法3 个角度出发,做了大量研究尝试[9] 。首先,由于 管电流与辐射剂量之间呈正相关且操作简单,降低管电流是目前临床应用中最常用的降低 X 射线剂量的方式之一。然而此方法的最大弊端在于获取的 LDCT 图像密度分辨率较低、出 现明显斑点噪声和条状伪影[6];其次,降低管电压也是降低 X 射线辐射的一种选择,然而管 电压降低的同时 X 射线的穿透能力也将随之下降,进而导致成像质量严重退化。此外,减 少 X 射线数目也是降低辐射剂量的主要方式,这类方法(如内部扫描、少视角、有限角度)获取 的投影数据不完备,对重建算法性能有更高的要求[7] 。如图 1 所示,LDCT 成像算法主要分为 投影域方法、重建方法、后处理方法三方面,在下文中我们分小节进行了详细阐述。
投影域方法(观测数据统计建模、投影域滤波与迭代算法、基于深度学习的投影域处理)
重建方法(解析法、迭代法、基于深度学习的重建方法)
后处理方法(传统图像后处理算法、基于深度学习的图像后处理)
图 1 低剂量 CT 成像算法分类
Fig.1 Classification of low dose CT imaging algorithms
1 投影域方法与重建方法
1.1 投影域方法
投影数据采集是 LDCT 成像的前提条件和关键步骤,然而,由于受硬件设备、外部环境 等客观因素制约,实际 CT 扫描系统采集到的投影数据常被大量光子噪声与电子噪声污染, 这也是重建图像中出现复杂条状伪影与斑点噪声的主要原因。近年,许多学者致力于研究 投影数据的预处理方法,该类方法以投影数据为分析对象,研究如何改善采用滤波反投影 (filtered back projection,FBP)方法重建出的 LDCT 图像的质量,其焦点在于投影数 据的统计建模及噪声抑制。
一方面,学者们通过构造正态泊松混合投影数据统计观测模型[10] 、研究相邻探测器获 取的投影数据之间的相关性[11] 、对散射噪声进行估计和校正[12]等方法来解决由数据采集过 程中多种客观因素(如X 射线多能谱特性、探测器响应不一致、随机噪声等)影响而造成 的投影数据原有统计特性被破坏的问题。另一方面,大量研究文献则关注投影数据中噪声 的抑制,它们主要可以分为两类: ① 改善各种线性或非线性滤波器,如 Hsieh 等[13]提出的 能够自适应参数调整的中值滤波方法、Kachelrieß 等[14]提出的基于三维非线性滤波器的噪 声抑制方法、基于小波分解的投影滤波法[15]以及基于维纳滤波器[16]或双边滤波器[17]的方法
等。这类方法直接对原始投影数据进行处理,将噪声抑制和图像重建看作两个相互独立的 过程,便于系统集成,算法复杂度和计算时间远小于迭代重建方法。虽然,该类方法能够 充分利用原始数据信息,但是在进行数据修正的过程中不可避免地会出现数据不一致、过 校正、欠校正等现象,这些因素往往限制投影数据的精确重建,进而造成重建图像失真、 出现伪影或噪声等。 ② 对投影数据的统计建模,如 Wang等[18]提出的投影域二次函数惩罚 加权最小二乘方法、Zhang 等[19]提出的基于各向异性加权先验的低剂量CT 正弦图最大后验 概率平滑算法和 Rudin 等[20]提出的针对泊松噪声的全变分滤波方法等。这类方法将投影数 据降噪过程视为以投影数据为自变量的目标函数的构建和优化问题,通过考虑含噪声投影 数据的分布特性,来构建更加符合投影数据统计特征的统计迭代滤波模型。其优点在于考 虑了噪声投影数据的统计特性,缺点在于算法迭代时间较长。
总之,上述两类需人工设计特征提取器的传统算法的主要缺点是人工成本高、特征提 取能力差和可移植性弱 。此外,也有学者尝试使用深度学习的方法来解决投影数据不 完备引起的重建图像质量退化问题,如梁宁宁等[21]提出采用基于切片的生成对抗网络 (generative adversarial networks,GAN)来学习投影数据的统计分布规律。这类方法 虽然能够在一定程度上克服传统算法的不足,但也存在模型训练效率受限于数据集大小、 模型可解释性差等问题。
1.2 传统重建方法
CT 成像技术的核心是重建算法,典型的重建算法包括解析法和迭代法[22] 。由于具备算法 简单、计算速度快等的优点,解析法中的FBP 与FDK(feldkamp-daivs-kress)分别成为了二维和 三维 CT 系统的主流选择。然而,解析法对投影数据的完备性要求较高,且对噪声非常敏感, 在稀疏角度或有限角度扫描条件下的重建结果往往会受到严重的伪影和噪声污染。迭代法将待 重建图像作为未知量,在图像域建立目标函数,并通过迭代求解来获取待重建图像。根据目标 函数建立的方式不同,迭代算法可分为代数迭代法和统计迭代重建算法( statistical iterative reconstruction,SIR)。代数迭代法能够节省内存且重建速度快,然而重建后 的图像质量并不理想。与传统的解析法和代数迭代法相比,SIR的重建效果更好。
在实际重建过程中,常常通过在目标函数中引入能够反映待重建图像先验信息的正则 项来提高重建图像的质量,一般地,SIR 的目标函数如下:
Φ(μ) = ⅡAμ − PⅡ2(2) +βR(μ) ; (1)
其中,A 表示N × M 维的系统矩阵,A 中的元素 ai,j 表示第j 个像素对第 i 个投影的贡献, μ 表 示待重建图像,P 表示投影数据,R (μ) 表示正则化项,β 表示正则化参数。SIR 中正则项 R (μ) 的设计一直是这个领域的研究热点[23] 。近年发表的文献中,正则项 R(μ) 的典型代表 主要包括高斯先验[24] 、中值先验[25] 、稀疏先验[26] 、基于字典学习的先验[27] 、以及基于全变 分及其变型如 TGV[28] 、stokeTV 先验[29]等。基于正则项约束的统计迭代重建算法考虑了成像 系统的物理模型和含噪投影数据的统计特性,能够获取高质量的重建图像;然而,算法复 杂度较大、运行过程耗内存等缺点也限制了此类方法的广泛应用。
1.3 基于深度学习的重建方法
近年,伴随着深度学习在各个领域的成功应用,很多学者尝试通过研究基于深度学习
深度学习重建算法
的 CT 重建方法来克服传统重建算法的局限性。根据深度学习在重建算法中所起的作用,本 文将此类重建方法分为如图 2 所示的 3 类:深度学习用于实现解析重建中的滤波反投影操 作(域转换类方法)、深度学习用于实现统计迭代重建中的正则项功能(基于模型的算 法)、深度学习用于实现统计迭代重建过程中的迭代求解过程(迭代展开类算法)。
Ⅰ. 深度学习实现解析重建中的滤波反投影操作(域转换方法)
Ⅱ. 深度学习实现统计迭代重建中的正则项功能(基于模型的算法)
Ⅲ. 深度学习实现统计迭代重建过程中迭代求解过程(迭代展开算法)
图 2 基于深度学习的 CT 重建算法分类
Fig.2 Classification of Deep Learning-based CT Reconstruction Algorithms
第Ⅰ类方法将深度学习用于实现解析重建中的滤波反投影操作,主要研究如何采用卷 积神经网络(convolutional neural network,CNN)实现投影域与图像域的直接映射。此 类方法一般采用网络训练的方式实现解析重建中的滤波与反投影操作,它们可以分为投影 域网络 + BP 和投影域网络 + BP + 图像域网络两类[30]。
(1)投影域网络 + BP 是指首先在投影域上对欠完备的投影数据进行修正或者对带噪 声的投影数据进行滤波,再利用反投影算法对处理后的投影数据进行重构。一部分研究者 致力于滤波器的学习,例如,Pelt 等[31]提出在每次迭代过程中通过数据驱动来训练投影 域滤波器,采用重建图像的投影数据与实测投影数据的均方误差作为网络约束;Wang 等[32] 提出的FBP-Net 在频域上对滤波器进行改进,网络反投影层中的参数保持不变;另一部分 研究者则致力于学习投影域与图像域之间的域转换函数。早期,学者们的研究焦点是全连 接层的使用,例如,Zhang 等[33]通过对全连接层的权重参数进行分析和可视化,发现全连 接层在重建算法中所起的作用与反投影操作相同,可以将其直接应用于反投影过程。Zhu 等[34]提出的 AUTOMAP 网络通过使用全连接层实现了传感器数据与图像域数据的直接映 射。由于使用了多个全连接层,这类方法在实现数据转换时增加了网络的计算复杂度,提 高了用于网络运行的硬件配置要求。随后,学者们提出了一些采用替代方法来解决全连接 层参数问题的算法,Fu 等[35]提出采用稀疏连接的方式来减少全连接层的网络参数,其中稀 疏连接是通过将全连接层的部分权重值置零来实现的;Ye 等[36]对每个角度的投影数据进行 单独反投影,并利用CNN 来学习反投影数据与图像之间的映射关系。在此基础上,Tao 等[37] 构造了一种能够反映在不同投影角度上获取的反投影数据信息的三维反投影张量(VVBP- Tensor),并依据像素值大小对每个投影角度上获取 的数据进行 了排序 ,指 出 VVBP- Tensor 具备结构自相似性、张量稀疏性与噪声高斯分布的统计特性等特点。此后,该课题 组采用 CNN 实现 FBP 重建,构建了一种能够学习VVBP-Tensor 与重建结果之间映射关系的 CT 重建网络[38]。
这 3 种算法的相同点在于其研究对象均是在每个角度上获取的反投影数据。尽管投影 域网络 + BP 类算法能够改善传统 FBP 的重建结果,但是网络性能受限于投影的数据源,即 训练好的网络只适用于解决某一特定成像系统的CT 重建问题,并不能有效解决从其他成像
系统或不同扫描协议获取的投影数据重建问题,算法鲁棒性较差。
(2)投影域网络 + BP + 图像域网络是指同时在投影域和图像域设计能够进行噪声抑制 的网络。早期,研究者们通常采用将投影域网络、域转换函数与图像域网络按照先后次 序进行连接 的研究思路来设计双域 网络 。典型 的代表包括 :intelligent CT network ( iCT-Net)[39] , iRadonMAP[40] , Dual-domain Residual-based Optimization NEtwork ( DRONE)[41] , ADAPTIVE-NET[42] , hdNet[43] , Dual Domain Network( DuDoNet)[44]和 Dual- Domain Adaptive-Scaling Non-local Network(DAN-Net)[45]等,其中,DRONE 网络采用 3 阶段训练策略完成重构,在投影域与图像域均采用了残差思想。在第 1 阶段,该网络采用 投影域U-Net 来对稀疏投影数据进行扩展;采用图像域(wasserstein GAN,WGAN)来初步 重建图像;在第 2 阶段,采用投影残差网络与图像残差网络来对投影和图像进行细化处理, 以输出能够作为先验的投影残差与图像残差;在第 3 阶段,通过正则化处理,来进一步保 障重建图像的质量。DuDoNet 网络是双域网络在 CT 金属伪影抑制任务中的成功尝试。该网 络主要包括 3 部分:正弦域增强网络、Radon 逆变换层和图像域增强网络。正弦域增强网 络采用了掩码金字塔结构,图像域增强网络采用了 U-Net 结构。特别地,该方法设计了 Radon 一致性损失来抑制投影数据中的噪声,通过特定的顺序来处理投影域数据和图像域 数据,尽管它们在投影域和图像域均进行了降噪设计,然而由于并未考虑两个域中数据之 间的潜在信息交互,常导致重建结果中出现新的伪影。
由此,许多学者尝试通过交互训练来建立投影域与图像域之间的联系。Wang 等[46]提出 了一种用来解决CT 金属伪影抑制问题的交互式双域并行网络( interactive dual-domain parallel network,IDOL-Net)。该网络由分解模块与细化模块组成,其中,分解模块输 出的正弦先验与图像先验是细化模块的初始输入;细化模块包括两个分支,分别为用以处 理投影数据的 FBP 分支和用以处理图像的 BP 分支,两者之间可进行信息交互。Ran 等[47]将 这种并行交互式策略应用在MRI 重建任务中,来探索 k-space 和空间域数据之间的相互关系。
第Ⅱ类方法将深度学习用于实现 SIR 中的正则项功能。与传统 SIR 算法需要人工设计正则化 项不同,此类方法中能够反映 CT 图像先验信息的正则项是可学习的。根据网络模型是否需要 预先训练,可将这类方法分为 model-based 类重建方法和 plug-and-play 类重建方法。
(1)model-based 重建方法在重建过程中直接学习先验信息,例如,Chen 等[48]研究了 基于“fields of experts ”的正则项与卷积神经网络的卷积层之间的关系,用 CNN 网络来 实现重建算法的每次迭代过程。特别地,由于 CNN 每一层网络的权重值不同,随着迭代过 程的推进,网络会不断修正正则化项及超参数。Wu 等[49]提出利用k-sparse 自动编码器来 学习 CT 图像的非线性稀疏先验,该算法采用了无监督训练模式,对数据集规模要求较小, 且网络较为灵活,能对图像特征进行充分提取。Kang 等[50]在CNN 网络中融入了小波紧框架 的思想,构造了一种收敛性较好的降噪网络,该网络在图像纹理细节保留方面表现良好。 Gao 等[51]充分利用了人体组织结构所具备的自相似性,将训练 NDCT 数据库所得的特征图作 为先验信息来约束重建算法。
(2)plug-and-play 重建算法将预训练好的模型作为先验信息,一般地,这类方法常 采用交替方向乘子法、原始对偶法等将待求解问题分解为若干个子问题,并通过预训练网 络的方式来解决其中的部分子问题。plug-and-play 类重建算法是近年学术界的研究热点,
该模型由Venkatakrishnan 等[52]在2013 年首次提出,旨在实现基于成像系统的前向模型与 基于图像的先验模型(或降噪模型)之间的相互匹配。此后,2015 年,Sreehari 等[53]提出 了一种基于双随机梯度非局部均值降噪先验(doubly stochastic gradient NLM,DSG- NLM)的重建算法;2021 年,Cascarano 等[54]将基于数据驱动的DnCNN 降噪先验与基于模型 驱动的全变差先验进行结合,提出了混合 plug-and-play 重建算法。第Ⅱ类重建方法的优 点是从较小规模的训练数据集重建出的图像质量可观,缺点是其网络结构通常不是前馈神 经网络,计算速度较慢。
第 Ⅲ 类方法是基于 CNN 的迭代展开类算法,主要研究如何采用深度学习网络模块通过 网络训练的方式实现 SIR 中的迭代求解过程。 ① 一部分研究者致力于研究采用端到端的训 练方式实现迭代求解过程可学习。例如,Adler 等[55]利用CNN 网络来学习对偶算子的解,这 种操作能够降低采用原始对偶法求解 CT 重建问题的复杂度;Xia 等[56]采用 CNN 学习最 速梯度下降法中的正则化项,提出一种能够同时捕获图像像素级特征与拓扑特征的先验信 息;Chen 等[57]同时结合了解析重建、统计迭代重建与深度学习算法三者的优点,利用 Proximal Forward Backward Splitting 算法将目标函数的求解问题转化为保真项与正则 化项的迭代求解过程,其中正则化项是通过稠密网络进行学习的。 ② 另一部分研究者则致力于 研究采用CNN 实现部分超参数可学习。例如,为了解决重建结果与原始测量数据不一致问 题,Gupta 等[58]将投影梯度下降算法中的投影算子用残差网络进行了代替,设计了 1 种可 学习的松弛投影梯度下降算法,该算法具有较好的收敛性;Zhang 等[59]提出了 1 种具有 自学习特性网络 MetaInv-Net,通过 CNN 来学习共轭梯度下降算法的初值。尽管迭代展开策略 能为CT 重建任务提供一种新的网络结构设计思路,但它造成的网络计算负荷通常较大。
2 后处理方法
在图像域,以抑制图像中噪声和伪影为研究目标,直接对重建图像进行处理的方法称 为后处理方法。由于其在图像域进行操作,不依赖于原始投影数据,可移植性较强,便于 推广,后处理方法已经成为LDCT 成像领域的热点研究方向。后处理算法主要分为两类:传 统后处理算法与基于深度学习的后处理方法。
2.1 传统后处理算法
在深度学习被广泛应用之前,LDCT 图像伪影抑制主要通过传统后处理方法来实现。经 典算法中,由于能够有效利用图像像素之间的结构相似性,基于非局部均值( non-local means,NLM)[60]及其改进形式[61]的方法取得了较好的降噪效果。
Chen 等[62]提出的基于大尺度邻域非局部均值滤波的LDCT 伪影抑制方法,考虑了大尺度 窗口内像素结构的相似性,伪影抑制效果较好。此外,也有许多在变换域进行 LDCT 图像降 噪的探索,如基于多尺度奇异点检测的 LDCT 图像小波去噪算法[63] 、在小波域对 NLM 方法进 行改进的三维块匹配滤波[64]算法和基于稀疏表示和字典学习[65]的方法也是LDCT 图像降噪领 域近年的研究热点 。传统方法还包括自适应多尺度全变分 LDCT 图像降噪方法[66] 、基于 Curvelet 双线性插值的 LDCT 图像降噪方法[67]等。这些传统算法主要运用数学分析、现代 信号处理与数字图像处理等理论来解决 CT 图像降噪问题,算法原理过于依赖人工设计难以 灵活调整,其性能有较大的局限性。
2.2 基于深度学习的 LDCT 图像后处理方法
深度学习技术通过对样本特征的自动学习,将低维浅层特征映射到高维深层特征,学 习数据本质特征的能力非常优异。伴随着卷积层、池化层、激活函数、批量归一化等基础 层的构建,网络训练能力大大提升,深度学习已成功应用于超分辨率重构、图像翻译、图 像降噪等自然图像处理领域。
网络框架改进
基于深度学习
的 LDCT 图像
后处理
功能模块设计
训练策略改进
近年,研究者们尝试采用深度学习解决 LDCT 图像伪影噪声抑制问题。学者们的研究热 点主要集中在网络框架改进、训练策略改进及功能模块设计等方面(图 3)。
基于 CNN 的 LDCT 降噪网络
基于 GAN 的 LDCT 降噪网络
基于 RNN 的 LDCT 降噪网络
注意力模块用于 LDCT 降噪
有监督 LDCT 降噪网络
无监督 LDCT 降噪网络
图 3 基于深度学习的 LDCT 图像后处理算法分类
Fig.3 Classification of deep learning-based LDCT image post-processing algorithms
2.2.1 网络框架改进
一般地,网络降噪性能受算法框架与功能模块类型的影响,选择不同的算法框架(例如 2D CNN [68],3D CNN [69],Wasserstein GAN [70],CycleGAN[71]或长短期记忆网络(long short term memory network,LSTM)[72]等)会使降噪网络的复杂度不尽相同,不同的功能模块如增加注 意力模块、特征补充模块与图像分解模块等,也会使网络的性能表现不尽相同。近年,用于 LDCT 降噪领域的主流深度学习网络架构主要分为 3 类:基于 CNN 的 LDCT 降噪网络、基于 GAN 的 LDCT 降噪网络和基于循环神经网络(recurrent neural networks,RNN)的 LDCT 降噪网络, 其中,CNN 具有优异的特征提取能力,GAN 具有强大的图像生成能力,RNN 具有独特的时空 特性。这些网络已广泛应用于机器视觉的各个领域,在 LDCT 图像伪影抑制方面也有不错表现。
CNN 是一种模拟人脑功能、包含卷积运算且基于多层监督学习的人工神经网络。得益 于 CNN 强大的特征学习与映射能力,与传统算法相比,CNN 在处理 LDCT 图像降噪问题时表 现更加优越。在近年涌现出来的诸多研究成果中,一部分学者致力于通过增加网络层数和 改进网络结构来提高网络的降噪性能。
2012 年,Burger 等[73]利用多层感知机网络来学习噪声图像与干净图像之间的函数映射 关系,实现了深度学习在自然图像降噪领域的首次成功尝试。在此基础上,研究者们在寻找 能够高度拟合这一函数映射关系的网络方面做了许多尝试,其典型代表包括包含三层卷积层的LDCT 降噪网络[68] 、基于残差编解码结构的 CNN 网络[74] 、基于 U-Net 的 LDCT 降噪网络[75]等。也有 一部分学者尝试级联多个网络,通过分阶段处理来改善降噪图像的质量。例如,Wu 等[76]提
出了一种渐进式级联CNN;Shan 等[77]提出了一种由结构相同的多个传输链路导向的编解码 模块(conveying-link-oriented network encoder-decoders,CLONEs)组成的自适应处 理神经网络模型,该网络中每个 CLONE 对降噪结果进行逐层改善,这样做不仅可以保障基 本降噪任务的实现,而且可以通过上层模块对下层模块的指导实现降噪图像质量的进一步 提升。此外,CNN 强大的特征提取能力的实现是建立在成对数据集比较充足的前提之上, 而实际临床应用中成对的 CT 数据往往并不容易取得,这也就限制了 CNN 在 LDCT 降噪领域 的进一步发展。综上,改善基于 CNN 的 LDCT 降噪网络既需要兼顾特征提取的有效性和网络 复杂度,又需要考虑数据集的大小。未来,改善基于 CNN 的 LDCT 降噪网络的性能可从完善 特征提取的方式、寻找高效的卷积操作以及在网络中嵌入功能子网络等角度入手。
GAN 是一种基于博弈对抗思想的无监督生成式网络模型,主要由生成器 G(Generator) 与判别器 D(Discriminator)两部分构成。在基于 GAN 的 LDCT 降噪任务中,G 的任务是生 成一幅能够以假乱真的“假 NDCT 图像 ”,D 的任务是对真实 NDCT 和生成的“假 NDCT ”的 真伪做出尽可能接近事实的判断,通过 G 和 D 的博弈对抗和交替训练,最终完成 LDCT 图像 降噪任务。
近年,学者们主要从两个角度来提高 GAN 网络的降噪性能: ① 通过改进G、D、引入功 能子网络或者改变网络的连接方式来改善 GAN 的特征提取能力。在这类方法中,多数研究 成果均集中在对生成器与判别器的改进方面。其中的典型代表包括含 7 层卷积层的生成器[78] 、包 含对称编解码结构 U-Net256 的生成器[79] 、基于 PatchGAN 分切片进行真伪判别的判别器[80] 和基于 Inception 结构多尺度进行真伪判别的判别器[81] 。在功能子网络的引入或者网络的 连接方式改进方面,Yi等[79]在GAN 中引入了一种清晰度检测网络,该功能网络的加入能够 抑制边缘模糊现象,且对被噪声污染的图像低对比度区域的细节进行修复 ;You 等[82] 利用点卷积能够实现特征降维这一优点,在 GAN 中调整了卷积方式,在降低网络复杂度的 同时提高了伪影抑制效果。基于网络结构的改进方法能够在一定程度上提高 GAN 生成图像 的质量,然而当输入样本分布复杂且 G 和D 初始化不恰当时,极易产生模型崩塌、训练不 稳定等问题。 ② 通过改进损失函数的形式或者运用多损失函数进行约束来提高GAN 训练的 稳定性。以往常采用KL 散度或者 JS 散度来评价 GAN 中两个不同分布之间的差异性,然而 当真实数据与生成数据分布一致时,采用上述两种损失函数约束 GAN 常会致使反向传播过 程中出现梯度消失现象。为了克服这一难题,Arjovsky 等[83]提出了用Wassertein 距离来衡 量真实数据与生成数据分布的 Wassertein GAN(WGAN)网络,Wassertein 距离的引入使 得 GAN 的训练更加稳定。然而,由于 WGAN 采用权重裁剪策略来使梯度强行满足Lipschitz 条件,最终导致 GAN 在训练过程中产生不可控的结果,生成图像的质量并不总令人满意。 Li等[84]改进了WGAN 中的梯度裁剪策略,增加了梯度惩罚这一正则项,该方法取得了 比 WGAN 更稳定的效果。Yang 等[70]通过将Wassertein Distance 与感知损失同时应用于普通的 GAN 中来提高 GAN 网络训练的稳定性。此外,最小二乘损失(LSGAN)[85] 、频谱归一化损失 (SNGAN)[86] 、嵌入保真度的损失(f-GAN)[87]等也是目前常用的损失函数。
综上,在训练数据有限的情况下,采用 GAN 网络可以生成清晰度良好的降噪结果,然而 训练不稳定、模型崩溃等问题一直是限制基于 GAN 的降噪网络性能提升的重要因素。
RNN 可以看成一个在时间上传递的神经网络,不仅将当前的输入样本作为网络输 入,还将它们之前感知到的信息一并作为输入,有助于上下文信息的获取。考虑到 CT 图像
在获取过程中通常具有连续性,前一帧 CT 图像与后一帧 CT 图像之间具有紧密的联系,因 此将 RNN 用来解决基于 CT 序列的 LDCT 图像降噪问题也是一种可行方案。例如,Du 等[88]提 出利用长短期记忆网络来学习LDCT 图像的注意力图,Rajeev 等[89]提出了一种基于批量归一 化和长短期记忆网络来去除白噪声与椒盐噪声的有效系统。
2.2.2 训练策略改进
在 LDCT 伪影噪声抑制领域,训练方式也是决定 CT 图像质量的关键因素。根据训练数 据集是否成对出现,可以将训练分为有监督训练与无监督训练。有监督训练是指利用一组 已知类型的成对训练数据来对网络进行训练。有监督训练有助于人们从具有大量特征的图 像中快速提炼有价值的信息,避免了不必要的训练。由于其是一种目的明确的训练方式, 因此可以产生符合预期、质量较高的图像,且输出图像的质量可以进行衡量。由于有大量 成对数据集作为依托且训练准确度较高,因此主流的 LDCT 降噪算法均采用有监督训练机制, 如 Chen 等[74]采用成对的NBIA( the National Biomedical Imaging Archive)数据集来训 练残差编解码 CNN、Wu 等[76]采用成对的mayo 数据集来训练级联 CNN,均产生了一定的降噪 效果。然而,由于仅在像素级上对网络的输出结果进行了约束,这两种算法的降噪效果并不十 分理想。由此可见,决定有监督训练方式有效性的一个重要因素是目标函数的设置。
为了解决上述问题,研究者们试图在目标函数上进行改进,以提高降噪精度。Yang 等[90] 利用预训练的 VGG 网络分别提取降噪结果与 NDCT 的特征,在特征空间上对降噪结果加以约 束;Yi 等[79]提出了一种用来约束CT 图像边缘特征的损失函数;You 等[91]将像素级L1损失与 基于图像质量评价指标-多尺度结构相似性的损失函数相结合,来共同约束网络训练过 程。虽然,有监督训练在 LDCT 图像降噪任务上表现优异,但是,有监督训练对 CT 数据集有严 格的要求,即训练数据集必须包括 LDCT 以及与之对应的 NDCT,由于重复扫描会对人体带来极 大危害,临床应用中成对的 LDCT 与 NDCT 图像较少,有监督训练的有效性难以得到保障。
无监督训练本质上是一个统计方法,在没有标签的数据里,通过数据自身存在的规律,来 发现潜在的一些结构特征 。 由于对数据集没有严格的要求,无监督训练近年逐渐成为 CT 成像领域的研究热点 。Zhu 等[71]首次提出了采用无监督训练方式对网络进行训练的 CycleGAN:在没有配对数据的情况下,首先学习一个函数映射 G:X→Y,将图像从源域 X 转换到目标域 Y,使得来自 G(X) 的图像分布与Y 分布不会因对抗损失而产生模糊现象,之 后再进行逆映射F:Y→X 并引入循环一致性损失,使得 F(G(X))≈X。CycleGAN 在无监督 训练领域的表现优越,其网络训练的策略被研究者们广泛应用。如 Gu 等[92]对CycleGAN 的 网络结构进行了微调,通过在生成器中引入自适应实例归一化层,仅采用单个生成器完成 了在 LDCT 图像域与 NDCT 图像域之间的相互转换过程;Kwon 等[93]则将可逆的生成器应用在 CycleGAN 网络 中 ,利用一个生成器与一个判别器实现无监督循环 ;Liao等 [94]首次将 CycleGAN 应用于金属伪影抑制问题中,通过对 CT 图像噪声伪影特征与结构特征进行分解并分 开训练,不仅实现了 LDCT 降噪任务,而且能够合成与真实 LDCT 接近的新 LDCT 图像。
上述方法均采用循环对抗思想与多损失函数约束来实现 CT 图像降噪网络的无监督 训练,并取得了良好的降噪效果。在无监督训练中采用多损失函数进行约束面临的问题在 于:如何在众多损失函数中合理地选取损失函数组合,以及如何准确地调整超参数来改变 不同损失函数在训练过程中所起的作用大小。
2.2.3 功能子模块设计
实际临床应用中,LDCT 图像中伪影分布极其不规律且与组织位置息息相关,伪影和噪 声等干扰信息往往与人体正常组织和低密度病变等有用信息具有相似的分布规律,这使得 如何将两类信息有效分离成为后处理类方法的研究重点和难点。为了能够准确地提取 LDCT 图像中不同尺度、密度和位置的伪影特征,研究者们试图将具有某一特定功能的子网络引 入到 LDCT 降噪网络的设计中来。例如,为了抑制 LDCT 图像中存在的运动伪影,Ko 等[95]在 残差网络中引入了自注意力模块,该模块通过调整伪影特征的权重来加强或削弱所提取伪 影特征的重要性;考虑到 LDCT 成像过程中的统计不确定性,Du 等[88]将视觉注意力网络分 别引入生成器与判别器中,使得网络对伪影与其周围的结构信息更加敏感。考虑到 CT 图像 本身在人体组织结构上具有强大的相关性,同时在连续拍摄 CT 过程中相邻帧图像之间具有 依赖性,Li等[96]提出同时结合空间注意力与帧间注意力的CNN 网络,该论文最大的亮点在 于将视频处理的思路巧妙地运用在图像处理中,同时利用切片内与切片间的相关性,使得 网络在特征提取过程中有了更多的先验信息作为指导。该算法要求获取连续扫描的 CT 图像 序列作为输入,由于对数据集有很高的要求,该网络性能的最大化受到了限制。
因此,不管是自注意力网络,还是双注意力网络,注意力网络均是一种功能子网络,能够 实现图像特定特征的有效提取。类似的功能子网络包括提取密度特征[97] 、深度特征[98] 、噪 声水平特征[99] 、伪影位置特征[100]与梯度信息[101]等的功能模块。
3 数据集
3.1 投影域 CT 数据集
LDCT-and-Projection-data 数据集是由 Mccolloigh 等[102]研究人员在国家生物医学成 像和生物工程研究所的资助下,以 DICOM-CT-PD 格式(包含 CT 投影数据和采集几何)建立 的 CT 患者投影数据库。该数据集提供了包括各种检查类型扫描(如急性认知或运动障碍 的 99 次非对比头部 CT 扫描、用于筛查高风险患者肺部结节的 100 次低剂量非对比胸部扫 描以及为寻找转移性肝脏病变而获得的 100 次腹部增强 CT 扫描)重建后的 CT 图像、患者 年龄和性别以及病理注释等信息。每种扫描类型的 50 个病例来自 SomATOM 定义的 Flash CT 扫描仪(西门子医疗保健公司,Forchheim,德国),49 例头部病例、50 例胸部病例、 50 例腹部病例来自光速 VCT CT 扫描仪(GE Healthcare,Waukesha,WI)。对于每一位患 者的 CT 扫
展开阅读全文