1、2023年9月第6 0 卷第5期四川大学学报(自然科学版)Journal of Sichuan University(Natural Science Edition)Sep.2023Vol.60No.5基于 Transformer 增强卷积的膝关节磁共振影像年龄预测朱昊哲1,邓小冬,廖培希3,杜文超1,陈怀歆4,刘洪1.4,陈虎1,邓振华,杨红雨1.4(1.四川大学计算机学院,成都6 10 0 6 5;2.四川大学华西基础医学院与法医学院,成都6 10 0 41;3.成都市第六人民医院,成都6 10 0 51;4.四川大学视觉合成图形图像技术重点学科实验室,成都6 10 0 6 5)摘要:年龄
2、预测是临床医学中的一个重要课题和非常活跃的研究领域.最近,由于传统影像学检查中电离辐射的缺点,越来越多的研究使用磁共振影像进行年龄预测。本文基于膝关节MRI数据集,提出了一种新的端到端网络,结合卷积神经网络和Masked-Transformer网络互补地来提取局部特征和全局依赖,并使用一个特征聚合模块来聚合不同局部膝关节MRI切片的特征.通过整合卷积神经网络的特征图和视觉Transformer分支的特征编码,特征提取模块可以互补地提取局部和全局信息,更好地提取与年龄相关的特征。同时,该网络使用由图注意力网络组成的特征聚合模块,用于在特征级别集成不同MRI切片的局部特征,实现多切片局部特征之间的
3、交互.大量实验表明,该方法可以在膝关节MRI年龄估计任务中达到最先进的性能.具体而言,本文方法在MRI数据集上进行了测试,该测试集包括44个年龄在12.0 25.9岁之间的膝关节MRI样本,其中五折交叉验证的最佳结果是年龄平均绝对误差为1.571.34 岁.关键词:深度学习;膝关节年龄预测;核磁共振影像;计算机辅助诊断中图分类号:TP389.1Transformer enhanced convolution based knee age estimation on MRIs文献标识码:ADOI:10.19907/j.0490-6756.2023.052001ZHUHao-Zhe,DENG Xi
4、ao-Dong,LIAO Pei-Xi?,DU Wen-Chao,CHEN Huai-Xin*,LIU Hong l.4,CHEN Hu,DENG Zhen-Hua?,YANG Hong-Yu 1.4(1.College of Computer Science,Sichuan University,Chengdu 610065,China;2.West China School of Basic Medical Sciences and Forensic Medicine,Sichuan University,Chengdu 610041,China;3.The Sixth Peoples H
5、ospital of Chengdu,Chengdu 610051,China;4.Department of National Key Laboratory of Fundamental Science onSynthetic Vision,Sichuan University,Chengdu 610065,China)Abstract:Age estimation is regarded as a crucial topic and a very active research field in clinical medi-cine.Recently,due to the drawback
6、 of ionizing radiation from the traditional imageological examination,收稿日期:2 0 2 2-11-30基金项目:四川省卫生健康委员会科研课题(19PJ007);成都市卫生健康委员会科研课题(2 0 2 2 0 53);四川省自然科学基金(2 0 2 2 NSFSC12 8 6);成都市重点研发支撑计划项目(2 0 2 1YF0501788SN)作者简介:朱昊哲(2 0 0 0 一),男,湖北武汉人,硕士研究生,主要研究方向为医学图像处理。E-mail;z z z h z s t u.s c u.e d u.c n通讯作者
7、:陈虎.E-mail:h u c h e n s c u.e d u.c n052001-1第6 0 卷growing more and more studies have focused on using magnetic resonance imaging(MRI)for bone ageprediction.This paper proposes a novel end-to-end network based on the knee MRI dataset,which com-bines the convolution neural network(CNN)and Masked-Tra
8、nsformer network to extract complementa-ry features,and uses a feature aggregation module to aggregate features of different local knee MRIslices.By integrating the feature maps of CNN and the patch embeddings of visual transformer bran-ches,the feature extraction module can complementarily acquire
9、local and global information to betterextract age-related features.A feature aggregation module composed of the graph attention network isproposed in our work to integrate the local features of different MRI slices at the feature level to achievethe interaction between multiple slice features.Extens
10、ive experiments demonstrate that our method canachieve state-of-the-art performance in the knee MRI age estimation task.Specifically,our method istested on a dataset including 44 knee MRI samples aging from 12.0 to 25.9 years,and the best result offive-fold cross-validation is a mean absolute error
11、of 1.57 1.34 years in age regression.Keywords:Deep learning;Knee age estimation;Magnetic resonance imaging;Computeraided diagnosis基于卷积网络和Transformer结构的优势和1 引 言特点,本文提出了ResMAE网络结构.该网络由年龄预测在临床医学和放射学中是一个重要Masked-Transformer模块增强的卷积神经网络基的研究领域1-2 ,可用于诊断内分泌疾病、判断青少本块组成,用于从每个膝关节MRI样本的图像切年发育时间点以及规划骨科手术干预时间点3-4
12、。片中提取与年龄相关的特征.在提取到图像特征之现有的人工年龄预测的方法,诸如Greulich and后,应用一个由图注意力网络结构组成的特征聚合Pyle(GP)5和 Tanner Whitehouse 2(TW2)6 等模块实现各MRI切片特征的聚合,以输人到全连方法对于手腕部医学图像中骨骼生长板骨化状况接层和Softmax层中得到预测的年龄结果.本文的进行分级对照,从而预测出样本的年龄.参考GP贡献主要包括:(1)本文提出了一种新的端到端网和TW2方法,许多研究7-14总结了人工对于膝关络,用于处理膝关节MRI年龄预测任务,该网络显节X光图像或MRI图像进行年龄预测的方法,从著提高了其在膝关
13、节MRI 的年龄预测任务的性能股骨远端、胫骨近端和骨近端三个部位15获取效果,并实现了临床应用的可行性;(2)本文提出年龄相关信息.然而,传统的膝关节年龄预测方法了一种Masked-Transformer增强的卷积特征提取需要专业放射科医生手动完成,这可能导致主观误网络结构.实验证明该网络在膝关节MRI年龄预差和低准确性.因此,需要开发基于深度学习技术测任务中比全卷积结构和全视觉Transformer结的自动化算法来提高年龄预测的效率和准确性.构具有更好的结果;(3)本文在局部MRI切片特最近的研究16-18 利用卷积神经网络对膝关节征级别上使用了图注意力网络19作为特征聚合模MRI进行年龄预
14、测.这些方法将每个MRI样本看块.实验表明,相比原始的基于每个切片预测结果作多层面的二维图像,并使用共享参数的卷积神经的机器学习聚合方法,该方法表现更佳;(4)通过网络和全连接层提取具有年龄相关性的特征信息,详细的实验结果证明,本文方法在可解释性、时间以预测每个切片的年龄并加权得到最终的年龄预效率和性能方面均优于人工膝关节MRI年龄预测测结果.尽管卷积神经网络在该任务中表现良好,方法和现有深度学习方法.但仍难以获取所有MRI切片的全局相关信息,在2膝关节核磁共振相关研究该项年龄预测任务中存在局限性。自注意力模型近年来在计算机视觉领域得到广泛应用,尤其在图像识别、图像分割和目标检测等任务中表现突
15、出.视觉Transformer模块通过捕获图像的全局依赖,在处理全局信息方面具有优势,这与卷积神经网络在处理局部细节方面的优势相互补充。四川大学学报(自然科学版)2.1膝关节年龄预测近期的研究16-18 采用深度学习技术对膝关节MRI图像进行年龄估计.这些方法将每个MRI切片看作一张二维图像,使用二维卷积神经网络和全连接层提取与年龄相关的特征信息,并使用机器学习方法预测每个切片的年龄并加权平均得到最终052001-2第5期第5期的年龄结果.然而,卷积神经网络虽然能够有效地提取局部特征,但在捕获所有MRI切片的全局依赖信息方面存在困难.同时,由于未考虑到不同切片之间的关系,直接将不同切片的年龄结
16、果反馈到另一个机器学习回归函数中进行最终的年龄估计也不可靠。具体而言,Dallora等人16 使用GoogLeNet20和全连接层进行膝关节MRI切片图像的特征提取和年龄回归预测.Proove等人17 引入U-Net结构2 1从膝关节MRI切片图像中分割出骨骼部分,用U-Net编码器提取骨骼掩膜图像中的特征,并将每个切片的年龄预测结果输人到随机森林回归函数中得到最终年龄结果.Mauer等人18 使用AgeNet2D从局部膝关节MRI切片提取特征,并应用极端随机树回归器对每个切片的预测结果进行加权,以在其私人数据集中获得最佳预测结果.然而,这些方法都采用两阶段方法,即使用二维卷积神经结构提取每个
17、MRI图像切片的特征,并将每个切片的预测结果直接加权以获得最终年龄相比之下,本文提出了一种新的方法,使用视觉Transformer结构对膝关节MRI数据进行特征提取,以提高年龄预测的准确性。与现有解决方案相比,本文方法从全局角度提取更多与年龄相关的特征,并使用由图注意力网络结构组成的特征聚合模块在特征层面实现各切片特征的聚合,从而更好地考虑了不同局部切片之间的相关性.此外,本文的方法以端到端的方式实现,实现起来更加方便,并在后续实验中证明了其在预测性能上的优越性.2.2卷积神经网络卷积神经网络在计算机视觉任务中表现惊人,其在膝关节 MRI年龄预测任务中也不例外.Res-Net221作为一个具有
18、里程碑意义的深度卷积神经网络模型.过去,研究人员一直认为神经网络的深度对卷积神经网络的性能和拟合能力至关重要,因此一直通过增加层数来改进神经网络模型.但是He等人2 2 证明,当网络深度增加到一定程度时,网络的拟合能力可能会下降.因此,ResNet使用跳跃连接来解决过拟合问题并加速训练.由于Res-Net在特征提取方面的出色能力,本文选择Res-Net作为该任务的主干网络.考虑到本文的训练数据集相对较小且图像分辨率相对较低,因此选择参数较少的ResNet34网络结构作为主干网络,以缓解过度拟合现象.朱昊哲,等:基于Transformer增强卷积的膝关节磁共振影像年龄预测第6 0 卷2.3Tra
19、nsformer模块Transformer231模块一直被广泛应用于NLP任务中.最近ViT24I的出现证明了在视觉任务中使用Transformer结构的可行性,并展示了其在全局特征提取方面的优势.视觉Transformer网络通过将每个图像分割成带有位置编码信息的特征来构建一系列特征编码,并使用串联的Transformer模块提取参数化向量作为全局视觉表示.然而,全Transformer网络结构可能会忽略图像的局部特征细节,并且在数据量不足的情况下训练时的泛化性能较差.为了应对这些问题,近期许多工作着力于使用Transformer结构来增强卷积主干网络,提高网络的整体性能.具体而言,Dai等
20、人2 5提出了CoAtNet网络结构,以结合卷积神经网络和Transformer模块的优点.他们发现,深度卷积结构和自注意力机制可以自然地统一结合,并在浅层中更有效地垂直堆叠卷积和自注意力层.Conformer26使用并行混合的卷积神经网络结构和Transformer块,以利用卷积运算和自注意力机制来增强网络的泛化能力.与现有工作不同,本文考虑到更好地提取所有MRI切片的全局特征和局部切片特征,在Res-MAE的ResNet基本块的基础上,加人了类似于MAE27的编码器结构的Masked-Transformer结构,以将具有年龄相关性的全局信息融人切片图像特征提取中.同时,Masked-Tra
21、nsformer结构随机地对一些图像区域进行遮蔽操作,以此减轻Transformer结构产生的过拟合现象.后续部分将详细介绍本文所提出的ResMAE模块,并通过综合实验证明,ResMAE中的特征提取模块显著提高了膝关节MRI年龄预测任务的精度,在预测时间和精度方面都能满足临床应用需要。3方法本节将介绍用于膝关节MRI年龄估计任务的特征提取网络和特征聚合模块.整体网络结构如图1所示,网络的输入为12 张二维切片图像,经过初始的3个卷积网络块得到浅层特征,接着输入到4个级联的基本块进行特征提取并得到每张图像的高级语义特征向量.最后,本文通过特征聚合模块(Feature Aggregation Mo
22、dule,FAM)将各切片的特征向量进行聚合,得到年龄相关性最强的切片特征,并使用全连接层和Softmax层输出预测年龄.052001-3第6 0 卷四川大学学报(自然科学版)第5期Fully Connected LayerFealure三SSoftmaxLayerSas1cSICasicFealureFeatureAggregationBlockFeatureFeatyreAge图1ResMAE网络结构图Fig.1 ResMAE network structure diagram基于图1中的网络结构,我们来解释本文如何结合卷积神经网络和Transformer模块的优点来进行特征提取.同时,本
23、文还介绍了如何使用Masked-Transformer模块以减轻过拟合现象,并展示了如何应用特征聚合模块对提取到的切片特征在特征层面进行聚合.3.1基于Transformer模块的特征提取网络本节详细介绍了用于膝关节MRI切片特征提取的网络结构,如图2 所示.与ResNet22结构相似,本文的特征提取网络针对膝关节年龄预测任务进行了修改.首先,为了避免图像细节的丢失,本文在网络的初始部分应用3个33的卷积块进行初始特征提取过程,将初始输人图像转换为具有初级语义特征的特征图.基本块的整体卷积结构与ResNet34结构类似,每个卷积块的卷积核大小为3X3,padding为1,并在其后跟随有一个Ba
24、tchNo-rm层和ReLU激活层.ConvBlockConvBlockConvBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockBasicBlockFeatureConv BlockConv Block-BlockTransformerMasked?:Add:ConcatLayerNormSelf-attention BlockMult
25、i-headPositionalEmbeddingAverageRandomMaskingPoolingLayerNormSelf-attention BlockProjectiorMulti-headReshapeMLPwithMaskTokenInterpolate2图2 基本块网络结构图Fig.2 Basic block network structure diagram此外,如图2 右上部分所示,本文在ResNet基本块的第二个卷积块后添加了一个Masked-Transformer模块,以更好地融合Transformer模块的全局依赖,实现更好的特征提取过程。Masked-Transf
26、ormer模块的结构如图2 的下半部分所示,为了更好地表示网络的计算过程,这里假设上一个基本块或者卷积块的输出特征图为f。ERBXNxCXix(其中 B、N、C、h、w 分别代表训练的批次大小、MRI样本的切片数量、特征图的通道数量、特征图高和特征图宽).本文先使用平均池化操作减小特征图的尺寸大小将特征图压缩为f。ERBXEXixw(其中E=NC,h、w 分别为压缩后的特征图大小).然后使用一个类似于MAE27编码器的结构来对特征图的部分区域进行采样,同时对未采样区域进行遮蔽操作,此时可以得到随机采样后的特征图fERBXEXIxw(其中本文设置的遮蔽率为M,M,的大小在0 1之间,即对特征图仅
27、保留1-M,比例的部分信息,其余M,比例部分进行零填充操作).同时,由于经过Transformer模块计算之后的特征编码需要还原到原始的特征图尺度大小,本文也使用了掩码标记的结构以通过一种可学习向量的形式来替代上一步中的被遮蔽部分.与052001-4第5期文献2 7 中类似,ResMAE给所有特征编码加上了位置编码信息以便还原为原特征图的维度大小。同时,为了将二维的特征图转化为Transformer模块输入的一维序列格式,本文按照ViT24I 的步骤,将特征图fERBXEXh x w 转化为f。ERBXPXE(其中P表示Transformer模块的特征通道数,P=hM).随后使用两个级联的Tr
28、ansformer模块来提取输入的特征序列f,T r a n s fo r m e r 模块的格式按照标准的ViT24结构进行设置.如图2 所示,ResMAE在基本块之后要实现原始卷积特征图和Transformer模块输出特征编码的拼接,为此本文使用前面提到的位置编码信息和掩码标记将Transformer模块的输出还原到输人的特征图大小,还原后的特征图为fERBXEXhxw,并且使用最近邻插值算法使特征图的维度大小调整为f.EIRBXNxcXixw.最后将卷积输出与Transformer 模块的输出进行拼接即可得到基本块的输出结果.可以通过后续实验部分证明,通过将带有随机遮蔽采样的Transf
29、ormer模块嵌人到原始卷积块之中,不仅可以为卷积结构提取的局部特征添加全局表示能力,而且通过一种随机掩蔽的方式减轻Transformer模块带来的过拟合现象,增强特征提取网络的鲁棒性.3.2基于图注意力网络的特征聚合模块考虑到不同MRI切片之间的原始顺序,本文从特征层面考虑不同切片特征之间的特征聚合,以消除不同切片之间年龄相关信息的差异性,获得年龄相关性更强的高级语义特征.对于特征聚合模块,本文使用图注意力网络19作为聚合局部切片特征向量的基本块.具体而言,假设特征提取网络得到的切片特征向量为F,E RBXNXD(其中 D 为特征向量的维度大小).在特征提取网络中,每个切片特征被视为图中的一
30、个结点,每个切片结点V,E(Vi,V,,V)的特征维度为1XD.考虑到磁共振影像中的每个相邻二维图像切片可能包含更多相似的年龄相关信息,本文让相邻的各图像节点之间相互连接,来实现信息的交互。图注意力网络的输人为相邻结点之间的结点特征和边的集合.在一系列的图注意力加权操作之后,可以将切片特征向量进行聚合并进行加权平均为最终的输出特征F。ERBXD.最后,经过聚合的局部切片特征输人到全连接层和Softmax层中加权得到预测年龄AERB.通过使用图注意力网络作为局部切片特征的特征聚合模块,本文的Res-朱昊哲,等:基于Transformer增强卷积的膝关节磁共振影像年龄预测下式得到概率分布的表示:e
31、Xb.iPb.i=其中,Pb,表示样本b在所有年龄组S;上的预测概率.因此,每个样本在网络输出的最终预测年龄可以用以上Pb,和S,的加权平均和来表示.最终的预测年龄A,可以由如下公式计算得到:TA,=Pb.*S.i=1均值损失致力于减少网络估计的年龄分布均值与真实的年龄分布标签之间的误差.同时,均值损失和Softmax损失函数被嵌人到神经网络的预测部分,以平衡年龄预测的最终损失函数.因此,本文所用的整体损失函数如下式。L=入 Lmean+Lsofmax其中,入是用来平衡均值损失以及Softmax损失的超参数.均值损失按照前文的叙述可以由式(4)计算得到:1BLmean(A,-Yb)2=二2B6
32、=1052001-5第6 0 卷MAE网络结构可以更好地在不同切片图像上集成切片特征,并在局部图像域和全局图像域提取年龄相关性更强的特征.3.3损失函数设计对于年龄估计任务而言,主要有两种方法来计算损失函数:基于分类的方法和基于回归的方法.为了增强网络的预测能力,Rothe等人2 8 提出了一种将年龄回归作为一个深度分类问题,然后使用Softmax层细化期望值的方法,这样可以显著提高年龄预测网络的性能.同时,Pan等人2 9提出了对于年龄分布进行估计的平均损失函数,主要拟合减小预测的年龄分布均值与真实年龄分布均值的差异,在此基础上提高年龄分布的预测精度.基于上述两种方法,本文中使用Softma
33、x损失函数和基于年龄分布估计均值的损失函数来预测年龄,让预测标签更接近于真实标签值.本文的损失函数使用细节如下.首先,这里假设X为图1中最后的全连接层输出的特征向量,S;E(1,2,T 表示整个数据集的标签年龄组.其中特征向量X的维度为BXT(其中B为训练批次大小、T为特征向量的向量维度).将特征向量X输入到Softmax层中即可得到每个年龄标签S,的概率分布P(其中P具有与特征向量X相同的维度大小).因此,这里可以使用如(1)(2)(3)第6 0 卷四川大学学报(自然科学版)第5期2(2 1Pb.;*S:-Y,)22Bb=1i=1其中,Y,为每个样本的真实年龄.同时Softmax损失可以由式
34、(5)计算得到:B6=1所以,综合上述的公式式(5)可以得到最终的损失计算函数:L=入 Lmean+Lsoimax=2(2P*S-Y)+BTb=1i=1B实验与分析4.1膝关节MRI标注数据集由于膝关节MRI年龄预测任务没有公开数据集,本文实验采用的数据为四川大学华西基础医学与法学院提供的膝关节MRI年龄预测数据集.数据集由2 59 例年龄位于12.0 2 5.9 岁之间的中国汉族男性受试者膝关节MRI数据组成,其中每个3DMRI样本可以映射为152 2 张二维图像切片.每个MRI样本与该样本的真实年龄标签一一对应,作为本论文网络的主要数据集和标签.膝关节磁共振图像如图3所示.本文在实验中将数
35、据集的2 59例膝关节图像样本按照4:1的比例进行划分,其中训练集样本数量为2 0 5例,测试集样本数量为44例,每个样本经处理后包含12 张二维图像切片。(4)(5)(6)图3膝关节MRI样本Fig.3Knee MRI sample由于磁共振扫描设备中的磁场强度变化,磁共振图像通常显示出不均匀的结果,即在磁共振图像中,由于磁场强度的差异,图像的一部分在视觉上可能显得更亮或者更暗,这可能会降低后续图像处理算法的性能.因此,本文按照先前工作的思路17.18,首先对MRI数据进行N4ITK偏置场矫正30 1处理,以消除磁共振设备本身对于实验结果的影响.其次,由于原始的3DMRI数据分辨率为5125
36、1215512 512 2 2,不同样本的二维切片数量不尽相同,为了方便后期的处理以及用作神经网络的输入,本文在华西医院专家的帮助下对于不同切片数量的膝关节图像进行选取并且统一插值缩放到12 8 12 8 12 的尺度大小.并且,由于前人的工作17,18 已经证明了在膝关节磁共振影像中首先通过分割任务提取出骨骼部分区域来进行年龄预测的有效性,所以本文按照U-Net21 的实验设置,同样地对原始数据中的骨骼部分进行分割提取.本实验中的数据采集和处理步骤如图4所示。偏置场矫正切片选取图像分割切片数量:15-22切片数量:15-22切片数量:12切片数量:12U-Net提取骨骼区域切片数量:12切片
37、数量:12图4膝关节MRI数据处理Fig.4Knee MRI data processing052001-6切片数量:12切片数量:12第5期4.2实验设置本文在Windows10系统中使用Pytorch框架进行实验,其中 GPU 为 Nvidia GeForce RTX20808GBGPU,内存为32 GB.由于显存容量的限制,数据输人的批次大小设置为2.同时,本文对于所有的Dropout层的概率设置为O.2,默认情况下本文使用Adam优化器来训练网络,Adam优化器的权重衰减设置为0.0 0 0 5,初始学习率为0.00005,总训练周期为8 0 次,并且每30 个训练周期将学习率下降0.
38、3倍.在后续实验中,平均绝对误差(Mean Absolute Error,M A E)、标准差(Standard Deviation,SD)和 9 5%置信区间(Confi-dence Interval,CI)用于评估本文提出的方法和经典模型.另外,本文在数据集上使用五折交叉验证来报告不同模型在数据集上的预测性能.4.3实验结果分析本文提出的模型利用Transformer模块在提取全局依赖性特征和卷积神经网络在提取局部细节特征的优势,结合Masked-Transformer结构来缓解Transformer模块提取全局特征时的过拟合现象.为了验证本文使用的网络模型的有效性,本文将ResMAE模型
39、与最近在膝关节年龄预测相关论文的方法、计算机视觉领域中广泛使用的先进深度卷积网络和基于Transformer模块的网络结构进行对比.表1列举了在本文数据集上使用不同模型的预测性能,以及按年龄区间段进行划分的预测结果的平均绝对误差(除了AgeNet2D18按照原论文设置为两阶段的实现方式以外,其余模型在提取到每个局部切片的特征之后都使用了本文提出的特征聚合模块进行特征层面的聚合).从表1结果可以看出,在融合了本文所提出的特征聚合模块之后,方法1214岁ResNet34220.450.33ResNet50220.900.67GoogLeNet(20)0.620.47ResNeXtL321.841.
40、15SKNetL311.030.52AgeNet2D181.030.85ViT2414.731.49CoAtNetL250.640.38Conformer263.562.57ResMAE1.090.78朱昊哲,等:基于Transformer增强卷积的膝关节磁共振影像年龄预测Tab.1 Comparison with state of the art1416岁18岁1.701.341.921.171.071.152.571.851.551.452.191.181.691.923.021.611.721.842.54 1.481.471.712.99 1.643.791.622.14 1.361.
41、371.132.461.681.971.542.031.261.471.502.39 1.88052001-7第6 0 卷具有相对较少训练参数的神经网络结构可以取得较好的性能.即对于卷积神经网络SKNetE311、ResNeXt32和基于卷积和Transformer结合的方法 CoAtNet25和 Conformer26,这些网络的性能低于 Go0gLeNet20,ResNet3422 和 ResNet5022等.同时,本文提出的端到端网络结构比具有两级结构的AgeNet2D18具有更好的预测结果,这在很大程度上取决于ResMAE中的 Masked-Trans-former结构以及提取局部切片
42、特征之后所采用的特征聚合模块.由于本数据集样本数量相对较少,全Transformer结构训练难以获得足够的训练样本,所以对于类似ViTL24I 的全 Transformer结构并没有比全卷积神经网络结构获得更好的结果.此外,由于ResNet2 2 的跳跃连接结构在特征通道加权中发挥了出色的作用,其在该任务中取得了较好的实验结果.本文提出的ResMAE结构使用Res-Net34和Masked-Transformer模块作为特征提取的基本块,以一种全局和局部相结合的方式进一步提高特征的全面性,并且在表1的所有网络结构中取得了最好的性能.如前文所述,与全卷积网络结构和全视觉Transformer结构
43、相比,本文为了提升整体网络结构的特征提取能力,融合视觉Transformer在提取全局特征方面的优势以及卷积网络结构适用于局部特征细节的特点,在ResNet基本块中插人了Masked-Transformer模块.通过实验结果可以看出,卷积和Transformer结构结合的混合式结构明显优于单体网络结构,能够实现更好的年龄预测结果.并且本文中通过使用Masked-Transformer结构,能够进一步平衡Transformer和卷积网络在特征提取过程中的作用,有效避免过拟合现象,实现在膝关节年龄预测任务中的最佳实验结果.表1现有方法评价指标对比1618岁MAE土SD/年1.741.551.641
44、.461.711.391.651.441.681.391.651.372.181.522.181.601.891.471.861.511.801.291.82 1.452.541.852.861.901.811.531.721.491.701.691.941.811.531.201.571.3495%CI1.45;1.831.46;1.841.44;1.811.96;2.391.66;2.061.63;2.012.61;3.111.52;1.921.70;2.181.40;1.75第6 0 卷此外,本文使用图5显示了表1中最佳网络模型ResMAE在五折交叉实验中的预测膝盖年龄与实际年龄的散点图
45、.可以看出,在12 16 岁之间,由于样本的膝关节骨骼生长板即骨区域并未完全融合,年龄特征相对来说比较明显,因此网络能够较为准确地预测出测试样本的年龄.以往的医学研究表明,男性的膝关节骨生长板区域完全愈合发生在16 19岁之间,并随个体的不同存在差异,因此在16 岁以上的样本中通过膝关节MRI来判断个体年龄具有较大误差.同时由于膝关节MRI数据集中的部分受试样本中可能存在发育异常现象,即存在较大的个体差异可能性,在预测结果中162 2 岁年龄区间内的少部分样本可能存在预测值偏大,2 2 岁以上年龄区间内的少部分样本存在预测值偏小的现象。26MAE=1.57 1.34y2422201816141
46、212图5ResMAE预测结果散点图Fig.5Scatter plot of ResMAE prediction result同时,本文为了验证ResMAE网络模型在使用Masked-Transformer模块和特征聚合模块上的效果,以及在Masked-Transformer模块中使用不同大小的遮蔽率M,对于模型预测效果的影响,进行了以下消融实验。首先,如前文所述,本文采用Transformer模块来增强卷积神经网络的特征提取,以此来获得互补性的年龄相关性特征,并且应用 Masked-Trans-former结构的随机遮蔽策略减轻Transformer模块的过拟合现象.由于Masked-Tra
47、nsformer模块中不同遮蔽率M,大小会对模型的性能以及预测效果产生影响,本文在不同遮蔽率大小设置下进行实验.如表2 所示,在ResMAE中采用不同大小的遮四川大学学报(自然科学版)蔽率会对结果产生不同的影响,在遮蔽率过小的时候由于Transformer模块对于全局图像的过拟合可能会导致网络的整体性能下降,同时当遮蔽率过大的时候会减弱Transformer模块对全局依赖的感知能力.当遮蔽率M,设置为0.2 时,ResMAE取得最佳的实验结果,因此在本文所提及的剩余实验中也将M,设置为 0.2.表2 不同遮蔽率M,对实验结果的影响Tab.2The influence of different
48、sampling rate M,on ex-perimental resultsM./%00.050.10.150.20.250.3其次,在前一章中提到,特征提取模块生成所有MRI切片的12 个局部特征向量,为了更好地聚合局部切片特征向量,本文使用两层图注意力模块在特征层面上对于局部特征向量进行聚合.为了进一步说明特征聚合模块的作用以及Transformer模块对于特征提取的影响,本文对于网络是否使用特征聚合模块以及是否用到Masked-Transformerpredict samples模块进行了实验,实验结果如表3所示.无论网络141618 20222426true agelyear052
49、001-8第5期MAE土SD/年95%CI1.721.441.53;1.911.650.391.47;1.83 1.601.311.43;1.771.801.451.61;1.991.571.341.40;1.751.651.501.45;1.851.651.431.46;1.84是否使用到了Masked-Transformer模块,与原始的网络相比,使用了特征聚合模块的网络结构可以显著提升预测效果,预测精度提升大约为0.5年左右.在使用Masked-Transformer增强卷积结构时,由于Transformer模块在提取全局特征的优势以及随机遮蔽策略能够缓解过拟合现象的特点,使用Maske
50、d-Transformer策略对于整体网络性能提升也能起到较大作用.同时,本文还评估了特征聚合模块对于网络收敛速度的贡献,网络模型运行的训练曲线如图6 所示,可以观察到,在网络中使用特征聚合模块可以显著减少网络训练过程中的过拟合现象来加速网络的拟合速度,并在年龄预测任务中产生更好的性能.通过以上实验证明,本文通过使用Masked-Transformer模块实现更全面的特征提取过程,并应用特征聚合模块将不同切片特征在特征层面实现融合,极大程度上提高了网络的年龄预测表征能力并减轻过拟合现象.第5期表3特征聚合模块对实验结果的影响Tab.3The influence of the feature a