SMViT：用于新冠肺炎诊断的轻量化孪生网络模型.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(10)-2499-12doi:10.3778/j.issn.1673-9418.2210070SMViT：用于新冠肺炎诊断的轻量化孪生网络模型马自萍1+，谭力刀2，马金林2，陈勇31.北方民族大学数学与信息科学学院，银川 7500212.北方民族大学计算机科学与工程学院，银川 7500213.宁夏医科大学总医院放射介入科，银川 750004+通信作者 E-mail:摘要：针对新冠肺炎的深度学习诊断模型存在的准确率不高、泛化能力较

2、差和参数量较大的问题，基于ViT和孪生网络，提出了一种新冠肺炎诊断的轻量化孪生网络SMViT。首先，提出了循环子结构轻量化策略，使用多个具有相同结构的子网络构成诊断网络，从而降低网络的参数量；其次，提出ViT掩码自监督预训练模型，以增强模型的潜在特征表达能力；然后，构建新冠肺炎诊断的孪生网络SMViT，有效提升模型的诊断准确率，改善小样本下模型泛化能力较差的问题；最后，使用消融实验验证并确定了模型结构，通过对比实验验证模型的诊断性能和轻量化能力。实验结果表明：与最具竞争力的ViT架构的诊断模型相比，该模型在X-ray数据集上的准确率、特异度、灵敏度与F1分数值分别提高了1.42%、4.62%、

3、0.40%和2.80%，在CT图像数据集上的准确率、特异度、灵敏度与F1分数值分别提高了2.16%、2.17%、2.05%和2.06%；在样本量较小时，模型具有较强的泛化能力；与ViT相比，SMViT模型具有更小的参数量和更高的诊断性能。关键词：新冠肺炎诊断；孪生网络；ViT模型；自监督学习；轻量化模型文献标志码：A中图分类号：TP391.5SMViT:Lightweight Siamese Masked Vision Transformer Model for Diagnosis ofCOVID-19MA Ziping1+,TAN Lidao2,MA Jinlin2,CHEN Yong31.

4、School of Mathematics and Information Science,North Minzu University,Yinchuan 750021,China2.School of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China3.Department of Radiological Intervention,General Hospital of Ningxia Medical University,Yinchuan 750004,ChinaAbstract:In

5、 order to solve the problems of low accuracy,poor generalization ability and large number of parametersin the diagnosis model of COVID-19 based on deep learning,a lightweight siamese architecture network SMViT(siamese masked vision transformer)for COVID-19 diagnosis based on ViT(vision transformer)a

6、nd siamese networkis proposed.Firstly,a lightweight strategy of cyclic substructure is proposed,which uses multiple subnets with thesame structure to make a diagnosis network,thereby reducing the number of network parameters.Secondly,maskedself-supervised pre-training model based on ViT is proposed

7、to enhance the potential feature expression ability ofthe model.Then,in order to effectively improve the diagnostic accuracy of the diagnosis model of COVID-19,andimprove the poor generalization ability of the model under small samples,this paper constructs the twin network基金项目：国家自然科学基金（61462002）；宁夏

8、自然科学基金（2022AAC03268，2020AAC03215，2020AAC02004）。This work was supported by the National Natural Science Foundation of China(61462002),and the Natural Science Foundation ofNingxia(2022AAC03268,2020AAC03215,2020AAC02004).收稿日期：2022-10-18修回日期：2023-02-20Journal of Frontiers of Computer Science and Technol

9、ogy计算机科学与探索2023,17(10)由于新冠病毒的传播速度极快，对全人类的生命健康带来了严重的危害。因此，快速精确地诊断出新冠肺炎对患者治疗与切断病毒传播链具有重要意义。研究表明，新冠肺炎患者在患病期间几乎都会出现肺部性状的改变1-2。手动标记影像数据不仅对检查人员的临床经验要求较高，而且费力耗时，而基于深度学习的智能影像诊断技术具有诊断速度快、灵敏度高的优点3。用于新冠肺炎诊断的经典深度网络主要有4-9：VGGNet、ResNet、DenseNet、InceptionNet、CapsNet和EfficientNet等网络。VGGNet使用小核卷积与小核池化来保证少量参数下获取更多细节

10、特征，一些学者将 VGGNet作为主干网络用于新冠肺炎诊断取得了不错的效果4。ResNet采用残差连接的结构将浅层特征与深层特征直接相连，有效地缓解了梯度消失、梯度弥散和网络退化的问题5。DenseNet中任意层之间都有直接的连接，利用所有层的特征来预测结果以提升网络的鲁棒性6。InceptionNet采用多尺度的多分支卷积层来提取不同尺度的特征，使用11的卷积与全局平均池化来使网络参数减少的同时提高运算速度7。CapsNet通过将capsule嵌套在其他层中来减小网络深度，每个 capsule可以检测图像中的一类特定实体，通过动态路由机制向父层反馈检测到的实体。基于CapsNet架构的新冠肺

11、炎诊断网络由于其深度较浅，对设备算力要求不高8。EfficientNet由B0B7共8个不同尺度的子网络构成，通过交替使用33与55的卷积层来提取特征，并使用组合缩放系数来同时调整网络的宽度与深度，实现了较高的新冠肺炎诊断准确度9。由于常规病毒性肺炎与新冠肺炎的影像特征差别很小，基础网络往往难以准确地进行分类。因此，研究者提出了一些多模型结合的方法。Ozkaya等10提出了一种多模型深层特征融合和排列的新冠肺炎检测方法（deep features fusion and ranking technique，DFFRT）。类似地，Rahimzadeh等11提出基于Xception12和ResNet

12、的级联神经网络。这类网络虽然实现了精度的提升，但灵敏度不足。为此，Togacar 等13结合MobileNetV214和 SqueezeNet15构造级联网络，并且借助支持向量机（support vector machine，SVM）16对有效特征进行组合，提升了模型的灵敏度。多模型结合的方法虽然在一定程度上提升了模型的诊断性能，但是大多数新冠肺炎数据集的样本数量十分有限，而常规架构下的深度学习网络会由于训练数据不足导致网络泛化能力较弱，难以在小样本数据集上取得良好的效果。因此，Zheng等提出了 DeCoVNet17模型，该模型通过与弱监督方法18结合，采用数据增强技术有效缓解了数据集过小带

13、来的过拟合问题，但是该模型容易导致较高的假阴性率。为此，Narin等19巧妙地使用结合迁移学习的二进制Resnet模型（binary classification of transfer learningResnet，BTLResnet）来解决数据量少和训练时间不足的问题，改善了假阴性问题。与BTLResnet模型不同，Wang等20提出了基于 DenseNet121的新冠肺炎分类和预后分析方法，该方法使用双步迁移策略来解决新冠肺炎数据集样本数量不足的问题，在数据集较小的情况下取得了较高的诊断准确率。与此类似的是，Chowdhury等21提出基于EfficientNet的集成网络（effici

14、ent COVID-19 detection network，ECOVNet）。该网络使用在 ImageNet上预训练的权重进行迁移，通过集成预测的方法来降低模型的泛化误差，提高了在新冠肺炎X-ray图像小数据集的诊断准确率。综上所述，基于迁移学习的方法解决了数据集样本不足的问题，然而，简单的迁移学习技术对源域数据与目标域数据的相似度要求较高，复杂的迁移学习技术在不同任务上需要使用不同的迁移策略，可移植性差。为此，He等提出一种自监督预训练框架（masked autoencoder，MAE）22，通过在原图像上随机掩盖一定比例的像素块作为模型的输入数据，使SMViT.Finally,the a

15、blation experiment is used to verify and determine the structure of the model,and thediagnostic performance and lightweight capacity of the model are verified through comparative experiments.Experimental results show that,compared with the most competitive ViT-based diagnostic model,the Accuracy,Spe

16、cificity,Sensitivity and F1 scores of this model on the X-ray dataset have increased by 1.42%,4.62%,0.40%and2.80%respectively,and the Accuracy,Specificity,Sensitivity and F1 scores on the CT image dataset have increasedby 2.16%,2.17%,2.05%and 2.06%respectively.The SMViT model has strong generalizati

17、on ability for smallsample size datasets.Compared with ViT,SMViT model has smaller parameters and higher diagnostic performance.Key words:diagnosis of COVID-19;siamese network;vision transformer;self-supervised learning;lightweight model2500马自萍等：SMViT：用于新冠肺炎诊断的轻量化孪生网络模型用原图像作为标签来训练模型。受此启发，本文构建了 MAE

18、策略下的 ViT（vision transformer）模型以缓解复杂的迁移学习技术的可移植性差问题。目前，在许多视觉任务中ViT模型展现了其全局的优越性，与卷积神经网络（convolutional neural net-work，CNN）相比，性能有了显著的提升23。但是，ViT模型的多头自注意力机制会对全局的特征表示进行学习，这导致其参数量显著增加。为此，本文采用循环子结构的方法对模型进行轻量化，通过在单个子网络上循环更新梯度来避免训练时产生过大的计算图。对由多个结构相同的编码器块构成的 ViT模型，该方法可明显降低其参数量。1本文方法1.1轻量化策略本文提出了循环子结构轻量化策略，其网络

19、训练流程如图 1所示。设一个神经网络A由结构相同的子网络A1,A2,An构成，子网络Ak的输出为子网络Ak+1的输入，网络A的总参数量为子网络A1参数量的n倍。设神经网络B仅由子网络B1构成，B1与A1结构相同，因此网络B的总参数量为子网络A1参数量。通过公式推导证明，在网络A与网络B有相同输入、标签、网络参数的情况下，将子网络B1复用n次后，每一轮训练将会得到相同的结果。该策略对由多个具有相同结构的子网络构成的复杂网络具有轻量化效果。理论证明如下：将神经网络表示为函数的形式，设子网络A1为函数output=f1(input)，子网络A2为函数output=f2(input)，子网络Ak为函数

20、output=fk(input)，子网络B1为函数output=g(input)，其中input为网络的输入，output为网络的输出。设神经网络中采用sigmoid作为激活函数，并将一个子网络分为输入层、隐含层与输出层。由神经网络的定义可知，f1(input),f2(input),fn(input),g(input)的形式均可表示为：11+e-(W*X+b)（1）其中，W为神经网络中输出层与前一层各连接的权重，b为偏置项，X为隐含层的输出。由式（1）易知，表示神经网络的函数在定义域内无穷次可导。因此，任意表示神经网络的函数均可利用泰勒公式将其表示为一个多项式函数

21、。若将所有的子网络函数均按泰勒公式展开到固定的阶数，则函数f1(input),图1网络A与网络B的训练流程Fig.1Training process of networkAand networkB2501Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)f2(input),fn(input),g(input)均可表示为同阶的多项式函数：f(x)=anxn+an-1xn-1+a2x2+a1x+a0（2）网络A可表示为：outA=fn(fn-1(f2(f1(input)（3）网络B可表示为：outB=

22、g(g(g(g(input)（4）其中，函数g()复合了n次。设多项式函数g()的第m阶为omxm，多项式函数fn()的第m阶为pnmxm。通过归纳假设法可以证明，当n=1时：outA=p1mxm（5）outB=omxm（6）若令om=p1m，则式（3）与式（4）相等。当n=k时：outA=pkmp(k-1)m.p2mp1mxkm（7）outB=om(k-1)m+(k-1)xkm（8）若令om(k-1)m+(k-1)=pkmp(k-1)m.p2mp1m，则式（3）与式（4）相等。当n=k+1时：outA=p(k+1)mpkm.p2mp1mx(k+1)m（9）outB=omkm+kx(k+1)m

23、（10）若令omkm+k=p(k+1)mpkm.p2mp1m，则式（3）与式（4）相等，即可以通过将单个子网络复用n次来达到与由n个子网络构成的复杂网络相等的效果。1.2轻量化的孪生架构网络本文提出轻量化的SMViT（siamese masked visiontransformer）网络模型，其结构如图2所示。从图2可以看出，轻量化 SMViT模型的编码器通过将一个编码器子块循环使用来取得与原本由多个编码器子块堆叠构成的编码器相同的效果，有效减少了网络参数量与训练模型所需显存。在SMViT的预训练网络中，编码器负责提取高维特征表示，解码器则通过与未掩码图像计算MSE（mean square e

24、rror）损失来细粒度地还原图像，从而有效地增强了模型的潜在特征表示能力。MSE损失公式为：MSE=1ni=1n(yi-yi)2（11）最后，搭建一个孪生网络头用于新冠肺炎的诊断。1.3孪生网络头孪生网络的核心思想是利用神经网络将两个输入样本映射到新的空间中进行表示，通过对两个样本在新空间的表示计算损失，来评价两个输入的相似度24。由于孪生网络具有权值共享的特性，这样可以保证两个不同样本的输出在同一域内25。近年来，孪生网络已成为各种视觉表示学习模型中的常见结构，它将最大化两幅同一类别图像之间的相似性，并最小化两幅不同类别图像之间的相似性。孪生神经网络可以将分类问题转化为模板匹配的问题，进而具

25、备较强的小样本学习能力，且不易被错误样本干扰26。因此，在ViT的编码器上添加一个由全连接层与MSE损失构成的孪生网络头，其结构如图2所示。其中，编码器与解码器负责掩码自监督预训练，预训练完成后再训练由编码器与孪生网络头组成的诊断网络，此时，编码器梯度将不再更新。由于肺部图像中图2SMViT网络结构图Fig.2Structure of SMViT2502马自萍等：SMViT：用于新冠肺炎诊断的轻量化孪生网络模型不同区域对是否被判定为新冠肺炎的贡献度不同，在孪生网络头中，全连接层将对输入样本的特征图进行加权。然后计算两个样本加权后的MSE损失来判定两个样本是否属于同一类别。嵌入了孪生网络头后，

26、轻量化的 SMViT能更好地分辨出新冠肺炎患者的肺部图像，进而在小样本数据集上具备良好的泛化能力。1.4算法流程SMViT模型的训练流程图如图3所示，具体流程如下：（1）把所有样本分为训练集与验证集后，将所有训练集中的数据输入 ViT 中进行掩码自监督预训练。预训练完成后随机从训练集中选取部分样本作为对比库。（2）分别遍历对比库与训练集中剩余的所有样本，每次从对比库中选出一个样本Di，从训练集中挑选出一个样本Tj；将Di与Tj分别输入编码器中计算特征图。（3）然后将特征图输入孪生网络头计算差异，并根据样本所属类别构建的标签进行损失计算，最终使得同类样本差异最小，异类样本差异最大。（4）利用模型

27、进行验证时，首先分别遍历验证集与对比库中所有样本，每次从验证集中选出一个样本Vi，从对比库中挑选出一个已知类别的样本Di，计算Vi与Di的特征图；其次输入孪生网络头进行判断，若两个样本属于同一类别，则该类别得分加1，反之，则不加分；最后计算所有类别的得分率，得分率最大者作为该输入样本的类别。1.5数据集与评价指标现有的新冠肺炎数据集有X-ray图像与CT图像两类。本文使用的X-ray图像数据集包括COVID-19radiography database 数据集27与 Pranavraikokte 数据集28，CT 图像数据集包括 COVID19-CT 数据集29与SARS-CoV-2 CT-s

28、can 数据集30。COVID-19 radio-graphy database数据集包含 3 616例新冠肺炎阳性、6 012例肺部阴影（非 COVID肺部感染）和 10 192例正常的 X-ray 图像。Pranavraikokte 数据集包含 137例新冠肺炎阳性病例、90例正常和 90例病毒性肺炎病例的X-ray图像。COVID19-CT数据集包含216名新冠肺炎患者的 349 幅和 397 幅正常的 CT 图像。SARS-CoV-2 CT-scan数据集包括1 262例COVID-19阳性患者的 CT图像和 1 230例 COVID-19阴性患者的CT图像。本文实验中对所有数据集均按

29、7 3的比例划分训练集与验证集。由于数据集样本内部存在类别不均衡的问题，为了对模型性能进行更客观的评价，本文采用准确率（accuracy，ACC）、特异度（specificity，SPE）、灵敏度（sensitivity，SEN）和F1分数来评价模型性能。其中，SPE的计算公式为：SPE=TNTN+FP（12）SEN的计算公式为：SEN=TPTP+FN（13）ACC的计算公式为：ACC=TP+TNTP+TN+FP+FN（14）其中，TP、TN、FP、FN分别表示真正例、真反例、假正例、假反例。F1-Measure的计算公式为：F1=2P RP+R（15）其中，P与R分别表示查准率和查全率，其计

30、算公式分别为：P=TPTP+FP（16）R=TPTP+FN（17）1.6实验环境本文的实验环境均基于Pytorch框架，使用Titan图3SMViT训练流程图Fig.3Flow chart of SMViT2503Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)V 12 GB 显卡。初始学习率为 0.000 3，batchsize 为32，epoch为100，使用Adam优化策略。2实验结果与分析2.1新冠肺炎诊断结果与分析本实验验证了 SMViT模型在新冠肺炎 X-ray图像、CT 图像数据集

31、上的诊断性能，并给出了实验分析。测试集一共包含4个数据集，本文方法在各数据集上的“损失-轮次”与“准确率-轮次”折线图如图4所示。从图4可以看出，损失值随轮次增加逐渐趋于稳定，准确率上升趋势在训练后期仍然增长平稳，表明本文方法具有较稳定的收敛性能。在两个 X-ray图像数据集上比较了 SMViT与对比模型的诊断性能，实验结果如表 1 所示。可以看出，在两个数据集上，对于ACC、SPE、SEN和F1分数而言，SMViT模型取得了最好的诊断性能，与对比模型相比，最多提高了 7.0%、6.7%、7.3%和 6.0%，与MFViT 相比，分别提高了 0.9%1.4%、0.8%4.6%、0.4%0.8%

32、和 0.8%2.8%，表明 SMViT 在 X-ray 图像上的诊断性能具有明显的优势。此外，为了比较模型在推断时的计算效率，在两个X-ray图像数据集上计算了单幅图像的平均推断耗时。SMViT的推断耗时略高于 MobileNetV2+SqueezeNet，但是明显低于其他对比模型。因此，本文模型在推断速度上仍然具有一定的优势。在两个 CT 图像数据集上比较了 SMViT 与对比模型的诊断性能，实验结果如表 2所示。可以看出，SMViT的ACC、SPE、SEN和F1分数具有最高的取值，与最具竞争力的Trans-CNN Net相比，分别提高了0.9%2.1%、1.2%2.1%、0.7%2.0%和

33、1.0%2.1%，表明 SMViT 在 CT 图像上的诊断性能具有明显优势。从推断耗时来看，SMViT的推断耗时与DeCoVNet2D相当，略高于 COVID-FACT，但低于其他对比模型。其原因是COVID-FACT也采用了轻量化策略。与其他非轻量化的模型相比，SMViT在CT图像上的推断速度仍然具有显著的优势。2.2消融实验为了验证孪生网络与ViT结合的有效性，分别设计了四组消融实验，在包含 X-ray图像与 CT 图像的四个数据集上的实验结果如表3所示。第一组实验验证孪生网络架构是否比全连接网络架构更有效。将 ViT与主流的用于分类的全连接网络进行组合（fully connected n

34、etwork-masked visiontransformer，FCN-MViT），其训练流程与 SMViT保持一致。对比表 3 中 COVID19-CT 数据集与 Pranavr-aikokte数据集上的实验结果可以看出，FCN-MViT的图4不同数据集下轮次对精度和损失的影响Fig.4Effect of epoch on accuracy and loss under different datasets2504马自萍等：SMViT：用于新冠肺炎诊断的轻量化孪生网络模型性能不如SMViT，对于相对复杂的CT图像病例的诊断效果较差。这表明 FCN-MViT在小数据集上的分辨能力不足，而基于

35、孪生网络与 ViT结合的 SMViT，在小数据集上表现出了优越的性能。因此，采用孪生网络架构比采用全连接网络架构性能更好。第二组实验检验基于 ViT的自监督预训练模型是否比基于卷积自编码器的自监督预训练模型更有效。使用图像处理领域非常流行的卷积自编码器来代替 ViT 进行掩码自监督预训练（siamese maskedautoencoder，SMAE）。对比表 3 中 SMAE 与 SMViT的实验结果，可以看出SMAE的性能明显不如SMViT，这表明SMAE在图像特征提取能力上略逊一筹。因此，虽然SMViT与SMAE模型均采用孪生网络架构，但基于 ViT的自监督预训练模型比基于卷积自编码器的自

36、监督预训练模型更有效。第三组实验验证卷积自编码器与全连接网络架构是否会是更有效的结合方式：使用卷积自编码器进行掩码自监督预训练，采用全连接网络架构进行分类（fully connected network-masked autoencoder，FCN-MAE）。从表 3 可以看出，FCN-MAE 不仅不能在小表1不同方法在X-ray图像上的性能对比Table 1Performance comparison of different methods on X-ray images数据集COVID-19 radiographydatabasePranavraikokte模型Resnet50v2+Xc

37、eption11MobileNetV2+SqueezeNet13BTLResnet19DWDensnet31EfficientNetB332MFViT33SMViTResnet50v2+Xception11MobileNetV2+SqueezeNet13BTLResnet19DWDensnet31EfficientNetB332MFViT33SMViTACC0.9850.9840.9610.9720.9880.9810.9950.9730.9650.9120.9290.9730.9730.982SPE0.9860.9880.9590.9740.9880.9510.9950.9780.9560.

38、9110.9330.9560.9700.978SEN0.9820.9740.9660.9700.9870.9920.9960.9710.9710.9120.9260.9850.9770.985F10.9710.9700.9270.9480.9760.9640.9910.9770.9700.9250.9400.9780.9770.985推断耗时/ms33.518.923.826.124.525.221.233.919.224.026.424.725.521.5表2不同方法在CT图像上的性能对比Table 2Performance comparison of different methods o

39、n CT images数据集COVID19-CTSARS-CoV-2 CT-scan模型COVID-FACT8DFFRT10DeCoVNet2D18RCResNet34COFE-Net35Trans-CNN Net36SMViTCOVID-FACT8DFFRT10DeCoVNet2D18RCResNet34COFE-Net35Trans-CNN Net36SMViTACC0.9060.9780.9060.9280.9820.9820.9910.9170.9750.9040.9290.9680.9700.991SPE0.9410.9830.9080.9580.9830.9800.9920.940

40、0.9780.9050.9570.9650.9650.986SEN0.8650.9710.9040.8940.9810.9830.9900.8940.9710.9020.9020.9710.9750.995F10.8950.9750.8990.9200.9800.9800.9900.9150.9740.9040.9270.9680.9700.990推断耗时/ms17.537.821.733.025.635.921.717.437.421.432.825.335.521.52505Journal of Frontiers of Computer Science and Technology计算机

41、科学与探索2023,17(10)数据集上取得良好的结果，而且其总体性能远低于SMViT。这进一步验证了采用孪生网络架构的模型在小数据集上能取得更好的效果，而采用卷积自编码器与全连接网络架构相结合的架构则会带来更糟糕的结果。第四组实验验证掩码自监督预训练策略能否比非掩码自监督预训练策略提取到更有效的特征表示，进而提升诊断精度。实验中，使用与SMViT结构完全相同的网络，采用非掩码自监督预训练策略（siamese vision transformer，SViT）。从表 3 可以看出，在不同的数据集上 SViT的诊断准确率比 SMViT低 1.3%7.2%。这表明与非掩码自监督预训练策略相比，掩码自

42、监督预训练策略能提取到更有效的特征表示。综上所述，采用非孪生网络架构的神经网络在小数据集上的性能不佳；采用卷积自编码器进行预训练会导致模型特征提取能力不足，与采用ViT进行预训练的模型相比其性能略显不足；采用卷积自编码器与全连接网络架构的模型会带来更糟糕的结果；而采用孪生网络架构的ViT模型能够在数据集样本不足的情况下取得最好的效果。因此，孪生网络对ViT模型在新冠肺炎诊断中具有重要的提升效果，进而验证了此种架构的有效性。此外，与非掩码自监督预训练策略相比，掩码自监督预训练策略能提取到更有效的特征表示，对模型诊断性能的贡献更高。2.3单类网络下的轻量化可行性分析在 1.1 节已经证明由多个具有

43、相同结构的子网络构成的复合网络，可以通过在单个子网络上循环更新梯度来取得完全相同的结果。但为了进一步验证该方法的可行性，设计了一个采用全连接层构建的具有多个相同结构子网络的复合网络，其结构如图5所示。设定相同输入、标签、初始参数，在单个子网络复用三次与三个子网络使用一次的模式下，验证输出与损失是否一致来判断该策略的可行性，实验结果如图6所示。从图6可以看出，两种模式下每个轮次的输出与损失完全一致，这表明该策略是可行的。2.4复合网络下的轻量化可行性分析在保证相同输入、标签、初始参数的情况下，仍然通过检查单个子网络复用三次与三个子网络使用一次两种模式下，每个轮次的输出与损失是否一致来检验该方法在

44、复合网络下的可行性，实验结果如图 7所示。从图 7可以看出，两种模式下，每个轮次的输出与损失仍然完全一致，这表明该方法在复合网络下仍然可行。设计了一个由全连接层、卷积层共同构建的具有多个相同结构子网络的复合网络，其结构如图8所示。从图8可以看出，该复合网络具有三个结构完全相同的子网络，每个子网络的数据由全连接层输入，通过reshape改变张量形状，再输入卷积层，然后通过reshape再次改变张量形状后输入到全连接层，最后将全连接层的输出作为下一个子网络的输入。表3消融实验结果Table 3Ablation experimental results数据集COVID-19radiographyda

45、tabasePranavraikokteCOVID19-CTSARS-CoV-2CT-scan模型FCN-MAESMAEFCN-MViTSViTSMViTFCN-MAESMAEFCN-MViTSViTSMViTFCN-MAESMAEFCN-MViTSViTSMViTFCN-MAESMAEFCN-MViTSViTSMViTACC0.7780.8540.9600.9820.9950.7760.8570.9120.9110.9820.6460.7430.7520.9190.9910.7030.7470.7880.9610.991SPE0.7910.8700.9890.9810.9950.7900.8

46、910.9780.9260.9780.6890.8220.8440.9230.9920.7720.7940.8560.9650.986SEN0.7410.8080.8800.9820.9960.7600.8170.8680.8880.9850.6180.6910.6910.9150.9900.6350.7010.7220.9560.995F10.6350.7430.9200.9660.9910.7590.8410.9210.9260.9850.6770.7640.7700.9140.9900.6830.7370.7750.9610.990图5全连接构建的复合网络Fig.5Composite n

47、etwork constructed by full connection2506马自萍等：SMViT：用于新冠肺炎诊断的轻量化孪生网络模型图6单类网络下两种方法的损失与输出结果曲线Fig.6Loss and result curves of two methods under simple network图7多类网络下两种方法的损失与输出结果曲线Fig.7Loss and result curves of two methods under multiple networks2507Journal of Frontiers of Computer Science and Technolog

48、y计算机科学与探索2023,17(10)2.5轻量化结果与分析由于 ViT的编码器是由多个结构相同编码器块组合而成，属于由多个相同结构的子网络构成的复杂网络，可以通过循环单个编码器块来达到与使用多个编码器块一样的效果，并减小ViT的参数量。为了验证 SMViT的轻量化效果，在不同编码器块数量下进行了对比。不同编码器块所占显存与参数量如表4所示。在batchsize相同的情况下，循环单个编码器块的SMViT与拥有9个编码器块的ViT相比，所占显存可减少 74.07%，网络参数量可减少 88.88%。因此，基于循环子结构的 SMViT能明显减少其参数量与显存占用。3结束语本文提出了一种轻量化的孪生

49、ViT模型SMViT，并应用于新冠肺炎诊断。首先，使用非对称的轻量级 ViT进行掩码自监督预训练来使模型学到更有效的潜在特征表示；其次，在 ViT的基础上添加孪生网络架构来搭建SMViT；最后，通过循环子结构的方法对模型进行轻量化。实验结果表明：在X-ray数据集上，本文模型的ACC、SPE、SEN与F1分数，比最具竞争力的 ViT 架构模型提高了 1.42%、4.62%、0.40%和2.80%；在CT图像数据集上，相应指标最大可提高2.16%、2.17%、2.05%和 2.06%。在 X-ray 图像与 CT图像上的实验结果均表明SMViT的诊断性能明显优于对比模型，表现出了优越的性能。此外

50、，在数据集样本量不足的情况下，SMViT 仍然具有良好的泛化能力。在基于循环子结构的轻量化策略下，SMViT能明显减少参数量与显存占用。由于 SMViT 采用了孪生网络架构，在解决多分类问题时训练耗时较高，未来的研究将对此进行优化。另外，对不具有结构相同子网络的复合网络如何进行轻量化仍然有待进一步研究。参考文献：1 PAN Y,GUAN H,ZHOU S,et al.Initial CT findings andtemporal changes in patients with the novel coronaviruspneumonia(2019-nCoV):a study of 63 pa

展开阅读全文