1、引用格式:曾素明,吴丽君基于多任务学习的舌像分割与分类J.微电子学与计算机,2023,40(10):20-28ZENG S M,WUL J.Tongue image segmentation and multi-label classification based on multi-task learningJ.Microelectronics&Computer,2023,40(10):20-28.DOI:10.19304/J.ISSN1000-7180.2022.0841基于多任务学习的舌像分割与分类曾素明,吴丽君(福州大学 物理与信息工程学院,福建 福州 350108)摘要:针对舌体分割和
2、单标签分类任务独立实现存在着难以提供舌诊所需的病理特征信息问题,通过共享层提取特征策略,提出联合舌体分割及多标签分类的多任务网络框架.首先,共享层采用轻量化编码模块,并结合金字塔切分注意力解码块以融合舌像深浅层特征,提升共享层特征提取能力.其次,舌像不同标签之间没有明显的关联性,难以对不同标签的相关性进行建模,因此设计了双流分支网络以实现多标签分类:其中一个分支基于自适应分割掩膜设计了背景屏蔽模块以提升舌裂纹识别性能,另一分支在编码块基础上使用空间金字塔池化实现舌苔分类.最后,在早期训练过程中分割损失远小于分类损失,相等损失权重策略将导致分割任务无法学习到最优参数,为此,通过优化的不确定性加权
3、策略同时提升多个任务的性能.实验表明,多任务学习框架在提取共享特征降低网络参数的同时,能有效联合优化各个任务,提升性能.与 Y-Net、MT-UNet 等多任务学习网络相比,在舌体分割和多标签分类性能上均有提升.关键词:多任务学习;金字塔切分注意力;双流分支网络中图分类号:TP391 文献标识码:A 文章编号:1000-7180(2023)10-0020-09Tongue image segmentation and multi-label classificationbased on multi-task learningZENG Suming,WU Lijun(College of Phy
4、sics and Information Engineering,Fuzhou University,Fuzhou 350108,Fujian,China)Abstract:To address the problem that independent implementation of tongue segmentation and single-label classificationtasks have difficulty in providing the pathological feature information required by the tongue clinic,a
5、multi-task networkframework for joint tongue segmentation and multi-label classification is proposed through a shared layer extraction featurestrategy.Firstly,shared layer adopts a lightweight module,combined with pyramid spilt attention to fuse the deep andshallow features of the tongue image,and i
6、mprove the feature extraction ability of the shared layer.Secondly,there is noobvious correlation between different labels of tongue images,and it is difficult to model the correlation of different labels,so a two-stream branch network is designed to achieve multi-label classification:One of the bra
7、nches designs a filterbackground module based on an adaptive segmentation mask to improve performance of tongue crack recognition,and theother branch uses spatial pyramid pooling on the basis of coding blocks to achieve tongue coating classification.Finally,inthe early training process,the segmentat
8、ion loss is much smaller than the classification loss,and the equal loss weightingstrategy will result in the segmentation task not learning the optimal parameters,so the performance of multiple tasks isimproved simultaneously by an optimized uncertainty weighting strategy.Experiments have proved th
9、at the multi-tasklearning can effectively jointly optimize each task and improve performance while extracting shared features and reducing 收稿日期:2022-12-10;修回日期:2023-01-11基金项目:国家自然科学基金项目(62271151);福建省自然科学基金项目(2022H0008,2021J01)40 卷 第 10 期微 电 子 学 与 计 算 机http:/Vol.40No.102023 年 10 月MICROELECTRONICS&COM
10、PUTEROctober 2023network parameters.Compared with multi-task learning networks such as Y-Net and MT-UNet,it has better tonguesegmentation and muti-label classification performance have been improved.Key words:muti-task learning;pyramid spilt attention;two-stream branch network 1引言舌诊是中医重要的诊断方法,即通过观察舌
11、体形态、舌苔颜色、舌质裂纹等特征来判断人体健康状况.然而,传统的舌诊非常依赖于医生的主观经验,而且易受到光照等环境因素影响.随着人工智能技术的发展,计算机辅助舌诊逐渐兴起.计算机辅助舌诊主要包括舌体分割、舌像分类等任务,因其诊断具有客观性并且诊断过程能排除环境干扰,近年来受到了专家学者的广泛关注与研究.在舌体分割方面,Wu 等1提出基于边缘检测和区域融合的分割方法;Zhang 等2基于自适应阈值实现舌体分割.然而受成像质量、舌体轮廓变化多样等因素的影响,上述传统的图像处理方法难以有效提取舌像特征从而准确分割舌体.相比之下,深度学习方法拥有更优秀的图像特征提取能力,广泛应用于舌体分割领域.对于低
12、质量舌像,Tang 等3提出不同膨胀率的级联空洞卷积神经网络模型.针对轮廓变化大的舌体,Huang 等4提出了结合残差软连接模块和图像融合模块的分割网络.然而上述方法都存在着一定的舌体边缘细节信息损失.舌像分类即计算机综合依赖舌苔颜色、舌质裂纹等多种标签特征来诊断人体健康状况.Li 等5基于宽线检测算子识别舌裂纹.Tang 等6通过多示例支持向量机实现舌苔分类.现有的舌像分类研究大多仅实现单标签图像分类,无法提供舌诊所需的详尽诊断信息.多标签分类可以识别同一张图像中不同属性的标签,该技术在胸部 X 射线7图像分析领域已获得了广泛关注,但在舌像分析方面却鲜有研究.多标签分类网络8,9通常采用单分
13、支网络提取图像特征,并对图像中各标签的相关性进行建模,但是其性能高度依赖于各标签之间的关联性.由于舌像不同标签之间没有明显关联,无法通过对标签建模来提取特征,因此多标签的舌像分类任务存在挑战.现有研究3-6通常采用不同的神经网络独立实现舌体分割和分类任务,这导致分割和分类任务不能借鉴相互关联的特征.事实上,分割任务和分类任务是高度关联的,舌体分割中的空间信息有助于提升分类性能,而舌像分类也可以提供分割所需要的纹理特征,因此共同学习分割任务和分类任务更能有效提升舌诊性能.多任务学习10是机器学习中具有前景的方法,即通过多个任务联合学习以增强模型表示.基于共享层提取特征策略,多任务学习中各个任务就
14、能相互关联,共同提升泛化性能.受此启发,本文拟联合多任务学习实现舌体分割和多标签分类.多任务学习在训练过程中往往使用相等损失权重策略,当各任务间损失函数值存在差异时,会导致损失函数收敛快慢不同,进而造成多任务学习中某些分支任务过拟合.Kendall Alex11提出不确定性加权策略,通过迭代优化任务中存在的噪声,提升各任务的泛化性能.然而,针对任务间损失函数值不在同一数量级的问题,不确定性加权策略难以合理优化各个任务.现有研究鲜有同时实现舌体分割和多标签分类的方法,而舌诊需要精准地分割舌体以及准确地识别多种标签特征.本文设计出多任务网络 MT-SCNet(Muti-task Segmentat
15、ion and Muti-label ClassificationNetwork),联合提升分割和分类性能.首先,以改进的分割网络作为共享层:通过轻量化模块提取特征,跳跃连接后使用金字塔切分注意力减少舌体边缘细节信息损失.其次,在共享层基础上设计双流分支网络充分提取多标签的鲁棒性特征,其中舌裂纹识别分支设计出背景屏蔽模块处理自适应分割掩膜,舌苔分类分支使用特征金字塔池化聚合的舌苔特征.最后,通过优化的不确定性加权策略,以平衡训练初期时分割损失和分类损失的数量级差距,进而解决分割任务无法学习到最优参数的问题.2系统原理 2.1U-Net 简介U-Net12是医学图像分割领域最常见的网络模型.其主
16、要包括两个部分:提取图像特征的编码器-解码器结构以及融合图像的深层特征与浅层特征的跳接结构.2.2共享层提取特征策略图 1 是多任务学习中常见的设计策略,各个任务通过共享层实现相互关联,以提高各个任务的泛化性能.Y-Net13和 MT-UNet14也是基于图 1 所示的设第 10 期曾素明,等:基于多任务学习的舌像分割与分类21 计策略,实验表明,通过该设计策略,分割任务和分类任务都降低了过拟合风险,提升了性能.共享层任务 A任务 B任务 C图 1共享层提取特征策略Fig.1 Shared layer extraction feature design strategy 2.3MT-SCNet
17、 整体框架U-Net 中的编码器-解码器虽然包含了分割过程中的前景空间特征信息,但是其网络参数量大,不利于实际应用,此外简单的跳接结构也难以融合舌体分割的深浅层特征.共享层提取特征策略使得分割任务和分类任务能够相互关联,提升性能.基于此,MT-SCNet 是以改进的 U-Net 作为共享层,通过设计双流分支分类网络,以充分利用共享层中编码器和解码器包含的舌体空间特征信息.MT-SCNet 网络结构如图 2 所示,舌体分割任务在 U-Net 的基础上融合了轻量化模块和金字塔切分注意力模块,通过双流分支网络设计背景屏蔽模块实现舌裂纹识别,同时使用特征金字塔池化完成舌苔分类.Convolution+
18、Batchnorm+ReluMaxpoolingBilinear interpolationConCat3*256*256Tongue coatfeaturePSADownCONVDownDownDownUPUPPSAUPPSAUPPSACONVFBMCONVDownResNetBlockResNetBlockResNetBlockResNetBlockCracked/No_CrackedSPPCONVDownUPResNetblock1*1 ConvolutionMoblieV3BlockMobileV3BlockMoibleV3BlockMoibleV3Block3*256*2561*25
19、6*256编码器解码器共享层分割输出舌裂纹识别舌苔分类3*3 Convolution1*1 Convolution图 2MT-SCNet 网络结构Fig.2 MT-SCNet structure 2.4融合轻量化模块和金字塔切分注意力的分割任务轻量化模块 Lighter Block 是 MobileNetV315模型中的线性瓶颈结构,该结构主要是由深度可分离卷积组成,其能够减少大量的卷积运算.解码器在跳接操作结束后使用金字塔切分注意力(Pyramid SplitAttention,PSA)16模块融合舌体深层特征与浅层特征.U-Net 中跳跃连接虽然在一定程度能够融合舌体深浅层特征,但是融合后
20、的无关冗余特征会影响分割性能,且会丢失部分舌体边缘细节信息.在跳跃连接之后使用 PSA 模块对融合后的深浅层特征进行通道重要性加权,以强调有关通道特征,如舌体特征;抑制舌体无关特征,如非舌体特征.PSA 模块通过增大舌体与非舌体特征之间的差异性,使得网络更好地区分舌体特征和背景特征,以便有效地提取出舌体边缘轮廓细节信息,提升分割性能.图 3 是 PSA 模块,其主要包括了 Spilt 模块、SEWeight 模块.PSA 实现流程如下:首先,通过 Spilt模块进行多尺度特征提取.Spilt 模块如图 4 所示,分22微电子学与计算机2023 年别通过 3 3、5 5、7 7、9 9 四个分组
21、卷积提取输入特征,分组卷积运算速度快且计算量小,此外每个不同大小的卷积核能够提取不同感受野的特征.其次,经过 SEWeight 模块对多尺度特征建立局部通道注意力,并且使用 Softmax 函数得到归一化后的权重通道信息,从而更好地抑制无关多尺度特征.最后将归一化的特征和多尺度特征相乘,得到信息更丰富的多尺度通道重构特征图.SEWeight01C1SoftmaxOutputHWC01C1HCSpiltW图 3PSA 模块Fig.3 PSA module CHCCConcatConv 33,G=1Conv 55,G=4Conv 77,G=8Conv 99,G=16WF1F2F3F4CWH图 4S
22、pilt 模块Fig.4 Spilt module W0 RCCrW1 RCrC图 5 是 SEWeight 模块的示意图,首先,通过公式(1)中的全局平均池化将输入的全局空间特征嵌入到通道描述中.其次,通过两个全连接层实现压缩激励,分别表示为和,通过这个策略充分整合通道信息.公式(2)中的 指的是 Sigmoid激活函数.通过 SEWeight 模块就能给输入特征分配不同权重,从而更有效提取信息.gAP=1HWHi=1Wj=1xc(i,j)(1)wc=(W1(W0(gc)(2)2.5双流分支多标签分类网络舌苔和舌裂纹在同一幅舌像中没有明显关联,因此无法使用同一个分支网络提取所有标签的鲁棒性特
23、征.双流分支网络是以分割任务中编码器-解码器为基础设计的.在舌体分割任务生成的自适应掩模中,前景(舌体)像素值会大于背景(非舌体)像素值.对于长度短、沟壑程度浅的舌裂纹而言,非舌体等背景像素会给裂纹识别带来不小困难.于是通过设计背景屏蔽模块(Filter Background Module,FBM)处理自适应分割掩膜,使得裂纹识别任务能够最大化利用舌体空间特征,最后由 Resnet50 网络识别舌裂纹.研究证明13,14,分割任务的编码块含有丰富的前景特征信息,此外空间金字塔池化(Spatial Pyramid Pooling,SPP)17能够多尺度有效地聚合特征,于是在第五个Lighter
24、Block 后使用 SPP 实现舌苔分类.图 6 是本文设计的 FBM 模块,即通过处理自适应掩模,使得裂纹识别网络的输入舌像仅包含舌体区域.Binary Process 是 FBM 模块最关键的算法.图 7是其算法流程图:公式(3)是 Sigmoid 函数,首先,自适应掩膜中小于 0 的像素点(非舌体背景)经 Sigmoid函数映射后函数值会小于 0.5,大于 0 的像素点(舌体)经 Sigmoid 映射则会大于 0.5.其次,选取阈值为0.5 划分前景和背景,通过遍历掩膜像素点,使像素值大于 0.5 的像素置为 1,反之置为 0.最后,之所以关闭 Binary Process 的反向传播,
25、是因为这个像素点划分的函数是不能进行求导的.在分割性能足够有优势的情况下,FBM 模块能最大化感知舌体空间信息.Sigmoid(x)=11+ex(3)Output自适应掩膜SigmoidBinaryprocessInput图 6FBM 模块Fig.6 FBM module GAP11C11C11FC、ReLUFC、SigmoidWCHCr图 5SEWeight 模块Fig.5 SEWeight module第 10 期曾素明,等:基于多任务学习的舌像分割与分类23 Sigmoid 映射后的分割mask 掩模maskij0.5逐像素访问 maskmaskij=1maskij=0NoYes关闭反向
26、传播图 7Binary Process 算法流程Fig.7 Binary Process algorithm process SPP 模块是通过不同大小的最大值池化多尺度捕获空间特征信息,从而更有效地聚合特征.SPP 模块如图 8 所示.InputMaxpooling(22)Maxpooling(44)Maxpooling(88)图 8SPP 模块Fig.8 SPP module 2.6优化的不确定性加权策略lmutilseglc公式(4)是舌体分割损失函数,其中 Y 是分割预测标签;S 是真实掩膜.公式(5)是多标签分类损失函数,其中 N、M 各标签包含的类别数.公式(6)是多任务学习的损失
27、函数,也称相等损失权重策略,其中是多任务损失;是分割损失;是多标签分类损失.lseg(Y,S)=yY,sS(ylogs+(1y)log(1s)(4)lc=Ni=1Tilog(Pi)Mj=1Cilog(Gi)(5)lmuti=lseg+lc(6)121lseg(w)lc(w)1lseg(w)2lc(w)log1212w公式(7)是不确定性加权策略公式.和分别表示的是各任务的噪声.若噪声增大,则分割任务的权重就会减小,此时多任务网络将会关注分类任务;相反噪声减小,的权重就会增大,此时多任务网络则会关注分割任务;与的关系同理.用于防止某个 过大引起的训练失衡.,和 都是在训练过程中需要优化的参数.然
28、而,由于训练初期分割损失和分类损失相差过大,不确定性加权策略难以有效优化各任务.lsum=1221lseg(w)+1222lc(w)+log12(7)lseg(w)lseg(w)lc(w)在不确定加权策略基础上,本研究提出优化的不确定性加权策略.在迭代训练前 500 次中,由于分割损失比多标签分类损失低一个数量级,此时多任务网络在训练过程中将会重点关注分类任务,这导致分割任务学习不到最优的参数.对此通过增大分割损失,以保证分割损失和分类损失数量级相近.公式(8)中分割任务的权重扩大 10 倍;公式(9)是不确定性加权策略,和的权重依赖.优化的不确定性加权策略在前 500 轮训练中选择公式(8)
29、作为损失函数,后 500 轮选择公式(9).lsum=122110lseg(w)+1222lc(w)+log12(8)lsum=1221lseg(w)+1222lc(w)+log12(9)3数据处理与实验验证 3.1数据采集本文使用高清相机收集了不同患者的 755 张舌像来构建数据集,简称 OTdataset.图像分辨率为1 2001 200,由专业人员完成舌体、舌苔、裂纹标签的标注.标注完成之后,该数据集舌苔特征只有四类,而裂纹特征只有两类,其中正常苔色的图像有190 张,红苔 109 张,白苔 332 张,黄苔 124 张,有裂纹特征的有 424 张,无裂纹特征的有 331 张.样本图像见
30、图 9.该数据集的信息见表 1.(a)(b)(c)(d)图 9OTdataset 中的样本图像Fig.9 Sample images in OTdataset 表 1 各标签对应的病理信息Tab.1 Pathological information corresponding to each label编号标签症状a正常苔色(舌淡红、薄白苔)、有裂纹舌有裂纹代表脾虚b红苔、有裂纹红苔代表阴虚丰火、舌有裂纹代表脾虚c白苔、无裂纹白苔代表寒证或寒湿证d黄苔、有裂纹黄苔代表湿热、痰热、舌有裂纹代表脾虚24微电子学与计算机2023 年 3.2实验处理本 文把 OTdataset 中 75%的 图 像
31、作 为 训 练集,25%的图像作为测试集.采用以下的数据增强策略:(1)随机水平翻转;(2)随机垂直翻转;(3)随机角度旋转;(4)随机 HSV 变换;同时进行二折交叉验证,所有 OTdataset 实验采取统一的数据增强策略,迭代训练 1 000 轮.所有实验均在 NVIDIA 3080TI、intel i9-11900k 实现的.所有的网络模型都是基于Pytorch,使用 ADAM 优化器,初始学习率是 2e-4,批尺寸设置为 8,设置输入图像分辨率 256256.3.3评价指标本文采用骰子相似系数(Dice)、交并比(IoU)评价指标12对舌体分割进行定量分析;同时采用查准率(Preci
32、sion)、查全率(Recall)和准确率(ACC)18衡量舌裂纹识别、舌苔分类的性能.nYiZi本文使用以下评价指标即:总体查准率(OP)、总体查全率(OR)和总体准确率(OACC)衡量多标签分类性能.其中 代表的是样本数目,为样本 i 的真实标签,则是样本 i 的预测标签.总体查准率是对图像中所有单标签的查准率求和取平均,总体查全率和总体准确率同理.OP=1nni=1|YiZi|Zi|(10)OR=1nni=1|YiZi|Yi|(11)OACC=1nni=1|YiZi|YiZi|(12)3.4消融实验 3.4.1不同模块的分割网络Lighter Block 轻量化模块虽然能够减少模型参数量
33、,但是没有充分提取舌像的深浅层特征.而 PSA模块能够增大舌体与背景的差异,从而有效地提取舌体边缘细节信息,提升分割性能.如表 2 所示,在 U-Net 基础上加入 Lighter Block模块后,相较于 U-Net,其 IoU、Dice 分别下降了0.28%、0.13%,但是模型参数量却减少了 55.52%.在 U-Net、U-Net+Lighter Block 基础上加入 PSA 模块之后的模型,其分割性能都得到了提升,而模型参数量仅增加了 9M.MT-SCNet 中的分割任务是 U-Net+Lighter Block+PSA 的组合,该模型在轻量性和高性能之间取得了平衡.3.4.2双流
34、分支网络实现舌裂纹识别和舌苔分类双流分支网络分别通过 FBM 模块和 SPP 模块提升裂纹和舌苔标签的性能,进而提升多标签分类的性能.为了验证 FBM 模块的有效性,同时使用 RepVGG网络、ShuffleNetV2 网络和 ResNet50 网络作为舌裂纹识别网络.从表 3 中可以分析出,三者在加入 FBM模块之后裂纹识别的性能均得到提升.由此证明,裂纹识别任务通过 FBM 模块能够最大化借鉴分割过程的空间特征信息,这与多任务设计初衷一致.表 3 原始方法和添加 FBM 模块后的裂纹识别精度对比Tab.3 Crack recognition accuracy comparison betw
35、een theoriginal network and after adding the FBM module(%)方法ACCRecallPrecisionRepVGG85.9885.8085.76FBM+RepVGG87.8387.6587.80ShuffleNetV282.2882.1781.99FBM+ShuffleNetV286.2486.1786.00Resnet5087.8387.7187.62FBM+Resnet5088.8988.4688.94 Cls-SPP 是和 MT-SCNet 中舌苔任务相同结构的单任务网络,MT-SCNet-decoding 是 MT-SCNet 中的
36、编码器,MT-SCNet-decoding+SPP 是 MT-SCNet 中舌苔任务分支.从表 4 中可以得到如下观察结果:(1)多任务 MT-SCNet-decoding+SPP 性能优于相同结构的 Cls-SPP 单任务,说明 MT-SCNet 的编码器拥有丰富的舌体空间信息,而舌苔分类任务能够充分利 表 2 U-Net 加入不同模块后的分割性能Tab.2 Segmentation performance of U-Net after addingdifferent modules方法IoUDice模型参数量(M)U-Net96.7598.32134.9U-Net+Lighter Bloc
37、k96.4798.1960.0U-Net+PSA96.9898.47143.9U-Net+Lighter Block+PSA96.9198.4269.0 表 4 原始网络和添加 SPP 模块后的舌苔分类精度对比Tab.4 Tongue-coating classification accuracy comparisonbetween the original network and after adding theSPP module(%)方法ACCRecallPrecisionCls-SPP89.9587.4389.19MT-SCNet-decoding90.2188.0189.64MT-S
38、CNet-decoding+SPP91.2789.6690.31第 10 期曾素明,等:基于多任务学习的舌像分割与分类25 用这一部分的信息.(2)MT-SCNet-decoding 再加入SPP 模块之后,ACC 提升了 1.06%、Recall 提升了1.65%、Precision 提升了 0.67%.由此证明 SPP 模块能够进一步充分聚合无规则分布的舌苔 3.4.3多任务中不同的训练策略图 10、图 11 是 MT-SCNet 使用相等损失权重策略时的分割损失和多标签分类损失曲线图.在前500 次迭代训练中,分类损失高于分割损失一个数量级,此时多任务网络将重点关注分类任务,从而导致分割
39、网络学习不到最优的参数.0.0502004006002000.050.10400segloss8001 0000.100.150.200.250.300.35图 10相等损失权重策略的分割损失曲线图Fig.10 Segmentation loss curves using equal weight strategy 00200400600800200clsloss124001 000246810图 11相等损失权重策略的多标签分类损失曲线图Fig.11 Muti-label Classification loss curves usingequal weight strategy MT-SCN
40、et-seg 网络结构和 MT-SCNet 中分割任务相同,是单任务模型.表 5 可以分析出,MT-SCNet使用相等权重策略时,相较于 MT-SCNet-seg 单任务,IoU 下降了 0.15%,Dice 下降了 0.08%.相等损失权重策略会导致多任务中的分割任务出现过拟合.最后通过优化的不确定性加权策略,其分割性能优于单任务 MT-SCNet-seg,同时 O-ACC、O-P 也均优于相等权重策略.优化的不确定性加权策略消除了各任务损失函数差异,从而更有效地联合优化分割任务和分类任务.3.5对比实验为了进一步验证 MT-SCNet 的有效性,本次对比实验对比了单任务分割网络、单任务多标
41、签分类网络和多任务网络.根据表 6 分析,相较于单任务分割网络 AttU-Net19,MT-SCNet 分割性能略有提升.相较于单任务多标签分类网络 TResnetL20、Resnet+101+CRSA21,O-ACC 提 升 了 5.29%、1.99%,O-R 提升了 3.98%、2.09%,O-P 提升了 4.36%、2.28%.相较于 Y-Net、MT-UNet 多任务网络,本文方法取得了最优的分割和多标签分类性能.其中O-ACC 为90.61%,O-R 为 89.04%,O-P 为 90.35%,IoU 为 96.96%,Dice 为98.45%.表 6 各网络的分割性能和分类性能对比
42、Tab.6 Comparison of segmentation performance andclassification performance of networks(%)方法O-ACCO-RO-PIoUDiceAttU-Net-96.6998.29TResnetL85.3285.0685.99-Resnet101+CRSAA88.6286.9588.07-Y-Net87.8387.6187.3495.1097.48MT-UNet89.2988.1488.1196.7698.33MT-SCNet(Ours)90.61%89.04%90.35%96.96%98.45%基于门注意力机制的 A
43、ttU-Net 虽然能够有效地提取舌体显著特征,但是容易忽略舌体边缘等细节特征.TResnetL、Resnet101+CRSA 模型均使用单分支网络提取各标签特征,单分支网络难以捕获各标签特征的关联性,因此其多标签分类性能不佳.Y-Net 中单分支分类网络不能有效提取舌苔标签和舌裂纹标签特征,此外其分割结构的下采样的倍率为 4,同样地上采样的倍率也为 4,过大的采样率使得分割网络丢失舌体边缘细节信息.MT-UNet 虽然设计出分类任务利用分割掩膜预测的结构,但是单分支分类网络不足以提取各个标签的鲁棒性特征,分割网络也是同 U-表 5 不同训练策略的性能对比Tab.5 Performance c
44、omparison using different trainingstrategies(%)方法O-ACCO-RO-PIoUDiceMT-SCNet-seg-96.9198.42相等损失权重90.0889.0689.6296.7698.34不确定性加权90.3489.6288.8796.8198.37优化的不确定性加权90.6189.0490.3596.9698.4526微电子学与计算机2023 年Net 采取简单的跳跃连接结构,但简单的跳接操作不能充分融合舌像深浅层特征.本文提出的 MT-SCNet模型能够有效地利用任务间相互关联的特征,通过PSA 模块充分提取舌体边缘细节特征,提升分割性
45、能;通过融合 FBM 模块和 SPP 模块的双流分支分类网络,提升多标签分类性能.图 12 是各多任务学习网络的检测结果.从分割检测结果来看,这三个多任务学习算法都能检测出和手工标签大致相同的舌体区域,但是 MT-SCNet 其预测的边缘更贴近标签.从分类结果来看,图 12 中第一幅舌像,MT-SCNet 能够准确识别出裂纹,在第二幅,MT-SCNet 能够正确分类出黄色舌苔.手工标签Y-NetMT-UNetMT-SCNet(Ours)图 12多任务学习网络的检测结果Fig.12 Detection results of multi-task learning networks 4结束语本研究
46、设计出联合多任务学习的分割和多标签分类模型 MT-SCNet,用于提取舌像的多个特征以实现准确的舌诊.MT-SCNet 由分割网络作为共享层,在此基础上设计双流分支网络实现多标签分类.分割网络的编码器使用轻量化 Lighter Block 模块提取特征,解码器使用 PSA 模块融合深浅层特征,缓解舌体边缘信息丢失问题.双流分支网络设计了 FBM 模块、SPP 模块,以充分利用分割过程的空间特征信息,该设计有效解决了各标签没有明显关联从而导致的标签无法建模问题.最后通过优化的不确定性加权策略,进一步联合提升分割性能和分类性能.实验结果表明,本研究提出多任务学习算法相较于各任务独自实现具有更好的性
47、能.相比其他对比算法,MT-SCNet 能更好地分割舌体轮廓以及正确识别各标签特征.优化的不确定性加权策略虽然改善了分割和分类性能,但是手工设置权重增加了时间成本.未来将继续探索联合优化多任务学习的方法.参考文献:WU K B,ZHANG D.Robust tongue segmentation byfusing region-based and edge-based approachesJ.Ex-1pert Systems with Applications,2015,42(21):8027-8038.DOI:10.1016/j.eswa.2015.06.032.张灵,秦鉴.基于灰度投影和阈
48、值自动选取的舌像分割方法J.中国组织工程研究与临床康复,2010,14(9):1638-1641.DOI:10.3969/j.issn.1673-8225.2010.09.027.ZHANG L,QIN J.Tongue-image segmentation basedon gray projection and threshold-adaptive methodJ.Journal of Clinical Rehabilitative Tissue Engineering Re-search,2010,14(9):1638-1641.DOI:10.3969/j.issn.1673-8225.2
49、010.09.027.2 TANG H,WANG B,ZHOU J,et al.DE-Net:dilated en-coder network for automated tongue segmentationC/Proceedings of the 25th International Conference on Pat-tern Recognition(ICPR).Milan,Italy:IEEE,2021:2575-2581.DOI:10.1109/icpr48806.2021.9412845.3 HUANG Z H,MIAO J Q,SONG H B,et al.A nov-el to
50、ngue segmentation method based on improved U-NetJ.Neurocomputing,2022,500:73-89.DOI:10.1016/j.neucom.2022.05.023.4 LI X Q,WANG D,CUI Q.WLDF:effective statistic-al shape feature for cracked tongue recognitionJ.Journ-al of Electrical Engineering and Technology,2017,12(1):420-427.DOI:10.5370/jeet.2017.