1、基于 DeeplabV3+改进的煤岩显微组分组自动化测试模型胡晋玮1,奚峥皓1,徐国忠2,李忠峰3,刘翔1(1.上海工程技术大学 电子电气工程学院,上海 201620;2.辽宁科技大学 化工学院,辽宁 鞍山 114051;3.营口理工学院 电气工程学院,辽宁 营口 115000)摘要:煤岩显微组分组的识别对分析煤炭化学性质起到关键作用。人工识别方法费时费力,且专业性要求较高。现有的计算机辅助识别有效方法多以深度学习语义分割模型为手段,但因煤岩显微图像组成复杂,且存在过渡组分,因此无法准确识别煤岩显微组分组。针对此问题,提出改进的 Dee-plabV3+语义分割模型,在改进模型中引入 Swin
2、Transformer 骨干网络和 SkNet 网络。首先,针对煤岩显微图像各个组分组交错杂糅且存在过渡组分,特征提取困难,利用 Swin Transformer 骨干网络作为基础特征提取网络,提升模型对煤岩显微图像每种组分组的特征提取能力,并使得分割网络获得特征间信息交互的能力;其次,针对在模型中空洞空间卷积池化金字塔模块对特征利用率低的问题,将 SkNet 网络融入空洞空间卷积池化金字塔模块,强化空洞空间卷积池化金字塔模块对重要特征的提取能力,并抑制非必要特征对最终预测结果的干扰;最后,将改进的 DeeplabV3+模型与现有先进算法通过实验进行性能比较,结果表明:改进的 DeeplabV
3、3+语义分割模型在煤岩显微图像测试集上的像素准确率为 92.06%,与随机森林方法、U-Net 语义分割模型和 DeeplabV3+语义分割模型相比像素准确率分别提高了 9.48%、6.90%和 3.40%;改进的 DeeplabV3+语义分割模型与人工点测方法测试结果相近。改进的 DeeplabV3+语义分割模型较现有煤岩显微组分组自动识别模型性能更优,可作为一种强大的计算机辅助人工识别煤岩显微组分组的手段。关键词:煤岩显微图像;显微组分组;自动化测试;语义分割模型;Swin Transformer;SkNet中图分类号:TP391.4;TQ533.6 文献标志码:A 文章编号:1001-1
4、986(2023)10-0027-10AnimprovedautomatedtestingmodelformaceralgroupsincoalsbasedonDeeplabV3+HU Jinwei1,XI Zhenghao1,XU Guozhong2,LI Zhongfeng3,LIU Xiang1(1.School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201620,China;2.School of Chemical Engineering,
5、University of Science and Technology Liaoning,Anshan 114051,China;3.College of Electrical Engineering,Yingkou Institute of Technology,Yingkou 115000,China)Abstract:The identification of maceral groups in coals plays a critical role in analyzing the chemical properties of coals.However,manual identif
6、ication is laborious and requires high expertise.Existing computer-assisted identification meth-ods,mostly adopting deep learning-based semantic segmentation models,fail to accurately identify maceral groups incoals due to complex compositions of microscopic coal images and the presence of transitio
7、nal components.Therefore,this study proposed an improved DeeplabV3+semantic segmentation model integrating the Swin Transformer backbonenetwork and the SkNet.First,to deal with the challenge of feature extraction caused by the intertwined maceral groupsand the presence of transitional components in
8、microscopic coal images,the Swin Transformer backbone network wasused as the basic feature extraction network to enhance the feature extraction ability of the model for various maceral 收稿日期:2023-01-18;修回日期:2023-05-09基金项目:国家自然科学基金项目(12104289)第一作者:胡晋玮,1995 年生,男,江苏盐城人,硕士,研究方向为计算机视觉技术.E-mail:jinweihu_通信
9、作者:奚峥皓,1981 年生,男,上海人,博士,副教授,研究方向为计算机视觉、智能认知学习与控制.E-mail: 第 51 卷 第 10 期煤田地质与勘探Vol.51 No.102023 年 10 月COAL GEOLOGY&EXPLORATIONOct.2023胡晋玮,奚峥皓,徐国忠,等.基于 DeeplabV3+改进的煤岩显微组分组自动化测试模型J.煤田地质与勘探,2023,51(10):2736.doi:10.12363/issn.1001-1986.23.01.0013HU Jinwei,XI Zhenghao,XU Guozhong,et al.An improved automat
10、ed testing model for maceral groups in coals based onDeeplabV3+J.Coal Geology&Exploration,2023,51(10):2736.doi:10.12363/issn.1001-1986.23.01.0013groups and to enable the information interaction between features of the segmentation network.Second,to improve thefeature utilization rate of the Atrous S
11、patial Pyramid Pooling(ASPP)module in the model,the SkNet network was integ-rated into the ASPP to enable the ASPP to extract important features and suppress unnecessary features that interferewith the final prediction results.Finally,the improved DeeplabV3+model was compared with existing advanced
12、al-gorithms through experiments.As indicated by the comparison results,the improved model yielded pixel accuracy of92.06%on the test set of microscopic coal images,which was 9.48%,6.90%,and 3.40%higher than that of the randomforest method,the U-Net semantic segmentation model,and the DeeplabV3+seman
13、tic segmentation model,respect-ively.Furthermore,the improved model showed results similar to the manual point measurement method.Therefore,theimproved model,outperforming the existing automatic identification models for coal maceral groups,can serve as apowerful method for the computer-assisted man
14、ual identification of maceral groups in coals.Keywords:microscopic coal image;maceral group;automated testing;semantic segmentation model;Swin Trans-former;SkNet 煤炭作为主要化石燃料之一,在满足日益增长的能源需求方面发挥着不可或缺的作用,在可预见的未来仍将是全球能源体系的支柱1。煤岩显微组分组的差异表明其物理化学组成的差异,这些差异影响煤的性质(如功能和反应性)2。因此,煤的显微组分及其含量对煤的化学工艺性质有着重要影响3,在显微镜下
15、,煤岩显微组分组可以通过颜色、反射率、突起和形态来区分。近年来,煤岩学快速发展,并形成了一系列煤岩学国家标准,而基于图像处理的煤岩组分自动化识别技术是今后煤岩学研究的重点目标4。长期以来,很多方法可以识别煤岩显微组分组。传统的人工分析取决于操作人员的经验,且耗时耗力。近年来,机器学习在煤岩显微组分分析领域取得了显著进展5。P.K.Singh 等6通过主成分分析选择了10 个纹理特征,基于多层感知器识别惰质组。宋孝忠等运用 K 均值聚类的方法识别煤岩图像7,此外,并通过剔除假边界的方法8提高了煤岩显微图像识别的准确率。Wang Hongdong 等9使用聚类方法自动将整个显微照片分割成离散的区域
16、,使每个区域只包含一类显微组分组,再使用随机森林方法识别,其像素准确率为 90.44%。但上述机器学习的方法存在两个显著弊端。第一,现有分类器依赖手工特征,这些特征是专家为一般图形分类设计的,而非为识别煤岩显微图像设计的。第二,由于煤岩显微图像复杂,且显微组分组内存在过渡组分,类内差异较大。因此,现有机器学习方法在识别复杂的煤岩显微图像时性能较差。基于深度学习的语义分割方法对煤岩显微组分组进行识别则避免了上述问题10。DeeplabV3+11是一种常见的语义分割模型,用于各种语义分割任务均取得了较好的结果12,但是其特征提取网络(Deep Con-volution Neural Network
17、,DCNN)模块全局特征提取能力较弱,并且其空洞空间卷积池化金字塔模块(AtrousSpatial Pyramid Pooling,ASPP)处理各尺度特征的能力很弱。较 DCNN,Swin Transformer13的全局信息交互能力有助于特征提取器快速建立全局感受野14-15,提高场景理解准确性16,更全面地提取上下文位置信息,避免全卷积神经网络下采样时丢失过多语义细节特征。较基于窗口注意力机制的 Vision Transformer17,Swin Transformer 的自注意力感受视野不局限于固定范围,且计算量较低。而 SkNet 处理多重特征信息能力较强18,可以在多重特征上筛除冗
18、余特征并加强重要特征。因此,笔者提出一种使用 Swin Transformer网络和 SkNet 对 DeeplabV3+改进的语义分割模型。1网络模型结构利用图像处理技术进行煤岩显微组分组分割时,因显微组分组特征的较高复杂性和煤岩煤粒尺度的较大差异性,使得一般分割模型的分割准确率并不理想6。并且煤岩显微组分组的分割过程亦可视为对不同组分组特征表征的语义进行分割过程。由此,本文提出了一种改进 DeeplabV3+的语义分割模型,以改善通过计算机对煤岩显微组分组分割时准确率不高的问题。该模型将 SwinTransformer13骨干特征提取网络替换 DeeplabV3+11网络的主干特征提取网络
19、,使模型具有移动窗口自注意力性,以提升煤岩显微组分组特征的信息交互能力。并且在 Dee-plabV3+的空洞空间卷积池化金字塔模块(Atrous Spa-tial Pyramid Pooling,ASPP)中加入选择核单元网络(Selective Kernel Networks,SkNet)18,使所提模型可用 3 个不同扩张率的空洞卷积提取出最重要的特征,且抑制不重要的特征信息。改进的 DeeplabV3+网络结构如图 1 所示。1.1基于 DeeplabV3+的煤岩显微组分组语义分割模型DeeplabV3+语义分割模型主要由编码器和解码器两部分构成,编码器包括深度卷积神经网络(DeepCo
20、nvolution Neural Network,DCNN)模块和 ASPP 模 28 煤田地质与勘探第 51 卷块。ASPP 模块的加入,使单依赖 DCNN 工作的编码器在深层特征图中具有更大感受野11。ASPP 模块主要使用不同膨胀率的空洞卷积,从而获得不同大小的感受野;其大尺度感受野有助于全局特征的获取,而小尺度感受野则可以防止小目标信息的丢失;使得所提取的深层特征图包含的特征信息更加全面,从而更有利于提取具有尺度差异的煤岩显微组分组的特征。在 ASPP 模块,可由 Pooling、11 卷积核和 3 个扩张率(rate=6、12、18)空洞卷积分别提取 5 个特征图像。将其并联,再经
21、11 卷积核压缩特征通道数后,输入至解码器。在解码器中,完成对输入特征图的 2 次上采样,获得与原输入图像一致的语义分割图像。但是在 DeeplabV3+模型中的 DCNN 仅通过全卷积操作无法同时提取局部和全局的特征信息,更无法直接处理跨尺度信息;在 ASPP 模块中提取的图像特征存在大量冗余,含有大量冗余的特征图通过一个卷积层后直接进入解码器,这会导致大量有效特征的丢失。1.2基于 SwinTransformer 网络改进的 Deeplab-V3+编码器由于煤岩显微图像中各组分组交织杂糅,图像结构复杂,特征提取困难,而 Swin Transformer 具有提取复杂细节特征的能力13。因此
22、,本文采用 Swin Trans-former 替代 DCNN 作为骨干特征提取网络,利用 SwinTransformer 网络改进的 DeeplabV3+结构如图 2 所示。SwinTransformer 骨干网络共有4 种系列结构Swin-Tiny,Swin-Small,Swin-Base 和 Swin-Large,经实验验证,当煤岩数据量较少时,使用过大的网络会导致过拟合,因此,本文使用 Swin-Tiny,其网络结构如图 3 所示。记高 H 和宽 W 的输入图像为 I(HW3)。本文Swin Transformer 网络操作流程如下。(1)将 I(HW3)经 RGB 三通道输入 Pat
23、ch Parti-tion 模块,可得 48 个大小为 H/4W/4 的图像块。在通道维度上重新拼接 48 个图像块,即拼接后的图像为I1(H/4W/448)。(2)将 I1(H/4W/448)在 Stage1 中沿通道维度展开,经线性嵌入层(Linear Embedding)得到 C 个大小为 H/4W/4 的特征图。在 Swin-Tiny 结构中 C=96。再将特征图放入移动窗口注意力模块(Swin Trans-former Block)。(3)Stage 2 到 Stage 4 中,为提取不同尺度特征,用块合并层(Patch Merging)替换 Linear Embedding 层。1
24、1ConvImage PoolingConcate11ConvUpsample By 4Swin Tranformer Stage1Swin Tranformer Stage2Swin Tranformer Stage3Swin Tranformer Stage4Patch Partition11ConvConcate11ConvUpsampleBy 4Swin TransformerBackboneencoderASPPSkNet Atrous33ConvRate=18SkNetdecoderSkNet Atrous33ConvRate=12SkNet Atrous33ConvRate=61
25、1ConvImage PoolingConcate11ConvUpsample By 4Swin Tranformer Stage1Swin Tranformer Stage2Swin Tranformer Stage3Swin Tranformer Stage4Patch Partition11ConvConcate11ConvUpsampleBy 4Swin TransformerBackboneencoderASPPSkNet Atrous33ConvRate=18SkNetdecoderSkNet Atrous33ConvRate=12SkNet Atrous33ConvRate=61
26、1ConvImagePoolingConcate11ConvUpsample By 4Swin Tranformer Stage1Swin Tranformer Stage2Swin Tranformer Stage3Swin Tranformer Stage4Patch Partition11ConvConcate11ConvUpsampleBy 4SwinTransformerBackboneencoderASPPSkNetAtrous33Convrate=18SkNetdecoderSkNetAtrous33Convrate=12SkNetAtrous33Convrate=6图 1 改进
27、的 DeeplabV3+网络结构Fig.1 Improved DeeplabV3+network architecture 输入图像ASPP 模块decoderSwin Transformer骨干网络encoder输出图像图 2 基于 Swin Transformer 网络改进的DeeplabV3+编码器Fig.2 Improved DeeplabV3+encoder based on the SwinTransformer network ImagesPatch PartitionLinearEmbeddingSwinTransformerBlock2262Stage 1Stage 2Sta
28、ge 3Stage 4FeaturemapPatchMergingSwinTransformerBlockPatchMergingSwinTransformerBlockPatchMergingSwinTransformerBlockH/4W/448H/4W/4CH/8W/82CH/16W/164CH/32W/328CHW3图 3 Swin Transformer 的 Swin-Tiny 网络结构Fig.3 Swin-Tiny architecture of Swin Transformer第 10 期胡晋玮等:基于 DeeplabV3+改进的煤岩显微组分组自动化测试模型 29 设每层输入特征
29、图为 I2(H/nW/nCn/4),n 分别为 8、16、32。在 Patch Merging 中将 I2分为 4 个块,再在通道维度上进行拼接为 I3(H/2nW/2nCn)。I3经 11卷积后得到 I4(H/2nW/2nCn/2)。过程中每次进入Swin Transformer Block 后都不改变特征图的大小和通道数,故从 Stage 1 到 Stage 4 任一阶段输出的特征图与其输入时相比大小均减半且通道数翻倍。Swin Transformer Block 主要由窗口多头自注意力9(Windows Multi-head Self Attention,W-MSA)模块和移动窗口多头自
30、注意力(Shifted Windows Multi-headSelf Attention,SW-MSA)模块构成,如图 4 所示。其中,LayerNormal 负责层内归一化,多层感知机(Multi LayerPerceptron,MLP)以 Gule 为激活函数。Swin Transformer Block 的这种结构特点可使其在固定窗口内通过自注意力构建上下文语义信息的同时,实现不同移动窗口内语义信息交互,如图 5 所示。ACBCBAACBCBAW-MSAMaskedW-MSAWindow partitionCyclic shiftReverse cyclic shiftACBCBAACB
31、CBAW-MSAMaskedW-MSA.图 5 基于移动窗口的自注意力计算流程Fig.5 Self-attention calculation process based on shifted windows 1.3基于 SkNet 改进的 ASPP 模块由于煤岩显微图像组成复杂,煤颗粒尺度差异大,导致煤岩显微组分组特征提取较为困难。将骨干网络提取的特征图输入 ASPP 模块获得不同尺度的特征可解决此类问题。但是,ASPP 模块所提取不同尺度的特征图会保留大量冗余特征。而 SkNet 不但处理多重特征信息能力较强,而且可以从输入的特征图中筛选出重要的特征,自适应地学习特征,从而提高网络模型的自
32、适应能力。因此,本文提出了利用 SkNet 改进ASPP 模块的方法,将不重要的特征筛除,突出有效特征。经 SkNet 改进的 DeeplabV3+模型如图 6 所示。输入图像SkNet-ASPP 模块decoderSwin Transformer骨干网络encoder输出图像图 6 基于 SkNet 改进的 DeeplabV3+Fig.6 Improved DeeplabV3+based on the SkNet 使用 SkNet 改进的 ASPP 模块如图 7 所示。将1.2 节的输出特征图 X 作为 SkNet18输入,分别经rate 为 6、12、18 的空洞卷积,得到 U1、U2和
33、U3。令U=U1+U2+U3,通过全局平均池化层 Fgp,将 U 压缩为长度为 L 的向量 s。利用全连接层 FFC将 s 的长度缩放为 L/r,得到向量 z,r 为控制参数。为强化重要特征且抑制冗余特征,利用下式所示的 softmax 回归得到长度为 L 的空洞卷积特征图权重a1、a2和 a3。a1=exp(ALz)exp(ALz)+exp(BLz)+exp(CLz)a2=exp(BLz)exp(ALz)+exp(BLz)+exp(CLz)a3=exp(CLz)exp(ALz)+exp(BLz)+exp(CLz)(1)AL,BL,CL R式中:为 z 的参数矩阵。将式(1)代入式(2)可得经
34、空洞卷积处理后的特征图 VL。VL=a1U1+a2U2+a3U3,a1+a2+a3=1(2)2实验数据采集与实验设置2.1实验数据集构建实验所用数据样本为合作单位采集,包含 60 个不同变质程度的单种煤样本,制样和数据获取过程遵循GB/T 8899201319煤的显微组分组和矿物测定方法,镜质体最大反射率为 0.61%1.70%。样本图像由光学显微镜蔡司 Axioskop 40 放大 500 倍获得,其分辨率为 2 0481 536,且均为在黄色滤镜下采集的 RGB 格式。根据我国煤岩显微组分组分类标准20,煤岩显微组分为镜质组、惰质组、壳质组和矿物质。研究中,邀请 3 位煤岩专家对本文所用
35、79 张样本数据进行像素级一致标注,标注中黄、蓝、粉、绿、红分别代表镜质 LayerNormalW-MSALayerNormalMLPLayerNormalSW-MSALayerNormalMLPInputFeaturemapOutput Featuremap图 4 Swin Transformer Block 结构Fig.4 Structure of the Swin Transformer Block 30 煤田地质与勘探第 51 卷组、惰质组、壳质组、矿物质以及环氧树脂,煤岩显微图像和标注结果示例如图 8 所示。图 8 煤岩显微图像原图(左)和标注结果示例(右)Fig.8 Origina
36、l microscopic coal images(left)and the example of manual annotation results(right)2.2实验数据预处理深度神经网络训练需要固定图像样本尺寸,但样本数据较少时,训练结果泛化性不强,易造成模型过拟合。为此,本文对每张图像样本进行随机裁剪、按比例缩放、随机翻转和亮度调节处理。在原单个图像样本中任意裁剪大小为 512512 像素子图,将子图按照0.81.2 倍比例进行缩放,若缩放后子图较 512512 像素小则使用镜像补全至 512512 像素,若缩放后子图较 512512 像素大则再次裁剪至 512512 像素。对缩放
37、后的子图随机进行翻转操作后,依据原图像样本的亮度对翻转图像进行 0.81.2 倍处理。过程中,每步操作均生成多张过渡图像以及对应的标注,将其补充进数据集,可获得图像样本共 7 900 张。3实验结果分析3.1模型训练实验结果均为五折交叉验证得出,即所有数据被均匀分为 5 份,其中 4 份用于训练,一份用于评价模型性能。模型训练和评价指标均为 5 次求和平均。实验在OpenMMLab 框架下完成。硬件采用Inteli7-10700KCPU+NVIDIA GeForce GTX3080GPU。软件采用 Ubuntu16.04 系统,搭载 Cuda11.6+PyTorch1.9.0+Python3.
38、8。模型均训练 200 个 epoch,批量大小为 8,使用 Adam 优化器,初始学习率为 103。模型使用的损失函数均为交叉熵损失函数。改进的 DeepLabV3+模型和 DeepLabV3+模型的训练集和测试集的准确率曲线、损失曲线如图 9 所示。损失曲线在迭代开始时迅速下降,并逐渐收敛。2 个网络模型的训练集和测试集的损失曲线趋势一致,训练集和测试集的准确率曲线在开始迭代后迅速上升,随后保持在一个较高的准确率,最终趋于稳定。3.2评价指标本文采用常用的 3 个语义分割指标对模型性能进行评价8,如下面 3 个关系式。分别为像素准确率(Pixel Accuracy,PA)、平均像素准确率(
39、Mean Pixel Ac-curacy,MPA)、平均交集与并集比(Mean Intersection X XU UVLF2:Atrous Convolution rate 12F1:Atrous Convolution rate 6SelectFusesoftmaxelement-wise summationelement-wise productF3:Atrous Convolution rate 18a1a2a3FgpFFCF1F2U1U2U3F3图 7 SkNet 网络改进的 ASPP 模块Fig.7 Improved ASPP module based on the SkNet第
40、10 期胡晋玮等:基于 DeeplabV3+改进的煤岩显微组分组自动化测试模型 31 over Union,MIoU)。PA=1MMm=1Ni=1PmiiNi=1Nj=1Pmij(3)MPA=1MMm=11NNi=1PmiiPmij(4)MIoU=1MMm=11NNi=1PmiiNj=1Pmij+Nj=1PmjiPmii(5)式中:N 为煤岩图像划分类别的总数;Pmij为第 m 个样本中被预测为第 j 类而实际属于第 i 类的像素个数;Pmii为第 m 个样本中预测为第 i 类实际也属于第 i 类的像素个数;M 为煤岩显微图像样本总数。3.3实验结果不同煤岩显微组分组分割模型的预测结果如图 1
41、0所示,其中 Swin-Deeplab 由 DeeplabV3+模型的深度卷积神经网络替换为 Swin Transformer 获得。由图 10可知,改进的 DeeplabV3+模型预测结果细节更丰富,对细小煤粒预测错误率更低,在各煤岩显微组分组间的交错边缘处细粒度更强,预测更加准确。3.3.1 改进的 DeeplabV3+模型性能评价将改进的 DeeplabV3+模型与随机森林9、FCN-16s21、U-Net22、DeeplabV323、DeeplabV3+模型进行性能指标比较,实验结果见表 1。由表 1 可见,改进的 DeeplabV3+模型在 PA、MPA和 MIoU 这 3 个指标均
42、显著高于其他模型,其中,改进的 DeeplabV3+模型在煤岩显微图像测试集上的像素准确率为 92.06%,比随机森林方法提高 9.48%,比 U-Net 语义分割模型提高 6.90%,比 DeeplabV3+语义分割模型像素准确率提高了 3.40%。分析其原因,改进的 DeeplabV3+模型可以更好地提取和利用煤岩显微图像特征,从而得到更好的分割结果。3.3.2 改进的 DeeplabV3+模型消融实验为验证改进的 DeeplabV3+模型各模块有效性,将本文所提方法与 Swin-Deeplab 和 DeeplabV3+进行性能比较,结果见表 2。由表 2 可见,改进的 DeeplabV3
43、+模型在 PA、MPA和 MIoU 这 3 个指标上都取得了最好的分割效果。(a)本文提出模型(b)DeeplabV3+迭代次数PA0201 0002 0003 0004 0005 000训练验证406080100迭代次数损失01 0002 0003 0004 0005 000训练验证0.51.01.5迭代次数PA0201 0002 0003 0004 0005 000训练验证406080100迭代次数损失01 0002 0003 0004 0005 000训练验证0.51.01.52.0图 9 2 种模型下损失曲线和模型像素准确率(PA)曲线对比Fig.9 Comparison of the
44、 loss curves and PA curves for improved DeeplabV3+and DeeplabV3+(a)原图(b)标签(c)本文方法(d)Swin-Deeplab(e)DeeplabV3+图 10 不同煤岩显微组分识别模型预测结果Fig.10 Prediction results of different identification models for coal maceral groups 32 煤田地质与勘探第 51 卷与 DeeplabV3+相比,Swin-Deeplab 因 Swin Transformer的引入,提高了模型特征提取能力,且更加注重特征
45、间关联。改进的 DeeplabV3+模型在 Swin-Deeplab 中补充了 SkNet 网络,提升了模型针对不同特征的选择性能,突出了重要特征。3.3.3 Swin-Transformer 系列骨干网络选择在 1.2 节中,在选择 Swin-Transformer 系列骨干网络中选择使用 Swin-Tiny,而非 Swin-Small、Swin-Baes 和 Swin-Large,以避免模型过大而导致过拟合。本文选用 Swin-Small 骨干网络加入模型训练,其预测图像如图 11 所示,其训练损失曲线和像素准确率如图 12 所示。由图 12 可见,在迭代轮次小于 500 时Swin-Sm
46、all 分割模型的训练集和测试集损失曲线一同降低,但在 500 个迭代轮次之后,随着模型迭代轮次的增加,训练损失逐渐减小,但测试的损失却逐渐增大;且模型的测试集像素准确率在提升到 70%附近不再增加,但是模型的训练集像素准确率却一直在增加;模型明显过拟合。如果使用参数量相对 Swin-Baes 和Swin-Large 较少的 Swin-Small 时已经出现过拟合现象,若使用 Swin-Baes 和 Swin-Large 也必然会出现过拟合。(b)标签(c)Swin-Tiny 模型(d)Swin-Small 模型(a)原图图 11 使用 Swin-Tiny 和 Swin-Small 的分割模型
47、预测结果Fig.11 Prediction results of Swin-Tiny and Swin-Small segmentation models 迭代次数损失01 0005001 5002 0002 5003 000训练验证0.51.01.5迭代次数PA01 0005001 5002 0002 5003 000训练验证40206080100图 12 使用 Swin-Small 分割模型的损失曲线和模型像素准确率曲线Fig.12 Loss curves and PA curves of the Swin-Smallsegmentation model 3.4混淆矩阵分析本文使用混淆矩阵
48、来评估每类煤岩显微组分组分割的准确率,结果见表 3表 5。改进的 DeeplabV3+模型对所有组分组的分割正确率均高于对比模型,其中壳质组分割正确率相较于 DeeplabV3+模型提升了10%,壳质组分割正确率显著提升。表3改进的 DeeplabV3+模型识别煤岩显微图像混淆矩阵Table3ConfusionmatrixoftheimprovedDeeplabV3+modelforidentificationofmicroscopiccoalimages显微组分组镜质组惰质组壳质组矿物质环氧树脂镜质组0.950.02000.03惰质组00.9100.080.01壳质组0.0200.7900.
49、19矿物质00.0200.980环氧树脂000.0300.97 3.5煤岩显微组分组定量分析显微组分组的定量分析在煤岩应用领域有重要作用。为了验证本文方法的有效性,对比了改进的 Dee-plabV3+方法和人工点测方法对显微组分组的测试的结果。改进的 DeeplabV3+方法对煤岩显微图像的每个像素都会测定出所属显微组分组类别。每张图片每个显微组分组的占比计算方式如下:表1不同煤岩显微组分组识别模型预测结果 Table1Pedictionresultsofdifferentidentificationmodelsforcoalmaceralgroups单位:%方法PAMPAMIoU随机森林98
50、2.5863.3651.12FCN-16s80.2653.2945.10U-Net85.1667.1953.25DeeplabV385.4568.4552.24DeeplabV3+88.6670.6659.00改进的DeeplabV3+92.0674.6663.51 表2改进的 DeeplabV3+模型消融实验 Table2AblationexperimentresultsoftheimprovedDeeplabV3+model单位:%方法PAMPAMIoUDeeplabV3+88.6670.6659.00Swin-Deeplab89.4571.4561.24改进的DeeplabV3+92.0