收藏 分销(赏)

轻量级自注意力机制为主干的自然土地覆被分割研究.pdf

上传人:自信****多点 文档编号:715389 上传时间:2024-02-20 格式:PDF 页数:8 大小:3.84MB
下载 相关 举报
轻量级自注意力机制为主干的自然土地覆被分割研究.pdf_第1页
第1页 / 共8页
轻量级自注意力机制为主干的自然土地覆被分割研究.pdf_第2页
第2页 / 共8页
轻量级自注意力机制为主干的自然土地覆被分割研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 22卷 第 9期2023年 9月Vol.22 No.9Sept.2023软 件 导 刊Software Guide轻量级自注意力机制为主干的自然土地覆被分割研究安昭先,魏霖静(甘肃农业大学 信息科学技术学院,甘肃 兰州 730070)摘要:以陕西省延安市志丹县中西部地区16级卫星遥感图像为研究对象,提出一种作用于土地植被低分辨率遥感卫星图像的语义分割方法GFormer。GFormer以MixTransFormer为主干编码器,并使用一种全新设计的具备递进式特征融合结构的解码器。在研究对象数据集上,GFormer表现出极强的分割能力和分割稳定性。与以卷积为主干的DeepLabV3+、Unet

2、相比,GFormer表现出了以注意力机制为主干的语义分割算法极强的鲁棒性;与同样使用以MixTransFormer为主干编码器的SegFormer相比,GFormer全新设计的递进式融合结构编码器在遥感图像分割中具有更强的解码能力。相较于SegFormer上表现最好的模型B5,在模型规模更小的情况下,MIoU、Kappa分别提高了3.25%、3.04%;相较于使用相同规模 MixTransFormer 编码器的 SegFormer-B4,GFormer 得益于全新设计的递进式解码器,MIoU、Kappa分别提高了5.01%、4.81%。实验结果证明了GFormer在地被覆盖遥感图像分割上具备有

3、效性和鲁棒性。关键词:计算机视觉;深度学习;语义分割;自注意力机制DOI:10.11907/rjdk.222100开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP751.1 文献标识码:A文章编号:1672-7800(2023)009-0174-08Research on Lightweight Self-Attention Mechanism as Backbone for Natural Land Cover SegmentationAN Zhaoxian,WEI Linjing(School of Information Science and Technolog

4、y,Gansu Agricultural University,Lanzhou 730070,China)Abstract:Taking the 16-level satellite remote sensing images in the central and western regions of Zhidan County,Yanan City,Shaanxi Province as the research object,a semantic segmentation method GFormer,which acts on low-resolution remote sensing

5、satellite images of land and vegetation,is proposed.GFormer uses MixTransFormer as the backbone encoder and uses a newly designed decoder with progressive feature fusion structure.On this dataset,GFormer shows strong segmentation stability and segmentation ability.Compared with DeepLabV3+and Unet wi

6、th convolution as the backbone,GFormer shows the strong robustness of the semantic segmentation algorithm with attention mechanism as the backbone;compared with SegFormer which also uses MixTransFormer as the backbone encoder,GFormers newly designed full progressive fusion structure encoder has stro

7、nger decoding ability in remote sensing image segmentation.Compared with the model B5 with the best phenotype on SegFormer,MIoU and Kappa are increased by 3.25%and 3.04%respectively when the model scale is smaller;compared with SegFormer-B4 using the same scale MixTransFormer encoder,GFormer benefit

8、s The MIoU and Kappa of the newly designed progressive decoder are increased by 5.01%and 4.81%respectively.The experimental results demonstrate the effectiveness and robustness of GFormer in the segmentation of ground cover remote sensing images.Key Words:computer vision;deep learning;semantic segme

9、ntation;self-attention mechanism0 引言目前针对自然土地覆被的分割手段一直采用传统图像分割方法,不同于城市建筑分割任务,自然土地覆被分布广、土地覆被对象形状不规则。将现有的深度学习图像分割方法直接应用于自然土地覆被分割任务上效果不理想,因为这些方法过于追求图像语义,忽视了有限感受野收稿日期:2022-09-19基金项目:教育部产学研合作协同育人项目(202102326036);兰州市人才创新创业项目(2021-RC-47);甘肃农业大学研究生教育研究项目(2020-19)作者简介:安昭先(1998-),男,甘肃农业大学信息科学技术学院硕士研究生,研究方向为遥感图

10、像处理;魏霖静(1977-),女,博士,甘肃农业大学信息科学技术学院教授,研究方向为农业信息化。本文通讯作者:魏霖静。第 9 期安昭先,魏霖静:轻量级自注意力机制为主干的自然土地覆被分割研究下的局部特征。因此,本文提出作用于自然土地覆被遥感图像的语义分割方法GFormer,一个在自然土地覆被任务中具有极强分割能力与分割稳定性的深度学习分割方法。本文创新点如下:提出一个应用于自然土地覆被分割任务的数据集处理手段;改进了MixTransFormer1的结构,使该结构更适应遥感图像的特征提取;设计一个具备递进式特征融合结构的解码器,迫使解码需按序提取编码器输出的层次性特征。通过与 DeepLabV3

11、+2、Unet3以及 SegFormer等进行对比,证明GFormer在地物覆盖遥感图像分割中具备有效性和鲁棒性。1 相关工作国内外针对自然土地覆被的遥感图像分割研究已经有几十年历史,学者们针对不同的场景、数据集提出了众多方法,这些方法根据解决手段可大致分为传统方法和深度学习方法4。传 统 方 法 大 多 数 是 基 于 阈 值5-8、边 缘9-13、区域14-16、聚类17-20、图论21-23等的图像分割方法,根据人为定义的特征提取函数作用于遥感图像,对地面覆盖物的颜色、形状、纹理、结构、分部等特征进行数量化描述,再进行分割。传统方法计算量小、分割效果好,且不依赖于学习数据。但传统方法具有

12、处理手段单一、对图像颜色的宽容度低、分割类型少等缺点。深度学习方法将图像分割任务转化为像素点分类任务,在图像分类工作中表现突出,因此众多学者尝试将深度学习方法应用于图像语义分割任务中。全卷积网络24(Fully Convolutional Networks,FCN)的编码器由经典的卷积层组成,解码器采用反卷积对卷积层最后一个输出的特征图进行上采样,最后直接在上采样的特征图上进行像素分类,从而解决了语义级别的像素分割问题。FCN的提出也基本确定了语义分割包含编码器和解码器两部分的基本结构。Unet3证明了退化现象在语义分割领域的存在,可使用快捷连接的手段解决模型性能与有效感受野25之间的矛盾,并

13、且通过特征融合帮助找回反卷积层上更大尺寸特征图上的特征边缘。DeepLab2提出一个新的卷积计算方式空洞卷积,空洞卷积解决了内部数据结构丢失和空间层级化丢失的问题,并且增加了卷积感受野的大小,降低了重建特征信息的难度,还将条件随机场26(Conditional Random Field,CRF)引入到整个网络的末端,利用标签的关联信息,进一步提高了语义分割精度。Transformer 模型的问世带来了一种全新的结构自注意力机制(self-attention),该结构完全不同于CNN或RNN,其能自动捕获序列不同位置的相对关联,正是这种特性使得Transformer在NLP任务中大放异彩。部分学

14、者随后将其迁移到计算机视觉领域,并取得了不错的成绩,ViT就是其中一个著名的例子28。ViT引入基于计算机视觉设计的位置编码,将图像转化为序列,一个计算机视觉任务就转化为一个纯seq2seq的任务。紧接着众多研究人员尝试将ViT引入语义分割模型,其中一个比较成功的方法是复旦和腾讯联合提出的SETR29,其在ADE20K30排行上获得第一,证明了自注意力机制在语义分割任务中的可行性。但SETR仍具有一定局限性,其应用在大尺寸图像上的模型参数量过于庞大,也没有像U-Net一样输出不同层次的特征块进行特征融合。SegFormer1设计了一种具有新的层次结构的自注意力机制编码器MixTransForm

15、er,可以输出不同尺寸的特征,且不需要位置编码。2 数据集及其预处理研究选取陕西省延安市志丹县中西部地区的卫星遥感图像,此地区植被属于草原化森林草原区,在历史上这里曾有过植被葳蕤的时期,后经历战争破坏和长期的乱砍滥伐,使天然植被一蹶不振、分布不均,从而为自然土地覆被分割提供了先决条件。本文在此地区截取一张16级的卫星全彩遥感图像,截取窗口大小为X轴方向24 459.85 m,Y 轴方向 17 121.89 m,栅格图像左上角世界坐标为(X:12 067 878.03,Y:4 386 873.93)。此栅格图像分辨率为10 240*7 168,由截取窗口大小求得空间分辨率为2.388 7 m/像

16、素,如图1所示。根据此地区的植被覆盖情况和地貌特性,本文设置了3个自然土地覆被研究对象:森林植被、低矮植被、农田。语义对象分类示例如图2所示。Fig.1Original image图1原始图像(a)Forest vegetation(a)森林植被(b)Low vegetation(b)低矮植被(c)Farmland(c)农田Fig.2Semantic object classification example图2语义对象分类示例 1752023 年软 件 导 刊2.1数据标注EISeg(Efficient Interactive Segmentation)31是 以RITM32与EdgeFlo

17、w31算法为基础,基于飞桨开发的一个高效、智能的交互式分割标注软件。本文采用适用于遥感建筑物标注的轻量化模型 HRNet18s_OCR48,该模型以HRNet18s33为基础,在 OCR48遥感影像建筑分割数据集上达到拟合。尽管本文采用的数据集主体并非建筑物,但其仍然对本文遥感影像数据中的纹理、空间信息、相邻关系等特征敏感,可进行分割和标注。为了方便训练集和测试集的划分,并考虑了原始图像的像素尺寸,本文首先将原始图像分割为 70 张 1 024 1 024像素的区块,再单独标注每个区块。区块分割示意图如图3所示,其中浅色标注的是用于训练的区块(49个,70%),深色标注的是用于测试的区块(21

18、个,30%)。考虑到标注人员对土地覆盖类的认知标准存在差异,因此3位研究人员分别只针对一种自然土地覆被类进行标注。标注图是与遥感图像分辨率一致的单通道图像,然后以农田森林植被低矮植被的优先级顺序对标注图进行合并。合并后的标注值如表1所示,遥感原图与合并后的标注图如图4所示。2.2数据增强卫星遥感图像相较于其他图像,采集环境稳定、光学特征单一,且具有连续性的特点。本研究考虑到模型对卫星图像的纹理、大小敏感,因此没有针对卫星遥感图像作任何颜色变换,只针对遥感图像进行随机旋转、切分和翻转。在数据增强方面,首先将遥感图像与标注图在通道维度上进行连接,组成一张具有4个通道的混合图像,接着将混合图像进行随

19、机旋转、切分和翻转,最后将切分好的混合图像在色彩通道维度上进行拆分。本文在数据增强过程中保证了图像没有被缩放或拉伸,且切分后的图像不存在黑域。数据增强手段如图5所示。上文分割好的区块为 70 个,由于区块尺寸大小为 1 024*1 024,再分割后的遥感图像及对应的标注图尺寸大小为 256*256,所以包含有效像素点的理论图像数量为 1 120张。本文分别在49个训练区块和21个测试区块上进行再分割和数据增强,得到具有98 000张图像的训练数据集和42 000张图像的测试数据集。需要注意的是,由于MixTransFormer 输出的特征块尺寸为 2的负指数次方,所以需使用图像尺寸为2的指数次

20、方,而不是传统的7的指数次方。3 遥感图像语义分割模型针对卫星遥感图像中自然土地覆盖语义提取的问题,本文对 SegFormer进行了设计改进,提出了新的遥感语义分割模型 GFormer。GFormer架构设计如图 6所示。网络中OPE、Block属于模型的编码器,包含一个具有新层次结构的 Transformer 编码器,输出多层次、多尺度特征;M1、M2、M3属于模型的解码器,是一种递进式特征融合解码器,能够将解码器输出的多层次、多尺度特征进行融合,生成最终的语义分割掩码。在卫星遥感图像分割任务中,MixTransFormer编码器以其输出多尺度特征和具有稳定分级结构的优势,在性能Fig.3B

21、lock division diagram图3区块分割示意图Table 1Labeled pixel value表1标注像素值标注类别农田森林植被低矮植被无标注标注值3210(a)Remote sensing image(a)遥感影像(b)Pseudo color annotated image(b)伪彩色标注图Fig.4Labeled example图4标注示例随机裁剪及随机切分增强后的遥感影像增强后的标注图Fig.5Data augmentation diagram图5数据增强示意图 176第 9 期安昭先,魏霖静:轻量级自注意力机制为主干的自然土地覆被分割研究上具备很大的潜力。然而,卫星

22、遥感图像分割不同于多场景分割,其是一个连续、单场景的分割识别任务。此外,卫星遥感图像分割的目标对象通常呈现出不规则形状、复杂背景和单一纹理等特点。针对这些自然土地覆盖的特征,MixTransFormer对于低分辨率细节的全局关注,可能会导致在此项任务中影响性能并损害分割能力。因此,本文通过增加高分辨率层编码器(MVT)的深度,同时降低分辨率层编码器(MVT)的深度,迫使MixTransFormer减弱对低分辨率细节的全局特征提取能力,并提升对高分辨率细节的局部特征提取能力。3.1Gformer编码器MixTransFormer 编码器由 OPE 和 Block 两部分组成。OPE用来结合非重叠

23、的图像块或特征块,Block中包含一个高效的自注意力网络和一个轻量化的FNN网络,用来生成图像块的特征图。其中,Block是MixTransFormer编码器性能优劣的关键,也是模型一个主要的计算瓶颈。OPE中仅包含一层卷积层,用于将重叠的块合并,以产生与非重叠过程大小相同的特征。OPE将给定图像块的层次特征 I=CH/aW/a 收缩为 I=CH/2aW/2a。本文部署的OPE部分卷积参数如表2所示。ViT已经证明了自注意力机制在语义分割网络中作为编码器的可行性。在自注意力机制中,Q(查询向量)、K(键向量)、V(值向量)的维度为d=CHW,计算方式为:Attention(Q,K,V)=Sof

24、tmax(QKTdhead)VT (1)MixTransFormer通过缩减K序列的长度来降低自注意力 的 复 杂 性,复 杂 性 由O()H W2L)改 变 为O()H W2L R)。其中,L为常数1,R为缩减比。本文所设置的缩减比序列为 64,32,16,1。FNN为自注意力网络提供位置信息,FNN直接由FC网络和33的卷积驱动。激活函数选取GELU,许多方法都证明了GELU在语义分割中具有优异的性能。FNN可写为:FNNout=MLP(GELU(Conv3 3(MLP(Attentionout)+Attentionout (2)相比于具有最佳性能的SegFormer编码器MiT-B5,本

25、文通过增加浅层Block层数并减少深层Block层数,以增强模型对纹理特征的响应。层数信息如表3所示。3.2GFormer解码器GFormer解码器包括3个步骤:MixTransFormer输出的多级特征X首先通过再编码器M1进行再编码,接着将再编码后的特征使用M2进行递进式融合,最后将融合后的特征通过预测网络M3生成预测掩膜。语义信息在 MixTransFormer 输出的特征块上达到饱和,本文使用4个融合模块M1对MixTransFormer输出的特 OPE Block M1 upsample M2 M3Fig.6GFormer architecture图6GFormer架构Table 2

26、OPE parameters表2OPE参数OPE1234in_ch364128320in_ch64128320512kernel7333stride4222pad3111Table 3Number of encoder layers表3编码器层数MiT-B5GFormerBlock_133Block_268Block_34024Block_433 1772023 年软 件 导 刊征块进行再编码,避免直接对输出的多级特征进行融合导致语义信息丢失。M11、M12、M13、M14 分别处理 MixTransFormer 输出的特征块 X1、X2、X3、X4。M1 的部分参数如表4所示。GFormer

27、解码器在融合方式上采用一种新设计的融合结构M2,对编码器输出的多层次特征采用递进式融合的方式,对再编码后的多层次、多尺度特征进行融合。融合器 M2由一层 MLP 与 BatchNormalization、RELU 拼接而成。在复杂场景下的语义分割任务中,分割对象边缘形状多样、复杂,致使对编码器输出的特征图进行上采样难度大,其特征图边缘的采样效果往往不好,地被覆盖物卫星遥感图像的分割对象却纹理明显。本文并未对原始遥感图像采用放缩、模糊、噪声、颜色干扰等形式的数据增强方法,最大限度地保留了遥感图像的纹理特征。并且在计算机视觉任务中,许多方法都证明了采用特征融合来丰富语义信息是有效的,而特征融合往往

28、采用递进的融合方式。所以本文也借鉴了这种融合思想对多层次特征进行递进融合,即在高感受野特征图像块上递进融合低感受野特征图像块,迫使解码器首先关注宏观语义信息,接着在宏观语义上丰富细节。需要注意的是,在融合前本文对特征块进行了双线性插值,使其统一尺寸为 64。M2共有 3个依次融合再编码的特征块,详细参数如表5所示。最后将融合后的特征块经过仅由MLP组成的预测网络M3,生成分割好的预测掩膜。如图6中的M1、M2、M3所示,解码器可写为:Xout=M3(M23(M22(M21(M11(X1),M12(X2),M13(X3),M14(X4)(3)最后在C6464的标注掩码上,使用双线性插值恢复到原始

29、图片尺寸C256256。4 实验与分析4.1实验4.1.1实验环境本文在网络模型训练部分使用TeslaV100,Video Mem为 32GB,CPU 为 4 核,RAM 为 32GB,软件环境为:Ubuntu 18.04LTS,Python3.7,paddlepaddle2.2.2。4.1.2模型训练在上节的实验环境中对第 3章所描述的网络模型进行训练,模型在 paddlepaddle 深度学习框架下进行训练。模型训练采用批处理方式,在140 0000.7(70%的图片作为训练集,其余作为验证集)张图片中,将每32张作为一个批次(batch)输入模型进行训练,总计训练100 000个批次。使

30、用Momentum作为优化器,学习率服从多项式衰减策略。本文使用大比重Momentum、小学习率的策略进行优化,损失函数使用交叉熵损失函数。模型的部分参数如表6表8所示。模型训练过程如图 7 所示(对 loss 数据作了平滑处理)。从图中可以看出,得益于学习率的线性下降,随着迭代次数的增加,Loss曲线不断下降并趋于平缓,验证集的MIoU和Acc不断升高且波动减小,损失函数基本收敛,表明模型达到了最优。4.1.3模型预测本研究采用滑窗的方式对未参与训练的21个测试区块进行预测,预测结果为单通道暗图,像素值与表1所示数据一致。预测的部分参数如表9所示。4.1.4基于模型标注的面积测算由于卫星遥感

31、图像焦距与取像距离恒等,并且在模型训练过程中并未对遥感图像进行放缩变换,从而使根据模型标注计算正投影下的真实地面覆盖物面积成为可能。在插值前的模型标注中,每个像素点标注的面积是原始图像的4倍。因此,只要对模型标注结果进行像素点统计,即可计算得到正投影下的真实地面覆盖物面积。其计算公式如下:Table 4M1 parameters表4M1参数M1M11M12M13M14特征块X1X2X3X4in_chans64128320512out_chans320320512512Table 5M2 parameters表5M2参数M2M21M22M23特征块X1、X2M21_out、X3M22_out、X

32、4in_chans512+512512+320320+320out_chans512320320Table 6Some parameters of model training表6模型训练部分参数参数BatchSizeIters值32100 000Table 7Some parameters of the optimizer表7优化器部分参数参数base_lrLr_powerend_lrLr_decay_stepsMomentumweight_decay值0.50.90.00280 0000.94.0e-5Table 8Loss function penalty表8损失函数惩罚覆盖物标记012

33、3权重3.8945.5533.8295.526 178第 9 期安昭先,魏霖静:轻量级自注意力机制为主干的自然土地覆被分割研究SArea=Nsum p2(4)其中,N_sum为模型标注像素点数量,p为遥感图像空间分辨率。4.2实验结果4.2.1性能评价对模型分类标注结果使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)、均交并比(MIoU)、Dice系数、kappa值进行评估。语义分割可看作像素的分类问题,可以将真实标注值与模型预测的标注值组合划分为真正例(True Positive)、假真例(False Positive)、真反例(True Negative

34、)、假反例(False Negative)4 种情形,令 TP、FP、TN、FN分别表示其对应的像素数量,并建立混淆矩阵M。设N为总例数,Ai、Bi分别为混淆矩阵M第i行、第i列的边际值。Accuracy 描述的是正确分类的像素数占总像素的比例。计算公式为:Acc=TP+TNTP+TN+FP+FN(5)Precision 描述的是正确分类为正像素数占全部预测为正像素数的比例。计算公式为:P=TPTP+FP(6)Recall描述的是正确预测为正像素数占全部正样本像素数的比例。计算公式为:R=TPTP+FN(7)F1值描述的是精确率和召回率的调和平均数。计算公式为:2F1=1P+1R ,F1=2

35、P RP+R(8)MIoU 是语义分割最常用的标准度量手段,描述的是分类为正像素集与正样本像素集的交集和并集之比,直接反映了真实标注与模型预测标注的重叠程度。计算公式为:MIoU=TPTP+FP+FN(9)Dice系数是一种集合相似度度量函数,Dice系数描述的是分类为正像素集与正样本像素集的相似度。计算公式为:Dice=2TP2TP+FP+FN(10)Kappa 值是一种分类一致性检验方法,Kappa 值描述的是分类为正像素集与正样本像素集的一致性程度。计算公式为:Kappa=Acc1-pe(11)其中,Pe=aibi ,ai=AiN ,bi=BiN。Flops表示模型的浮点运算数,衡量模型

36、的计算量;Params表示模型的参数量,衡量模型运行时所占内存大小。4.2.2结果分析图8展现了不同模型在同一数据集下的分割结果,其中第一行是在测试集中选取一张1 0241 024大小的原始图像和人工标注以及各个模型对应的分割结果,后3行则是森林植被、低矮植被与农田所对应的原始图像、人工标注以及各个模型分割结果的细节展示。表10展现了本任务中各个语义分割模型在各方面的性能表现。(1)MixTransFormer编码器。本文的人工标注精细程度并不高,这也是整个语义分割数据标注面临的普遍性问题。一个著名的例子是 ADE20K 数据集的作者 Adela,其在时隔半年后重复标注 61张图片,对比前后标

37、注得到的0500001000000.40.60.8mIouiterations GFormer Unet DeepLabV3P SegFormer_B5 SegFormer_B4(a)MIoU0500001000000.40.60.8Acciterations Gformer Unet DeepLabV3P SegFormer_B5 SegFormer_B4(b)Acc0500001000000.00.20.40.60.8lossiterations Gformer UNet DeepLabV3P SegFormer_B5 SegFormer_B4(c)LossFig.7Model train

38、ing process图7模型训练过程Table 9Some parameters of the prediction表9预测部分参数参数Stridecrop_size值(32,32)(256,256)1792023 年软 件 导 刊MIoU仅为82%。对比图8中的人工标注和原图可以明显看出:森林植被的人工标注图中间部分具有一道坏点像素;低矮植被的标注由于过于复杂,人工标注直接将所有像素全部标注为正;农田的人工标注图右上角将本属于农田的一小部分像素错误地排除到标注之外。在模型训练过程中错误标签带来的是错误的惩罚,所以数据标注的精细程度直接影响着模型训练结果。观察图8中DeepLabV3+2,3

39、4和Unet在农田上的预测结果,DeepLabV3+和Unet都是以卷积为核心的语义分割网络,Unet存在严重的欠分割问题,DeepLabV3+严重到未观测到这块农田。由于农田占总像素的比例小,本文加大了对农田分类错误的惩罚,该做法在保持数据平衡的同时,也破坏了模型对特征的敏感程度。对不同种类的地面覆盖物信息敏感程度不同,这也许是以卷积为核心的语义分割框架效果不理想的原因。反观图 8中以高效自注意力机制为编码器的语义分割模型在农田上的预测结果,不仅基本正确分割了农田,而且正确预测了标签中错误标注的像素,展现了高效的自注意力机制作为编码器具有极强的鲁棒性。(2)GFormer解码器。SegFor

40、mer-B5是SegFormer框架下分割表现最好的模型,同时也是规模最大的模型。SegFormer-B4具有稍差于SegFormer-B5的分割表现和更小的模型规模,并具有一致的模型结构。SegFormer-B4具有与GFormer一样的高效自注意力机制编码器,仅在层数布局与 OPE 参 数 上 稍 有 不 同,所 以 SegFormer-B4 具 有 与GFormer相似规模的编码器。由于GFormer采用了更轻量化的解码器,因此GFormer的模型规模更小。从表10中可看出,SegFormer-B5、SegFormer-B4的Flops分别比GFormer高60.3%和37.26%,Se

41、gFormer-B5模型参数量比GFormer多30%,GFormer的参数量与SegFormer-B4大致相同。对比图 8 中 GFormer、SegFormer-B5 和 SegFormer-B4在森林植被与农田上的分割结果,GFormer不仅正确预测了标签中错误标注的像素,而且具有比标签更圆滑的边界。因此,GFormer 具有比 SegFormer-B5 和 SegFormer-B4更贴合实际的分割结果。对比表 10,GFormer 也具有比SegFormer-B5和SegFormer-B4更好的性能。SegFormer-B4的规模适合提取遥感图像中植被覆盖的语义特征,但其解码器的能力不

42、足以有效地解码编码器原图标签分割掩码森林植被低矮植被 GFormer B5 B4 DeepLabV3+Unet 农田Fig.8Segmentation results of different models图8不同模型分割结果Table 10Model performance表10模型性能分割方法GFormerSegFormer B5Segformer-B4DeepLabV3+UnetAccuracy0.927 80.907 70.894 60.906 20.886 9Precision0.925 80.908 40.873 10.907 40.891 0Recall0.928 80.908

43、20.899 60.909 60.891 0F10.927 30.908 30.886 10.908 50.891 0MIoU0.864 80.832 30.814 70.832 50.804 1Dice0.927 30.908 30.897 50.908 40.890 9Kappa0.894 70.864 30.846 60.863 70.835 4FLOPs15.54G24.91G21.33G28.54G29.93GParams62.33M84.6M63.99M26.79M8.37M 180第 9 期安昭先,魏霖静:轻量级自注意力机制为主干的自然土地覆被分割研究中蕴含的语义特征。本文设计的

44、递进式融合结构的解码器具有比SegFormer解码器更强的解码能力。5 结语地被覆盖物的遥感图像分割一直是地图科学研究的重点,该任务具有数据量大、采集难度高、标注困难、分割稳定性差等问题。本文提出一种基于轻量级图像自注意力机制编码器与具有递进式融合结构解码器的地被覆盖物分割方法,构建GFormer模型,对地被覆盖物的卫星遥感图像进行语义级别的图像分割。GFormer展现了基于注意力机制的语义分割算法极强的鲁棒性,全新设计的递进式特征融合结构编码器在遥感图像分割中也具有更强的解码能力。虽然本文方法在模型规模基本不增加的情况下提升了卫星遥感图像分割能力,但模型的编码器规模仍然占比较大,如何在保证分

45、割表现的情况下进一步减小解码器规模是接下来的工作重心。参考文献:1 XIE E,WANG W,YU Z,et al.SegFormer:simple and efficient design for semantic segmentation with transformersDB/OL.https:/arxiv.org/abs/2105.15203.2 YUAN H,ZHU J,WANG Q,et al.An improved DeepLab v3+deep learning network applied to the segmentation of grape leaf black ro

46、t spotsEB/OL.https:/www.frontiersin.org/articles/10.3389/fpls.2022.795410/full.3 YADAVENDRA,CHAND S.Semantic segmentation of human cell nucleus using deep U-Net and other versions of U-Net models J.Network,33(3-4):167-186.4 HUANG P,ZHENG Q,LIANG C.A review of image segmentation methods J.Journal of

47、Wuhan University(Science Edition),2020,66(6):519-531.5 RAHKAR F T,ARDABILI K A.A hybrid firefly and particle swarm optimization algorithm applied to multilevel image thresholding J.Multimedia Systems,2021,27(1):125-142.6 KANG C,WU C,FAN J.Entropy-based circular histogram thresholding for color image

48、 segmentationJ.Signal Image and Video Processing,2021,15(1):129-138.7 LEI B,FAN J.Image thresholding segmentation method based on minimum square rough entropyJ.Applied Soft Computing,2019,84:105687.8 KHAIRUZZAMAN A K M,CHAUDHURY S.Masi entropy based multilevel thresholding for image segmentation J.M

49、ultimedia Tools and Applications,2019,78(23):33573-33591.9 CHEN S C,CHIU C C.Texture construction edge detection algorithm J.Applied Sciences,2019,9(5):897.10 JIN F,ZHAN K,CHEN S,et al.Image segmentation method of mine pass soil and ore based on the fusion of the confidence edge detection algorithm

50、and mean shift algorithm J.Gospodarka Surowcami Mineralnymi-mineral Resources Management,2021,37(4):133-152.11 KUMAR A,RAHEJA S.Edge detection in digital images using guided L-0 smoothen filter and fuzzy logic J.Wireless Personal Communications,2021,121(4):2989-3007.12 BHATTI U A,ZHOU M Q,HUO Q,et a

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服