收藏 分销(赏)

基于伪全局Swin Transformer的遥感图像识别算法.pdf

上传人:自信****多点 文档编号:2343051 上传时间:2024-05-28 格式:PDF 页数:14 大小:5.27MB
下载 相关 举报
基于伪全局Swin Transformer的遥感图像识别算法.pdf_第1页
第1页 / 共14页
基于伪全局Swin Transformer的遥感图像识别算法.pdf_第2页
第2页 / 共14页
基于伪全局Swin Transformer的遥感图像识别算法.pdf_第3页
第3页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇基基于伪全局 Swin Transformer 的遥感图像识别算法王科平1,2摇 摇 左鑫浩1,2摇 摇 杨摇 艺1,2摇 摇 费树岷1,3摘摇 要摇如何在多目标并列的情况下,确定符合人类思维习惯的核心目标是遥感图像识别的关键之一.因此,在全局视野下,为各目标分配符合人类视觉习惯的注意力,是甄选核心目标的有效途径之一.文中结合 Transformer 提取全局特征的思想和 Swin Transformer 对图像栅

2、格化处理可降低计算量的优点,提出基于伪全局 Swin Transformer 的遥感图像识别算法.构建伪全局 Swin Transformer 模块,将遥感图像栅格化后的各局部信息聚合为一个特征值,替代以像素为基础的全局信息,以较小计算量为代价,获取全局特征,有效提升模型对所有目标的感知能力.同时,通过以可变形卷积为基础的感受野自适应缩放模块,使感受野向核心目标偏移,提高网络对核心目标信息的关注,从而实现对遥感图像的精确识别.在 RSSCN7、AID 和 OPTIMAL鄄31 遥感图像数据集上的实验表明,文中算法取得较高的识别精度和参数识别效率.关键词摇 遥感图像识别,Transformer,

3、Swin Transformer,核心目标引用格式摇 王科平,左鑫浩,杨 艺,费树岷.基于伪全局 Swin Transformer 的遥感图像识别算法.模式识别与人工智能,2023,36(9):818-831.DOI摇 10.16451/ki.issn1003鄄6059.202309005摇 摇 摇 摇 摇 摇 中图法分类号摇 TP 391.4Remote Sensing Image Recognition Algorithm Based onPseudo Global Swin TransformerWANG Keping1,2,ZUO Xinhao1,2,YANG Yi1,2,FEI Sh

4、umin1,3ABSTRACT摇 Determining the core target aligning with human thinking habits in the context of multipleconcurrent targets is one of the key factors in remote sensing image recognition.Therefore,the effectiveallocation of attention in accordance with human visual habits in a global perspective is

5、 one of the ways toselect core targets.In this paper,combining the concept of extracting features using the Transformer andthe advantages of the Swin Transformer in reducing computational complexity through image gridding,aremote sensing image recognition algorithm based on pseudo global Swin Transf

6、ormer is proposed.Thepseudo global Swin Transformer module is built to aggregate the local information of rasterized remotesensing images into a single feature value,replacing the pixel鄄based global information to obtain globalfeatures with smaller computational cost,and thus the perceptual ability

7、of the model for all targets iseffectively improved.Meanwhile,by introducing a receptive field adaptive scaling module based on收稿日期:2023-06-29;录用日期:2023-09-28Manuscript received June 29,2023;accepted September 28,2023国家重点研发计划项目(No.2018YFC0604502),河南省科技攻关项目(No.232102210040)资助Supported by National Key

8、 Research and Development Programof China(No.2018YFC0604502),Science and Technology Pro鄄ject of Henan Province(No.232102210040)本文责任编委 兰旭光Recommended by Associate Editor LAN Xuguang1.河南理工大学 电气工程与自动化学院摇 焦作 4540032.河南理工大学 河南省智能装备直驱技术与控制国际联合实验室摇 焦作 4540033.东南大学 自动化学院摇 南京 2100961.School of Electrical Eng

9、ineering and Automation,Henan Poly鄄technic University,Jiaozuo 4540032.Henan International Joint Laboratory of Direct Drive and Con鄄trol of Intelligent Equipment,Henan Polytechnic University,Jiaozuo 4540033.School of Automation,Southeast University,Nanjing 210096第 36 卷摇 第 9 期模式识别与人工智能Vol.36摇 No.92023

10、 年 9 月Pattern Recognition and Artificial IntelligenceSep.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇deformable convolutions,the receptive field is shifted towards core targets to enhance the networkattention to core target information and then achieve precise recognition of remote sensing images.Exper

11、iments on RSSCN7,AID,and OPTIMAL鄄31 remote sensing image datasets show that the proposedalgorithm achieves high recognition accuracy and parameter identification efficiency.Key words摇 Remote Sensing Image Recognition,Transformer,Swin Transformer,Core TargetCitation摇 WANG K P,ZUO X H,YANG Y,FEI S M.R

12、emote Sensing Image Recognition AlgorithmBased on Pseudo Global Swin Transformer.Pattern Recognition and Artificial Intelligence,2023,36(9):818-831.摇 摇 高分辨率卫星遥感可大范围对地实施观测,其成像结果是重要的地理信息源之一.遥感图像识别可快速完成地表物检测和地形地貌分类,为土地利用与规划1、自然资源勘探2、环境监测3等重大活动提供重要的基础信息.高分辨率遥感图像识别的本质是基于核心目标特性信息的分类问题.因此,如何让神经网络具备核心目标提取能力

13、是提高遥感图像识别精度的关键问题之一.然而,在将遥感成像结果裁剪为单个图像时,若裁剪尺度过大,容易弱化关键目标的特征;裁剪尺度过小时,又不可避免地割裂森林、河流、海洋等大尺寸目标,在同一图像中,容易形成多目标并列的情况.因此,难以通过简单的目标分类实现遥感图像的识别.人类在观察同一遥感图像中的不同目标时,通常具备不同的观察注意力.注意力最高的目标即可认定为核心目标和分类结果.因此,如何提取各目标的特征,并在全局视角下为各目标赋予合理的注意力,是提升遥感图像识别精度的有效途径之一.自 2012 年起,以卷积神经网络(ConvolutionalNeural Network,CNN)4-5为代表的深

14、度学习引发新一轮人工智能研究热潮.CNN 通过堆叠卷积层获取具备全局视野的目标特征,使遥感图像识别精度达到新的高度.在此基础上,循环神经网络6、图卷积网络7和生成对抗网络8等相继与 CNN 结合9-11,在遥感图像识别领域取得一定进展.由于 CNN 通过有限的感受野表征上下文关系,特征图中并不具备明显的差异化特征,而人在处理视觉信息时,目标和背景具备明显的注意力差别.为此,Vaswani 等12提出 Transformer,在自然语言处理中取得较大成功.Wu 等13提出 ViT(Vision Transfor鄄mer)架构,并用于图像识别.ViT 具备全局建模能力,有助于提高图像识别精度.Ba

15、zi 等14在 ViT 的基础上,添加裁剪、混合等数据增强策略,使遥感图像识 别 的 精 度 领 先 于 大 部 分 CNN.Scheibenreif等15提出 ViT 与自监督学习结合的网络,提高潜在表征不明显的遥感图像目标特征.ViT 可以捕获远距离像素之间的上下文关系,从而具备提取全局特征信息的能力.然而,自注意力机制是通过轮询方式计算像素点间的注意力,这导致 ViT 的计算量剧增.此外,ViT 在提取目标特征时采用单一尺度,不利于识别目标尺度变化范围较大的情况.为此,Liu 等16提出 Swin Transformer,将图像进行栅格化处理,而自注意力计算仅限于各个划分的窗口中,从而大

16、幅降低计算量.Jannat 等17将Swin Transformer 应用于遥感图像识别.在遥感图像中通常存在并列的多个目标.如何将注意力聚焦在核心目标上,是实现遥感图像精确识别的关键之一.然而,Swin Transformer 的注意力重点考虑窗口内部像素的影响,一定程度上会损失全局特征提取能力.当遥感图像的目标分布于不同的窗口时,Swin Transformer 在各目标之间的信息交互较弱,从而无法使注意力聚焦在核心目标上.为此,Hao 等18提出TSTNet(Two鄄Stream Swin TransformerNetwork),添加目标边缘特征,提升核心目标特征提取能力.Zheng 等

17、19提出 LDBST(Lightweight Dual鄄Branch Swin Transformer),在网络中增加 CNN 分支和最大池化分支,增强核心目标的特征.上述方法从不同角度对 Swin Transformer 增加的局部特征、边缘特征加以改进,并在各自领域取得较优效果.在遥感图像识别中,获取更完善的全局特征,有利于为各个目标赋予合理的注意力.同时,丰富的全局特征能从全局视野的高度出发,指导网络捕获遥感图像中的核心目标,从而有效提高对遥感图像识别的精度.为此,本文结合 Transformer 提取全局特征的思想和 Swin Transformer 栅格化处理降低计算量的优点,提出基

18、于伪全局 Swin Transformer(Pseudo Global Swin Transformer,PG鄄ST)的遥感图918第 9 期摇 摇 摇 摇 王科平摇 等:基于伪全局 Swin Transformer 的遥感图像识别算法像识别算法,主要包括伪全局 Swin Transformer 模块和感受野自适应缩放模块.伪全局 Swin Transformer模块将遥感图像栅格化后的各局部信息聚合为一个特征值,替代以像素为基础的全局信息,以较小计算量为代价,有效提升模型对所有目标的感知能力.感受野自适应缩放模块以可变形卷积为核心,使感受野向核心目标偏移,提高网络对核心目标信息的关注,实现对

19、遥感图像的精确识别.1摇基于伪全局 Swin Transformer 的遥感图像识别算法1.1摇 总体框架本文提出基于伪全局 Swin Transformer(PG鄄ST)的遥感图像识别算法,整体结构如图 1 所示.PG鄄ST由 4 个特征提取网络层级结构和全连接分类结构组成.特征提取网络层级结构主要包含感受野自适应缩放模块、伪全局 Swin Transformer 模块、补丁合并模块和 Swin Transformer 模块这 4 类功能模块.感受野自适应缩放模块用于改变输入图像的尺寸和通道,同时提高网络对核心目标信息的关注,降低背景信息的冗余.伪全局 Swin Transformer 模块

20、实现核心目标特征的增强和全局信息的交互,便于网络在全局视野下,捕获核心目标及其完整性.Swin Trans鄄former 模块主要用于提取信息的深度特征,在降低计算量的同时,便于局部信息的交互.补丁合并模块作为各层级的连接器,改变特征维度,便于后续层级调用.PG鄄ST 增强核心目标特征和全局特征,同时弥补图像因栅格化丢失的部分特征,进而使网络具备完善的全局视野,便于捕获遥感图像中的核心目标及其完整性信息.此外,感受野自适应模块的应用能有效提高网络对核心目标信息的关注,降低背景信息的冗余.?SwinTransformer?SwinTransformer?SwinTransformer?+1Swi

21、nTransformer?+3(224,224,3)?1?2?3?4(56,56,96)(28,28,192)(14,14,384)(7,7,768)?(1,1,768)图 1摇 PG鄄ST 结构图Fig.1摇 Structure of PG鄄ST1.2摇 伪全局 Swin Transformer 模块1.2.1摇 Swin Transformer 模块Swin Transformer 模块是 Transformer 模块在视觉领域的又一次提升.该模型采用类似卷积结构的层级下采样方式进行特征提取,并将不同尺度的特征图栅格化为多个均匀、不重叠窗口,再在窗口内进行自注意力计算.相比 ViT,Swi

22、n Transformer 窗口区域式注意力机制可以有效减少运算量.另外,为了增加窗口自注意力各窗口间的信息交互,设计移位窗口自注意力模块.Swin Transformer 模块具体结构如图 2 所示.模块主要由如下 3 个功能模块组成:窗口自注意力模块、前馈网络模块、移位窗口自注意力模块.为了提高网络泛化能力和避免梯度消失问题,每个模块中都使用归一化和残差结构.x?+?+?X?+?+?图 2摇 Swin Transformer 模块结构图Fig.2摇 Structure of Swin Transformer module在 Swin Transformer 模块中,窗口自注意力采用并行计算

23、自注意力的方法,计算过程如下:Attention(Q,K,V)=SoftMaxQKTd+BV.028模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷其中:Q 表示查询向量、K 表示键向量、V 表示值向量,用于特征之间的相似度计算;d 表示查询或键的维度;B 表示相对位置编码矩阵.纵观Swin Transformer模块整个阶段,发现其图像内部虽实现信息交互,但窗口自注意力模块在提取特征时,不具备全局视野,会弱化依靠全局信息的核心目标.在移位窗口自注意力模块提取特征时,最外圈移位重组窗口并未参与信息交互,而是特征信息进行降维或其它处理后,在下一层参与信息交互,这容易丢失部分边角信息,导致核

24、心目标缺乏整体性.特别是对于核心目标在图像边角处,或图像目标占据整幅图的遥感图像等,都会产生较大影响.1.2.2摇 融合伪全局信息的 Swin Transformer 模块Swin Transformer 模块全局视野不足,一方面会减弱对核心目标的特征提取,另一方面,容易引起位于边角区域的目标信息丢失,使目标缺乏整体性,这两方面都影响对核心目标的有效提取.因此,本文提出伪全局 Swin Transformer 模块.该模块在窗口自注意力阶段通过空间信息聚合提取伪全局特征,替代以像素为基础的全局信息,并将其融于多头自注意力计算,弥补 Swin Transformer 全局视野不足引起的部分核心目

25、标关注度较低、目标整体性信息不完善的问题.由于在局部特征中加入全局相关特征,保证窗口自注意力计算可以实现全局信息交互,同时,后续参与移位窗口自注意力计算的特征,包含全局性信息,这样有利于网络在全局视野下,捕获具有整体性的核心目标特征.伪全局 Swin Transformer 模块具体结构如图 3所示.模块主要由如下 3 个功能模块组成:伪全局信息融合模块、前馈网络模块、移位窗口自注意力模块.前馈网络模块、移位窗口自注意力模块的功能和Swin Transformer 模块中一致.伪全局信息融合模块由伪全局信息提取分支和窗口局部信息提取分支并联组成,分别负责提取伪全局特征 xPG和窗口局部特征 x

26、W.再将线性层生成的键向量 K 和值向量 V 对应进行拼接,得到包含全局信息的KPG鄄W、VPG鄄W,最后与查询向量 QW进行多头自注意力计算,获得具有全局信息的特征.?xPG?VPGKPG?xW?VWKWQW?KPG-WVPG-WQW+C H W+x?+?+?+x*?图 3摇伪全局 Swin Transformer 模块结构图Fig.3摇 Structure of pseudo global Swin Transformer module摇 摇伪全局信息融合模块详细结构如图 4 所示.模块由伪全局信息提取分支和窗口局部信息提取分支并联组成.伪全局信息提取分支主要用于提取包含全局信息的特征.普

27、通Swin Transformer模块将特征图进行栅格化处理后,直接计算各窗口的自注意力.本文为了使获取的特征包含全局性,首先通过卷积映射对各窗口实现特征空间上的高度聚合,并按照原图像位置进行排列,组成包含目标或边角的特征.然后,将其特征进行拉平和第二维度上复制,得到具有所有窗口视野的伪全局特征 xPG.最后,与局部特征融合,计算各个包含全局信息的窗口对应的自注意力,获取具有全局信息的特征.窗口局部信息提取分支主要用于对图像进行栅格化处理,形成并列的局部特征,便于进行自注意力计算.主要流程为:将栅格化后的窗口信息进行分割,每个窗口并联排列,拉平,得到窗口局部特征xW,将其与伪全局特征 xPG在

28、每个维度上保持一致.将两个分支得到的伪全局特征 xPG和窗口局部特征xW,对应的键向量K和值向量V,在第二维度上进行拼接,得到包含窗口信息和全局信息的 KPG鄄W、VPG鄄W,最后与查询向量 QW进行多头自注意力计算,128第 9 期摇 摇 摇 摇 王科平摇 等:基于伪全局 Swin Transformer 的遥感图像识别算法x1234111222333444?1234?1224311122333444?111111112222222233333344334444441234111222333444?xPGxW?图 4摇伪全局信息融合模块结构图Fig.4摇 Structure of pseud

29、o global information fusion module获得具有全局信息的特征.这使每个窗口信息都能与全局信息直接交互,弥补全局视野不足,有利于后续特征提取阶段,增强核心目标的特征表达和完整性.伪全局信息融合模块中多头自注意力计算获得的具有全局信息的特征如下所示:x*=AttentionPG鄄WT(Q,K,V)=摇 摇 摇 摇SoftMaxQWKTPG鄄Wd+B卒VPG鄄W,其中,KPG鄄W=Concat(KW,KPG),VPG鄄W=Concat(VW,VPG),d 表示查询或键的维度,位置编码 B卒采用可学习绝对位置编码.伪全局信息融合模块的推理细节如下所示.算法 1摇伪全局信息

30、融合模块推理细节输入 摇待提取特征图像 I=(x)输出 摇融合全局信息的特征图 O=(x*)step 1摇通过伪全局信息提取分支,提取伪全局特征 xPG.step 2摇通过窗口局部信息提取分支,提取窗口局部特征 xW.step 3摇通过线性层,生成 xPG和 xW对应的 Q、K、V.step 4摇将全局信息和窗口局部信息对应的K、V 进行拼接,获得 KPG鄄W和 VPG鄄W.step 5摇将拼接后的 KPG鄄W,VPG鄄W与 QW进行多头自注意力计算,获取具有全局信息的特征 x*.伪全局 Swin Transformer 模块确保网络在单层级阶段提取特征时,得到融合全局信息的特征,便于网络在全

31、局视野下捕获核心目标特征,提高目标特征的整体性.为了更直观地说明伪全局 Swin Transformer 模块有利于网络捕获核心目标特征,并且可以提高目标特征的整体性.将输出特征图进行可视化,转化为热力图,具体如图 5 所示.由图 5 可以看出,加入伪全局 Swin Transformer模块,可以帮助网络在全局视野下,将关注重点放在核心目标上,并提高目标特征的整体性.在高架桥对应的热力图上,相比 Swin Trans鄄former 模块,伪全局 Swin Transformer 模块一方面将关注重点放在核心目标高架桥上,减少背景河水的捕获,降低背景信息冗余,另一方面补偿 SwinTransf

32、ormer 模块中高架桥关注的不完整区域.在公园对应的热力图上,相比 Swin Transformer 模块,伪全局 Swin Transformer 模块将注意力重心放在核心公园上,提高公园特征的连贯性,并完善公园整体范围的 特 征.在 停 车 场 对 应 的 热 力 图 上,相 比SwinTransformer模块,伪全局Swin Transformer模块弥补因图像栅格化造成边角丢失的目标,增强停车场的整体性.在储罐对应的热力图上,相比 SwinTransformer 模块,伪全局 Swin Transformer 模块对目标储罐的关注更完整,提高对Swin Transformer模块储

33、罐上方的关注.228模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷?(a)原始遥感图像(a)Original remote sensing images(b)Swin Transformer 模块(b)Swin Transformer module(c)伪全局 Swin Transformer 模块(c)Pseudo global Swin Transformer module图 5摇 2 个模块对应的热力图实例Fig.5摇 Examples of heat maps for 2 modules1.2.3摇伪全局 Swin Transformer 模块的计算量分析以尺寸C 伊 H 伊

34、W的图像为例,假设每个窗口包含 M 伊 M 个图像块,全局多头自注意力(Multi鄄headSelf Attention,MSA)的图像块数为 HW,窗口多头自注意力(Window MSA,W鄄MSA)的图像块数为M2,窗口数为腋HWM2骎,则 MSA 和 W鄄MSA 的计算量分别为赘MSA=4HWC2+2(HW)2C,赘W鄄MSA=4HWC2+2M2HWC.W鄄MSA 比 MSA 节省的计算量为:赘W鄄MSA-赘MSA=2HWC(HW-M2),可减少计算量为 4.160 GFLOPs.因为基于伪全局Swin Transformer 模块在设计中不生成伪全局特征的查询向量 QPG,所以,考虑舍

35、弃 QPG节省的计算复杂度:赘Q=C+HWM2+H2W2M6HWC.舍弃 QPG减少计算量为 1.054 GFLOPs.相比全局多头自注意力,伪全局 Swin Transformer模块在运算量方面共减少计算量为:4.160+1.054=5.214 GFLOPs.1.3摇 感受野自适应缩放模块在对图像进行特征提取时,为了减少网络计算量,通常会在输入特征提取网络主干前,对图像进行尺寸缩小和通道数的改变.遥感图像内容复杂,采用普通卷积的方式进行图像缩放容易引入较多的背景信息冗余,降低对核心目标信息的捕获效果.如图 6 所示的棒球场,在图像的左上、右上、右328第 9 期摇 摇 摇 摇 王科平摇 等

36、:基于伪全局 Swin Transformer 的遥感图像识别算法下都存在目标信息,而左下角只存在背景信息.若采用普通卷积的方式进行尺度变化,固定的感受野也会对左下角背景区域位置进行特征提取,造成较多背景信息冗余.(a)为标准卷积模块的采样过程及感受野范围,蓝色圆点表示普通卷积的感受野采样点.随着网络层数的加深,标准卷积的感受野只关注特定局部位置信息,不能有效避免对背景信息的关注.(a)标准卷积模块(a)Standard convolutional module(b)感受野自适应缩放模块(b)Receptive field adaptive scaling module图 6摇 标准卷积模块与

37、感受野自适应缩放模块采样过程实例Fig.6摇 Examples of sampling process of standard convolutionmodule and receptive field adaptive scaling module摇 摇 因此,为了能够在网络浅层充分提取图像目标特征并减少背景冗余信息,本文设计可变形卷积与普通卷积融合组成的感受野自适应缩放模块,实现图像尺度和通道的变化,模块结构图如图 7 所示.模块主要包含两个功能:1)通过可变形卷积使感受野根据目标结构和区域发生自适应的偏移,并与后续特征以残差结构相连;2)通过核为 4 的卷积将特征图进行缩放.具体地,由于

38、可变形卷积能够根据目标位置自动学习感受野的偏置,对于给定输入特征图C伊H伊W,采用可变形卷积,使感受野自适应地向目标区域偏移,获取重点关注目标的特征图.之后应用3伊3卷积增强通道级别局部上下文特征、1伊1 逐点卷积聚合空间级别跨通道上下文特征,最后与输入特征图以残差结构进行融合,送入 4伊4 卷积进行尺寸缩小和通道数的改变.感受野自适应缩放模块的采样过程及感受野范围变化如图 6(b)所示.感受野向目标实际位置偏移,从而将关注点放在目标特征上,一定程度上避免对背景信息的关注,提高对目标特征的提取能力.感受野自适应缩放模块保证将尺寸缩减后的图像特征在送入特征提取网络主干之前,尽可能将特征提取重点放

39、在目标特征上,减少背景信息的冗余,同时,加快后续模型的收敛速度,降低运算成本.如图 6 所示,图像左下角不存在待识别目标,标准卷积会提取背景的冗余信息,而感受野自适应缩放模块可以将采样点向待识别目标位置偏移,进行有效的目标特征提取.?C H W+C H W+C H W+?96 H W+?H496W43 3+?1 1+?4 4+?图 7摇 感受野自适应缩放模块结构图Fig.7摇 Structure of receptive field adaptive scaling module摇 摇 为了更直观地说明感受野自适应缩放模块可以减少背景信息的冗余,提高对目标信息的关注,将输出特征图进行可视化,转

40、化为热力图,具体如图 8 所示.对比(b)、(c)可以清楚看出,加入感受野自适应缩放模块,可帮助网络将关注重点放在目标棒球场和铁路线上,减少对背景信息的关注.对比(d)、(e)428模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷可以看出,在伪全局 Swin Transformer 模块的基础上,加入感受野自适应缩放模块后,也能帮助网络减少对背景信息的关注,将关注重点聚焦在目标场景上,如减少棒球场左下背景和铁路线四周背景的特征提取.感受野自适应缩放模块可自适应地将注意力重心放在目标特征区域,减少对背景区域的注意力度.另外,对比(c)、(e)可以发现,在感受野自适应缩放模块的基础上,采用伪

41、全局 Swin Transformer 模块比 Swin Transformer 模块更能捕获全局信息,如右下角较窄的铁路线,伪全局 Swin Transformer 模块能够从全局视野对其分配注意力.(a)原始图像(a)Original images(b)Swin Transformer 模块(b)Swin Transformer module(c)Swin Transformer 模块+感受野自适应缩放模块(c)Swin Transformer module+receptive field adaptive scalingmodule(d)伪全局 Swin Transformer 模块(d

42、)Pseudo global Swin Transformer module(e)伪全局 Swin Transformer 模块+感受野自适应缩放模块(e)Pseudo global Swin Transformer module+receptive fieldadaptive scaling module图8摇 各模块的热力图实例Fig.8摇 Heat map examples of different modules综上所述,当采用伪全局 Swin Transformer 模块+感受野自适应缩放模块时,网络在具备全局视野有效分配注意力的同时,能有效减少背景信息的冗余.2摇实验及结果分析2.

43、1摇 实验数据集和评估指标本文选用 RSSCN720、AID21、OPTIMAL鄄3122这 3 个遥感图像数据集进行实验.RSSCN7 数据集包含 2 800 幅遥感图像,共 7 个典型的场景类别,每类包含 400 幅图像,每幅图像的像素大小为 400伊400.每类基于 1 颐 700,1 颐 1300,1 颐 2600,1 颐 5200 这 4 种不同的尺度进行采样,4 个尺度各 100 幅.AID 数据集包含10 000 幅遥感图像,共30 个场景类别,每类约 220 420 幅图像,每幅图像像素大小约为 600伊600.OPTIMAL鄄31 数据集包含 1 860 幅遥感图像,共31

44、个场景类别,每类包含 60 幅图像,每幅图像的像素大小为 256伊256.这 3 个遥感数据集的图像场景类别不尽相同,分别进行网络训练和准确率测试.3 个数据集按照7 颐 3的比例进行划分,即 70%的数据作为训练集,30%的数据作为验证集.本文使用 2 个评价指标:识别准确率和参数识别效率.参数识别效率 兹 可验证算法在遥感图像识别中参数量的优势,值越大,反映模型在相同参数量下取得的识别精度越高.具体地,兹=mAPP,其中,mAP 表示识别准确率,P 表示模型参数量.528第 9 期摇 摇 摇 摇 王科平摇 等:基于伪全局 Swin Transformer 的遥感图像识别算法2.2摇 实验环

45、境和参数设置实验使用的配置如下:Inter i7鄄8700K 处理器,6核 12 线程,32 GB 大小内存,NVIDIA 4090 显卡,24 GB大小显存.实验使用 PyTorch 深度学习框架,训练过程中使用 AdamW(Adam with Decoupled Weight Decay)优化器进行优化,对模型中每个参数使用相同的学习率,迭代次数为 100,初始学习率为 0.000 1,学习率衰减方法为余弦退火,训练时批处理大小设置为32,图像预处理分辨率设为 224伊224.2.3摇 对比实验结果本文选择如下对比算法:VGG16(Base16)、ResNet101、ViT13、Swin

46、Transformer16、LDBST19、ConvNeXt(Small)23.在相同的实验环境和图像预处理条件下,实验结果如表 1 表 3 所示,表中黑体数字表示最优值.由表 1 和表 2 可知,PG鄄ST 取得较好的识别效果,在3个遥感图像数据集上获得最高的识别准确率,比次优算法分别提升 1.07%、1.20%和 1.25%,参数量和计算量较优,在同等参数量的情况下,识别效率最高.此外,为了与 LDBST 进行公平对比,在表 3 中提供训练集与验证集比例为 5 颐 5 的 AID、UC鄄Merced24数据集上的识别准确率.由表 3 可以发现,在相同实验条件以及同等训练验证比下,PG鄄ST

47、 仍取得较优的识别效果.表 1摇 各算法的参数量和计算量对比Table 1摇 Comparison of parameter count and computational costof different algorithms算法参数量/M计算量/GFLOPsResNet10144.557.87VGG16138.3615.47ViT(Base16)103.0316.88ConvNeXt(Small)49.448.68Swin Transformer28.294.37PG鄄ST28.394.37表 2摇 各算法在 3 个数据集上的指标值对比Table 2摇 Index value compar

48、ison of different algorithms on 3 datasets算法RSSCN7识别准确率/%参数识别效率/%/MAID识别准确率/%参数识别效率/%/MOPTIMAL鄄31识别准确率/%参数识别效率/%/MResNet10196.962.17695.852.15292.472.076VGG1695.890.69395.450.69088.710.641VIT(Base16)89.460.86891.000.88394.620.918ConvNeXt(Small)91.611.85390.701.83493.011.881Swin Transformer97.503.446

49、97.053.43196.243.402PG鄄ST98.573.47298.253.46097.493.434表 3摇 各算法在 AID、UC鄄Merced 数据集上的识别准确率对比Table 3摇 Recognition accuracy comparison of different algorithmson AID and UC鄄Merced datasets%算法AIDUC鄄MercedResNet101-VGG1682.5691.05VIT(Base16)-98.14ConvNeXt(Small)-Swin Transformer96.7097.52LDBST96.8498.76PG

50、鄄ST97.3299.24VGG16、ResNet101、ConvNeXt、ViT 在 3 个遥感图像数据集上的识别准确率相对较低,这是因为ConvNeXt、ResNet101、VGG16 通过 CNN 提取特征且降低局部冗余,但由于 CNN 不具备注意力机制,且有限的感受野不能有效表征上下文关系,因此遥感图像识别效果不理想.ViT 因自注意力机制,具备全局建模能力,但送入 Transformer 前的降采样幅度过大且 ViT 需要大数据集学习单点特征,因此在小数据集上的识别效果不明显.Swin Transformer 减少降采样幅度,运用并行窗口计算注意力的方式提取局部特征,并且移位窗口可以

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服