基于改进PSPNet的卫星遥感图像建筑物语义分割算法.pdf

资源描述

1、第卷第期年月遥感信息，收稿日期：修订日期：作者简介：熊彬（），男，硕士研究生，主要研究方向为图像处理。犈犿犪犻犾：通信作者：张双德（），男，教授，硕士生导师，主要研究方向为图像处理。犈犿犪犻犾：基于改进犘犛犘犖犲狋的卫星遥感图像建筑物语义分割算法熊彬，张双德（武汉轻工大学电气与电子工程学院，武汉）摘要：针对卫星遥感图像中的建筑分割算法对特征相似的小目标建筑识别效果差以及对大目标建筑轮廓边缘分割精度低的问题，基于算法，结合主干网络和特征金字塔融合局部特征以及通道和空间注意力机制，提出一种改进的算法，实现对卫星遥感图像中的建筑高精度分割。首先，将原

2、始算法的主干网络替换为以增加主干网络的全局特征提取能力；其次，以主干网络输出多层级特征图并结合特征金字塔融合模块获取图像的局部语义信息；最后，将全局信息和局部信息融合并送入通道注意力以及空间注意力模块，使其在空间和通道两个维度都能获得丰富的语义信息。实验结果表明，改进后的算法平均准确度和平均交并比分别为和，较原始的算法提高了和，且优于深度学习领域经典的、等语义分割算法。关键词：；注意力机制；特征融合；深度学习；语义分割犱狅犻：中图分类号：文献标志码：文章编号：（）犛犲犿犪狀狋犻犮犛犲犵犿犲狀狋犪狋犻狅狀犃犾犵狅狉犻狋犺

3、犿犳狅狉犅狌犻犾犱犻狀犵狊犻狀犛犪狋犲犾犾犻狋犲犚犲犿狅狋犲犛犲狀狊犻狀犵犐犿犪犵犲狊犅犪狊犲犱狅狀犐犿狆狉狅狏犲犱犘犛犘犖犲狋，（犛犮犺狅狅犾狅犳犈犾犲犮狋狉犻犮犪犾犪狀犱犈犾犲犮狋狉狅狀犻犮犈狀犵犻狀犲犲狉犻狀犵，犠狌犺犪狀犘狅犾狔狋犲犮犺狀犻犮犝狀犻狏犲狉狊犻狋狔，犠狌犺犪狀，犆犺犻狀犪）犃犫狊狋狉犪犮狋：，犓犲狔狑狅狉

4、犱狊：；遥感信息年期引言随着遥感图像处理技术的发展，采用人工神经网络算法的分割方法已成为卫星遥感图像分割领域的研究热点。遥感图像处理中的建筑物分割方法可以记录区域土壤地表的综合特性以及地物个体特性，从而给出更详致、真实的基础数据，广泛应用于城区规划、地理信息系统构建等相关领域。由于高分辨率遥感图像的成像因素及其对建筑物本身的体积大小和形态特点多样性的限制，遥感影像建筑物分割问题一直是该学科的研究重点与难点。传统的建筑物分割方法多应用于对指定的场景进行建筑物分割，该种方法操作复杂，需要付出较大的人力成本，无法实现端到端的操作，且精度有所欠缺，无法实现高精度的分割。针对上述问题，有研究

5、人员尝试将深度学习算法应用于遥感图像的分割领域，且这些研究与传统的算法相比，分割效果有所提升。近年来，深度学习算法被广泛应用于图像领域，基于的图像语义分割方法已渐渐成为图像分割领域的研究热点。年，伯克利提出全卷积神经网络（，），该网络在分类网络的基础框架上采用的卷积代替原始的全连接层，并利用反卷积实现特征图的上采样，使特征图的分辨率恢复成原始图像的分辨率大小，从而实现像素级的分类。虽然该网络优于传统的分割算法，但直接采用上采样的方法会丢掉图像的一些局部细节特征。网络将网络的基本单元结构替换网络的卷积层，并且该网络还采用跳跃连接的方法，将上采样的输入结合下采样的特征后再重

6、新进行上采样，从而使得上采样后的特征图输出具有更多的细节信息。由于传统卷积在神经网络浅层的感受野相对较小，所以一种具有更大范围的卷积方法空洞卷积被提出。相比传统卷积，该卷积方法拥有较大的感受野，在此基础之上，等提出金字塔场景解析网络（，），通过对特征图进行不同尺寸的平均池化来获得更加全局的语义。年，等提出了算法，该算法的创新在于引用空洞卷积来解决编码过程中损失细节信息的问题，以及引用全连接条件随机场提高模型对于局部结构信息的提取能力。年，等在基础上提出了，该算法创新性地提出空洞空间金字塔池化层（，）结构，实现基于不同尺寸的特征提取，解决了待检测目标尺寸大小不

7、一的问题。年，被提出，该算法在的基础上优化了模块，把原始模块中的空洞倍率为的空洞卷积替换为的普通卷积，克服了随着空洞倍率增大而导致有效权重减小的问题，并且增加了全局池化，使其更好地提取全局语义信息。年，被提出，该算法在的基础上添加了解码层，融入卷积在浅层提取到的局部信息，并获得了比更好的分割效果，且运用了深度可分离卷积，大大降低了模型的计算复杂度，但是仍在局部信息丢失和对小型目标分割不准方面有局限性。相较于在分类的精度和速度上都得以提升。由于传统卷积提取的信息被限制在其邻域内，年，逐点空间注意力网络（，）被提出，该算法应用

8、了注意力机制可学习的思想，在分割过程中将特征图中的每个位置通过学习到的注意力图与其余所有位置相连接，使其模型感受野增大，能够获得较全局的信息，同样使得该算法对位置信息特别敏感。年，新型的场景分割网络（，）被等提出，该算法的创新在于运用通道注意力机制和空间注意力机制使其在局部特征上拥有丰富的上下文信息。该方法通过在大型自然数据集上取得效果，验证了其有效性。针对卫星遥感图像中的建筑分割算法对小目标建筑识别效果差以及对大目标建筑轮廓边缘分割精度低的问题，本文基于算法，提出一种改进的算法，实现对卫星遥感图像中建筑的高精度分割。研究

9、方法改进的犘犛犘犖犲狋算法传统算法通过提出的金字塔场景分析网络，利用池化金字塔对不同区域的语境信息进行聚合，使算法拥有较大的全局感受野。整体结构如图所示。首先将目标图像输入主干网络模块得到特征图，然后将得到的特征图输入金字塔池化模块（，），由模块根据各个尺度子区域进行全局平均池化运算得出特征图，尺寸大小分别为、，最后将获得的层特征图与主干网络输出的特征图拼接后一起输入模引用格式：熊彬，张双德基于改进的卫星遥感图像建筑物语义分割算法遥感信息，（）：块，得到与输入图像具有相同尺寸大小的预测图像。图犘犛犘犖犲狋语义分割模型

10、结构图由于传统的主干网络是基于的，需要较深的层级才能获得一个较大的感受野，限制了模型对全局信息的理解，影响分割精度。考虑到卫星遥感图像中存在许多特征相似的小目标建筑的问题，本研究做了个方面的改进。一是将的主干网络由替换为基于为基础架构的，使模型具有更大的感受野，并对主干网络做了多层级的输出，分别输出尺寸大小为、的特征图，将最后一层大小的特征图传入，以最大化地提升模型的感受野。二是考虑到会丢失一些局部信息，以及为更好地融合上下文信息，将主干网络提取出的拥有更多局部信息的特征图（、）引入特征金字塔（，）。三是将前两步的输出分别引入卷积注意力模块（，），降

11、低拼接局部特征图后通道数过大带来的影响，以及上采样后的空间信息对特征图的影响，最后拼接后输出结果，图为改进后的算法结构图。图改进犘犛犘犖犲狋语义分割模型结构图犛狑犻狀犜狉犪狀狊犳狅狉犿犲狉主干网络年，等提出了网络，该算法采用了滑动窗口的机制，对滑动窗口内的特征做自注意力机制。在图像分类任务中，该算法参考了卷积神经网络中的分层结构，使模型能够满足多尺度大小输入的条件。同的计算复杂度相比，的计算复杂度为（犺狑），而的计算复杂度则为犕（犺狑），由指数级降低至线性级。其中，犺为图像的高，狑为图像的宽，犕为每个窗口中的个数。网络结构主要分为

12、个。首先层用卷积核和步幅相同大小的卷积将输入的特征图转变为，然后输入线性嵌入层进行位置编码，最后输入做自注意力机制完成“”，为了达到分层的效果，将“”“”“”引入模块对特征图进行采样，“”“”“”其余结构与“”类似，只是输出尺寸减小。基于犉犘犖的特征融合本文针对遥感建筑物图像的特点，基于结构进行改进，考虑到在网络的浅层就具有较大的感受野，可以关注图像的全局信息，但同时也丢失了部分的细节特征，无法高精度地分割小目标，本文在主干网络输出的层特征图，中，选择具有较局部语义特征的，这层特征图做特征金字塔融合，将具有全局遥感信息年期

13、语义特征的输入到，进一步增强模型的全局感受野。在自上而下的网络结构中采用了上采样和横向连接的方式建立了特征金字塔，。考虑到模型计算复杂度以及通道数过大而影响精度的问题，本文仅选择了局部语义信息更加丰富的进行最后的拼接，如图所示。图特征金字塔模型结构图卷积注意力模块近几年，注意力机制模块被引用与深度学习领域的各个任务当中。等提出的是一个轻量级的注意力模块，该模块同时融入了空间和通道的注意力。将特征图输入并行的平均池化模块和最大值池化模块得到两个尺寸的特征图，再将两个特征图同时输入多层感知机模块中，将通道的维度压缩后又进行还原，接着将两个特征图进行加操作，并经过激

14、活函数得到通道注意力权值，最后将得到的通道注意力权值与原图相乘得到最后结果。空间注意力模型主要体现了输入值在空间维度上的重要性程度。首先，特征图分别通过最大值和平均值池化得到两个大小为犎犠的特征图，并沿着通道维度进行拼接，然后用卷积进行通道的降维，使其还原成犎犠大小，最后经激活函数使其得到到之间的空间注意力权值，最后将得到的空间注意力权值与原图相乘得到最后结果。结果与分析实验数据本实验的数据集来自不同的分布，包含竞赛的卫星遥感建筑语义分割数据集，以及部分来源于美国马萨诸塞州的建筑数据集。马萨诸塞州建筑物数据集是由波士顿地区的张航空影像组成，每张影像均为像素像素，面积为，通过预处理

15、将图像剪裁为像素像素，数据集总共包含张图片，训练集张，验证集、测试集均为张。实验设置实验使用深度学习框架实现，硬件显卡设备选择，优化器选择，初始学习率（）为，批处理大小（）为，选用学习策略，权重衰减率（）为，迭代次数（）为次，评估指标为平均准确度（，）和平均交并比（，）。对比实验本研究尝试了基于传统算法更换不同的主干网络，分别选取了经典的基于卷积的主干网络、基于的（）、，以及用于密集预测的多路径视觉（，）。上述主干网络在大型自然数据集上的分类效果都很不错。实验结果如表所示。表主干网络对比实验结果方法参数量由表结果可知，虽然和主干网

16、络在大型自然数据集上都取得了不错的效果，但当把其运用于卫星遥感建筑分割数据集时，效果不佳，以及两个指标均低于传统算法的，原因在于大型自然数据集的像素种类丰富，做的是一个多元分类，而在卫星遥感建筑分割数据集上则是一个二元分类，需要更多的一个局部信息去分割目标建筑的细节轮廓以提高评估指标，所以传统卷积取得了更好的效果。但作为主干网络在卫星遥感建筑分割数据集上取得了最优的效果，原因在于并没有完全做全局注意力机制，而是基于自身滑动窗口内做引用格式：熊彬，张双德基于改进的卫星遥感图像建筑物语义分割算法遥感信息，（）：自注意力机制，在降低计算复杂度的同时，不仅利用了提取

17、全局语义信息的能力，还保留了窗口内更多的局部信息。第组对比实验用深度学习领域经典的语义分割算法如、等种算法与本文提出的改进算法做对比，如表所示。表不同算法对比结果方法参数量本文算法从表结果可以看出，由于直接采用上采样的方式使模型丢失了一些局部信息，模型无法识别出目标的轮廓信息，导致其取得了最差的评估结果，以及指标最低仅分别为和。的效果也不佳，而基于场景解析的和以及效果均不错。基于注意力机制的以及效果略强于场景解析算法，而本文提出的改进算法的以及指标为最优且取得较大幅度领先，对于卫星遥感图像中的建筑分割能力最优，对于图像中的细节轮廓的处理表现最佳。图为部分图像采

18、用深度学习领域经典的语义分割算法得到的建筑分割效果对比图，分别选了一个大目标建筑的场景以及一个小目标建筑的场景。可以清楚看到，在小目标建筑场景下，由于目标建筑体积小，且个别建筑特征与马路特征相似，导致传统的、以及算法完全无法有效地区分出目标建筑与马路，而基于注意力机制的、虽然能够将其识别出但在分割轮廓的精度有所欠缺，而本文改进后的算法就能够较好地将其区分。在大目标建筑场景下，虽然传统的、以及算法能有效地识别出目标建筑，但对目标建筑的边缘轮廓等细节无法做到精确的分割，而本文改进后的算法由于增强了全局的感受野且融入了更多的局部信息，并通过注意力机制筛选特征，能更加精确地分割出目标建筑的边

19、缘轮廓等细节。图不同场景下的语义分割算法的分割效果对比结果图消融实验为了验证改进后算法的有效性以及模型的整体性能，采用以及指标对改进模块的性能进行整体评估，实验结果如表所示。遥感信息年期表消融实验结果方法参数量本文算法由表可知，将原始算法的主干网络替换为后模型的由上升至，提高，由上升至，提高了。原因在于感受野更大，模型对全局语义信息的关注提升，使其能更准确地识别特征。在更换完主干网络的基础上再引入局部的特征融合模块，以及通道和空间的注意力机制以增加模型对于小目标特征提取以及目标轮廓细节的优化，优化之后模型的计算复杂度虽然增加，但由上

20、升至，提高了，由上升至，提高了。证明了本文改进后的算法对于卫星遥感图像中建筑物分割的有效性。由图可以看出，对于小目标场景下（场景），分割的难点在于难以识别出特征相似的小目标建筑物（黄框所示，建筑物特征与马路相似），原始对于特征与马路相似的小目标建筑物的识别效果差。而更换为主干网络后能实现更好的识别。但仅仅只更换主干网络会发现对于小目标轮廓边缘分割不清晰，如蓝框所示。加入局部特征融合模块及空间和通道注意力机制后，改进的网络不仅能精确识别特征模糊的小目标，且对轮廓边缘分割清晰。对于大目标场景（场景），分割的难点主要在于边缘轮廓，而本文改进后的网络比原

21、始能更好地分割出边缘轮廓。结束语本文着重研究了卫星遥感图像中建筑的语义分割算法，对小目标建筑识别效果差以及对大目标建筑轮廓边缘分割精度低的问题提出改进的图不同场景下消融实验对比图算法，在原有的基础上融入了主干网络，并利用特征金字塔融合局部特征，通过引入来抑制无用的特征，增强有用的特征。实验结果表明，所提出的改进算法的平均准确度以及平均交并比分别为和，较原始的算法提高了和，且优于深度学习领域经典的、等语义分割算法，能更好地识别分割出小目标建筑以及更精确地分割出建筑的边缘轮廓等细节，尤其对于特征相似的小目标建筑分割具有显著优势。由于本文改进算法的主干网络是

22、基于，计算复杂度较大，后续将对该算法尝试模型蒸馏剪枝等操作，减小算法复杂度，使其符合实际的落地应用场景。相比在泛化性上更具优势，未来，随着硬件性能的提升，基于的算法将会被更广泛地应用。参考文献，（），：，：陈云浩，冯通，史培军，等基于面向对象和规则的遥感影像分类研究武汉大学学报（信息科学版），（）：引用格式：熊彬，张双德基于改进的卫星遥感图像建筑物语义分割算法遥感信息，（）：邱瑞，祝日星，许宏科基于改进分水岭算法的图像分割算法吉林大学学报（理学版），（）：，：，：，：，：，：，：，：，：，：，（）：，：，（）：，（）：，（），：，：，：（），：，：，：，：，：，：，?，：，：，：，：，：（），：，：，：，：，：，：，：，：

展开阅读全文