基于SPNet的小目标分割算法研究_向杰.pdf

资源描述

1、2023.4电脑编程技巧与维护1概述在语义分割1的作用下，计算机智能系统能够更好地对自然场景进行分析。通用的一系列语义分割算法在不同数据集的应用效果上存在一定的改进空间。例如，遥感影像会因为分辨率低、图像存在噪声等干扰信息而对一些小目标分割任务呈现特征提取能力不足、分割不精确等问题，这是语义分割领域需要解决的问题。传统的语义分割算法对于如今大量低分辨率的无人机遥感影像来说，存在达不到理想效果的可能，例如，用于生物医学图像分割的卷积网络2（UNet）等编解码结构的分割算法，通过跳跃链接恢复了图像下由于采样过深而丢失的一些细节信息，但在一些小目标上的应用结果容易出现问题；深度卷积网系列网络（Dee

2、plab）、金字塔场景分析网络3（PSPNet）等利用空间金字塔池化的改进来增大感受野或者融合不同尺度的特征图，从而提取多尺度的目标信息，但可能存在对于一些长条形目标分割效果差的问题。条形池化网络4（SPNet）在PSPNet算法的基础上，通过引入条形池化捕获远程空间的依赖关系并提高利用通道间依赖的能力，但是在应用于遥感无人机等图像时，对于一些小目标仍然达不到很好的效果。针对这些问题，基于SPNet算法提出了融合挤压及激励（SE）模块和瓶颈注意模块（BAM）的SPNet算法，以实现对小目标的分割。2经典语义分割方法深度学习发展至今，涌现出一批经典的语义分割方法，虽然现在很多方法已经被新的方法替

3、代，但它们的架构仍然在很多方法中得到体现。用于图像分割的深度卷积编码器-解码器架构（SegNet）与完全卷积网络5（FCN）思路非常相似，只是在编解码器结构使用的技术上有区别。SegNet以视觉几何组网络（VGG16）为基础框架，编码层则使用了VGG16的前13层卷积网络，去掉了全连接层，使每个编码器层都对应着一个解码器层，从而构建了对称的模型。UNet由于其简单、常用的模型结构被广泛应用于语义分割的各领域，其思路高效、易懂并容易搭建，成为初学者学习的经典方法之一。在特征融合方式上，FCN使用以对应像素点相加的方式，只是像素点上的数值发生变化，不会形成更厚的特征；UNet使用拼接的方式，将特征

4、图以通道维度拼接在一起，形成更大的通道维度。PSPNet通过聚合不同区域的语境，使模型能够理解全局上下文信息。利用全局信息可以有效地在场景分析任务中生成高质量的结果。PSPNet为像素级预测提供了一个不错的框架，并在各种数据集上表现出优秀的性能。Deeplab系列是基于卷积神经网络6（CNN）开发的语义分割网络模型，其在Deeplabv17的网络结构中，首先提出了一个全连接条件随机场的概念，这种网络结构可以将空洞卷积应用于深度卷积神经网络（DCNN）结构中，然后采用这种方法对分割结果进行细节增强。在Deeplabv28的网络结构中，采用了多尺度金字塔池化模块，解决了图像中存在多尺度物体的问题。

5、在Deeplabv39网络结构中，舍弃了条件随机场模块，使用不同扩张率的空洞卷积来改进空间金字塔池化模块（ASPP）。Deeplabv3+10基于Deeplabv3的网络结构发展而来的，以Deeplabv3为编码器（Encoder）模块，加入一个简单有效的解码器（Decoder）模块，形成Encoder-Decoder结构，将其与ASPP相结合，在探索更多的多尺度上下文信息的同时，将具有深度可分离卷积的深度学习网络（Xception）作为编码器的主干网络应用于分割任务，使得模型运行速度有所提高。作者简介：向杰（1998），男，硕士，研究方向为计算机视觉。基于 SPNet 的小目标分割算法研究向

6、杰（三峡大学，湖北宜昌443002）摘要：语义分割是计算机视觉领域中的重要研究方向之一，其在无人车驾驶、医学影像分析、机器人制造、地理信息分析等领域有着非常广阔的应用前景。经典的分割算法有金字塔场景分析网络（PSPNet）、生物医学图像分割的卷积网络（UNet）等，应用这些算法在很多数据集上都获得了不错的效果，但仍存在小目标分割效果、分割准确度等指标方面的问题。比较分析了经典算法的优缺点，基于条形池化网络（SPNet）提出了一种改进的语义分割算法。关键词：语义分割；计算机视觉；SPNet 算法37DOI:10.16184/prg.2023.04.0232023.4电脑编程技巧与维护3SPNe

7、t 算法SPNet算法的思路是基于经典的PSPNet来搭建的，首先，将一张完整的图片输入网络中，通过主干即一个卷积神经网络得到一个包含丰富语义信息的特征图；其次，将特征图输入两个串联的混合池化模块（mpm）中，通过两种类型的池化来获取丰富的上下文信息；最后，通过上采样恢复输入图像的大小，得到最终的分割结果。同时，在主干部分还加入了基于条形池化的注意力模块（SPM），沿着水平和垂直两个方向加强提取上下文的能力。根据这些特点，SPNet在复杂形状的目标场景中会表现得更好，特别对于长条形目标的效果提升显著。SPNet的结构如图1所示。图1SPNet结构4改进 SPNet 算法为了SPNet在多种数据

8、集上有更全面的表现，在空间池化部分融合通道注意力（SE）模块、在上采样部分嵌入BAM模块，通过这两个模块使得SPNet算法在小目标分割及目标边缘细节分割方面获得更好的效果。SE模块是在挤压及激励网络（SENet）基础上提出来的。SE模块首先对输入的特征进行压缩即进行全局平均池化的操作，将HWC大小的特征图变为11C大小的向量；其次对这个向量进行激励操作，由两个全连接层和激活函数组成，将11C大小的向量通过全连接层变为11CSERadio，SERadio是一个缩放参数，其作用是拟合通道之间的相关性，减少通道个数，降低计算量；然后将11CSERadio通过一个激活函数输入到一个全连接层和激活函数中

9、，变为11C；最后，通过scale操作即通道权重相乘，将激励操作的输出向量11C与原始输入的特征图HWC对应通道权重相乘，得到输出结果。BAM是卷积注意力模块（CBAM）的另一种形式，BAM使用并联的方式将channel（通道）层次和spatial（空间）层次的注意力进行分离，并直接将两者的注意力权重相加。BAM将输入的特征图分为3个部分。第一个部分的通道注意力模块，将输入的特征图通过全局平均池化生成通道维度的特征向量，经过两个全连接层学习，输入特征图不同通道的权重，最终得到一个尺寸为11C的通道权重Mc；第二个部分将输入的大小为HWC的特征图经过11卷积对特征图的通道进行降维，得到HWC/r

10、大小的特征图，通过两个33膨胀卷积有效利用上下文信息，将特征图通过一个11的卷积简化为HW1的空间注意力权重Ms。将第一个部分的通道注意力权重Mc与第二个部分的空间注意力权重Ms相加，通过sigmoid函数得到一个融合的3D注意力权重Mf。第三个部分将第二个部分的3D注意力权重Mf与输入的特征图进行对应像素相乘的操作，将相乘的结果与原始输入的特征图进行对应像素相加的操作，得到最终精细化的特征图。5评价指标及实验分析文中使用平均交并比MIoU、平均准确率Macc作为实验依据。MIoU是评估语义分割算法的一个标准度量，是目前语义分割中使用广泛、代表性突出的评价指标。MIoU即语义分割中真实值（Gr

11、ound truth）和预测值（Predicted）两个集合的交集。同样的，对每个类别计算重叠度（IoU），然后对所有类别求得平均值。MIoU的计算如公式（1）所示：（1）Macc即每个类别正确分割的样本与总样本数之比的平均值，其计算公式如公式（2）所示：（2）输入特征提取加强特征提取上采样输出interpolateSESESESESEUPUPUPUPConvConvCSESESEUPUPSESEUPUPConvConvC382023.4电脑编程技巧与维护基于SPNet算法的实验结果，如图2所示。通过实验结果可以得出，SPNet算法在一些小物体的边缘细节方面，分割得更加精细，同时能够分割出一些

12、漏掉的目标，而原始算法对于一些密集小目标的分割较为粗糙。因此针对这种小目标的分割效果，SPNet算法比原始算法表现得更好，在边缘分割上更精细。6结语对传统的语义分割算法做了分析，提出了一种改进的SPNet算法。实验结果表明，改进的SPNet算法的分割精度略优于原始算法，在目标的边缘分割方面更精确。在高精度的无人机影像前提下设计分割算法，后续将继续针对影像中多目标类别进行更深层次的研究，完善算法。同时，深度学习的模型离不开大量的数据集训练，因此需要进一步扩充数据集完善实验。参考文献1田聋,王亮,丁琪.基于深度学习的图像语义分割方法综述J.软件学报,2019,30(02):440-468.2O.R

13、onneberger,P.Fischer,and T.Brox,U-net:convoluti-onalnetworksforbiomedicalimagesegmentation,Intern-ational Conference on Medical Image Computing andComputer-Assisted Intervention,2015,234-241.3ZHAO H，SHI J，QI X，et al Pyramid scene parsingnetwork C.Proceedings of the IEEE Conference onComputer Vision

14、and Pattern Recognition Hawaii:IEEE，2017:2881-2890.4HOU Q,ZHANG L,CHENG M M,et al.Strip pooling:rethinkingspatialpoolingforsceneparsing C/in2020IEEE/CVF Conference on Computer Vision and PatternRecognition.Hawaii:IEEE,2020.5Long,Jonathan,Shelhamer,etal.Fullyconvolutionalnet-works for semantic segmen

15、tation J.IEEE Transactionson Pattern Analysis&Machine Intelligence,2015,39(4):640-651.6Sharif Razavian A,Azizpour H,Sullivan J,et al.CNNfeatures off-the-shelf:An astounding baseline forrecognition C.Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Hawaii:IEEE2014:806-813.

16、7Chen L C,Papandreou G,Kokkinos I,et al.Semanticimage segmentation with deep convolutional nets andfully connected crfs J.Computer science,2014(4):357-361.8Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:semantic image segmentation with deep convolutionalnets，atrousconvolution，andfullyconnectedCRFs J

17、.IEEE Transactions on Pattern Analysis and MachineIntelligence,2017,40(4):834-848.9Chen L C,Papandreou G,Schroff F，et al.Rethinkingatrous convolution for semantic image segmentation J.arXiv:1706.05587,2017.10 Chen L C,Zhu Y,Papandreou G,et al.Encoder-decoderwith atrous separable convolution for semantic imagesegmentation C.Proceedings of the European Con-ference on Computer Vision（ECCV）,2018:801-818.图2SPNet算法实验结果（a）原图（b）改进结果（C）初始结果39

展开阅读全文