基于YOLOv5的高分辨率遥感图像目标检测算法.pdf

资源描述

1、第卷第期智能计算机与应用年月文章编号：（）中图分类号：文献标志码：基于的高分辨率遥感图像目标检测算法李在瑞，郑永果，东野长磊（山东科技大学计算机科学与工程学院，山东青岛）摘要：针对高分辨率遥感图像中物体排布密集、尺度变化较大等特性，提出一种目标检测算法。算法在模型基础上首先将跨阶段局部扩张结构作用于主干网络，采用一种加强的特征提取方式，通过整合空洞卷积和密集连接，来缓解模型对密集分布目标的漏检问题；其次，在主干网络的瓶颈部分结合模块来增强特征的表达，突出目标区域；最后，引入多尺度特征融合模块，解决多尺度特征融合时存在的不一致性问题，以提高模型的检测效果。

2、在公开的遥感图像检测数据集的实验结果表明，算法平均精度均值（）达到，具有良好的检测性能。关键词：遥感图像；目标检测；分布密集；空洞卷积，（，）【】，【】；?哈尔滨工业大学主办系统开发与应用作者简介：李在瑞（），男，硕士研究生，主要研究方向：计算机视觉；郑永果（），男，博士，教授，主要研究方向：虚拟现实与可视化、图像处理与模式识别；东野长磊（），男，博士，副教授，主要研究方向：医学图像处理、计算机视觉。通讯作者：郑永果：收稿日期：引言近些年，随着卫星及遥感技术的发展，遥感图像的目标检测在城市规划、灾情救援、车辆监控等各种实际应用中起到了至关重要的作用。深度学习技术的迅速发展，使得目标检测

3、有了重大突破，许多高性能的神经网络算法被提出。目前，基于深度学习的目标检测算法可以大致分为二阶段算法和一阶段算法两类，二阶段算法专注于提升模型对目标的检测精度，一阶段方法则在追求精度的基础上又兼顾了检测速度。二阶段算法的经典模型是，其使用（）来选择对象的候选边界框，随后又进一步筛选出较为准确的目标区域。特征金字塔网络（）使用类似金字塔的结构来学习不同尺度的特征。通过引入扩展卷积来改变大小最佳的感受野，并基于不同大小的感受野构造多分支结构，从而解决多尺度检测问题。一阶段模型中，增加了多个卷积层，以获得多尺度特征图进行预测，并设计不同大小的先验边界框以更好地检测目标。采用了更为高效的作为主干

4、网络并设计多尺度预测。则将与网络相结合，增强模型提取特征的能力。以上算法虽然在识别自然图像时都表现出了良好的效果，但由于遥感图像存在背景复杂、目标尺度变化范围大、物体分布密集等检测难题，通用目标检测算法对高分辨率遥感图像的检测具有很大的局限性。为解决上述问题，本文基于框架，提出特征信息补充与加强以及多尺度融合的方法，以增强模型的检测能力。相关工作模型随着系列网络的提出，其在各种视觉检测任务中展现了出色的性能。其中，主干网络是由模块、结构以及模块组合而成。模型会对图片进行切片操作，在宽和高两个维度上每隔一个像素取一个值，从而使特征图的通道数变为原来的倍，能够在最大程度减少信息损失的

5、同时实现两倍下采样。在的基础上重新设计结构，并在原本的网络中大量插入该结构。模块对特征图做不同大小的池化操作，从而在原特征图的基础上融合不同感受野，丰富上下文信息。在部分结构参考了和。首先，设计自顶向下路径来融合网络中不同层次的特征，将包含丰富语义信息的深层特征向下传递与浅层结合，能够提高模型对多尺度目标的检测能力；后又增加自底向上的金字塔结构，把浅层特征映射到深层网络，补充检测目标的细节及空间信息，进一步提升模型的检测效果。同时，在部分应用结构，使用个卷积模块替代残差单元。部分则对图片进行预测与分类，设计种尺寸的特征图来检测大中小不同种类的目标，最后通过非极大值抑制来筛选预测

6、框，实现检测过程。模块模块早先广泛应用于领域，通过自注意力机制来捕获序列元素之间的依赖关系，在可并行性和特征提取方面展现了出色的性能。近些年来，许多计算机视觉的学者开始将其作用于图像相关的研究上。等人提出算法，基于解码器用于图像生成任务；随后被提出，并首次在大型图像数据集上展现出超越卷积网络的性能，在图像分类方面具有较强的泛化能力；则采用移动窗口的机制来计算注意力，有效解决了传统模块中计算复杂度较高的问题，并通过不同窗口之间的特征交互提取到更为丰富的语义信息。由编码器和解码器两部分组成，基本原理是通过将图片展开成一维，得到图像特征张量，输入到编码器部分使用多头自注

7、意力学习目标特征，增强图像中目标的语义信息，再利用解码器与解码器协同训练，学习注意力规律来强化目标和特征之间的关联关系，进而提升检测效果。遥感图像目标检测算法目标检测算法结构如图所示。首先，在的主干网络中使用跨阶段局部扩张结构，替代原本的跨阶段局部网络结构；其次，在主干网络的输出特征图瓶颈部分结合模块中的编码器；最后，在原本的部分嵌入多尺度特征融合模块。S P PT R-B o t t l e n e c kC S P D 1 _ 3C S P 1 _ 1C o n vF o c u sT R-B o t t l e n e c kC S P D 1 _ 3S P PC S P D

8、 2 _ 1C o n c a tC o n c a tC o n vC S P D 2 _ 1C o n c a tC S P D 2 _ 1C o n vT R-B o t t l e n e c kC S P D 2 _ 1C S P D 2 _ 1C o n c a tM S FC a tM a x p o o lM a x p o o lM a x p o o lP r e d i t i o nM S FC o n vC o n vC o n vC a tS o f t M a xC o n vC o n vC a tC a tC o n vC o n v2*C o n v6?D

9、i l a t e dC o n vC S P D 1 _ XC S P D 2 _ XX*C o n v6?D i l a t e dC o n vX 个残差单元图算法结构智能计算机与应用第卷跨阶段局部扩张结构跨阶段局部网络结构（，）被大量应用到的主干网络，又在的基础上将其与部分结合。结构包括两个分支：一是将输入特征图进行个残差单元的卷积操作，另一部分进行简单的卷积计算特征后，与上一分支结合。结构能够增强网络的特征提取能力，使模型获取到更为丰富的语义信息。针对遥感图像中检测目标尺度变化较大，物体分布密集的特性，对结构进行改进，提出跨阶段局

10、部扩张结构（，），如图所示。首先，保持残差单元分支不变，在另一分支中使用个连续的扩张卷积，扩张率分别为、，来获取同一特征图的不同感受野，从而覆盖遥感图像中各种不同尺度的检测对象。其次，当图像中目标分布较为紧密时，使用扩张卷积会丢失特征信息，为了避免检测对象的漏检现象，在连续的个扩张卷积基础上采用密集连接结构，将原特征图与每层的卷积分别做逐个元素的加操作，从而加强特征的传播，丰富语义信息。X个残差单元C o n c a tD=3D=6D=1 2D=1 8D=2 4图跨阶段局部扩张模块结构图瓶颈结构主干网络分别输出个不同层次大小的特征图，作为后续多尺度特征融合部分的输入。将

11、主干网络中负责输出特征图的瓶颈（）部分与模块中的编码器相结合（如图所示），提出瓶颈结构（），提高模型对语义信息的提取能力，丰富图像全局信息，抑制背景对目标识别的影响。首先，将图片做切分并降低维度，即将原本的图像变为（）的，其中；随后输入中的多头注意力机制，进一步做特征提取，如式（）所示：，()（）式中：、分别为输入多头注意力的查询向量、键向量、值向量，代表特征维度。将查询向量与键向量相乘后，经过激活函数并归一化处理，再与相乘加权，得到输出结果。最后输入由两个全连接层及激活函数组成的（前馈神经网络）得到整个模块的输出特征，并与结构的特征信息结合。T R-B o t t

12、 l e n e c kM u l t i-H e a dA t t e n t i o nC o n vC o n vC o n vC o n vC o n vB nR e L U*2C o n c a tT r a n s f o r m e rM L P图瓶颈模块结构图多尺度特征融合模块输出的种尺寸的特征图，分别对应大中小不同的检测对象，高层语义信息中检测大目标，低层语义信息中检测小目标，而遥感图像中往往既有大目标又有小目标。特征融合时，由于不同层间特征的不一致性，将会影响最后的检测结果。为了缓解上述问题，更好的让网络利用高低层语义信息，在部分的最后，嵌入多尺度特征融合模块（

13、，），如图所示。S o f t M a x压缩压缩压缩图多尺度特征融合模块结构图首先将种尺寸的特征图进行采样操作，调整到同一尺寸；再根据通道维度整合并接入函数生成权重参数；最后层特征分别乘上各自的权重参数，得到融合后的特征，表达如式（）所示：（）（）式中：、分别为种尺寸的特征图，表示对特征图做通道维度的整合，表示点乘操作，则为最终的输出特征。第期李在瑞，等：基于的高分辨率遥感图像目标检测算法实验实验环境与数据集实验在系统下进行，所用为，显存，深度学习框架为。实验所用遥感数据集为，其中包括张图像，训练与测试各取一半的样本。评价指标实验采用平均精度均值（）、平均精确率

14、（）作为评估指标，和是可以反映多类别目标全局检测精度的指标在文献中被广泛用于评估多类别目标检测性能表达如式（）、（）所示：()（）（）其中，平均精度表示的是计算单类目标曲线下面积的结果，为精确率，为召回率；而是所有类别的平均值；为检测目标的类别总数；表示第个类别的平均检测精度。算法流程如图所示，算法首先对输入的遥感图像进行预处理，扩展图像数据；其次，根据模型配置文件搭建网络结构，读取训练参数，并根据训练结果更新网络参数；最后，加载训练权重与测试数据集，输出模型的预测图像。搭建网络读取参数输出结果更新参数训练模型训练集测试集数据预处理归一化数据扩充遥感图像图算法流程图实验结果表

15、为本文算法与不同目标检测模型在数据集下的实验结果。其中包括一阶段模型，以、为代表的二阶段模型，及无锚方法。表数据集下对比试验由表可知，对飞机、机场、船、桥、车辆等密集分布、大小尺度不一目标的精度均有不同程度的提高，具有良好的表现。图所示为对密集分布、大小尺度不一目标的效果图。这两种情况在检测过程中都较易对目标错检或漏检，模型识别的难度较大。如图智能计算机与应用第卷（）、（）中飞机与油罐的分布较为密集，模型对此类目标能够较为全面的做出识别；图（）、（）中车辆与桥梁、棒球场与网球场等各类物体的尺度变化给模型带来了检测难题，结果表明，可以较为准确的检测出目标对象。（a）飞机场（b）油罐场（c）车辆与桥梁（d）棒球场与网球场图检测结果结束语基于高分辨率遥感图像存在检测对象密集度高、大小不一等问题。本文提出算法，通过扩大感受野和增强特征信息以及改善特征融合来提高模型对密集物体以及多尺度目标的检测精度。实验表明，本文提出的目标检测算法在遥感数据集上具有较好的识别能力。参考文献，（）：，（）：，：，：，：，：，：，：，：，（）：，（），：，：，（）：，（）：，：，：，：第期李在瑞，等：基于的高分辨率遥感图像目标检测算法

展开阅读全文