收藏 分销(赏)

特征平衡的无人机航拍图像目标检测算法_徐坚.pdf

上传人:自信****多点 文档编号:592158 上传时间:2024-01-10 格式:PDF 页数:8 大小:1.80MB
下载 相关 举报
特征平衡的无人机航拍图像目标检测算法_徐坚.pdf_第1页
第1页 / 共8页
特征平衡的无人机航拍图像目标检测算法_徐坚.pdf_第2页
第2页 / 共8页
特征平衡的无人机航拍图像目标检测算法_徐坚.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Engineering and Applications计算机工程与应用2023,59(6)无人机具备高机动性,不受地面交通条件的限制,拥有广阔的监控视野,被广泛应用于测绘、安全巡检、搜救以及军事等多个领域1-3。计算机视觉技术与无人机相结合使得无人机能够感知周围环境,降低了人工控制的依赖,进一步拓宽了无人机的应用范围。目标检测是计算机视觉的基础任务。基于深度学习的目标检测算法相比传统算法性能更佳,因而被广泛使用。但是在无人机低空航拍的场景下,基于深度学习的检测算法仍然存在诸多问题:(1)无人机低空拍摄的图像小目标居多,而小目标检测一直是目标检测领域的难点;(2)无人机拍摄的

2、图像易受天气、场景影响,导致目标存在模糊、遮挡的情况;(3)由于无人机姿态变化,图像的拍摄视角变特征平衡的无人机航拍图像目标检测算法徐坚1,谢正光1,李洪均1,21.南通大学 信息科学技术学院,江苏 南通 2260192.南京大学 计算机软件新技术国家重点实验室,南京 210023摘要:无人机航拍图像目标较小、图像视角变化大,导致目标检测效果不佳。针对此问题,设计了一种适用于无人机小目标检测的网络。该网络中的可变形卷积模块可以提高多视角目标的特征提取能力,以解决航拍图像目标视角变化剧烈致使目标特征难以提取的问题;特征平衡金字塔模块可以增强网络中底层小目标特征,以解决航拍图像中的小目标因特征易丢

3、失而造成其检测效果差的问题;同时利用像素重组构建底层大尺度特征以解决特征平衡金字塔模块的底层特征卷积运算量大的问题;交叉自注意力机制获取目标上下文信息,改善严苛条件下的漏检错检问题。公开数据集上的仿真结果表明,在保证实时检测的情况下所提算法的平均准确度优于主流检测算法。关键词:无人机目标检测;特征平衡金字塔;交叉自注意力;像素重组文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.2111-0075Feature-Balanced UAVAerial Image Target Detection AlgorithmXU Jian1,XIE Zhen

4、gguang1,LI Hongjun1,21.School of Information Science and Technology,Nantong University,Nantong,Jiangsu 226019,China2.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,ChinaAbstract:Small target and large change of image angle in UAV aerial image result in poor obje

5、ct detection effect.Tosolve this problem,a network for UAV small target detection is designed.The problem that the target feature is difficult toextract due to the sharp change of the aerial image target s perspective can be solved by the deformable convolution mod-ule in the network which improve t

6、he feature extraction ability for multi-view targets.The features of the low-level smalltargets in the network can be enhanced by the feature balance pyramid module,so as to solve the problem of poor detec-tion effects of small targets in aerial images on account of their easy loss of features.At th

7、e same time,pixel un-shuffle isused to construct the bottom-level large-scale features to solve the problem of the large-scale convolution of the bottom-level features of the feature balance pyramid module.Cross self-attention mechanism is used for obtaining the object con-text information so that t

8、he problem of missed detection and error detection under severe conditions can be solved.Simu-lation results on public data sets show that the average accuracy of the proposed algorithm is better than that of the main-stream detection algorithms under the condition of real-time detectionKey words:un

9、manned aerial vehicle(UAV)object detection;feature balance pyramid;cross self-attention;pixel un-shuffle基金项目:国家自然科学基金(61871241,61971245,61976120);南京大学计算机软件新技术国家重点实验室基金(KFKT2019B015);南通市科技计划资助项目(JC2021131)。作者简介:徐坚(1997),男,硕士研究生,CCF会员,研究方向为深度学习、目标检测,E-mail:;谢正光(1967),男,博士,教授,研究方向为数字图像处理、智能信号处理;李洪均(198

10、1),男,博士,副教授,CCF会员,研究方向为机器视觉、人工智能。收稿日期:2021-11-04修回日期:2022-01-10文章编号:1002-8331(2023)06-0196-081962023,59(6)化大,目标特征提取困难;(4)部分应用场景下需要实时检测,而基于深度学习的算法在拥有高性能的同时对硬件要求也较高,不能满足实时性。目前已有许多国内外相关研究,主要方法可分为多尺度特征融合、基于上下信息以及基于生成对抗网络。卷积网络浅层特征图中有丰富的纹理特征,有利于小目标检测。通过多尺度特征融合充分利用深层特征图语义信息和浅层特征图的纹理信息,可缓解卷积网络尺度结构上的矛盾。Lin等4

11、提出的FPN通过自顶向下和侧向连接的方式融合了多尺度特征,使得浅层特征传递到高层特征,达到增强小目标特征的目的。FPN网络结构简洁,以极小的代价提升了小目标的检测效果,但没有考虑到不同尺度特征的重要程度。Zhan等5针对无人机航拍图像中的小目标,在FPN中增加了更底层的大尺度特征图,使得其中的小目标细节信息更丰富,虽提升检测效果,但加深了网络,增加了计算量。Liu等6使用了并行金字塔结构采样替代了FPN中的采样,解决了FPN单一上采样难以有效恢复小目标语义信息的问题,增强了小目标特征。郭晓静等7在Yolo3基础之上做出改进,增加了多尺度的特征融合,同时增加了检测尺度,有效提高了小目标的检测效果

12、。Liang等8在SSD基础之上做出改进,将骨干网络的特征直接融合并集成到一张特征图上,之后在融合后的特征图基础之上进行多尺度下采样,同时利用反卷积对低分辨率特征图上采样生成特征金字塔。网络最后在特征金字塔上进行分类和边框回归。Cheng 等9提出交叉尺度特征融合模块。在该模块中,选定一个分辨率的特征,将除了该分率的所有特征进行上采样或下采样到该分辨率并融合得到集成特征,随后将集成特征与选定的分辨率的特征融合。对所有尺度的特征重复上述操作,得到融合后的新特征充分利用了所有尺度的信息。图像中的上下文信息对于目标检测起着十分重要的作用。图像中的一部分目标通常只会出现在特定的场景中,且常与其他目标存

13、在关联。无人机航拍图像中目标常常因为低分辨率、遮挡等因素导致特征不显著,而利用上下文信息能够帮助网络进行合理地推断。Cui等10提出了一个上下文感知模块,该模块由四个分支构成,每个分支由不同膨胀率的膨胀卷积组成,能够合并多尺度的上下文信息而不丢失特征映射的原始分辨率,在不增加模型复杂度的情况下提高了检测精度。Li等11提出一个全局上下文信息注意模块,该模块通过将特征图在不同维度上展开并做矩阵乘法运算,得到包含全局上下文信息的注意力特征图,之后利用注意力特征图改善原始特征图。此模块能够获得包含丰富的全局上下文信息的小目标特征,但是特征图展开之后的矩阵较大,计算量大,算法实时性上存在不足。Nie等

14、12提出了一种上下文信息增强模块,该模块主要由两个卷积分支组成,每个分支分别由1k和k1的卷积组成,然后融合两个分支的特征图获得包含上下文信息的增强特征。该模块主要优点是使用形状不同的卷积核提取不同尺度的特征从而获得全局上下文信息,避免了展开特征图做矩阵乘法的大量计算。现有的针对小目标检测的方法除上述基于多尺度特征融合及上下文信息的方法外,另一研究热点是通过生成对抗网络来提高图像分辨率,相当于将小目标变成更大的目标以间接达到提高小目标检测性能。Bai等13提出多任务的生成对抗网络检测小目标。该网络利用基础检测器区分前景和背景,将前景输入生成器进行上采样提高分辨率,判别器是个多任务网络,能够描述

15、对象类别得分以及边界框的回归偏移量。该网络通过提高图像分辨率的方式极大地提高了小目标检测的准确度。Zhou等14提出了一个针对图像尺度的评价标准,主要原理是训练一个分类器将数据集中的图像分类成三种不同的尺度。对于在不同尺度上的图像,通过双线性插值或生成对抗网络提高分辨率,之后检测高分辨率的图像。该网络部分使用了传统方法上采样,相比于直接使用生成对抗网络降低了一步计算。Rabbi等15提出一种边缘增强超分辨率生成对抗网络对低分辨率图像重建,与FasterRCNN结合取得了优越的性能。生成对抗网络相比于其他改善手段相比效果更佳,但是复杂的网络结构以及较大的图像分辨率使得模型不能达到实时检测,还需进

16、一步改善。生成对抗网络因复杂度太高无法满足无人机目标实时检测的需求;现有基于多尺度特征的算法在特征融合时没有充分考虑到不同尺度特征对小目标检测的贡献度;基于上下文信息的算法其信息获取主要是通过注意力机制获得,而获取全局上下文信息的注意力机制其计算量较大,限制了其实时性应用。为此,针对无人机目标检测的特点提出了一种基于Yolov5改进的检测算法。首先改进了骨干网络,在骨干网络多尺度特征层之间添加可变形卷积,增强网络对目标多视角变化下的特征提取能力。然后提出特征平衡金字塔结构并利用像素重组从骨干网络直接构建金字塔中的底层特征,通过上采样和下采样将金字塔各个尺度的特征图调整到相同分辨率后进行融合,减

17、少小目标特征信息丢失,提高小目标的检测效果。最后提出交叉自注意力机制,获取目标的全局特征,在线索不足时改善检测效果。1基于特征平衡金字塔的无人机目标检测算法Yolov5是 Yolo系列最新的网络,有四个不同复杂度的模型,其中Yolov5s是复杂度最低的模型,轻量的网络结构使其具有较高的速度,但是在无人机目标检测的场景中仍存在改进的空间。其骨干网络感受野形状固定,在检测因角度变化导致形状改变的目标时存在困徐坚,等:特征平衡的无人机航拍图像目标检测算法197Computer Engineering and Applications计算机工程与应用2023,59(6)难。网络中的PANet结构仅融合

18、了高层特征16,没有充分地利用底层特征,不利于以小目标为主图像的目标检测。针对 Yolov5s 在无人机目标检测场景下存在的不足,从三个方面分别提出了改进,在保证实时性的条件下提高了此场景下目标检测的性能。(1)在原先的骨干网络基础之上添加可变形卷积网络模块,使网络具备可变化的感受野,提高对多视角下形态变化的目标的特征提取能力。(2)应用特征平衡金字塔结构,利用像素重组增加底层大尺度特征图,然后将多个特征调整到统一的分辨率后进行融合。(3)对融合后的特征图应用交叉自注意力机制获取目标特征的全局上下文信息,帮助网络推理检测结果。改进后的网络整体结构如图 1 所示。虚线框分别标出骨干网络和特征平衡

19、金字塔结构。骨干网络中DCN为可变形卷积模块,特征平衡金字塔中PUS为像素重组操作。CSA模块为交叉自注意力机制。1.1主干网络改进主干网络主要改进是在Yolov5s网络基础之上添加了可变形卷积模块(deformable convolution,DCN)17。相对于普通卷积,可变形卷积相能够自适应地调整感受野的大小,以提高无人机图像中多视角小目标的特征提取能力。普通卷积其卷积核形状固定,感受野不变。如公式(1)所示:|R=()-1,-1,()-1,0,()0,1,()1,1Y()P0=PnRw()PnX()P0+Pn(1)首先对特征图用固定网格采样,然后对采样点加权运算。式中R以坐标形式定义了

20、一个33的网格。X为输入特征图,w为权重,Y为输出特征图,Pn为网格R中的点。形状感受野固定不变的普通卷积学习到的多视角小目标特征难以迁移,通过在普通卷积的采样位置添加一个偏移量动态改变采样位置,自适应调整卷积核的形状和感受野,可改善多视角小目标因目标形状几何变换带来的特征迁移困难问题。如公式(2)表示:Y()P0=PnRw()PnX()P0+Pn+Pn(2)添加了偏移后采样点为P0+Pn+Pn,其中Pn为网络学习获取的动态偏移量,Y为可变行卷积的输出特征图。为了增强网络对于多尺度特征的迁移学习能力,分别在骨干网络4倍、8倍和16倍下采样的BotteneckCSP后添加DCN模块,插入在Bot

21、teneckCSP模块后是为了在随后的特征金字塔中进行特征融合。改进后的网络结构、输入输出通道数,以及相对于原图的下采样倍数如表1所示。1.2特征平衡金字塔卷积网络浅层特征图中有丰富的纹理特征,有利于小目标检测。但因为浅层特征图分辨率太大会计算复杂,Yolov5s的PANet结构中没有融合底层特征图。针对此问题,利用像素重组子模块构建底层特征图可降低计算量,并在此基础上设计了特征平衡金字塔。特征平衡金字塔通过融合深层语义信息和浅层纹理信息来提高小目标的检测准确度。整个结构分为三个部分:(1)构建底层大尺度特征图;(2)调整特征图尺度;(3)特征整合。像素重组子模块(pixel unshuffl

22、e,PUS)源于SPCN,最早用于图像超分辨率重建18。假设特征图形状为CHrWr,其中C、H、W分别为通道数、宽、高,r为尺度缩放因子,经过像素重组后变为Cr2HW,主要操作是将特征图中像素重新排列组合从而获得新的特征图,是一种无参操作。通过像素重组下采样,可以将空间信息转移到通道中,不损失细节信息。骨干网络中的P2层特征通道数为64,对其应用像素重组,尺度缩放因子为2,得到通道数为256、尺度缩小一倍的新的特征检测头下采样下采样下采样下采样下采样FocusConvC3DCNConvC3DCNConvC3DCNConvC3SPPP1P2P3P4P5C3C3C4C5C3C3ConvConcat

23、C3ConvConcatPUSCSAfusion骨干网络特征平衡金字塔图1基于特征平衡金字塔的无人机目标检测算法框图Fig.1UAV object detection algorithm based onfeature balance pyramid模块FocusConvC3DCNConvC3DCNConvC3DCNConvSPPC3输出通道数3264128256512下采样倍数2481632表1改进后的骨干网络Table 1Improved backbone1982023,59(6)图C3。C3包含了底层特征P2的全部特征信息,细节信息没有损失。在获得到底层的大尺度特征后,需要将参与特征整合

24、的四个特征C5、C4、C3、C3调整到统一的分辨率。选择过大的分辨率会增加整体计算负担,而过小的分辨率会造成小目标特征丢失。这里选择统一调整到C3的尺度,C3与C3形状相同,C5、C4通过双线性插值上采样到C3的大小,之后按照式(3)整合特征。CBFP=1LlminlmaxCl(3)1.3交叉自注意力在模型中添加注意力机制可以让模型关注图像中的重点信息,改善检测效果。卷积神经网络主要是对图像空间信息上的建模,而通道特征之间也存在依赖关系,不同的通道特征对最后检测结果的贡献度不同。SENet19提出了通道注意力机制(channel attention),通过挤压激励操作自动学习通道特征的权重系数

25、,突出重要的通道特征,抑制冗余的通道特征。图像空间信息上也可以应用注意力机制,CBAM20在SENet后添加了一个空间注意力模块,该模块在通道维度上做最大值池化和均值池化,利用卷积整合池化的两个结果获得了空间位置上的权重信息。CBAM主要关注的是局部信息,无法建立长距离的依赖从而充分利用图像上下文信息,而自注意力机制能够在图像信息中建立长距离依赖以更好地获取上下文信息,提高目标检测准确率。但是自注意力机制如Non-local21往往需要将特征图展开并相乘,计算量太大,不适用于无人机平台。针对此问题,提出了交叉自注意力模块(cross self-attention,CSA),具体结构如图2所示。

26、该自注意力机制只计算图像中一部分位置的相互作用,能够捕获一定的长距离依赖的信息,同时缓解了自注意力机制计算量大的问题。CSA模块将特征图分解,沿水平和垂直方向编码特征。输入特征图形状为CHW,在水平方向上使用1W的池化核对特征图分别做均值池化和最大值池化,得到两个形状为CH1的特征图。垂直方向上使用H1的池化核做最大值和均值池化,得到两个形状为C1W的特征图。将水平和垂直方向上得到的特征图分别做连接操作,连接后形状分别为CH2和C2W,之后利用卷积融合最大值池化和均值池化的特征,得到形状为CH1和C1W的特征图。这两个特征图在水平和垂直方向聚合了空间信息。将两张特征图相乘再经过softmax之

27、后获得非局部注意力特征图。在两个空间方向上编码的特征图相乘可以计算水平位置和垂直位置的信息交互,更加准确地定位目标。最后输入特征图与非局部注意力特征图点乘后得到最终输出。单层卷积的时间复杂度为O(M2K2CinCout),其中M2为输出特征图的面积,K2为卷积核面积,Cin和Cout为输入和输出通道数。交叉自注意力机制的乘法计算量为2CHW+C2(H+W),时间复杂度为O(C2(H+W)。普通的自注意力机制如Non-local乘法计算量为2HWC2+(HW)2C,时间复杂度为O(HW)2C),超过所提交叉自注意力机制的复杂度。2实验与结果分析为了检验所提算法,在vsidrone数据集上与其他主

28、流方法对比了性能和速度,对结果进行了定量和定性分析,同时在此数据集上对所提的改进方法进行了消融实验以验证其有效性。2.1实验环境及数据集实验使用的服务器配置为i9 10900k,64 GB RAM,两张2080Ti显卡,系统为ubuntu18.04LTS。深度学习框架使用pytorch1.7。使用在COCO数据集上训练好的模型作为预训练模型加快训练速度。训练使用adam优化器,初始学习率为0.001,最小学习率为0.000 2,采用余弦退火算法衰减学习率,批训练大小为 8,训练 200 个epoch。数据预处理采用Mosaic数据增强,随机选取四幅图像裁剪拼接,增强场景多样性,以改善检测效果。

29、模型在推理时需要利用NMS算法筛选模型推理产生的候选目标框得到最终结果。由于无人机航拍图像目标密集,模型会产生大量低置信度的候选目标框,为了加快模型推理速度,将置信度阈值设为0.01以去除置信度过低的目标框,之后再利用NMS算法筛选目标框。Visdrone数据集被用于模型的训练与测试。Visdrone是由天津大学团队AISKYEYE利用无人机在不同的条件下低空拍摄的国内14个城市的图像数据集。其中训练集6 471张图像,验证集548张图像,测试集1 610张图像。数据集主要标注人和日常交通工具,共有10个Xmax poolXAvg poolYmax poolYmax poolChannel a

30、ttentionConcat12 ConvConcat21 ConvInputCHWCH1CH1 CHWCHWC2WC1WCH1CH2CHWSoftmaxOutput图2交叉自注意力模块Fig.2Cross self-attention modules徐坚,等:特征平衡的无人机航拍图像目标检测算法199Computer Engineering and Applications计算机工程与应用2023,59(6)类别,分别为行人、人、自行车、汽车、货车、卡车、三轮车、遮阳篷三轮车、公共汽车和汽车。行人和人的分类区别在于有无使用交通工具。图3展示了Visdrone中一部分不同场景和视角下的图像。图

31、4展现了数据集目标的位置分布和尺度分布的热力图,颜色越深表示分布越密集。图中坐标轴为目标的相对坐标,图4(a)中可以看到大部分的目标都在图像的中心偏下位置,图4(b)中的坐标原点附近颜色最深,表明数据集中以小目标为主。2.2训练细节评价指标采用COCO数据集的评价标准,主要指标为mAP0.5、mAP0.75、mAP0.5 0.95。mAP0.5和mAP0.75是指在IOU阈值为0.5和0.75下计算的所有目标类别的平均准确度,mAP0.5 0.95 是指 0.5 到 0.95 以 0.05 为间隔10个阈值下的平均准确度。mAP可由公式(4)计算:|Recall=TPTP+FNPrecisio

32、n=TPTP+FPAP=01P()R dRmAP=1CcCAP(C)(4)其中TP、FP、FN分别表示正确检测、错检测、漏检测目标,Recall表示召回率,Precision表示精度,P(R)为精度和召回率曲线,每个IOU阈值对应一条P(R)曲线,C为类别,mAP为所有类别的AP值的平均。训练过程中损失值以及平均准确度的变化如图 5所示。图5(a)、(b)分别展示了训练集的损失和验证集图3Visdrone数据集部分图像Fig.3Partial image of Visdrone dataset0.20.40.60.81.01.00.80.60.40.20 xy0.10.20.30.40.50.

33、50.40.30.20.10widthheight(a)目标中心点分布(b)目标的宽高分布图4目标位置和尺度分布热力图Fig.4Thermalmaps of target location and scale distribution020406080 100 120 140 160 180 200epoch0.0300.0280.0260.0240.0220.0200.0180.0160.0140.012loss020406080 100 120 140 160 180 200epoch0.0300.0290.0280.0270.0260.0250.0240.0230.0220.0210.0

34、200.0190.018loss020406080 100 120 140 160 180 200epoch0.550.500.450.400.350.300.250.20mAP0.5020406080 100 120 140 160 180 200epoch0.300.280.260.240.220.200.180.160.140.120.100.08mAP0.5 0.95(a)训练集损失(b)验证集损失(c)验证集mAP0.5(d)验证集mAP0.5 0.95图5训练过程可视化Fig.5Visualization of training process2002023,59(6)的损失,可以

35、看出损失值随着迭代次数增加逐渐平稳,没有出现过拟合和欠拟合的情况,表明模型训练正常。图5(c)、(d)分别为验证集上的mAP0.5和mAP0.5 0.95。这两个指标最终稳定在0.495和0.285。2.3定量分析为了检验改进后的算法性能与速度,同时选取了单阶段、双阶段多种算法做对比,结果如表2所示。表2中按照指标mAP0.5 0.95从低到高排列,列出了每种算法所选用的骨干网络以及相应的帧速率(FPS)。改进后的算法相比原 Yolov5s 算法在 mAP0.5 95、mAP0.5、mAP0.75上分别提高了1.4、2.5和1.2个百分点,FPS虽然有下降,但是依然能够满足实时检测的要求。移动

36、边缘计算设备算力远不如专业显卡。虽然SyNet以及RSOD虽然检测准确率比较高,但是FPS较低,难以在移动端部署。2.4定性分析为了充分展示算法改进后的检测效果,选取了不同场景和拍摄视角的图片展示。改进后算法与原算法的检测效果对比如图6所示。图(a)为原算法检测结果,图6(b)为改进后的算法检测结果。图中漏检目标用黄色圆圈以及箭头放大展示,错检目标用红色圆圈和箭头放大展示。从图6中可以看到,原算法在白天对于一些部分遮挡的目标存误检测,一些过于微小且与背景相似的目标存在漏检测。改进后的算法利用上下文信息可以检测出被部分遮挡的目标。在夜景下,部分目标由于光线不足过于模糊,难以与背景区分,检测难度大

37、。原算法难以检测黑夜场景下的小目标,而改进后的算法相较于原算法能够获得更丰富的小目标特征且能够利用上下信息做出合理推断,效果提升明显。2.5消融实验为了验证所提方法的有效性,在Visdrone测试集上进行了消融实验,结果如表3所示。表3展示了Visdrone数据集中10个类别的mAP0.5 0.95指标,详细展示了不同改进方法对各类目标的检测效果。表3中第一行为原始Yolov5s模型。第二行添加了(a)原算法检测结果(b)改进后算法检测结果图6原算法和改进后算法在不同场景的检测结果Fig.6Detection results of original algorithm and improved

38、 algorithm in different scenariosMethodsFPN(2017)Cornernet22(2018)IterDeT23(2021)Yolov5s(2020)OursSyNet24(2022)RSOD25(2020)mAP0.5 0.95/%16.517.420.421.322.725.125.4mAP0.5/%32.7834.1236.8038.3040.8048.4043.30mAP0.75/%15.415.820.321.322.526.227.1FPS13.64.111.4112.091.016.028.0表2算法性能对比Table 2Comparison

39、 of algorithm performance徐坚,等:特征平衡的无人机航拍图像目标检测算法201Computer Engineering and Applications计算机工程与应用2023,59(6)BFP结构,将C5和C4上采样到C3的尺度,仅仅对C5、C4、C3三层特征做特征平衡。加入BFP结构后,bicycle和awning-tricycle提升比较大,这两类目标相对其他目标面积较小,而BFP结构强化了底层小目标特征提升了这两类的检测效果。BFP相比Yolov5s原来的PANet虽然卷积层数减少,但是通道数增加了,因此FPS轻微下降。第三行实验是利用CSA模块改善特征平衡金字

40、塔的特征图,获取目标特征的上下文信息,所有类别的目标检测效果都有提升。第四行实验中利用像素重组在特征平衡金字塔中增加了一层大尺度特征图,mAP0.5 0.95 提升了 0.1 个百分点且几乎不增加额外的计算消耗。最后在骨干网络添加三层可变性卷积网络层。加入可变性卷积网络增加了对不同尺度目标的建模能力,mAP0.5 0.95增加了0.6个百分点。可变形卷积需要计算位置偏移量,计算量比常规卷积大,因而FPS下降较多。改进后的检测算法相比原始的 Yolov5s 在指标mAP0.5 0.95上提升了1.4个百分点。3结语基于Yolov5s算法改进了网络结构,改善了无人机目标检测效果。网络结构有四点改进

41、:(1)在骨干网络中采用可变形卷积网络,提高了网络对视角变化目标特征提取的鲁棒性。(2)利用特征平衡金字塔结构,平衡底层特征和高层特征,改善了小目标特征丢失的问题。(3)设计交叉自注意力模块,获取小目标上下文信息并建立长距离依赖,降低了自注意力机制的计算量,改善了部分严苛条件下的小目标检测效果。实验结果表明改进后的算法相比原算法mAP0.5提高了2.5个百分点,且保证了实时性。下一步的工作是在边缘计算设备上部署算法,实现实时检测。参考文献:1 朱学岩,张新伟,顾梦梦,等.基于无人机可见光图像的云杉计数方法J.林业工程学报,2021,6(4):140-146.ZHU X Y,ZHANG X W,

42、GU M M,et al.Spruce countingmethod based on UAV visible imagesJ.Journal of For-estry Engineering,2021,6(4):140-146.2 梁哲恒,邓鹏,姜福泉,等.基于卷积神经网络的无人机影像违章建筑检测应用J.测绘通报,2021,10(4):111-115.LIANG Z H,DENG P,JIANG F Q,et al.The applicationof illegal building detection from VHR UAV remote sens-ing images based on

43、 convolutional neural networkJ.Bul-letin of Surveying and Mapping,2021,10(4):111-115.3 解博.基于深度学习的低空无人机航拍目标检测与识别D.长沙:国防科技大学,2018.XIE B.Object detecton and recognition methods on aerialimages from low-altitude UAV based on deep learningD.Changsha:National University of Defense Technology,2018.4 LIN T

44、Y,DOLLR P,GIRSHICK R,et al.Feature pyramidnetworks for object detectionC/Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017:2117-2125.5 ZHAN W,SUN C,WANG M,et al.An improved Yolov5real-time detection method for small objects captured byuavJ.Soft Computing,2021,7(13):1-

45、13.6 LIU Y,YANG F,HU P.Small-object detection in UAV-captured images via multi-branch parallel feature pyra-mid networksJ.IEEE Access,2020,8:145740-145750.7 郭晓静,隋昊达.改进YOLOv3在机场跑道异物目标检测中的应用J.计算机工程与应用,2021,57(8):249-255.GUO X J,SUI H D.Application of improved YOLOv3in foreign object debris target dete

46、ction on airfield pave-mentJ.Computer Engineering and Applications,2021,57(8):249-255.8 LIANG X,ZHANG J,ZHUO L,et al.Small object detec-tion in unmanned aerial vehicle images using feature fusionand scaling-based single shot detector with spatial contextanalysisJ.IEEE Transactions on Circuits and Sy

47、stems forVideo Technology,2019,30(6):1758-1770.9 CHENG G,SI Y,HONG H,et al.Cross-scale feature fusionfor object detection in optical remote sensing imagesJ.IEEE Geoscience and Remote Sensing Letters,2020,18(3):431-435.10 CUI L,LV P,JIANG X,et al.Context-aware block net forsmall object detectionJ.IEE

48、E Transactions on Cybernetics,2020,52(4):2300-2313.11 LI Y,CHEN Y,YUAN S,et al.Vehicle detection from roadimage sequences for intelligent traffic schedulingJ.Com-puters&Electrical Engineering,2021,95:1-14.methodsYolov5s+BFP+CSA+PUS+DCNmAP0.5 0.95/%pedestrian15.215.515.816.016.2people7.087.597.887.90

49、8.21bicycle5.596.636.806.907.17car49.849.850.150.150.6van29.029.429.629.731.4truck26.326.726.727.027.9tricycle12.412.613.313.614.4awning-tricycle12.513.414.114.114.1bus40.239.640.140.541.4motor15.315.215.415.515.7all21.321.622.022.122.7FPS11211010210090表3消融实验对比Table 3Comparison of ablation experimen

50、t2022023,59(6)12 NIE J,PANG Y,ZHAO S,et al.Efficient selective con-text network for accurate object detectionJ.IEEE Trans-actions on Circuits and Systems for Video Technology,2021,31(9):3456-3468.13 BAI Y,ZHANG Y,DING M,et al.Sod-mtgan:small objectdetection via multi-task generative adversarial netw

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服