收藏 分销(赏)

基于深度学习的旋转目标检测技术研究.pdf

上传人:自信****多点 文档编号:2347702 上传时间:2024-05-28 格式:PDF 页数:4 大小:1.87MB
下载 相关 举报
基于深度学习的旋转目标检测技术研究.pdf_第1页
第1页 / 共4页
基于深度学习的旋转目标检测技术研究.pdf_第2页
第2页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 2023 年第 8 期213智能技术信息技术与信息化基于深度学习的旋转目标检测技术研究马玥晗1 朱明富1MA Yuehan ZHU Mingfu 摘要 针对传统目标检测算法未考虑物体角度信息而出现的漏检、错检问题,提出了一种基于 YOLOv5s 的改进算法。在原始 YOLOv5s 的基础上,首先结合环形平滑标签技术(CSL)及对损失函数的改进,让网络有了对角度预测的能力;其次增加目标检测层提升了网络对小目标检测的能力,接着融合 CBAM 注意力机制让网络重点关注对有用信息的学习;最后采用迁移学习的策略初始化网络各层参数。为了验证算法的有效性,自制了标签数据集 LDS 并做了算法对比试验,实验

2、结果表明,在 LDS 数据集上,改进后的 YOLOv5s 算法检测精度达 89.94%,相较于原始网络,在检测速度没有下降的基础上检测精度提升了 4.80%。关键词 旋转目标检测;YOLOV5s;CSL;注意力机制doi:10.3969/j.issn.1672-9528.2023.08.0471.华中科技大学人工智能与自动化学院 湖北武汉 4300740 引言目标检测作为计算机视觉领域研究的热点问题之一,它的任务是找到数据集中特定的目标并给出其边界框。目标检测技术在生产生活中有着广泛应用,如车牌识别,室内定位,遥感等。如何设计出实时性强且精度高的目标检测算法具有重要的意义。传统的目标检测基于人

3、为设计的特征描述子,如定向梯度直方图(histograms of oriented gradient,HOG)1等。手动提取特征费时费力,且提取的特征易受到对比度,噪声等环境因素影响。随着GPU算力的提升以及深度学习的广泛应用,基于卷积神经网络(convolutional neural networks,CNN)的目标检测技术得以迅速发展。目标检测按照是否给出候选区域可分为单阶段目标检测和双阶段目标检测。双阶段目标检测首先需要找到候选区域,再根据候选区域的特征来检测特定的物体,如 R-CNN2、Faster R-CNN3等;单阶段检测是一个“端到端”的过程,它省去了候选区域的选取,直接在原始图

4、像中进行特征的提取,相对于双阶段检测,单阶段检测的检测速度较快,更适用于实时性比较高的场景,YOLO4系列,SSD5都是非常经典的单阶段检测算法。通常目标检测技术给出的边界框是水平的,这种方法参数少,检测速度快,但是当待检测物体有一定角度时,水平框就不能很好的表征物体的形状,无法准确将检测物体信息和背景信息进行有效分离,且两个待检物体相距较近时容易产生水平框的重叠。相较于水平框,旋转框可以很好地适用于有角度物体的检测,旋转框不存在框的重叠问题,框中包含的背景信息相应减少从而做到物体与背景信息有效分离,更有利于网络的学习。旋转框需要对原始目标检测网络的参数、结构等进行重新设计,这也加大了目标检测

5、任务的难度。针对水平框检测出现的问题,本文设计出了基于改进YOLOv5 的旋转目标检测网络。首先融合小目标检测层提高了网络对小目标的检测能力,其次引入环形平滑标签技术和对损失函数的改进让网络能有了对角度信息预测的能力,接着融合 CBAM 注意力机制让网络更加关注于目标物体信息的学习,最后通过迁移学习的思想对模型各网络结构参数进行初始化,提高模型的训练效果。1 YOLOv5 网络结构YOLOv5 包括输入端、Backbone、Neck、Head 四个部分。YOLOv5s 主体网络结构如图 1 所示。图 1 YOLOv5s 原始网络结构2023 年第 8 期214智能技术信息技术与信息化YOLOv

6、5 在输入端采用了 Mosaic 数据增强技术;对于特定的数据集,YOLOv5 采用 K-means 聚类模型自适应计算出最佳初始锚点框;YOLOv5 采用自适应图片缩放,先按照等比例缩放后,计算出匹配网络卷积及池化操作的最少像素填充数。在新版 YOLOv5 中采用了 C3 模块,该模块可对残差特征进行提取,C3 模块提高了模型特征提取能力,减少了模型参数,使模型更加轻量化。SPP 模块是空间金字塔池化,可将任意大小的特征图映射成指定大小的特征向量,SPP6的主要过程是将输入特征图并行的进行不同尺度的最大值池化,再将结果进行堆叠。SPPF 在 SPP 基础上将并行操作转变为串行操作,小尺度池化

7、的输出作为大尺度池化的输入,SPPF 相较于 SPP 速度有了很大提高。特征融合网络 Neck 主要将高层与低层特征做融合。YOLOv5 采用了 FPN PAN 相结合的特征金字塔方式,该结构有效地提高了网络特征融合能力。在网络第 17、20、23 层输出三种不同尺度的特征图。输出端是对检测结果的处理及输出。首先通过极大值抑制nms 保留同一目标最好的检测框,再通过 CIOU_Loss7损失函数来量化神经网络的预测值与真实值之间的差异,并将缩小这一差异值作为网络训练的目标。2 改进 yolov5 模型2.1 融合小目标检测层在 YOLOv5 原始网络结构中有三个检测层的输出,以640640 为

8、例,最后输出的特征图大小为 8080、4040、2020。其中 8080 特征图的所在的检测层感受野最小,主要用于小目标的检测。小目标能被检测的阈值大小为原始输入图片大小与最大输出特征层的比值,即 88。如果所检测目标在原始图像中长或宽低于 8 像素,则经过卷积操作后会丢失这部分特征信息。因此,原始 YOLOv5 网络对于小目标的特征信息利用不足,对小目标检测精度不高。为了提升 YOLOv5 对于小目标的检测能力,本文在原始的网络结构中新增加了一个小目标检测层。该检测层输出的特征图为160160,可以对感受野 44 以上的目标进行检测。为了将该小目标检测层融入YOLOv5网络结构中,在网络第1

9、6层后,将特征图依次经过 C3 模块和卷积层,并使用上采样扩充至160160。接着将上采样得到的特征图与网络第 18 层输出的特征图进行堆叠操作。2.2 旋转目标检测旋转目标检测任务中,模型输出的检测框不仅要包含目标的中心点坐标及长宽,还要包含目标的角度信息,这就需要在量化检测框时增加角度信息,如(,)x y w h,其中x,y 表示目标的中心点坐标,w,h 表示目标的长宽,表示目标的方向信息。五参数表示法的主流实现方法有两种,OpenCV 表示法和长边表示法。OpenCV 表示法的角度范围是/2,0),含义是检测框与 X 轴夹角,w 表示夹角包含的边,h 则为另一条边,由于角度的周期性和边的

10、交换性,采用 OpenCV 表示法会给检测结果带来额外的误差。长边表示法可表示的范围是/2,/2),w 表示的是目标框的较短边,h 表示的是较长边,长边表示法没有了边交换的误差,但是角度周期性带来的误差依然存在。将角度回归任务转化为分类任务思想可以解决这个问题,假设角度可表示域为/2,/2),将每一度分为一类总共可划分 180 类。除此之外还要考虑对角度真实值和与预测值差异值的量化。假设目标真实角度为 0,预测值 1 为-89,预测值 2为 1。很显然,预测值 2 与真实值的差异远远小于预测值1。然而如果使用 One-hot label,则两个预测值与真实值的差异几乎相同,不符合实际。CSL8

11、可以很好地解决这个问题,见图 5 右侧,CSL 计算过程见式(1)。(),CSL()0 otherwiseg xrxrx+=,(1)式中:g(x)表示窗口函数,r 表示窗口半径,窗口函数具有周期性、对称性、最大值性和单调性。窗口函数将角度信息转化为相对应的环形平滑标签,相邻的角度信息的 CSL 标签也相邻。差异越小则与真实值越接近,让模型能充分利用角度信息进行学习。基于以上特性,CSL 解决了角度预测中差异值的量化问题。本文将使用高斯函数作为窗口函数的实现。2.3 融合 CBAM 注意力机制注意力机制就是对输入图像进行重要区域动态选择的过程。注意力机制可分为空间注意力机制和通道注意力机制,通道

12、注意力机制学习特征层的通道信息,它告诉了网络重点关注什么,典型实现有 SE-Net9,空间注意力机制关注特征层的位置信息,它告诉了网络重点关注哪里。CBAM10是一种融合了通道和空间的注意力机制策略,相比于只关注通道信息的 SE-Net 可以达到更好的效果。将 CBAM 注意力机制植入到 YOLOV5 网络中。由于目前还没有理论证明将 CBAM 模块植入到网络哪个部分能使得检测效果达到最优,为此设计出了两种融合策略。一种是在特征融合网络中每个 C3 模块后植入,另一种在四个检测头前植入。如图 2 所示,后续通过对比试验再找到最优的融合策略。2023 年第 8 期215智能技术信息技术与信息化图

13、 2 YOLOv5_A1 与 YOLOv5_A2 示意图2.4 迁移学习迁移学习是将A训练得到的模型结果作为B训练的开始,是模型初始化参数的常用方法,它可以防止训练过程出现的梯度消失,过拟合,收敛速度慢等问题。由于改进后的网络的结构及参数分布发生了改变,需要对改进网络进行重新训练。本文选择 DOTA 数据集用于改进网络的训练,DOTA 数据集是旋转目标检测领域最常用的数据集之一,包含 2806 张图片,15 个类别,共计 188 282 个实例。在 DOTA 数据集上训练结束后,选择训练过程中的最佳模型来初始化本算法各个模块的参数。3 实验与分析3.1 标签的设计本文提出了标签表示法,标签的设

14、计见图 3。实验时,将标签贴于物体的正中心位置,则物体的中心坐标、方向角信息与所对应标签的完全相同;对于物体类别信息,实验前提前设计编号值与类别信息的对应关系,则根据编号信息可以确定特定物体。综上,设计的标签可以准确表征物体的类别,中心坐标及方向信息,对标签的检测和对物体的检测是等价的。除此之外,当应用场景中的物体发生改变时,无需重新训练网络,只需要对新物体重新打标签即可。图 3 标签的构成根据设计的标签格式,本文自制了标签数据集 LDS,共计 4000 张。根据 4:1 的比例划分训练集和验证集,训练集共计 3200 张,验证集共计 800 张。3.2 实验环境与评价指标实验环境配置信息如下

15、。操作系统:Windows10-64 位;内存:16 GB;显存:8 GB;CPU:AMD Ryzen 5 3600 6-Core;GPU:NVIDIA GeForce RTX-2070;CUDA:10.0;Cudnn:7.4.1.5;Python:3.8;本文将从准确率和实时性两个层面来评价模型。在准确率方面使用 mAP,它表示所有类别的平均精度;在实时性方面使用帧/s,它表示单位时间类检测的图片张数。3.3 注意力机制对比试验为了分析算法融合 CBAM 注意力机制的可行性及最佳融合方案,进行注意力机制对比试验。记 YOLOv5_im 表示原始 YOLOv5 使用了迁移学习初始化模型参数并融

16、合了小目标检测层及旋转目标模块,在 YOLOv5_im 基础上,YOLOv5_im1 表示在特征融合网络中每个 C3 模块后植入 CBAM 注意力机制,YOLOv5_im2 表示在四个检测头前植入 CBAM 注意力机制,具体网络结构见图 2。通过分析表 1 数据可知,引入 CBAM 注意力机制对检测精度均有提升,其中 YOLOv5_im1 提升了 0.25%,YOLOv5_im2 提 升 了 0.46,且 YOLOv5_im2 相 较 于YOLOv5_im1 检测速度更快,说明了将 CBAM 注意力机制融合在网络四个检测头前效果更优。综上本文最终选取YOLOv5_im2 融合策略。表 1 注意

17、力机制对比实验对比结果算法模型mAP帧率/(帧s-1)YOLOv5_im89.4851.35YOLOv5_im189.7350.76YOLOv5_im289.9451.143.4 消融实验本文在原始的YOLOv5 网络基础上,提出了四种改进策略,为了分析不同改进策略对检测结果的影响,设置了 4 组对比实验,实验结果见表 3。其中 A、B、C、D 分别表示不同的改进策略,A 为增添旋转目标检测模块,B 为融合小目标检测层,C 为使用迁移学习策略,D 为融合 CBAM 注意力机制。“”表示引入了该策略,“”表示未引入。如表2 所示。表 2 消融实验结果序号ABCD帧率/(帧s-1)mAP151.0

18、785.14250.4987.27349.9888.48451.3589.48551.1489.94根据表 2 数据,在原始 YOLOv5 网络基础上,四种改进策略在检测精度均有相应提高,增添旋转目标检测模块后精度提升了 2.13%;融合小目标检测层让精度提升了 1.21%;2023 年第 8 期216智能技术信息技术与信息化使用迁移学习训练策略让精度提升了 1%,且检测速度提升了1.37 帧/s;融合 CBAM 注意力机制让精度提升了 0.46%。证明了各个改进策略均具有有效性。最终,与原始的 YOLOv5网络结构相比,改进后的网络检测速度提升了 0.07 帧/s,网络精度提高了 4.80%

19、。图 4 展示了改进算法训练过程中 mAP值的变化趋势,图 5 为检测结果对比图,其中第一行为最终改进后的 YOLOv5 检测结果,第二行为原始 YOLOv5 的检测结果。图 4 改进算法训练过程中 mAP 值的变化趋势图 5 改进前后部分检测结果对比3.5 主流算法对比实验为了进一步探究本方法的可行性,将其和几种常见的目标检测方法进行对比实验,结果见表 3。表 3 不同算法对比实验结果模型帧率/(帧s-1)mAPReDet44.2388.67S2aNet48.4389.78R3Det45.5689.88Ours51.1489.94根据表 3 数据,本文设计的算法无论在检测速度还是精度方面均优

20、于其他常见的旋转目标检测算法,有利证明了本方法的优越性。4 结论本文以 YOLOv5s 为基础设计出了一种旋转目标检测模型,该模型运用了 CBAM 注意力机制、旋转目标检测、小目标检测层、迁移学习等技术。在 LDS 数据集上的实验结果表明,与原始 YOLOv5s 相比该模型不仅显著提升了检测精度,且没有损失检测速度,有效解决了水平目标检测中出现的漏检、错检等问题。参考文献:1 DALAL N,TRIGGS B.Histograms of oriented gradients for human detectionC/Proceedings of the IEEE Computer Vision

21、 and Pattern Recognition.New York:IEEE,2005:886-8932 GIRSHICK R,DONAHUE J,DARREL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentationC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.New York:IEEE,2014:580-587.3 REN,S,HE K,GIRSHICK R,

22、et al.Faster r-cnn:towards real-time object detection with region proposal networksC/Advances in Neural Information Processing Systems.New York:IEEE,2015:91-99.4 J.Redmon,S.Divvala,R.Girshick,A.Farhadi.You only look once:unified,real-time object detection.C/Proceedings of the IEEE Conference on Comp

23、uter Vision and Pattern Recognition.2016:779-788.5 LIU W,NGUELOV D,ERHAN D,et al.Ssd:single shot multibox detectorC/Proceedings of the European Conference on Computer Vision.New York:IEEE,2016:21-37.6 HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognit

24、ion.J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.7 ZHENG Z,WANG P,LIU W,et al.Distance-iou loss:faster and better learning for bounding box regressionC/Proceedings of the AAAI Conference on Artificial Intelligence.New York:AAAI,2020:12993-13000.8 YANG X,YAN J

25、.Arbitrary-oriented object detection with circular smooth labelC/European Conference on Computer Vision.New York:IEEE,2020:677-694.9 HU J,SHEN L,SUN G.Squeeze-and-excitation networksC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.New York:IEEE,2018:7132-7141.10WOO S,PARK J,LEE J Y,et al.Cbam:convolutional block attention moduleC/Proceedings of the European Conference on Computer Vision.New York:IEEE,2018:3-19.(收稿日期:2023-02-20 修回日期:2023-05-09)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服