收藏 分销(赏)

基于注意力机制和上下文信息的目标检测算法_刘辉.pdf

上传人:自信****多点 文档编号:274605 上传时间:2023-06-26 格式:PDF 页数:8 大小:2.06MB
下载 相关 举报
基于注意力机制和上下文信息的目标检测算法_刘辉.pdf_第1页
第1页 / 共8页
基于注意力机制和上下文信息的目标检测算法_刘辉.pdf_第2页
第2页 / 共8页
基于注意力机制和上下文信息的目标检测算法_刘辉.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1557-1564ISSN 1001-9081CODEN JYIIDUhttp:/基于注意力机制和上下文信息的目标检测算法刘辉1,2,张琳玉1,2*,王复港1,2,何如瑾1,2(1.重庆邮电大学 通信与信息工程学院,重庆 400065;2.重庆邮电大学 数智化通信新技术应用研究中心,重庆 400065)(通信作者电子邮箱)摘要:针对目标检测过程中存在的小目标漏检问题,提出一种基于注意力机制和多尺度上下文信息的改进YOLOv5目标检测算法。首先,在特征提取结构中加入多尺度空洞可分

2、离卷积模块(MDSCM)以提取多尺度特征信息,在增大感受野的同时避免小目标信息的丢失;其次,在主干网络中添加注意力机制,并在通道信息中嵌入位置感知信息,进一步增强算法的特征表达能力;最后,使用Soft-NMS(Soft-Non-Maximum Suppression)代替YOLOv5使用的非极大值抑制(NMS),降低检测算法的漏检率。实验结果表明,改进算法在PASCAL VOC数据集、DOTA航拍数据集和DIOR光学遥感数据集上的检测精度分别达到了82.80%、71.74%和77.11%,相较于YOLOv5,分别提高了3.70、1.49和2.48个百分点;而且它对图像中小目标的检测效果更好。因

3、此,改进的YOLOv5可以更好地应用到小目标检测场景中。关键词:目标检测;深度可分离卷积;空洞卷积;注意力机制;非极大值抑制中图分类号:TP391.41 文献标志码:AObject detection algorithm based on attention mechanism and context informationLIU Hui1,2,ZHANG Linyu1,2*,WANG Fugang1,2,HE Rujin1,2(1.School of Communication and Information Engineering,Chongqing University of Posts

4、 and Telecommunications,Chongqing 400065,China;2.Digital Intelligence Communication New Technology Application Research Center,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)Abstract:Aiming at the problem of small object miss detection in object detection process,an impr

5、oved YOLOv5(You Only Look Once)object detection algorithm based on attention mechanism and multi-scale context information was proposed.Firstly,Multiscale Dilated Separable Convolutional Module(MDSCM)was added to the feature extraction structure to extract multi-scale feature information,increasing

6、the receptive field while avoiding the loss of small object information.Secondly,the attention mechanism was added to the backbone network,and the location awareness information was embedded in the channel information,so as to further enhance the feature expression ability of the algorithm.Finally,S

7、oft-NMS(Soft-Non-Maximum Suppression)was used instead of the NMS(Non-Maximum Suppression)used by YOLOv5 to reduce the missed detection rate of the algorithm.Experimental results show that the improved algorithm achieves detection precisions of 82.80%,71.74%and 77.11%respectively on PASCAL VOC datase

8、t,DOTA aerial image dataset and DIOR optical remote sensing dataset,which are 3.70,1.49 and 2.48 percentage points higer than those of YOLOv5,and it has better detection effect on small objects.Therefore,the improved YOLOv5 can be better applied to small object detection scenarios in practice.Key wo

9、rds:object detection;depthwise separable convolution;dilated convolution;attention mechanism;Non-Maximum Suppression(NMS)0 引言 近年来,在深度学习的推动下,计算机视觉技术发展迅猛,目标检测作为该领域的重要研究方向之一,主要对图像中的物体类别进行标识,有着广泛的应用场景。相较于传统的检测方法,现阶段作为目标检测研究主要技术的卷积神经网络(Convolutional Neural Network,CNN)在特征提取能力和时间效率方面都具有显著的优势。目前,目标检测算法主要包括

10、双阶段和单阶段两类。前者以区域卷积神经网络(Region-Convolutional Neural Network,R-CNN)1-2为代表,后者主要包括 YOLO(You Only Look Once)3-5和 SSD(Single Shot multibox Detector)6-7。其中,YOLO 系列网络凭借检测速度快的特点,在遥感图像检测、移动设备的物体检测等实时检测上应用广泛。现阶段目标检测算法在性能上已有很大突破,但随着CNN层数不断加深,下采样(subsampling)过程导致图像分辨率不断降低,算法结构也逐渐复杂化。大多数算法在增强特征表达能力的同时容易忽略恢复图像时所必需的

11、细节信息,文章编号:1001-9081(2023)05-1557-08DOI:10.11772/j.issn.1001-9081.2022040554收稿日期:2022-04-19;修回日期:2022-06-20;录用日期:2022-06-22。作者简介:刘辉(1966),男,四川仪陇人,高级工程师,硕士,主要研究方向:计算机视觉、通信网络新技术、电信系统业务;张琳玉(1997),女,河北石家庄人,硕士研究生,主要研究方向:目标检测;王复港(1997),男,山东泰安人,硕士研究生,主要研究方向:目标检测;何如瑾(1998),女,湖南邵阳人,硕士研究生,主要研究方向:异常行为识别。第 43 卷计

12、算机应用造成小目标的漏检和误检。针对上述问题,文献 8 的方法通过早期添加残差注意力机制实现小目标的聚集,使目标框定位到网络感兴趣的位置,抑制掉无用的信息,进而减少背景信息中不必要的浅层信息,提升网络的特征提取能力。文献9中 利 用 混 合 空 洞 卷 积(Hybird Dilated Convolution,HDC)增大浅层网络的感受野,使浅层网络与深层网络能够更好地融合,从而提高小目标检测的精度。文献 10 中提出了一种多级特征融合方法来引入上下文信息,并利用拼接模块以及元素和模块实例化该特征融合方法,提升了小目标的识别精度。文献 11 中采用多尺度注意力融合不同层次的小目标特征信息,提升

13、了小目标检测的准确率。文献 12 中利 用 Inception-SE(Inception-Squeeze-and-Excitation)结 构 使网络更快收敛,多尺度特征图充分融合,从而提升目标检测性能。文献 13 中提出了一种基于注意力的特征交互方法,通过在常规特征提取器的每个模块后添加一个小网络来获得注意力权重,减少冲突信息。文献 14 中提出用不同尺寸大小的卷积核生成多尺度的特征图,融合成具有全局信息的特征表达方式。这些算法在一定程度上提升了检测的精度,但是没有考虑到下采样率过大导致小目标丢失、计算量过大等问题,无法有效地进一步提升检测效果。针对上述问题,本文基于 YOLOv515-16

14、提出了一种基于注意力机制和上下文信息的目标检测算法(YOLOv5 object detection algorithms based on Attention mechanism and Context information,AC-YOLO)。首先考虑到下采样率过大会导致小目标部分信息丢失,在主干网络中引入多尺度空洞卷积模块,在保持分辨率的同时增大感受野以充分利用上下文信息;然后在通道注意力模块中引入位置注意力,捕获跨通道信息,加强感兴趣区域的表示,从而优化网络结构,提升小目标的检测性能;最后为了调整待检测目标的位置信息,减少目 标 漏 检 现 象,引 入 Soft-NMS(Soft-Non

15、-Maximum Suppression)算 法,避 免 非 极 大 值 抑 制(Non-Maximum Suppression,NMS)算法直接删除两个重叠过多的候选框中较低置信度的候选框,对锚框置信度进行优化以提高模型的准确率,在一般场景以及遥感图像检测中均具有较好的检测效果。1 相关工作 1.1网络结构YOLO 系列算法是一种单阶段检测方法,在训练过程中,采用 SS个网格划分输入图像,然后用目标所在的网格输出预测边框来完成预测。YOLOv5结构如图1所示,其中:na为预测框的数量,nc为预测类的数量。相较于其他YOLO模 型,YOLOv5 采 用 跨 阶 段 局 部 网 络(Cross

16、Stage Partial Network,CSPNet)17对特征提取部分和 Neck 部分进行了优化,该结构由复合卷积(Conv+BN+SiLU,CBS)模块和残差模块组成,有利于降低计算量、增强网络的学习能力。此外,YOLOv5在骨干网络前添加了Focus模块对图片进行切片操作,能够在不造成特征信息丢失的情况下进行下采样,并增大其感受野。CBS 模块由标准卷积层、批归一化(Batch Normalization,BN)层和 SiLU(Sigmoid weighted Liner Unit)激活函数层组成,该模块可增强模型学习能力,获得丰富的特征表达。空间金字塔池化(Spatial Pyr

17、amid Pooling,SPP)18模块使用不同的窗口,可以同时获得不同尺寸的特征,再进行特征聚合,对于提升不同尺寸目标的检测精度起到了积极作用。而 Neck 网络部分借鉴了特征金字塔网络(Feature Pyramid Network,FPNet)19和 路 径 聚 合 网 络(Path Aggregation Network,PANet)20结构,通过自底向上和自顶向下的路径提高信息传递效率,可以提取到多样化的特征,增强了模型的鲁棒性;并且得益于强大的GPU处理能力,采用PyTorch深度学习框架,训练时间大幅减少,在现阶段的目标检测任务中取得了不错的进展。1.2感受野增大感受野是提升目

18、标检测性能的一种重要方法。在空洞卷积出现以前,大多数研究都是通过堆叠卷积层和引入池化操作来增大感受野,但增加卷积层会导致计算量增大,训练速度降低;池化操作会降低图像分辨率,造成检测过程中小目标信息的丢失。而空洞卷积可以在不改变图像尺寸大小的前提下获得较大感受野,并能有效提取图像细节信息。文献 21 和文献 22 分别提出了空洞残差模块以及空洞空间卷积池化金字塔,这两种方法在特征融合时都采用了不同尺寸的空洞卷积,使网络更好地从周围像素中提取上下图1YOLOv5网络结构Fig.1YOLOv5 network structure1558第 5 期刘辉等:基于注意力机制和上下文信息的目标检测算法文信息

19、,增大其感受野。与上述研究不同,本文采用多种不同空洞率的空洞卷积来捕获多尺度特征信息,从而减少小目标的信息丢失。1.3注意力机制注意力机制能够根据目标的重要程度进行权重分配,突出某些重要特征,从而有效捕获上下文信息,在多个计算机视觉任务中都取得了不错的效果。文献 23 中设计了通道注意力用于获取通道间关联,进而有效地构建通道间的相互依赖关系,提升网络检测的性能。随后,卷积注意力机制模块(Convolutional Block Attention Module,CBAM)24进一步推广了这一思想,将空间和通道两个维度的特征以级联的方式进行连接来生成注意力图,并将它与输入特征图相乘进一步修正获取到

20、的特征。Hou等25提出了一种新的坐标注意力(Coordinate Attention,CA),考虑了位置信息对通道信息的影响,捕获位置感知的信息,有助于模型更精准地定位。基于上述研究,本文方法引入注意力机制旨在解决下采样过程中小目标漏检造成的定位不精准问题。1.4非极大值抑制算法非极大值抑制(NMS)在大多目标检测算法中起着至关重要的作用。在目标检测过程中,NMS不断地将得分最高的边框与其他边框进行交并比(Intersection over Union,IoU)操作,然后删除 IoU 值超过给定阈值的边框,此过程会抑制掉大量得分低且重叠度较高的锚框,造成漏检从而影响检测精度。针对此问题,后续

21、研究产生了一系列算法的改进,如文献 26 中提出了一种针对位置优先级进行 NMS 过滤的方法,该方法在网络中添加了 IoU 预测分支,但容易增大计算量;文献 27 中提出的加权法和方差加权求平均法用来优化边框的位置和置信度得分。与上述方法不同,本文主要对过滤候选框的方法进行改进,利用Soft-NMS28替换原始的将分数设置为0的NMS算法,减少漏检情况。2 改进的YOLOv5算法 2.1多尺度空洞可分离卷积模块YOLOv5算法使用 CSPDarknet53提取特征图信息,在下采样时,采用了33大小的卷积核,并将步长设置为2,虽然在一定程度上增大了感受野,但是多次下采样容易导致检测过程中小尺寸目

22、标丢失,检测结果不佳。因此,为保留更多的细节信息,本文将在原有模型上减少一次下采样操作,以获得原图1/16的特征图分辨率,然后利用本文设计的空洞可分离卷积模块(如图2(c)所示)进行密集特征提取。众多研究表明,由于采样稀疏,单一空洞率的空洞卷积得到的邻近像素间缺乏依赖关系,会产生网格效应29,即空洞率过大时,有些像素特征无法被提取到,造成关键信息的丢失;同时模块中使用多个空洞卷积会增加计算量,不利于小目标检测。为避免上述问题,本文堆叠多个不同空洞率的空洞卷积以获取多尺度的特征信息。此外,为轻量化网络结构,本文参考了一维非瓶颈卷积模块(如图 2(a)所示)和Inception基础模块(如图2(b

23、)所示)。图2(a)采用了一个单分支结构,利用分解卷积代替标准卷积,能减少模型参数量、加快训练,且该结构能够解决“大而密”的特征提取问题,有利于平衡检测精度和速度;图2(b)采用多分支结构,使用不同卷积核进行卷积运算,提升了模型对不同尺度目标的自适应性。受以上思想的启发,本文构建了多尺度空洞可分离卷积 模 块(Multiscale Dilated Separable Convolutional Module,MDSCM),在该模块中,采用多分支结构,在每个分支上均采用不同空洞率的空洞卷积,并且通过卷积分解实现高效计算。MDSCM 采用不同空洞率的空洞卷积来扩大感受野,提高网络对于多尺度特征的提

24、取,有效地获取丰富的上下文特征信息。MDSCM 主要由 5 个分支组成,其中一条支路为残差结构,只进行11卷积;另外4条支路由4个空洞率分别为1、2、3、5的 31和 13可分离卷积串联 31和 13空洞可分离卷积层组成,首先分别通过31和13可分离卷积获取更高层的语义信息,随后利用锯齿状的空洞率同时实现对大小目标的特征提取,用不同空洞率的空洞卷积来关注远近距离信息,提高模型的自适应能力。然而,模块内堆叠多个空洞卷积会增加参数量,因此,MDSCM考虑了深度可分离卷积的优势,并将其与空洞卷积优势互补,使计算量大幅降低。如图2(c)所示,图2中“DConv”为深度可分离卷积,rate为空洞率。特别

25、地,在使用拼接操作合并分支后,采用 11卷积层进行多个分支间的特征融合,加强信息间的沟通,并将通道数降低到设定的大小,增强特征表达能力。与图 2(a)和图 2(b)中模块相比,改进后的模块通过堆叠不同空洞率的空洞可分离卷积来有效获取特征图的上下文信息,在增大感受野的同时降低计算量,加快了训练的进程,增强了模型的特征表达能力,同时也提高了模块的兼容性。2.2注意力模块结合 1.3 节所述,本文利用 CA 模块将位置信息嵌入通图2不同类型模块的比较Fig.2Comparison of different types of modules1559第 43 卷计算机应用道注意力中,可捕获方向感知和位置

26、感知的信息,改善通道注意力中位置信息缺失的问题,帮助模型获取更加精准定位的细节信息。同时充分考虑全局特征,在CA模块的基础上引入了全局平均池化(Global Average Pooling,GAP)来获取全局上下文信息,在不增加计算量的情况下有效减少背景中不必要的信息,加强感兴趣区域的特征表达。GCA(Global Coordinate Attention)是一种新型移动网络注意力机制,它不仅仅能够捕获跨通道信息,还能沿两个方向聚合特征信息,灵活且轻便,可以很容易地插入经典网络中。GCA结构如图3所示。首先,对于输入特征图分别沿X、Y两个方向进行自适应平均池化,以提取两个空间方向上的权重信息;

27、随后将垂直和水平两个方向上的输入特征聚合为两个独立的方向感知特征映射,其中一个方向用来捕获远程依赖关系,另一个用来实现对目标的精准定位,每个元素都能体现感兴趣对象是否存在于相对应的行和列中;最后再将X、Y方向上互补的特征信息应用于输入特征图中,防止采样过程中的信息丢失。这种结构虽然能帮助定位到感兴趣的目标位置,但却没有很好地整合全局上下文信息。因此,本文引入一个全局平均池化来获取全局信息,增强模型对信道间的敏感性,并使用上采样(upsample)来匹配输入图像的分辨率;然后将X、Y方向上的特征信息与CA分支的输出相乘,产生被关注特征;最后,得到的特征图再与原特征图相加,减少细节信息的损失,从而

28、帮助模型更好地识别目标。如图3所示。在该模块中,将X和Y两个方向平均池化以及全局平均池化所提取的特征重新融合来增强特征,并使用线性整流函数(Rectified Linear Unit,ReLU)和 BN 层增强网络的非线性能力。2.3Soft-NMS传统 NMS 算法根据置信度的大小选择最优的预测值,然而置信度高的边框不一定是最适合的框。一些特殊场景下的数据集往往包含大量密集图像,例如遥感图像中由于视角的上升导致小目标间的距离变小,使得传统的 NMS 算法通过强制删除一些重叠的有效检测框,造成检测过程中出现漏检、误检现象。因此,本文在 YOLOv5目标检测网络中引入Soft-NMS替代传统的N

29、MS算法,有效提升了检测精度。传统的 NMS 删除了重复框的同时,也会误将候选框中不同类物体得分较低的框删除,导致召回率降低。NMS计算公式如式(1)所示:Si=Ti,iou(A,Bi)Nt0,iou(A,Bi)Nt(1)其中:Si为NMS的计算结果;Ti为每个检测物体边框的得分;iou(A,Bi)表示A与Bi的交并比。NMS设置了一个阈值Nt来决定是否应该从置信度最高框A的邻域中删除或保留一些框:如果任意框Bi与置信度最高框A没有出现重叠的目标,那么在较低的检测阈值下不会造成漏检现象;但如果两框重叠度较高,交并比大于一定的阈值Nt,则会因彻底删除Bi而造成目标的漏检现象。与NMS算法相比,S

30、oft-NMS逐步降低Bi得分而不是直接删除,避免了由于删除任意框而出现漏检的情况,使性能得以提升,具体方法如式(2)所示:Si=Ti,iou(A,Bi)NtTi(1-iou(A,Bi),iou(A,Bi)Nt(2)函数(2)重新定义了边框的得分,衰减了大于阈值Nt的检测框分数,优化了 NMS 算法。但考虑到线性的分数重置并不连续,当达到Nt的阈值时,边框的得分会使检测序列突变,显著影响检测效果。因此Soft-NMS提出了高斯重置函数来解决检测序列带来的跳变问题,改进方式如式(3)所示:Si=Tiexp-iou(A,Bi)2 ;Bi D(3)其中:为超参数,D为保存经过Soft-NMS抑制的建

31、议框。针对传统的 NMS 算法存在目标漏检问题,本文采用含高斯重置函数的 Soft-NMS 算法替换原 YOLOv5 中的 NMS 算法,对锚框置信度进行优化,避免因强制删除边框而造成的目标漏检现象,可有效提高预测的精确度。2.4改进后的YOLOv5网络架构为降低小目标的漏检率,提升检测精度,本文构建了一种新型的基于注意力机制和上下文的目标检测算法 AC-YOLO。如图 4 所示,上采样系数设置为 2,Concat 为拼接操作,用于将深层和浅层维度的特征融合。假定给定一张大小为640640的图像,4次下采样通过复合卷积模块实现,通过下采样可以获得大小为 4040、8080、160160 的三种

32、特征图用于检测,随后对底层 4040的特征图进行上采样,分别得到8080、160160的特征图,并利用Concat将它们与浅层网络进行同等尺寸大小的特征图融合,增强多层次的语义信息。由于简单的下采样可能会滤除重要信息,相较于下采样系数为5的原始YOLOv5网络,本文采用4倍下采样,但同时会降低网络对大目标的特征提取能力,为此,本文在CSP1_3后采用一个MDSCM替代下采样。利用堆叠的空洞卷积在不改变图片分辨率的情况下引入上下文特征信息,增大其感受野,增强其推理能力;并在MDSCM中引入深度可分离卷积以降低参数量,提升检测速度;为获得足够的细节特征信息,在堆叠模块中引入了残差连接,再由批归一化

33、和 SiLU 激活函数作为整体输出。为了进一步减少背景信息,选择聚焦位置,产生具有分辨率性的特征表示,在主干网络引入GCA,捕获跨通道信息,从而更好地定位到感兴趣的目标。最后,利图3GCA结构Fig.3Structure of GCA1560第 5 期刘辉等:基于注意力机制和上下文信息的目标检测算法用Soft-NMS将两个物体框中得分低的框削弱,解决物体的遮挡问题,提高召回率和模型的检测精度。3 实验与结果分析 3.1数据集为验证本文所提出的网络模型的性能,引入 2007 和2012的PASCAL VOC数据集30、DOTA航拍图像数据集31和DIOR遥感数据集32进行分析。PASCAL VO

34、C标注的数据有20类,包括人、鸟、飞机、自行车等,共有21 502张图像,其中测试集、训练集的划分比例为 1 4。DOTA 是由武汉大学国家重点实验室和华中科技大学联合构建的一组航拍图像数据集,标注的数据有 15 类,包括轮船、飞机、港口等,共有21 046张图像,187 452个实例,其中测试集、训练集的划分比例为1 3。DIOR数据集是由西北工业大学提出的一种光学遥感图像数据集,标注的数据有 20类,图像多样性丰富,主要为飞机、桥梁、烟囱、风力发电机、高尔夫球场等,共有23 463张图像,其中测试集、训练集的划分比例为1 3。为了达到对比实验的效果,提高模型的泛化能力,满足对不同场景下多尺

35、度目标的检测要求,本文所选数据集中目标尺寸大小不一,变化程度也不同。3.2实验配置本文实验环境的配置如表1所示。3.3评价指标实验采用平均精度(Average Precision,AP)、平均精度均值(mean AP,mAP)、帧 率 即 每 秒 传 输 帧 数(Frames Per Second,FPS)评判目标检测的性能。AP 由横轴为召回率、纵轴为精准率所构成的 P-R 曲线在一定范围积分求得,计算公式如式(4)所示:RAP=01P(R)d(R)(4)在目标检测中通常会对多目标进行检测,那么对多个类别求平均AP值,就得到了mAP值,如式(5)所示:RmAP=1NRAPi(5)FPS是评价

36、网络检测目标时常用的速度指标,值越大则图像越流畅。3.4消融实验在实验过程中均保持相同的超参数,以确保实验的公平比较。实验仍采用640640分辨率大小的图像作为输入,使用与原 YOLOv5 一样的数据增强方法。在 PASCAL VOC 2007和 2012数据集上分别进行实验,验证所提模块的有效性,结果如表2所示。图4AC-YOLO网络结构Fig.4AC-YOLO network structure表1实验环境配置Tab.1Experimental environment configuration配置项编程语言深度学习框架操作系统CPU内存GPUCUDA训练PythonPytorch1.8.

37、0Windows 10Core i9-10980XE128 GBNvidia RTX 308011.1测试PythonPytorch1.8.0Windows 10Core i5-11400F16 GBNvidia RTX306011.1表2PASCAL VOC数据集上的消融实验结果Tab.2Ablation experimental results on PASCAL VOC dataset算法YOLOv5YOLOv5+MDSCMYOLOv5+CAYOLOv5+GCAYOLOv5+Soft-NMSYOLOv5+MDSCM+GCAYOLOv5+MDSCM+Soft-NMSYOLOv5+GCA+S

38、oft-NMSAC-YOLOmAP/%79.1080.0081.1081.4079.6081.7080.9082.0082.80FPS108911081081049190106901561第 43 卷计算机应用1)MDSCM的有效性。为了进一步加强多尺度特征信息的表达能力,本文在主干网络YOLOv5中加入了MDSCM,降低了下采样率,保留了更多的空间细节信息。第一组实验对比了原YOLOv5和YOLOv5+MDSCM的检测效果,由表2可知后者的 mAP提升了 0.90个百分点,说明增强特征图的感受野可以有效提高多尺度上下文信息的提取能力。2)GCA模块的有效性。为了进一步增强模型关注全局信息的能

39、力,本文考虑了将CA注意力模块级联一个全局平均池化模块,增强网络的特征学习能力。第二组实验对比了原YOLOv5和YOLOv5+GCA的检测效果,由表2可知后者的mAP提升了 2.30个百分点,这是因为增加注意力机制可以捕获跨通道信息,获取空间位置间的依赖关系,有助于模型精确地定位,并抑制无用的信息。相较于CA模块,GCA模块以获得一个更大的感受野,最终精度达到了81.40%;同时由于没有增加额外的计算量,FPS保持不变。3)Soft-NMS算法的有效性。为了降低模型的漏检率,第三组实验对比了原 YOLOv5 和 YOLOv5+Soft-NMS,由表 2 可知后者的 mAP提升了 0.50个百分

40、点,检测精度得到一定提升。这是由于传统的 NMS 删除了重复框的同时,也会误将不同类物体中得分较低的框删除,造成漏检现象。而 Soft-NMS算法减弱了相应边框的置信度,在一定程度上降低了漏检率,有效地提升了检测精度。3.5公共数据集上的比较为验证本文提出的网络结构在不同数据集上的优势,从推理速度和检测精度两方面进行对比,结果如表36所示。由表3可知,在相同数据集下,本文的AC-YOLO算法在目标检测任务中的 mAP 达到了 82.80%,与 Faster-RCNN、SSD、YOLOv3、Tiny-YOLOv3、YOLOv5算法相比,分别提升了9.48、5.14、10.46、9.52、3.70

41、个百分点。相较于原 YOLOv5算法,AC-YOLO算法虽在检测速度上有微小下降,但是检测精度却得到了较大提升,远远超过大多数检测器,说明过大的下采样率对小目标的检测并不友好。表 4 进一步列出了部分网络结构在 PASCAL VOC 数据集上的检测精度,结果表明本文AC-YOLO算法在20个类别上的检测精度超过了对比算法,说明融合注意力机制和上下文信息更利于多尺度有效特征的提取,有效地提升了网络对各个类别的检测能力。图 5 展示了在 PASCAL VOC 数据集上可视化的结果。为了验证改进算法在遥感图像应用场景中的检测效果,将 AC-YOLO 算法在航拍图像数据集 DOTA 上进行实验,结果如

42、表5所示。和其他一些优秀的算法框架相比,AC-YOLO算 法 在 DOTA 数 据 集 上 的 mAP 达 到 了 71.74%,相 较 于YOLOv5算法提升了1.49个百分点,并在大多类别上的检测精 度 都 高 于 其 他 算 法。特 别 在 Storage-tank、Helicopter、Bridge等类别上的检测精度提升明显,说明本文算法对排列密集的小尺寸物体具有更好的检测效果。从图 6的可视化检测结果也可以看出,AC-YOLO可以检测出原YOLOv5中漏检的飞机、储油罐等小尺寸目标,对于排列密集的目标的检测 精 度 也 高 于 YOLOv5;但 对 Harbor、Ground-tra

43、ck-field、Tennis-court等背景化的物体检测效果不佳,可能是由于遥感检测场景下目标与背景颜色相近且目标形状单一而导致误判,造成检测精度较低。综合来看,本文的目标检测算法表现更优。此外,在 DIOR 光学遥感数据集中,AC-YOLO 改进算法的 mAP 达到了 77.11%,平均精度提升了 2.48个百分点,在Airplane、Vehicle、Bridge、Expressway-toll-station 等小物体的检测精度上取得了不错的效果。可视化结果如图 7 所示。AC-YOLO在复杂环境背景下的检测精度高于YOLOv5,尤其图5PASCAL VOC数据集上的可视化检测效果对比

44、Fig.5Visual detection effect comparison on PASCAL VOC dataset表3不同网络在PASCAL VOC数据集上的性能比较Tab.3Performance comparison of different networks on PASCAL VOC dataset网络Faster RCNNSSDYOLOv3Tiny-YOLOv3YOLOv5AC-YOLO尺寸大小640640640640640640640640640640640640mAP/%73.3277.6672.3473.2879.1082.80FPS554609110890表4PASC

45、AL VOC数据集上不同网络结构在各类别上的精度对比 单位:%Tab.4Comparison of precisions under different network structures on each category of PASCAL VOC datasetunit:%类别AeroBikeBirdBoatBottleBusCarCatChairCowTableDogHorseMbikePersonPlantSheepSofaTrainTVAP(IoU=0.5)YOLOv381.2080.3074.0065.5064.1081.5082.2083.1061.2377.3075.2082

46、.2084.6981.2978.4652.1877.5274.4181.6671.99SSD75.5080.2072.3066.3047.6083.0084.2086.1054.7078.3073.9084.5085.3082.6076.2048.6073.9076.0083.4074.00YOLOv587.7089.3074.3070.8071.6085.5091.7083.2061.9082.0073.8081.0087.9086.6086.6052.4081.7070.8083.5079.80本文算法89.2091.0080.8073.9071.8089.6092.0089.7067.7

47、085.9077.5088.0091.4089.1088.5057.8084.7078.2087.3082.001562第 5 期刘辉等:基于注意力机制和上下文信息的目标检测算法是在检测Airplane时,通过目标周围环境的信息来增强目标特征,达到精准定位,从而使检测精度高达 93.10%,远超YOLOv5,并在Vehicle和Ship上的检测精度分别提升了4.50个百分点和6.70个百分点,增强了小目标的语义信息,更好地检测出图中的小尺寸目标。以上实验结果表明,同YOLOv5相比,改进算法更适用于含有大量密集排列的小目标的遥感图像检测。4 结语 为有效结合上下文信息,获取多尺度特征,本文提出

48、了一种基于 YOLOv5 的改进算法 AC-YOLO。针对原网络中下采样率过大造成小目标信息丢失的问题,提出MDSCM增大感受野,增强多尺度信息的提取,减少有效信息的丢失;针对数据集中目标尺寸变化剧烈的问题,引入GCA模块,有效捕获方向感知和位置感知的全局特征信息,帮助模型更精准地定位,提升检测精度;为解决目标检测中密集物体相邻框造成的误检问题,利用Soft-NMS算法计算锚框的置信度,降低模型的漏检率。实验结果表明,优化后的 YOLOv5 算法在PASCAL VOC数据集上表现良好,尤其对于遥感图像中的小目标、密集目标等具有更好的检测效果,并在DOTA和DIOR两个遥感图像数据集上验证了本文

49、模型的有效性和优越性。之后的工作中,将继续优化检测算法:一方面在保持精度的同时,降低模型的参数量以提升检测速度;另一方面,继续提升背景化特征信息的敏感度,达到较高的检测精度。参考文献(References)1 GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentationC/Proceeding of 2014 IEEE Conference on Computer Vision and Pattern Recognitio

50、n.Piscataway:IEEE,2014:580-587.2 GIRSHICK R.Fast R-CNNC/Proceeding of the 2015 IEEE International Conference on Computer Vision.Piscataway:IEEE,2015:1440-1448.3 REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detectionC/Proceedings of the 2016 IEEE Conference on Compu

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服