1、收稿日期:2023-03-09摇 摇 摇 摇 摇 摇 修回日期:2023-07-12基金项目:国家自然科学基金资助项目(62002253);教育部产学合作协同育人项目(220606363154256);国家级大学生创新创业训练计划项目(202210285042Z)作者简介:潘烨新(1999-),男,硕士研究生,研究方向为计算机视觉与深度学习;通信作者:杨摇 哲(1978-),男,副教授,博士,研究方向为人工智能、大数据等。基于注意力机制的 YOLOv5 优化模型潘烨新1,2,黄启鹏1,2,韦摇 超1,2,杨摇 哲1,2(1.苏州大学 计算机科学与技术学院,江苏 苏州 215006;2.省计算机
2、信息处理技术重点实验室,江苏 苏州 215006)摘摇 要:目标检测是机器视觉研究中的重要分支。目前在工业生态中应用广泛的 YOLOv5 模型经过版本迭代,在预测权重大小以及检测精度方面都有所优化,但模型的处理速度仍然较低,尤其是对于小目标及遮挡目标的检测效果有待改进。该文提出一种基于注意力机制的 YOLO v5 改进模型。首先,通过引入维度关联注意力机制模块进行特征融合,提升主干网络的特征提取能力,达到改善小目标与遮挡目标的检测效果;其次,采用 SIoU 损失函数代替 CIoU 损失函数,作为新的边界框回归参数的损失函数,提高边界框的定位精度以及检测速度。实验结果显示,优化模型的平均精度均值
3、达到 87.8%,相比于 YOLOv5 提高了 4.7 百分点,在单 GPU 上模型的检测速度达到 83.3 FPS。关键词:机器视觉;深度学习;目标检测;注意力机制;损失函数中图分类号:TP391摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)12-0163-08doi:10.3969/j.issn.1673-629X.2023.12.023YOLOv5 Optimization Model Based on Attention MechanismPAN Ye-xin1,2,HUANG Qi-peng1,2,WEI Chao1,2,Y
4、ANG Zhe1,2(1.Department of Computer Science and Technology,Soochow University,Suzhou 215006,China;2.Jiangsu Provincial Key Laboratory for Computer Information Processing Technology,Suzhou 215006,China)Abstract:With the development of machine vision technology,target detection has become an important
5、 branch.At present,the YOLOv5model,which is widely used in the industrial ecology,has undergone version iterations and has been optimized in terms of predictionweight and detection accuracy,but the processing speed of the model is still not high,especially for small targets and occluded objects.The
6、detection effect needs to be improved.We propose an improved model of YOLO v5 based on attention mechanism.First of all,byintroducing the dimension related attention mechanism module for feature fusion,the feature extraction ability of the backbone network isimproved to improve the detection effect
7、of small targets and occluded objects;secondly,the SIoU loss function is used instead of theCIoU loss function as a new bounding box regression parameter.The loss function improves the positioning accuracy and detection speedof the bounding box.The experimental results show that the average precisio
8、n of the optimized model reaches 87.8%,which is 4.7 per鄄centage points higher than that of YOLO v5,and the detection speed of the model on a single GPU reaches 83.3 FPS.Key words:computer vision;deep learning;object detection;attention mechanism;loss function0摇 引摇 言目标检测是机器视觉领域重要的研究内容之一1,目前主流的检测模型分为单
9、阶段模型、双阶段模型以及基于 Transformer 解编码结构的模型2。双阶段算 法 先 提 取 候 选 区 域 再 进 行 分 类 和 回 归,如RCNN3,Faster R-CNN4系列。这些方法在检测精度上表现出色,但由于计算量较大,检测速度较慢。单阶段检测算法无需提取候选区域,2直接对每个特征图进行回归预测。经典的单阶段检测算法有 YOLO5,SSD6,FCOS7等系列算法,YOLO 因检测速度快被广泛应用于工业和日常生活中。但由于 YOLOv5 使用的骨干网络 CSPDarknet-538提取的特征图尺寸较小、分辨率较低、像素感受野较大,导致小目标的定位性能较差,因此整体性能仍存在
10、一定的优化空间。同时整个网络中主要负责提取图像特征的是 C3 模块,分布在网络的骨干和颈部中。在骨干部分,C3 模块可第 33 卷摇 第 12 期2023 年 12 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.12Dec.摇 2023以为特征图提取到大量的位置与细节信息,但语义信息提取的较少。当特征图前向传播到颈部部分后,在特征金字塔网络(FPN9)与像素聚合网络(PAN)框架的结合作用下,C3 模块主要负责纹理特征的提取,此时会获得较为丰
11、富的语义信息,但丢失了大量的位置与细节信息。导致网络模型对于小物体及有遮挡目标产生漏检误检情况,性能下降。该文提出一种基于注意力机制的 YOLOv5 优化模型。通过引入 DRA(Dimension Related Attention,维度关联注意力)模块来解决 C3 模块信息丢失问题,增强主干网络提取图像特征的能力;针对感受野大而导致的定位困难问题,引入新的定位计算损失函数,在提高边界框的定位精确度的同时优化模型的推理速度,间接提升模型的性能。在通用数据集上的实验结果表明,该方法提升了主干网络的特征提取能力,降低了回归参数的损失,从而提升了模型的整体性能。1摇 相关工作1.1摇 目标检测模型双
12、阶段模型的代表 RCNN 开创性地使用深度学习模型进行目标检测。但存在两个问题:一是经过缩放处理后会使一些图片特征信息丢失,从而降低检测的准确性,不利于小目标的检测;二是在训练和预测中,RCNN 的速度都非常慢。Faster R-CNN 提出了区域生成网络(Region Proposal Networks,RPN)用于提升检测框的生成速度,最终精度较高,但实时性与检测小目标的效果差。YOLO 是单阶段模型的起始作,不再生成候选区而是直接进行分类和回归。v1 通过将图像划分成多个网格来生成候选框。相比于二阶段模型,检测速度有了很大提高,但精度相对较低,尤其在小目标检测方面。v210改变了主干网络
13、,相比 v1 模型在精度、速度和分类数量上都有了很大的改进,但由于每个网格只能预测一个物体,当同一个网格内包含多个物体时只能检测到一个,因此对小物体的识别效果仍然非常差。v311中提出了基于锚框的思想,使得最后的特征图上基于每个单元格都有三个不同的尺寸大小的锚框,进而对锚框进行分类与回归。v48针对预处理以及激活函数问题,分别引入了 Mosaic 数据增强手段以及 Mish 激活函数12,使得网络的收敛速度与精度进一步提升,但仍然存在框定位不准以及召回率低的问题。YOLOv5 在对模型主干以及颈部的基础改进之外,更换了新的损失函数计算方法,同时优化了一直存在的正负样本分配问题。但对于整体而言,
14、预测框的回归精度与速度仍然较差。研究者们针对不同应用场景和问题,提出了基于 YOLOv5 的一系列应用优化算法。张浩等人13提出的算法旨在提高无人机视角下密集小目标的检测精度,并保证实时性。李永军等人14将红外成像与 v5 模型相结合,解决动态识别与密集目标的问题。窦其龙15通过优化深度学习网络、重新设置锚点框大小和嵌入 GDAL 模块,提高检测速度和降低漏检率。刘闪亮16则提出了注意力特征融合结构,进一步提高模型对小目标的检测性能。田枫17提出了 Cascade-YOLOv5,用于油田场景规范化着装检测,来提高检测性能。这些算法都是基于YOLOv5 的改进和优化,以适应不同领域和应用需求。1
15、.2摇 注意力机制在机器视觉领域,常使用的是软注意力,对其按维度可划分为通道注意力、空间注意力和自注意力。通道注意力旨在联系不同特征图,通过网络训练获取每个通道的重要度从而赋予不同权重最终强化重要特征,代表模型如 SE-Net(Squeeze and Excitation)18。空间注意力通过空间转换和掩码加权等方式增强兴趣区域19的同时弱化背景区域。如轻量级注意力模块CBAM20。自注意力旨在最大化利用特征自身的固有信息进行交互。在 Google 提出的 Transformer 架构中被实际应用,何凯明等人将其应用到 CV 领域,并提出了 Non-Local 模块21,通过自注意力机制有效地
16、捕获长距离的特征依赖,实现全局上下文信息的建模。注意力机制模块众多,模型性能差异大,对比评估一些新型且有效的注意力机制模块,并进行一些创新改进,对提升复杂多尺度目标的检测性能是非常有意义的。2摇 改进后的 YOLOv5 优化模型2.1摇 DRA 注意力机制DRA 模块在经典的 SE 模块上做出优化,如公式1 所示,它可以对网络中任意的中间特征张量进行转化变换后输出同样尺寸的张量。DRA 模块结构如图 1所示。X=x1,x2,xc 沂 RH伊W伊C寅Y=y1,y2,yc 沂 RH伊W伊C(1)在原先同时关注空间和通道信息的基础上,通过改变全局池化的操作,保留通道间信息的同时考虑重要的空间信息。通
17、道注意力常采用全局池化编码全局空间信息,简而言之是全局信息被压缩成了一个标量,而压缩完之后的标量难以保留重要的空间信息。为解决此问题,DRA 将全局池化操作改进为两个 1 维向量的编码操作。为了获取输入图像的高度与宽度上的注意力,并完成对精确位置信息的编码,对于输入特征图,使用池化核(1,W)和(H,1)分别对高度和宽度的特征进行平均池化,从而获得两个方向的特征图,如式 2 和式 3461摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷所示。zhc(h)=1W
18、移0臆i臆Wxc(h,i)(2)zwc(w)=1H移0臆j臆Hxc(j,w)(3)对比全局池化的压缩方式,这样能够允许注意力模块捕捉单方向上的长距离关系,同时保留另一个方向上的空间信息,帮助网络模型更准确地定位目标。图 1摇 DRA 注意力机制接着将获得全局感受野的高度和宽度两个方向的特征图按通道维度拼接在一起,主要目的是方便之后进行批量归一化(Batch Normalization,BN)操作。将它们送入卷积核为 1 伊 1 的共享卷积模块 Conv2D,将其维度降低为 C/r,r 为可设定的缩减因子,接着对其进行 BN 处理,将得到的特征图记为 F1,最后送入Swish 激活函数进行非线性
19、变换,将这种变换记为 啄,即可得到尺寸为 C/r 伊 1 伊(W+H)的包含横向和纵向空间信息的特征图 f,如公式 4 所示。f=啄(F1(Zh,Zw)(4)随后将 f 按照原来的高度和宽度进行卷积核大小为 1伊1 的卷积,分别得到通道数与原来一样的两个独立的特征 fh和 fw,最后经过 Sigmoid 激活函数后,分别得到特征图在高度上的注意力权重 gh和在宽度方向的注意力权重 gw,如式 5 和式 6 所示。gh=滓(Fh(fh)(5)gw=滓(Fw(fw)(6)最后在原始特征图上通过乘法加权计算,得到最终在宽度和高度方向上带有注意力权重的特征图,如式 7 所示。yc(i,j)=xc(i,
20、j)伊 ghc(i)伊 gwc(j)(7)2.2摇 注意力机制融合针对原模型对于特征表达能力的不足,不易识别难检目标,以及由于只考虑通道信息而缺失方向相关信息带来的定位不准等问题,通过将 DRA 模块插入到网络模块中解决。同时由于原模型的主干,颈部,检测头三层结构会带来结果的干扰性以及不确定性,该文分析了在三层结构不同位置插入 DRA 模块的效果。如图 2 所示,分别在主干,颈部,预测头中插入 DRA 模块。对于主干部分,细分了 DRA 的插入位置。根据后续实验表 1 的数据,最终确定选择(b)方式插入到主干,将新的整体结构命名为 CDRA 模块,取代原模型主干中的 C3 模块。CDRA 模块
21、相比 YOLO v5 原先的C3 模块最大的改进在于,每个权重都包含了通道间信息、横向空间信息和纵向空间信息,能够帮助主干网络更准确地定位目标信息,增强识别能力。ConvBNSiLUConvBNSiLUConvBNSiLUConcatBottelNeck NConvBNSiLUConvBNSiLUBottelNeck NConcatConvBNSiLUCAConvBNSiLUConvBNSiLUBottelNeck NConcatCAConvBNSiLUConvConcatCAConvBNSiLUConvBNSiLUBottelNeck NConcatConvConcatConvBNSiLUC
22、onvBNSiLUBottelNeck NConcatCA摇 摇 摇 摇(a)原 C3 结构 摇 摇 摇(b)插入主干 C3 最后一层摇(c)插入主干 C3 的残差模块摇 摇(d)插入 Neck 部分摇 摇(e)插入 Head 部分图 2摇 注意力插入位置对比摇 摇 将运用维度关联注意力机制融合的 CDRA 替换原 C3 模块,经过改进后的 YOLOv5s 结构如图3 所示。图 3 中,YOLOv5s 主要由主干网络、颈部、预测头部网络三部分组成,主干部分的替换工作对改进后的561摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 潘烨新等:基于注意力机制的 YOLOv5 优化
23、模型YOLOv5s 性能提升起到决定性作用。Conv(64,3,1)640 x 640 x 3Conv(128,3,2)CDRAConv(256,3,2)CDRAConv(512,3,2)CDRAConv(1024,3,2)CDRAConv(512,1,1)ConcatC3Conv(256,1,1)UpSampling(256,2)ConcatConv(256,3,2)ConcatC3Conv(512,3,2)ConcatC3C3SPPF(1024,5)YOLOHeadYOLOHeadYOLOHead80 x80 x25640 x 40 x 25620 x 20 x 512BackboneNe
24、ckHeadUpSampling(256,2)FPNPAN图 3摇 改进 YOLOv5s 网络2.3摇 损失函数目标检测模型的损失函数通常由三个部分构成,分别为预测框的定位损失 Lbox,置信度损失 Lobj,分类损失 Lcls,整体的网络损失的计算如式 8 所示。L=Lbox+Lobj+Lcls(8)其中置信度损 失和分类损 失均采用 交 叉 熵 损 失(Binary Cross Entropy Loss),公式如式 9 所示。Loss=1n移niyilog(滓(xi)+(1-yi)log(1-滓(xi)(9)预测框的定位损失用来衡量当前模型所给出的预测框与真实框之间位置上的误差,具体会计算
25、两者的中心坐标、高、宽等误差。早期模型一般采用 L1,L2,smooth L1 来计算该损失,但其忽略了 4 个回归参数之间的相关性。当前常用的是交并比损失(Intersectionover Union,IoU),IoU 的计算公式如式 10 所示。IoU=B 疑 BgtB 胰 Bgt(10)其中,B=(x,y,w,h)表示预测框的位置,Bgt=(xgt,ygt,wgt,hgt)表示真实框的位置。IoU 损失的计算公式如式 11 所示。lossIoU=1-IoU(11)由公式可知两个矩形框重合度越高,IoU 越接近1,则损失越接近 0。但采用 IoU 损失生效的情况仅在两框之间有重叠的部分,对
26、于非重叠的两个框,IoU 损失不会提供任何可供传递的梯度。YOLOv5 原始模型中采用 CIoU 作为边界框的定位损失函数。CIoU 是在 DIoU(Distance IoU)22的基础上考虑了两框的长宽比而演化而来,但是仍然没有考虑到真实框与预测框之间不匹配的方向。这种不足导致 CIoU 收敛速度较慢且效率较低。为了解决 CIoU 存在的问题,该文引入 SIoU23用以改进,保留了原损失函数的全部性质,同时考虑方向框的角度回归问题,重新定义了惩罚指标。SIoU 由四部分组成:角度损失 撰、距离损失 驻、形状损失 赘 以及交并比损失(IoU)。角度损失函数组件 撰,如式 12 所示。撰=1-2
27、*sin2(arcsin(x)-仔4)(12)其中,x 是直角三角形中的对边比斜边,如图 4 所示,琢 是两框中心连线与预测框中心水平线的夹角。则 x 可由式 13 表示。图 4摇 损失函数组件示意图661摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷x=ch滓=sin琢(13)其中,ch为真实框和预测框中心点的高度差,滓 为真实框和预测框中心点的距离,可由式 14 表示。滓=(bgtcx-bcx)2+(bgtcy-bcy)2(14)将式 13 带入式 12
28、 化简可得最终的角度损失计算公式,如式 15。撰=sin(2琢)(15)可见角度损失本质就是计算两倍夹角的正弦值。所以当 琢 为0 或仔2时,角度损失为0,在训练过程中若琢 仔4,则需要最小化 琢,否则需要最小化 茁。定义角度损失后,考虑到当出现同时存在一个角度很小但是很近,与一个角度很大但是很远的框的情况时,近的框总是会被优先选择,所以直接使用角度损失不合理,还需要考虑距离与角度的互相关系。为了保证距离与角度的平衡,将角度损失同时考虑,重新定义了距离损失函数,记为 驻,如式 16 所示。驻=移t=x,y(1-e-酌籽t)(16)其中,籽x,籽y,酌 定义如式 17 所示。籽x=(bgtcx-
29、bcxcw)2,籽y=(bgtcy-bcych)2,酌=2-撰(17)籽t是使用原始的距离损失的平方次幂来赋权重,说明距离的影响要大于角度的影响。形状损失主要负责从长宽角度评价预测框的回归参数与真实框是否相似,记为 赘,如式 18 所示。赘=移t=w,h(1-e-棕t)兹(18)其中,棕w,棕h如式 19 所示。棕w=w-wgtmax(w,wgt),棕h=h-hgtmax(h,hgt)(19)兹 用来控制整体对形状损失的关注程度。综合考虑上述 3 项以及默认的 IoU 损失,就可以得到最后的预测框的定位损失函数,如式 20 所示。Lbox=1-IoU+驻+赘2(20)3摇 实验与分析3.1摇
30、实验环境实验环境配置:Window10 操作系统,32 核 IntelCPU,32 GB 内存,两块 TELSA A100,40 GB 存储空间。深度学习框架为 PyTorch1.10,图形处理器驱动为CUDA11.4 和 Cudnn8。训练过程中所使用的优化器为 Adam24,初始学习率为 0.01,动量因子为 0.937,权重衰减为 0.000 25,批尺寸为 32,总迭代次数设置为 300。3.2摇 数据集及预处理使用 Pascal VOC07+12 训练集以及 VOC07 测试数据集来评估模型性能,包含 20 个类别的常见交通工具、家具和动物等图像,可用于目标检测任务。共包含8 281
31、 张训练图像、8 333 张验证图像和 4 952 张测试图像。同时,在 ImageNet 数据集上对模型的主干网络进行了预训练,在训练过程中,使用 Mosaic 数据增强技术对前 75%的训练周期进行了处理。3.3摇 评估指标使用检测速度、检测精度和损失函数收敛曲线等客观指标来评价模型的性能。其中,FPS 是检测速度的评价指标。AP(Average Precision)是指在 0 1 范围内 P(Precision,正确率)指标对 R(Recall,召回率)指标的积分,即 P-R 曲线下面积,AP 值越大,模型精度越高。mAP 是平均精度均值,指的是每个目标类别AP 的均值。计算公式分别如式
32、 21 24 所示。P=TPTP+FP(21)R=TPTP+FN(22)AP=乙10P(R)dR(23)mAP=1N移Ni=1APi(24)式中,TP 表示正确识别的目标数量,FP 表示识别错误的目标数量,FN 表示未被识别出目标数量。如果 IoU大于一定阈值,则检测框被标记为 TP,否则为 FP,如果检测到真实目标没有匹配到对应的预测框则标记为 FN。3.4摇 结果分析3.4.1摇 改进模型的性能综合分析如 2.3 节所述,该文尝试将 DRA 模块融合到网络模块的不同位置,并对相应检测结果展开对比。分别在原模型的主干,颈部,检测头中融入 DRA 模块。特殊的对于 backbone 部分,更细
33、化地对比了简单的拼接在尾部或是融入原本的 C3 模块中的结果数据。实验结果如表 1 所示,将 DRA 模块融入主干网络中 C3 模块的最后一层检测效果最佳。YOLOv5 网络中提取特征的关键网络在主干部分,其中隐含着易被网络忽视掉的小目标特征信息,而在加入 DRA 模块后,对这部分的特征信息进行了注意力重构,突出了重要信息,而在网络更深的 Neck 以及 Head 部分,小目标的特征信息被淹没,语义信息较为粗糙,注意力模块难以区分出空间以及通道特征,自然无法很好地对特征进一步加强重构。761摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 潘烨新等:基于注意力机制的 YOLO
34、v5 优化模型表 1摇 不同位置的注意力机制融合结果对比摇%注意力插入位置PrecisionRecallmAP0.5Yolov581.679.283.1插入主干 C3 的最后一层83.781.087.8插入主干 C3 残差块之后81.177.883.4插入 Neck 中82.479.385.2插入 Head 中80.380.984.8摇 摇 同时,将文中对 YOLOv5 的注意力及结合方式与其他注意力机制做对比,对比结果如表 2 所示,SE18是经典的注意力机制起源,CA25是坐标注意力机制,CBAM20是经典的空间通道注意力机制,ANG 是一种轻量型的融合注意力机制方法模型。可以看出模型并不
35、适合简单地嵌套所有的注意力机制,当融合 SE 后,模型的漏检率不降反增,说明网络对于深层信息还是没有掌握能力,再看 ANG 模型,轻量化的同时也带来了精度的大量牺牲,而传统的 CA,CBAM 也都基本维持在原精度附近,说明对于网络没有实质性的提升。表 2摇 不同注意力机制融合对比结果摇%注意力模型PrecisionRecallmAP0.5Yolov581.679.283.1SE81.275.881.9CA83.174.383.0CBAM81.279.483.3ANG81.670.378.2Ours83.781.087.8表 3摇 消融实验结果改进SIoUDRA 融合mAP0.5/%FPSYOL
36、Ov5伊伊83.190.91姨伊85.894.42伊姨87.178.13姨姨87.883.3摇 摇 为了分析不同的改进策略对于模型最后的检测性能的影响,设计了 4 组消融实验,结果如表 3 所示,其中,“伊冶代表在网络中未使用的改进策略,“姨冶代表使用了改进。改进 1 在网络中替换了损失函数,解决了目标框与预测框的角度问题,使模型收敛速度与定位精准度提升;改进2 在网络主干部分的 C3 模块中融合了 DRA 注意力机制,使得权重中同时包含了通道信息,横向以及纵向空间信息,mAP 提升了 4.0 百分点,FPS 下降了12.8;改进3 将两者同时融入网络中,如前文所述,模型在更好地提取特征的同时
37、加快了收敛速度,mAP 最终提升了 4.7 百分点,检测速度则在改进 2的基础上加速了 5.2,仅与原模型相差 7.6。同时将消融实验的 mAP0.5 曲线绘制在同一个坐标系中,如图 5 所示,改进后的模型在迭代次数达到45 时逐渐趋于稳定。进一步分析 SIoU 改进的数据值曲线,与原始模型的曲线对比,以更高的收敛速度趋于稳定,表明了 SIoU 损失函数的替换使得回归目标框能够以更快的速度,更低的损失,精准地定位到待检测目标。图 5摇 不同改进策略的 mAP0.5 对比3.4.2摇 模型对比实验同时将文中模型与其他模型对所有类别检测精度进行对比分析。Faster R-CNN4是二阶段检测模型的
38、典型代表,SSD6是经典单阶段模型,v311在精度和速度上有较好的均衡性能。v726是当前表现较为出色的检测模型,而 YOLOv5 是文中改进对象。表 4 为所比较模型在所有类别上的检测平均精度对比,在所有 20 类上的检测结果均优于原 v5s 模型,平均精度均值为 87.8%,同时与当前较为优秀的 YOLOv7 模型相比,20 类中有 16 类的结果高于 v7,同时最终的平均精度均值提升 1.4 百分点。为进一步证实文中算法的有效性和优越性,将文中算法模型与主流模型进行对比。由表 5 中实验结果可得,文中算法模型在保持一定检测速度的情况下,拥有更高的检测精度。与传统的双阶段算法 Faster
39、 R-CNN4相比具有较大的检测速度优势,平均精度均值提升了14.6 百分点。与 YOLO 系列算法相比,改进模型比 v311,v48,v5,v726原始模型的检测精度分别提高了 10.6,15.1,4.7 和 1.7 百分点。对于衡量难检目标以及小目标检测问题的阈值为 0.5 到 0.95 的平均精度均值(mAP0.5:0.95),对比 v5 提升了4.5 百分点,对比 v7 提升了 2.8 百分点。而在检测速度方面,文中模型虽比原始模型有所降低,但仍达到 83.3frame/s,完全可以满足工业场景下的实时检测要求(30 frame/s)。861摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
40、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷表 4摇 VOC 上各类别平均精度结果ModelFaster R-CNNSSDYOLOv3YOLOv5YOLOv7Oursaero80.379.385.590.792.394.5bike87.883.585.39293.193.7bird75.476.681.581.385.286.5boat64.466.560.272.977.279.5bottle55.941.755.275.380.385.2bus84.387.585.389.591.494.2ca
41、r86.48588.392.794.294.3cat89.490.791.2878793.1chair60.156.553.967.174.674.1cow79.881.781.188.794.191.2table72.877.466.775.484.482.9dog87.987.990.688.185.791.9horse87.987.589.491.59193.7mibke83.384.383.990.69293.2person8474.481.288.991.592.9plant49.248.143.257.864.866.7sheep75.377.679.78588.987.6sofa
42、79.981.477.975.58383.9train8588.587.987.388.890.2tv73.578.476.784.18988.5mAP/%77.176.777.283.186.487.8表 5摇 不同模型的 VOC 数据集测试结果模型Precision/%Recall/%mAP0.5/%mAP0.5:0.95/%FPSFaster R-CNN73.255.273.244.07.0SSD30076.859.476.845.644.3YOLOv377.252.577.239.874YOLOv480.462.372.746.154YOLOv579.977.983.159.490.9
43、YOLOv784.975.186.160.192Ours83.781.087.863.983.34摇 结束语YOLO 系列目标检测算法是运用较为广泛的单阶段目标检测算法之一。针对 YOLOv5 对难检目标,包括小目标和遮挡目标等检测精度不高的问题,提出了注意力机制融合的方法,将 DRA 模块与 v5 网络的主干部分进行结合,以增强模型对于一些易漏信息的捕捉能力。同时使用了 SIoU 函数替换原损失函数中负责计算回归参数的 CIoU 损失,提高了收敛速度和回归精度,改善了遮挡等复杂情况下的漏检以及小目标物体识别差的问题。实验结果表明,改进模型的平均精度超越了原 YOLOv5 网络。虽然模型参数量
44、稍有增加,但改进模型的检测速度仍符合工业需求的检测速度。在后期研究中,还可以尝试对于主干网络中的卷积部分进行替换,或是替换特征加强的 Neck 部分,进一步提升模型对于难检目标的检测精度。参考文献:1 摇XING J,JIA M.A convolutional neural network-basedmethod for workpiece surface defect detectionJ.Measure鄄ment,2021,176:109185.2摇 WASWANI A,SHAZEER N,PARMAR N,et al.Attentionis all you needC/31st conf
45、erence on neural informationprocessing systems.Long Beach:MIT Press,2017:5998-6008.961摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 潘烨新等:基于注意力机制的 YOLOv5 优化模型3摇GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich fea鄄ture hierarchies for accurate object detection and semanticsegmentationC/Proceedings of the IEEE conference
46、 oncomputer vision and pattern recognition.Columbus:IEEE,2014:580-587.4摇 REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towardsreal-time object detection with region proposal networksJ.IEEE Transactions on Pattern Analysis&Machine Intel鄄ligence,2017,39(6):1137-1149.5摇REDMON J,DIVVALA S,GIRSHICK R,et al.Yo
47、u onlylook once:unified,real-time object detectionC/Proceed鄄ings of the IEEE conference on computer vision and patternrecognition.Las Vegas:IEEE,2016:779-788.6摇 LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shotmultibox detector C/Computer vision ECCV 2016:14th European conference.Amsterdam:Springer,201
48、6:21-37.7摇 TIAN Z,SHEN C,CHEN H,et al.Fcos:fully convolutionalone-stage object detectionC/Proceedings of the IEEE/CVF international conference on computer vision.Seoul:IEEE,2019:9627-9636.8摇BOCHKOVSKIY A,WANG C Y,LIAO H Y M.Yolov4:optimal speed and accuracy of object detectionJ.arXiv:2004.10934,2020
49、.9摇 LIN T Y,DOLL魣R P,GIRSHICK R,et al.Feature pyramidnetworks for object detectionC/Proceedings of the IEEEconference on computer vision and pattern recognition.Ha鄄waii:IEEE,2017:2117-2125.10 REDMON J,FARHADI A.YOLO9000:better,faster,stron鄄gerC/Proceedings of the IEEE conference on computervision an
50、d pattern recognition.Hawaii:IEEE,2017:7263-7271.11 REDMON J,FARHADI A.Yolov3:an incremental improve鄄mentJ.arXiv:1804.02767,2018.12 MISRA D.Mish:a self regularized non-monotonic activationfunctionJ.arXiv:1908.08681,2019.13 张摇浩,董锴龙,孙摇欣,等.一种基于 IDT-YOLOv5-CBAM 混合算法的密集小目标检测方法:CN115375913AP.2022.14 李永军,李