改进YOLOv5的复杂环境道路目标检测方法.pdf

资源描述

1、Computer Engineering and Applications计算机工程与应用2023，59（16）道路系统是交通运输的重要组成部分。公安部数据显示，截至 2022 年底，全国机动车保有量达 4.17 亿辆1。机动车保有量的增加给道路带来了巨大的压力，交通事故也随之增多。除了天气和车辆本身机械故障等客观因素外，传统汽车驾驶要求驾驶员时刻观察周围道路信息，过度疲劳、走神容易造成交通事故。随着人改进YOLOv5的复杂环境道路目标检测方法袁磊，唐海，陈彦蓉，高刃，吴文欢湖北汽车工业学院电气与信息工程学院，湖北十堰 442002摘要：为解决复杂环境下道路目标检测任务中由于目标尺度变化多

2、样、密集遮挡以及光照不均匀等导致的漏检问题，提出了一种基于 YOLOv5 的道路目标检测改进方法 CTC-YOLO（contextual transformer and convolutionalblock attention module based on YOLOv5）。针对小目标，改进网络检测头结构，增加多尺度目标检测层，提高小目标检测精度。为了充分利用输入的上下文信息，在特征提取部分引入上下文变换模块（contextual transformer networks，CoTNet），设计了CoT3模块，引导动态注意力矩阵学习，提高视觉表征能力。在Neck部分的C3模块集成卷积块注意力模型

3、（convolutional block attention module，CBAM），以在各种复杂的场景中找到注意力区域。为进一步验证CTC-YOLO方法，采取了一些有用的策略，如模型集成位置选择和对比其他注意力机制。实验结果表明，在公开数据集KITTI、Cityscapes以及BDD100K上mAP0.5分别达到89.6%、46.1%和57.0%，相较基线模型分别提高3.1个百分点、2.0个百分点和1.2个百分点。与其他模型相比，检测效率更高，有效改善了复杂环境中的目标检测问题。关键词：复杂环境；目标检测；YOLOv5；注意力机制文献标志码：A中图分类号：TP391doi：10.3778/

4、j.issn.1002-8331.2304-0251Improved YOLOv5 for Road Target Detection in Complex EnvironmentsYUAN Lei,TANG Hai,CHEN Yanrong,GAO Ren,WU WenhuanSchool of Electrical and Information Engineering,Hubei University ofAutomotive Technology,Shiyan,Hubei 442002,ChinaAbstract：To solve the problem of missed detec

5、tion in road object detection tasks in complex environments due to diversetarget scale changes,dense occlusion and uneven lighting,an improved method for road object detection CTC-YOLO（con-text transformer and convolutional block attention module based on YOLOv5）is proposed.Firstly,for small targets

6、,improve the network detection head structure,add a multi-scale target detection layer,and improve the accuracy of smalltarget detection.Secondly,in order to fully utilize the input contextual information,introduce a context transformer net-works（CoTNet）module in the feature extraction section,and d

7、esign a CoT3 module to guide dynamic attention matrixlearning and improve visual representation ability.Finally,the C3 module in the Neck section integrates the convolutionalblock attention module（CBAM）to locate attention regions in complex scenes.To further validate the CTC-YOLO methodproposed in t

8、his paper,some useful strategies are adopted,such as model integration position selection and comparisonwith other attention mechanisms.The experimental results show that the mAP0.5 on the publicly available datasets KITTI,Cityscapes and BDD100K reaches 89.6%,46.1%and 57.0%,respectively,which are 3.

9、1,2.0 and 1.2 percentage pointshigher than the baseline model,respectively.Compared with other models,the detection efficiency is higher and effectivelyimproves the problem of object detection in complex environments.Key words：complex environment;target detection;YOLOv5;attentional mechanism基金项目：国家自

10、然科学基金（52072116，52075107）；湖北省自然科学基金（2022CFB53B）；湖北省教育厅科学技术研究项目（Q20201801）；湖北汽车工业学院博士科研启动基金（BK202004）。作者简介：袁磊（1995），男，硕士研究生，CCF会员，研究领域为图像处理和目标检测，E-mail：madness_；唐海（1975），通信作者，男，博士，副教授，硕士生导师，CCF会员，研究领域为图像处理和知识工程；陈彦蓉（1998），女，硕士研究生，CCF会员，研究领域为网络通信和图像处理。收稿日期：2023-04-19修回日期：2023-06-07文章编号：1002-8331（2023）16

11、-0212-112122023，59（16）工智能的发展，自动驾驶技术的研究也越来越成熟。汽车在行驶过程中，与前车未保持足够距离是导致追尾事故的主要原因。因此，为了预留充足的反应时间和制动距离，及时且准确地检测出前方道路环境的目标，对于汽车自动驾驶有着重要的意义。但是城市建设在不断提高道路的复杂程度，例如道路上行走的人、骑行的人和远处的机动车，这些模糊不清的小目标在图像上占有的位置小，只能提供有限的特征信息；行驶的车辆和行人之间相互遮挡以及障碍物遮挡；光照条件不佳、夜间环境以及路缘背景干扰等。这些问题给道路目标的准确检测造成了诸多困难，容易出现误检漏检，从而对目标检测算法的可靠性提出了更高要求

12、。近年来，随着计算机硬件、人工智能技术的提高和计算机视觉技术的发展，研究基于深度学习的道路目标检测方法对智能驾驶领域具有重要意义。目前计算机和深度学习技术正处于快速发展阶段，而深度学习具有多种目标检测算法和目标跟踪算法，因此在车辆辅助驾驶系统中得到了广泛的应用。在当前深度学习方面，广泛应用的目标检测算法主要分为两类：一是单阶段目标检测算法。该算法不需要区域候选网络模块，可以利用网络直接生成目标位置、类别等相关信息，并在目标帧中包含回归问题。在定位问题中，该算法属于端到端目标检测。代表性算法模型有SSD（single shot multiboxdetector）2、YOLO（you only l

13、ook once）3-9系列算法。二是两阶段目标检测算法。该算法可以将目标检测分为两个阶段，第一阶段计算样本候选框，第二阶段主要针对检测网络。在此条件下，对探测目标候选区域的位置和类别进行了分类和识别。代表性算法模型有R-CNN（regions with convolutional neural networkfeatures）10、Fast R-CNN11、Faster R-CNN12和Mask R-CNN13。YOLO与R-CNN系列算法相比，简单高效，适合工程应用。已有研究中，更多深度学习的任务都引入了注意力机制14-15，并取得了良好的表现。Zhang等16为降低遮挡对车辆目标的误检率

14、，提出了一种基于改进YOLOv5网络的不同交通场景下车辆检测的改进方法。该方法利用 Flip-Mosaic算法增强了对小目标的感知能力，但适用的道路场景比较单一。Li17提出了一种基于YOLOv5网络的目标检测算法，用于检测车辆或人行横道等道路物体，主要针对小目标，引入了注意机制，改进后的网络模型能够更准确有效地在空中识别和定位道路目标。Jin等18在真实道路场景目标检测任务中，提出一种改进的YOLOv3方法。增加检测层，使用K-means聚类算法替代原网络中的K-means聚类算法，改进后的方法平均检测精度较高。江德港等19提出一种基于EfficientNet的无人机车辆目标检测算法，mAP

15、达到了92.6%，适用于无人机场景下的车辆检测任务。刘英璇等20提出一种基于Faster R-CNN的道路交通标志多目标实时检测方法，准确率虽达到71%以上，但检测时间过长。这些算法都取得了不错的成果，但难以在精度和速度之间实现良好的平衡。针对上述问题，本文提出了CTC-YOLO（contextual transformer and convolutionalblock attention module based on YOLOv5）模型。本文工作如下：（1）通过在特征金字塔中增加160160尺寸的检测层，增强对小目标的学习能力，弥补了检测目标的尺寸范围小的缺点；（2）设计 CoT3模块，将

16、 CoTNet21集成到特征提取器中，以获取丰富的全局空间图像特征；（3）为在特定大覆盖图像中找到注意区域，在特征提取网络C3模块中引入卷积块注意力模型（CBAM）22，解决训练过程中的梯度消失问题；（4）为了尽可能模拟真实道路条件，在具有挑战性的Geiger等23构建的KITTI基准测试数据集、Cordts等24构建的城市街道场景数据集Cityscapes以及Yu等25构建的BDD100K数据集上对本文所提方法进行了验证。1基准模型YOLO系列的开发通过采用深度学习方法带来了目标检测技术的变化。目前，YOLO系列包括YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5、YOL

17、Ov6 和最新推出的YOLOv7。YOLOv5是对YOLOv4的改进，该模型更快、更准确，模型参数更少，更容易适应车辆中嵌入的各种设备，在YOLO系列模型中较为成熟且稳定。YOLOv5依据模型的宽度和深度，分为五种不同尺寸的模型，即YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5n和YOLOv5x，其中较小的模型具有较少的参数、较低的精度和更快的速度。为了更好地满足交通场景中目标检测的实时性要求，本文选择YOLOv5 6.0版本中的YOLOv5s模型作为基准模型进行改进，如图1所示，体系结构分为四部分，分别是Input、Backbone、Neck和Output。Input部分为输入

18、图像，在这一部分通常进行图像增强预处理，将输入图像按网络的输入大小进行缩放，并进行归一化操作。在训练阶段采用Mosaic数据增强。Backbone部分主要分为CBS、C3和SPPF模块。使用Conv(k=6,s=2,p=2)代替原来的Focus层；C3模块是CSPBottleneck模块，具有3倍卷积；末尾的SPPF指定一个卷积核，每次池化后的输出会成为下一个池化的输入，比原来的SPP模块更快。YOLOv5的Neck部分沿用了FPN（feature pyramidnetwork）+PANet（path aggregation network）26的结构。FPN采用自顶向下的侧边连接，PANet

19、在FPN的基础上添加由下而上的路线传输位置信息，弥补了位置信息，加强了特征融合能力。Output 部分为输出部分，分别在 8080、4040 和2020的尺度下进行预测。袁磊，等：改进YOLOv5的复杂环境道路目标检测方法213Computer Engineering and Applications计算机工程与应用2023，59（16）2模型的优化为了提升基于深度学习的道路目标检测模型的性能，本文以YOLOv5为基准模型，设计了融合注意力机制的道路目标检测模型CTC-YOLO。改进后的模型如图2所示。2.1多尺度的改进原始的 YOLOv5 为三尺度检测，在 Backbone 部分步幅为2的整

20、个下采样过程中，可以获取更多的语义信CBSCBSCBSCBSCBSSPPF3C36C39C3CBSUpsampleC3_FCBSConvConvConvConcatConcatNeckHead8080Small target 4040Medium target 2020Large target CBSConcatCBSUpsampleConcatCBS=ConvBatchNormSiLUBottleneckCBS2=Bottleneck_F=CBSBottleneck_FConcatCBSCBSConcatCBSMaxPoolingMaxPoolingMaxPoolingSPPF=C3=CBS

21、BottleneckConcatCBSCBSBackbone3C3C3_FC3_FC3_FC3_FCBS2图1YOLOv5结构图Fig.1Structure diagram of YOLOv5CBSCBSCBSCBSCBSSPPF3CoT36CoT39CoT33CoT3CBSUpsampleC3_FCBSUpsampleCBSUpsampleCBSCBSCBSC3CBAMConvConvConvConvConcatConcatConcatConcatConcatConcatNeckHead160160X-Small target 8080Small target 4040Medium targ

22、et 2020Large target BackboneC3_FC3_FC3_FC3_F图2改进后的结构图Fig.2Improved structure diagram2142023，59（16）息，但会丢失大量的详细特征信息，尤其是微小尺寸物体的语义特征。Zhu等27在无人机捕获场景中，针对小目标任务增加一个更小尺度，得到了明显效果。受文献27启发，本文新增一个浅层检测输出到Output部分来关注较小的对象，将其相关特征融合层添加到Neck部分。利用跳跃连接，将附加的特征融合结构添加到Neck部分，以融合Backbone部分中高级语义特征图和浅层中更详细的位置信息，增强对微小目标的检测能力。

23、尽管额外的检测尺度将增加网络参数和 GFLOPs（Giga floating-point operations per second）计算量，但提高了对微小物体的检测能力，位置信息相对丰富，更加适用于目标尺寸变化范围大的复杂道路场景。图2中Output部分的红色虚线内是增加的160160大小的尺度，Neck部分的红色虚线内是该尺度相对应的特征融合部分。2.2改进C3模块Transformer28是一种主要基于自注意力机制的深度神经网络，最初应用于自然语言处理领域。受到Transformer强大的表示能力的启发，研究人员提出将Transformer扩展到计算机视觉任务，来提高语义的可分辨性。图3

24、为传统自注意力机制和本文的CoT模块。在传统的自注意力机制中，所有的query-key关系都是隔离的，其中丰富的上下文信息并没有被探索。针对背景复杂道路，为合并全局信息的检测提供更高层次的检测特征，可用一个 Transformer类型的模块来改善这一缺陷。CoT模块可以将上下文信息挖掘和自注意集成在同一个体系结构中。它可以促进自注意力学习，同时有效地利用相邻像素的上下文信息，增强输出特征映射的表示能力。传统多头注意力机制的计算如图4（a）所示。给定一个2D特征图X(XRHWC)（H为高，W为宽，C为通道数）。keys、queries和values通过Q=XWq,K=XWk,V=XWv计算。嵌入

25、矩阵(Wq,Wk,Wv)采用11的卷积实现。得到K和Q局部关系矩阵R(RRHW(kkCh)，表达式如下：R=KQ（1）其中，Ch是头的数目，是局部矩阵乘法。利用位置信息对局部关系矩阵R进行丰富：R=R+PQ（2）其中，PRkkCk表示相对位置信息。使用softmax得到注意力矩阵A=Softmax(R)，再根据V学习得到局部注意力矩阵，表达式如下：Y=VA（3）CoT模块的原理如图4（b）所示。给定一个大小为HWC的2D特征图X(XRHWC)。在CoT模块中key采用了kk的卷积操作进行编码以获取图像局部静态上下文信息，这里可以看作在局部信息上进行了静态的建模。然后将图像局部上下文信息与Q进行

26、拼接（concat）处理，concat操作在拼接时输入和输出的尺寸不变，但通道的数量进行连接。对于叠加后的结果再XKeysqueryweightsoutputvaluesXXXstaticweightsvaluesoutputdynamicKeyqueryX33Conv（）11Conv（）11Conv（）11Conv（）11Conv（）Two11Conv（）XKeysqueryweightsoutputvaluesXXXstaticweightsvaluesoutputdynamicKeyqueryX33Conv（）11Conv（）11Conv（）11Conv（）11Conv（）Two11Co

27、nv（）（a）传统自注意力机制（b）CoT模块图3传统自注意力机制和CoT模块比较Fig.3Comparison of conventional self-attentionmechanisms and CoT blockKey MapSoftmaxHWCQueryPositionValue MapK:11HWCkHWCkkkCkHWCHW(kk)Q:11V:11HW(kkCh)HW(kkCh)HW(kkCh)HWCYXHWCKey MapQueryValue MapK:kkV:11HWCHWCConcat:11:11FusionYHWCHWCHW2CHWDXHW(kkCh)（a）传统自注意力

28、模块（b）CoT模块图4传统自注意力机制和CoT模块Fig.4Conventional self-attention mechanisms and CoT block袁磊，等：改进YOLOv5的复杂环境道路目标检测方法215Computer Engineering and Applications计算机工程与应用2023，59（16）进行两次连续的卷积操作得到注意力矩阵。通过卷积提取局部信息的方法，充分提取了key内部的静态上下文信息，增强了自注意力机制。注意力矩阵计算如下：Local_Attention=K1,QWW（4）其中，Local_Attention代表注意力矩阵，K1代表图像局部上

29、下文信息，Q代表 query，W和W分别表示11卷积。对于输入的特征图信息X,value定义为V=NWv，Wv是V的权值矩阵。然后将注意力矩阵与V点乘得到全局动态上下文信息，计算公式如下：K2=VLocal_Attention（5）其中，K2代表图像全局上下文信息，V代表value。最后输出Y是通过添加静态上下文K1和动态上下文K2获得的。本文将 CoT 模块融合到骨干特征提取网络中，如图5所示，将CBS模块替换为CoT模块后，C3结构重构完成，形成新的 CoT3模块，增强了上下文信息的连续性，提取了显著特征。2.3C3CBAM的改进与YOLOv4相比，YOLOv5结构更小更灵活，图像推断更快

30、，更接近现实中的生产和生活。然而，实际道路环境是复杂的，主要问题如下：（1）物体遮挡严重、重叠；（2）远处目标物体小，在整个图像中所占比例较小；（3）背景复杂，增加了特征目标提取的难度。这些现实因素无疑会影响目标的检测精度。还发现YOLOv5也存在边界框定位不足的问题，并且难以区分重叠的检测对象，特别是在车流量大或堵车情况下相互遮挡的对象。然而，注意力机制的存在可以有效地解决这些问题。注意力机制是一种模仿人类注意力的深度学习优化策略。目前，注意力机制已广泛应用于深度学习的多个领域，模块通过对信息特征进行相关和不相关的选择，构建动态权重，帮助网络记录位置关系，估计不同信息的重要性。因此，无用的信

31、息被削弱，而重要的信息被加强，这样可以提高网络的效率。常见的注意力机制主要包括：（1）通道注意力机制，代表模型为压缩和激励网络（squeeze-and-excitation networks，SENet）29。通道注意力模块被用来关注哪些特征是有意义的，为输入特征图的通道生成掩码，不同通道具有相应的注意力权重，以实现通道级别的区分。如图6（b）所示，首先对输入特征图F进行基于宽度和高度的MaxPooling和AvgPooling，得到两个不同的空间背景表示Fcmax和Fcavg，然后传入包含隐藏层的多层感知器（MLP）。将MLP的两个输出逐元素相加，最后通过Sigmoid激活函数得到通道注意力

32、特征Mc(F)。表达式如下：Mc(F)=()MLP()AvgPool(F)+MLP()MaxPool(F)=()W1()W0(Fcavg)+W1()W0(Fcmax)（6）其中，为Sigmoid激活函数，W0和W1为MLP的权值(W0R(C/r)C,W1RCC/r)，r为降维因子。（2）空间注意力机制，代表模型是空间变换神经网络（spatial transformer networks，STN）。空间注意力模块用于关注有意义的特征来自哪里，在输入特征图的空间位置上生成掩码，不同的空间区域具有相应的权重，以实现空间区域的区分。如图6（c）所示，以F为输入特征图，分别通过基于通道的MaxPooli

33、ng和AvgPooling，将特征图Fsavg和Fsmax合并，得到通道数为2的特征图，通过77卷积层将通道数减少到1，然后通过Sigmoid激活函数得到空间注意力图Ms(F)。表达式如下：Ms(F)=()f77()AvgPool(F);MaxPool(F)=()f77()Fsavg;Fsmax（7）其中，77为卷积核的大小。C3=CBSBottleneckConcatCBSBottleneck=CBS=CBSBottleneckConcatCBSCBSCoT3BottleneckCBS=CoTCBS2图5改进C3模块的结构图（CoT3）Fig.5Structure diagram of im

34、proved C3 module（CoT3）输入特征F通道注意力模块Mc空间注意力模块Ms提取特征F输入特征F最大池化平均池化共享全连接层通道注意力Mc通道细化特征F空间注意力Ms卷积层最大池化，平均池化输入特征F通道注意力模块Mc空间注意力模块Ms提取特征F输入特征F最大池化平均池化共享全连接层通道注意力Mc通道细化特征F空间注意力Ms卷积层最大池化，平均池化输入特征F通道注意力模块Mc空间注意力模块Ms提取特征F输入特征F最大池化平均池化共享全连接层通道注意力Mc通道细化特征F空间注意力Ms卷积层最大池化，平均池化（a）CBAM模型结构图（b）通道注意力模块结构图（c）空间注意力模块结构图

35、图6各注意力子模块结构图Fig.6Structure diagram of each attention sub-module2162023，59（16）（3）混合注意力机制，即同时引入通道注意力机制和空间注意力机制，代表模型是CBAM。CBAM是一种高效、轻量级的注意力模块，可以集成到任何卷积神经网络架构中，并且可以与基本网络进行端到端训练30。与SENet相比，CBAM考虑了不同通道之间权值的不平衡，也考虑了空间维度的不平衡。如图6（a）所示，首先将特征图F输入通道注意力模块，输出相应的注意力图，再将输入特征图与注意力图相乘，输出经过空间注意力模块，进行相同的运算，最后得到输出特征图，这个

36、过程如下：F=Mc(F)FF=Ms(F)F（8）其中，McR11C是一维通道注意图，MsRWH1是二维空间注意图，表示逐元素的乘法。与SENet只包含一个 MaxPooling操作相比，CBAM 在两个独立的维度上同时使用了MaxPooling和AvgPooling，因此可以提取更丰富的高级特征。如图7，本文通过CBAM集成到YOLOv5s的C3模块中，分别实现在通道维度和全局空间维度上对目标特征和位置特征的学习，增加有用特征的权重，抑制无效特征的权重，更加关注包含重要信息的目标区域。改进后如图2中红色实线方框所示。3实验及结果分析3.1实验环境和实验参数设置本文实验环境和实验参数设置如表1所

37、示。3.2数据集目标检测任务面向交通场景的公开数据集有很多，比如BDD100K、KITTI、Cityscapes、Griffin等31公开的行人监测数据集Caltech等。本文实验部分主要使用的是公开的自动驾驶数据集 KITTI，为了验证改进模型的泛化能力，本文选择在 Cityscapes 和 BDD100K 数据集上作辅助验证。3.2.1KITTI数据集KITTI数据集由卡尔斯鲁厄理工学院（KIT）和丰田工业大学芝加哥分校（TTIC）共同创立。KITTI数据集在乡镇、城区以及高速公路等地区进行采集，每张图像中最多可同时有30个路人和15辆车，并且存在不同情况的遮挡与截断。数据集标签类别分别为

38、汽车（Car）、厢式货车（Van）、卡车（Truck）、行人（Pedestrian）、坐着的人（Person_sitting）、骑自行车的人（Cyclist）、有轨电车（Tram）、可忽略（DontCare）和杂项（Misc）。驾驶道路上的每个目标都起着至关重要的作用，为了得到更全面真实的结果，本文在数据预处理阶段保留了数据集全部的目标类别。KITTI数据集共有7 481张带标注的图像，分辨率大部分为 1 242375像素。本文将数据集按照8 1 1（5 985 748 748）的比例随机划分训练集、测试集和验证集。3.2.2Cityscapes数据集Cityscapes是一个新的大型数据集，

39、拥有5 000张在城市环境中驾驶场景的图像，分辨率为1 0242 048像素，包含了50个不同城市街道的不同立体影像序列，具有多样性，使得模型能够广泛应用于多种不同的复杂交通场景，同时使模型的泛化性更强。原数据标签中有40个目标检测类别，本文在数据预处理阶段，保留了道路交通常见的car、traffic sign、bicycle、person、rider、motor-cycle、bus、truck和train共9个类别。官方以6 1 3（2 975 500 1 525）的比例将数据集随机分成训练集、验证集和测试集。3.2.3BDD100K数据集BDD100K数据集是加州大学伯克利分校 AI实验室

40、（BAIR）于2018年发布的，迄今为止最大规模、内容最具多样性的公开驾驶数据集之一。数据集中的视频是从美国各地收集的，晴天、阴天和雨天各种天气条件，白天和夜天不同时间的驾驶情景。官方以7 1 2（70 000 10 000 20 000）的比例将数据集随机分成训练集、验证集和测试集。3.3损失函数为了优化本文所提出改进算法的检测精度，使用的损失函数为分类损失Lcls、置信度损失Lobj和边界框回归损失Lbox，总的损失为Loss=Lbox+Lobj+Lcls。边界框回归损失Lbox使用Zheng等32提出的CIoU（completeintersection over union）损失。=CB

41、SBottleneck_FConcatCBSCBSC3_F=CBSBottleneck_FConcatCBSCBSCBAMC3CBAM图7改进C3模块的结构图（C3CBAM）Fig.7Structure diagram of improved C3 module（C3CBAM）项目CPURAMGPUCUDADeep Learning FrameworkOperating SystemProgramming LanguagesBatch-sizeEpochImage Size内容IntelCoreTMi5-12600KF16 GBNVIDIA RTX30802Cuda11.3 and Cudnn

42、10.1Pytorch 1.12.1Ubuntu 18.04.6Python 3.916300640640表1实验环境和实验参数设置Table 1Experimental environment and parameter setting袁磊，等：改进YOLOv5的复杂环境道路目标检测方法217Computer Engineering and Applications计算机工程与应用2023，59（16）为了得到更加精准的预测框，CIoU在DIoU的基础上增加了一个影响因子，即增加了预测框与真实框之间长宽比的一致性的考量。CIoU损失考虑了边界框回归的重叠区域、中心点距离及纵横比，提高了边界框

43、回归的速度和精度。边界框回归损失Lbox可以表示如下：Lbox=1-CIoU=1-IoU-2c2-v（9）其中，交并比(IoU)是预测框和真实框的交集面积与并集面积之比，是预测中心点与真实框之间的欧几里德距离，c是覆盖预测框和真实框两者的最小包围框的对角线长度。此外，是权衡参数，定义为：=0,IoU0.5v(1-IoU)+v,IoU0.5（10）v是测量真实框和预测框之间纵横比一致性的参数，表示如下：v=42 arctanwgthgt-arctanwphp2（11）其中，wgt和hgt是真实框的宽度和高度，而wp和hp是预测框的相应值。Lobj和Lcls使用二元交叉熵（BCE）和 Logits

44、损失（BCEWithLogitsLoss）。BCEWithLogitsLoss用于测量模型目标值和输出值之间的二进制交叉熵，表达式如下：Ln=-wnynlog(xn)+(1-yn)log(1-(xn)（12）其中，wn为每个类别的损失权重，yn为目标值，xn为模型的输出值，为sigmoid函数。3.4评估指标在本文的实验中，mAP0.5和mAP是人们最关注的度量，可以描述为：mAP0.5=1nclass01P(R)dR（13）mAP=avg(mAPi),i=0.5:0.05:0.95（14）其中，nclass表示类的数量，P和R分别表示精度和召回率，它们满足：P=TPTP+FP,R=TPTP

45、+FN（15）其中，TP表示IoU0.5的预测框的数量；FP表示IoU0.5的预测框的数量；FN表示没有预测的标签的数量。此外，参数量（所有层中权重参数的总数）和GFLOPs用于评估网络的复杂性。3.5实验结果与分析3.5.1改进多尺度的实验分析本文基于原 YOLOv5s 模型改进多尺度，提出了YOLOv5-A算法。为验证改进多尺度检测的有效性，多尺度特征融合部分进行相应的改进（增加160160的检测尺度），其余部分不变。将改进后的算法与原始的YOLOv5s模型在KITTI数据集上进行实验对比，表2为实验结果。通过表2可以看出，YOLOv5-A算法的模型计算量和大小略微增加，FPS 略微降低，

46、但仍在可接受范围内。改进后算法在保证良好实时性的同时，检测精度提高了1.3个百分点，证明了该改进方法的有效性。3.5.2改进C3模块的实验分析为了验证本文提出的CoT3模块的有效性，将在算法YOLOv5-A基础上改进C3模块的算法称为YOLOv5-B。将提出的CoT3模块融入骨干特征提取网络中，实验结果如表3所示。由表3可知，通过改进C3模块，算法模型的大小较YOLOv5-B算法减少了2.0105，计算量增加了3.2 GFLOPs，mAP0.5提高了0.7个百分点，且算法仍保持良好实时性。改进后的YOLOv5-B算法在一定程度上更好地提取相邻键特征，更适合计算机视觉的注意力计算单元。同时，Co

47、T3模块可以提取输入特征变量的静态和动态上下文信息，从而改善了原有YOLOv5s缺乏远程建模能力的问题。3.5.3融合CBAM的实验分析为了验证融合CBAM的有效性，本文将在YOLOv5s-B算法基础上融合CBAM的算法称为CTC-YOLO。为了验证融合CBAM的有效性以及控制模型的大小而探索嵌入的最佳位置，本文在Output部分的4个特征维度之前的C3模块融合CBAM，分别标记为CBAM_X、CBAM_S、CBAM_M和CBAM_L，其他部分不变，在KITTI数据集上与提出的YOLOv5-B算法进行对比实验，实验结果如表4所示。“”表示使用了某种改进方法。算法模型YOLOv5sYOLOv5-

48、AWeights/10614.515.6GFLOPs16.120.5FPS344.8294.1mAP0.5/%86.587.8表2改进多尺度的验证实验Table 2Verification experiment of new detection layer算法模型YOLOv5-AYOLOv5-BWeights/10615.615.4GFLOPs20.523.7FPS294.1208.3mAP0.5/%87.888.5表3改进C3模块验证实验Table 3Verification experiment of C3 module算法模型YOLOv5-BYOLOv5-B-CBAM_XYOLOv5-B

49、-CBAM_SYOLOv5-B-CBAM_MYOLOv5-B-CBAM_LYOLOv5-B-CBAM_SMLXXSMLmAP0.5/%88.587.187.888.389.687.9表4融合CBAM的验证实验Table 4Validation experiment of fused CBAM2182023，59（16）从表4中可以看出，并非在所有的位置融合CBAM模块都能提升检测效果。其中，在最深层CBAM_L部分融合后mAP0.5提升1.1个百分点，效果最佳。其余部分均无法提高性能。因此，将CBAM融合到PANet的最顶层时，结合Backbone部分输出的底层丰富的特征信息，捕获了更多的空间

50、信息，识别效果最佳。为了验证更多可能性，将其他的注意力机制加入同样的位置，在KITTI数据集上进行多组对比实验，结果如表5所示。从比较结果来看，相较YOLOv5-B，ESENet33、SENet、GAM34和 CBAM 的 mAP0.5分别提高 0.5个百分点、-0.2个百分点、0.3个百分点和1.1个百分点，模型大小分别增加 6.0105、1.0105、3.5106和 1.0105，GFLOPs分别增加0.2、0、1.4和0.1。综合数据比较，YOLOv5-B+CBAM的效果最佳，能够充分利用空间和通道的信息。各注意机制模块在阴影模糊环境下的样本图像中生成的热力图如图8所示，对比图清晰地展示

展开阅读全文