1、改进 YOLOv5s 的自动驾驶汽车目标检测余以春,李明旭(西南交通大学计算机与人工智能学院,成都611756)通信作者:余以春,E-mail:摘要:在自动驾驶领域,由于道路背景复杂以及小目标信息缺失,现有目标检测算法存在检测精度低的问题.由于车载摄像头视角较为固定,道路上的目标在图像空间中的分布具有一定的规律,可以为自动驾驶汽车进行目标检测提供更为丰富的信息.因此,提出一种改进 YOLOv5s 的空间特征增强网络(SE-YOLOv5s).在 YOLOv5s 的颈部网络中添加位置注意力模块(locationattentionmodule,LAM),该模块能够根据道路目标在图像中的分布特征进行加
2、权,增强网络对目标类别位置分布的感知和定位能力.设计一种小目标增强模块(smalltargetenhancementmodule,STEM),将浅层特征和深层特征进行融合,可以获得更丰富的小目标语义信息和空间细节信息,提高小目标检测效果.实验结果表明,改进模型对不同尺度目标检测精度均有所提高,APS提高 2.8%,APM提高 2.5%,APL提高 2%.关键词:目标检测;注意力机制;小目标;YOLOv5引用格式:余以春,李明旭.改进 YOLOv5s 的自动驾驶汽车目标检测.计算机系统应用,2023,32(9):97105.http:/www.c-s- YOLOv5s for Autonomou
3、s Vehicle Target DetectionYUYi-Chun,LIMing-Xu(SchoolofComputingandArtificialIntelligence,SouthwestJiaotongUniversity,Chengdu611756,China)Abstract:Inthefieldofautomaticdriving,existingtargetdetectionalgorithmsarehauntedbylowdetectionprecisionduetocomplicatedroadbackgroundsandinsufficientinformationab
4、outsmalltargets.Sincetheonboardcamerahasfixedviewingangles,andtargetsontheroadaresomewhatregularlydistributedintheimagespace,richerinformationcanbeprovidedtoautonomousvehiclesfortargetdetection.Therefore,aspatialfeatureaugmentationnetwork(SE-YOLOv5s)toimproveYOLOv5sisproposed.Alocationattentionmodul
5、e(LAM)isaddedtothenecknetworkofYOLOv5s,whichcanbeweightedaccordingtothedistributioncharacteristicsofroadtargetsintheimageandenhancethenetworksperceptionandlocalizationabilityforthetargetcategorylocationdistribution.Asmalltargetenhancementmodule(STEM)isdesignedtofuseshallowfeaturesanddeepones,soastoo
6、btainrichersemanticinformationanddetailedspaceinformationaboutsmalltargets,therebyimprovingthedetectioneffectofsmalltargets.Theresultsoftheexperimentshowthattheimprovedmodelwitnessesanincreaseindetectionprecisionagainsttargetsofdifferentscales,withAPSincreasedby2.8%,APMincreasedby2.5%,andAPLincrease
7、dby2%.Key words:targetdetection;attentionmechanism;smalltarget;YOLOv5随着经济的发展,道路上的车辆数量也显著增加,道路上的行车压力也越来越大,随之而来的交通事故也逐年递增.自动驾驶能够辅助甚至代替驾驶员控制车辆安全运行,能够减少交通事故的发生,缓解和改善计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(9):97105doi:10.15888/ki.csa.009198http:/www.c-s-中国科学院软件研究所版权所有.
8、Tel:+86-10-62661041基金项目:国家自然科学基金(61961038)收稿时间:2023-02-12;修改时间:2023-03-08;采用时间:2023-03-14;csa 在线出版时间:2023-07-14CNKI 网络首发时间:2023-07-17SystemConstruction系统建设97道路拥堵状况,是未来的发展趋势1.环境感知系统利用雷达和摄像头等多种硬件传感器为自动驾驶系统提供可靠的外部环境判断,是自动驾驶系统进行控制和决策的基础.通过车载前视摄像头进行目标检测是环境感知的重要组成部分,已经成为目前研究热点2.在自动驾驶场景中,由于车载摄像机视角相对固定,拍摄得到
9、的道路图像具有特殊的空间性质.图像底部主要由道路组成,中间部分包含各种相对较小的物体,而顶部主要包括建筑物和天空,并且不同类别在图像中的分布也不均匀3.本文统计了 BDD100K 数据集4中不同类别在图像中的位置分布,如图 1 所示.从图 1中可以看到,交通信号灯(trafficlight)和交通标识(trafficsign)主要集中在图像顶部区域,汽车(car)在图像中下部道路区域出现的概率更高,而行人(person)主要分布在图像两侧的非行驶区域或道路边缘.此外,因为车载摄像头存在透视投影,导致同样大小的物体离摄像头越近成像越大,而离摄像头越远成像越小.在这种情况下,道路目标的尺寸与其在图
10、像中的位置有很强的相关性5.如图 2 所示,小目标主要集中在图像高度比例为 0.40.7,宽度比例为 0.30.6 区域,这意味着小目标往往出现在图像的中上区域.目前流行的目标检测算法分为两类:以 R-CNN 系列6为代表的两阶段检测算法和以 YOLO 系列7、SSD8、RetinaNet9为代表的单阶段检测算法.两阶段目标检测算法先进行区域提议再进行分类和定位,而单阶段目标检测算法直接由图像特征得到目标的类别概率和检测框位置.虽然两阶段目标检测算法检测精度高但检测效率较差,无法满足自动驾驶高实时性要求.同时,单阶段检测算法速度较快但检测精度低于两级检测器10.1.00.90.80.70.60
11、.50.40.30.20.101.00.90.80.70.60.50.40.30.20.1000.20.40.6Width(a)Traffic sign(b)Traffic light(c)Car(d)Person0.81.000.20.40.6Width0.81.000.20.40.6Width0.81.000.20.40.6Width0.81.0Height1.00.80.60.40.201.00.80.60.40.201.00.80.60.40.201.00.80.60.40.20Height1.00.90.80.70.60.50.40.30.20.10Height1.00.90.80.
12、70.60.50.40.30.20.10Height图 1BDD100K 类别分布热力图计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第9期98系统建设SystemConstruction自动驾驶计算平台的计算资源有限,需要同时处理检测、跟踪、决策等多种传感和计算任务.这要求应用在车端的检测算法需要具有较小的内存占用率和计算资源占用率11.因此,如何在保持实时目标检测能力的同时,提升检测精度是近几年的研究重点.Cai 等人11改进了 YOLOv4 算法,使用可变形卷积代替特征提取网络的最后一个输出层并且设计了一个新的特征融合模块进行特征融合,提高了平均检测精度.Zhu
13、 等人12提出一种新的目标检测网络 TPH-YOLOv5.在YOLOv5 的基础上集成卷积注意力模块,使模型在检测不同尺度物体时能关注重要的特征,提升特征提取能力.Chen 等人13在 YOLOv3-tiny 上进行裁剪,量化网络中的参数,降低了算法运行复杂度.刘革等人14用 MobileNetV3 替换 RetinaNet 的特征提取网络,引入 GIoU 改进损失函数,提高了网络特征提取能力.李彦辰等人15以 Efficientdet 为基础框架,设计多尺度注意力机制模块应用于特征融合网络,提高了对小目标的检测精度.1.00.90.80.70.60.50.4Height0.30.20.100
14、0.10.20.30.40.5Width0.60.70.80.91.000.20.40.60.81.0图 2BDD100K 小目标分布热力图综上所述,虽然对于自动驾驶领域目标检测已经取得一定成果,但是缺少针对自动驾驶场景特有的空间特征进行优化设计,没有很好地利用这一关键特征.并且由于小目标面积小、图像模糊、易受噪声影响、网络卷积层数过深等因素,导致很难有效提取小目标特征,检测精度有待进一步提高.因此,提出一种改进YOLOv5 的空间特征增强网络 SE-YOLOv5,主要改进点如下.(1)为了增强网络对目标类别位置分布的感知和定位能力,提出了一种位置注意力模块.它能够提取元素级空间位置特征图,根
15、据像素的空间位置自适应调整图像特征权重,增强网络特征提取能力.(2)针对小目标信息缺失的问题,提出一种小目标增强模块.通过自下而上以及自上而下的双向特征调制,结合深层特征的语义信息以及浅层特征的细节信息,获得更丰富的小目标特征,提高网络对小目标的检测性能.1网络改进 1.1 改进 YOLOv5s 网络结构YOLOv5 是一种单阶段目标检测算法,具有部署成本低、灵活度高和检测速度快的特点.其网络结构可以分为输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、检测网络(Head)这 4 个部分.输入端主要完成图像增强、锚框计算、图像缩放等预处理操作;主干网络使用 CSPDar
16、knet53 和 SPPF 提取图像特征;PANet 结构作为颈部网络用于聚合特征;最后在检测网络对 3 种尺度特征图进行目标的分类和预测.此外,YOLOv5 根据网络深度和宽度可以分为依次递增的4 个版本,分别为 YOLOv5s、YOLOv5m、YOLOv5l以及 YOLOv5x.综合考虑算法检测速度和精度,本文选用 YOLOv5s作为基础网络,在颈部网络中添加位置注意力模块,帮助网络感知道路目标在图像中的空间位置分布,增强网络特征提取能力;在主干网络中添加小目标增强模块,丰富检测网络中小目标特征信息,提高网络小目标检测精度,改进后的 SE-YOLOv5s 网络结构如图 3 所示.1.2 位
17、置注意力模块X RCHWA本文在 HANet3的基础上设计了一种位置注意力模块,它能够提取自动驾驶场景中空间位置注意力特征,对不同通道特征以及空间位置进行加权,增强网络对目标类别和位置分布的感知和定位能力,模块结构如图 4 所示.给定特征图,位置注意力特征图 可由以下步骤得到.(1)特征压缩.首先,经过全局平均池化聚合高度和宽度方向上的上下文,接着通过 11 的卷积在通道维度上对特征图进行压缩,剔除冗余通道特征,减少参数量,如式(1)所示.bX=Conv(AvgPool(X)(1)AvgPoolConvbX RC/rbHbWbHbWr其中,为全局平均池化函数;为卷积函数;为压缩特征,和为全局平
18、均池化后特征图宽高,为通道压缩倍率.2023年第32卷第9期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设99(2)计算位置注意力特征图.为了生成像素级位置注意力特征图,同时使用通道注意力和空间注意力,以捕获像素间的空间上下文相关性和通道间的语义相关性.同时,为了提高计算效率,使用并联提取注意力特征,减少计算时间成本.其中,通道注意力计算过程如式(2)式(4)所示.Gavg(X)=(FC(FC(AvgPool(X)(2)Gmax(X)=(FC(FC(MaxPool(X)(3)Ac(X)=Gavg(X)+Gmax(X)(4)FCMaxPool其
19、中,为全连接层;为 ReLU 函数;为 Sigmoid 函数;为最大池化.CBS3640640323203206416016012880802564040512202025540402558080NeckBackboneHead2552020CBSC2C3C4C3C6C3C3C3C8C3C3ConvConvConvConvBNSiLUSTEMP5P3C3P4SPPFCBSCBSCBSCBSUpsampleUpsampleConcatConcatConcatConcatConcatConcatLAMLAMLAMLAMCBSCBSCBSCBSMaxPoolMaxPoolMaxPoolCBSC3SP
20、PFCBSBottlenecknCBSCBSCBS图 3SE-YOLOv5s 网络结构AvgPoolAvgPoolAvgPoolMaxPoolMaxPoolFC+ReLUFC+ReLUFC+SigmoidC11C11CHWCHWCHW1HWCHW HWXXAXFC+SigmoidConv+SigmoidCoordConvConvr_CUpsample图 4位置注意力模块结构在计算空间注意力权重时,引入 CoordConv 模块16.CoordConv 通过在输入特征中增加两个坐标通道,增强卷积的空间特征提取能力,能更好地学习自动驾驶场景中的空间位置分布.空间注意力可用如式(5)表示.AS(X)
21、=(Conv(Cd(AvgPool(X),MaxPool(X)(5)CdA RCHW其中,为 CoordConv 模块.最后,结合通道注意力特征图和空间注意力特征图,经过逐元素相乘以及上采样生成与位置注意力特征图.A=Upsample(Ac(X)As(X)(6)Upsample其中,上采样函数;为矩阵点乘.1.3 基于上下文的小目标增强模块为了提高小目标的检测精度,本文在非对称上下文调制模块17的基础上进行改进,设计了一种小目标增强模块,如图 5 所示.如图 5 所示,小目标增强模块主要由自下而上的逐点通道上下文调制模块和自上而下的全局上下文调制模块构成,通过对浅层高分辨率特征以及深层高级语义
22、特征进行多尺度交换,以获得包含小目标细节信息以及语义信息的增强特征.1.3.1自下而上的通道上下文调制如图 6 所示,自下而上的上下文调制为一个逐点通道注意力,其中每个空间位置的通道特征上下计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第9期100系统建设SystemConstruction文被单独聚合.该模块利用浅层特征中丰富的小目标细节信息自下而上的生成空间细节上下文调制权重,弥补深层特征中缺失的小目标细节信息,主要流程如下.浅层特征深层特征增强特征C/rHWC/rHWCHWCHWC11C111HWHW112CHWCHWCHWC/r11C/r11C/r11CHWC
23、H2WC2H2WSigmoidSigmoidSigmoidPoint-wise ConvPoint-wise ConvPoint-wise ConvPoint-wise ConvPoint-wise ConvPoint-wise ConvReLUReLUBNBNCropBilinear interpolation图 5小目标增强模块结构浅层特征深层特征CHWC/rHWC/rHWCHWCHWCHWSigmoidPoint-wise ConvPoint-wise ConvPoint-wise ConvReLUCropBilinear interpolation图 6自下而上调制模块结构(1)特征裁
24、剪.首先对浅层特征在高度比例为 0.40.7,宽度比例为 0.30.6 区域进行裁剪,获取包含小目标的特征区域,并减少冗余特征和参数量.Y(2)尺度匹配.考虑到特征尺寸匹配问题,采用双线性插值算法生成与同样宽高的特征图,如式(7)所示.(X)=BI(Crop(X)(7)Y RCHW(3)计算调制权重.经过两次逐点卷积和激活函数获得调制权重,最终经过逐点相乘得到调制后的高级特征.Y=(PWC(PWC(X)PWC(Y)(8)X RC2H2WY R2CHWCropBIPWC其中,为浅层特征,为深层特征;为特征裁剪函数;为插值函数;为逐点卷积.2023年第32卷第9期http:/www.c-s-计 算
25、 机 系 统 应 用SystemConstruction系统建设1011.3.2自上而下的全局上下文调制自上而下的上下文调制模块通过全局上下文信息来指导浅层特征,并将全局语义特征嵌入到浅层特征中,减少浅层特征噪声信息的干扰.模块结构如图 7所示,调制步骤如下.浅层特征深层特征CHWCHW1HWHW11C11C/r11C/r11C/r11C/r11BNSigmoidSoftmaxPoint-wise ConvPoint-wise ConvPoint-wise ConvPoint-wise ConvReLUBNCropBilinear interpolation图 7自上而下调制模块结构1)建模全
26、局上下文信息.使用了简化版的全局上下文模块(globalcontext,GC)18来建模全局上下文信息,如式(9)所示.(Y)=PWC(Y)(PWC(PWC(Y)(9)2)瓶颈转换.将全局上下文特征通过卷积捕获通道间依赖,如式(10)所示.(Y)=(PWC(PWC(Y)(10)3)特征融合.使用乘法融合策略将上下文特征嵌入到浅层特征中,实现特征融合.调制特征可以由式(11)得到.X=(X)(Y)(11)X RCHW其中,为 Softmax 函数,为调制特征.2实验分析 2.1 实验数据集和实验设置BDD100K 数据集是 2018 年由伯克利大学发布的大规模、多样化自动驾驶数据集,涵盖一天中不
27、同时间、天气条件和驾驶场景.本文在 BDD100K 数据集的基础上筛除一些不均衡的类别,最终选取其中 46500张图片进行训练,按照 7:2:1 比例随机分配,其中训练集32550 张图片,验证集 9300 张图片,测试集 4650 张图片,重新分类为汽车、大车、人、两轮车、交通灯和交通标识共 6 种道路目标.实验使用 NVIDIAGeForceRTX3090 显卡进行模型训练和测试,CPU 为 Intel(R)Xeon(R)Platinum8255C.系统和软件环境为 Ubuntu22.04,Python3.8.10,深度学习框架为 PyTorch1.10.2,训练配置如表 1 所示.表 1
28、模型训练配置参数名称参数值输入图像尺寸640640批处理大小16优化器SGD初始学习率0.01权重衰减系数0.0005动量0.937IoU阈值0.5训练轮次200 2.2 评价指标为了更好地观察网络对不同尺度目标的检测效果,使用 COCO 评价指标进行评价,具体名称和含义如表 2所示.表 2模型训练配置指标名称含义AP0.5:0.95IoU在0.5:0.05:0.95条件下的mAPAP0.5网络在IoU为0.5条件下的mAPAP0.75网络在IoU为0.75条件下的mAPAPS面积小于3232目标的mAPAPM面积在3232到9696目标的mAPAPL面积大于9696目标的mAP 2.3 消融
29、实验为了证明改进模块的有效性,设置了 4 组对比实验,如表 3 所示,其中“”表示在基准网络中加入该模块.从表 3 中可以看到,YOLOv5s+LAM 修改YOLOv5s的 Neck 部分,在每个 Concat 模块后添加位置注意力模块,相比于 YOLOv5s,APS,APM,APL均有一定提高,分别为 0.7%,1.6%,1.2%.说明位置注意力模块能够学习道路目标的空间位置分布规律,增强网络特征提取能力,整体提高网络检测性能.YOLOv5s+STEM 在YOLOv5s 中增加小目标增强分支,与 YOLOv5s 相比,APS,APM分别提高 2.6%以及 1.2%,APL基本保持不变.这表明
30、小目标增强模块在不影响中大目标检测的计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第9期102系统建设SystemConstruction情况下,能够充分结合浅层丰富的小目标空间细节信息以及深层高级语义信息,得到更为有效的小目标特征,提高对小对象的检测性能.结合位置注意力模块和小目标增强模块的改进网络检测性能有显著的提高,APS提高了 2.8%,APM提高了 2.5%,APL提高了 2%.由此可见,改进后的 SE-YOLOv5s 网络能够有效提高对不同尺度道路目标的检测精度.表 3消融实验结果(%)模块AP0.5:0.95AP0.5AP0.75APSAPMAPLLAM
31、STEM25.650.023.312.432.141.026.551.624.113.133.742.227.151.925.015.033.341.127.953.025.915.234.643.0 2.4 对比实验为了检验改进网络在道路目标检测算法中的性能,选择目前主流的道路目标检测网络进行比较,在相同数据集上的实验结果如表 4 所示.从表 4 可知,YOLOv3-tiny 和 YOLOv4-tiny 网络检测速度很快,但检测精度较低;YOLOv5m 在 YOLOv5s 网络的基础上加宽加深,其检测效果最好,但网络计算量和参数量较大,检测帧率相较于 YOLOv5s 下降明显,无法满足自动驾
32、驶的实时性需求;改进网络与 RetinaNet、SSD 以及 YOLOXs网络相比,计算量和参数量更低,并且平均精度有明显领先.由此可见,改进的空间特征增强网络在显著提高检测精度的同时检测帧率仍满足实时性要求,综合性能优于目前其他主流检测算法.表 4网络对比结果模型主干网络输入尺寸mAP0.5(%)计算量(109)参数量(106)帧率(FPS)RetinaNetResNet-50608102439.161.8236.4320SSDVGG-1630030035.730.7424.4044YOLOv3-tiny19Darknet5341641624.513.018.60285YOLOv4-tiny
33、20CSPDarknet5341641628.216.205.80182YOLOXs21Darknet5364064050.626.658.9473YOLOv5mCSPDarknet53+SPPF64064054.648.1020.9045SE-YOLOv5sCSPDarknet53+SPPF64064053.016.567.2663 2.5 可视化实验本文在 BDD100K 数据集中挑选出包含不同类别的道路图片输入 YOLOv5s 网络,然后对网络检测层前一层的 3 个卷积特征图进行 Grad-CAM22可视化.可视化得到的热力图对比结果如图 8 所示,其中左侧为YOLOv5s 检测热力图,
34、右侧为添加 LAM 模块后检测热力图.热力图中绿色目标框中的目标为预测目标,像素对预测目标贡献的高低用冷暖颜色区分,颜色较暖的红色表示对预测目标贡献度高,颜色较冷的蓝色表示对预测目标贡献度低.从热力图对比结果中可以看出 YOLOv5s 网络的注意力为分散,并且对一些目标类别不会出现的地方也会产生响应.比如在图 8(a)(c)中,需要识别的对象为道路上的目标,然而网络在其不会出现的天空区域产生了错误的响应;而在图 8(d)中,需要预测的目标为交通标识,它往往出现在图像顶部区域,而图像底部地面区域却分散了网络的注意力.这些错误位置的特征响应会降低特征的有效性和鲁棒性,导致预测目标分类和定位准确度降
35、低,甚至出现违反常理的预测结果.添加了 LAM 模块改进后的网络对预测目标的注意力更为集中,显著减少了各类别对错误区域的特征响应.这表明 LAM 模块能够很好地学习数据集中各类别的空间分布特征,并根据目标类别抑制错误空间区域的响应,帮助网络聚焦关键区域,从而提高网络的分类和定位的准确度.2.6 网络改进前后对比为了更好地分析改进模块对网络整体性能的影响,改进前后网络的 mAP0.5 以及总损失(totalLoss)对比图如图 9 所示,其中总损失为分类损失、置信度损失、定位损失之和.从图 9(a),(b)中的曲线变化可以发现,改进后的网络在训练 125 轮时收敛,mAP0.5达到最大,并且在训
36、练过程中 mAP0.5 整体高于改进前的 YOLOv5s 网络,总体损失值也更低.改进前后网络在测试集上的实际检测效果对比图如图 10 所示.从图 10 可以看到,改进后的 SE-YOLOv5s网络有更好的检测效果,可以检测出 YOLOv5s 漏检和错检的道路目标,并且在不同光照以及复杂道路场景下鲁棒识别目标.2023年第32卷第9期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设103(a)Car(b)Person(c)Twowheeled_vehicle(d)Traffic_sign图 8热力图对比025YOLOv5sSE-YOLOv5s5
37、075100Epochs(a)mAP 对比(b)总损失对比12515017520000.100.120.140.160.180.200.220.2400.10.20.30.40.50.6255075100EpochstotalLossmAP.0.5125150175200YOLOv5sSE-YOLOv5s图 9网络改进前后 mAP 和总损失对比(a)YOLOv5s 检测效果(b)SE-YOLOv5s 检测效果图 10模型检测效果对比3结论与展望本文在 YOLOv5s 网络的基础上,通过分析自动驾驶场景下目标类别和尺寸的空间分布规律,提出了一种空间特征增强网络 SE-YOLOv5s,成功提高了网
38、络对不同尺度道路目标的检测性能.为了增强网络的空间特征提取能力,在颈部网络中添加位置注意力模块,帮助网络感知道路目标在图像中的空间位置分布.针对检测层中小目标细节信息缺失的问题,添加小目标计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第9期104系统建设SystemConstruction增强模块,结合浅层和深层特征进行多尺度融合,丰富检测层的小目标特征信息.实验结果表明,改进后的SE-YOLOv5s 网络在没有过多增加计算量和参数量的情况下,显著提高了对道路目标的检测精度,优于改进前的 YOLOv5s 网络.参考文献章军辉,陈大鹏,李庆.自动驾驶技术研究现状及发展趋
39、势.科学技术与工程,2020,20(9):33943403.doi:10.3969/j.issn.1671-1815.2020.09.0051Dai XR.HybridNet:A fast vehicle detection system forautonomousdriving.SignalProcessing:ImageCommunication,2019,70:7988.doi:10.1016/j.image.2018.09.0022ChoiS,KimJT,ChooJ.Carscantflyupinthesky:Improv-ing urban-scene segmentation vi
40、a height-driven attentionnetworks.Proceedingsofthe2020IEEE/CVFConferenceonComputer Vision and Pattern Recognition.Seattle:IEEE,2020.93739383.3YuF,ChenHF,WangX,etal.BDD100K:Adiversedrivingdatasetforheterogeneousmultitasklearning.Proceedingsofthe 2020 IEEE/CVF Conference on Computer Vision andPatternR
41、ecognition.Seattle:IEEE,2020.26362645.4Carranza-GarcaM,Lara-BentezP,Garca-GutirrezJ,et al.Enhancing object detection for autonomous driving byoptimizinganchorgenerationandaddressingclassimbalance.Neurocomputing,2021,449:229244.doi:10.1016/j.neucom.2021.04.0015Girshick R.Fast R-CNN.Proceedings of the
42、 2015 IEEEInternational Conference on Computer Vision.Santiago:IEEE,2015.14401448.6RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:Unified,real-timeobjectdetection.Proceedingsofthe2016IEEE Conference on Computer Vision and PatternRecognition.LasVegas:IEEE,2016.779788.7Liu W,Anguelov D,Erhan D,et al.
43、SSD:Single shotmultibox detector.Proceedings of the 14th EuropeanConference on Computer Vision.Amsterdam:Springer,2016.2137.8Lin TY,Goyal P,Girshick R,et al.Focal loss for denseobjectdetection.Proceedingsofthe2017IEEEInternationalConference on Computer Vision.Venice:IEEE,2017.29802988.9ZouZX,ChenKY,
44、ShiZW,et al.Objectdetectionin20years:A survey.Proceedings of the IEEE,2023,111(3):257276.doi:10.1109/JPROC.2023.323852410CaiYF,LuanTY,GaoHB,et al.YOLOv4-5D:Aneffectiveandefficientobjectdetectorforautonomousdriving.IEEETransactionsonInstrumentationandMeasurement,2021,70:4503613.11ZhuXK,LyuSC,WangX,et
45、al.TPH-YOLOv5:ImprovedYOLOv5 based on transformer prediction head for objectdetection on drone-captured scenarios.Proceedings of the2021 IEEE/CVF International Conference on ComputerVisionWorkshops.Montreal:IEEE,2021.27782788.12Chen SB,Lin W.Embedded system real-time vehicledetectionbasedonimprovedY
46、OLOnetwork.Proceedingsofthe3rdIEEEAdvancedInformationManagement,Communicates,ElectronicandAutomationcontrolConference.Chongqing:IEEE,2019.14001403.13刘革,郑叶龙,赵美蓉.基于 RetinaNet 改进的车辆信息检测.计算机应用,2020,40(3):854858.14李彦辰,张小俊,张明路,等.基于改进 Efficientdet 的自动驾驶场景目标检测.计算机工程与应用,2022,58(6):183191.doi:10.3778/j.issn.1
47、002-8331.2109-019015LiuR,LehmanJ,MolinoP,etal.Anintriguingfailingofconvolutionalneuralnetworksandthecoordconvsolution.Proceedingsofthe32ndInternationalConferenceonNeuralInformationProcessingSystems.Montral:CurranAssociatesInc.,2018.96289639.16Dai YM,Wu YQ,Zhou F,et al.Asymmetric contextualmodulation
48、forinfraredsmalltargetdetection.Proceedingsofthe 2021 IEEE Winter Conference on Applications ofComputerVision.Waikoloa:IEEE,2021.949958.17CaoY,XuJR,LinS,etal.GCNet:Non-localnetworksmeetsqueeze-excitationnetworksandbeyond.Proceedingsofthe2019 IEEE/CVF International Conference on ComputerVisionWorksho
49、p.Seoul:IEEE,2019.19711980.18RedmonJ,FarhadiA.YOLOv3:Anincrementalimprovement.arXiv:1804.02767,2018.19BochkovskiyA,WangCY,LiaoHYM.YOLOv4:Optimalspeedandaccuracyofobjectdetection.arXiv:2004.10934,2020.20GeZ,LiuST,WangF,etal.YOLOX:ExceedingYOLOseriesin2021.arXiv:2107.08430,2021.21SelvarajuRR,CogswellM,DasA,etal.Grad-CAM:Visualexplanations from deep networks via gradient-basedlocalization.Proceedings of the 2017 IEEE InternationalConference on Computer Vision.Venice:IEEE,2017.618626.22(校对责编:孙君艳)2023年第32卷第9期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设105