基于YOLOv5改进的轻量化目标检测.pdf

资源描述

1、基于 YOLOv5 改进的轻量化目标检测管嘉程1,2,任红卫2,周宋佳21(吉林化工学院信息与控制工程学院,吉林132022)2(广东石油化工学院自动化学院,茂名525000)通信作者:任红卫,E-mail:摘要:针对移动端目标检测算法需要模型参数量与计算量更少、推理速度更快和检测效果更好以及目标检测算法对于小目标误检、漏检及特征提取能力不足等问题,提出一种基于 YOLOv5 改进的轻量化目标检测算法.该算法使用轻量级网络 MobileNetV2 作为目标检测算法的骨干网络降低模型的参数量与计算量,通过使用深度可分离卷积结合大卷积核的思想降低网络的计算量与参数量,并提升了小目标的检测精度.使用

2、 GhostConv 来替换部分普通卷积,进一步降低参数量与计算量.本文算法在 VOC 竞赛数据集,COCO 竞赛数据集两份数据集上均进行了多次对比实验,结果表明本文算法相比于其他模型参数量更小、计算量更小、推理速度更快以及检测精度更高.关键词:轻量化;深度学习;特征金字塔网络(FPN);YOLOv5;大核卷积引用格式:管嘉程,任红卫,周宋佳.基于 YOLOv5 改进的轻量化目标检测.计算机系统应用,2023,32(9):132142.http:/www.c-s- Lightweight Target Detection Based on YOLOv5GUANJia-Cheng1,2,RENH

3、ong-Wei2,ZHOUSong-Jia21(CollegeofInformationandControlEngineering,JilinInstituteofChemicalTechnology,Jilin132022,China)2(SchoolofAutomation,GuangdongUniversityofPetrochemicalTechnology,Maoming525000,China)Abstract:Mobiletargetdetectionalgorithmsrequirefewermodelparameters,lesscomputation,fasterreaso

4、ningspeed,andbetterdetectioneffects.Thetargetdetectionalgorithmsarepronetofalsedetectionofsmalltargetsandmissingdetectionandhaveinsufficientabilityforfeatureextraction.Tothisend,thisstudyproposesalightweightsmalltargetdetectionalgorithmbasedonYOLOv5.Inthisalgorithm,thelightweightnetworkMobileNetV2is

5、usedasthebackbonenetworkofthetargetdetectionalgorithmtoreducethenumberofparametersandcalculationamountofthemodel.Thedeepseparableconvolutioncombinedwithalargeconvolutionkernelisappliedtodeclinethenumberofparametersandcalculationamount,andimprovethedetectionaccuracyofsmalltargets.GhostConvisadoptedto

6、replacepartofcommonconvolutiontofurtherdecreasethenumberofparametersandcomputationamount.MultiplecomparisonexperimentsarecarriedoutonVOCcompetitiondatasetsandCOCOcompetitiondatasets.Theresultsshowthatcomparedwithothermodels,theproposedalgorithmhasfewerparameters,lesscomputation,fasterreasoningspeed,

7、andhigherdetectionaccuracy.Key words:lightweight;deeplearning;featurepyramidnetwork(FPN);YOLOv5;largekernelconvolution计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(9):132142doi:10.15888/ki.csa.009292http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:广东省基础与应用基础研究基金(202

8、3A1515010168,2019A1515010830);广东省普通高校重点专项(2022ZDZX1018);茂名市科技计划(2022S043);广东石油化工学院博士启动项目(2019BS001)收稿时间:2023-03-30;修改时间:2023-05-11;采用时间:2023-06-06;csa 在线出版时间:2023-08-29CNKI 网络首发时间:2023-08-30132软件技术算法SoftwareTechniqueAlgorithm随着人工智能和深度学习思想的普及,毫无疑问,目标检测作为 CV 领域核心问题.无论是在理论还是应用都进展飞速,并广泛应用到了社会生活的各个方面,诸如智

9、能交通1、医疗辅助2,3、人像识别4、工业自动化5、运动识别6等.通过结合图像处理和深度学习等理论,在图像中随机定位特定区域,通过定位找出输入图像中目标物体的位置信息并确定目标框大小,利用分类判断目标物体的类别.且毫无疑问,做好目标检测是实现目标跟踪,场景理解,事件检测等进阶视觉任务的首要任务.现阶段目标检测的对象,主要分为静态图像和动态视频.视频目标检测以图像检测的理论为基石,利用循环神经网络提取时序信息,最后实现目标检测任务.文献 7 总结罗列了近几年提出的诸多应用于静态图片的图像识别算法.文献 8 总结罗列了这几年来的应用于视频文件的图像识别算法.按目标检测算法的检测原理分类,主要有两类

10、:(1)两阶段检测器,诸如 SPPNET、R-CNN9及其改进版1012.(2)一阶段检测器,主要是 SSD13、YOLO 系列14及其改进15,16.两阶段精度稍高但速度略慢.两阶段检测器的第 1 阶段先找出可能包含目标物体的建议框,第 2 阶段对建议框进行分类,进行预测;一阶段检测器无须寻找建议框阶段,直接确定物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,模型小、速度快、更具实用性.近几年来,因为 YOLOv5 既能满足实时性要求,且能保持较高的检测精度,使得其被广泛应用于各个领域.且基于不同的操作环境和检测任务,还可以选用不同模型大小的 YOLOv5.其中 YOLO

11、v5s 更因为其低计算量与高性能,成为轻量化的理想候选者.伴随着日益增长的移动端部署需求以及检测场景的多样性,轻量化深度神经网络的要求迫在眉睫.各种优秀的卷积网络的理论,诸如 VGG17、ResNet18、DSC 卷积19等,都被融合到轻量化的网络中,用来更有效的提取目标特征以及提升网络效率.MobileNetV120结合深度可分离卷积的思想,通过超参数使模型快速调节以适应特定的工作环境.将其模型与时下主流的模型对比,在模型大小和速度上,MobileNet 都展现出了极强优越性.MobileNetV221在MobileNetV1 的基础上,融合 ResNet 的思想,提出倒残差的架构,并使用一

12、个线性的激活函数避免特征损失.进一步降低模型大小,且提升了准确率.GhostNet22发表于 CVPR2020 上的新颖的端侧神经网络,通过组合少量卷积核与更廉价的线性变化操作代替常规卷积方式,有效地改善了特征提取效率.最近,清华大学、旷视科技等机构的研究者在 CVPR2022上提出了超大卷积核架构 RepLKNet23,利用少量大卷积核换取更大的感受野,弥补了深层小卷积核模型有效感受野局限的缺陷.文献 2427 对 YOLOv5 模型做了改进,一定程度上,实现了轻量化,却均没有用 COCO、PASCALVOC 等一般数据集验证其性能.文献 28 在 YOLOv5上做了轻量化改进,并用 PAS

13、CALVOC 进行性能验证,虽然降低了参数量,计算量.但是很大程度上,牺牲了准确度和速度.提高检测精度的代价是:现代最先进的网络需要高计算资源,超出了许多移动和嵌入式网络应用程序的能力.为了解决 YOLOv5s 难以兼顾模型轻量化与模型检测精度以及对边界框的回归粗糙的问题.本文对YOLOv5s 进行改进,提出 YOLO-MLK(youonlylookonce-mobilelargekernel)目标检测算法用于移动端设备的目标检测任务,主要贡献如下.(1)轻量级网络骨干.使用参数量和计算量更小、移动端目标检测速度更快的 MobileNetV2 为基本架构,替代原本 YOLOv5 的网络骨干,降

14、低网络的计算量,提升模型的运算效率.(2)提出融合深度可分离大卷积的特征图金字塔模块 LKL-PAN.通过拆分空间维度和通道维度的相关性,减少卷积计算所需的参数个数,提升卷积核参数的使用效率.使用大卷积高效直观地增加感受野,避免小卷积核的低效堆叠,减少采样过程带来的特征损失,进一步提升检测速度和检测精度.(3)优化激活函数.引入 SIoU 激活函数,增加检测框尺度的损失,从而提升特征提取能力,使得预测框更为精准,进一步有提升网络的检测精度.1相关工作 1.1 YOLOv5YOLOv5 是 YOLO 系列的经典算法.按照其模型大小递增可分为 s、m、l、x 这 4 种,所有模型均由输入端、Bac

15、kbone、Neck、Head 构成.在输入端部分,首先对图片进行预处理,在网络训练阶段使用 Mosaic2023年第32卷第9期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法133技术进行数据增强、自适应锚框计算以及自适应图片缩放:在 Backbone 部分,YOLOv5 使用了改进的 CSP-Darknet 结构、Focus 下采样结构作为基准网络,搭配SPP 空间金字塔池化层更有效地提取特征信息;Neck部分同样用到了 SPP 模块以及特征金字塔 FPN+PAN模块,实现细节与 Backbone 部分稍有不同,进一步

16、提升提取特征的多样性及鲁棒性.Head 用于完成目标检测结果的输出.不同算法,Head 端的分支个数不同,一般都有一个分类分支以及一个回归分支.YOLOv5 的基本架构如图 1 所示.CSPDarknetinputs(640,640,3)Focus(320,320,12)Conv2D-BN-SiLU(320,320,64)Conv2D-BN-SiLUConv2D-BN-SiLUConcat+CspLayerDownSampleDownSampleConcat+CspLayerConcat+CspLayerConcat+CspLayerConv2DConv2DConv2D-BN-SiLU(160

17、,160,128)CspLayer(160,160,128)CspLayer(80,80,256)CspLayer(40,40,256)CspLayer(20,20,1 024)Conv2D-BN-SiLU(80,80,256)Conv2D-BN-SiLU(40,40,256)Conv2D-BN-SiLU(20,20,1 024)SPPBottleneck(20,20,1 024)SPPBottleneck无处理5913YOLOHeadYOLOHeadYOLOHeadUpSampling2DUpSampling2D图 1YOLOv5 算法架构Conv2D模块是复合卷积模块,由卷积、BN 层和激

18、活函数组成,是 YOLOv5 的最基础模块.BN 层的目的是对数据做归一化处理,防止训练网络的过程中出现梯度消失或爆炸.Focus 模块,首先将得到的图片进行切片操作.将RGB 三通道上的值每隔一个像素取下,切分成 4 张特征图,相当于将高、宽信息压缩到通道空间,使得输入通道扩充为原先的 4 倍.减少信息丢失的同时,提升了网络的效率.CspLayer 模块,也常被称为 C3 模块.特征图经过该模块会进入两个分支,在一个分支中经过标准卷积层以及堆叠的 Bottleneck 模块;另一分支中只经过一个标准卷积层,最后将分别得到的特征图进行拼接.该模块主要用于对残差特征进行学习.SPP模块为空间金字

19、塔池化模块,能够转换任意大小的特征图成为大小固定的特征向量.当特征图经过 SPP模块时,首先经过卷积层减少通道数,接着经过 3 个分支,使用 3 个不同大小的卷积核进行池化下采样,最后按通道数将池化结果与原本的特征图拼接.通道数较原来稍有扩大,但有效地提升了感受野.1.2 深度可分离卷积深度可分离卷积是改进标准卷积计算的算法,其结构由逐通道卷积(depthwiseconvolution)和逐点卷积(pointwiseconvolution)组成.逐通道卷积中,每个通道的特征图都会通过一个卷积核进行卷积运算.如图 2 前段部分所示,此过程后,得到的特征图的通道数与输入时的通道数一致.图 2深度可

20、分离卷积计算机系统应用http:/www.c-s-2023年第32卷第9期134软件技术算法SoftwareTechniqueAlgorithm逐点卷积与常规卷积的运算相似,可以对特征图进行升维和降维操作,其卷积核的尺寸为11.逐点卷积会将逐通道卷积取得的特征图在不同通道上进行加权组合,生成最终的特征图.深度可分离卷积通过转换空间维度和通道维度的信息,提升卷积网络的效率,降低卷积计算的参数量.在检测任务中,深度可分离卷积可以帮助模型有效降低计算量,提高检测性能.1.3 Ghost 卷积Ghost 卷积的核心思想是将一般卷积拆分.如图 3所示,Ghost 卷积从少量非线性的卷积获取的

21、特征上,再使用线性卷积操作,生成 Ghost 特征图.接着将两段卷积得到特征图叠加,得到更多通道数的特征图.借此消除冗余特征,轻量化模型计算.whc输入恒等映射输出本征特征图Ghost 特征图12n.图 3幽灵卷积2改进的 YOLOv5 算法 2.1 网络整体结构本文对 YOLOv5 算法进行了改进,改进后的 YOLO-MLK 模型网络结构如图 4 所示,算法架构如表 1 所示.首先,使用轻量级网络 MobileNetV2 替代原本的骨干网络.接着提出一种新的融合深度可分离大卷积的特征图金字塔网络 LKL-PAN.最后,替换了网络的损失函数,使用 SIoU 作为网络的损失函数.FocusCon

22、vConvConvConvSliceSliceSliceSliceConvConvConvConvConvConvConvConvAddSPPBottleneck(True)Bottleneck(False)Bottleneck(False)FocusConv BN SiLUConvConvConcatConcatConcatConcatConcatConcatConcatConcatConvConvUpsampleUpsampleUpsampleConvSPPC3-1 trueC3-1 FalseC3-1 FalseC3-1 FalseC3-1 FalseC3-1 FalseC3-1 Fal

23、seC3-1FalseC3-1FalseC3-1FalseGhostConvGhostConvDSConvDSConvDetectMaxPoolMaxPoolMaxPoolC3-n图 4YOLO-MLK 模型架构表 1 中,MobileNetV2-1 为 MobileNetV2 的 13 层,MobileNetV2-2 的 4 和 5 层,MobileNetV2-3 为 Mobile-NetV2 的 69 层,Upsample 为上采样,Concat 为数据拼接,SPPF 为快速空间金字塔池化模块,C3 为 YOLOv5中的 C3 模块,DSConv 为深度可分离卷积,GhostConv为幽灵

24、卷积.2.2 轻量化骨干网络骨干网络是目标检测任务的基本特征提取器,优质的骨干网络能够提取丰富的特征,降低目标检测任务的复杂性,提高目标检测网络的性能.YOLOv5 的骨干网络为 CSPDarknet53,相比与 YOLOv4 的骨干网络具有参数量更小,检测速度更快,特征提取效率更高的优点.但是 CSPDarknet53 并不能很好地适应移动端设备,参数量、计算量和特征提取仍有提升的空间.受目标检测网络模型轻量化的思想启发,本文选取MobileNetV2 替代 YOLOv5 中的 CSPDarknet 作为目标检测网络的骨干网络,降低模型的计算量和计算量,提高模型的特征提取效率,模块组成如表

25、2 所示.其中,Input 表示输入的特征图大小,Operator 表示执行相应的操作,t 表示瓶颈层内部升维的倍数,c 表示输出特征的维数,n 表示该瓶颈层重复的次数,s 表示瓶颈层第 1 个卷积操作的步幅,Conv2D 表示标准卷积2023年第32卷第9期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法135模块,Bottle-neck 表示瓶颈层模块,avgpool表示平均池化操作.表 1YOLO-MLK 算法的架构层数From参数量模块名称1155488MobileNetV2-121487040MobileNetV2

26、-2311681344MobileNetV2-3412132224SPPF5187040DSConv610Upsample71,20Concat81321024C39160160DSConv1010Upsample111,10Concat12178592C313175584GhostConv141,90Concat151329216C3161298624GhostConv171,40Concat181118720C319167425Detect表 2MobileNetV2 算法的架构InputOperatortcns22423Conv2D3212112232Bottleneck11611112

27、216Bottleneck6242256224Bottleneck6323228232Bottleneck6644214264Bottleneck6963114296Bottleneck61603272160Bottleneck63201172320Conv2D11128011721280avgpool771111280Conv2D11k相比于 MobileNetV1 网络,MobileNetV2 网络优化了瓶颈层(Bottleneck)的结构,提高网络的特征提取效率和能力.MobileNetV2 的瓶颈层使用了倒残差结构和线性瓶颈层的思想,其由扩展层、逐通道层和投影层构成,如图 5 所示.图

28、 5MobileNetV2 的 Bottleneck每个瓶颈层首先在扩展层使用 11 卷积将低维特征映射到高维空间,并通过 ReLU6 激活函数激活.然后经过逐通道层时,使用 33 的逐通道卷积将高维特征映射到高维空间,提取到足够多的整体信息,并通过ReLU6 函数激活.最后经过投影层时,使用 11 的普通卷积,将高维特征映射回低维空间去,并使用线性函数激活,可以有效防止高维特征映射到低维空间时丢失提取出的特征.这样的瓶颈层结构可以保证在进行残差连接的时候,相互连接的都是低维度的,来减少计算量.2.3 融合深度可分离大卷积的特征图金字塔模块FPN 能够融合不同层的特征信息,基本不增加模型计算量

29、,且能有效提升目标检测的性能.尽管 FPN只提出了短短几年,却已被广泛用于机器视觉领域,用于不同尺度的特征融合.越来越多的多尺度特征融合网络被提出,诸如 NAS-FPN、M2det 以及 PANet 等,都展现出了优异的效果.自底向上的前向传播结构和自顶而下的上采样结构,通过横向连接进行路径整合,使得 YOLOv5 中的FPN+PAN 具备了更优的多尺度融合结果.但其劣势也十分明显,模型结构更加冗余复杂,从而使得特征主干网络的原始输出特征无法被有效地提取.深度可分离大卷积通过直观地增加目标检测任务的感受野,避免了小卷积核不断堆叠的低效陷阱,并且深度可分离通过对普通卷积进行纵向和横向的解耦,降低

30、参数量与计算量,提升了卷积的效率.Ghost 卷积首先利用少量的卷积核对输入特征图进行特征提取,然后进一步地对这部分特征图进行更价廉的线性变化运算,最后通过 Concatenation(拼接操作)生成最终的特征图.这个方法减少了非关键特征的学习成本:即通过组合少量卷积核与更廉价的线性变化操作代替常规卷积方式,从而有效降低对计算资源需求的同时,并不影响模型的性能.为此,提出了一种简单但高效的融合深度可分离大卷积与 Ghost 卷积的特征图金字塔网络,称为 LKL-PAN(largekernellightweightaggregationnetwork).LKL-PAN 使用深度可分离卷积结合大卷

31、积并结合 Ghost 卷积对颈部网络进行了改进,在 PAN 部分使用深度可分离卷积结合大核卷积的思想直接提升了目标的感受野,并且对算法的参数量与计算量进行控制,其结构如图 6 所示.提出的特征图金字塔网络具体实施过程如下.(1)使用卷积核大小为 1313 深度可分离大卷积计算机系统应用http:/www.c-s-2023年第32卷第9期136软件技术算法SoftwareTechniqueAlgorithm替换原本的 FPN 结构中下采样阶段卷积,以此扩大特征提取有效感受野,避免了小卷积核不断堆叠的低效陷阱,提升网络的特征提取能力.(2)使用 33Ghost 卷积替换原本 PAN 结

32、构上采样阶段卷积,从而实现轻量化特征提取网络.Ghost 卷积使用少量的卷积核对输入特征图进行特征提取,通过更价廉的线性变化运算并使用拼接操作生成最终的特征图,减少了非关键特征的学习成本.1313 DSConv33 GhostConvStride=2ConcatConcat2Upsample图 6LKL-PAN 结构如何合理选择深度可分离大卷积核的尺度,从而提取更有效的特征?在综合考虑模型参数量与计算量后,本文选择使用卷积核大小为 21、13 和 7 的深度可分离卷积替代 Neck 中下采样的阶段的普通卷积,并在 VOC数据集上使用 mAP0.5 这个指标来衡量模型的效果.卷积核组合表示两个下

33、采样阶段的深度可分离卷积的卷积核大小,参数量表示模型总体参数量大小,计算量表示模型总体计算量大小,mAP0.5 表示预测精度.从表 3 可知,使用 21+13 的卷积核组合效果最好,但模型参数量较大.使用 13+13 的卷积核组合效果与21+21 的卷积核组合精度排并列第二.综合考虑模型的参数量、计算量与预测精度后,本文最终选择 13+13的卷积核组合.表 3不同尺度深度可分离大卷积核实验卷积核组合参数量计算量(GFLOPs)mAP0.5(%)21+217.212.483.221+137.112.283.413+217.012.383.113+136.912.183.213+76.912.08

34、3.07+136.812.182.87+76.812.082.8 2.4 损失函数YOLOv5 中的损失函数一共由 3 部分组成,分别是分类损失、定位损失、置信度损失.分类损失用于评估预测框及对应分类的正确程度;定位损失用来表示预测框与真实目标框两者间的误差大小;置信度损失表示锚框中目标物体是否存在的条件损失.CIoU 损失函数考虑了检测框尺度和检测框长和宽的 loss,这使预测框更加的符合真实框.但未解决检测框纵横比描述使用的是相对值,且 CIoU 损失函数中并没有考虑检测框的角度问题,这也会影响模型在训练过程中的回归.为减小上述 CIoU 损失函数在实际应用中暴露的问题,本研究采用了 SI

35、oU 损失函数.IoUSIoU 在 CIoU 的基础上通过计算检测框宽高的差异值取代了纵横比,解决了检测框纵横比描述使用的是相对值的问题,优化预测框的大小的确定.并考虑了检测框角度损失对于确定最终预测框的影响,使得预测框位置更加准确,也优化模型在训练过程中的回归.SIoU 损失函数包含 4 个部分:形状损失、损失、距离损失以及角度损失.计算公式如下:LSIoU=1IoU+2(1)IoU其中,是形状损失,是距离损失,为目标准确度损失.SIoU 对距离损失做了重新定义,把角度损失也纳入了考虑范畴.如式(2)式(4)所示:=t=x,y(1et)(2)=12sin2(arcsin(x)4)(3)x=

36、Ch=sin()(4)Ch其中,代表目标框 B 与目标框 BGT的中心连线,代表垂直距离等于的长度取正弦值,如图 7 所示.BChCwBGT图 7SIoU 角度损失示意图3实验与结果分析 3.1 数据集3.1.1PASCALVOC 数据集PASCALVOC(thePASCALvisualobjectclasses)是世界闻名的 CV 挑战赛.本研究选取了 PASCAL2023年第32卷第9期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法137VOC2007 和 2012(即 VOC2007+VOC2012)数据集进行实验

37、,整个数据集总共包含 4 大类和 20 小类.训练集部分,选用了 VOC2007 以及 VOC2012 数据集的 train和 val 部分,总共包含图片 16551张;测试集部分,选用 VOC2007 数据集的 test 部分,总共包含图片4952 张.图 8 是数据可视化分析.12 00010 0008 0006 0004 0002 00010Instancesaeroplanebicyclebottlebuscarcatchaircowdiningtablemotorbikepottedplantsheepsofatraintvmonitorbirdboatdoghorseperson(

38、a)标签类别分布(c)标签中心位置分布(b)标签框尺寸分布1.00.80.60.40.2000.20.4x0.60.81.0y(d)标签大小分布1.00.80.60.40.2000.20.4Width0.60.81.0Height图 8VOC 数据集可视化分析3.1.2COCO 数据集MSCOCO(Microsoftcommonobjectsincontext)是机器视觉领域最权威和关注度最高的的比赛之一.该数据集主要从复杂的日常场景中截取,是同时可用于语义分割,图像标题生成和图像检测的大型数据集.作为目前有语义分割的数据集,其中收录了超过 330k张图像(其中超 200k 张已标注过),目标

39、数超 150 万个,80 个目标类别(objectcategories:火车、船、猫等),91 种无明确边界的材料类别(stuffcategories:街道、墙、天空等)以及带关键点标注的 25 万个行人影像.以下是 COCO 数据集的数据可视化分析,如图 9所示.3.1.3网络设置与训练实验所使用硬件配置如表 4 所示.在网络训练前,把数据集设置为训练集、验证集和测试集.实验总迭代设置为 300 次,前 3 次迭代用作预训练,学习率调整采用梯度下降(SGD)策略.预热结束,采用余弦退火策略.网络训练中,batch_size 的参数调整为 8.训练完 YOLOv5 模型后,接着训练 YOLO-

40、MLK模型,将 YOLOv5 的部分权重转移到 YOLO-MLK 上,可节省大量的训练时间.同上,实验总迭代 300 次,其他参数保持一致.计算机系统应用http:/www.c-s-2023年第32卷第9期138软件技术算法SoftwareTechniqueAlgorithm250 000200 000150 000100 00050 0000020406080Instances(a)标签类别分布(c)标签中心位置分布(b)标签框尺寸分布1.00.80.60.40.2000.20.4x0.60.81.0y(d)标签大小分布1.00.80.60.40.2000.20.4Width0.

41、60.81.0HeightClasses图 9COCO 数据集可视化分析表 4实验硬件配置参数实验环境操作系统Ubuntu18.04CPU11thGenIntelCoreTMi7-11700FCPU2.50GHzGPUNVIDIAT43内存64GBPython3.8深度学习框架PyTorch1.11.1,CUDA11.1 3.2 评价指标与实验结构分析3.2.1评价指标为验证算法的性能,本研究选用了几项目标检测中常用的评价标准,参数量,模型大小,计算量,mAP0.5来衡量本文提出的 YOLO-MLK 算法模型.模型大小,参数量和计算量用作衡量模型的复杂程度和网络的深度,mAP0.5 主要体现神

42、经网络的检测能力是否准确.mAP0.5:0.95 要求更高的 IoU 阈值,在准确召回的基础上,用于衡量目标定位效果和边框回归的是否精准.平均精度均值 mAP 中的 P-R 曲线,即平均精度 AP.计算公式如下.(1)精确率(P)和召回率(R):P=TPTP+FP100%(5)R=TPTP+FN100%(6)其中,TP(truepositives)代表被准确识别出的目标数,FP(falsepositives)代表错检的目标数,FN(falsenegatives)表示未被检出的目标数.(2)平均精度和平均精度均值:AP=10P(R)dR(7)2023年第32卷第9期http:/www.c-s-计

43、算机系统应用SoftwareTechniqueAlgorithm软件技术算法139mAP=PANc(8)其中,Nc 表示检测目标类别的数量,PA表示单个类别计算出的平均精度.模型的 P-R 曲线可由得到的实验数据绘制,曲线的面积即为 AP 值.mAP 表示全部目标类别的 AP 取平均值的结果.mAP 值越高,越趋近于 1.表示神经网络的识别能力越强.3.2.2VOC 数据集实验分析为了验证本文所提算法 YOLO-MLK 的网络性能,选取了 YOLOv3、YOLOv5s、YOLOv5-MobileNetV3-Large、YOLOv4-MobileNetV2、YOLOv4-Mobile

44、NetV3-Large、YOLOv4-EEEA-Net-C2、SSD、Faster、Cascade等模型在 VOC 数据集上进行对比.实验结果如表 5 所示.可见,YOLO-MLK 不仅模型的复杂度更小,在精度上亦优势明显.其 mAP0.5 是对比的众多模型中最优的.表 5VOC 数据集实验分析模型Params(M)模型大小(M)计算量(GFLOPs)mAP0.5(%)YOLOv5s(2020)7.114.216.182.0YOLOv5-MobileNetV3-Large(2022)7.4514.911.781.6YOLOv4-MobileNetV2(2021)46.392.68.781.5Y

45、OLOv4-MobileNetV3-Large(2021)47.394.68.578.9YOLOv4-EEEA-Net-C2(2021)31.563.05.581.8SSD41.182.2387.976.7YOLOv362.0134.0156.482.4Ours6.913.812.183.2与参数量更大,计算量相近 YOLOv5-MobileNetV3-Large 相比,YOLO-MLK 在 mAP0.5 上有 1.4 个百分点的提升.与基于 YOLOv4 框架的 MobileNetV2、MobileNetV3-Large、EEEA-Net-C2 轻量级主干目标检测算法对比,YOLO-MLK

46、无论在参数量还是检测精度方面都具明显优势.与 YOLOv5s 对比,参数量 mAP0.5上提高 1.1%.在计算量这个指标上,YOLO-MLK 也是优于众多目标检测算法.YOLO-MLK 优化了模型的时间、空间复杂度,且明显提升了检测精度.并使其对硬件需求更低,更适用于成本相对较低的工业检测问题.3.2.3COCO 数据集实验分析为了进一步验证 YOLO-MLK 的网络性能,将其与 YOLOv5s、SSD、YOLOX-Tiny、YOLOv6-N、YOLOv7-Tiny 等进行比较,实验结果如表 6 所示.显而易见,YOLO-MLK 在 mAP0.5:0.95 值上,优于其他目标检测算法.在与原

47、始 YOLOv5 对比中,YOLO-MLK算法在模型参数量和计算量显著降低的情况下,mAP0.5:0.95 提升了 0.3%.在与最新的 YOLOv7-Tiny 算法的对比中,YOLO-MLK 在模型计算量明显降低更有优势,并且 mAP0.5:0.95 略高.这证明了 YOLO-MLK具备更优越的检测能力.表 6COCO 数据集实验分析模型Params(M)模型大小(M)计算量(GFLOPs)mAP0.5:0.95(%)YOLOv5s(2020)7.214.416.537.2SSD36.162.225.1YOLOv4-Tiny(2020)6.112.221.7YOLOX-Tiny(2021)6

48、.513.05.132.8YOLOv6-N(2022)4.38.611.735.9YOLOv7-Tiny(2022)6.212.413.737.4Ours7.114.212.837.5 3.3 定性评价本研究选取了 5 组 VOC 测试集中的目标图片对YOLOv5-MobileNetV3-Large、YOLOv5s、YOLOv4-EEEA-Net-C2 和 YOLO-MLK 的检测效果进行定性评价,对比结果如图 10 所示.(a)YOLOv5-MobileNetV3-Large(b)YOLOv4-EEEA-Net-C2(d)本文算法(c)YOLOv5s 算法图 10其他算法与本文算法效果对比图

49、在第 1 组先验目标较少的实验图片中,其他的模型均出现一定程度的遗漏目标的情况,而 YOLO-MLK准确无误地识别出了所有目标.在第 2 组目标较为多,且有明显遮挡情况的实验图片中,YOLOv5-MobileNetV3-Large 中出现了大量很大程度的漏检,YOLOv4-EEEA-Net-C2 在大量漏检的情况下,还出现了错检.YOLOv5s计算机系统应用http:/www.c-s-2023年第32卷第9期140软件技术算法SoftwareTechniqueAlgorithm中的漏检相对改善.YOLO-MLK检测出了更多的正确目标,表现出了更优越检测性能.在第 3 组目标密集但并

50、无遮挡的实验图片中,其他的算法模型均出现了不同程度的错检,而 YOLO-MLK 准确鉴别出所有目标,且无错检与漏检的情况出现.在第 4 组实验图片的目标数较少,但有部分位于图像边缘且类别特征并不完整的目标.YOLOv5-MobileNetV3-Large、YOLOv4-EEEA-Net-C2、YOLOv5s 均有边缘目标未被识别的情况发生,YOLO-MLK 明显改善了边缘目标的漏检情况.第 5 组实验图片中的目标较多,大中小目标均存在,YOLOv5-MobileNetV3-Large、YOLOv5s、YOLOv4-EEEA-Net-C2 在小目标和中等目标的检测中,都出现了漏检,而 YOLO-

展开阅读全文