基于深度学习的轻量化目标检测方法研究.pdf

资源描述

1、鄢国家重点研发计划资助渊2020YFB1600704冤目标检测被广泛应用于自动驾驶尧机器人视觉尧智能交通尧工业质量检测等在内的许多计算机视觉任务中遥目标检测在计算机视觉中是一项经典的挑战袁旨在识别图片或视频中的物体类别和物体位置遥现有的目标检测算法可分为两类院基于锚框的和无锚框的遥基于锚框的一般可分为单阶段检测和两阶段检测遥通常基于锚框的两阶段目标检测咱1暂首先从图像中生成包含目标的区域袁然后在从区域中生成最终的边界框遥两阶段目标检测的检测精度更高袁但计算量较大难以在嵌入式设备上实现实时检测遥单阶段目标检测咱2暂在速度和精度之间有较好的平衡袁因此在实践中有广泛的应用袁其中 SSD咱2暂

2、在检测小目标对象时更友好袁但精度上没有竞争力袁YOLO 系列算法咱3暂在速度和精度方面都表现良好袁但是依然存在以下的问题院淤针对不同的数据集需要手动重新设计锚框的大小曰于生成的锚框大部分都是无用的袁导致了正负样本不均衡的问题遥无锚框目标检测旨在消除锚框袁这是对目标检测的一个显著的改进遥无锚框的目标检测解决了基于锚框检测的一些问题袁降低了内存开销袁提供了更精确的边界框计算袁提高了准确率遥在轻量化目标检测领域袁人们致力于实现更精确尧更高效的目标检测遥 YOLObile咱4暂利用模型裁剪和推理加速的方法袁实现了在移动设备上的实时目标检测袁在模型复杂度上有了改进袁但对于精度没有很好兼顾遥 Nan

3、oDet咱5暂则采用了分组卷积代替标准卷积的方法袁使用了 ShffleNetv2咱6暂作为骨干网络使模型更轻袁并使用 ATSS咱7暂和 GFL 来提高精度袁最终计算量显著下降袁但精度损失严重遥 YOLOX鄄Nano是目前 YOLOx咱8暂系列中最轻的型号袁是无锚框目标检测算法的一种袁解决了 YOLO 系列算法的锚框均衡问题遥因此袁本文在通用目标检测网络算法框架的基础下袁提出一种改进的轻量化目标检测算法袁主要改进点如下院1冤结合深度卷积和线性变换袁提出了一种减少冗余特征图的 G-Module 结构袁并利用一维卷积提出了一种不降维的高效跨通道交互模块袁同时将标准卷积替换为深度可分离卷积和

4、分组卷积袁实现了轻量化的主干网络模型遥2冤重新设计 CSP-PAN 结构袁对输入到颈部的所有分支的通道数进行 11 卷积统一化袁显著提高了特征提取能力袁降低了网络参数袁同时将 33 的深度可分离卷积替换为 55 的深度可分离卷积袁扩大了感受野遥1网络结构在本节中袁主要介绍了本文设计的轻量化主干网络和颈部与头部模块的增强策略遥整体网络结构如图 1 所示院基于深度学习的轻量化目标检测方法研究鄢田青李迁迁张正渊北方工业大学信息学院袁北京 100144冤谢莎婷渊北京市地铁运营有限公司袁北京 100044冤Research on Lightweight Target Detection Meth

5、od Based on Deep Learning摘要院针对目前常用的目标检测算法模型体积大尧计算复杂度高尧难以部署到嵌入式设备等问题袁基于通用目标检测算法的思想提出了一种全新的轻量化目标检测模型遥首先袁利用深度可分离卷积和分组卷积重新设计了主干网络曰其次袁提出高效跨通道交互模块袁对每个通道进行加权运算袁以获得更多的关键特征曰最后袁改进了颈部的轻量化结构袁提高了网络的特征提取能力遥在 COCO 数据上袁0.99M 参数量的模型的 mAP 达到了 30.6%袁证明了该方法在准确率和效率之间实现了更好的平衡袁为目标检测轻量化研究提供了参考遥关键词院深度学习曰轻量化曰目标检测Abstract:Ai

6、ming at the problems of large volume,high computational complexity and difficult deployment to embeddeddevices,this paper proposes a new lightweight target detection model based on the idea of general target detection algo鄄rithm.Firstly,the backbone network is redesigned using deep separable convolu

7、tion and packet convolution.Secondly,anefficient cross-channel interaction module is proposed,and each channel is weighted to obtain more key features.Thelightweight structure of the neck is improved and the feature extraction capability of the network is enhanced.In terms ofCOCO data,mAP of the mod

8、el with 0.99M parameter number in this paper reaches 30.6%,which proves that the proposedmethodachieves abetterbalance betweenaccuracyandefficiency,andprovidesa referencefortheresearchonlightweight target detection.Keywords:deep learning,lightweight,object detection图 1整体网络结构基于深度学习的轻量化目标检测方法研究108叶工业控

9、制计算机曳圆园圆3 年第猿6 卷第 8 期1.1 主干网络1.1.1 G-Module 模块随着卷积核数量的增加袁生成的特征矩阵的通道数也会增加袁FLOPs 也会显著地增加遥因此袁为了减少计算量袁必须减少卷积核的数量遥本文结合深度卷积和线性变换提出了 G-Mod鄄ule 模块袁在不影响精度的同时降低了模型计算量遥具体结构如图 2 所示院图 2G-Module 模块G-Module 可以分为两个部分袁其中第一部分是卷积运算袁在这里使用少量的卷积核以减少计算量遥其中输入特征矩阵 X 为c伊澡伊憎袁卷积运算 F 的大小为噪伊噪袁卷积核的个数为 m 个袁故第一部分的总体参数计算量匀伊宰伊

10、皂伊c伊k伊k=H伊W伊ns伊c伊k伊k遥第二部分是线性变换袁它使用一系列的深度卷积在 m 个特征映射上做变换渊n=m伊泽冤袁其中每个卷积核的大小是 d伊d袁输出特征矩阵 Y=n伊H伊W袁故第二部分总体参数计算量为匀伊宰伊皂伊d伊d伊渊泽原员冤=H伊W伊ns伊d伊d伊渊s-1冤遥当使用标准卷积的完成上述操作袁在输入特征矩阵为 c伊h伊w袁输出特征矩阵为 Y=n伊H伊W 的情况下袁标准卷积的参数计算量为匀伊宰伊c伊k伊k伊n遥R=H伊W伊c伊k伊k伊nH伊W伊c伊k伊k伊ns+H伊W伊ns伊d伊d伊渊s-1冤=c伊k伊kc伊k伊k伊1s+d伊d伊s-1s=s伊cs+c-1抑s渊1冤R 为标

11、准卷积的参数计算量与本文提出的 G-Module 参数计算量之比遥由此可知袁标准卷积的参数计算量为本文提出的G-Module 参数计算量的 s 倍遥因此袁G-Module 在获得相同的特征映射时袁既保留冗余特征的同时又显著降低了模型的复杂度袁这对后续的模型部署有很大的影响遥1.1.2 高效跨通道交互模块 ECI-Module本文提出的高效跨通道交互模块放弃了降维操作袁有效地捕获了跨通道之间的交互袁具体结构如图 3 所示院图 3高效跨通道交互模块本文使用的高效跨通道交互模块 ECI-Module 利用全局池化来聚合特征图的空间特征袁然后通过 k 次一维卷积操作来生成通道权重袁并通过通

12、道维度映射自适应调整 K 值遥该模块的目的是捕获跨通道之间的交互袁其中关键的是确定交互覆盖率遥由此类推袁相互作用的覆盖率应与通道维数 C 成正比袁可以表达成公式渊2冤院C=渊运冤渊2冤由于映射未知袁一般来说袁最简单的线性函数可以表示为C=k伊赠垣b遥但从上述分析可知袁K 与 C 呈非线性比例关系袁通道C 一般为 2 的指数次幂遥所以袁可以将线性函数 C 转化为非线性函数的指数形式袁如公式渊3冤所示院C=渊K冤=2k伊y-b渊3冤因此袁在给定通道数 C 的情况下袁则 K 的值可以通过公式渊4冤求解院K=渊C冤=logC2y+byodd渊4冤公式渊4冤中 odd 指的是最接近公式渊4冤的奇数遥

13、在本文中袁y 和 b的值分别为 2 和 1遥因为 y 和 b 是确定的袁所以 K 与 C 成正比袁C 的值越大袁K 的值就越大遥1.1.3 G-Block图 4 详细展示了改进后的主干网络的单一模块 G-Block遥高效跨通道交互模块的两层激活函数分别为 ReLU 和 H-sig鄄moid遥通道 shuffle 操作虽然提供了通道间的信息交换功能袁但会导致融合特性的丢失遥为了解决这一问题袁在步长为 2 的 G-Block 模块中增加了深度卷积和逐点卷积以整合不同通道间的信息遥上文提出的 G-Module 可以用更少的参数生成更多的特征映射袁以提高网络的学习能力遥在步长为 1 的 G

14、-Block 模块中添加 G-Module 以进一步提高学习能力遥图 4G-Block 模块1.2 CSP-PAN 和 Detector head 检测头本文使用 PAN 特征金字塔结构获取多层特征图袁使用 CSP结构进行相邻特征图之间的特征拼接和融合遥在原始的 CSP-PAN 中袁每个输出特征映射矩阵的通道数与来自主干网络的输入保持一致袁但对于移动设备来说袁具有大通道数的结构具有昂贵的计算成本袁本文通过 11 的卷积使所有特征映射矩阵的通道数等于它们之中最小的通道数来解决这个问题袁然后通过 CSP结构进行自顶向下和自底向上的特征融合遥此外袁本文在 CSP-PAN 的顶部增加了一个特征图

15、以检测更多的对象遥除了 11 的卷积外袁所有的卷积都是深度可分离卷积袁深度可分离卷积都采用 55 的大小来扩展感受野袁这样的结构以更少的参数带来了相当大的精度提升遥具体结构如图 1 所示遥在检测头中袁本文使用 55 的深度可分离卷积来扩展感受109野袁深度可分离卷积的个数可以设为 2尧4 或者更多袁整个网络结构如图 1 所示遥颈部和头部都有 4 个独立的分支袁本文使头部的通道数和颈部模块的通道数保持一致袁并预测分类和位置回归袁在不减少通道数量的情况下性能更好遥2实验结果与分析2.1 数据集本文数据集采用 COCO 数据集袁COCO 数据集是微软构建的一个数据集袁包含了人尧自行车尧牛尧领带

16、尧电脑尧椅子等 80类常见的目标袁其中 COCO 数据集中的图片包含了自然图片以及生活中常见的目标袁背景比较复杂袁目标数量比较多袁目标尺寸更小袁因此衡量一个模型的好坏的标准更倾向于使用 COCO数据集上的检测结果遥本文所有的实验都在 COCO-2017 训练集上进行训练袁训练集包含 80 类目标和 118 k 张照片袁并在COCO-2017 验证集进行评估袁验证集包含 5000 张照片遥2.2 实验环境本文实验采用 Ubuntu18.04 的操作系统袁利用 Pytorch 构建神经网络模型袁硬件平台为 NVIDIA GeForce RTX2080Ti袁运行内存为 11 GB遥在训练中

17、袁采用 SGD 优化器袁并引入动量和学习率两个参数袁初始学习率为 0.1袁动量设置为 0.9袁学习率衰减为 4e-5袁批处理大小默认为 64袁总共训练 300 个 epoch遥2.3 评价指标本文采用 mAP渊mean Average Precision冤评价网络模型的精度袁采用参数量渊Params冤尧浮点型计算量渊Floating PointOperation袁FLOPs冤评价网络模型轻量化遥其中 mAP 为每类目标 AP 的加权平均所得遥 AP 是 P-R 曲线与坐标轴围成的面积袁用来评价每类目标准确度的指标遥其中 Precision尧AP 和 mAp的计算公式如下院P=TPTP+FP

18、渊5冤AP=t0乙p渊r冤dr渊6冤mAP=q沂QR移AP渊q冤渊7冤2.4 实验结果本文将改进后的网络与当前主流的轻量化目标检测网络进行对比验证袁采用 COCO 数据集袁对 mAP尧Params尧FLOPs 等指标进行评价袁具体对照情况如表 1 所示院表 1轻量化目标检测网络对比结果从实验结果可以看出袁本文提出的模型在准确率和参数计算复杂度之间实现了更好的权衡遥相较于 YOLOX-Nano袁本文的模型在只有 0.99M 参数的情况下袁实现了 30.6%的 mAP袁提高了4.8%曰相较于 NanoDet-M袁本文的模型在计算量相当的情况下袁mAP 提高了 7.1%曰相较于 YOLOv5s

19、袁本文的模型参数量只有 YOLOv5s 的 13%袁计算量仅有 YOLOv5s 的 7%的情况下袁mAP 仅相差 6.6%遥综上可见袁本文的方法在准确率和轻量化之间实现了更好的平衡遥所有的实验结果都在 COCO-2017 验证集上得到的袁所有的消融实验的结果如表 2 所示遥表 2各模块消融实验结果首先采用与 NanoDet 相似的基础模型袁主干网络采用ShuffleNetV2-1x袁颈部采用无卷积的 PAN 结构袁损失函数为GFL loss袁标签分配策略采用 ATSS袁所有的激活函数为LeakyRelu袁最终的 mAP(0.5:0.95)为 25.3遥然后加入了带有三个特征图的

20、 CSP-PAN 结构袁mAP(0.5:0.95)增加到了 28.1袁最后在 CSP-PAN 顶部再添加一个特征图袁就和上文中提出的CSP-PAN 的结构一样袁参数的数量增加不到 50 k袁mAP(0.5:0袁95)进一步提高到了 29.1遥结果如表 2 所示遥在与上一节相同的配置下袁使用本文提出的主干网络来替换 Base 中的 ShuffleNetv2-1x袁在参数减少 0.18M 的情况下袁mAp渊0.5:0.95冤只降低了 0.3袁最终达到了 29.7遥在与上一节相同的配置下袁将所有的 LeakyReLu 激活函数替换为 H-Swish 激活函数袁mAP渊0.5:0.95冤最

21、终增加到了 30.6遥3结束语本文提出了一种全新的轻量化目标检测算法袁改进了主干网络尧特征融合模块袁提高了模型的检测性能袁使得该模型在轻量化和准确率上都有显著的提升遥主要得益于以下的改进院淤利用深度可分离卷积和分组卷积重新设计了主干网络袁提出了高效跨通道交互模块袁对每个通道进行加权运算袁以获得更多的关键特征曰于本文的颈部结构更轻袁可以赋予主干网络和头部更多的权重遥在相同的参数量下袁本文模型的 mA孕超过了 YOLOX-Nano遥本文提出的方法在轻量化方面具有一定的可行性和优越性遥参考文献咱1暂ROSS GIRSHICK.Fast R-CNC/Proceedings of the IEE

22、E In鄄ter-national Conference on Computer Vision,2015:1440-1448咱2暂WEI LIU,DRAGOMIR ANGUELOV,DUMITRU ERHAN,et al.SSD:Single shot multibox detectorC/European conferenceon computer vision,2016:21-37咱3暂ALEXEY BOCHKOVSKIY,CHIEN-YAO WANG,HONG YUANMARK LIAO.YOLOv4:Optimal Speed and Accuracy of Ob鄄ject Detec

23、tionJ.arXiv preprint arXiv:2004.10934,2020咱4暂YUXUAN CAI,HONGJIA LI,GENG YUAN,et al.YOLObile:Real-time Object Detection on Mobile Devices via Compres鄄sion-compilation co-designC/The 35th AAAI Comferenceon Artificial Intelligence,2021:955-963咱5暂NanoDetEB/OL.https:/ MA,XIANGYU ZHANG,HAI-TAO ZHENG,et al

24、.Shufflenet v2:Practical Guidelines for Efficient CNN Architec鄄ture DesignC/Proceedings of the European conference oncomputer vision(ECCV),2018:116-131咱7暂SHIFENG ZHANG,CHENG CHI,YONGQIANG YAO,et al.Bridging the Gap Between Anchor-based and Anchor-freeDetection via Adaptive Training Sample SelectionC/Pro鄄ceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,2020:9759-9768咱8暂ZHENG GE,SONGTAO LIU,FENG WANG,et al.YOLOX:Ex鄄ceeding YOLO SeriesJ.arXiv preprint arXiv:2107.08430,2021咱收稿日期院圆园圆圆原员圆原圆圆暂基于深度学习的轻量化目标检测方法研究110

展开阅读全文