基于深度学习的目标检测算法综述.pdf

资源描述

1、SCIENCE&TECHNOLOGY INFORMATION科技资讯 2023 NO.16 学术综述科技资讯SCIENCE&TECHNOLOGY INFORMATION基于深度学习的目标检测算法综述姚文清李盛*王元阳(西京学院陕西西安 710123)摘要：目标检测的任务是找出图像中所有感兴趣的目标（物体），确定它们的位置和类别。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，使目标检测成为计算机视觉领域中最具有挑战性的问题之一。该文综述了深度学习在目标检测方面有代表性算法的进展与展望。针对基于候选窗口（Region Proposal）的 Two-Stage 检

2、测框架和基于回归的 One-Stage 检测框架，分别对有代表性的检测算法进行重点介绍，做出对比与总结；最后讨论目标检测领域存在的困难与挑战，并对未来目标检测方向的发展趋势进行展望。关键词：目标检测计算机视觉深度学习检测框架中图分类号：TP391.41;TP18文献标识码：A 文章编号：1672-3791(2023)16-0185-04A Review of the Object Detection Algorithm Based on Deep LearningYAO Wenqing LI Sheng*WANG Yuanyang(Xijing University,Xian,Shaan

3、xi Province,710123 China)Abstract:The task of object detection is to find out all the targets(objects)of interest in the image,and determine their location and category.Due to the different appearances,shapes and postures of various objects and the interference of lighting,occlusion and other factor

4、s during imaging,object detection becomes one of the most challenging problems in the field of computer vision.This paper reviews the progress and prospect of the representative algorithms of deep learning in object detection,introduces representative detection algorithms in detail for the Two-Stage

5、 detection framework based on the Region Proposal and the One-Stage detection framework based on regression,and compares and summarizes them.Finally,it discusses the difficulties and challenges in the field of target detection,and looks forward to the development trend of the future target detection

6、 direction.Key Words:Object detection;Computer vision;Deep learning;Detection framework目标检测是数字图像处理和计算机视觉的一个研究热门方向，广泛应用于智能交通1、工业缺陷检测2、无人辅助驾驶3、航空航天4、智慧农业5等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的DOI：10.16661/ki.1672-3791.2301-5042-4304基金项目：国家自然科学基金项目“女性语音产生机制差异的空气动力学建模对比研究”（项目编号：11974289）。作者简介：姚文清（1997），男，硕士在读，研究

7、方向为深度学习、目标检测。王元阳（1998），男，硕士在读，研究方向为深度学习、目标检测。通信作者：李盛（1972），男，博士，教授，研究方向为机器视觉、深度学习与生命信息，E-mail：。185SCIENCE&TECHNOLOGY INFORMATION科技资讯学术综述 2023 NO.16 SCIENCE&TECHNOLOGY INFORMATION科技资讯现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别6、姿态估计7、目标跟踪8、图像分

8、割9等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展，本文广泛调研国内外目标检测方法，主要介绍基于深度学习的两种目标检测算法思路，分别为基于侯选窗口的Two-Stage 目标检测算法和基于回归的One-Stage目标检测算法。1 基于候选窗口的Two-Stage检测算法1.1 R-CNN2014年，RSHICK R等人提出R-CNN10，这是继承传统目标检测思想的R-CNN系列的第一代算法，将目标检测作为一个分类问题来处理，先抽取一系列目标的候选区域，再对候选区域进行分类。具体如图1所示。1.2 FastR-CNN2015年，GIRSHICK R提出了Fast

9、 R-CNN11检测器，进一步融合了R-CNN和SPP-Net。在相同的网络配置下，Fast R-CNN可以让我们同时训练检测器和边界框回归器。Fast R-CNN在VOC07数据集上将mAP从58.5%（R-CNN）提升至70.0%，检测速度超过R-CNN的200倍。具体如图2所示。1.3 FasterR-CNN2015年，REN S等人提出了Faster R-CNN12检测模型，FasterR-CNN是第一个端到端深度学习的检测算法，也是第一个接近实时的目标检测器。FasterR-CNN的主要贡献是引入了区域提案网络（RPN）从而允许几乎所有的cost-free的区域提案。从R-CNN到F

10、asterR-CNN，提案检测、特征提取、边界框回归等目标检测系统中的图2 FastR-CNN 网络结构图1 R-CNN 网络结构186SCIENCE&TECHNOLOGY INFORMATION科技资讯 2023 NO.16 学术综述科技资讯SCIENCE&TECHNOLOGY INFORMATION大部分独立区块已经逐步整合为统一的端到端学习框架。2 基于回归的One-Stage检测算法2.1 YOLO2016年，REDMON J等人提出了一种单阶段算法 YOLO13目标检测器。YOLO算法基于GoogleNet网络架构思想，其核心思想是将目标检测转化为一个回归问题，利用整张图像作为

11、网络的输入，只需通过一个卷积神经网络，就能获得待测目标边界框的位置和所属类别。2.2 YOLOv22017年，REDMON J等人在YOLOv1的基础上做了很多改进，提出了YOLOV214。重点解决YOLOV1在召回率、定位精准度等方面存在的不足之处。与 YOLOV1是利用全连接层直接预测边界框坐标相比，YOLOV2 借鉴了 FasterR-CNN 的理念，引入了 Anchor机制。使用K-means聚类的方法在训练集中聚类中计算出更好的Anchor框，使算法的召回率大大提高。同时将浅层特征与深层特征相结合，结合图像细粒度特征，对探测小尺寸目标有所帮助。并提出DarkNet-19骨干网络进行更

12、高效的特性提取。2.3 YOLOv32018年，REDMON J等人在YOLOv2的基础上做了一些改进提出了YOLOv315。借助残差网络(ResNet)的思想，YOLOv3特征提取部分用Darknet-53网络结构代替了原来的Darknet-19，Darknet-53主要由11和33的卷积层组成，为了防止过度拟合每个卷积层后包含一个批量归一化层和一个LeakyReLU。在Darknet-53中，卷积层、批量归一化层和LeakyReLU共同组成基本卷积单元 DBL。因为在 Darknet-53 中共包含 53个这样的DBL，所以称其为Darknet-53。利用特征金字塔网络(FPN)结构实现了

13、多尺度检测，使用逻辑回归分类方法代替了Softmax，在兼顾实时性的同时保证了目标检测的准确性。2.4 YOLOv42020 年，BOCHKOVSKIY A 等人在 YOLOv3 的基础上做出了进一步创新，提出YOLOv416。它将原来的Darknet53结构换为了CSPDarknet53，引入了路径增强网络PANet进行更好的特征融合和小目标检测，并继承YOLOV3 Head层侦测头进行多尺度预测。在改进网状结构的基础上，还引入了增加网络模型检测精度的各种Tricks训练技巧。2.5 YOLOv52020 年，Ultralytics 等人提出了 YOLOv5，它是在YOLOv4的基础上添加了

14、一些新的改进思路，使其速度与精度都得到了极大的性能提升。在输入端模型训练阶段，提出了Mosaic数据增强、自适应锚框计算、自适应图片缩放等方法；在BackBone网络，融合Focus结构与 CSP 结构；在 Neck 网络，在 BackBone 与最后的Head输出层之间插入了FPN和PAN结构；在Head输出层，继承了YOLOV4的锚框机制，主要改进了训练时的损失函数 GIOU_LOSS，以及 DIOU_NMS 被预测框筛选。3 算法性能比较与分析表1、表2分别列出了本文所介绍的代表性目标检测算法基于固定骨干网络在公开数据集检测精度与检测速度对比，其中公开数据集分别为PascalVOC 20

15、07+2012和MS COCO。考虑到不同算法检测框架在相同数据集下的检测能力不仅与算法网络模型和图片尺寸大小有关，同时还与计算机硬件设备的有关。因此，在表1、表2中所统计的检测指标为未完全统计指标，其中“”代表未知。从表中数据可以看出，本文所介绍的两阶段算法检测精度高，但实行性差；单阶段目标检测算法兼具检测精度和实时性。表1 不同算法检测框架在公开数据集PascalVOC 2007和2012上的性能比较检测框架R-CNNFastR-CNNFasterR-CNNYOLOYOLOv2骨干网络AlexNetVGG-16ResNet-101GoogleNetDarknet-19检测精度(map)58

16、.5%70%76.4%63.4%77.8%检测速度(fps)0.10.554559187SCIENCE&TECHNOLOGY INFORMATION科技资讯学术综述 2023 NO.16 SCIENCE&TECHNOLOGY INFORMATION科技资讯4 总结与思考本文以侯选窗口的Two-Stage目标检测算法和回归的One-Stage目标检测算法为基础进行了总结，介绍了各检测器的主要框架模型结构，并指出了它们对于同系列前代检测器的改进之处。最后进行不同算法检测框架在相同数据集下的检测精度与检测速度的对比，进一步确定不同算法检测框架的好坏。同时，在深度学习目标检测算法的未来研究发展中

17、也存在一些困难，如检测算法网络模型大，训练模型需要计算能力高的显卡；小目标检测准确性差，定位容易丢失；工业应用需要大量训练数据集训练模型，采集困难等。因此，如何解决以上问题将是未来深度学习目标检测算法研究突破的重点。参考文献1 肖雨晴,杨慧敏.基于改进YOLOv3算法的交通场景目标检测J.森林工程,2022,38(6):164-171.2 赵小华.基于深度学习的瑕疵检测软件设计与实现J.自动化与仪器仪表,2022(10):27-31,37.3 任柯燕,谷美颖,袁正谦,等.自动驾驶3D目标检测研究综述J/OL.控制与决策:1-242023-01-29.https:/ 黄睿,段博坤,陈望,等.检测

18、器和分类器级联的飞机发动机损伤检测J.中国图象图形学报,2022,27(11):3232-3242.5 蒋心璐,陈天恩,王聪,等.农业害虫检测的深度学习算法综述J/OL.计算机工程与应:1-172023-01-29.http:/ 王海勇,潘海涛,刘贵楠.融合注意力机制和课程式学习的人脸识别方法J/OL.计算机科学与探:1-122023-01-29.http:/ 王一,谢杰,程佳,等.基于深度学习的RGB图像目标位姿估计综述J/OL.计算机应用:1-122023-01-29.http:/ 张铁栋,李仁哲,郎硕,等.基于DeepSORT的水下目标声学图像跟踪方法J/OL.华中科技大学学报(自然科学

19、版):1-82023-01-30.https:/ 李旭涛,杨寒玉,卢业飞,等.基于深度学习的遥感图像道路分割J.山东大学学报(工学版),2022,52(6):139-145.10 RSHICK R,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic SegmentationC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:580-587.11

20、 GIRSHICK R.Fast R-cnnC/Proceedings of the IEEE International Conference on Computer Vsion.2015:1440-1448.12 REN S,HE K,GIRSHICK R,et al.Faster R-cnn:Towards Real-time Object Detection with Region Proposal NetworksJ.Advances in Neural Information Pro cessing Systems,2015,39(6):1137-1149.13 REDMON J,

21、DIVVALA S,GIRSHICK R,et al.You Only Look Once:Unified,Real-time Object DetectionC/Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2016:779-788.14 REDMON J,FARHADI A.YOLO9000:Better,Faster,StrongerC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni

22、tion.2017:7263-7271.15 REDMON J,FARHADI A.Yolov3:An Incremental Im provementJ.ArXiv Preprint ArXiv,2018,1804:02767.16 BOCHKOVSKIY A,WANG CY,LIAO H Y M.Yolov4:Optimal Speed and Accuracy of Object DetectionJ.arXivpreprint arXiv,2020,2004:10934.表2 不同算法检测框架在公开数据集 MSCOCO 上的性能比较检测框架YOLOv2YOLOv3YOLOv4YOLOv5骨干网络Darknet-19Darknet-53CSPDarknet-53FocusCSPDarknet-53检测精度(map0.5,0.95)21.6%33.0%43.5%49.0%检测速度(fps)20(M)23(M)188

展开阅读全文