基于YOLOv4的无人机航拍视频实时检测.pdf

资源描述

1、JournalAviationof23ofChinaUniversityFlightCivilVol.34 No.5中国民航飞行学院学报Sept.2023基于YOLOv4的无人机航拍视频实时检测张鹏康驰唐伟罗肖（中电科特种飞机系统工程有限公司四川成都610054)摘要：相对于其他检测器，YOLOv4具有较高的检测准确度和速度。通过对离线航拍视频截取关键组成样本图片，按照检测目标类型对图片包含的目标进行分类，再使用labelimg工具对样本图片进行标注，最终形成所需的训练数据集。实验中采用迁移学习方法对数据集进行训练，实验结果表明，训练生成的模型在测试集上平均均值精度（mAP）达到62.77%，

2、召回率（Recall）达到9 0.2 5%，在配备NVIDIAP4000显卡的计算机上可达到每秒2 0帧的检测速度，满足实时目标检测需求，可应用在实际工程实践中。关键词：图像处理无人机航拍目标检测YOLOv4Aerial Video Detection of Unmanned Aerial Vehicle Based on YOLO v4Zhang PenggKang ChiTang WeiLuoXiao(CETC Special Mission Aircraft System Engineering Co.Ltd,Chengdu,610054,Sichuan,China)Abstract:C

3、ompared with other detectors,YOLOv4 has high detection accuracy and speed.Thesample images are composed of key frames captured from off-line aerial video,targets contained in theimages are classified according to detection target type and sample images are annotated with labellmgtool to finally form

4、 the required training data set.In the experiment,the transfer learning method wasused to train the data set.The experimental results show that the model generated by the training couldreach an average mean accuracy(mAP)of 62.77%and recall rate of 90.25%on the test set and the de-tection speed of 20

5、 frames per second could be achieved on a computer equipped with NVIDIA P4000graphics card,which meet the requirements of real-time target detection and could be applied in prac-tical engineering practice.Keywords:Image processingUAV aerial photographyObject detectionYOLOv41引言近几年来无人机技术发展迅速，无人机航拍因操作简

6、单、起飞降落受限小、转场容易、稳定性、安全性好的特点广泛存在于日常生活中，为生活带来极大便利。无人机航拍是以无人机为载荷平台，搭载遥感设备和高分辨率相机等设备，可实时存储或传输视频数据，再利用计算机对视频数据进行相关分析、处理，最后生成需要的情报信息。航拍视频的主要特点是目标较小、目标分辨率低、背景复杂、目标运动变化大等特点。无人机航拍视频目标检测主要是对采集视频中的目标进行识别、分类，其本质是实时对图像中的目标检测。目标检测广泛用于日常生活中，如治安管理、巡逻、车辆检测、人流量分析、电力巡检、无人机识别2 、无人机航拍图像定位研究3等。传统的目标检测方法主要是在特征提取和特征分类上。代表性的

7、特征主要有Harr4、SIFT(scale-invariant feature transform）5、HHOG(histogramoforiented）6 等；代表性的分类器有SVM（s u p p o r t v e c t o r ma c h i n e）7 、BP 神经网络(back propagation)8、D M P(d e f o r ma b l e p a r t smodel）9 等。传统目标检测存在的问题：人工设计的特征对于多样性的变化没有很好的鲁棒性；基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口允余。深度学习的概念源于人工神经网络的研究。JournalA

8、viationUniversityVol.34No.5FlightofCivilofChina24Sept.2023飞行学院学报中国民航深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。特征提取是自动（无人为干预）且多层的。深度学习的概念由Hinton等人在2 0 0 6 年提出，对传统的人工神经网络算法进行改进，通过模仿人的大脑处理信号时的多层抽象机制来完成对数据的识别。深度学习方法是无监督地学习特征，将学习到的特征输入之后各层，避免人工参与设计特征。随着卷积神经网络的发展，目标检测领域取得显著成果。常用的深度学习目标检测算法有：CNN10，Fa s

9、t-R CNN，Fa s t e r-RCNN12，Y O L O 13 ，SSD 14 ，Y O L O v 2 15 ,YOLOv316，Y O L O v 417 。随着深度学习算法的不断更新，其检测精度和速度都得到显著提升。其中，YOLOv4算法具有快速检测能力和较高的准确率，在实时检测方面表现突出，更加适合实际工程应用环境。本文将YOLOv4应用于航拍视频目标检测，通过截取航拍视频关键顿图片构成训练数据集，以训练集作为输入，构建适合检测的网络模型。实验结果表明，该方法能在保证检测精度的情况下减少漏检率，且达到每秒检测2 0 顿图像，满足实时性要求。2YOLOv4目标检测方法YOLO是

10、由Redmon和Divvala提出的一种实时目标检测算法13。经过不断的改进演化，目前该算法已经发展到第4代。YOLO是一种属于one-stage系列的目标检测算法，它将目标检测视作为回归问题求解，直接从输入的图像中预测目标的位置和其所属类别以及对应的置信概率，来实现端到端的识别。因此，它的检测速度很快，在保持较高准确率的同时可实现实时目标检测。YOLOv4在YOLOv3的基础上，其性能得到进一步提升，它提出一个高效快速的目标检测框架和更改SOTA（s t a t e-o f-t h e-a r t）方法，使得YOLOv4可以适应于单GPU训练，极大降低训练门槛。主要改进点有：1)输入端：Mo

11、saic数据增强、cmBN（Cr o s s m i n i-Ba t c h No r m a l i z a t i o n）、SAT自对抗训练；2)BackBone主干特征提取网络：CSPDarknet53、M i s h 激活函数、Dropblock;3)Neck：SPP（Sp a t i a l Py r a mi d Po o l i n g）模块、FPN+PAN结构；4)Prediction预测：使用YOLOv3，改进损失函数CIOU_LoSS以及预测框筛选DIOU_nms。网络结构如图1（以416 x416输入为例）所示。cSPDarknet53Inputs(416,416,3

12、)DarknetConv2D_BN_Mish(416,416,32)Resblock_body(208,208,64)x1Resblock_body(104,104,128)x2Resblock_body(52,5z,256)x8PANetResblock_body(26,26,512)x8Concat+ConvxsYoLo headConv+UpsampineDuwnSamplingResblockbody(13,13,1024)x4ConvConcat+Convx5Concat+Convx5YOLOheadCory+UpsampineDownisaraplineConvx3SPP最大化Co

13、ncat+Convx3Concat+Conyx5YoLo head图1YOLOv4网络结构图2 是YOLO系列算法与其它目标检测算法的性能比较，所有算法均在相同平台上测试，测试集为COCO数据集，AP(ayerage precision，平均精度）为算法性能的衡量指标17 。MS COCOObjectDetectionreal-tne4ourYOLOX4(OU)EmdeatDer41531941YOLOeuterMaskj4o10110130FPS(V100)图2 YOLOv4检测速度比其他最新目标检测器快在本文的应用中，使用的YOLOv4模型基于AlexeyABC+语言实现，编译后可直接在W

14、indows平台下使用。因此，在使用时只需要训练目标检测的YOLOv4模型。在训练之前，需要JournalofAviationUniversity25ChinaFlightofCivilVol.34No.5中国民航飞行学院学报Sept.2023修改YOLOv4的网络结构。根据目标检测分类，需要在cfg配置文件中分别修改3处yolo类别数（c l a s s e s）、卷积层的滤波器（Filters）数量，objects为目标类型个数。Classes=objects(1)Filters=3(classes+5)(2)由于本文需检测3种不同的目标类型，即人、车、动物。因此，classes均设置为3

15、，滤波器数量均设置为24。3实验验证及分析3.1训练数据集YOLOv4训练模型是一个耗时的过程，搭建高效的实验平台可以提高训练效率。本文实验平台配置如表1所示。表1YOLOv4模型识别指标实验平台配置参数操作系统Windows10 x64深度学习框架Darknet53GPUNVIDIAP4000CPUIntel i7-9700内存64G从离线航拍视频中截取关键顿，组成无人机航拍视频目标检测数据集，共计2 340 张图片。采用迁移学习对数据集进行训练，训练数据集中的90%的图片用于训练，10%的图片用于测试。部分样本数据如图3所示，图3部分训练样本图片用labelimg工具对图片中待检测的目标(

16、人，车，动物）进行标注，生成xml格式标注文件（每张图片和标注文件名相同），最后将xml格式转为需要的YOLO格式文件，形成训练数据集。标注文件格式包含目标类别和位置信息：id left_x top_y width height(3)在YOLOv4已有的预训练权重基础上进行训练，选择416 416 分辨率作为YOLO网络入口分辨率，最大批量迭代次数6 0 0 0，采用学习率减小的方法进行训练，学习率0.0 0 1，每48 0 0,540 0学习率衰减。模型训练过程中，平均损失1.46，模型损失变化曲线如图4所示。1801613.202400030图4模型损失变化曲线3.2训练结果经过约14小时

17、的训练后，YOLOv4模型训练完成。用训练好的模型对测试集的数据进行测试，图像检测平均耗时0.0 5s，具体性能指标如表2 所示。表2YOLOv4模型识别指标指标数值mAP62.77%Recall90.25%检测速度20fps4结论本文基于最新的为YOLOv4目标检测算法，提出一种无人机航拍视频目标实时检测的模型。和其他目标检测算法相比，具有较高的精确度、检测速度和实用性。训练后的模型具有以下优点：（1）训练后的YOLOv4模型在测试集上能够达到6 2.7 7%的mAP和9 0.2 5%的Recall。（2）在NVIDIAP4000实验平台上实时测试，检测速度可达到2 0 fps，满足实际应用

18、需求。JournalAviationofChina26Vol.34No.5UniversityFlightofCivilSept.2023飞行学院学报中国民航在今后的工作中，我们计划获取更多的无人机航拍视频来补充训练集，从而训练全面的、覆盖面广的检测模型来提高mAP。同时，使用NVIDIAtensorRT库对训练模型进行加速，充分发挥GPU性能优势，从而加快目标检测速度。参考文献1郭敬东，陈彬，王仁书等.基于YOLO的无人机电力线路杆塔巡检图像实时检测J.中国电力，2 0 19(7)2陶磊，洪韬，钞旭.基于YOLOv3的无人机识别与定位追踪.北京科技大学学报，2020(4):463-4683魏

19、明，全吉成，侯宇青阳基于YOLOv2的无人机航拍图像定位研究.激光与光电子学进展，2 0 17(11)：9 5-10 44 Viola P A,Jones M J.Rapid Object Detectionusing a Boosted Cascade of Simple FeaturesCComputerVisionand Pattern Recognition,2001.CVPR 2001.Proceedings of the 2001 IEEEComputer Society Conference on.IEEE,2001:51l-5185 Lowe D G.Distinctive I

20、mage Features fromScale-Invariant KeypointsJ.International Journal ofComputer Vision,2004,60(2):91-1106 Bochkovskiy A,Wang C Y,Liao HY M.YOLOv4:Optimal Speed and Accuracy of ObjectDetectionJ.20207 Chih-Chung，Ch a n g ，Ch i h-Je n ，e t a l.LIBSVM:A library for support vector machinesJ.Acm Transaction

21、s on Intelligent Systems&Technol-ogy,20118 Hecht-Nielsen.Theory of the backpropagationneural networkCj/International Joint Conference onNeural Networks.IEEE,20029 Felzenszwalb P F,Girshick R B,McallesterD,et al.Object Detection with DiscriminativelyTrained Part-Based ModelsJ.IEEE Transactions onPatt

22、ern Analysis&Machine Intelligence,2010,32(9):1627-164510 Lecun Y,Bottou L.Gradient-based learningapplied to document recognitionJ.Proceedings ofthe IEEE,1998(11):2278-232411Thompson,IDavidRTingay，SStevenJWagstaff，KiriLGirshickR.FastR-CNNC/Proceedings of the IEEE International Con-ference on Computer

23、 Vision.2015:1440-144812 Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Re-gion Proposal NetworksJJ.IEEE Transactions onPattern Analysis and Machine Intelligence,2015(6)13 Redmon J,Divvala S,Girshick R,et al.YouOnly Look Once:Unified,Real-Time Object Detec-tionCJ/Co

24、mputer Vision&Pattern Recognition.IEEE,2016:779-78814 Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox DetectorCJ/European Con-ference on Computer Vision.Springer InternationalPublishing,201615 Redmon J,Farhadi A.YOLO9000:Better,Faster,StrongerCJ/IEEE Conference on ComputerVision&Pattern Recognition.IEEE,2017:6517-652516 Redmon J,Farhadi A.YOLOv3:An Incremen-tal ImprovementJJ.arXiv e-prints,201817 Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:Optimal Speed and Accuracy of ObjectDetectionJ.2020

展开阅读全文