深度学习在安全帽佩戴检测中的应用研究综述_高腾.pdf

资源描述

1、2023，59（6）人民的生命安全永远是第一位的，特别是在建筑行业这样长期处于较高风险的工作环境当中，如何对工地环境中工人是否佩戴安全帽以及工地的危险区域内是否有人，这对于保持建筑行业安全持久发展是至关重要的。随着计算机视觉领域智能化的发展，智能工地安全领域的安全帽佩戴检测是目标检测在工业安防领域应用中一项重要的研究任务。安全帽佩戴检测的目的是对工地中工人的安全帽佩戴状态进行检测。近年来，随着经济的快速发展，工地建设项目急剧增加，进入工地必须佩戴安全帽是每个人的一项必要防护措施。但是随着人为管理难度的加大，检测不当很容易给不戴安全帽的工人造成安全伤害。随着对工地安全的重视程度越来越高，许多研究

2、学者针对大型建筑工地的工业安防在基于深度学习领域已经开展了大量的研究工作。随着GPU算力的不断增强，深度学习技术得到了快速的发展。深度学习是构建一个足够深的网络层，使得该网络层自助学习样本数据的内在规律和表示层次。它能够处理人们并不完全懂得的问题，而且更擅长处理含噪声或不完全的数据，它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术，有着传统机器学习和传统计算机程序没有的优点。结合深度学习技术的目标检测方法逐渐成为在工深度学习在安全帽佩戴检测中的应用研究综述高腾，张先武，李柏新

3、疆大学信息科学与工程学院信号检测与处理重点实验室，乌鲁木齐 830046摘要：在深度学习的推动下，目标检测方法在工业安防领域取得了很大的进展，安全帽佩戴检测任务逐渐成为智能图像识别领域的一项重要研究课题。为了综合分析深度学习技术在安全帽佩戴检测任务中的研究现状，方便后续科研人员开展研究性工作。对近年来国内外学者在深度学习环境下的安全帽佩戴检测算法总结归纳，对比分析这些方法的优点和局限性。分别从数据集的建立和用途、安全帽佩戴检测主要检测算法归纳、当前安全帽佩戴检测领域的难点这三个方面进行分析。对安全帽佩戴检测领域未来的研究方向进行展望，并提出该领域今后研究重点。关键词：深度学习；目标检测；安

4、全帽佩戴检测；工业安防文献标志码：A中图分类号：TP391.41doi：10.3778/j.issn.1002-8331.2207-0434Review on Application of Deep Learning in Helmet Wearing DetectionGAO Teng,ZHANG Xianwu,LI BaiKey Laboratory of Signal Detection and Processing,School of Information Science and Engineering,Xinjiang University,Urumqi 830046,ChinaA

5、bstract：Driven by deep learning,many approaches to object detection have made great progress in the field of industrialsecurity,and the study of helmet-wearing detection has gradually become a significant topic in intelligent image recogni-tion.In order to comprehensively analyze the research status

6、 of deep learning technology in helmet wearing detectiontask,and to facilitate follow-up scientific research personnel to carry out research work,this paper analyzes the state-of-the-art helmet-wearing detection algorithms under deep learning conditions proposed by domestic and foreign scholars inre

7、cent years and compares their advantages and limitations.This paper is structured in three sections：the establishmentand usage of databases,the predominate algorithms for helmet-wearing detection,the current challenges in the field of helmet-wearing detection.The future research direction of helmet

8、wearing detection field is prospected,and the future researchfocus in this field is put forward.Key words：deep learning;object detection;wearing safety helmet detection;industrial security基金项目：新疆维吾尔自治区自然科学基金面上项目（2022D01C61）；新疆维吾尔自治区“天池博士计划”项目（TCBS202046）。作者简介：高腾（1997），男，硕士研究生，研究方向为计算机视觉，E-mail：；张先武（

9、1983），男，博士，副教授，研究方向为雷达系统设计和图像处理；李柏（1996），男，硕士研究生，研究方向为图像处理。收稿日期：2022-07-26修回日期：2022-10-13文章编号：1002-8331（2023）06-0013-17Computer Engineering and Applications计算机工程与应用13Computer Engineering and Applications计算机工程与应用2023，59（6）业安防领域的主流算法。目标检测算法的主要目的是提取图像中有价值的语义信息，开发高效的计算模型和技术，被广泛地应用于嵌入式设备等实际场景中，例如无人驾驶、安防摄

10、像头、智能机器人等设备中。2019年，Zhou等1对目标检测的二十年发展历程进行综述，并对其面临的挑战和近年来的技术改进做了深入的分析。孙方伟等2、邬开俊等3、董文轩等4对基于深度学习的目标检测框架进行综述，但是这些综述均没有对应用在安全帽佩戴检测的目标检测框架进行展开。一些通用的目标检测方法在公共数据集上表现得很好，但是针对特殊工业安防环境下的性能可能有所下降，甚至失效。张立艺等5对深度学习安全帽佩戴检测算法应用研究进行了综述，李政谦等6对智慧工地的安全帽佩戴检测算法进行了综述等。然而针对基于深度学习下的安全帽佩戴检测方法综述十分得匮乏，不利于科研人员综合分析在前人的研究基础之上进行算法改进

11、、模型优化和现有方法优化等，这也是本文撰写的必要之处。因此将针对在深度学习方法下的安全帽佩戴检测任务在本文中分成四个部分进行阐述。（1）数据集与评估指标，安全帽佩戴检测任务缺乏公共数据集，主要是通过研究人员根据自己的实际应用场景自行收集和标注。（2）基于候选区域的安全帽佩戴检测方法又称之为二阶段目标检测方法，分为提取物体区域和对区域进行CNN分类识别两部，本文将基于二阶段安全帽佩戴检测模型基础上的改进方法进行归纳分析。（3）基于回归的目标检测方法，基于回归的目标检测方法又称之为一阶段的目标检测方法，适用于对检测实时性要求较高的任务中，本文将在此阶段上的改进方法再举例对比。（4）将上述的改进方法

12、按照解决运动模糊、遮挡、场景变化和模型压缩等问题进行提炼对比分析。最后对全文进行总结归纳，并对未来深度学习在安全帽佩戴检测方法的应用上进行展望。1数据集与评估指标1.1数据集当前目标检测任务中常用的公共数据集主要有PASCAL VOC7、MS-COCO8、ImageNet9，也正是因为这些公共数据集的出现使得深度学习技术在目标检测领域取得了极大的发展，但是目前在安全帽佩戴检测研究主要面临的问题是缺少公共数据集，大多数研究者都是根据具体的使用场景构建数据集，例如建筑施工现场、工厂车间、地下矿井、国家电网等安全帽佩戴的具体使用场景。这些数据集的采集大多数采用网上信息爬取、施工现场监控逐帧提取、摄像

13、机施工现场拍摄等途径获取。最开始安全帽佩戴检测的数据集来源于开源项目Smart Construction，具体是用来训练智能工地安全领域中安全帽佩戴检测的落地应用。此开源的安全帽佩戴检测数据集（SHWD）提供了用于安全帽佩戴和人头检测的这两种类型的标签。它一共包括7 581张图像，其中带有9 044张人类安全头盔的佩戴物（正）和11 514张正常头部的物品（未佩戴或负）。数据集中将数据注释为 Pascal VOC 格式，其标签包含两个对象类的名称，“帽子”代表正对象，“人”代表负对象，正、负对象演示图像如图1所示。其后来研究人员对此开展了大量的研究实验，大多数采用对SHWD数据集进行针对性筛选

14、和数据补充，满足针对特殊场景的检测需要。在表1中列举目前安全帽佩戴检测任务中部分开源数据集。Wen等10采用多尺度特征提取和优化非极大值抑制方法，在 HelmetDataSet数据集上获得平均检测精度达93.7%。Fu等11针对OIPW数据集在网络结构进行了改进，在原来的三个尺度上增加大尺寸特征图用于检测小目标；其次使用K-means对头盔数据集进行重新聚类，改进后算法的平均准确率较初始模型提高了2.9%，降低了原网络中小目标检测的漏检率和误检率。方明等12在原网络中加入了密集块，实现了多层特征的融合，提高了网络对于数据集Helmet DataSet10OIPW11Helmet Wearing

15、12Helmet-wearing13Faclmage14类型Pascal VOCPascal VOCPascal VOCPascal VOCPascal VOC标签类别HelmetPerson with helmetPerson without helmetHelmetNo helmetHelmet wearerNot helmet wearerHelmetHelmet，alarm数量/张5 00018 5002 7214 5005 200应用场景建筑工地、工厂车间和高空作业电力施工现场建筑工地钢厂车间工厂企业表1部分开源数据集Table 1Some open source datasets图

16、1正负对象演示图像Fig.1Positive and negative object presentation image142023，59（6）小目标检测的敏感性；在HelmetWearing数据集上检测准确率为87.42%，显著提升检测精度与速度。Zhang等13通过采用图像金字塔结构获取不同尺度的特征图，用于位置和类别预测，改进后的模型准确率高达92.13%，检测速率提高到62 FPS，其检测准确率与检测速率满足安全帽佩戴检测中检测任务要求。熊江益14利用深度可分离卷积替代传统卷积和优化先验框尺寸等方法使得改进后的模型在Faclmage数据集上的准确率高达84.3%。1.2评价指标为了对

17、不同的算法模型进行比较，引入混淆矩阵概念，由此衍生了一系列的目标检测评价指标。如检测速度、交并比、准确率、召回率、平均正确率和平均正确率均值等。在表2中TP表示真实为正样本，预测也为正样本，又称（真阳性）。FN表示真实为正样本，预测为负样本，又称（假阴性）。FP表示真实为负样本，预测为正样本，又称（假阳性）。TN表示真实为负样本，预测为负样本，又称（真阴性）。（1）检测速度FPS（frames per second）：每秒能够检测图片的数量。（2）交并比IOU（intersection over union）：预测边框与实际边框架的交集与并集的比值。IOU=ABAB（1）式（1）中，IOU处于

18、01之间，其中A为预测的边框，B为实际的边框。（3）准确率P（Precision）。P=TPTP+FP（2）式（2）中，预测为正的总样本(TP+FP)数量与真正为正(TP)的样本数量比例。（4）召回率R（Recall）。R=TPTP+FN（3）式（3）中，真实为正(TP+FN)的样本中，预测为正(TP)的比例。（5）平均正确率AP（average precision）。AP=01P(t)dt（4）式（4）中，t是在不同交并比曲线下的召回率，即P（Precision）-R（Recall）曲线在01之间所包围的面积。（6）平均正确率均值mAP（mean average precision）。mAP

19、=1Nn=0NAPn（5）式（5）中，N为种类的数量。2基于二阶段的安全帽佩戴检测方法二阶段的目标检测算法也称为基于候选区域的目标检测算法，它将目标检测问题划分为两个阶段，一是生成候选区，二是分类与预测位置微调。早在2013年Girshick 等15提出目标检测算法 R-CNN，此算法也是two-stage目标检测算法的开篇之作，是第一个将卷积神经网络用于目标检测的深度学习模型。R-CNN算法大体可以分为候选区域生成、特征提取、分类和位置精修四部分。随后在 2015 年提出了 Fast-RCNN16算法，相比于R-CNN最大的区别在于ROI池化层和全连接层中的目标分类与检测框回归微调的额外统一

20、。进一步提高检测和训练速度，并解决 R-CNN 需要额外存储特点。Fast-RCNN创新性地加入了提取边缘的神经网络使得目标的候选区域生成等四个步骤统一到一个深度网络框架中。经过R-CNN和Fast-RCNN的积淀，Ren等17在2015年提出了Faster R-CNN算法。在结构上这四个步骤都整合在一个网络中，其结构如图2所示，使得综合性能有较大的提高，第一次做到了实时的物体检测。由于Faster R-CNN创新性地做到了实时的目标检测，使得它更适用于对检测物体时效性要求高的任务中。张明媛等18针对当时安全帽佩戴检测研究现状，提出了一种基于Tensorflow框架下的具有高精度、快速等特性的

21、Faster R-CNN安全帽佩戴检测模型，用于实时监测工人安全帽佩戴状况。通过模型性能评估，在收集的6 000张图像用于模型的训练与测试，实验结果表明，该模型识别工人安全监测中佩戴安全帽工人的平均精度和召回率分别达到90.91%和89.19%，识别未佩戴安全帽工人的精度和召回率分别达到88.32%和85.08%。同时，针对工人未佩戴安全帽而进入施工现场的违规行为，通过施工现场入口处监控摄像头截取视频流图像帧，设置检验实验，验证了本方法在施工现场实际应用的有效性。但是此方法检测对象皆为站立行走的工人，图像背景较单一，对于复杂背景的安全帽检测存在困难。预测值TrueFalse真实值Positiv

22、eTPFPNegativeTNFN表2混淆矩阵Table 2Confusion matrixROIPoolingSoftmaxFeature MapProposalBackbonebbox_perdcls_perdim_info3618331111图2Faster R-CNN结构图Fig.2Structure diagram of Faster R-CNN高腾，等：深度学习在安全帽佩戴检测中的应用研究综述15Computer Engineering and Applications计算机工程与应用2023，59（6）在2018年Fang等19在Faster R-CNN的基础上提出non-har

23、dhet-use（NHU）安全帽自动检测算法，为了提高NHU检测性能，在多个不同建筑工地的远场监控视频中随机超过10万个建筑工人图像帧，研究分析了建筑工地的各种视觉条件，对图像帧进行分类输入到FasterR-CNN当中进行训练。该方法虽然有着较高精度和速度，但是未在针对安全帽佩戴检测上对原始目标检测算法上做进一步改进，不能够很好地应用于建筑工地的安全帽佩戴实时监测。同时在未具有针对性改进的FasterR-CNN目标检测模型，易受到光照强度、天气变化、复杂背景的影响，检测效果差。Zhang等13针对钢厂车间环境复杂，面对可能存在各种意外的潜在危险情况，员工必须戴安全帽进入车间生产，这一硬性规定成

24、为钢铁厂人员整体智能监控系统的关键组成部分。研究人员通过爬虫收集戴头盔且无头盔图片的高清员工图像，采用手工标注的方式建立训练和检测数据集，提出了基于计算机视觉深度学习检测框架Faster R-CNN的头盔检测框架。该安全帽检测框架具有很好的实用性和有效性，提高了检测精确度，但是由于没有针对在钢铁生产车间环境下进行算法的改进，对于高弱光和复杂背景等场景中的安全帽检测效果不佳。以上列举的应用由于没有在针对特定应用场景中做算法结构上的改进，导致出现泛化能力弱、鲁棒性差等问题。为了解决此问题，将安全帽佩戴检测模型应用于特定的环境，许多研究学者开始将Faster R-CNN目标检测模型在不同应用场景下做

25、算法结构上的改进。Espinosa-Oviedo等20使用了EspinosaNet v2模型改进了Faster R-CNN的卷积提取部分，获得了一个6层（4卷积）的简单卷积网络，减少了一定的参数量的同时降低了运算复杂度。使得改进后的模型能够从低角度和移动摄像机拍摄且存在一定遮挡的情况下获得88.8%的平均检测精度。但是此方法改进了卷积网络结构，导致检测速度变慢，不利于移植到便携式设备中。孙国栋等21提出了一种通过融合注意力机制来改进 FasterR-CNN的目标检测算法，用于安全帽佩戴检测。首先通过注意力机制来捕获不同尺度上的全局信息，然后在区域建议网络（FPN）的训练中通过锚框补选增强的方法

26、来训练更多的小目标信息，最终使得改进后的算法在安全帽佩戴检测数据集上的平均准确率相比于原始算法提高了6.4%，但是通过增加注意力机制和加强特征融合后的模型增加了参数计算量，降低了检测的速度，增加了模型复杂度，不利于在嵌入式设备中部署。在FasterR-CNN算法上的其他改进在表3中列出。文献徐守坤22王慧23Chen24张博25李鹏26方法运用多尺度训练和增加锚点数量增强网络检测不同尺寸目标的鲁棒性，引入防止正负样本不均衡的在线困难样本挖掘策略将在线困难样本挖掘机制（OHDM）引入到特征融合网络中，改进算法采用高斯加权罚函数并且设置双阈值引用 Retinex 图像增强技术提高变电站户外场景的图

27、像质量，采用K-means+算法来适用小尺寸的安全帽目标通过 OpenPose 从图像中定位人体头颈部位置，并自动截取其周围小范围的子图像，利用Faster R-CNN检测子图像中的安全帽，分析安全帽中心点和头颈部节点之间的空间关系，进而判别是否正确佩戴安全帽通过骨干网络替换、增加可变形卷积和可切换空洞卷积，进行网络改进得到了一个可以自适应目标尺度变换的多尺度安全帽佩戴检测网络结构优势平均准确率相对于原始提高了7%，检测速度明显提升，对多尺度目标和小目标均有比较好的检测效果增强了模型背景分辨能力的同时降低了漏检率，检测精度相对于改进前提高了 27.5%，解决了高密度人群目标漏检和目标框冗余问题

28、改进后的算法平均精度提升了8.1%，有效地克服了光线、距离等因素的干扰，同时能够识别多人佩戴的情况改进后的检测方法有效降低了误检率，提高了环境适应性，降低了样本量较小时训练难度，准确率相比较改进之前提高了20%其平均准确率相对于当前最好的模型提高了7%，提高了在视频数据集上的预警效果局限性对于人员姿态的多样性，难以精确地选取到安全帽部件的相对位置，检测效果不佳主要是针对于安全帽的颜色进行区分，对弱光和复杂的场景下安全帽佩戴检测效果不佳，算法的鲁棒性相对较差应用场景主要是针对于变电站的环境中，应用场景相对单一，泛化能力差，不能够广泛地应用在其他场景检测首先要通过OpenPose方法截取头部周围小

29、头像，再利用 Faster R-CNN方法进行检测易受环境影响，检测速度降低对小目标安全帽和遮挡目标检测效果不好，且阴雨天气摄像头成像质量下降，检测目标模糊，模型的检测性能也会受到影响数据集针对于各种背景场景和不同质量的施工场地和变电站等场所的监控图片，共计7 000张收集工厂的监控视频和下载网络图片共计5 440张采集电力电工作业环境下的图像帧率，对带电作业环境监控录像截屏通过网络爬虫和施工现场拍照两种方式，实验共采集到各种场景的施工现场图片共计 1 000 张，并标注成VOC格式对公开的数据集进行合并与修订，并补充未戴安全帽的人员头像共计11 172张应用场景各种复杂场景建筑工地电力施工现

30、场各种复杂场景复杂施工现场表3基于Faster R-CNN改进的安全帽佩戴检测Table 3Improved helmet wearing detection based on Faster R-CNN162023，59（6）3基于一阶段的安全帽佩戴检测方法安全帽佩戴检测对时效性的要求很高，然而一阶段的目标检测方法又称之为基于线性回归的目标检测方法，不需要region proposal阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此有着更快的检测速度，能够更好应用在安全帽佩戴检测的任务中。比较典型的算法如YOLO、SSD、Retina-Net等。3.1改进

31、YOLO的安全帽佩戴检测算法YOLO 算法的全拼是 You Only Look Once，顾名思义就是只看一次，进一步把目标判定和目标识别两个步骤合二为一，所以识别速度有了很大提升。其核心思想是将整张图片作为网络的输入，直接在输出层对位置和类别进行回归，统一为一个回归的问题。YOLO算法最早是起源于Redmo等27提出的YOLOv1算法，虽然有着通用性较强的优点，但是降低了物体检测的准确性。YOLOv228相对之前的v1版本，保持检测速度的同时，从预测的更准确、识别对象更多等方向进行改进。方明等12将YOLOv2识别技术应用到安全帽佩戴检测的任务当中，使得改进后的网络能在保证检测准确率的同时，

32、有效地降低了模型的复杂度，检测速度有着显著的提升，在Helmet Wearing数据集上检测的准确率高达84.72%。由于YOLOv1和YOLOv2结构不够完善，目前用于安全帽佩戴检测任务的主流算法有YOLOv3、YOLOv4、YOLOv5模型。在2018年YOLOv329网络被提出，整体YOLOv3 结构可以分为 Backbone、Neck 和 Head 三部分。其中Darknet53可以被称作YOLOv3的主干特征提取网络，输入的图片首先会在Darknet53里面进行特征提取，得到有效特征层。Neck网络可以被称作YOLOv3的加强特征提取网络，在主干部分提取到的有效特征会在这一部分进行特

33、征融合，Head是YOLOv3的分类器与回归器，对目标进行分类和识别模型结构图如图 3所示。YOLOv3增加了模型的复杂度，改变模型结构的大小来权衡速度与精度，通过单一网络评估进行预测，使得其性能比 R-CNN 快 1 000 倍，比 Fast R-CNN 快 100倍，能够更好地应用于对检测时间要求高的任务当中。因此许多研究学者开始将其应用在安全帽佩戴检测的任务当中。屈文谦等30针对电网作业人员不规范佩戴安全帽行为，提出一种基于YOLOv3的电网作业现场安全帽佩戴检测方法。经过训练的模型 map 能够达到92.59%，在针对复杂作业场景下能够实现有效检测电网作业人员的安全帽佩戴状态。唐勇等3

34、1提出一种基于YOLOv3目标检测算法，可以实时地自动检测施工人员是否佩戴安全帽，对建筑工地的施工现场具有良好的效果。丁文龙等32在YOLOv3的基础上，采用K-means+聚类算法，优化了先验框的尺寸；在特征提取网络之后加入注意力机制，并且在网络预测模块，引入残差模块，在自制的安全帽佩戴检测数据集上平均准确率高达88.16%，相比于未改进的算法有一点的提高。Cheng等33改进轻量化YOLOv3-Tiny算法，构造一种可分离卷积和信道注意力机制代替原有的卷积层，并且用步长为2的卷积层来代替最大池化，在减少参数量和计算量的同时提高检测性能。此外，在特征提取网络中加入改进金字塔特征的SPP结构，

35、利用交叉熵损失函数来代替原有损失函数，在自制安全帽佩戴检测数据集上实验表明，改进后的算法优于原始算法。Huang等34使用改进的YOLOv3算法输出目标物体的预测anchor box，然后对anchor box进行像素特征统计，在每个锚框的预测区域分别输出置信度，在基于YOLOv3头盔佩戴检测算法中增加了特征图尺度，优化Backbone网络卷积块（414，416，3）残差块（208，208，64）1残差块（104，104，128）2残差块（52，52，256）8残差块（26，26，512）8残差块（13，13，1 024）4Neck网络卷积块5（52，52，128）维度拼接（52，52，384

36、）维度拼接（26，26，768）卷积块+上采样（26，26，256）卷积块5（13，13，1 024）卷积块+上采样（52，52，128）卷积块5（26，26，256）输出输出输出图3YOLOv3结构图Fig3Structure diagram of YOLOv3高腾，等：深度学习在安全帽佩戴检测中的应用研究综述17Computer Engineering and Applications计算机工程与应用2023，59（6）特定头盔数据集的先验维度算法，改进损失函数，然后结合图像处理像素特征统计，准确检测是否头盔是按标准佩戴。最终结果是 mAP 达到 93.1%，检测速度达到55 FPS。在头

37、盔识别任务中，相比原YOLOv3算法，mAP提高了3.5%，检测速度提高了3 FPS。改进后的检测算法对头盔检测任务的检测速度和准确率相比较之前有所提高。YOLOv3目标检测算法由于其速度快、准确率高而在工业中得到广泛应用，但它也存在一些局限性，例如不平衡数据集导致准确率下降等。Geng等35在YOLOv3目标检测算法利用高斯模糊数据增强方法对数据集进行预处理，改进了YOLOv3目标检测算法，通过高效的预处理，在不改变YOLOv3的识别速度的情况下，YOLOv3的置信度普遍提高了 0.010.02，并且处理后的图像由于有效的特征融合，在图像定位方面也有更好的表现，更符合生产中对识别速度和准确性

38、的要求。Zhao等36首先采用Gamma校正作为预处理方法，突出算子的细节，并进行数据扩充，K-means+算法取代磨损增强YOLOv3方法中的K-means，得出最合适的先验边界框大小，提高检测速度，基于迁移学习快速有效地进行训练。使得mAP提高了8.04%，检测速度提高了50%，在复杂的情况下具有良好的检测效果。张学锋等37为了保证安全帽佩戴检测的准确度增大图片中对安全帽的关注度，采用注意力机制增强特征提取的语义信息和空间信息，减少特征丢失，其次使用可行变卷积增强模型适应性，最后改变输出特征图尺寸，融合浅层网络等方法。准确率提高了 4.18%，相比较其他的方法能够提取到更多的目标特征，更能

39、够满足实际的生产需要。Deng等38在YOLOv3模型基础上设计出更高效的残差网络并使用骨干网络实现梯度导流，最后设计轻量级的多尺度特征提取网络，通过改进后的网络和原始的YOLOv3相比在计算成本和检测效果上也表现出明显的优势。表4给出了在YOLOv3模型的基础上，其他具体的改进方法。在2020年Bochkovskiy等48提出了YOLOv4目标检文献赵红成39许凯40Song41邱浩然42刘川43何超44改进方法采用 Focal Loss 专注正样本训练，使用空间金字塔多级池化融合局部和整体特征，引进空间注意力机制使用GIoU函数使用K-means 聚类算法对收集的安全帽数据集重新进行聚类，

40、选择出合适的先验锚框，采用GIoU Loss作为边界框损失，在损失函数中加入 Focal Loss，减少正负样本影响提出压缩激励的 RSSE模块加强特征提取，并利用Reset模块替换原始的CBL模块，其次采用四尺度特征预测代替三尺度特征预测，增加了对小目标的检测，最后改进CIOU损失函数引入金字塔结构和浅层特征融合层，引入GIoU参数改进损失函数，针对K-means 聚类方法和 NMS边界框选择算法进行优化特征提取网络更换为通道注意力机制的SE-ResNeXt残差结构，利用空间池化金字塔结构，替换损失函数在YOLOv3的基础上设计跟踪模块，使用 DEEPSORT 算法，在保证速度的前提下，对有

41、物体遮挡的情况进行改进优势提高了模型的复杂度和多尺度检测能力，使得模型更加专注于安全帽的特征学习。mAP提高了13.3%mAP 提高了 3.47%，在安全帽检测上精度提高了4.23%，具有一定的先进性和时效性检测精度和检测速度均略有提高，改进后的算法不仅满足安全帽佩戴检测任务中检测任务的实时性，同时具有较高的检测准确率mAP提高了8.9%，对遮挡、小尺寸目标、相似干扰和密集目标下都能取得较好的检测效果，且满足实时视频监控的需求检测平均精确度（mAP）提高了4.29%，每秒检测帧数（FPS）提高了8.67%改进后的算法使其更加符合工地安全帽的监测需求，加入了跟踪模块，有效地防止了重复报警的发生，

42、符合建筑工地复杂场景下的跟踪应用局限性模型的参数量增加，权重增大，不能够嵌入到嵌入式设备中满足实际的生产安全需要虽然提高了检测精度，但是模型的复杂度较高，检测速度变慢，增加了模型的检测时间对于小目标的检测效果较差，在光照变化下的影响较大参数量增加，模型增大，放在便利性设备中具有一定的局限性加强特征提取导致低层的语义特征信息丢失，增加了模型复杂度系统中匹配结果种类较少，没有实现更加精准的人员跟踪，只是完成了算法的实现工作，无法有效地掌握系统的实施情况数据集数据集针对建筑工地场景，分为未佩戴安全帽工人（person）和佩戴安全帽工人（Helmet）两类，共计7 581张来源于网络收集及监控视频截取

43、，总共6 075张图片，把佩戴安全帽的头部区域标记为（hat），和未佩戴安全帽人员（person）使用名SHWD共计7 500张图像，并用软件标注 XML形式手工标记和网络收集整理总共分为7 580张，分为YES和NO两种类型的标签选取开源数据集部分图像和施工现场视频帧截取得到共计8 000张通过网络爬虫与视频截帧，以及相应的数据增强方法，分为 wearing和 no_wearing两种类型的标签，一共10 000张安全帽相关数据集应用场景复杂施工场地建筑工地生产和作业场地建筑工地复杂施工场地复杂施工场地表4基于YOLOv3的改进安全帽佩戴检测Table 4Improved he

44、lmet wearing detection based on YOLOv3182023，59（6）测网络，其最大的优势是使得每个人都可以使用GPU来训练自己的目标检测器。在网络结构上的改进首先将原始 Backbone网络中的 Darknet53替换为 CSPDarkNet53特征提取网络，在特征融合部分使用SPP+PAN代替了FPN。其主要改进的残差网络CSPnet结构如图4所示。YOLOv4结合了非常多的小Tricks，如进行数据增强的CutMix和Mosaic技术，加入DropBlock正则化，利用Class label smoothing标签平滑等，使用改进后的Mish激活函数代替原始

45、的LeakyRule激活函数。虽然相对于之前的 YOLOv3 版本，YOLOv4 没有使用革命性的创新，但是结合了众多训练的小技巧，使其变得更加适合于安全帽佩戴检测等小目标检测的任务当中，Yun等49将YOLOv4模型应用于安全帽的佩戴检测当中，在标签的标注过程中添加了基于安全帽训练的人体模型，使得检测出的安全帽和人体一一对应，从而极大地改善了在复杂场景中站在桌子上或者手持安全帽也被误认为佩戴安全帽的情况。Liu等50对建筑工地的佩戴安全帽人员和未佩戴人员进行有效地区分，实现了对建筑工地现场施工人员的安全帽佩戴实时检测，虽然在未改进的YOLOv4模型上进行应用有着较好的检测效果，但是没有针对于

46、特殊情况下进行改进，存在着对针对性的目标检测任务效果较差和鲁棒性弱的问题。因此有人在针对特定场景下的任务进行改进，谢国波等51首先采用SE-Net注意力机制模块强化Backbone网络特征提取能力，然后使用密集空间金字塔池化结构代替网络中的空间金字塔（SPP）减少信息丢失，加强目标检测网络在不降低检测速度的同时提高复杂背景下的小目标细节信息特征提取的能力，改进后的算法评价准确率高达97.34%。Zeng等52通过将原始YOLOv4特征金字塔中多个卷积模块的繁琐重叠替换为跨阶段层次模块，优化了模型的精度和速度。同时对于安全帽检测是检测小目标，通过改变YOLOv4特征层输出和锚的线性变换来提高YO

47、LOv4检测小目标的性能。最终算法在安全帽检测中的平均精度为 93.37%，与原始 YOLOv4相比提高了3.15%。为了改善原始YOLOv4目标检测网络在实际应用的缺陷，许多的研究学者开始针对于安全帽佩戴检测任务下对模型进行适当改进，把其他具体的改进方法在表5中列出。YOLOv5算法是在先前两个版本的改进之上提出，目前已经更新到第六版，只有算法没有具体的论文来进行阐述。其主要的工作是总结了前两个模型的主要优点，在主干部分，使用了Focus网络结构，此方法在前五个版本中有所应用，在最新的版本中未使用，其主要特点是进行四个独立的特征层相加，扩大输入通道为原来的四倍，进行维度的拼接，Focus结构

48、如图5所示。Base layerPartial TransitionPart2Part1Res（x）BlockWithBottleneckn图4CSPnet结构图Fig.4Structure diagram of CSPnetFocus卷积切片切片切片切片拼接图5Focus结构图Fig.5Structure diagram of Focus文献Wu45Wang46刘增辉47改进方法利用Densenet网络替换为原有的Backbone特征提取网络通过应用交叉阶段部分网络（CSPNet）改进了 Darknet53 的主干网络，采用了空间金字塔集合（SPP）结构，并通过自上而下

49、和自下而上的特征融合策略改进了多尺度预测网络，实现了特征增强引进空间金字塔池化结构，对Backbone网络进行调整，增加特征层保留更多的小目标信息，采取GIoU优化损失函数，优化聚类方法优势算法检测准确率提高了2.44%，提高了安全帽佩戴的检测水平检测速度相对原始的YOLOv3 提高了 28%，速度提高了6 FPS改善后的网络平均检测精度提升到88.5%，相比较改善之前提高了12.9%局限性在安全帽被遮挡，或者多个低分辨率的情况下检测效果差，检测效果不理想通过加强特征提取，网络的模型参数增加，模型变大使用场景单一，只针对于水电工程施工现场区域场景下的安全帽佩戴检测识别数据集通过

50、互联网爬取和自己手工拍摄共计500图片基于实际建筑工地自建数据集，手工标注COCO形式采取7 000张安全帽佩戴检测图片，以水电施工现场和视频截图方式获得，并手工标注成VOC格式应用场景建筑工地建筑工地电力施工现场表4（续）高腾，等：深度学习在安全帽佩戴检测中的应用研究综述19Computer Engineering and Applications计算机工程与应用2023，59（6）文献杨贞53杨雪54王雨晨55李帅56郭奕裕57葛青青58王晨59张萌60Gao61改进方法将深度级联网网络模型替换原有的基于深度特征的网络模型算法将路径聚合网络替换原有的特征金字塔进行多通道融合改进K-mean

展开阅读全文