1、 2023 年第 8 期203智能技术信息技术与信息化7 王通,于洁,马文会,等.电池管理系统 SOC 估算方法研究进展 J.电源技术,2018,42(2):312-315.8 郑 永 飞,文 怀 兴,韩 昉,等.基 于 LSTM 神 经 网 络的动力电池 SOC 估算研究 J.计算机应用与软件,2020,37(2):77-81.9 耿攀,许梦华,薛士龙.基于 LSTM 循环神经网络的电池SOC预测方法J.上海海事大学学报,2019,40(3):120-126.10 刘晓悦,魏宇册.优化神经网络的锂电池 SOC 估算 J.机械设计与制造,2021,11:83-86.11 李占英,时应虎,张海传
2、,等.基于 RBF-BSA 的锂离子电池 SOC 混合估算算法 J.华中科技大学学报(自然科学版),2019,47(12):67-72.12RIVERA-BARRERA J P,MUOZ-GALEANO N,SARMIENTO-MALDONADO H O.SoC estimation for lithium-ion batteries:review and future challengesJ.Electronics,2017,6(4):102-13513PAN HAIHONG,LU ZHIQIANG,WANG HUIMIN,et al.Novel battery state-of-healt
3、h online estimation method using multiple health indicators and an extreme learning machineJ.Energy,2018,160:466-47714 牛鑫强,田晶京,赵峰,等.不同环境温度下的锂离子电池 SOC 估计 J.电池,2021,51(4):342-345.【作者简介】苏磊(1987),男,江苏南京人,硕士,工程师,研究方向:神经网络与深度学习在电力系统中的应用。柯海山(1993),男,江苏南京人,硕士,工程师,研究方向:能量管理系统。(收稿日期:2023-02-20 修回日期:2023-04-19
4、)改进 YOLOv5m 的密集人群检测徐克圣 李欢欢 崔效魁 刘丹丹XU Kesheng LI Huanhuan CUI Xiaokui LIU Dandan 摘要 对密集人群进行检测时,由于存在遮挡物及光线分布不均匀,导致检测精度低、速度慢,同时由于参数量大使其无法部署在算力有限的移动设备上。针对以上问题,提出了改进 YOLOv5m 的密集人群检测算法,旨在检测密集人群中人体头部及身体可见区域。改进方法为首先将 CSPDarknet53 主干特征提取网络替换为更加高效且轻量化的 MobileNetV3 网络,再增加 ECA 注意机制,同时将 SiLU 激活函数替换为 ACON-C,以实现网络
5、模型的轻量化,平衡速度和精度。实验结果表明,改进后的算法在CrowedHuman 数据集上 mAP 达到 80.91%的同时相比 YOLOv5m 算法提高了 0.32%,参数量减少了约1.77 M 且实时检测速率提高了约 1.02 倍,在小型移动设备上表现出不错的检测效果。关键词 YOLOv5m;目标检测;MobileNetV3;深度学习;密集人群doi:10.3969/j.issn.1672-9528.2023.08.0451.大连交通大学软件学院 辽宁大连 116028 基金项目 辽宁省教育厅科学研究项目(LJKZ0486)0 引言近年来因人员聚集导致的伤亡事件不断发生,但有一些活动势必会
6、将观众聚集起来,比如听音乐会、观看足球比赛。因人员众多,仅依靠人力发现问题是低效的,因此本文提出一种基于改进 YOLOv5m 的密集人群检测方法,对观众席的观众进行实时检测,将深度学习应用到密集人群监控领域,实现智慧检测。目标检测方法可以分为三大类:1)采用滑动窗口对特征进行提取,再使用支持向量机(support vector machine,SVM)分类,最后对其进行分类器预测的传统方法。2)通过提取候选区域,对相应区域进行分类的双流(Two-Stage)算法,如R-CNN(regions with CNN features,R-CNN)1、Fast R-CNN(the Fast regio
7、n-based convolutional network,fast R-CNN)2等方法。3)基于深度学习的回归方法,如 YOLO(you only look once,YOLO)3-6系列、SSD(single shot multiBox detector,SSD)7、DenseBox 等方法。Two-Stage 算法相较于 One-Stages 算法检测精度高,2023 年第 8 期204智能技术信息技术与信息化但是检测速度比较慢,不适用于对检测速度要求比较高的场所。本文采用单流算法中的 YOLOv5m 模型作为基准模型,融入 ECA 注意力机制,过滤掉冗余特征信息,保留重要特征,提高检
8、测精度。将 CSPDarknet53 主干特征提取网络替换为更加高效且轻量化的 MobileNetV3 网络,减小模型体积、提高检测速度。将激活函数 Sigmoid 替换为ACON-C,以增强语义的特征提取。通过改进的网络模型,本文测试了相关数据集并验证了本文提出模型对现有模型mAP 的改进。本次研究中,考虑到密集人群检测相较于传统公共场所的技术难点主要在于观众席存在较多遮挡问题,因此本文只检测人体的可见区域,使得检测结果更加精准。卷积神经网络的参数量和计算量也是需要考虑的重点,本文通过更换轻量化网络结构,降低网络复杂度,节约计算资源,有利于在资源算力不足的小型移动设备上完成模型部署。1 YO
9、LOv5 网络模型介绍2020 年 6 月份,Ultralyti 团队在 YOLOv48-9 的基础上提出 YOLOv5 模型,网络结构如图 1 所示。YOLOv5 相较于 YOLOv4,速度更快,灵活性更好,适合模型的快速部署。YOLOv5 算法根据网络宽度与深度分为 4 种模型,依次为 YOLOv5s、YOLOv5m、YOLOv5x 和 YOLOv5l,精度逐渐提高,但检测速度逐渐降低。YOLOv5 网络结构由输入端、骨干网络、颈部和预测层四个部分组成。图 1 YOLOv5 结构图输入端由自适应锚框计算、Mosaic 数据增强、自适应图片缩放三部分组成。首先 Mosaic 数据增强将四张图
10、像通过随机缩放、随机裁剪、随机排布的方式拼接成一张图像,达到减少 GPU 使用、扩充数据集目的。其次由自适应锚框模块通过不断迭代参数,计算最佳的锚框值。最后再根据图片的长宽比进行缩放,通过减少图像上的边界填充加快推理速度。Backbone 由 Focus、CSP(cross stage partial network)、SPPF 三个模块构成,实现对输入图像的特征提取。Focus 模块通过对图片进行切片操作,将输入通道扩充为原来的 4 倍,再通过卷积得到下采样特征图,达到实现下采样的同时减少计算量并提升速度目的。CSP 将梯度信息集成到特征图中,减少模型的参数量,在保证推理速度以及准确率的提升
11、,还能使模型具有更小的尺寸。SPPF 在 SPP10上进行改进,二者输出结果相同,但SPPF 的速度是 SPP 速度的两倍。因此本实验将 SPP 结构更换为 SPPF 结构,如图 2 所示。SPPF(fast fpatial pyramid pooling,快速空间金字塔池化),解决了卷积神经网络对相关重复特征提取的问题,使得任意大小的特征图都能够转换成固定大小的特征向量。SPPF 指定一个卷积核,将输入的特征图依次输入到 3 个 55 大小的最大的池化层,每次池化后的输出作为下一个池化的输入,保证在进入到 Neck 层之前,图片尺度是统一的。图 2 SPPF 结构图Neck 区域采用FPN1
12、1+PAN12(Path Aggregation Network)结合的结构作为特征融合部分,首先将自底向上的特征金字塔与常规的 FPN 层结合,再将位置特征与提取的语义特征进行融合,最后将检测层与主干层进行特征融合,丰富模型的特征信息,并发送到预测层部分。Prediction 模块包括边界框预测、非极大抑制、损失函数计算,其损失函数由完全交并比13(complete intersection over union,CIoU)损失改进为广义交并比(generalized intersection over union,GIoU)损失。输出端由 3 个尺度的特征图组成,分别用于检测小、中、大目标
13、。2 改进 YOLOv5 目标检测算法YOLOv5 v6.1 采用 SiLU14激活函数,SiLU 具备无上界有下界、平滑、非单调的特性,在深层模型上的效果优于 ReLU15,但是计算量较大,导致检测速度较慢。本文用ACON-C16替换 SiLU 激活函数,使其动态的学习(自适应)激活函数的线性/非线性,控制网络每一层的非线性程度,显著提高了表现。2.1 ACON-CSwish 激活函数和 ReLU 激活函数的公式出发,挖掘其中的平滑近似原理(smooth approximation),并且将这个原理应用到 Maxout family 激活函数,提出了一种新型的激活函数:ACON family
14、激活函数,它明确地学习优化非线性(激活)和线性(非激活)之间的参数切换。在图像分类,目标检测以及语义分割的任务上,都使得深度模型有显著的提升效果。ACON-C 是在标准最大函数的光滑性和可微性近似公式的基础上,结合常见激活函数和 PReLu 的近似,采用双自变量函数,使用超参数使其在功能上进行缩放,得到ACON-C公式。标准最大函数的光滑性和可微性的近似公式,常见激活函数、PReLu近似公式,ACON-C分别如式(1),式(2),式(3),式(4)所示。2023 年第 8 期205智能技术信息技术与信息化在对 ACON-C 公式求导得到可以发现在一阶导中,控制着其渐进上下界的速度,p1,p2控
15、制着上下界的值,这是优于 Swish 激活函数的。111(,.,)iinxiinnxixeSxxe=(1)max(),()abxx (2)()max(,)f xx px=(3)(4)2.2 ECA 注意力机制在传统的卷积池化过程中,默认特征图中的每个通道是同等重要的,但在实际问题中,各种通道的意义是有区别的。本实验在 backbone 的最后一层,加入 ECA17注意力机制,达到加强整体通道特征,有效地提升模型精度的目的。如图 3 所示,ECA 在 SE 模块的基础上,把 SE 中使用全连接层学习通道注意信息改为 1*1 卷积学习通道注意信息,减小通道维度,降低参数量。图 3 EAC 结构图E
16、AC 模型流程主要为,首先输入 HWC 维度的特征图,使用全局平均池化 GAP,对输入特征图进行空间特征压缩,得到 11C 的特征图。再进行卷积核大小为 k 的 1 维卷积操作,并经过 Sigmoid 激活函数,得到各个通道的权重w,如公式(5)所示。最后将通道注意力的特征图 11C、原始输入特征图 HWC,进行逐通道乘,最终输出具有通道注意力的特征图。=(1()kC Dy (5)3 YOLOv5-MobileNetv3 网络3.1 特征提取网络改进YOLOv5 算法是一个目标回归技术,检测过程中将像素分割成相应位置的方格,遍历该区域一次,在方格中探测到信息后,按照当前方格的上一帧绘制一个检测
17、框,从而直接检测结果。但对于观众席人群密集的特殊性,设计算法需满足在尽量达到精度的前提下,还需要满足识别速度快的特点。因此本文在 YOLOv5m 架构的基础上,将 CSPDarknet53 骨干网络替换为轻量型网络 MobileNetv3,特征融合网络仍使用 SPPF 和 PANet 组合,预测网络使用 3 个不同尺度的网络,分别对应 8080、4040 和 2020 特征图,检测大、中、小目标,实现在能有效提取图像的深层特征以保证识别精度的前提下,降低网络的权重参数量,缩小其体积。3.2 MobileNetv3 网络Mobilenet 系列有三种网络结构,分别是 v1、v2、v3,其中 v3
18、 是 Howard 等18于 2019 年提出的最新的一代,网络结构如图 4 所示。Mobilenetv3 首先继承了 v1 的深度可分离卷积(depthwise separable convolutions)和 v2 的线性瓶颈的逆残差结构(the inverted residual with linear bottleneck),又将 SE-Net 作为搜索空间的一部分,在 Bottlenet 结构中加入 SE 结构,最后利用h-swish激活函数代替swish激活函数,最终实现模型的轻量化。3.2.1 激活函数swish激活函数具有无上界、有下界、平滑、非单调的特点,因此在深层模型上优于
19、 ReLU 函数。但由于 sigmoid 函数计算和求导比较复杂,会产生大量的计算成本,因此 V3 改用近似函数 ReLU6 逼近 swish,最终得到 h-swish 函数。ReLU6能在特定模式下消除由于近似 sigmoid 的不同实现而带来的潜在的数值精度损失并且适用于大部分的软硬件框架。swish函数和 h-swish 函数公式分别用变量 s、h 表示。公式如式(6)、式(7)所示。(6)H=xR(x+3)/6 (7)式中:R 表示 ReLU6 激活函数。3.2.2 SE 注意力机制MobileNetV3 使用 SE(squeeze-and-excitation)注意力机制,通过神经网
20、络架构搜索进行最优位置选择。如图 5 所示,SE结构主要由压缩和激励两个模块组成,主要目的是解决在卷积池化过程中不同通道所占的重要性不同带来的损失问题。图 5 SE 结构图首先通过全局池化对输入特征图进行处理,减小特征图的维数,再增加两个全连接层,最后通过 sigmoid 激活函数获得相应的权重。经过全局平均池化,获得全局的感受野,在第一次全连接时通过减少特征图的维度,减少了参数和计算量,经过非线性激活函数后再通过一个全连接恢复到原来的通道数,完成了通道间相关性的建立。MobileNetV3 利用两种 AutoML(自动机器学习)技术,为给定的问题找到最佳的神经网络架构,分别是 MnasNet
21、(一种自动移动神经体系结构搜索(MNAS)方法)、NetAdapt19(适用于移动应用程序的平台感知型算法)。首先使用 MnasNet进行粗略结构的搜索,使用 NetAdapt 算法获得卷积核和通道图 4 MobileNetv3 结构图2023 年第 8 期206智能技术信息技术与信息化的最佳数量,从一组离散的选择中选择最优配置,再以较小的降幅对未充分利用的激活通道进行调整,减少了模型的计算量与参数量。改进的 YOLOv5 网络的结构如图 6 所示。图 6 改进的 YOLOv5 结构图4 实验相关工作4.1 数据集及实验配置本文使用开源的 CrowedHuman 数据集,含训练集 15 000
22、张,测试集 5000 张,验证集 4370 张。每个人类实例都用头部边界框、人类可见区域边界框和人体全身边界框注释。本实验选取了 1000 张自制观众席的图片,通过对 PASCAL VOC 数据集进行数据清洗保留了 2 种类别标签信息,分别是head 和 visible body,然后按照 9:1 划分为训练集和验证集。本实验采用 MistGPU 云平台,操作系统为 Linux,内存大小为 16 GB,GPU 型号为 RTX A4000,12 G 显存,深度学习框架采用 PyTorch 1.11.0、cuda 11.6+OpenCV4、cudnn 8.4.0、python。4.2 评价指标本实
23、验平均精度(average precision,AP)和均值平均精度(mean average precision,mAP)作为模型检测准确性能的评价指标,平均精度综合考虑了目标检测的精确率(precision)和召回率(recall)。各评价计算指标公式如式(8)所示,其中mAP 用变量 m 表示,AP 用变量 A 表示。10()AP R dR=1mAn=(8)使用参数量作为模型大小的评价指标,进行一次卷积运算需要的浮点运算量作为模型计算量的评价指标,每秒处理的图片数量作为模型检测速度的评价指标。4.3 实验结果分析本实验 CrowedHuman 测试集与自制数据集来验证改进后的 YOLOv
24、5 网络的检测效果,改进的 YOLOv5 算法够对观众席上的观众进行精准地识别并且定位,能够精准的检测出观众的身体可见部分,漏检、误检的情况较少,具有较好的检测效果。如图 7 所示显示了原始的 YOLOv5 和改进的YOLOv5 对相同图像数据的检测结果。从结果能够看出,改进的 YOLOv5 在密集人群中表现更好,可以更好地检测出被遮挡的部分。(a)yolov5 (b)改进的 yolov5图 7 检测结果对比图本实验将 batch-size 设置为 16,训练总轮次设置为 200个epoch,采取 Mosaic 数据增强方式,将初始学习率设为0.01;采用 SGD 函数优化参数,动量因子设为
25、0.937,权重衰减系数设为 0.000 5。本 次 实 验 对 Faster R-CNN、SSD300、YOLOv3、YOLOv5 和改进的 YOLOv5 网络进行训练与测试,并得到如表 1 所示的 mAP、帧率、技术指标。本文提出的算法在mAP 上比原 YOLOv5 算法上升 0.32%的同时持有 39.2 帧/s 的实时检测速率,满足实时检测的场景需求。表 1 不同方法技术指标对比MethodBackbonemAP/%帧率/(帧s-1)Faster R-CNN R-101-FPN60.8115.40SSD300VGG-1674.3245.20YOlOv3DarkNet5357.4236.
26、23YOLOv5CSPDarknet5380.5938.31改进 YOLOv5MobileNetv380.9139.20在测试中 Faster R-CNN 算法获得了 60.81%的 mAP,比本文算法低 20.1%.由于网络复杂度的问题,模型在进行计算时耗时较长,在检测速率方面该算法仅保持着 15.4 帧/s 的实时速率,难以满足实际场景中对检测速度的要求。SSD 算法检测过程简单,只需在图片不同位置按照不同尺度和宽高比进行密集抽样,再利用CNN提取特征后直接进行分类与回归,因此检测速率比较快,达到 45.2 帧/s。但由于均匀密集采样造成的正负样本不均衡情况使得训练困难,导致模型准确度有所
27、降低,mAP 只有 74.32%。除此之外,随着网络加深,在高层特征图中小目标的信息掉了,导致 SSD 算法对小目标的检测效果较差,更适宜对大目标的检测,也可以通过增大输入图片的尺寸达到提升小目标的检测效果。由于 YOLOv3 算法其网络计算复杂度相对比较低,在本文数据集上检测的 mAP 仅为 57.42%,持有 38.31 帧/s 的实时检测速率,满足实际检测任务中对速率的要求,但其检测的准确率相对较低,大概率出现误检、漏检的情况,难以应对密集人群场景。两者与本文所提的算法相比均没有太明显的优势。YOLOv5 算法检测的 mAP 为 80.59%,改进的 YOLOv5 算法的 mAP 为 8
28、0.91%,相比 YOLOv5m 网络 mAP 提升了 0.32%。表 2 模型参数对比Method参数量大小/MBFLOPs/GBFaster R-CNN 60.5213.2Yolov361.5311.3YOLOv52.127.6改进 YOLOv50.356.4 2023 年第 8 期207智能技术信息技术与信息化由表 2 可以看出 Faster R-CNN,YOLOv3 的参数量较大,不适合本文的应用场景。改进后的算法相比原 YOLOv5 算法参数量下降了 1.8,FLOPs 下降了 1.77 MB 且实时检测速率提高了约 1.02 倍,结果证明改进后的算法降低了网络的复杂度、模型参数量,
29、提高了实时检测速率,符合本文的应用场景。5 结束语 针对密集人群检测参数量大,检测速度慢等问题,本文提出了改进 YOLOv5m 的密集人群实时检测算法。经实验测试,改进后的算法有效降低了模型参数量、提高准确率和检测速率等评价指标,能达到视频图像实时性要求,具备一定优势。但该算法在特征信息不明显或目标过小的情况下仍然存在一定程度的漏检,之后会对该方面做进一步研究和改进。参考文献:1 GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic seg
30、mentationC/IEEE Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE Press,2014:580-587.2 XU L,CHOY C S,Li Y W.Deep sparse rectifier neural networks for speech denoisingC/2016 IEEE International Workshop on Acoustic Signal Enhancement(IWAENC).New York:IEEE Press.2016.p.1-53 REDM
31、ON J,FARHADI A.YOLOv9000:better,faster,strongerC/2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE Press,2017:6517-6525.4 WANG C Y,LIAO H,WU Y H,et al.CSPNet:A new backbone that can enhance learning capability of CNNC/2020 IEEE/CVF Conference on Computer Vision and
32、Pattern Recognition Workshops(CVPRW).New York:IEEE Press,2020:1571-1580.5 WANG FENHUA,HUANG CHAO,ZHAO BO,et al.Gesture recognition based on YOLO algorithmJ.Transactions of Beijing institute of technology,2020,40(8):873-879.6 BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:Optimal speed and accuracy of obje
33、ct detectionC/IEEE Conference on Computer Vision and Pattern Recognition,New York:IEEE Press,2018:1804-0276.7 REDMON J,DIVVALA S,GIRSHICK R,et al.You Only look once:unified,real-time object detectionC/2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),New York:IEEE Press,2016:779-
34、7888 WANG C,LIAO H,WU Y H,et al.CSPNet:A new backbone that can enhance learning capability of CNNC/IEEE Conference on Computer Vision and Pattern Recognition.New York:IEEE Press,2020:1571-1580.9 WANG K,LIU M.Toward structural learning and enhanced YOLOv4 network for object detection in optical remot
35、e sensing imagesJ.Advanced theory and simulations,2022(6):5-16.10 HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognitionJ.IEEE transactions on pattern analysis and machine intelligence,2015,37(9):1904-1916.11 LIN T Y,DOLLAR P,GIRSHICK R,et al.Fea
36、ture pyramid networks for object detectionC/Proceedings of the IEEE Conference On Computer Vision And Pattern Recognition.New York:IEEE Press,2017:2117-2125.12 XU L,CHOY C S,LI Y W.Deep sparse rectifi er neural networks for speech denoisingC/2016 IEEE International Workshop on Acoustic Signal Enhanc
37、ement(IWAENC).New York:IEEE Press,2016:1-513 HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognitionJ.Pattern analysis&machine intelligence IEEE transactions,2015,37(9):1904-1916.14 PAPAGEORGIOU C,POGGIO T.A Trainable system for object detectionJ.Intern
38、ational journal of computer vision,2000,38(1):15-33.15 LU DI,MA WENQIANG.Gesture recognition based on improved YOLOv4-tiny algorithmJ.Journal of Electronics&Information Technology,2021,43(11):3257-3265.16 TAN M,ChEN B,PANG R,et al.Mnasnet:Platform aware neural architecture search for mobileC/Proceed
39、ings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York:IEEE Press,2019:2820-2828.17 WANG Q L,WANG B G,ZHU P F,et al.ECA-Net:effi cient channel attention for deep convolutional neural networksC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
40、New York:IEEE Press,2020:11531-11539.18 LIN T Y,DOLLAR P.Feature pyramid networks for object detectionJ.Computer vision and pattern recognition,2017(11):478-48319 ZENG KAI,LI XIANG,ChEN HONGJUM,et al.Research on the Improved YOLOv5 Network with Attention MechanismJ.Software engineering,2023,26(01):55-58.【作者简介】徐克圣(1965),男,辽宁大连人,大连交通大学,硕士,副教授,研究方向:事数据库应用、数据仓库与数据挖掘、制造业信息化。李欢欢(1998),女,安徽阜阳人,大连交通大学,学术硕士研究生在读,研究方向:密集人群目标检测。崔效魁(1998),男,辽宁丹东人,大连交通大学,学术硕士研究生在读,研究方向:目标检测。刘丹丹(1996),女,安徽蚌埠人,大连交通大学,学术硕士研究生在读,研究方向:手势识别。(收稿日期:2023-02-21 修回日期:2023-04-23)