1、消防科学与技术2023年 8 月第 42 卷第 8 期消防设备研究基于 CA-Res注意力机制的 YOLOv5图像火灾检测算法李晓旭1,2,3,李泊宁1,2,3,张曦1,2,3,于春雨1,2,3(1.应急管理部沈阳消防研究所,辽宁 沈阳 110034;2.辽宁省火灾防治技术重点实验室,辽宁 沈阳 110034;3.消防与应急救援国家工程研究中心,辽宁 沈阳 110034)摘要:为解决人工和传感器火灾检测方法中存在的精度低、速度慢等问题,在分析火灾图像特征的基础上,设计了一种融入可调节坐标残差注意力的改进 YOLOv5 多路火灾检测算法。该算法在 YOLOv5网络模型上进行改进,可以自动提取和学
2、习图像的特征。首先,通过坐标注意力机制,将位置信息嵌入到通道注意力中,使网络能够获得更大范围的信息,提高了对火灾图像的检测精度。其次,通过残差连接保留火焰的初始特征,将初始特征与坐标注意力特征进行自适应结合,实现更好的识别效果。最后,在多路摄像头捕获的实时视频数据上进行火灾的检测与识别,具有较高的准确率。该火灾检测方法可以有效识别和检测火灾早期产生的火焰信息,减少在火灾早期错过最佳扑救时间造成的损失。关键词:火灾检测;注意力机制;目标检测;深度学习中图分类号:X932;X924.4 文献标志码:A 文章编号:1009-0029(2023)08-1113-04准确识别火灾早期探测是保障消防安全的
3、重要手段,研究高准确率且具有快速定位能力的火灾监测报警系统,对于保护生命财产安全具有极大价值和必要性。MUHAMMAD K 等1将火灾探测方法分为两类:传统火灾报警和视觉传感器辅助火灾探测。目前,大多数火灾探测和火灾报警系统都是基于传统的火灾探测或火灾报警系统。例如,徐炀2提出一种基于火灾报警控制器、温度和烟雾探测器的火灾报警系统,胡幸江3提出一种多波段红外火灾探测器。然而,这些传感器的系统的监测范围有限,并且性能容易受到环境变化的影响。随着视频监控手段的发展,通过视觉传感器辅助火灾探测的方式备受关注4-7。图像火灾探测的优点包括快速响应以及可获取火灾场景实时图像或视频。在基于图像/视频的火灾
4、探测器中,火灾物体被抽象为由颜色、亮 度、纹 理、形 状 和 运 动 信 息 生 成 的 图 像 特 征8-10。TOPTAS B 等11提出了基于网络摄像机的远程视频监控系统和图像处理技术,用于火灾监控和报警技术;提出了一种改进的 SSD,通过使用数据增强和修改默认框的比例和数量来检测图像中的火灾,但其准确率仅达到84.75%。SHEN D 等12提出了一种优化的 YOLO 模型,用于从视频帧中检测火焰对象。然而,所采用火焰样本仅来源于 194幅图像,数据多样性较低。上述基于数字图像处理的火灾识别技术的难点在于火焰目标的分割、提取以及样本的获取。以往火焰目标的提取主要通过挖掘方法13和轮廓跟
5、踪技术14实现。但在实际应用中,得到的图像有噪声,会出现错误识别或遗漏识别,影响了火焰识别的速度和准确性。目前,采用基于深度学习的方式可以自动捕获图像特征,但其预测准确率仍有待提高。针对上述缺点,笔者提出了一种可调节坐标残差注意力的 YOLOv5多路火灾检测算法。1网络模型融入可调节残差坐标注意力的改进 YOLOv5神经网络15包括:骨干网络 Backbone、颈部网络 Neck 和头部网络 Head。其中,骨干网络 Backbone主要用于从输入图像中提取关键特征;颈部网络 Neck 主要用于创建特征金字塔;头部网络 Head 主要负责最终的检测步骤,其使用锚定框构造具有类概率、对象性得分和
6、边界框的最终输出向量,如图 1所示。笔者对传统的 YOLOv5 神经网络进行改进,添加可调节的坐标残差注意力机制,即 CA-Res 模块,如图 2 所示。将标注好的火灾数据集按照神经网络要求的格式进行输入,输入到改进的 YOLOv5 神经网络进行训练并测试结果。1.1可调节坐标残差注意力注意力机制被广泛用于提高模型的性能,注意力机制16的灵感来自人眼观察事物的方式,因为人眼总是专注于事物最重要的方面。将注意力机制加入 YOLOv5特征提取的骨干网络中,利用注意力机制对输入图像分别从水平和垂直空间方向对远程依赖关系和位置信息进行编码,再自适应聚合两个方向的初始特征。融入注意力机制的改进时,先将坐
7、标注意力加入YOLOv5 特征提取的主干网络中,坐标注意力是一种轻量且高效的注意力机制,它将位置信息嵌入到特征向量中,使网络可以获取更大范围的特征。该注意力分别从水平和垂直空间方向对远程依赖关系和位置信息进行编码,然后聚合特征。因此,需要对特征进行分解,从空间上捕获位置信息。具体来说,沿着水平和垂直方向分解。将输入的特征图,即 CHW,(H,1)和(1,W)分别对水平和垂直方向特征进行编码,高度为h、宽度为w的第 c通道的输出分别表示,为式(1)、式(2)。基金项目:国家重点研发计划项目(2021YFC3001605)1113Fire Science and Technology,August
8、 2023,Vol.42,No.8zhc(h)=1W0 i Wxc(h,i)(1)zwc(w)=1H0 j Hxc(j,w)(2)式中:H和W分别输入特征图的高和宽;zhc(h)为高度为h的第c通道的输出;zwc(w)为宽度为w的第c通道的输出;xc为c通道的输入图像特征。上述两个变换将特征与两个空间方向 x 和 y 聚合在一起。它们生成一对方向感知特征映射,使注意力机制能够沿一条空间路径捕获特征图的远距离信息,并保留沿另一条空间路径的准确位置信息。随后在空间维度上拼接上述两种变换,并使用 11卷积来压缩通道。然后使用 BatchNorm 和非线性对垂直和水平方向的空间信息进行编码,分割编码信
9、息,并使用11 卷积调整注意图的通道,使其等于输入特征图的通道数。最后使用 sigmoid 函数进行归一化和加权融合。所述注意力机制最终输出表示,见式(3)。yc(i,j)=xc(i,j)ghc(i)gwc(j)(3)式中:xc(i,j)表示输入特征图;c表示第c通道;h、w分别表示输入特征图的高和宽;i、j分别表示当前向量的高和宽;ghc(i)和gwc(j)分别表示两个空间方向的注意权重,公式见式(4)、式(5)。gh=1 i wighc(i)=ReLU(Conv1h(fh)+zh)(4)gw=1 j hjgwc(j)=ReLU(Conv1w(fw)+(1-)zw)(5)式中:fh RC/r
10、 H和fw RC/r W分别为特征 F 在两个方向上信息分解的特征张量;Conv1h()和Conv1w()表示卷积核为 11 的卷积操作;(0,1)为超参数,可以自动调节水平和垂直方向上的特征权重。考虑到火焰形态随时间不断变化,以及在水平和垂直方向上不同的变化特征,笔者通过超参数分别对水平和竖直方向的变化对识别的影响进行调整。同时,通过残差连接保留火焰的初始特征,将初始特征与坐标注意力特征结合,实现更好的识别效果,见式(6)、式(7)。F=ReLU(Conv1(Z)(6)Z=Concat(zh,zw)(7)式中:zh和zw分别表示两个方向上的原始特征;Concat()表示两个特征的拼接操作。1
11、.2损失函数损失函数的计算采用LMIoU损失函数,具体见式(8)。LMIoU=LCIoU+2 LFL(8)该损失函数为模型的总损失函数,是由LCIoU和LFL两个函数计算得来,具体见式(9)、式(10)。LCIoU=1-IoU+2()a,Bc2+vIoU=A BA B(9)式中:A、B分别表示预测检测框和目标检测框;a表示预测检测框的中心点;表示两个中心点之间的欧氏距离;c表示同时包含目标帧的预测帧的最小闭合区域的对角线长度;为可变参数的超参数;v表示预测框与目标框的长宽比一致性,具体见式(11)。骨干网络FocusConv.BottleneckCSPCA-ResConv.Bottleneck
12、CSPCA-ResConv.BottleneckCSPCA-ResConv.SPPBottleneckCSPConv.UpsampleConcatenateBottleneckCSPConv.Conv.ConcatenateBottleneckCSPConv.ConcatenateBottleneckCSPDetectDetectDetectBottleneckCSPConcatenateUpsample头部网络202025540402558080255颈部网络图 1可调节坐标残差注意力的 YOLOv5网络整体结构Fig.1Overall structure of YOLOv5 network
13、 with adjustable coordinate residual attention残差连接平均池化(x)Concat+Conv平均池化(y)BatchNorm+Nonlinear1-残差连接输入Conv+6sigmoidConv+6sigmoid输出图 2可调节坐标残差注意力机制 CA-ResFig.2Adjustable coordinate residual attention CA-ResLFL=-(1-p)log(p),y=1 -(1-)plog(1-p),y=0(10)式中:a设置为 1;设置为 2;p为预测概率的大小;y为判断是否为正样本。v=42(arctanwgthg
14、t-arctanwphp)(11)式中:wgthgt表示目标检测框的长宽比;wphp表示预测检测框的长宽比。焦点损失函数代替交叉熵损失函数作为网络的置信度和分类损失。2试 验2.1数据集设置数据集主要包括网络爬虫获取的火灾样本和在试验室进行的标准火和蜡烛火试验,收集到的小尺寸火焰图片共计 5 200张。使用图片标记工具(labelImg)对火灾样本进行标注,见图 3,手动标记每张图片中的火焰区域,标记为“Flame”,样本的分辨率设为 640640。2.2试验设置与结果试验在 win10系统下进行,在深度学习集群中进行训练。集群配置有两块 Intel Xeon 4215R CPU 和 4 张
15、RTX 3080(10G)GPU。网络模型基于 PyTorch 深度学习框架搭建,并采用了 Mosaic数据增强技术17对训练图片进行预处理。在采集到的数据集中,5 200张火焰图片分为训练集和测试集,其中 3 120张图片用于训练,2 080张图片用于测试验证,训练集中包含 600 张负样本,测试集中包含 740 张正样本和 300 张负样本。模型训练的学习率设置为 0.001,Batch Size设置为 256,共进行 300次训练。部分图像测试的结果见图 4。在采用测试集进行验证之外,还采用了 4路摄像机进行实时视频检测,见图 5。使用检测精度和检测速度指标衡量火灾检测模型的性能水平,其
16、中,mAP 是衡量检测精度的评价指标,见式(12),即准确率指标 P 对召回率指标 R 的积分,范围在 01,该数值越大,代表模型的检测精度越高。TP 为模型正确识别火灾目标的数量,FP 为错误识别火灾目标的数量,FN 为未检测出火灾目标的数量。用 FPS指标来衡量检测速度。mAP=1Ni=1N0iP(R)dR,P=TPTP+FP,R=TPTP+FN(12)使用训练好的模型对测试集进行测试,如图 6 所示。从图 6中可以发现,模型的检测精度(mAP 值)为 93.4%,其横纵坐标分别表示召回率、准确率,采用相同数据集在原 始 YOLOv5s 算 法 上 训 练,其 检 测 精 度(mAP 值)
17、为91.6%。通过测试结果可以看出,改进后的 YOLOv5 模型对小型火焰的识别与定位有着较高的准确性,适合小目标火灾精准识别,且其检测速度表现十分优秀,符合火灾早期探测报警的要求,但是在探测准确率上还有待加强。3结束语设计了一种融入可调节坐标残差注意力的改进 YOLOv5火灾检测方法,通过采集室内室外实际火灾样本的方式构建了火灾数据集。建立了融入可调节坐标残差注图 3labelImg标注软件界面图Fig.3LabelImg annotation software interface diagram fire 0.8fire 0.7fire 0.4fire 0.9fire 0.9fire 0.
18、8fire 0.5fire 0.9fire 0.5fire 0.8fire 0.3图 4部分火焰图像测试结果Fig.4A part of flame image test resultsfire 0.58fire 0.47fire 0.81fire 0.50图 5多路实时检测Fig.5Real time detection of multi-channel camera召回率0.0 0.2 0.4 0.6 0.8 1.0准确率1.00.80.60.40.20.0图 6检测精度 mAP值Fig.6The value of measurement accuracy mAP1114消防科学与技术20
19、23年 8 月第 42 卷第 8 期LFL=-(1-p)log(p),y=1 -(1-)plog(1-p),y=0(10)式中:a设置为 1;设置为 2;p为预测概率的大小;y为判断是否为正样本。v=42(arctanwgthgt-arctanwphp)(11)式中:wgthgt表示目标检测框的长宽比;wphp表示预测检测框的长宽比。焦点损失函数代替交叉熵损失函数作为网络的置信度和分类损失。2试 验2.1数据集设置数据集主要包括网络爬虫获取的火灾样本和在试验室进行的标准火和蜡烛火试验,收集到的小尺寸火焰图片共计 5 200张。使用图片标记工具(labelImg)对火灾样本进行标注,见图 3,手
20、动标记每张图片中的火焰区域,标记为“Flame”,样本的分辨率设为 640640。2.2试验设置与结果试验在 win10系统下进行,在深度学习集群中进行训练。集群配置有两块 Intel Xeon 4215R CPU 和 4 张 RTX 3080(10G)GPU。网络模型基于 PyTorch 深度学习框架搭建,并采用了 Mosaic数据增强技术17对训练图片进行预处理。在采集到的数据集中,5 200张火焰图片分为训练集和测试集,其中 3 120张图片用于训练,2 080张图片用于测试验证,训练集中包含 600 张负样本,测试集中包含 740 张正样本和 300 张负样本。模型训练的学习率设置为
21、0.001,Batch Size设置为 256,共进行 300次训练。部分图像测试的结果见图 4。在采用测试集进行验证之外,还采用了 4路摄像机进行实时视频检测,见图 5。使用检测精度和检测速度指标衡量火灾检测模型的性能水平,其中,mAP 是衡量检测精度的评价指标,见式(12),即准确率指标 P 对召回率指标 R 的积分,范围在 01,该数值越大,代表模型的检测精度越高。TP 为模型正确识别火灾目标的数量,FP 为错误识别火灾目标的数量,FN 为未检测出火灾目标的数量。用 FPS指标来衡量检测速度。mAP=1Ni=1N0iP(R)dR,P=TPTP+FP,R=TPTP+FN(12)使用训练好的
22、模型对测试集进行测试,如图 6 所示。从图 6中可以发现,模型的检测精度(mAP 值)为 93.4%,其横纵坐标分别表示召回率、准确率,采用相同数据集在原 始 YOLOv5s 算 法 上 训 练,其 检 测 精 度(mAP 值)为91.6%。通过测试结果可以看出,改进后的 YOLOv5 模型对小型火焰的识别与定位有着较高的准确性,适合小目标火灾精准识别,且其检测速度表现十分优秀,符合火灾早期探测报警的要求,但是在探测准确率上还有待加强。3结束语设计了一种融入可调节坐标残差注意力的改进 YOLOv5火灾检测方法,通过采集室内室外实际火灾样本的方式构建了火灾数据集。建立了融入可调节坐标残差注图 3
23、labelImg标注软件界面图Fig.3LabelImg annotation software interface diagram fire 0.8fire 0.7fire 0.4fire 0.9fire 0.9fire 0.8fire 0.5fire 0.9fire 0.5fire 0.8fire 0.3图 4部分火焰图像测试结果Fig.4A part of flame image test resultsfire 0.58fire 0.47fire 0.81fire 0.50图 5多路实时检测Fig.5Real time detection of multi-channel camera
24、召回率0.0 0.2 0.4 0.6 0.8 1.0准确率1.00.80.60.40.20.0图 6检测精度 mAP值Fig.6The value of measurement accuracy mAP1115Fire Science and Technology,August 2023,Vol.42,No.8意力的改进 YOLOv5 神经网络,能够对火灾产生的火焰进行有效识别,并在本文建立的数据集上取得了较好的识别效果。参考文献:1 MUHAMMAD K,AHMAD J,ZHIHAN L V,et al.Efficient deep CNNbased fire detection and l
25、ocalization in video surveillance applicationsJ.IEEE Transactions on Systems,Man,and Cybernetics:Systems,2019,49(7):1419-1434.2 徐炀.智能火灾自动报警系统的构建D.天津:天津理工大学,2013.3 胡幸江.多波段红外火焰探测器系统研究与产品开发D.杭州:浙江大学,2013.4 黄景博,王红霞.基于 YCbCr与角点检测的火灾识别算法研究J.长春师范大学学报,2023,42(2):51-59.5 蔡鹏德.基于机器视觉的高大空间建筑火灾检测技术研究D.淮南:安徽理工大学,
26、2022.6 王少韩,刘淼.基于改进 Tiny-YOLOv3 的火灾图像识别算法研究J.农业装备与车辆工程,2022,60(9):121-124.7 杨文阳,吴叶森,张峰,等.基于 YOLOv5s的社交媒体平台火灾图像检测方法研究J.中国电子科学研究院学报,2022,17(9):833-841.8 张晋瑞,宋焕生,孙士杰,等.改进 YOLOv5 的隧道火灾帧差检测网络与应用方法J.计算机工程与应用,2023,59(2):222-231.9 王龙兴,刘为国,朱洪波.基于改进 YOLOv5算法的火灾图像检测研究J.湖北民族大学学报(自然科学版),2022,40(2):196-201.10 赵小翔.
27、基于图像识别的火灾监控终端设计与实现D.重庆:重庆邮电大学,2023.11 TOPTA B,HANBAY D.A new artificial bee colony algorithm based color space for fire/flame detectionC/Berlin:Springer Berlin Heidelberg,2020:10481-10492.12 SHEN D,CHEN X,NGUYEN M,et al.Flame detection using deep learningC/2018 4th International Conference on Contro
28、l,Automation and Robotics(ICCAR).2018.13 WANG H X,ZHAO G Q,YUAN J S.Visual pattern discovery in image and video data:a brief surveyJ.Wiley Interdisciplinary Reviews.Data Mining and Knowledge Discovery,2014,4(1):24-37.14 刘立昕.成像声纳目标检测与跟踪技术研究D.哈尔滨:哈尔滨工程大学,2015.15 REDMON J,FARHADI A.YOLOv3:An incrementa
29、l improvementJ.arXiv e-prints,2018.16 孙萍,胡旭东,张永军.结合注意力机制的深度学习图像目标检测J.计算机工程与应用,2019,55(17):180-184.17 KASPEREULAERS M,HAHN N,BERGER S,et al.Short communication:detecting heavy goods vehicles in rest areas in winter conditions using YOLOv5J.Algorithms,2021,14(4):114.Image fire detection algorithm base
30、d on YOLOv5 with CA-Res attention mechanismLi Xiaoxu1,2,3,Li Boning1,2,3,Zhang Xi1,2,3,Yu Chunyu1,2,3(1.Shenyang Fire Science and Technology Research Institute of MEM,Liaoning Shenyang 110034,China;2.Liaoning Key Laboratory of Fire Prevention Technology,Liaoning Shenyang 110034,China;3.National Engi
31、neering Research Center of Fire and Emergency Rescue,Liaoning Shenyang 110034,China)Abstract:To solve the problems of low accuracy and slow speed in manual and sensor fire detection methods,based on the analysis of fire features,this paper designs an improved YOLOv5 multiplex fire detection algorith
32、m incorporating adjustable coordinate residual attention.The YOLOv5 network adopted in our algorithm can automatically extract and learn the features of the images.First,the location information is embedded into the channel attention through the coordinate attention mechanism,which enables the netwo
33、rk to obtain a larger range of information and improves the detection accuracy of fire images.Secondly,the initial features of the flame are retained through residual connections,and the initial features are adaptively combined with the coordinate attention features to achieve better performance.Fin
34、ally,the detection and recognition with high accuracy are performed on realtime video streams captured by multiple cameras.The method proposed in this paper can identify and detect not only the flame information generated by fire,but also the smoke generated in the early stage of fire to reduce the loss of missing the best remediation time in the early stage of fire.Key words:fire detection;attention mechanism;object detection;deep learning作者简介:李晓旭(1995-),女,应急管理部沈阳消防研究所研究第二研究室实习员,主要从事火灾探测方面的研究,辽宁省沈阳市皇姑区文大路 218-20号,110034。通信作者:张 曦(1982-),男,应急管理部沈阳消防研究所助理研究员。收稿日期:2023-02-06(责任编辑:邢玉军)1116