1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于条形池化和注意力机制的街道场景红外目标检测算法李强龙1,周新文1,位梦恩1,甘阳洲2(1.常州大学 计算机与人工智能学院,江苏 常州 213164;2.中国科学院深圳先进技术研究院,广东 深圳 518055)摘要:街道场景下的红外图像所含细节信息少、背景复杂,目前的目标检测模型存在检测精度低、检测速度慢的问题。为此,基于条形池化和注意力机制提出一种新的红外目标检测算法。使用包含条形池化和金字塔池化模块的混合池化模块改进快速空间池化金字塔模块,利用条形池化解决传统池化操作在进行目标检测时存在的特征丢失和污
2、染问题,提高算法对长窄目标的特征提取能力,同时在孤立目标之间建立全局依赖关系,使模型收集更多的特征信息。在注意力模块中加入水平和垂直方向上的全局池化操作,以获取目标在特征图全局范围上的位置信息,将位置信息嵌入特征通道中,使算法更精准地定位目标,降低复杂背景对检测性能的影响。使用无批次归一化阻断批次归一化的估计偏移累积,解决算法性能退化问题,进一步提高算法的检测性能。在 FLIR数据集上的实验结果表明,该算法的mAP(IoU值为0.5)和F1值分别达到80.7%和78.0%,相较YOLOv5分别提高了1.9和2.4个百分点。关键词:红外目标检测;条形池化;金字塔池化;注意力机制;无批次归一化开放
3、科学(资源服务)标志码(OSID):中文引用格式:李强龙,周新文,位梦恩,等.基于条形池化和注意力机制的街道场景红外目标检测算法 J.计算机工程,2023,49(8):310-320.英文引用格式:LI Q L,ZHOU X W,WEI M E,et al.Infrared target detection algorithm based on strip pooling and attention mechanism in street scene J.Computer Engineering,2023,49(8):310-320.Infrared Target Detection Algo
4、rithm Based on Strip Pooling and Attention Mechanism in Street SceneLI Qianglong1,ZHOU Xinwen1,WEI Meng en1,GAN Yangzhou2(1.School of Computer Science and Artificial Intelligence,Changzhou University,Changzhou 213164,Jiangsu,China;2.Shenzhen Institutes of Advanced Technology,Chinese Academy of Scien
5、ces,Shenzhen 518055,Guangdong,China)【Abstract】Infrared image in street scene contains less detail information and complex background,the existing target detection model exhibits low accuracy and sluggish processing speed.To address these issues,a new infrared target detection algorithm based on stri
6、p pooling and attention mechanism is proposed.The Mixed Pooling Module(MPM)includes strip pooling and the Pyramid Pooling Module(PPM)is used to improve the Spatial Pyramid Pooling Fast(SPPF)module.Strip pooling is applied to solve the feature loss and pollution issues existing in the traditional poo
7、ling operation during target detection,so as to improve the feature extraction ability for long and narrow targets,and the global dependency relationship is established between isolated targets,whereby this new method helps the model capture more enriched feature information.The global pooling opera
8、tes in the horizontal direction,and vertical directions are handled by the attention module to obtain the position information of the target in the global range of the feature map,whereby the position information is embedded into the feature channel so that the algorithm can locate the target more a
9、ccurately and reduce the impact of complex backgrounds on detection performance.Batch-Free Normalization(BFN)is used to address the performance degradation caused by the accumulation of the estimated offset in Batch Normalization(BN),which further improves the detection performance of the algorithm.
10、The experimental results on FLIR dataset show that the improved algorithm has an mAP(IoU value is 0.5)of 80.7%and an F1 value of 78.0%,which are 1.9 and 2.4 percentage points higher than those of YOLOv5,respectively.【Key words】infrared target detection;strip pooling;pyramid pooling;attention mechani
11、sm;Batch-Free Normalization(BFN)DOI:10.19678/j.issn.1000-3428.0065481基金项目:广东省基础与应用基础研究基金(2020A1515010651)。作者简介:李强龙(1994),男,硕士研究生,主研方向为机器视觉、目标检测;周新文(通信作者),讲师、博士;位梦恩,硕士研究生;甘阳洲,副研究员、博士。收稿日期:2022-08-10 修回日期:2022-09-26 Email:开发研究与工程应用文章编号:1000-3428(2023)08-0310-11 文献标志码:A 中图分类号:TP391第 49卷 第 8期李强龙,周新文,位梦恩
12、,等:基于条形池化和注意力机制的街道场景红外目标检测算法0概述 红外成像技术不需要借助外部环境光源,并且不受雨雪风霜等恶劣天气的影响,具有全天候成像、抗 干 扰 能 力 强、可 远 距 离 成 像、成 像 精 度 高 等 优点1。由于红外成像技术具有良好的成像特性,因此被广泛应用于无人驾驶2、交通监控3等街道场景。街道场景下的红外图像对比度低、信噪比低(低信噪比会导致目标被淹没和干扰4)、图像所含细节信息少(仅有一个颜色通道,提供的信息少)、背景复杂(复杂的背景会使目标区域昏暗且不均匀4),以上因素导致目前针对街道场景的红外目标检测算法难以提取图像更深层次的语义信息,检测效果欠佳。近年来,随着
13、计算机视觉领域研究的不断深入,卷积神经网络(Convolutional Neural Network,CNN)已被证明具有很好的特征提取能力,并且已被用于解决诸多包括目标检测在内的问题。在 CNN 基础上提出的目标检测算法主要分为双阶段目标检测算法(如 R-CNN5)和单阶段目标检测算法(如 SSD6、YOLO7)两种。YOLOv5是最近发布的目标检测模型,它具有良好的目标检测性能,相较于过去的目标检测算法,YOLOv5进行了很多改进:1)在输入端使用 Mosaic 数据增强技术提高了模型的鲁棒性;2)使用 CSP(Cross Stage Partial)网络模块简化后的 C3模块,减少了计算
14、量,缩短了模型的推理时间;3)在算法的 Neck 部分使用 FPN(Feature Pyramid Network)和 PAN(Path Aggregation Network)相结合的方式,融合了不同尺度的图像特征,提高了算法的特征融合能力;4)改进了 SPP(Spatial Pyramid Pooling)模块,提出了检测速度更快的快速空间池化金字塔SPPF(Spatial Pyramid Pooling Fast)模块。虽然 YOLOv5 的检测性能良好,但是由于红外图像的特殊性,导致 YOLOv5 在红外目标检测任务中表现一般。为使模型在检测街道场景下的红外目标时同时满足实时检测和高精
15、度的要求,本文在分析红外图像特性的基础上改进 YOLOv5,提出一种红外目标检测模型 Strip-YOLO。本文的主要工作归纳如下:1)将包含条形池化(Strip Pooling)和金字塔池化模块(Pyramid Pooling Module,PPM)的混合池化模块(Mixed Pooling Module,MPM)与 SPPF 模块相结合,提出快速空间条形池化金字塔(Strip Spatial Pyramid Pooling Fast,SSPPF)模块,SSPPF 将 MPM提取到的特征信息与原特征信息进行融合,得到更多的特征信息,同时解决传统池化带来的特征丢失、污染等问题;2)在注意力模块
16、中融合位置感知信息并与 C3残差块相结合,提出注意力 C3模块,即 AC3(Attention C3),使模型可以在全局范围上定位目标位置信息,降低复杂背景信息的影响;3)使用无批次归一化(Batch-Free Normalization,BFN)解决由批次归一化(Batch Normalization,BN)的估计偏移累积所带来的模型性能退化问题。1相关工作 1.1传统红外目标检测算法传统红外目标检测算法的过程总体上可以分为3个阶段,分别是选取感兴趣区域(Region of Interest,RoI)、特征提取和分类。在选取感兴趣区域的阶段,根据待检测目标的大小选取不同尺寸的滑动窗口来扫描输
17、入图像,并以此产生感兴趣的候选区域8。由于这个过程是对所有区域进行无差别扫描,因此会产生很多冗余窗口,十分影响检测效率9。在特征提取阶段,使用人工设计的特征提取器从候选区域中提取特征,其中包括 SIFT10、Haar11等。由于目标形态变化和背景光照变化具有多样性,因此导致提取的特征泛化能力一般。在分类阶段,使用SVM(Support Vector Machine)12或 AdaBoost13对感兴趣区域中的对象进行分类。文献 14 将红外、方向梯度直方图、归一化梯度幅度、局部二值等 4种通道特征相结合,实现了远红外传感器的夜视行人检测,并提出了一种基于形态学的快速感兴趣区域生成算法,提高了检
18、测速度。文献 15 将 HOG 作为感兴趣区域的特征描述符,提出了一种低成本的嵌入式行人分类方法。1.2卷积神经网络目标检测算法文献5在 2014 年开创性地提出了双阶段目标检测算法 R-CNN。双阶段目标检测算法在红外目标检测领域得到广泛研究。文献16在 Faster R-CNN17的基础上,利用红外图像的显著性映射对红外图像进行增强,提高了行人检测的效果。但是,由于训练显著性网络的过程和 Faster R-CNN 的训练过程是独立的,是非端到端的多任务训练,因此训练过程十分耗时4。文献 18 通过改进 FPN与关联网络提高了 Faster R-CNN 的检测性能。由于 R-CNN 将候选框
19、的生成和结果检测分为 2 个阶段,且 2 个过程的计算结果无法共享,因此推理过程十分耗时4。为实现实时检测,文献 7 提出了单阶段目标检测算法 YOLO,它将目标检测任务作为回归问题来求解,首先将图像划分为s s个网格,然后让每个网格负责预测中心点落在其中的物体并生成相应的回归框。YOLO 算法将目标建议框的生成和结果检测合并为一个过程,实现了端到端的检测。除此之外,单 阶 段 目 标 检 测 算 法 还 包 括 SSD6及 其 变 体RefineDet19等。目前,单阶段目标检测算法在红外目标检测领域的应用有很多。文献 2 针对复杂背景和遮挡问题,提出了一个端到端的红外目标检测器 TIRNe
20、t。文献 9 借鉴基于二阶项的注意力机制3112023年 8月 15日Computer Engineering 计算机工程对 YOLO 算法进行改进。文献 20 改进 SSD 算法,提出了道路小目标检测模型。虽然以上方法在无人驾驶2等领域取得了较好的检测性能,但是这些方法在特征提取时忽略了目标的形状变化以及目标特征间的相互影响,只简单地采用规则池化核的池化操作,这使得算法对于条形目标或者全局范围内存在关系的目标检测效果不佳,如行人、并排停靠的车辆等。此外,这些方法在复杂背景下的目标检测任务中检测效果一般。2Strip-YOLO方法实现 2.1结合条形池化的 SSPPF模块空间池化金字塔 SPP
21、对于目标检测任务十分有效,目前被用于很多检测模型中。SPP 由多个大小不同的池化操作组成,可以有效解决因图像剪裁、缩放等操作造成的图像失真问题,提高输入图像特征的尺度不变性。此外,SPP 也能有效解决图像特征重复提取的问题,避免网络出现过拟合。虽然 SPP模块有诸多优点,但是由于其采用规则的池化操作(N N的池化核),导致在进行街道场景下的目标检测时因无法适应目标形状变化而丢失大量的特征信息,特别是在检测长而窄的目标时,漏检率会大幅提高,如在垂直方向上较窄的行人和在水平方向上较长的自行车。其次,规则池化操作在检测离散分布且相互独立的目标时,由于池化核规则且单一形状的原因,往往会不可避免地将目标
22、之间或者目标与背景之间的特征信息合并在一起,从而造成特征污染问题,如图 1(a)中 2个并列停放在一起的汽车,规则池化核的传统池化导致 2个汽车之间以及汽车与背景之间的特征信息混淆在一起,造成了特征污染。最后,由于传统池化操作池化核形状和大小的限制,导致它无法捕获目标在全局范围上的长期依赖关系,如图 1(b)所示,汽车往往并排停放,传统池化无法捕获汽车之间的全局依赖关系。条形池化是文献 21 在 2020 年提出的一种新的 池 化 操 作,它 的 池 化 核 是 不 规 则 的(1 N或N 1)。条形池化在一个空间维度保持较长形状的内核,而在其他空间维度保持较窄的内核形状,以此来捕获孤立区域的
23、远程关系和局部上下文信息。由于条形池化操作池化核形状的独特性,使得它可以很好地规避传统池化存在的问题,因此,本文采用条形池化的方法对 SPPF模块进行改进,提出更适用于街道场景红外目标检测任务的 SSPPF模块。条形池化是标准平均池化的变体,标准平均池化可以表示为:yiojo=1h w 0 i h 0 j wxio h+ijo w+j(1)其中:x H W是一个输入的二维张量;H和W分别为特征图的高度和宽度;(h w)为需要池化的空间范围;y是平均池化过后输出的二维张量,它的每个空间位置对应一个大小为(h w)的池化窗口。与标准池化不同的是,条形池化要求池化的空间范围为(H1)或(1W),并且
24、要对特征图中的所有特征值求平均。条形池化的输出可以表示为:yhi=1W0 j Wxij(2)yhj=1H0 i Hxij(3)其中:yhi和yhj分别表示水平方向的条形池化输出(yh H)和垂直方向的条形池化输出(yv W)。虽然条形池化可以很好地解决传统池化操作存在的问题,但是若只是简单地将模块中的传统池化操作替换为条形池化,将会大幅降低模型对非条形目标的检测性能。MPM 包含条形池化模块和PPM,其中:条形池化模块包含水平和垂直方向上的条形池化操作,它们在水平和垂直方向上保持较长的池化核以适应目标形状的变化并捕获目标之间的长期依赖关系,弥补传统规则池化操作对物体形状变化和目标间依赖关系的忽
25、略,减少特征丢失;PPM 则包含了不同大小池化核的传统池化操作,这不仅可以使模型将特征聚焦在较小的特征图上,提高重要特征的权重,而且能使模型兼顾对非条形目标的特征提取能力。因此,本文使用包含条形 池 化 的 MPM 结 构 来 代 替 SPPF 中 的 最 大 池 化操作。图 2 展示了 SPPF 模块和 SSPPF 模块的整体结构,其中,Conv1、Conv2 表示普通卷积块,包含标准卷积、归一化和激活函数 3种操作。如图 2(b)所示,为了提取更多的目标特征信息并提高检测速度,本文在保留 SPPF整体结构的同时将 MPM 提取的长窄目标特征、全局特征等作为补充特征,与原特征通过加法操作进行
26、特征融合。相较于使用传统最大池化操作的 SPPF模块,改进后的 SSPPF模块使用了条状的池化核进行池化操作,这使得模型对目标形状的变化更加敏感,并且能更好地捕获目标间的长期依赖关系,提高模型的特征提取能力。另外,改进后的SSPPF 模块由于加入了 PPM,因此仍然具有解决图像失真等问题的能力。图 1不同的池化操作Fig.1Different pooling operations312第 49卷 第 8期李强龙,周新文,位梦恩,等:基于条形池化和注意力机制的街道场景红外目标检测算法MPM 模 块 的 具 体 结 构 如 图 3 所 示,其 中,Conv2d 表示二维卷积,Conv1d 表示一维
27、卷积,它将条形池化模块和 PPM 提取到的特征通过加法操作分别与原特征进行融合。在条形池化模块中:首先对特征图进行通道压缩以减少参数量;其次分别进行水平和垂直方向上的条形池化操作,其中,水平方向上的池化可以更好地收集长期依赖关系的线索和水平方向上较长的目标特征信息(如自行车),而垂直方向上的池化则可以使模型提取到在垂直方向上较为窄长的条形物体特征信息(如行人),从而提高模型的特征提取能力;最后对池化后的特征图进行编码、上采样、特征融合以及再编码等操作,并与原特征进行融合。PPM 的整体结构与条形池化模块类似,但是它采用的是不同池化核大小的池化操作,这可以使重要程度不同的特征聚焦在一张特征图上,
28、然后在编码、采样等操作后将特征与原特征进行融合,以提高更重要特征信息的权重。值得一提的是,PPM 中 2个较小特征图的大小不宜设置得过大或过小,过大可能会导致模型的检测受到较多无关特征信息(如背景)的干扰,而过小则可能导致模型丢失重要的特征信息(如目标)。因此,这 2 个特征图的大小设置需要十分注意,本文经过大量的实验,将其大小分别设置为3 3和4 4,使得模型既不受无关特征信息的干扰又不会丢失重要的特征信息,从而达到较好的检测性能。由于 PPM 中存在池化核大小不同的池化操作,因此其可以更好地捕获局部上下文信息,提高模型在检测目标分布较为紧密时的特征提取能力。2.2加入注意力机制的 AC3模
29、块文献 22 提出了一种新的全局上下文建模框架的实例化方法 GCNet(Global Context Network),它可以有效地建模全局上下文并获取全局上下文信息,GCNet 包括上下文建模模块和转换模块。在上下文建模模块中,首先使用卷积和 Softmax 函数获取注意力权重,然后进行注意力池化,以获取全局上下文特征。在转换模块中,首先通过卷积进行特征变换,使模型建立通道依赖关系,然后使用广播加法将全局上下文特征聚合到对应位置的特征上实现特征融合,使模型为重要语义特征赋予更大的权重。虽然 GCNet 可以使模型很好地调整重要特征信息的通道权重,但是在面对复杂的街道场景时不 具 备 定 位
30、目 标 全 局 位 置 特 征 信 息 的 能 力。为此,受坐标注意力机制23的启发,本文改进 GCNet注意力模块,提出了更适合复杂背景红外目标检测的注意力模块,它可以更好地获取目标在全局范围上的位置依赖关系和注意力权重,更准确地定位目标。图 4 所示为改进后的注意力模块结构。在该模块中,本文引入不同方向上的全局平均池化并分别进行编码,以增强模型对不同方向上目标特征通道的敏感度。在获取目标位置信息的模块中,本文采用以下步骤对位置特征进行提取与融合:1)对输入的特征图进行水平和垂直方向上的全局平均池化,其中一个方向用于捕获目标位置特征的远程依赖关系,另一个方向则可以保留目标的精确位置信息;2)
31、将这些特征信息进行通道拼接,以此将不同空间方向上的位置远程依赖关系进行聚合,产生独立的位置特征映射;3)对聚合后的带有方向感知和位置信息的特征进行编码,然后进行通道切割,重新划分图 3MPM 模块结构Fig.3MPM module structure图 2SPPF和 SSPPF模块的整体结构Fig.2Overall structure of SPPF and SSPPF modules3132023年 8月 15日Computer Engineering 计算机工程为不同方向上的位置特征信息并再次进行编码;4)将获取到的方向感知和位置敏感的注意力图与原特征图进行融合,以此将目标的全局位置信息嵌
32、入到特征通道中,使模型能够快速地定位目标;5)将嵌入了位置信息的特征图输入上下文建模和转换模块中进行通道权重调整。为了使注意力模块具有轻量化的特性,在获取目标位置信息模块和转换模块中都使用了1 1的卷积来降低特征图的通道数,这可以显著降低参数量。改进后的注意力机制引入了不同方向上的平均池化,以此在特征通道中嵌入目标的位置信息,使模型能够更容易地捕获目标间的远距离依赖关系,大幅提升模型定位目标的能力,并有效抑制复杂背景对检测性能的影响,这对于目标检测任务十分重要。值得一提的是,在面对相对常规的街道场景目标检测任务时,虽然背景特征信息较少,但是检测结果往往同样不可避免地会受到背景信息的干扰,因此,
33、在进行一般场景下的目标检测时,同样需要在注意力机制中加入不同方向上的全局平均池化,以此增强模型定位目标的能力,降低背景信息对检测性能的影响。为了验证改进后的注意力机制对街道场景目标检 测 任 务 的 有 效 性,本 文 使 用 该 注 意 力 模 块 对YOLOv5 网络进行改进。C3 残差块是 YOLOv5 中最 重 要 的 特 征 提 取 模 块,它 分 布 在 模 型 的 骨 架(Backbone)和颈部(Neck),由多个残差结构组成,并融合了不同尺度下的特征信息,关系到模型的整体特征提取能力,发挥着至关重要的作用。为了使改进后的注意力模块能更好地调整特征通道权重,同时降低参数量,本文
34、将注意力模块仅加在 C3残差块结尾处的卷积块中,并将新的模块命名为 AC3。注意力模块的具体引入位置如图 5 所示,它位于归一化 和 SiLU 激 活 函 数 之 间,其 中,Conv1、Conv2、Conv3、Conv4均表示普通卷积块,包含标准卷积、归一 化 和 激 活 函 数 3 种 操 作,BN 表 示 批 归 一 化,Attention 表 示 注 意 力 模 块,SiLU 表 示 SiLU 激 活函数24。2.3模型体系结构YOLOv5已经陆续推出了 6个版本,最近推出的版本包含 YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l以及 YOLOv5x。其中,YOLOv5
35、n 模型最小,检测精度也最低,其他4个都是在YOLOv5n基础上不断加大模型的深度和宽度,检测精度也逐渐提高25。为减少街道场景目标检测任务的特征丢失,降低漏检率,同时抑制复杂背景对检测性能的影响,本文采用上述条形池化和添加注意力机制的思想改进YOLOv5算法,提出街道场景下的红外目标检测模型 Strip-YOLO。本图 4改进后的注意力模块结构Fig.4Improved attention module structure图 5AC3模块结构Fig.5AC3 module structure314第 49卷 第 8期李强龙,周新文,位梦恩,等:基于条形池化和注意力机制的街道场景红外目标检测算
36、法文用基于条形池化思想改进后的 SSPPF 模块替换YOLOv5中的 SPPF模块,以此减少特征丢失和污染;使用基于注意力机制改进后的 AC3 模块替换 C3 模块,以此减少复杂背景信息的影响。图 6所示为 Strip-YOLO模型结构,它由 YOLOv5s改进而来,其中,Conv表示普通卷积块,包含标准卷积、归一化和激活函数 3种操作,Conv2d表示二维卷积。Strip-YOLO 主 要 包 含 3 个 部 分,分 别 是 骨 架(Backbone)、颈(Neck)以及检测头(Detection Head),当输入一个大小为 640640 像素的图像时,输出的检测头中用于检测大、中、小目标
37、的特征图大小分别是 2020、4040、8080像素。2.4BN分布重规划BN 是深度学习中的一项重要技术,它在训练过程中使用小批量统计来标准化激活的输出,在推理过程中使用总体统计使特征图满足某一分布规律,从而加速模型收敛。虽然上述过程十分有效,但是随着训练的增加,模型的检测性能会逐渐退化。文献 26 针对 BN的工作得出一些结论,为解决性能退化问题提供了一定思路:1)BN 存在堆栈作用,导致训练时的估计偏移被累积,这间接导致了模型的训练性能退化;2)浅层的估计偏移会影响深层的估计偏移并被放大;3)使用无批次归一化 BFN 可以阻断相邻两层 BN 的估计偏移累积,如组归一化(Group Nor
38、malization,GN)和层归一化(Layer Normalization,LN),从而缓解性能退化问题。为进一步提高 Strip-YOLO 在街道场景下的特征提取能力,减少算法的性能退化,本文根据上述第 3条结论重新调整了算法中 BN 的分布,尽可能地保证模型中相邻 2 个 BN 之间存在 1 个 BFN。GN 将神经元划分为组,并分别在组内进行标准化,通过改变组数可以使 GN 的使用更加灵活,因此,本文选择GN 作为 BFN 来阻断估计偏移累积。从图 6 可以看出,SSPPF模块的上一个模块是 AC3,后一个模块是普通卷积块 Conv(包含标准卷积、归一化和激活函数 3种操作),因此,
39、为了保证模型整体满足第 3条结论,本文将图 2中卷积块 Conv1中的 BN 替换为 GN,这样上层 AC3 模块的最后一个卷积块中的 BN 就和卷积块 Conv2中的 BN 组成了交替分布的关系,从而缓解了 SSPPF可能会带来的偏移估计累积问题。从图 6 还可以看出,AC3 模块的上一个模块和后一个模块主要都是普通卷积块 Conv,因此,本文先将图 5中卷积块 Conv1 和 Conv4 中的 BN 替换为 GN,然后为了让 AC3模块本身满足第 3条结论,将图 5中的普通卷积块 Conv3 中的 BN 同样替换为 GN,这样 AC3模块和前后卷积块中的 BN 就组成了交替分布的关系。通过
40、以上调整能够使得模型基本满足 2 层 BN间夹着 1 个 BFN 的条件,缓解了 Strip-YOLO 性能退化的问题。3实验及分析 本 文 采 用 公 开 的 FLIR ADAS 数 据 集 来 验 证Strip-YOLO 的检测性能,并将其和 YOLOv5 在检测精 度、检 测 速 度 等 方 面 进 行 对 比 分 析,从 而 验 证Strip-YOLO 检测性能的优越性。另外,本文还对图 6Strip-YOLO模型结构Fig.6Strip-YOLO model structure3152023年 8月 15日Computer Engineering 计算机工程Strip-YOLO 检测
41、模型进行对比实验,以验证不同改进方式带来的性能提升效果。3.1FLIR数据集上的检测性能比较FLIR ADAS 数据集是 FLIR 公司在 2018 年 7 月发行的红外行人数据集,其数据通过安装在车辆上的 RGB 和热成像相机获取,拍摄的内容是美国加利福尼亚州圣巴巴拉市的街道与高速公路上的车辆和行人。数据集包含 4 个标签类别,共 10 228 张红外图像,被分为训练集和验证集。4个类别分别是行人(People)、自行车(Bicycle)、汽车(Car)和狗(Dog),其中,行人有 28 151张图像,自行车有 4 457张图像,汽车有 46 692 张图像,狗有 240 张图像。由于数据集
42、中狗的数目较少,因此本文只对数目较多的其他3个类别进行实验。3.1.1实验设置FLIR 数据集的图像分辨率是 640520 像素,为了满足实际应用需求同时节约计算成本和内存成本,本文在 FLIR 数据集上进行验证实验时,采用模型宽度和深度较小的 YOLOv5s 和 Strip-YOLO。为确保实验的公平性,在实验过程中均保持相同的超参数,并使用与原YOLOv5一样的数据增强方法。在训练阶段,设置输入图像的分辨率大小为 640640像素,训练 300 次,Batch Size设置为 32,学习率设置为0.01,动量衰减率设置为 0.937。在验证阶段,本文将置信度的阈值设置为 0.001,验证平
43、台采用 Intel i7-10750H CPU,GPU为 GTX 1650 Ti,内存为 16 GB,基于 PyTorch框架。3.1.2实验结果如 表 1 所 示,本 文 从 文 献27中 获 取 了 基 于RTX 2080 Ti 平台检测出的若干检测模型的实验结果(粗体数字表示最好的结果),并加入 YOLOv3-tiny、YOLOv5s 和 Strip-YOLO 的检测结果进行对比(YOLOv3-tiny 采用 COCO 数据集的权重作为预训练权重,YOLOv5s 和 Strip-YOLO 未采用预训练权重)。从表 1可以看出:Strip-YOLO 取得了最好的检测性能,明显优于其他检测模
44、型;与 YOLOv5s相比,Strip-YOLO 的精确率提高了 4.6 个百分点,召回率提 高 了 0.7 个 百 分 点,mAP(IoU 值 为 0.5)提 高 了1.9 个百分点,F1 值提高了 2.4 个百分点,这表明改进后的算法可以更准确、更全面地检测出目标;相较于 SPPF模块,由于 SSPPF模块只增加了池化和少量卷积操作,而在注意力模块中又使用1 1的卷积操作压缩了通道,因此这 2个模块都是十分轻量的。SSPPF模块和注意力模块的加入并不会大幅增加模型的推理时间和参数量,可以使模型满足实时检测和 高 精 度 的 要 求。Strip-YOLO 的 推 理 时 间 为20.4 ms
45、,保证了模型的实时性。此外,Strip-YOLO的 参 数 量 和 模 型 的 总 体 计 算 量 分 别 为 8.1106和1.931010,对 比 YOLOv5s 分 别 只 增 加 了 1106和3.3109,保证了模型的轻量性。3.2对比实验为了更客观地反映不同改进模块对模型检测性能的影响,本文在 FLIR 数据集上对 Strip-YOLO 进行对比实验。以 YOLOv5s的检测结果作为基线,分别记录并分析不同改进方式对 YOLOv5s检测性能、收敛速度、特征图的热力图等方面的影响。3.2.1不同改进方式的有效性分析表 2所示为不同改进方式对 YOLOv5s检测结果的影响,表 3 所示
46、为不同改进方式对各个类别目标检 测 精 确 率 和 召 回 率 的 影 响。从 表 2、表 3 可 以看出:1)SSPPF 的有效性。为减少规则池化操作给模型带来特征污染和特征丢失问题,本文将使用条形池化重构后的 SSPPF 模块加入主干网络,减少模型对长窄目标的特征丢失和无关目标间的特征污染问题,同时使模型在全局上建立长期依赖关系,丰富目标之间的全局联系。表 2 的第 1 组对比实验展示了YOLOv5s 和只添加 SSPPF 模块后的模型的检测性能对比,可以看出,模型在单独加入 SSPPF 模块时,mAP(IoU 值为 0.5)提高了 0.9 个百分点,F1 值提高了 2.1个百分点,这证明
47、了 SSPPF模块的加入能使模型更好地适应目标形状的变化,收集更多的特征信息,减少特征丢失,特别是针对较为窄长的行人和自行车目标。表 3的对比实验结果同样验证了这一结论,从表 3 中的第 1 行和第 2 行可以看出,在加入SSPPF 模块后模型的召回率大幅提高,特别是针对相对窄长的行人(召回率提高 0.7 个百分点)和自行表 1FLIR数据集上不同模型的检测性能对比 Table 1Comparison of detection performance of different models on FLIR dataset检测模型Faster R-CNNSSDRefineDetYOLOv3-ti
48、nyYOLOv5sStrip-YOLOAP(IoU值为 0.5)/%People71.363.177.271.982.684.8Bicycle61.847.557.251.963.467.1Car79.675.884.585.390.490.5P/%79.580.685.2R/%61.971.271.9mAP(IoU值为 0.5)/%70.962.173.069.778.880.7F1值/%69.675.678.0时间/ms131.640.144.89.110.820.4参数量/1068.97.18.1FLOPs/10913.316.019.3316第 49卷 第 8期李强龙,周新文,位梦恩,
49、等:基于条形池化和注意力机制的街道场景红外目标检测算法车(召回率提高 3.6个百分点),这再次证明 SSPPF的加入可以有效降低模型对长窄目标的漏检率。除此之外,由于 MPM 中的 PPM 将重要特征聚焦在更小的特征图上,并使用加法将其与原特征进行融合,这提高了目标特征的权重,因此,模型的准确率也有相应的提升。2)AC3的有效性。为了使模型更准确地定位目标,减少复杂背景对检测性能的影响,本文将使用不同方向池化操作获取的方向感知信息和全局目标位置依赖特征嵌入通道中,弥补 GCNet缺少全局目标位置信息的缺点,增强模型定位目标的能力。表 2中的对比实验展示了在未加入和加入注意力模块后的检测性能,可
50、以看出,在加入注意力模块后模型的mAP(IoU 值为 0.5)提高了 0.3 个百分点,F1 值提高了 1.6个百分点,这是由于全局方向池化的加入使得模型对目标的位置信息更加敏感,建立了全局目标位置间的空间依赖关系。表 3的对比实验再次佐证了这一结论,从第 1 行和第 3 行的实验结果可以看出,在加入 AC3 模块后,模型的准确率进一步提高(3 个类别的平均准确率提高了 2.8 个百分点),这表明 AC3模块的加入可以使模型生成的回归框更准确地定位目标而非背景。3)BN 分布重规划的有效性。为了缓解模型性能退化问题同时提高检测性能,本文使用 GN重新规划了模型中归一化操作的分布,阻断了 BN估