基于注意力机制改进深度神经网络的遮挡目标检测_晏超.pdf

资源描述

1、2023年8期创新前沿科技创新与应用Technology Innovation and Application基于注意力机制改进深度神经网络的遮挡目标检测晏超（南京邮电大学通达学院，江苏扬州 225127）在实际生活中，目标往往不是完整展示在视觉范围当中，感兴趣目标可能和同类目标发生重叠，也可能会受到不同类目标的遮挡干扰1。感兴趣目标的缺失展示给机器完成高准确度目标检测的任务带来很大难度，为了实现复杂环境中被遮挡目标和其他目标的区分，对模型提取特征方面的要求会更高。人类的视觉在观察目标时通常会着重关注目标区域的信息，并且减小关注甚至忽视剩余的信息。在视觉的有限关注力下，关注图像中偏重点的部分

2、，将更多的精力投入到这个部分发掘更多与目标关联紧密且有用的特征信息，抑制无价值的信息，这就是注意力机制。在面向被遮挡目标的检测中引入注意力机制，进一步提升模型提取关键特征信息的性能，以此更加准确地预测被遮挡目标的真实位置。1改进生成特征图的方式1.1SSD目标检测算法SSD（Single shot MultiBox Detector）的网络纵深结构主要由主干前置网络 VGG16 和后续的多个辅助卷积特征层（conv）组成2，如图 1 所示。基于多尺度特征图检测的思路，向网络输入 300300 尺寸的图片，VGG16 网络作为 SSD 网络的基础网络输出 1 张特征图，后续的卷积层再输出 5 张

3、特征图。越往后的卷积层作者简介：晏超（1994-），男，硕士，助教。研究方向为机器视觉。摘要：目标检测是机器视觉领域一个重要的基础性方向，是以标示出图像中感兴趣目标的真实位置为目的的工作，而图像中的部分目标往往处于被遮挡的状态。由于实际环境中目标被遮挡程度和遮挡目标物体性质不同等因素的影响，提高检测被遮挡目标的准确性是一个难点。该文以一步检测法 SSD 目标检测算法为基础，在部分卷积层结构中添加注意力机制模块 CBAM，有目的地关注特征图中的重要信息以较好地检测被遮挡的小目标。还引入 Inception-ResNet-v2 网络结构改变 SSD 算法中特征图的生成方式，并嵌入 CBAM 改进

4、Inception-ResNet-v2 的部分结构，更好地提取关键信息以区分被遮挡目标和干扰项。分别从行人和车辆 2 个不同目标出发，混合开源数据集和自建数据集进行训练，测试结果表明改进后的模型检测被遮挡目标的效果有所提升。关键词：遮挡目标检测；注意力机制；CBAM；Inception-ResNet-v2；SSD中图分类号：TP391.4文献标志码：A文章编号：2095-2945（2023）08-0010-05Abstract:Object detection is an important basic direction in the field of machine vision,whic

5、h aims to indicate the real lo-cation of the objects of interest in the image,and some of the targets in the image are often occluded.Due to the influence offactors such as the degree of occlusion and the nature of occluded objects in the actual environment,it is difficult to improve theaccuracy of

6、detecting occluded targets.Based on the one-step detection SSD object detection algorithm,this paper adds the atten-tion mechanism module CBAM to the partial convolution layer structure to pay attention to the important information in the featuregraph in order to better detect the occluded small tar

7、gets.In addition,the Inception-ResNet-v2 network structure is introduced tochange the generation mode of the feature graph in the SSD algorithm,and CBAM is embedded to improve part of the structureof Inception-ResNet-v2 to better extract key information to distinguish between occluded objects and in

8、terference items.Startingwith two different targets of pedestrians and vehicles,mixed open source data sets and self-built data sets are trained,and thetest results show that the effect of the improved model in detecting occluded objects is improved.Keywords:occlusion object detection;attention mech

9、anism;CBAM;Inception-ResNet-v2;SSDDOI：10.19981/j.CN23-1581/G3.2023.08.00310-创新前沿科技创新与应用Technology Innovation and Application2023年8期输出特征图尺寸越小（从 3838 降到 11），将总共 6 张特征图全部用于检测层步骤中，完成先验框的生成、输出置信度得分及获取边界框坐标位置信息的工作。最后，通过非极大抑制算法排除繁杂重叠的冗余框，留下最能表征目标的检测框，得到最终的检测结果。SSD 算法兼顾了两步检测法和一步检测法的优势，既保证了检测精度，又保证了检测速度。图1SS

10、D的网络结构1.2引入注意力机制CBAM模块CBAM（Convolution Block Attention Module，卷积块注意力模块）是基于注意力机制的，同时关注空间和通道 2 方面重要性的轻量级模块3。如图 2 所示，CBAM 模块将特征图作为输入对象，进入通道注意力模块完成第一步，突出特征图中有意义的信息。特征图 F 经过并行的最大池化层和平均池化层的作用，特征图 abc 的尺度会转化为a11 大小，然后通过中间模块 Shared MLP 的作用，先压缩通道数再扩张回原数量级，接着将通过 ReLU 激活函数的作用生成的 2 个结果进行逐元素相加，最后通过 sigmoid 函数输出通

11、道注意力的结果 Mc（F），该输出结果和输入的特征图 F 逐元素相乘得到结果 F，尺度重新转化为 abc，第一步过程如公式（1）（2）所示。由第一步过程可得，整个通道注意力模块的作用就是维持通道方面维度不变的同时，压缩空间方面的维度。第二步是进入空间注意力模块，突出目标的位置信息4。将第一步的结果 F直接作为第二步的输入，经过非并行的最大池化层和平均池化层的作用得到 2 张 1bc 的特征图，经过 Concat 操作将 2 张特征图拼接起来，然后通过 77 卷积作用转化为通道数为 1 的特征图，最后通过 sigmoid 函数得到空间注意力的结果 Ms（F），该输出结果和输入的特征图F逐元素相乘

12、得到结果 F，同样尺度重新转化为 abc，第二步过程如公式（3）（4）所示。由第二步过程可得，整个空间注意力模块的作用就是维持空间方面的维度不变，压缩通道方面的维度。图2CBAM结构图F MC（F）F，（1）MC（F）=（MLP（AvgPool（F）+MLP（MaxPool（F），（2）F MS（F ）F ，（3）MS（F）=f77AvgPool（F）；MaxPool（F）()()。（4）由于 SSD 网络的低层和中层网络生成的特征图分辨率较高，但是包含的语义信息较少，会导致检测小目标效果不佳。而被遮挡目标经常是以小目标的尺度出现，比如根据视觉近大远小的特性，处于图像中远处的目标被近处的目标遮

13、挡，直接导致被遮挡目标的召回率严重不足。引入 CBAM 模块分别置于 SSD 低层的conv4_3 生成特征图输出给检测层的过程中，以及中层的 conv8_2 后方，如图 3 所示。通过加强通道和空间的特征表达的方式，弥补低层表达能力的不足。各个权重与特征图的相乘运算将侧重信息表达了出来，提升网络提取重要特征的能力，这些重要特征往往是被遮挡目标在图像中单一显示出来的，与其能否被检出很有关联。1.3引入改进的Inception-ResNet-v2网络结构为了能够更加高效地提取目标的特征，引入Inception-ResNet-v2 结构5-6改变 SSD 网络生成 6 张多尺度特征图的方式。分别通

14、过 mix_3a，mix_4b，mix_5a，3003003383851219191 024 19191 024 1010512 55256 33256 11256 检测层NMSSSDVGG16conv4_3conv6conv7conv8_2conv9_2conv10_2conv11_2输入特征图输出特征图通道注意力模块空间注意力模块11-2023年8期创新前沿科技创新与应用Technology Innovation and Application图3在SSD中引入CBAMInception-ResNet-A，Inception-ResNet-B 和 Inception-ResNet-C 6

15、个不同层级的结构得到不同尺度的特征图，全部用于检测步骤进行预测。越是经过深度神经网络（DNN）高层的卷积作用，特征图映射到原图中的感受野就越大，会直接导致局部位置信息的感受越来越差，相对位置信息越发不明显。运用空间注意力模块关注目标位置信息的特点，引入多个 CBAM 模块置于Inception-ResNet-X 结构中含有卷积层多分支路径最后合并输出的路径上，X 代表 A、B 和 C，如图 4图 6所示。以 Inception-ResNet-A 为例，如图 4 所示，输入和输出之间包含 4 条分支路径。其中在 3 条带卷积层的并行路径中，第一条路径只需要进行 11 卷积核的作用，第二条路径需要

16、经过 11 和 33 卷积核的作用，第三条路径需要经过 11 和 2 个 33 卷积核的作用，堆叠 3 条路径作用的结果再经过 11 卷积核的作用来到合并路径，最后通过 CBAM 的作用强化特征位置信息的表征，输出的结果再和不带卷积层直接输出的结果相加。同理，如图 5 和 6 所示，各个包含不同程度信息的特征图在进行相加前，都要经过 CBAM 的作用，再输出到结构下层或检测层中，如图 7 所示。图6引入CBAM模块的Inception-ResNet-C结构图4引入CBAM模块的Inception-ResNet-A结构图5引入CBAM模块的Inception-ResNet-B结构输入输入检测层输

17、出输出输出11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积13 卷积11 卷积33 卷积11 卷积33 卷积33 卷积31 卷积71 卷积17 卷积17 卷积CBAMCBAMCBAM输入CBAMCBAMconv4_3conv6conv7conv8_2conv9_2conv10_2conv11_2检测层12-创新前沿科技创新与应用Technology Innovation and Application2023年8期2实验结果与分析2.1实验环境配置在 Win10 系统环境下，使用 python 语言基于 SSD的 Tensorflow 版本的实验平台。

18、硬件配置选定处理器Intel（R）Core i5 8400，显卡 NVIDIA GeForce GTX1080。设置批量尺寸为 16，动量参数为 0.90。第一段迭代训练次数为 120 000，学习率设置为 0.000 5，第二段迭代训练次数为 40 000，学习率设置为 0.000 05。针对行人目标选用 INRIA 数据集，车辆目标选用 KITTI 数据集，还要分别混合自建数据集一并参与训练。图7改变生成特征图的方式2.2评价指标本实验使用以下指标分析算法的检测性能。1）精确度 P（Precision）衡量检测出的目标是真实目标的比率，表示检测出的目标到底是不是行人和车辆的正确程度。2）召

19、回率 R（Recall）衡量检测出的目标数量占所有真实目标数量的比率，表示所有行人和车辆是不是都被检测出来。3）单张图片检测时间衡量检测的速度，时间越短，实时应用性越好。2.3结果分析使用不同的数据集，采用对比实验验证在 SSD 网络中引入 CBAM 模块和在 SSD 网络中引入包含CBAM 模块的 Inception-ResNet-v2 结构对提升被遮挡目标检测效果的有效性。改进后的模型在检测被遮挡行人和车辆目标的精度上都有提升，2 种算法分别提升 0.5%和 7.2%的精准率，1.6%和 5.0%的召回率。单张图片的平均检测时间随模型复杂程度的提升而略微增长。数据结果分析见表 1。如图 8

20、所示，通过对比不同算法输出的不同检测图可以发现，不论是受到同类目标的遮挡还是受到干扰项目标的遮挡，部分被遮挡目标在改进后的算法中都能被检测出来，减小了一定程度的漏检和错检。数据集算法精准率(%)召回率(%)单张图片平均检测时间/s INRIA 数据集 SSD 71.6 67.2 0.326 KITTI 数据集 SSD 75.3 72.8 0.334 混合数据集 SSD 83.9 79.2 0.405 INRIA 数据集 SSD+CBAM 73.5 70.8 0.335 KITTI 数据集 SSD+CBAM 77.8 75.1 0.382 混合数据集 SSD+CBAM 84.4 80.8

21、0.406 INRIA 数据集 SSD+Inception;ResNet;v2+CBAM 87.3 82.5 0.412 KITTI 数据集 SSD+Inception;ResNet;v2+CBAM 89.7 83.6 0.436 混合数据集 SSD+Inception;ResNet;v2+CBAM 91.1 84.2 0.443 表1引入CBAM改进算法前后检测实验结果（a）改进前检测结果图mixed_3amixed_4amixed_5aCBAM-Inception-ResNet-ACBAM-Inception-ResNet-BCBAM-Inception-ResNet-C检测层13-202

22、3年8期创新前沿科技创新与应用Technology Innovation and Application4结束语根据机器人技术基础课程的实验需求，本文设计开发了采用磁铁吸合的可快速拆装的模块化移动机器人底盘实验平台，并通过对四麦克纳姆轮全向底盘运动学分析和实验测试验证了实验平台的可行性、可靠性。基于该实验平台，学生可以进行多项实验，一方面可以增加学生的学习兴趣，提高学生的综合设计能力和创新实践能力；另一方面为学生今后参加创新实践项目和学科竞赛打下坚实基础。参考文献：1 李敏，唐维伟.独轮机器人实验平台J.实验技术与管理，2020，37（8）：119-124.2 高强，庞毅，张静，等.移动机器人

23、平台在实验教学中的应用J.实验室科学，2011，14（2）：70-73.3 许鹏，郑再象，陆秋懿，等.基于 Mecanum 四轮全向移动平台运动特性仿真与研究J.农业装备与车辆工程，2018（7）：64-66.4 贾官帅.基于 Mecanum 轮全方位移动平台的理论和应用研究D.杭州：浙江大学，2012.5 胡天林，李继芳，罗锦才，等.基于 Arduino 的移动机器人实训平台设计J.实验技术与管理，2020，37（12）：P108-111.6 张翠云.基于单片机的无线遥控小车设计与实现J.机电工程技术，2020（7）：184-186.图8检测结果对比图（b）改进后检测结果图3结论针对复杂环境

24、下行人和车辆目标被遮挡情况下的检测问题，以 SSD 目标检测算法为基础，从 6 张生成特征图入手，通过直接引入注意力机制 CBAM 模块和引入包含 CBAM 模块改进的 Inception-ResNet-v2 网络结构这 2 种不同算法，分别改变特征图的生成方式，增强了模型的特征提取能力，再利用混合数据集参与训练，进一步提高模型的泛化能力。参考文献：1 OUYANG W，ZENG X，WANG X.Single-pedestrian detection aided by two-pedestrian detection J.IEEE transactionson pattern analysi

25、s and machine intelligence，2015，37（9）：1875-1889.2 LIUW，ANGUELOV D，ERHAN D，et al.SSD：SingleShot MultiBox Detector M.Znieibe B，Matas J，Sebe N，et al.Lecture Notes in Computer Science.2016：21-37.3 WOO S，PARK J，LEE J Y，et al.Cbam：Convolutional blockattention module C/Proceeding of the European Conference

26、on Computer Vision（ECCV），2018：3-19.4 WENHAO C，ZHUO F，DONGYAO Z，et al.Facial Ex-pression Recognition via a CBAM Embedded NetworkJ.ProcediaComputer Science，2020（174）：463-477.5 CHRISTIAN S，SEGEDY I，VINCENT W，et al.Inception-v4，Inception-ResNet and the Impact of Residual Connections on Learning-vl C/Pro

27、ceedings of IEEE Conferenceon Computer Vision and Pattern Recognition，2016：235-244.6 SZEGEDY C，IOFFE S，VANHOUCKE V，et al.Inception-v4，inception-resnet and the impact of residual connectionson learning C/Proceedings of Association for the Advance ofArtificial Intelligence.Menlo Park：AAAI，2017：4-12.（上接9页）14-

展开阅读全文