收藏 分销(赏)

改进YOLOv5的X光图像违禁品检测算法.pdf

上传人:自信****多点 文档编号:568130 上传时间:2023-12-28 格式:PDF 页数:7 大小:2.14MB
下载 相关 举报
改进YOLOv5的X光图像违禁品检测算法.pdf_第1页
第1页 / 共7页
改进YOLOv5的X光图像违禁品检测算法.pdf_第2页
第2页 / 共7页
改进YOLOv5的X光图像违禁品检测算法.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Engineering and Applications计算机工程与应用2023,59(16)基于X光图像的违禁品检测被广泛地应用于地铁等公共场所,目前主流方式为人工审查X光图像完成包裹中违禁品检测。一方面,人工审查X光图像需要工作人员的专注力与责任感。另一方面,包裹种类繁多、物品杂乱和图像重叠等问题都会影响安检人员的判断1。人工审查X光图像不完全可靠,安检人员的错误判断可改进YOLOv5的X光图像违禁品检测算法李文强,陈莉,谢旭,郝星星,李豪斌西北大学 信息科学与技术学院,西安 710127摘要:针对X光图像违禁品检测中的复杂背景、正负类别不平衡和漏检等问题,提出一种基于Y

2、OLOv5的X光违禁品检测算法。该算法通过在YOLOv5s骨干网络中引入Swin Transformer模块,利用局部自注意力与Shifted Window机制提升模型对X光图像全局特征的提取能力,并且在主干网络后增加空间注意力机制与通道注意力机制,以提升算法对违禁品关键特征的提取能力。引入一种自适应空间特征融合结构,缓解特征金字塔中不同层级特征图之间冲突对模型梯度的干扰。引入Focal Loss函数用于改进YOLOv5s的背景预测损失函数和分类损失函数,提升算法在正负样本与难易样本失衡情况下的检测能力。该算法在公开数据集SIXray100上的平均检测精度达到57.4%,相比YOLOv5s提高

3、了4.5个百分点;在SIXray正样本数据集上的平均检测精度达到90.4%,相比YOLOv5s提高了2.4个百分点。实验结果表明,改进后的算法相比原始YOLOv5s算法检测精度有较大提升,证明了算法的有效性。关键词:深度学习;目标检测;违禁品检测;YOLOv5;注意力机制文献标志码:A中图分类号:TP391.41doi:10.3778/j.issn.1002-8331.2210-0151Algorithm for Detecting Prohibited Items in X-Ray Images Based on Improved YOLOv5LI Wenqiang,CHEN Li,XIE

4、Xu,HAO Xingxing,LI HaobinSchool of Information Science&Technology,Northwest University,Xi an 710127,ChinaAbstract:Aiming at the problems of complex background,missing detection,and imbalance of positive and negative catego-ries in X-ray image contraband detection,an X-ray contraband detection algori

5、thm based on YOLOv5 is proposed.Firstly,the algorithm introduces the Swin Transformer into the YOLOv5s backbone network,and uses its local self-attention andShifted Window to improve the algorithm s ability to extract global features of X-ray images,the spatial attention mecha-nism and channel atten

6、tion mechanism are added after the backbone network to improve the algorithm s ability to extractkey features of contraband.Secondly,an adaptive spatial feature fusion structure is introduced to alleviate the interferenceof the conflict between feature maps at different levels in the feature pyramid

7、 on the model gradient.Finally,the FocalLoss is introduced to improve the background prediction loss function and classification loss function of YOLOv5s,andimprove the detection ability of the algorithm in the case of imbalance between positive and negative samples and diffi-cult and easy samples.T

8、he average detection accuracy of the algorithm in the public dataset SIXray100 reaches 57.4%,which is 4.5 percentage points higher than that of YOLOv5s;the average detection accuracy in the SIXray positive sampledataset is 90.4%,which is 2.4 percentage points higher than that of YOLOv5s.The experime

9、ntal results show that theimproved algorithm has a great improvement in detection accuracy compared with the original YOLOv5s algorithm,whichproves the effectiveness of the algorithm.Key words:deep learning;object detection;prohibited items detection;YOLOv5;attention mechanism基金项目:陕西省重点研发计划项目(2019ZD

10、LSF07-02);国家自然科学基金青年基金(62106199);陕西省教育厅一般专项科研计划项目(21JK0926)。作者简介:李文强(1997),男,硕士,CCF学生会员,研究方向为计算机视觉;陈莉(1963),通信作者,女,教授,CCF会员,博士生导师,研究方向为智能信息处理、数据挖掘,E-mail:;谢旭(1998),女,硕士研究生,研究方向计算机视觉;郝星星(1991),男,讲师,研究方向为多任务演化、组合优化;李豪斌(1997),男,硕士,研究方向为姿态估计。收稿日期:2022-10-12修回日期:2023-01-05文章编号:1002-8331(2023)16-0170-0717

11、02023,59(16)能会导致严重的后果,因此快速和准确地识别X光图像中的违禁品是必要的2。随着计算机视觉的发展,深度学习在违禁品检测中的应用可以分为图像分类、目标检测与图像分割等3。图像分类从给定的分类集合中为图像指定一个或多个标签,但图像分类只能判断X光图像是否包含违禁品,无法确定违禁品的位置。图像分割将图像分割成不同语义类别的区域,目前缺乏具有像素级别的注释数据集。目标检测分为目标定位与目标分类两个子任务,分别确定物体的位置和类别。目标检测算法可以分为Two-Stage 检测算法和 One-Stage 检测算法两大类别。Two-Stage检测算法将目标检测分为两个阶段,首先基于选择性搜

12、索或区域生成网络(region proposal network,RPN)4生成一个有可能包含待检物体的预选框,然后对预选框分类和位置修正,典型代表算法有区域卷积神经网络(regions with convolutional neural network features,R-CNN)与 Faster R-CNN4等。One-Stage 类检测算法通过在特征图上进行密集抽样以产生先验框,然后预测先验框中的可能物体类别以及物体位置修正,典型代表算法包含SSD(single shot multibox detector)5、YOLO(you only look once)6-9系列、RetinaN

13、et10等。针对违禁品检测中的尺度差异问题,康佳楠等11提出基于Faster R-CNN的多通道区域建议网络,依据违禁品实例大小构建多个独立的 RPN 通道,使得各个RPN通道存在合适的锚框与提取的特征图相对应;同时,引入膨胀卷积模块增大各尺度目标的感受野。郭守向等12将YOLOv3的骨干网络替换为DarkNet-C,并引入6层卷积的特征增强模块对特征图进行特征融合,以增强模型对小目标的检测能力。Zhang等13基于FSSD模型,引入空洞卷积以提取具有强语义信息的低级特征,从而提高模型对小目标的检测精度;同时,在骨干网络中加入残差模块以充分提取特征进行目标检测。上述方法一定程度改善了违禁品检测

14、中尺度差异问题。针对X光图像分类中的正负样本不平衡问题,Miao等14构建了一个大规模数据集SIXray,提出了类别平衡层次细化(class-balanced hierarchical refinement,CHR)方法。CHR 假设每个输入图像都是从混合分布中采样,通过迭代进行违禁品检测,并设计了一个类别平衡损失函数用于减少负样本对模型的影响,但对于X光图像的目标检测,依然存在正负样本不平衡问题。Li等15基于Mask R-CNN提出SAN模型,以解决X图像中物体密集问题导致的检测性能下降。SAN模型包含语义分割与注意力两个子模块,语义分割模块为每个类别生成注意力掩码,注意力模块将注意力掩码

15、与感兴趣区域(region of interest,ROI)结合起来。X光图像中的违禁物体具有随机性、稀疏性和重叠性,因此检测过程存在背景复杂、类别不平衡以及漏检等问题13。针对复杂背景问题,本文在YOLOv5s算法的基础上,在其特征提取网络中加入通道注意力与空间注意力机制,提升对关键特征的提取能力;在骨干网络中引入Swin Transform16结构,增强骨干网络对全局信息的获取,利用Shifted Window机制提高模型对全局特征的提取能力,从而提升模型对小目标的检测能力,并且在Neck阶段后引入自适应空间特征融合结构,以增强网络的特征提取能力。针对X光图像中的目标重叠问题,本文使用So

16、ft NMS机制代替非极大值抑制(non-maximum suppression,NMS),减少目标的漏检。针对类别不平衡问题,本文通过优化背景预测损失函数与分类损失函数,改善模型在正负样本失衡情况下的检测能力。同时,实验表明,改进后的YOLOv5s算法相比原始算法在违禁品检测任务中有一定的性能提升。1YOLOv5目标检测模型YOLOv5模型为 One-Stage类目标检测算法,存在四种不同的配置,分别是YOLOv5s(small)、YOLOv5m(medium)、YOLOv5l(large)与YOLOv5x。四种模型具有相同的网络结构,区别在于卷积神经网络的深度与宽度。YOLOv5的网络结构

17、主要由输入端、Backbone与Head组成9。输入端用 Mosaic数据增强解决小目标的 AP值较低的问题。Backbone 阶段的结构为 CSPDarknet53+SPP,其中CSPDarknet53主要包括Focus、Conv、C3基本组件。Focus对特征图进行切片操作,把3HW的特征图通过Conv组件的卷积操作形成12H/2W/2的特征图。Focus模块用于提高检测速度,并不会提高平均检测精度。Conv组件包括 Conv2d、BatchNorm2d和SiLU。Conv2d应用2D卷积处理特征图,BatchNorm2d对输入进行批量归一化(batch normalization),随后

18、应用式(1)所示的Swish激活函数。C3组件为包含Bottleneck和三个Conv的组件。f(x)=xsigmiod(x)(1)SPP(spatial pyramid pooling)分别使用卷积核大小为1,5,9,13的池化层对特征图进行最大池化,并将池化后的4个特征图进行拼接。SPP从不同尺寸的特征图提取信息,可以增加主干网络的感受范围。Backbone的整体结构如图1所示。Head层包含Neck和三个不同大小的检测头,Neck采用FPN+PAN结构加强网络特征融合的能力,三个检测头分别负责大、中、小物体的检测。Neck中的FPN+PAN结构如图2所示。FocusConvC3ConvC

19、3SPPConvC3ConvC3图1YOLOv5模型的骨干网络Fig.1Backbone network of YOLOv5李文强,等:改进YOLOv5的X光图像违禁品检测算法171Computer Engineering and Applications计算机工程与应用2023,59(16)在检测过程中,YOLOv5模型的损失函数包含回归损失Lbox、背景预测损失Lobj和分类损失Lcls,如式(2)所示。L=Lbox+Lobj+Lcls(2)回归损失采用CIOU损失函数,如式(3)所示。CIOU=1-IOU+p2(b,bgt)c2+(3)其中p2(b,bgt)代表了预测框和真实框的中心点距

20、离;c代表了能够同时包含预测框和真实框的最小闭包区域的对角线距离;IOU为交并比;为权重系数;用来度量长宽比的相似性,定义如式(4)所示。Lobj和Lcls均采用BCEWithLogitsLoss。v=42(arctanwgthgt-arctanwh)2(4)其中w、h代表真实框的宽与高;wgt、hgt代表预测框的宽与高。2基于改进YOLOv5的X光图像违禁品检测模型为了更好地解决复杂背景对违禁品检测的干扰、违禁品重叠以及正负样本失衡等问题,将卷积注意力模块(convolutional block attention module,CBAM)15添加至YOLOv5s模型,利用CBAM模块中的通

21、道注意力与空间注意力机制,使得模型更加关注包含违禁品的区域。同时,使用Swin Transformer提高模型对违禁品图像全局特征的提取能力以及小目标违禁品的检测精度。针对违禁品重叠问题,引入Soft NMS机制避免重叠违禁品的漏检。同时将背景预测损失Lobj和分类损失Lcls中的BCEWithLogitsLoss替换为Focal Loss8,提高模型在正负样本与难易样本失衡情况下的检测能力,如式(5)所示。FL(pt)=-t(1-pt)lnpt(5)其中pt表示与真实锚框的相似度;t为类别权重;(1-pt)表示难易权重。改进后的YOLOv5模型YOLOv5-X模型如图3所示。2.1CBAM结

22、构CBAM是一种结合通道注意力与空间注意力机制的模块。CBAM将三维特征图中的注意力机制分解为通道注意力与空间注意力,减少计算量与参数量。通道注意力与空间注意力机制分别关注通道信息与空间位置信息,可以并行或者串行计算。为了获得最佳的注意力模块,Woo等17尝试了不同注意力组合顺序,最佳组合顺序为通道注意力模块后接空间注意力模块。CBAM结构中通道注意力模块如图4所示。通道注意力将特征图F在空间维度上进行压缩,在每个通道内部分别进行最大池化与平均池化,得到两个一维矢量后再进行操作18。两者分别通过全局共享的多层感知机(multi-layer perceptron,MLP)后相加,结果作为输入进入

23、Sigmoid激活函数,如式(6)所示。Mc(F)=(W1(W0(Fcavg)+W1(W0(Fcmax)(6)CBAM中的空间注意力模块如图5所示。Input上采样下采样predictpredictpredict图2Neck结构图Fig.2Architecture of NeckConvFocusC3Swin TransformerConvConvC3ConvSPPC3Channel AttentionSpatial AttentionConvConcatC3ConcatConvConvConcatConvC3ConcatInputbackboneNeckSwin TransformerSwi

24、n Transformer图3YOLOv5-X模型Fig.3YOLOv5-X modelMaxPoolMLPMcChannel AttentionFAvgPool图4CBAM中通道注意力模块Fig.4Channel attention module in CBAM1722023,59(16)该模块将通道注意力模块输出与F相乘后的特征图作为输入,采用通道维度间的最大池化和平均池化进行通道压缩,然后将两者进行拼接操作,最后用77的卷积以及Sigmoid函数获得权重,如式(7)所示。Ms(F)=(f77(Fsavg,Fsmax)(7)2.2Swin Transformer模块针对X光图像中的违禁品尺

25、寸差异问题,本文引入Swin Transformer中的滑动窗口多头自注意力模型,增强模型对全局特征提取能力。Swin Transformer如图6所示。Swin Transformer 分别由一个带多层感知器的窗口多头自注意力模块(window multi-head self-attentionmodules,W-MSA)和滑动窗口多头自注意力模型(shifted-window multi-head self-attention modules,SW-MSA)组成,MSA对全局进行建模,W-MSA通过局部视窗进行建模。每个MSA模块和每个MLP模块之前都添加了一个LN层,并且将残差连接模块添

26、加在每个MSA模块和MLP模块之前。SW-MSA基于W-MSA向右下角偏移两个Patch,从而间接扩大感受野,充分利用全局特征。2.3Soft NMS由于X光图像具有重叠性的特点,使用NMS会导致重叠区域中的物品漏检。与NMS算法直接删除IOU大于阈值的候选框相比,Soft NMS算法降低候选框的置信度19。Soft NMS中存在线性与高斯两种重置方式降低置信度,其中线性方式如式(8)所示。si=si,IOU(A-bi)Ntsi(1-IOU(A-bi),IOU(A-bi)Nt(8)其中s为置信度;i为除得分最大的A框以外,剩余框以得分从高到底的排序的序号;Nt为指定阈值;bi为待处理框。当 I

27、OU大于等于阈值,降低候选框的置信度,但线性方式的重置并不是连续函数,当IOU达到阈值时,置信度可能存在突变。高斯重置方式可以解决该问题,如式(9)所示:si=sie-IOU(A-bi)2,biD(9)其中D表示过滤后的候选框;为一个超参数。本文采用高斯重置方式的Soft NMS算法对YOLOv5算法中的NMS算法进行替换,从而避免重叠候选框的删除导致的目标漏检。2.4自适应空间特征融合模块YOLOv5中 Neck阶段使用 FPN+PAN 结构得到三层大小不同的特征图,大目标通常与PAN中底层的特征图相关,小目标通常与PAN中高层的特征图相关。如果在底层的特征图中被视为存在违禁品时,其他级别的

28、特征图中的区域均被视为背景,这种不一致性会干扰 YOLOv5模型训练中的梯度计算。为了解决不同层级特征图的不一致性,提高特征金字塔的有效性,本文借鉴ASFF20结构,基于原模型中的FPN+PAN结构,提出一种自适应空间特征融合结构,如图7所示。将PAN中的Level 1、Level 2与Level 3的特征层分别表示为X1、X2、X3。由于特征层之间存在尺寸以及通道差异,需要通过卷积或者插值法改变通道数量以及尺寸差异。针对L层中(i,j)处的特征向量Llij如式(10)所示:Llij=lijx1lij+lijx2lij+lijx3lij(10)其中lij+lij+lij=1且lij,lij,l

29、ij0,1,表示特征层权重,xnlij表示第n层特征通过上采样或者下采样到l层后(i,j)处的特征向量。lij定义如式(11)所示:lij=elijelij+elij+elij(11)其中l、l与l为11的卷积,通过反向传播算法学习得到。Conv layerSpatial AttentionMsMaxPool,AvgPoolF图5CBAM中的空间注意力模块Fig.5Spatial attention module in CBAMLNW-MSAMLPLNLNSW-MSAMLPLN图6Swin Transformer结构Fig.6Swin Transformer modelpredictpredi

30、ctpredictASFF-1ASFF-2ASFF-3PANLevel 1Level 2Level 3图7融合ASFF结构的Neck模块Fig.7Neck module fused with ASFF structure李文强,等:改进YOLOv5的X光图像违禁品检测算法173Computer Engineering and Applications计算机工程与应用2023,59(16)3数据集及评价指标3.1数据集本文基于SIXray数据集进行实验,SIXray数据集由Miao等人收集,共包含1 059 231张X光图像,其中8 929张图像包含违禁品12。本文将包含违禁品的图像按照比例8

31、1 1随机划分训练集、验证集与测试集,形成数据集 SIXray_Positive。数据集中违禁品包含枪、刀、扳手、剪刀、锤子、钳子共六种类别。Miao基于SIXray数据集进一步构建了 SIXray10、SIXray100与 SIXray1000数据集。三种数据集中正负样本的比例分别接近10 1、100 1与1 000 1。SIXray100数据集与实际正负样本分布最为接近。由于含有锤子的样本图片只有60张,不使用锤子作为分类类别。3.2评价指标本文选取目标检测模型通用的平均精度(meanaverage precision,mAP)评价模型的准确性,使用每秒检测帧数(frames per se

32、cond,FPS)评价检测效率。mAP的计算如式(12)所示。mAP=01P(R)dR(12)其中准确率P的计算方法如式(13),召回率R的计算方法如式(14)所示。P=TP/(TP+FP)(13)R=TP/(TP+FN)(14)TP指违禁品被正确分类且IOU大于阈值的数量,FP指预测的违禁品并不真实存在的数量,FN为没有检测到的违禁品数量。4实验结果与分析本文设计两类实验:第一类为对比实验,验证本文所提模型的整体有效性;第二类为消融实验,验证本文所提模型中各个模块的有效性。4.1对比实验为了验证本文模型YOLOv5-X的有效性,选取One-Stage检测算法中SSD、RetinaNet、AT

33、SS21、AutoAssign22、YOLOv5s 以及 Two-Stage 中的 Faster R-CNN 模型,总共六种目标检测模型在SIXray数据集上进行对比实验。Faster R-CNN使用 ResNet50提取特征,通过 RPN网络从特征中获取候选框,将候选框映射至特征图上获得特征矩阵,使用ROI Pooling将每个特征矩阵进行缩放,通过全连接层进行预测。SSD使用VGG16作为骨干网络,在VGG16的基础上新增卷积层来获得更多的特征图用于检测。RetinaNet使用ResNet50作为骨干网络,利用残差结构解决深层网络中梯度较小的问题,使用Focal Loss损失函数解决正负样

34、本不平衡和难易样本不平衡的问题。ATSS使用RetinaNet作为骨干网络,依据目标边框的统计特征选择正负样本,为模型训练提供更多高质量的正样本。AutoAssign采用ResNet50作为骨干网络,模型不再采用非正即负的分配策略,同时将分类损失与回归损失联合进行优化。YOLOv5-TF 模型为 YOLOv5s 骨干网络中最后一个 C3 模块引入 Transformer 模块,并将分类损失函数更改为 FocalLoss损失函数。本文模型基于Pytorch深度学习框架实现YOLOv5s算法,算法中batch size设置为16,一共训练200个epochs。七种模型与本文在SIXray_Posi

35、tive数据集的实验结果如表1所示。其中检测类别依次为枪、刀具、扳手、钳子和剪刀。由表1分析可知,YOLO系列检测算法检测速度显著高于Faster R-CNN、SSD、RetinaNet、AutoAssign以及ATSS模型。同时,YOLOv5系列算法具有更高的mAP。YOLOv5-X算法在SIXray_Positive数据集的mAP达到了90.4%。其中刀具和扳手较其他类别违禁品关键特征更加模糊,故本文 YOLOv5-X模型通过 CBAM中的注意力机制以Swin Transformer模块提升YOLOv5s算法对刀具、扳手和剪刀的关键特征提取能力。如表1所示,YOLOv5-X在刀具、扳手和剪

36、刀类别上实现了最高检测精度,其中扳手的检测精度提高了5.2个百分点,在所有违禁品类别中提升最高。YOLOv5-TF 算法相比YOLOv5s算法mAP提升了1.5个百分点,其对钳子的检测精度高达 94.2%,为上述所有模型的最高值。对比YOLOv5-TF算法与YOLOv5-X算法可知,在违禁品检测中,CBAM中通道注意力机制和空间注意力机制的组合对关键特征的提取能力要优于 Transformer 模型的Self-Attention机制。为了进一步分析YOLOv5-X算法在正负样本不平衡情况下的违禁品检测能力,选取YOLOv5-TF、YOLOv5s在SIXray100数据集上进行对比实验,实验结果

37、如表2所示。由表2分析可知,在正负样本比例接近1 100的情况下,通过 CBAM 的注意力机制和 Focal Loss 损失函数,YOLOv5-X 算法在 SIXray100 数据集的 mAP 达到57.4%,相比YOLOv5s算法提高了4.5个百分点,其中对ModelFaster R-CNNSSDRetinaNetATSSAutoAssignYOLOv5sYOLOv5-TFYOLOv5-XAP/%Gun90.188.688.788.788.888.389.689.8Knife80.072.176.678.881.484.083.385.4Wrench79.363.479.480.580.48

38、2.187.087.3Pliers85.376.886.387.689.992.094.293.3Scissors88.382.788.089.190.293.693.596.0mAP/%84.676.783.884.986.188.089.590.4FPS11.336.911.515.413.3110.1102.498.3表1SIXray_Positive数据集实验结果Table 1Experimental results of SIXray_Positive dataset1742023,59(16)刀的检测精度提升最大,提高了 7.2 个百分点。对比YOLOv5-X与YOLOv5-TF可

39、知,YOLOv5-TF算法在钳子和剪刀的检测性能要优于YOLOv5-X算法。本文利用Grad-CAM23比较了 YOLOv5s 与 YOLOv5-X 在 SIXray数据集中部分图片的特征图可视化结果,如图8所示。各个模型的检测速度与 mAP 的散点图如图 9 所示。相比YOLOv5s,YOLOv5-X的mAP提升了2.4个百分点,但算法检测速度没有明显下降。4.2消融实验为了验证 YOLOv5-X 模型中的 CBAM 模块、SwinTransformer模块与Soft NMS损失函数的有效性,本文对YOLOv5-X算法在SIXray100数据集进行消融实验,实验结果如表3所示。由表 3可见,

40、在 YOLOv5s的骨干网络中加入通道注意力与空间注意力后,模型的评价指标mAP增加了0.2个百分点,证明了CBAM模块可以提升模型的违禁品检测能力。YOLOv5s+CBAM+ST 通过引入 SwinTransformer结构增加网络结构对全局特征的获取能力,相比较于YOLOv5s+CBAM对于SIXray100数据集的平均准确率提高了2.1个百分点;本文YOLOv5-X模型中Swin Transformer模块被用于替换骨干网络末端的C3模块,Swin Transformer结构被过早地用于特征提取,可能会丢失一些待检测目标的上下文信息;YOLOv5-X模型在小尺度目标检测头和大尺度目标检测

41、头均使用SW-MSA模块以扩大感受野,但在中尺度目标检测头之前没有再次使用SW-MSA模块,从而导致中尺度的枪的检测精度下降了1.9个百分点。YOLOv5s+CBAM+ST+Soft NMS 通过引入 SoftNMS机制降低模型对于重叠违禁品的漏检率,对应扳手以及剪刀等易重叠类的违禁品的检测精度分别提升了2.9个百分点与6.1个百分点,整体相比YOLOv5s提升了4.0个百分点。YOLO-X模型相比YOLOv5s模型在SIXray100数据集上提升了4.5个百分点。图10为改进前后检测结果的对比。综合以上分析结果表明 YOLOv5s 融合 CBAM 与Swin Transformer 可以增强

42、模型对违禁品特征的提取能力,对于特征模糊的刀具类以及扳手类违禁品,YOLOv5s+CBAM+ST可以显著提升检测精度。另外,对于重叠目标,Soft NMS相比NMS可以提升重叠违禁品刀具、扳手类别的漏检率。ModelYOLOv5sYOLOv5-TFYOLOv5-XAP/%Gun83.581.982.5Knife53.457.760.6Wrench40.845.446.8Pliers54.459.558.2Scissors32.440.238.8mAP/%52.956.957.4表2SIXray100数据集实验结果Table 2Experimental results of SIXray100

43、dataset原图原图YOLOv5sYOLOv5s-X原图YOLOv5sYOLOv5-X图8注意力机制有效性的可视化对比Fig.8Visual comparison of effectiveness of attention767880828486889092020406080100120MAP每秒处理图片数目/个AutoAssignFaster R-CNNRetinaNetATSSYOLOv5-XYOLOv5sYOLOv5-TFSSD每秒处理图片数目/个mAP/%020406080100120929088868482807876图9模型的检测速度与mAP散点图Fig.9Scatter plo

44、t of model s detection speed and mAPModelYOLOv5sYOLOv5s+CBAMYOLOv5s+CBAM+STYOLOv5s+CBAM+ST+Soft NMSYOLOv5-XAP/%Gun83.583.881.981.982.5Knife53.452.159.560.260.6Wrench40.841.343.045.946.8Pliers54.454.458.357.558.2Scissors32.433.933.139.238.8mAP/%52.953.155.256.957.4表3基于SIXray100数据集的模块消融实验Table 3Ablati

45、on experiment of SIXray100 datasetYOLOV5sYOLOV5-XYOLOv5-XYOLOv5sYOLOV5sYOLOV5-X图10模型改进前后结果对比Fig.10Results of YOLOv5s and YOLOv5-X李文强,等:改进YOLOv5的X光图像违禁品检测算法175Computer Engineering and Applications计算机工程与应用2023,59(16)5结束语本文对违禁品检测进行了研究,在YOLOv5算法的基础上融合CBAM模型以及Swin Transformer机制,使用Focal Loss替换交叉损失熵函数并使用So

46、ft NMS替换NMS,在SIXray_Positive和SIXray100数据集上验证了改进后模型的有效性。改进后使用 CBAM 模块与Swin Transformer模块提升算法在检测过程中的关键特征提取能力,在Neck阶段引入自适应空间特征融合结构,提升模型特征提取能力。同时模型引入Focal Loss损失函数,相比交叉熵损失函数,可以解决正负样本不平衡问题,并减少简单负样本对损失函数的影响;引入Soft NMS解决X光图像中的目标重叠问题,避免违禁品的漏检。未来工作中,将考虑如何提高模型对多尺度违禁品的检测能力,进一步提高模型的检测精度。参考文献:1 张玉涛.基于卷积神经网络的多尺度安

47、检违禁品检测D.天津:中国民航大学,2020.ZHANG Y T.Multi-scale prohibited items detection in X-raysecurity inspection based on CNND.Tianjin:Civil Avia-tion University of China,2020.2 AKCAY S,TOBY P.An evaluation of region-based objectdetection strategies within X-ray baggage security imag-eryC/2017 IEEE International

48、 Conference on Image Pro-cessing,Beijing,2017:1337-1341.3 AKCAY S,BRECKON T.Towards automatic threat detec-tion:a survey of advances of deep learning within X-raysecurity imagingC/2019 IEEE/CVF Conference on Com-puter Vision and Pattern Recognition,Long Beach,2019:2114-2123.4 REN S,HE K,GIRSHICK R,e

49、t al.Faster R-CNN:towardsreal-time object detection with region proposal networksJ.IEEE Transactions on Pattern Analysis and Machine Intel-ligence,2017,39(6):1137-1149.5 LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shotmultibox detectorC/14th European Conference on Com-puter Vision.Cham:Springer,2016:2

50、1-37.6 REDMON J,FARHADI A.YOLO9000:better,faster,stron-gerC/2017 Conference on Computer Vision and PatternRecognition,Hawaii,2017:6517-6525.7 REDMON J,FARHADI A.YOLOv3:an incremental improve-mentJ.arXiv:1804.02767,2018.8 BOCHKOVSKIY A,WANG C Y,LIAO H.YOLOv4:opti-mal speed and accuracy of object dete

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服