1、基金项目:国家重点研发计划(2017YFC1600804);江苏省自然科学基金(BK20180860)收稿日期:2021-06-08 修回日期:2021-08-11 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0486-06基于 RA-YOLOv5s 的粮仓害虫检测模型杜 聪,王 赟,刘思雨,宋雪桦(江苏大学计算机科学与通信工程学院,江苏 镇江 212013)摘要:针对粮仓害虫体积较小且个别种类害虫外形相似而难以区分的问题,提出一种 RA-YOLOv5s(ResNeXt and Attention-YOLOv5s)粮仓害虫检测模
2、型。先在 YOLOv5s 的 CSP 模块支路中分别引入空间注意力机制和通道注意力机制。将主干网络 CSP 模块中的残差单元修改为 ResNeXt 残差单元,同时对模型进行轻量化处理,去除重复的残差单元。最后修改颈部网络 CSP 模块结构,使其与主干网络保持一致。实验结果表明,RA-YOLOv5s 相较于其它主流目标检测模型具有更高的害虫检测平均正确率,而且模型更加轻量化。关键词:粮仓害虫;目标检测;注意力机制;分组卷积中图分类号:TP183 文献标识码:BGranary Pest Detection Model Based on RA-YOLOv5sDU Cong,WANG Yun,LIU
3、Si-yu,SONG Xue-hua(School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang Jiangsu 212013,China)ABSTRACT:Since most granary pests are small and difficult to distinguish individual pests with similarappearances,an RA-YOLOv5s granary pest detection model is proposed.First
4、,the spatial attention mechanism andchannel attention mechanism were introduced respectively into different branches of the CSP module of YOLOv5s.Second,the residual unit of the CSP module in the backbone network was improved to the ResNeXt residual unit.Inaddition,the model structure was lightweigh
5、ted to remove the repeated residual units in the CSP module.Finally,theCSP module structure of the neck network was modified to keep it consistent with the backbone network.The experi-mental results show that compared with other mainstream target detection models,RA-YOLOv5s has a higher averageaccur
6、acy rate of pest detection,and the model is more lightweight.KEYWORDS:Granary pest;Object detection;Attention mechanism;Grouped convolution1 引言在中国,粮食作为国家重要资源之一,对国家的发展具有重大意义。粮食储备是国家每年的重要任务,关乎人民的生计。粮食在储备过程中,虫害的发生是导致粮食经济损失的主要原因之一。大多数粮仓害虫较小,害虫的尺寸低于拍摄图像尺寸的 10%,属于小目标1,而且个别种类害虫外形相似,较难区分。因此,如何快速准确地检测出各类粮仓害虫
7、是目标检测领域中一项具有挑战性的任务。早期,粮仓管理人员依靠人力和经验对害虫进行筛选检测,这种方法不仅耗费时间,而且效率较低。随后,一些新技术逐渐取代原始的人工检测方法。例如,声检测法是对粮仓害虫活动的声音进行采集和特征提取,来判断粮仓害虫的种类和数量2。该方法易受环境因素的影响,检测结果有待提高。随着图像处理技术的不断发展,传统的机器学习通过采集粮仓害虫图像并提取粮虫特征,将其送入分类器中进行训练3,该方法提取到的特征鲁棒性差,检测结果准确率不高。近年来,深度学习的快速发展,使其成为粮仓害虫检测任务中一项热门领域。它通过卷积神经网络自动提取粮仓害虫特征,相较于以往的方法,具有更快的检测速度和
8、更高的检测准确率4。侯瑞环5等人在 YOLOv46的基础上使用注意力 机 制 对 骨 干 网 络 进 行 改 进,并 在 PANet7(PathAggregation Network)结构上使用一种更加高效的特征融合方式,但该模型体积较大,不具备轻量级的特点。苗海委8等人对 SSD9目标框回归策略进行改进,优化了损失函数和特684征提取网络,并在粘虫板上对害虫进行检测,但该方法针对特定场景设计,害虫负样本数据较少,泛化能力有待提高。Ramalingam10等人通过构建 Faster RCNN ResNet50 目标检测框架,将其部署在物联网中,并对捕捉到的农田害虫数据集进行训练测试,该方法得到
9、的害虫个体较大,无法保证在小目标数据集上具有良好的表现。本文在 YOLOv5s 的基础上,提出了改进模型 RA-YOLOv5s。该模型在 YOLOv5s 的 CSP 模块中,融入了空间注意力机制和通道注意力机制,并将其残差单元修改为ResNeXt 残差单元,同时减少了残差单元的数量,使其能够较好地识别出粮仓害虫。2 YOLOv5s 模型原理YOLOv5 通过控制模型的深度和特征图的宽度,按照模型大小依次分为 YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 四个版本。其中 YOLOv5s 模型深度最小,特征图宽度最小。YOLOv5s 由主干网络、颈部网络和头部组成,其网络结构如图
10、 1 所示。主干网络主要由 CBS 模块及 CSP11(CrossStage Partial)模块堆叠而成,其中 CBS 模块由卷积层、批量标准化和 SiLU 激活函数组成。CSP 模块首先将特征图分成两部分,使其梯度流分别在不同路径上传播,再经过特征融合,以获取更加丰富的梯度融合信息。颈部网络由 FPN12(Fea-ture Pyramid Network)和 PAN13(Path Aggregation Network)结构组合构成,FPN 可以获得特征图中较强的语义信息,PAN 可以获得特征图中较强的定位信息。输入图像经过主干网络和颈部网络的特征提取,在头部输出三个不同尺度大小的特征图,
11、分别预测不同大小的目标。图 1 YOLOv5s 网络结构YOLOv5s 模型借鉴了 CSPNet 的设计思路,分别在主干网络和颈部网络中加入了两种不同结构的 CSP 模块:CSP1_n 和 CSP2_n,其中 n 代表虚线框单元结构重复的数量,如图2 所示。图 2 CSP 模块结构3 粮仓害虫检测模型3.1 基于注意力机制的 YOLOv5s 模型个别 种 类 粮 仓 害 虫 外 形 相 似,难 以 区 分,因 此 在YOLOv5s 模型中引入注意力机制。SK 卷积14(SelectiveKernel Convolution)是一种空间注意力机制,它可以根据输入信息的多个尺度自动调整感受野的大小
12、来获得不同尺寸的空间信息。SE(Squeeze-and-Excitation)15模块是一种通道注意力机制,它可以对各个通道间的依赖性进行建模以此提高网络的表示能力,并且能够对获取到的特征进行逐通道调整,以便网络可以学习使用全局信息来选择性强调有益特征并抑制无用特征。本文根据 CSP 模块结构的特点,在支路 1 的 CBS 模块后用 SK 卷积对其空间特征信息进行提取,在支路 2 虚线框单元内第二个 CBS 模块后用 SE 模块对其通道特征信息进行提取,通过在不同支路上应用不同的注意力机制,再将其融合,以获得更加有效的特征信息。改进后的 CSP 模块结构如图3 所示。图 3 融入注意力机制的
13、CSP 模块784SK 卷积结构如图 4 所示,其执行步骤如下:1)给定一个高 H、宽 W、通道数为 C 的输入特征图 xHWC,SK 卷积分别使用卷积核大小为 33 和 55 的卷积核对其进行卷积操作,得到输出 U1 和 U2。U1 和 U2 逐元素相加得到 UHWC,U 是融合了多个感受野的特征图。2)使用全局平均池化操作(Fgp)将 U 转换成具有通道分离的统计信息 sC。转换过程如式(1)所示,下标 c 表示第 c 个元素。sc=Fgp(Uc)=1H WHi=1Wj=1Uc(i,j)(1)3)使用全连接层(Ffc)对统计信息 s 进行线性变换来降低其维数,输出 zd1。转换过程如式(2
14、)所示。z=Ffc(s)=(B(Ws)(2)其中 是 ReLU 函数,B 是批量归一化,WdC,d=max(Cr,L),r 表示缩减比例,L 为 d 的最小值。4)对输出 z 使用 softmax 操作得到软注意力向量 a 和 b,如式(3)所示。ac=eAczeAcz+eBcz,bc=eBczeAcz+eBcz(3)其中 A,BCd,Ac1d表示 A 的第 c 个元素,ac表示 a的第 c 个元素,Bc和 bc同理表示。5)U1 和 U2 分别与注意力向量 a 和 b 逐元素相乘,再对其进行特征融合得到最终结果 v,如式(4)所示。vc=acU1c+bcU2c(4)其中 v=v1,v2,vc
15、,vcHW。图 4 SK 卷积 SE 模块结构如图 5 所示,其执行步骤如图 5 所示。图 5 SE 模块1)给定一个输入特征图 xHWC,SE 模块首先对 x 进行全局平均池化操作,将全局空间信息压缩得到 11C 大小的特征图,生成通道级的全局特征 zC,其中 z 的第 c 个元素计算如式(5)所示。zc=1H WHi=1Wj=1xc(i,j)(5)2)通过一个全连接层(FC),对全局特征 z 进行降维,后面使用 ReLU 函数进行激活,再通过一个全连接层将维数恢复到原来的大小,并通过 Sigmoid 函数激活,输出各通道的权重 s,如式(6)所示。s=(W2(W1z)(6)其中 是 ReL
16、U 函数,是 Sigmoid 函数,W1CrC,W2CCr。3)各通道权重 s 与特征图 x 经过逐通道重新加权生成最终输出 X,完成对特征图 x 在通道维度上特征的重标定,如式(7)所示。X=sx(7)3.2 RA-YOLOv5s 模型ResNeXt 中残差单元的实现方式如图 6 所示,第 2 个卷积的 group 参数设置为32,表示它是一个具有32 组卷积的分组卷积,32 组卷积带来的检测效果是最好的16。ResNeXt中的残差单元是一种拆分-转换-合并的体系结构,它可以在不增加模型参数复杂度的情况下,通过增加网络的宽度来提高分类效果,本文称之为 ResNeXt 残差单元。YOLOv5s
17、 在引入注意力机制的基础上,将 CSP 模块中的残差单元修改为 ResNeXt 残差单元,以提高模型的检测效果。考虑到在训练样本数量不多的情况下,模型过于复杂可884图 6 ResNeXt 残差单元能会造成过拟合,于是将主干网络第 2 和第 3 个 CSP 模块中残差单元的数量减少至 1 个。残差单元可以解决深层网络的网络退化等问题,因此在颈部网络的 CSP 模块中添加残差连接,使其与主干网络 CSP 模块完全一致。改进后的 CSP模块如图 7 所示。图 7 引入 ResNeXt 残差单元的 CSP 模块4 实验与分析4.1 数据集与数据预处理实验数据集为 6 种常见的粮仓害虫,分别是锈赤扁谷
18、盗(cf)、锯谷盗(os)、印度谷螟(pi)、谷蠹(rd)、玉米象(sz)和赤拟谷盗(tc),如图 8 所示。数据集共包含 1554 张不同种类的粮仓害虫图像,其中1397 张作为训练集,157 张作为验证集,比例约为 9:1。数据集组成见表 1。图 8 6 类常见粮仓害虫表 1 数据集组成类别数量/张锈赤扁谷盗301锯谷盗198印度谷螟250谷蠹305玉米象250赤拟谷盗250 模型采用 Mosaic 方法对图像进行数据增强。随机读取4 张虫图,并对 4 张虫图以随机缩放、裁剪和排布的方式进行拼接。Mosaic 数据增强不仅丰富了虫图的背景信息,提高了模型的鲁棒性,同时模型也可以在一张图像上
19、计算 4 张图像的数据,实现了单张 GPU 就可以达到理想的训练效果。数据增强后的害虫图像如图 9 所示。图 9 Mosaic 数据增强后的害虫图像4.2 实验结果对比分析实验采用 Pytorch 框架对模型进行优化改进,运行的操作系统为 Linux(Ubuntu 18.04)系统,CPU 为 Intel(R)Core(TM)i7-9700F GHz,GPU 为 NVIDIA GeForce GTX 2070(8GB),内存大小为 16GB。模型训练输入的图像尺寸大小为 640640,batch size 设置为 16,初始学习率设置为 0.1,使984用 CIOU Loss 作为损失函数,加
20、权 NMS 进行预测框的筛选,训练迭代次数为 1000 个 epoch。为了 验 证 检 测 模 型 的 有 效 性,实 验 采 用 精 确 率(precision)、召回率(recall)、mAP 和模型大小(size)等多项指标进行评价,计算公式如下precision=TPTP+FP(8)recall=TPTP+FN(9)mAP=APclasses(10)AP=precisionnums(11)其中 TP 表示被正确划分为正例的个数,FP 表示被错误划分为正例的个数,FN 表示被错误地划分为负例的个数,nums表示图像的总数,classes 表示类别数。1)RA-YOLOv5s 模型对粮仓
21、害虫 AP 检测结果本文从两个方向对模型进行改进,不同改进点对 6 类害虫检测的 AP 结果如表 2 所示。表 2 中“”表示模型不含有对应改进点,“”表示含有对应改进点。从组别 1、2 和 3 的对比结果可以得出,害虫锈赤扁谷盗(cf)的 AP 值较低,这是因为锈赤扁谷盗(cf)的外形较小且颜色偏淡,其余五类害虫的 AP 值均在 80%-100%之间。组别 3 即 RA-YOLOv5s模型对各类害虫检测的 AP 值优于组别 1,其中玉米象(sz)和锯谷盗(os)略低于组别 2,这是因为在主干网络引入ResNeXt 残差单元的同时,也减少了主干网络中残差单元重复的数量,造成了对个别害虫检测结果
22、的略微下降。表 2 改进模型与原模型在 6 类粮仓害虫数据集上的 AP 值对比组别改进点注意力机制ResNeXt 残差单元sz/%tc/%pi/%cf/%os/%rd/%187.582.195.969.899.199.4292.382.597.669.099.399.6391.585.198.169.499.199.6 图 10 和图 11 分别是通过 RA-YOLOv5s 模型对粮仓害虫在无粮食背景和在有粮食背景下的检测结果。从图中可以发现无论有无背景,粮仓害虫都可以很好的被检测出。图 10 无粮食背景害虫检测结果2)RA-YOLOv5s 模型性能评估不同改进点下的 RA-YOLOv5s 模
23、型整体评估结果如表3 所示。组别 1 的各项评价指标最低,模型大小为 14.4M。组别 3 的 mAP 提升至 90.5%,模型大小为 13.0M,整体检测效果最好。3)RA-YOLOv5s 与其它模型性能对比分别 将 RA-YOLOv5s 模 型 与 SSD、YOLOv3-tiny、YOLOv4-tiny 模型在粮仓害虫数据集中进行对比实验,实验图 11 有粮食背景害虫检测结果结果如表 4 所示。实验表明,RA-YOLOv5s 模型检测性能优于其 3 种模型。表 3 改进模型与原模型性能对比组别改进点注意力机制ResNeXt残差单元precision(%)recall(%)mAP(%)siz
24、e(M)191.179.689.014.4292.983.690.016.8393.384.890.513.0 094表 4 改进模型与其它模型性能对比模型mAP/%size/MBSSD57.797.7YOLOv3-tiny85.617.4YOLOv4-tiny86.623.6RA-YOLOv5s90.513.0 4)RA-YOLOv5s 与其它模型损失函数对比分别对 3 种模型迭代 1000 次的训练损失曲线如图 12所示。可以看出 RA-YOLOv5s 模型损失下降速度最快,得到的损失最小。图 12 不同模型训练损失对比5 结束语本文针对 YOLOv5s 模型对粮仓害虫检测的鲁棒性差及现有
25、大型公开数据集在粮仓害虫下的检测适用性不强等问题,提出一种融合了注意力机制和 ResNeXt 残差单元名为RA-YOLOv5s 的粮仓害虫检测模型。该模型将空间注意力机制和通道注意力机制引入 CSP 模块中,使其学习有益特征;修改残差单元为 ResNeXt 残差单元,提高模型分类效果;同时轻量化模型,减少残差单元的数量。实验结果表明:RA-YOLOv5s 在样本规模不大的情况下,能够有效提高在粮仓害虫图像检测任务中的综合性能,对减少与防范粮仓害虫发生具有重要意义。参考文献:1 赵永强,饶元,董世鹏,等.深度学习目标检测方法综述J.中国图象图形学报,2020,25(4):0629-0654.2
26、李子豪.基于蛀食声信号分析的储粮害虫检测D.北京交通大学,2020.3 叶耀文.基于机器学习的蔬菜重大害虫监测计数算法及其应用系统D.华南农业大学,2018.4 张银松,赵银娣,袁慕策.基于改进 Faster-RCNN 模型的粘虫板图像昆虫识别与计数J.中国农业大学学报,2019,24(5):115-122.5 候瑞环,杨喜旺,王智超等.一种基于 YOLOv4-TIA 的林业害虫实时检测方法J.计算机工程,2021:1-8.6 Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:OptimalSpeed and Accuracy of Object Detecti
27、onJ.arXiv Preprint arXiv:2004.10934,2020.7 Shu L,Lu Q,Haifang Q,et al.Path aggregation network for in-stance segmentationC.IEEE Computer Vision and Pattern Rec-ognition(CVPR),IEEE Computer Society,2018.8 苗海委,周慧玲.基于深度学习的粘虫板储粮害虫图像检测算法的研究J.中国粮油学报,2019,34(12):93-99.9 Liu W,Anguelov D,Erhan D,et al.SSD:S
28、ingle Shot MultiBoxDetectorC.European Conference on Computer Vision(ECCV),Amsterdam,The Netherlands,2016:21-37.10 Ramalingam B,Mohan R E,Pookkuttath S,et al.RemoteInsects Trap Monitoring System Using Deep Learning Frameworkand IoTJ.Sensors(Basel,Switzerland),2020,20(18).11 Wang C Y,Mark Liao H Y,Wu
29、Y H,et al.CSPNet:A NewBackbone that can Enhance Learning Capability of CNNC.Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition Workshops,2020:390-391.12 Lin T Y,Dollar P,Girshick R,et al.Feature Pyramid Networksfor Object DetectionC.Proceedings of the IEEE Conference on
30、Computer Vision and Pattern Recognition.2017:2117-2125.13 Liu S,Qi L,Qin H,et al.Path Aggregation Network for InstanceSegmentationC.Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition.2018:8759-8768.14Li X,Wang W,Hu X,et al.Selective Kernel NetworksC.Proceedings of the IEE
31、E Conference on Computer Vision andPattern Recognition.2019:510-519.15 Hu J,Shen L,Sun G.Squeeze-and-Excitation NetworksC.Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018:7132-7141.16 Xie S,Girshick R,Dollar P,et al.Aggregated Residual Trans-formations for Deep Neura
32、l NetworksC.Proceedings of 2017IEEE International Conference on Computer Vision and PatternRecognition,2017:1492-1500.作者简介杜 聪(1997-),男(汉族),安徽省宣城市人,硕士研究生,主要研究领域为目标检测。王 赟(1997-),男(汉族),江苏省泰州市人,硕士研究生,主要研究领域为图像处理。刘思雨(1996-),女(汉族),山东省济南市人,硕士研究生,主要研究领域为多标签分类。宋雪桦(1971-),女(汉族),江苏省镇江市人,教授,硕士研究生导师,主要研究领域为图像处理与分布式控制系统。194