1、DOI:10.12171/j.10001522.20230112基于 YOLOv7 的红外相机野生动物图像筛选齐建东1,2马鐘添1郑尚姿1(1.北京林业大学信息学院,北京100083;2.国家林业和草原局林业智能信息处理工程技术研究中心,北京100083)摘要:【目的】野外环境通常植被繁茂、树木杂乱,且受环境、天气、光照等因素影响,红外相机易误触发拍摄,从而捕获大量废片,需要耗费大量人力进行筛选。为解决此类问题,本研究以 YOLOv7 模型为基础,对其进行轻量化改进,以实现对废片的自动筛选。【方法】本研究构建了北京密云雾灵山自然保护区 20142015 年期间采集到的 2172 张野生动物图像
2、数据集,并对图像中出现的动物进行位置标记。对 YOLOv7 网络使用不同方式进行改进:引入 MicroBlock 替换YOLOv7 的主干网络,使用轻量化 SPPCSPC 结构降低模型参数量。采用 SIoU 损失、LNDown 下采样、BiFPN 提升模型检测动物的能力。使用 YOLOv5-m、YOLOv5-l、Ghost-YOLOv5-l、YOLOv6、YOLOX-M、YOLOR-CSP 模型,在含有1 万张图像的 SnapshotSerengeti 相机陷阱图像子数据集上进行训练和验证,对比本文模型对野生动物图像的筛选效果。利用迁移学习训练自建野生动物数据集,测试冻结不同层数的训练效果。【
3、结果】基于 YOLOv7 的改进模型推理时间降低了 14.3%,每秒浮点运算次数 FLOPS 降低了 33.5%,参数量减少了 17.8%,误检测方面也优于 YOLOv7 模型。与其他模型进行对比,改进后的 YOLOv7 虽未在所有指标中均达到最优,但在检测时间与精度上达到了更好的平衡。在自建数据集中使用未冻结权重方式微调效果最优,平均精度比未使用迁移学习模型提高了 12.6%。【结论】本研究为密云地区野生动物监测网络提供了更快速、准确的筛选方案。关键词:野生动物图像;图像筛选;深度学习;目标检测中图分类号:TP391.4;S862文献标志码:A文章编号:10001522(2024)02014
4、312引文格式:齐建东,马鐘添,郑尚姿.基于 YOLOv7 的红外相机野生动物图像筛选 J.北京林业大学学报,2024,46(2):143154.QiJiandong,MaZhongtian,ZhengShangzi.WildlifeimagescreeningforinfraredcamerasbasedonYOLOv7J.JournalofBeijingForestryUniversity,2024,46(2):143154.Wildlife image screening for infrared cameras based on YOLOv7QiJiandong1,2MaZhongti
5、an1ZhengShangzi1(1.SchoolofInformation,BeijingForestryUniversity,Beijing100083,China;2.EngineeringResearchCenterforForestry-OrientedIntelligentInformationProcessingofNationalForestryandGrasslandAdministration,Beijing100083,China)Abstract:ObjectiveDuetothelushvegetationanddisorderlytreesinthewildenvi
6、ronment,aswellastheinfluenceoffactorssuchasenvironment,weather,andlighting,infraredcamerasarepronetotriggeringshootingerrors,resultinginthecaptureofalargeamountofwastefilm,whichrequiresalotofmanpowerforscreening.Tosolvesuchproblems,basedontheYOLOv7model,thispaperhasmadelightweightimprovementstoachie
7、veautomaticscreeningofwastepieces.MethodThisstudyconstructedadatasetof2 172 wildlife images collected from the Beijing Wuling Mountain Nature Reserve in the period of20142015,andmarkedthepositionsofanimalsintheimages.YOLOv7networkwasimprovedindifferentways.MicroBlockwasintroducedtoreplacethebackbone
8、networkofYOLOv7,andtheSPPCSPCstructurewaslight-weightedtoreducethemodelparameters.SIoUloss,LNDowndownsampling,andBiFPNwereusedtoimprovethemodelsabilitytodetectanimals.YOLOv5-m,YOLOv5-l,Ghost-YOLOv5-l,YOLOv6,收稿日期:20230512修回日期:20231226基金项目:国家重点研发计划(2020YFA0608100)。第一作者:齐建东,博士,教授。主要研究方向:生态信息学、智能信息处理。Em
9、ail:地址:100083 北京市海淀区清华东路35 号北京林业大学信息学院。本刊网址:http:/;http:/第46卷第2期北京林业大学学报Vol.46,No.22024年2月JOURNALOFBEIJINGFORESTRYUNIVERSITYFeb.,2024YOLOX-M,andYOLOR-CSPmodelsweretrainedonanSnapshotSerengeticameratrapsubsetdatasetcontaining 10 000 images,and the screening effects of the model on wildlife images wer
10、e compared.Transferlearningwasusedtotrainaself-builtwildlifedataset,andthetrainingeffectsoffreezingdifferentlayerswastested.ResultTheimprovedmodelbasedonYOLOv7reducedinferencetimeby14.3%,floating-point operations per second by 33.5%,and parameters by 17.8%compared with the YOLOv7network.The error de
11、tection of the improved YOLOv7 model was also better than that of YOLOv7.AlthoughtheimprovedYOLOv7didnotachievethebestperformanceinallindicatorscomparedwithothermodels,it achieved a better balance between detection time and accuracy.In the self-built dataset,theunfrozenweightmethodhadthebesteffect,a
12、ndaverageprecisionwas12.6%higherthanthatofthemodelwithouttransferlearning.ConclusionThisstudyprovidesafasterandmoreaccuratescreeningsolutionforwildlifemonitoringnetworksintheMountainareaofBeijingMiyun.Key words:wildlifeimage;imagefiltering;deeplearning;objectdetection野生动物作为物种多样性中的重要一环,在生物多样性研究中占据重要位
13、置,所以监测野生动物数据对研究生物多样性有重要意义。但传统的野生动物监测需要大量人力,对专业性要求较高,野生动物数据采集困难,难以适应当前全球生物多样性监测保护的需要1。通过动作传感器、红外探测器等方式作为触发拍摄的相机,称为“相机陷阱”。相机陷阱设备能在野外进行自动监视和拍摄,可隐蔽地捕获到经过的野生动物图像。红外相机作为常用的相机陷阱设备类型之一,具有对动物干扰小、全天候拍摄等优势,广泛应用于国内外野生动物监测与生物多样性保护。由于红外相机易受很多其他因素影响而误触发拍摄,产生大量无动物出现的废片,每台红外相机年均照片数量往往数以万计2,需要大量存储空间。同时,拍摄的图像仅部分动物位置可见
14、3、光照不足4等问题,给后续数据处理和分析带来挑战。计算机视觉领域中的目标检测技术可对图像或视频中目标物体进行自动识别,有效解决此难点问题。目标检测的研究脉络可划分为两个阶段:传统目标检测算法和基于深度学习的目标检测算法。传统目标检测算法一般步骤如下:首先在给定图像上选择一些候选区域进行特征提取,之后使用分类器进行分类。但由于场景复杂、目标姿态多变等,效果欠佳。当前,目标检测算法主要基于深度学习提取特征,提高了目标检测精度,加快了目标检测速度。YOLO 系列、SSD、RetinaNet 等都是经典的一阶段目标检测算法。R-CNN 系列是具有代表性的二阶段目标检测算法,包括 R-CNN 及其改进
15、版本 fastR-CNN 和fasterR-CNN 算法。目标检测模型已应用在野生动物图像研究中。2018 年,Schneider 等5使用YOLOv2 和fasterR-CNN 两种目标检测算法对 ReconyxCameraTrap 数据集和SnapshotSerengeti 数据集的野生动物图像进行检测和识别,最终证明 fasterR-CNN 表现更优,在两个数据集上的平均准确率分别为 93.0%和 76.7%。Guo 等6基于深度卷积神经网络和野生动物图像中动物特征,开发了一种可变信道区域建议和分类网络 VCRPCN,通过将不同信道反馈到网络的不同组件以实现不同目的,该架构考虑了动物外观
16、对图像识别的影响,并识别了图像中潜在的动物区域,提取它们的局部特征进行描述和分类。Chen 等7开发了一种全自动网络,对大熊猫(Ailuropoda melanoleuca)面部进行检测、分割、对齐和预测,同时构建一个由218 只大熊猫拍摄的 6441 张图像数据集,经测试该模型在大熊猫身份检测上达到了 96.27%的准确率,可有效对大熊猫个体进行识别。Tan 等8由于现有的数据集对动物的行为标记具有局限性,所以从东北虎豹国家公园收集野生动物图像构建了由 17 个类别 25657 张图像组成的东北虎豹国家公园数据集,并将数据分为了白天和夜间类别。使用 YOLOv5-m、CascadeR-CNN
17、9和 FullyConvolutionalOne-Stage10模型进行预测,YOLOv5-m 最高达到了 98.9%的平均精度均值,并在各项检测中都达到了最高精度。Vecvanags 等11在拉脱维亚采集了 4 种野生有蹄类动物数据集,选择野猪(Sus scrofa)和鹿(Elaphurusdavidianus)两个类别共 1128 张图像,使用迁移学习和数据预处理技术在 fast-RCNN 和 RetinaNet 上进行研究,fast-RCNN 和 RetinaNet 的全部类别平均精度分别达到了 0.4073 和 0.4364。Roy 等12对 YOLOv4进行改进,提出了 WilDec
18、t-YOLO 模型对濒危野生动物进行检测,在主干网络引入 DenseNet 模块13并改进空间池化金字塔(spatialpyramidpooling,SPP)和路径聚合网络(pathaggregationnet,PANet)结构,增强模型的感受野和特征融合能力,在自行构建的野生动物图像数据集上平均精度均值达到了 96.89%。144北京林业大学学报第46卷现有研究中目标检测算法在野生动物识别方面已取得了一定的成果,但仍存在以下问题:其一,现有的公开野生动物数据集中具有动物位置标注的数据较少,且大多源于国外,数据集中包含的动物类别与国内野生动物物种具有差异;其二,多数研究中应用目标检测算法用于野
19、生动物物种识别,在空图像筛选方面应用较少;其三,现有研究主要注重检测精度,实际应用中检测速度同样需要注意。基于上述问题,本研究构建了具有动物位置标注的北京市密云区的北京雾灵山自然保护区的野生动物图像数据集。构造了基于 YOLOv7 模型为基础的改进网络,使用 MicroBlock14替换主干网络,使用轻量化SPPCSPC 结构降低模型参数量。使用 SIoU 损失、LNDown、BiFPN15降低模型对动物的错分和漏检误差。改进后的 YOLOv7 模型可以对红外相机拍摄的空图像进行更快速、及时、准确地筛选,筛选后的包含野生动物的图像可方便研究人员进行研究。1数据源1.1 自建数据集数据是由部署在
20、北京市密云区的北京市级雾灵山自然保护区的 30 个红外相机于 20142015 年拍摄的。在相关专家协助下,将图片按照动物类别分为 8 个类别,共计 2172 张,图像分辨率均为 25601920像素。图 1 为红外相机拍摄到的各类别野生动物图片。狍 Roe deer豹猫 Leopard cat松鼠 Squirrel猪獾 Hog badger兔 Rabbit野猪 Boar山羊 Goat鸟 Bird图1各类别野生动物图像Fig.1Wildlifeimagesofeachcategory数据采集所使用的相机型号均为猎科 Ltl-6511,其通过人体热释电红外传感器感应温度变化对路过的野生动物进行实
21、时抓拍。白天拍摄全彩图像,夜间拍摄黑白图像。相机内置 4G 流量卡,抓拍后的图像可自动上传至 FTP 服务器,无信号区域定期通过人工收集方式采集相机内存卡存储的照片。相机部署在树干距地面 1m 左右位置(图 2),使用太阳能电池板提升相机续航能力。除了类别标注,还对采集到的数据集进行位置标注,制作为野生动物筛选模型数据集。使用标注工具对野生动物所在位置进行标注(图 3),记录格式为左上角坐标(xmin,ymin)和右下角坐标(xmax,ymax),所有图像均标注为“动物”类别。将数据集按91 划分为训练集和验证集。选择额外 200 张相同区域有动物出现的图像以及 200 张空图像作为筛选模型的
22、测试集,用于测试野生动物图像筛选效果。动物类别 Animal category左上角坐标Upper left corner coordinates(xmin,ymin)右下角坐标Lower right corner coordinates(xmax,ymax)图3野生动物位置标注图像Fig.3Locationannotatedimageofwildanimals1.2 SS 相机陷阱图像数据集SnapshotSerengeti(SS)相机陷阱图像数据集是迄今为止最大的公共相机陷阱图像集合。数据由部署在塞伦盖蒂国家公园的红外相机于 20102017图2Ltl-6511 红外相机Fig.2Ltl-
23、6511infraredcamera第2期齐建东等:基于 YOLOv7 的红外相机野生动物图像筛选145年拍摄得到的,经许多志愿者共同标记制成。SS 相机陷阱图像数据集约有几百万张图像,其中约 90 万张图像中包含野生动物目标,其余均为相机误触发而拍下的空图像。由于其动物图像数量很大,本研究从 SS 数据集中抽样选择 10000 张图像作为模型的训练和测试数据,训练集和验证集按 91 划分。2模型与改进方案2.1 YOLOv7 网络概述目标检测算法可以对图像中的物体进行快速准确的检测,YOLO 系列一直是目标检测网络中的经典算法,具有检测速度快的特点。2022 年发布的YOLOv7 与之前的
24、YOLO 系列网络相比,不仅检测速度更快,检测精度也有提升。YOLOv7 网络使用全新的主干网络扩展高效远距离注意力网络(extendedefficient long-range attention network,E-ELAN)结构、复合模型缩放方法、重参数化卷积等。图 4 为YOLOv7 网络结构图。YOLOv7 对主干网络进行改进,使用改进的 E-ELAN 结构。E-ELAN 结构是一种多分支级联模块结构,通过控制梯度的最长路径长度,让网络更快速收敛。YOLOv7 中实现的 E-ELAN 结构如图 5 所示。图 6 是 YOLOv7 网络中使用的改进 SPPCSPC结构12,其参考跨阶段
25、部分网络(crossstageparitialCBSCBSConcatUPSampleCBSConcatConcatConcatUPSampleCBSE-ELANE-ELANRepBlockRepBlockRepBlockMPMPE-ELANE-ELANCBS(k=3,s=1)(k=3,s=2)(k=1,s=1)CBSCBSConvBNSiLUCBSCBSCBSCBSE-ELANE-ELANMPE-ELANMPE-ELANSPPCSPCMPHeadHeadHeadk.卷积核大小Kernelsize;s.步长Stride.下同。Thesamebelow.图4YOLOv7 结构图Fig.4YOLO
26、v7structurediagramCBSCBSCBSCBSCBSCBSConcatCBSInput图5E-ELAN 结构图Fig.5E-ELANstructurediagramInputConvk=1Convk=3Convk=1Convk=1Convk=1MaxPoolk=5MaxPoolk=9ConcatConvk=1ConcatMaxPoolk=13图6SPPCSPC 结构图Fig.6SPPCSPCstructurediagram146北京林业大学学报第46卷network,CSP)模块的思想,一个分支使用常规的卷积处理,另一条分支经过卷积处理后输入进 SPP 结构,对输出进行卷积处理,
27、最后通过拼接合并两个分支。2.2 改进的 YOLOv7 网络2.2.1基于 MicroBlock 改进的主干网络为了降低网络参数和计算量,优化通道数量和节点之间的连接数量,MicroBlock 利用微分解方式对卷积进行自适应分解,假设卷积核 W 有相同的输入通道与输出通道,其数量都为 C,微分解公式如式(1)。W=PQT(1)式中:W 是一个 CC 矩阵;Q 是一个 CC/R 矩阵,Q 矩阵将通道数量压缩至 1/R。P 是一个 CC/R 矩阵,可以将通道数量扩展回 C。P 与 Q 是具有 G 块的对角块矩阵,矩阵中每块都实现了一组通道卷积。是 C/RC/R 矩阵,用于对通道进行打乱。其中 R
28、代表通道压缩率,即压缩因子。图 7 是一个微分解逐点卷积示例图,其输入通道和输出通道数 C=18,压缩因子 R=2,则组数G=3,W 被分解为 33 的块。输入通道 Input channel输出通道 Output channel分组 Grouping图7微分解的逐点卷积示例图Fig.7Examplediagramofmicro-factorizedpointwiseconvolution矩阵 的通道数代表隐藏通道数量,每个隐藏通道连接输入的 C/G 个通道,每个输出通道与 C/(RG)个隐藏通道相连。每个输出通道的路径数 E 反映该层的连通性,其中每条路径连接一个输入节点和一个输出节点。C=
29、ORG2(2)E=O2G(3)式中:O 代表分解层的计算复杂度。图 8 显示:计算复杂度 O 和压缩因子 R 固定时,通道 C 和连通性 E 与 G 的变化呈相反趋势,随着 G 的增加,C 随之增加,而 E 减少。当两条曲线相交(C=E)时,每个输出通道只连接到所有输入通道一次。保证了输入与输出通道之间无冗余路径,同时也保证了每对输入输出之间都存在一条路径。连通性 Connectivity(E)122101CE2分组数量 Number of grouping(G)通道数量 Number of channel(C)图8分组数量与通道数和连通性关系Fig.8Relationshipbetweent
30、henumberofgroups,channelcountandconnectivityk2MicroBlock 同时对深度卷积进行微分解,使用k*1 和 1*k 卷积代替了 k*k 卷积。深度卷积分解同样适用公式(1),主要可以降低计算复杂度。微分解深度卷积将计算复杂度从 O(C)降低至 O(kC)。为了增加微分解卷积中组与组之间的连接,MiroBlock 引入动态激活函数(dynamicshift-max,DY-Shift-Max),DY-Shift-Max 输出 K 个融合特征中的最大值,每个融合特征都结合 J 个组的偏移,每一个通道上的 DY-Shift-Max(yi)计算见式(4)。
31、yi=maxJ1j=0aki,j(x)x(i+jCG)modC,1 k K(4)aki,j(x)x(i+jCG)modC式中:x 代表有 C 个通道的输入向量,将其分为G 组,每组通道数为 C/G。是一个关于输入x 的动态权重,由平均池化层、两个全连接层和Sigmoid 激活函数构成。代表 x 的第 j 组循环偏移。DY-Shift-Max 增强实现了两种方式增强非线性连接。第一,输出 J 组 K 个融合的最大值,增强了微分解逐点卷积的组内连接;第二,使用动态参数根据输入对每个融合进行加权,增强了网络的表示能力,降低缩减网络层数时造成的损失。2.2.2Slim-SPPFCSPC 结构SPPCS
32、PC 结构相比于空间池化金字塔16结构,虽然精度有所提升,但同时增加了模型的复杂度和计算量。本研究对 SPPCSP 结构进行轻量化改进,参考空间卷积池化金字塔快速(spatialpyramid第2期齐建东等:基于 YOLOv7 的红外相机野生动物图像筛选147pooling-fast,SPPF)结构的思想,将 SPPCSP 结构中的 SPP 部分改为 SPPF 结构,使其计算速度更快。去掉 3*3 卷积,结合空洞空间卷积池化金字塔(atrousspatialpyramidpooling,ASPP)结构思想,增加一条分支用以增加感受野获取,Slim-SPPFCSPC 结构如图 9 所示。Conv
33、,k=1InputConv,k=1Conv,k=3Conv,k=1Conv,k=1Conv,k=1Pool 1*1UpsampleConv,k=1MaxPool,k=5MaxPool,k=5MaxPool,k=5ConcatConcat图9Slim-SPPFCSPC 结构图Fig.9Slim-SPPFCSPCstructurediagram2.2.3SIoU 损失YOLOv7 使 用 了 完 全 交 并 比(complete-intersectionoverunion,CIoU)损失,考虑了预测框和真实框的中心距离、重叠面积、长宽比,使评估更加准确。虽然 CIoU 考虑了较多的因素,但没有考虑
34、预测框与真实框的方向问题。SCYLLA 交并比(SCYLLA-intersectionoverunion,SIoU)损失将预测框与真实框的夹角加入度量。=12sin2(arcsin(ch)4)(5)是SIoU的角度代价 chchch(bcx,bcy)(bgtcx,bgtcy)式中:,代表真实框和预测框中心点的高度差,代表为预测框与真实框中心点的距离。其中 与的计算方式见式(6)和(7),当趋向 0 时,角度代价趋向 0,对距离代价影响越小。图 10 中,为预测框与真实框中心点的距离,B 是预测框中心点,是预测框中心点坐标,Bgt是真实框中心点,代表真实框中心点坐标。=(bgtcxbcx)2+(
35、bgtcybcy)2(6)ch=max(bgtcy,bcy)min(bgtcy,bcy)(7)SIoU 重新设计了距离代价 的计算,将角度代价加入距离代价。式(8)为 SIoU 的距离代价计算。=t=x,y(1et)(8)x=bgtcxbcxcw2,y=bgtcybcych2,=2(9)cwch式中:与为预测框和真实框的外接矩形的宽和高。SIoU 的形状代价的计算为式(10)所示,控制wh着形状代价的程度,取值范围为 2,6。与的计算如式(11)所示。=t=w,h(1et)(10)w=?wwgt?max(w,wgt),h=?hhgt?max(h,hgt)(11)w,hwgt,hgt式中:与分别
36、代表预测框与真实框的宽和高。LSIoUSIoU 损失()的计算如式(11)所示。LSIoU=1IoU+2(12)BBgtcwchchcwcwchB.预测框中心点 Thecenterpointofthepredictedbox;Bgt.真实框中心点 Thecenterpointofthegroundtruthboundingbox;.预测框与真实框中心点连接线 Theconnectionlinebetweenthepredictedboxandthecenterpointofthegroundtruthboundingbox;.预测框与真实框中心点连接线与 x 轴夹角 Theanglebetwe
37、enthepredictedboxandthecenterpointofthegroundtruthboundingboxandthex-axis;cw,ch.预测框与真实框中心点的宽度和高度差 Thewidthandheightdifferencebetweenthecenterpointofthepredictedboxandthecenterpointofthegroundtruthboundingbox;,.预测框与真实框的外接矩形的宽和高 Thewidthandheightoftheexternalrectangleofthepredictedboxandthegroundtruth
38、boundingbox图10SIoU 损失Fig.10SIoUloss148北京林业大学学报第46卷式中:IoU为预测框与真实框交集与并集比值。2.2.4LNDown 下采样层在之前的 YOLO 系列网络中主要采用了卷积核大小为 3、步长为 2 的卷积对特征图进行下采样,如果特征图通道数过多会带来更大的参数量。YOLOv7网络中主要采用了一种多分支结构对网络进行下采样,并降低了参数量。ConvNeXt 模型17受 visualtransformer(ViT)结构启发,采用了一种新的下采样结构,将 LN 层与卷积核大小为 2、步长为 2 的卷积层结合使用(图 11)。组成 LNDown 模块对特
39、征图进行下采样,可有效提升模型识别准确率。Input(b,c,h,w)output(b,c,h/2,w/2)Convk=2,s=2Layer normb.批次Batch;c.通道数量Numberofchannels;w.特征图宽度Featuremapwidth;h.特征图高度Featuremapheight.下同。Thesamebelow.图11LNDown 结构Fig.11LNDownstructureLayernormalization(LN)层主要用于对特征进行归一化,与 batchnormalization(BN)层对整个批次进行归一化不同,本文使用的 LN 对每个特征层上相同位置元素
40、进行归一化(图 12),可不受批次大小影响,对每个样本的特征进行归一化,在样本量较少时也有良好表现。结合使用 LN 和下采样卷积有助于增强模型稳定性。hhhwwwccc批次 Batch图12本文 Layernormalization 方法Fig.12Layernormalizationmethodinthispaper2.2.5BiFPN 结构BiFPN 是 EfficientDet 中提出的基于 FPN 的改进结构。在 FPN 结构(图 13a)中,首先在主干网络中对特征图进行下采样,再进行上采样,最终将其进行融合得到具有较强语义信息的多尺度特征图。FPN+PAN(图 13b)在原有 FPN
41、 基础上,使用了自底向上结构对特征图进行下采样,融入低层定位特征,补充了 FPN 结构的定位信息。BiFPN(图 13c)相比于 FPN+PAN 结构,其删除了只存在一条输入边的节点,BiFPN 中所有节点都有两条以上的输入边,有助于增加模型特征融合能力;此外,BiFPN 在同层节点中增加了一条输入边,可以用小代价获取更多特征的融合;BiFPN 还可反复堆叠,上一个 BiFPN的输出可作为下一个 BiFPN 的输入。参考 BiFPN 结构思想,本研究对其轻量化后替换YOLOv7 中使用的 FPN+PAN 结构。去掉 YOLOv7中 3 个主干特征层输出后的 1*1 卷积,直接与上采样后的特征进
42、行拼接,在中间层增加了一条连接边,增强特征融合。3研究方法3.1 评价指标为了对实验算法进行评估,本文采用的评价指标有参数量、每秒浮点运算次数(floating-pointoperationspersecond,FLOPS)、平均精度、漏检误差、错分误差和推理速度。参数量是衡量模型复杂度的重要指标,直接影响模型的存储空间和计算量。FLOPS 是模型在推理过程中每秒执行的浮点运算次数。在判别目标时,通常将其分为正样本和负样本,并用真正例(TP)、真负例(TN)、假正例(FP)、假负例(FN)4 个指标表示。TP即模型判断正确的正样本;FP即模型误判成正样本的负样本;TN即模型判断正确的负样本;F
43、N即模型误判成负样本的正样本。平均精度是目标检测任务中用于评估模型性能的常用指标,其表示了精度召回曲线与坐标轴所围区域面积,其中精度(Pr)表示的是预测结果中真正的正例的比例,计算公式如式(13)所示。召回率(Re)表示的是所有正例中被正确预测出来的比例,计算公式如式(14)所示。Pr=TPTP+FP100%(13)Re=TPTP+FN100%(14)漏检误差可以判断模型对野生动物漏检情况,反映了模型未检测出野生动物图像的比例。错分误a FPNb FPN+PANc BiFPN图13FPN、FPN+PAN、BiFPN 结构Fig.13FPN,FPN+PAN,BiFPNstructure第2期齐建
44、东等:基于 YOLOv7 的红外相机野生动物图像筛选149差用于判断模型将多少空图像误检测为有动物出现的图像。推理速度是指模型推理一张图像所需的时间,本实验中的推理速度是模型通过推理 10 张图像计算得出的平均时间。3.2 改进的 YOLOv7 结构为使 YOLOv7 更好地应用于野生动物图像筛选,模型推理速度和准确率都是实际应用中应该关注的重要指标,既要提高模型准确率,又要加快模型的推理速度。将 YOLOv7 的主干网络中 E-ELAN模块替换为 MicroBlock 模块,降低了模型参数量,加快了模型推理速度。同时将 SPPCSPC 改为更轻量的 Slim-SPPFCSPC 模块,进一步降
45、低了参数量。使用SIoU 损失替换 CIoU 损失,在不引入额外卷积计算量的同时提升模型检测动物的能力。将YOLOv7 中原有的下采样结构改为 LNDown 结构,减少模型在下采样过程造成的信息丢失。引入BiFPN 结构使模型更好地对特征进行融合,降低识别误差。图 14 为改进的 YOLOv7 结构图。4结果与分析4.1 模型增强研究结果为了验证改进后的 YOLOv7 模型中每个模块对网络的影响,本研究对上述提到的所有改进方案进行实验。实验选择从 SS 数据集中抽样 10000 张图像的子数据集作为模型的训练和验证数据,训练集和验证集按 91 划分。使用了起始为 0.001 的余弦学习率衰减策
46、略,采用 SGD 优化器,迭代 100 个epochs,输入的图像尺寸为 640640 像素。从表 1 可以看出:替换 MicroBlock 的 YOLOv7网络降低了参数量和推理速度,同时降低了错分误CBSCBSCBSCBSMicroBlockMicroBlockLNDownLNDownLNDownMicroBlockLNDownMicroBlockSlim-SPPFCSPCLNDownConcatConcatConcatConcatUPSampleUPSampleCBSCBSCBSELAN-WELAN-WELAN-WRepBlockRepBlockRepBlockHeadHeadHead图
47、14改进的 YOLOv7 结构图Fig.14ImprovedYOLOv7structurediagram表1模型增强研究结果Tab.1Resultsofmodelsenhancementstudy模型Model参数量Parameterquantity每秒浮点运算次数Floating-pointoperationpersecond(FLOPS)权重Weight/%平均精度Averageprecision/%漏检误差Omissionerror/%错分误差Commissionerror/%推理速度Inferencespeed/msYOLOv736.5106104.710972.080.028.215
48、.517.5YOLOv7+MicroBlock31.310672.710961.578.930.113.015.6YOLOv7+Slim-SPPFCSPC33.9106101.210966.579.729.713.516.4YOLOv7+SIoU36.5106104.710972.081.027.015.317.6YOLOv7+LNDown37.2106100.610972.881.128.911.517.8YOLOv7+BiFPN36.8106104.510972.080.429.811.417.9本模型Ourmodel30.010669.610959.080.528.512.715.0注:
49、推理速度是指模型推理一张图像所需的时间。Note:Inferencespeedisthetimeittakesthemodeltoinferanimage.150北京林业大学学报第46卷差,但平均精度降低 1.1%,且漏检误差提高了1.9%,说明主干网络使用 MicroBlock 后模型的特征提取能力降低了,对动物的检测效果下降。使用Slim-SPPCSPC 的 YOLOv7 与使用 MicroBlock 方案的结果类似,同样降低了参数量与错分误差,增加了漏检误差。使用 SIoU 损失的 YOLOv7 与原模型的参数量和推理时间差别不大,但平均精度提升了1.0%,漏检误差与错分误差分别降低 1
50、.2%和 0.2%,说明使用 SIoU 损失可有效提升模型检测野生动物的能力,且无需额外推理时间。使用 LNDown 进行改进的模型,平均精度提升了 1.1%,错分误差降低了 4.0%,说明使用 LNDown 改进的模型可有效提高对动物检测的精准度。使用 BiFPN 后,模型平均精度有 0.4%的提升,且错分误差比例在所有改进方案中最低,说明通过改进网络特征融合方式可有效降低模型将背景误识别成动物的概率,但需要更多的参数量和推理时间。本文将上述改进方案结合,改进后的模型在速度上高于原始 YOLOv7 模型,推理速度快了 14.3%,模型参数量减少了 17.8%,FLOPS降低了 33.5%,可