1、DOI:10.3785/j.issn.1008-973X.2024.03.001基于特征复用机制的航拍图像小目标检测算法邓天民,程鑫鑫,刘金凤,张曦月(重庆交通大学交通运输学院,重庆400074)摘要:针对无人机(UAV)航拍图像检测存在的小目标检测精度低和模型参数量大的问题,提出轻量高效的航拍图像检测算法 FS-YOLO.该算法以 YOLOv8s 为基准网络,通过降低通道维数和改进网络架构提出轻量的特征提取网络,实现对冗余特征信息的高效复用,在较少的参数量下产生更多特征图,提高模型对特征信息的提取和表达能力,同时显著减小模型大小.在特征融合阶段引入内容感知特征重组模块,加强对小目标显著语义信
2、息的关注,提升网络对航拍图像的检测性能.使用无人机航拍数据集 VisDrone 进行实验验证,结果表明,所提算法以仅5.48M 的参数量实现了 mAP0.5=47.0%的检测精度,比基准算法 YOLOv8s 的参数量降低了 50.7%,精度提升了6.1%.在 DIOR 数据集上的实验表明,FS-YOLO 的泛化能力较强,较其他先进算法更具竞争力.关键词:无人机(UVA)图像;目标检测;YOLOv8;轻量化主干;CARAFE中图分类号:V279;TN911.73;TP391.41文献标志码:A文章编号:1008973X(2024)03043712Small target detection al
3、gorithm for aerial images based onfeature reuse mechanismDENGTianmin,CHENGXinxin,LIUJinfeng,ZHANGXiyue(School of Traffic and Transportation,Chongqing Jiaotong University,Chongqing 400074,China)Abstract:AlightweightandefficientaerialimagedetectionalgorithmcalledFunctionalShuffleNetYOLO(FS-YOLO)waspro
4、posedbasedonYOLOv8s,inordertoaddresstheissuesoflowdetectionaccuracyforsmalltargetsand a large number of model parameters in current unmanned aerial vehicle(UAV)aerial image detection.Alightweightfeatureextractionnetworkwasintroducedbyreducingchanneldimensionsandimprovingthenetworkarchitecture.Thisfa
5、cilitatedtheefficientreuseofredundantfeatureinformation,generatingmorefeaturemapswithfewer parameters,enhancing the models ability to extract and express feature information while significantlyreducingthemodelsize.Additionally,acontent-awarefeaturerecombinationmodulewasintroducedduringthefeaturefusi
6、onstagetoenhancetheattentiononsalientsemanticinformationofsmalltargets,therebyimprovingthedetectionperformanceofthenetworkforaerialimages.ExperimentalvalidationwasconductedusingtheVisDronedataset,andtheresultsindicatedthattheproposedalgorithmachievedadetectionaccuracyof47.0%mAP0.5withonly5.48million
7、parameters.Thisrepresenteda50.7%reductioninparametercountcomparedtotheYOLOv8sbenchmarkalgorithm,alongwitha6.1%improvementinaccuracy.ExperimentalresultsofDIORdatasetshowedthatFS-YOLOhadstronggeneralizationandwasmorecompetitivethanotherstate-of-the-artalgorithms.Key words:unmannedaerialvehicle(UAV)ima
8、ge;objectdetection;YOLOv8;lightweightbackbone;CARAFE无人机(unmannedaerialvehicle,UAV)航拍图像相较于地面固定图像具有部署灵活、拍摄视野广的优点.目前,基于深度学习的航拍图像目标检测方法分为 2 类.第 1 类是基于候选区域的目收稿日期:20230520.网址: 等1提出基于像素建议网络(pixelproposalnetwork,PPN)的特征提取 FasterR-CNN,通过自上而下的方法将低分辨率强语义特征与高分辨率弱语义特征相结合,构建全面的语义特征图,并使用双曲池化减少激活映射过程中的特征信息丢失,最后,根据数
9、据集的特征,使用数据聚类,自适应地生成建议框.Huang 等2在 CascadeR-CNN 算法的基础上,通过增加超类检测、融合回归置信度并修改损失函数,以提高目标检测能力.另一种策略是单级目标检测算法,基于此类算法 Zhu 等3提出 TPH-YOLOv5 算法,用 Transformer 检测头(TPH)代替原来的检测头,并通过增加一个额外的检测头,形成四尺度检测头,在航拍图像的高密度场景中准确定位目标,同时加入卷积注意力模块来搜寻密集场景下的注意力区域.Liu 等4提出用于航空图像的轻型目标检测网络 YOLO-UAVlite,通过构建新的轻量级骨干网络来改进特征提取能力并减小模型大小,优化
10、特征金字塔模型,减少特征图融合过程中的信息损失并降低模型权重,对定位损失函数修正,提高定位精度与边界框回归率.为了在移动设备和嵌入式设备上进行高效计算 机 视 觉 任 务,许 多 学 者 做 出 相 应 的 研 究.Howard 等5在 MobileNetV1 中将标准卷积分解为深度可分离卷积(depthwiseconvolution,DWconv)和逐点卷积(pointwiseconvolution,PWconv),该模型大幅度减少了操作和参数量.ShuffleNetV16在深度可分离卷积的基础上增加了分组卷积和通道混洗模块,计算量和检测时间都优于 Mobile-NetV1 的.Shuffl
11、eNetV27提出设计轻量级网络的4 个原则,并引入信道分割,拆分结构将 Add 操作替换为 Concat 操作,从而减少模型参数量.PP-PicoDet8在轻量级网络 ShuffleNetV2 的基础上改进了网络结构,并提出以 ESNet(enhancedShuffle-Net)作为主干网络,其性能优于 ShuffleNetV2 主干网络.在本研究中,对 ESNet 网络基础模块进行改进,设计轻量化高效主干网络 FS(functionShuffleNet),来提高航拍图像的目标检测效率.大视场下的航拍图像目标分布稀疏不均,会增加搜索成本.航拍图像中待检测目标小、背景复杂、尺度差异大且密集排列
12、,通用目标检测方法难以获得理想效果.UAV 平台的计算资源是有限的,航空图像目标检测的应用场景有实时性和轻量化的要求.基于上述局限性,综合考虑航拍目标检测视角、检测精度和模型复杂度等问题,提出 FS-YOLO(functionalShuffleNetYOLO)航拍图像轻量级检测方法,设计轻量化网络 FS 替换基准主干网络,降低颈部和头部的特征通道维数,引入内容感知特征重组模块(content-awarereas-semblyoffeatures,CARAFE)9来替代基准模型中最近邻插值上采样.主要在以下 2 个方面展开研究:1)通过轻量化设计减小检测模型的尺寸;2)通过采用特征复用的方法利用
13、冗余特征信息,提高小目标的检测精度.1FS-YOLO1.1 整体结构YOLOv8 算法10是 ultralytics 公司提出的端到端无锚框通用目标检测网络.它建立在 YOLOv5版本11的成功基础上,基于快速、准确和易于使用的理念设计,引入新的功能和改进.其中,头部改进较大,引入新的无锚框解耦头结构,避免锚框的超参数问题,同时引入新的损失函数来提升性能;主干结构与颈部改动较小,将 C3 结构换成了梯度更丰富的 C2f 结构,实现了网络的进一步轻量化.该网络检测精度高,结构灵活,注重速度、尺寸和准确性之间的平衡,是典型的无锚框目标检测网络.为了应对航拍图像环境的复杂多变及模型规模在无人机应用上
14、的限制,须对特征提取和表示能力进一步提升,并进一步降低模型复杂度,因此选择 YOLOv8s 作为本研究航拍图像检测算法的基础网络进行改进.所提出的无人机航拍图像轻量级检测算法FS-YOLO,其核心思想如下:在降低模型复杂度的同时,对冗余特征信息进行高效复用,实现更高的航拍图像目标检测效率,增强航拍图像目标检测实时检测性能.FS-YOLO 算法的整体结构图如图 1 所示.首先,提出轻量高效主干网络结构FS,替换基准模型中的主干网络,主干网络 FS 由多组 FS 瓶颈层(FSBottleneck)堆叠而成,包含2 种 FSBlock 模块,FSBlock_1 模块进行特征提取操作,通道数不变,FS
15、Block_2 模块利用 stride=2的深度可分离卷积进行下采样操作,通道数增加.FSBlock 模块是在 ESNet 网络的基础模块上改进438浙江大学学报(工学版)第58卷而得,能够在较少参数量下产生更多特征图,具有更高的效率,能有效提升网络的学习能力.为了与 FS 轻量化主干网络相匹配,须对通道维数进行相应的调整12,将主干结构末端和检测头大尺寸分支的特征通道维数由 512 降低至 256.最后,在颈部上采样操作中引入能够更好地传输语义信息的内容感知特征重组模块 CARAFE 模块来替代基准模型中最近邻插值上采样方式,实现对特征融合上采样过程中高层语义信息传输增益.FS-YOLO 算
16、法的参数细节如表 1 所示.表中,c1表示输入通道数,c2表示输出通道数,Size 表示特征图尺寸,P 表示模块参数量.CBS k=3FS Block_2FS Block_1FS Block_2FS Block_1FS Block_2FS Block_1SPPF k=5CBS k=3CBS k=3CARAFEConcat3C2FCARAFE3C2FConcatConcat3C2FConcat6406403InputBackbone(Functional shuffle)Neck(PANFPN)2CBS k=32CBS k=3Conv-4reg_maxConv-num_classConcat2C
17、BS k=32CBS k=3Conv-4reg_maxConv-num_classConcat3C2F2CBS k=32CBS k=3Conv-4reg_maxConv-num_classConcatHead(Decoupled head)3C2FCBS k=1SplitBottleneckConcatCBS k=1BottleneckBottleneckCBSConv2dBatchNormSiluBottleneckCBS k=3CBS k=3Addn图 1 基于 FS-YOLO 的航拍图像轻量级检测算法整体结构Fig.1Overallstructureofaerialimagelightw
18、eightdetectionalgorithmbasedonFS-YOLO表 1 FS-YOLO 算法的参数细节Tab.1ParameterdetailsofFS-YOLOalgorithm序号c1模型结构c2SizeP/KB序号c1模型结构c2SizeP/KB13Conv3232032092812256CARAFE256160160103012232FSBlock_2641601602540813256Concat3201601600364FSBlcok_1641601602396814320C2f128160160140032464FSBlcok_212880809480015128Con
19、v12880801477125128FSBlcok_1128808017974416128Concat384808006128FSBlcok_2256404037187217384C2f25680804930567256FSBlcok_1256404035382418256Conv25640405903368256SPPF256404016460819256Concat512404009256CARAFE256808010301220512C2f256404052582410256Concat3848080021Detect3167755011384C2f2568080493056总计5488
20、726第3期邓天民,等:基于特征复用机制的航拍图像小目标检测算法 J.浙江大学学报:工学版,2024,58(3):437448.4391.2 轻量化高效主干网络 FS 结构ESNet 是在 ShuffleNetV2 的基础上引入 SE 模块13和 GhostNet14中的 Ghost 模块,并新增深度可分离卷积,对不同通道信息进行融合来提升模型精度.ESNet 在常规物体分类和检测方面实现了在精度、速度上的提升,然而,为了适应航拍图像中复杂多变的检测环境,须进一步提高特征提取和表示能力,为此本研究提出改进的 FS 主干网络.FS 主干网络的结构如图 2 所示,在 FSBlock_1的开头添加通
21、道分割模块,输入特征映射被分割为 2 个分支,每个分支的通道数是原来的一半.与标准卷积相比,幽灵卷积模块 Ghost 的参数更小,计算量更少,生成的特征图更多,从而减少了权值参数.坐标注意力模块(CoordAttention,CA)15能较好地权衡网络信道与空间特征之间的表达,获得更好的特征.在逐点卷积后,2 个分支连接起来.当 stride=2 时,将输入特征图发送到 2 个分支进行卷积,特征图大小变成初始输入特征图的一半,特征拼接后通过 T 型特征感知卷积模块(T-shapedfeatureperceptionconvolution,TFPC)对特征进行加权组合.最终输出特征映射的通道数量
22、是初始输入特征映射的 2 倍.1.2.1T 型特征感知卷积 TFPC 模块在特征提取过程中,虽然深度可分离卷积 DWconv(通常后跟逐点卷积 PWconv)可以有效地减少模型复杂度,但无法在深度上对丰富的上下文信息充分利用,会导致较大的精度下降.为了有效利用不同通道的特征空间信息,设计 T 型特征感知卷积模块TFPC,通过局部卷积(partialconvolution,PConv)16级联逐点卷积 PWconv 的方式来加权组合提取特征.TFPC 的特征感知过程如图 3 所示.I=x1,x2,xn RCHWIX1 RCPHWX2 R(CCP)HWCP(CCP)X1F33ConvX2h_swi
23、shI RCHW假定 T 型特征感知卷积模块 TFPC 的输入特征图为,通过 split 切片操作将输入的特征空间的通道分为 2 个部分,切片后的、通道数分别为和,对特征空间进行卷积操作提取空间特征,保持的特征恒等变换,将卷积输出与未接触的特征映射进行 Concat 操作连接起来,经过批归一化后输入逐点卷积 PW-conv 进行加权组合,最后通过批归一化和激活函数得到输出特征图:I=h_swishF11pwconv(FCat(F33Conv(X1),X2).(1)T 型特征感知卷积模块以简单而有效的方式充分利用特征图在不同通道之间的相似特性,优化特征提取过程中的计算冗余和更多内存访问的情况.P
24、Conv 通过通道分割对部分输入通道进行卷积提取空间特征,保持其余的通道特征恒等变化,而并非简单删除其余通道中特征信息,这些特性信息在后续的 PWconv 层中作用,该层允许特征信息在所有通道中流动,将这些特征图在深度方向上进行加权组合成新的特征图.局部卷积PConv 与逐点卷积 PWconv 的组合在输入特征图上的有效接受野看起来像 T 型的结构,组合结构与常规卷积操作类似,可用来提取特征,并且相比于常规卷积操作,其参数量和运算成本较低,更关注中心位置.(a)FS block_1通道分割坐标注意力逐点卷积特征拼接通道混洗输入特征幽灵卷积(b)FS block_2逐点卷积深度可分离卷积(str
25、ide=2)深度可分离卷积(stride=2)坐标注意力逐点卷积逐点卷积特征拼接T 型特征感知卷积输入特征图 2 FS 瓶颈层的 2 种结构Fig.2TwostructuresofFSbottlenecklayer恒等变化whCP*.=whCP部分卷积 33逐点卷积 11BNBN,HardswishkkCPCP Filters图 3 T 型特征感知卷积模块Fig.3T-shapedfeatureperceptionconvolutionmodule440浙江大学学报(工学版)第58卷1.2.2坐标注意力 CA 模块通道注意力可以提高网络对关键信息的关注度,减少冗余信息的干扰,但忽略了位置信息,
26、而位置信息对于生成空间选择性特征图非常重要.航拍图像检测目标中包含大量小目标,而随着网络的不断深入,卷积操作极易使小目标的特征信息被淹没,因此引入坐标注意力模块 CA 来替换 ESNet 主干网络中的通道注意力 SE,使得模型对小目标及尺度变化大的目标具有更好的特征提取效果.M RCHW(H,1)(1,W)hwc坐标注意力模块 CA 有 2 个主要步骤:坐标信息嵌入和坐标注意力生成,具体结构如图 4 所示.该模块优化了通道注意力使用全局池化导致的位置信息丢失问题,并且可以在增加感受野的同时避免大量计算开销.对于输入特征图,使用大小为和的池化核分别沿水平和垂直方向进行一维的特征编码,增强每个通道
27、的水平和垂直特征,高度为与宽度为的第通道的输出公式分别如下:Zhc(h)=1W0iWMc(h,i),(2)Zwc(w)=1H0jHMc(j,w)(3)Zhc(h)Mc(h,i)hcZwc(w)Mc(j,w)wcHW式中:和分别为高度为的第通道的输出和输入,和分别为宽度为的第通道的输出和输入,、为输入特征映射的高度和宽度.将上述 2 种变换分别沿 2 个空间方向聚合特征,得到一对方向感知的特征图,将 2 个ZhZh特征图和进行拼接,并对拼接的特征图进行 11 的卷积运算,得到f=F11ConvFCatZh,Zw(4)FCat()F11Conv()11f RCr(H+W)rffhfwfh RCrH
28、fw RCrWM式 中:为 空 间 维 度 上 的 Concat 操 作;表示卷积运算;表示非线性激活函数;为水平方向和垂直方向空间信息的中间特征图,其中为控制模块大小的缩减率.然后,将沿空间维度分割成 2 个独立的张量和,再分别经过 11 卷积将特征图和变换到和输入同样的通道数之后,利用激活函数获得水平和垂直方向上注意力的权重数据.最后,再将输入的特征图与水平和垂直权重相乘获得坐标注意力输出特征,表达式如下:gh=F11Convfh,(5)gw=F11Conv(fw),(6)=Mghgw(7)式中:为 sigmoid 激活函数.X=x1,x2,x3,xc RCHWF33ConvX1=x1,x
29、2,x3,x0.5m R0.5MHWXxiiX,X=x1,x2,x3,xm RMHW1.2.3幽灵卷积模块在深度学习网络模型中,特征图的学习对于模型精度的提升至关重要,特征图通过堆叠卷积层可以捕获丰富的特征信息,但往往会产生大量冗余信息,虽然该操作确保了网络对数据有更全面的理解,但它需要大量的卷积层计算,这增加了计算量和模型参数量.因此,幽灵卷积 Ghost 通过常规卷积操作提取丰富的特征信息,而对于冗余的特征信息,则利用更价廉的线性变换操作来生成,最终将不同的特征图 Con-cat 组合成新的输出,且输出的大小和传统卷积的输出大小一致,有效地降低模型所需的计算资源,幽灵卷积模块结构如图 5
30、所示.假定幽灵卷积模块的输入特征空间为,其 中 C 表 示 该 输 入 特 征 的 通 道 数,HW 表示输入特征的尺度大小.与常规卷积相比,首先,幽灵卷积采用尺寸为 33 的卷积核进行常规卷积操作,得到特征通道较少的本征特征图(intrinsicfeaturemaps),然后将中每一个通道的特征图用线性操作来产生 Ghost 幽灵特征图,最后使用Concat 操作将本征特征图与幽灵特征图特征拼接起来得到输出特征图为.表达式如下:残差操作X 平均池化Y 平均池化Concat+Conv2d批归一化+非线性变换Conv2dConv2dSigmoidSigmoid权重重计算CH1CH1CH1CHWC
31、HWC1WC1WC1W1(W+H)1(W+H)分割输出输入ghgwCrCr图 4 坐标注意力模块结构Fig.4Coordinateattentionmodulestructure第3期邓天民,等:基于特征复用机制的航拍图像小目标检测算法 J.浙江大学学报:工学版,2024,58(3):437448.441X=FCat(X1,i(xi);i=1,2,0.5m(8)i(xi)X1xiii式中:表示中每一个通道的特征图用线性操作进行特征映射,线性操作采用卷积核为 55 的卷积深度可分离卷积 DWconv 来实现.本研究主要对幽灵卷积中常规卷积与线性操作中的卷积核尺寸大小进行调整.1.3 内容感知特征
32、重组模块大多数网络使用经典的最近邻或者双线性插值来实现特征上采样,但这 2 种方式只考虑局部亚像素区域的领域像素,忽略全局内容信息,导致它们无法有效捕捉密集检测任务中必需的语义信息,这将导致航拍图像中密集分布且特征微小的目标在空间上存在信息损失风险,从而可能导致漏检增多.为了解决这一问题,在路径聚合网络(pathaggregationnetwork,PANet)上采样特征融合分支中使用内容感知特征重组模块来实现内容感知层面上的特征重组上采样,该模块具有较大的感受野与轻量化的特性,在引入少量参数的情况下可以更好地利用感知特征图中显著语义信息,增强对小目标特征的关注,提高特征传输效益.内容感知重组
33、模块 CARAFE 的实现方式如图 6 所示.X RCHWCHWX假定内容感知特征重组模块 CARAFE 的输入特征图,上采样比例为,为整数,CARAFE 将生成尺寸为的新特征图.该过程包括特征内容预测和特征重组 2 个步骤,第 1 步是根据每个目标位置的内容预测一个重组核,第 2 步是用预测的内核对特征进行重组.CmkkCm特征内容预测首先对输入特征图进行通道压缩,用 11 的卷积将它的通道数压缩到,操作的目的是减少后续步骤的参数和计算成本,提高CARAFE 效率.其次进行内容编码,对于第 1 步中压缩后的输入特征图,利用一个的卷积层来预测上采样核,输入、输出通道数分别为、.C33 Conv
34、Concat55 ConvHW0.5M0.5MMHW图 5 幽灵卷积模块结构Fig.5Ghostconvolutionmodulestructure通道压缩特征内容预测HWXC内容编码核归一化WHXCmN(Xl,k)kkWlHWXC特征重组WH图 6 内容感知特征重组模块Fig.6Moduleofcontent-awarefeaturereassembly442浙江大学学报(工学版)第58卷2k2HW k2Wl,然后将通道维在空间维展开,得到形状为的上采样核,最后核归一化,使得卷积核权重和为 1,最终产生自适应特征重组核.上述过程可以表示为Wl=softmaxfencode(fcompress
35、or(Xl).(9)fcompressor()fencode()softmax式中:表示通道压缩操作,表示内容编码操作,表示核归一化操作.l=(i,j)kkN(Xl,k)特征重组过程则是对于输出特征图中的每个位置,将其映射回输入特征图,取出以为中心的区域,和预测出的该点的上采样核作逐像素相乘,得到输出值.同一空间位置的不同特征图通道共享一个上采样核.特征重组的输出计算公式为Xl=nmWl,(n,m)X(i+n,j+m).(10)XlN(Xl,k)X(i+n,j+m)l=(i,j)式中:表示输出的特征图,表示卷积区域,表示点的上采样核,Wl,(n,m)表示重组核的权重,表示逐像素相乘操作.2实验
36、结果与分析2.1 数据集实验数据采用由中国天津大学发布的 Vis-Drone 数据集17,数据由不同型号的无人机在不同场景以及各种天气和光照情况下收集,共有图片8599 张,训练集、验证集、测试集分别包含 6471、548、1580 张图片,图片像素尺寸为 20001500,包括行人、人、自行车、汽车、面包车、卡车、三轮车、遮阳蓬三轮车、巴士及摩托车共 10 个类别.2.2 实验环境及参数设置所使用的硬件配置如下:处理器为 Intercorei512400F,内存为 32G,显卡为 NVIDIAGeForceRTX3060,显存为 12G,采用 CUDA11.7、CUDNNv8.6.0 作为显
37、卡加速库.软件环境采用 Pytorch 深度学习框架,操作系统为 Windows11.训练设置采用随机梯度下降法(stochasticgradientdescent,SGD),初始学习率为 0.01,权重衰退为 0.0005,动量为 0.937,输入图片大小固定为 640640 像素,batchsize 设置为 2,迭代次数为 150 次,在最后10 次迭代关闭马赛克数据增强,在网络的训练过程中加入早停机制以防止过拟合,早停的等待轮数 patience 设置成 50.为了评估本实验所提算法的有效性,选用模型规模 M 和参数数量 P 以及每秒传输速度 F 来衡量模型的复杂程度和检测速度.同时,采
38、用IoU 阈值为 0.5 时所有目标类别的平均均值精度mAP0.5、IoU 阈值 0.500.95(步长为 0.05)的 10 个阈值下的检测精度的平均值 mAP0.5:0.95以及召回率 R 来 综 合 评 估 模 型 的 性 能,采 用 平 均 精 度AP 来评价模型对单个目标类别的检测性能.2.3 消融实验结果与分析为了验证 T 型特征感知卷积模块 TFPC、坐标注意力模块 CA、幽灵卷积模块 Ghost 对 FS 主干网络的贡献,在 Visdrone 数据集上进行 9 组消融实验,实验对比结果如表 2 所示.表中,Case(a)表示使用 ESNet 主干网络替换 YOLOv8s 主干网
39、络,Case(b)、(c)、(d)表示在 Case(a)的基础上分别引入 TFPC 模块、CA 模块、Ghost 模块,Case(e)、(f)表示在 Case(b)的基础上分别引入 CA 模块、Ghost 模块,Case(g)表示在 Case(c)的基础上引入 Ghost 模块,Case(h)是完整的 FS 主干网络.如表 2 所示,由 Case(a)到 Case(b),使用 T 型特征感知卷积模块 TFPC 改进 ESNet 模块,mAP0.5从45.2%提升到 45.9%,mAP0.5:0.95从 27.5%提升到28.1%,R 从 43.3%提升到 43.4%,算法模型的参数量和模型规模
40、只增加了 0.42M 和 1.6M,速度下降可以忽略不计,T 型特征感知卷积模块 TFPC 可以在增加有限的模型复杂度情况下,改善模型的特征提取与表达能力,提高航拍图像检测的精度.由 Case(a)到 Case(c),在引入坐标注意力模块CA 后,mAP0.5从 45.2%提升到 45.4%,R 从 43.3%提升到 43.7%,模型的参数量没有变化,检测速度略有下降,坐标注意力模块用于改善模型的特征表达能力,增强模型对小目标及尺度变化大的目标 的 重 点 位 置 特 征 的 关 注 度.值 得 一 提 的 是Case(a)到 Case(d),在引入改进的 Ghost 模块后,mAP0.5下降
41、了 0.1%,但是 Case(g)、(h)引入改进的 Ghost 模块,相较于 Case(c)、(e),mAP0.5分别上 涨 了 0.3%和 0.1%,主 要 是 因 为 本 研 究 对Ghost 的中常规卷积与线性操作中的卷积核尺寸大小进行调整,该模块拥有了更大的感受野,使得后续的坐标注意力模块 CA 能够更好地捕捉目标物体的特征.总的来说,TFPC 模块、CA 模块和改进的 Ghost 模块可以有效提高网络的性能和表达能力,FS 主干网络比基准网络提升了 5.3%的mAP0.5,并且 mAP0.5:0.95与召回率分别上涨了3.7%、5.2%,模型参数量降低了 52.6%.在引入 FS
42、主干网络的基础上,进行消融实验验证在特征融合上采样过程中,CARAFE 模块放第3期邓天民,等:基于特征复用机制的航拍图像小目标检测算法 J.浙江大学学报:工学版,2024,58(3):437448.443置在不同位置时对网络的贡献,结果如表 3 所示.CARAFE(a)表示在表1中的第9层单独引入一个内容感知特征重组模块替换最近邻上采样.CARAFE(b)表示在第 12 层,引入一个内容感知特征重组模块,mAP0.5提升了 0.3%.CARAFE(c)表示同时引入 2 个内容感知特征重组模块,在引入内容感知特征重组模块后,mAP0.5从 46.2%提升到 47.0%,mAP0.5:0.95从
43、 28.3%提升到 28.8%,召回率 R 从44.5%到 47.7%,由此可知,同时引入 2 个内容感知特征重组模块的效果更优,虽然模型参数量增加了 0.21M,但是在小幅增加成本的情况下,检测速度仍然达到 68.0帧/s,满足实时性要求.表 3 颈部消融实验的检测性能结果对比Tab.3Comparisonofdetectionperformanceresultsofneckablationexperiment模型mAP0.5/%mAP0.5:0.95/%R/%P/MBF/(帧s1)YOLOv8s40.924.639.311.12144.9YOLOv8s+FS46.228.344.55.27
44、80.0YOLOv8s+FS+CARAFE(a)46.128.244.45.4778.1YOLOv8s+FS+CARAFE(b)46.528.344.55.4771.9YOLOv8s+FS+CARAFE(c)47.028.844.75.4868.02.4 对比实验为了进一步验证 FS-YOLO 算法在航拍图像各类目标检测中的性能,在保证算法的训练环境和数据集相同的条件下,在 VisDrone 数据集上与其他先进的航拍图像检测算法进行比较分析.如表 4 所示为 VisDrone 数据集上 10 类目标在各种先进算法上的 AP、mAP 以及每种算法的参数量.可以看出,对比其他算法,FS-YOLO
45、算法在人、汽车、面包车、摩托车等目标类别的检测性能方面表现最优,AP 分别为 43.6%、85.0%、51.4%和54.9%.对于行人、卡车、三轮车、巴士等横纵较大且实例个数较少的类别,该算法同样表现出不错的检测性能,AP 分别为 53.1%、41.3%、35.3%和66.0%,较优.这说明该算法在各种目标场景下都有着相当不错的检测表现.FS-YOLO 航拍图像检测算法不仅在各类目标检测性能上超越了其他算法,还成功减小了模型参数量.值得一提的是,FS-YOLO 算法的参数量只有 5.48M,在 mAP0.5检测精度上超过了参数量为 43.69M 的 YOLOv8l 算法.所提出的 FS-YOL
46、O 算法在处理航拍图像目标检测任务时能够发挥出较大优势,特别在目标实例数量较少的情形下,该算法可以充分利用目标实例的冗余特征信息.因此,相比其他算法,FS-YOLO 算法在这种情况下的表现更加出色.2.5 可视化分析为了充分验证 FS-YOLO 算法在不同图像场表 2 主干网络消融实验的检测性能结果对比Tab.2ComparisonofdetectionperformanceresultsofBackboneablationexperiment模型ESNetTFPCCAGhostmAP0.5/%mAP0.5:0.95/%R/%P/MBM/MBF/(帧s1)YOLOv81)40.924.639.
47、311.1321.4144.9(a)45.2(+4.3)27.543.34.678.583.3(b)45.9(+5.0)28.143.45.0910.182.6(c)45.4(+4.5)27.543.74.679.379.3(d)45.1(+4.2)27.443.54.879.681.3(e)46.1(+5.2)28.144.25.0810.281.9(f)45.8(+4.9)27.843.15.2810.382.0(g)45.7(+4.8)27.743.04.8610.482.6(h)46.2(+5.3)28.344.55.2710.880.01)注:“”表示加入相应模块,“”表示未加入相应
48、模块.444浙江大学学报(工学版)第58卷景中的适用性,还从 VisDrone 数据集中挑选了一些具有光线变化、高空视野、夜间环境、密集遮挡等复杂场景以及暗光密集极端场景的航拍图像样本进行测试,检测结果如图 7 所示,由样例(a)、(b)对比分析,在光线明暗变化较大的场景下,FS-YOLO 模型相较于基准模型具有更好的鲁棒性.通过样例(c)、(d)对比分析,高空视野下FS-YOLO模型的整体检测率高于基准算法,能够更加关注目标的中心位置,抑制背景噪声信息干扰并保留对目标决策更具重要性的特征信息,在背景的复杂航拍视角场景中表现出更好的目标检测能力.通过样例(e)、(f)对比分析,在夜间环境中 F
49、S-YOLO 算法相较于基准算法的漏检率更低,可以在高重叠的对象簇中更准确地检测到实际对象,特别是在远距离视图下,依然可以正确检测到更多的汽车.通过样例(g)、(h)对比可以看出,FS-YOLO 可以在密集遮挡的场景下,准确检测出远视距下的行人小目标.通过样例(i)、(j)可以看出,在暗光并且小目标密集的场景中,相较于基准算法,FS-YOLO 对摩托车、行人小目标有着更高的检测准确率.总的来说,FS-YOLO 模型在复杂场景特别是远视距下检测性能有着较大的提升.2.6 泛化性实验采用由西北工业大学于 2019 年发布的 DIOR遥感数据集(http:/ 800800,涵盖了 20 个目标类别,
50、包含 23463 张图像,共计192472 个实例,数据集具有尺度差异性大和背景复杂的特点,适合用来进行泛化性实验验证本研究算法的有效性和泛化能力.遵循 DIOR 数据集官方提供的数据划分建议,训练集、验证集、测试集中图片数目分别为 5862、5863、11738 张,并按照默认设置使用 FS-YOLO 网络在该数据集上进行了 150 个轮次的模型训练.实验结果如表 5 所示,在航拍数据集 DIOR上,所提出的 FS-YOLO 模型相对于 YOLOv8s 模型,在检测精度上取得了 2.1%的提升,达到了74.3%,明显优于基于两阶段算法的 FasterR-CNN.通过图 8 中展示的部分 DI