1、战术导弹技术Tactical Missile TechnologyNo.2Mar.2023第 2 期2023 年 3 月基于改进YOLO V3的海上弹着点水柱信号检测算法姬嗣愚,王永生,翟一琛(海军航空大学,烟台 264001)摘要:在海上实弹射击训练的过程中,快速、准确地检测出弹着点处水柱信号对评估射击效果具有重要意义。针对传统的人工检靶方式效率低、误差大,且无法分辨重叠弹着点的问题,结合深度学习理论,提出了一种基于改进YOLO V3的目标检测算法。在网络输入端利用Mosaic数据增强方式,丰富了检测物体的背景和小目标,降低了网络训练门槛。将Mish函数作为网络基本组件中的激活函数,提高了网
2、络泛化能力。构建新的检测模块,将输入的特征信息分为两个分支,通过特征压缩与拼接,实现通道间信息交互。同时,对不同尺度的特征进行融合,提高网络特征提取能力。目标数据集的实验结果表明,改进后的YOLO V3算法平均准确率提高了5.39%,达到了82.64%,检测速度由27.74 FPS提高到了29.61 FPS,可以更好地完成海上弹着点水柱信号检测任务。关键词:目标检测;深度学习;改进YOLO V3;Mish;多尺度特征融合;特征拼接;数据增强中图分类号:TP391.41 文献标识码:A 文章编号:1009-1300(2023)02-0144-09DOI:10.16358/j.issn.1009-
3、1300.20220591Marine impact water column signal detection algorithm based on improved YOLO V3Ji Siyu,Wang Yongsheng,Zhai Yichen(Naval Aviation University,Yantai 264001,China)Abstract:During a live-fire training exercise at sea,it is very important to quickly and accurately detect the water column sig
4、nal at the impact point to evaluate the firing effect.Aiming at the problems of low efficiency,large error and inability to distinguish overlapping impact points in the traditional manual target detection,a target detection algorithm based on improved YOLO V3 is proposed by combining with deep learn
5、ing theory.Mosaic data enhancement method is used in the network input end to enrich the background and small targets of detected objects and reduce the threshold of network training.Mish function is used as activation function in basic network components to improve network generalization.A new dete
6、ction module is constructed,which divides the input feature information into two branches to realize the information interaction 收稿日期:2022-10-06;修回日期:2023-01-10通讯作者:姬嗣愚,硕士研究生,主要研究方向为武器系统设计与模拟技术。引用格式:姬嗣愚,王永生,翟一琛.基于改进YOLO V3的海上弹着点水柱信号检测算法 J.战术导弹技术,2023(2):144-152.(Ji Siyu,Wang Yongsheng,Zhai Yichen.Ma
7、rine impact water column signal detection algorithm based on improved YOLO V3 J.Tactical Missile Technology,2023(2):144-152.)第 2 期姬嗣愚等:基于改进YOLO V3的海上弹着点水柱信号检测算法between channels by compressing and splicing the features.At the same time,the different scales of features are fused to improve the ability
8、 of network feature extraction.Experimental results on the target data set show that the average accuracy of the improved YOLO V3 algorithm is improved by 5.39%,reaching 82.64%,and the detection speed is increased from 27.74 FPS to 29.61 FPS,which can better meet the detection requirements of water
9、column signals at the impact point on the sea.Key words:target detection;deep learning;improved YOLOV3;Mish;multi-scale fusion;feature concatenation;data augmentation1 引 言 随着技术的发展,海上武器装备逐渐多样化,在执行海上演练、作战等任务时,必须依赖火炮、鱼雷、导弹等武器进行防卫和攻击。因此,快速获取武器射击弹着点的准确位置并及时反馈给指挥部门,便于实时评估射击结果,对后续制定训练或作战方案、切实提高部队战斗力水平具有重要的
10、指导意义。现阶段主要依靠雷达号手观察炮弹弹着点处水柱信号评判射击效果,从使用角度来看,这种依靠人工检测弹着点的方法主要存在测量精度不准、检测效率低、弹着点重叠时无法辨别等问题。近年来,基于深度学习的目标检测技术取得了巨大的成功,已在海防监视、精确制导、视频监控等多个领域得到广泛应用1,为弹着点的检测提供了新的方向。当前的目标检测算法主要通过引入卷积神经网络(Convolutional Neural Networks,CNN)自动提取高层特征2。根据检测过程中是否包含候选区域目标推荐这一过程,主要分为基于候选区域思想的二阶(two-stage)算法和基于回归思想的一阶(one-stage)算法。
11、前者的典型算法包括R-CNN 系列35、R-FCN6等,这类算法精度较高,但相比一阶算法速度相对较慢;后者的典型算法包括YOLO系列7-9、SSD10、DSSD11等。本文提出改进的YOLO V3方法,通过改进网络结构、引入数据增强方法,对摄像头捕获到的弹着点处的水柱信号进行目标检测,为后续获得弹着点的位置及距离信息奠定基础。2 YOLO V3算法原理 YOLO V3的特征提取网络采用DarkNet-53网络,它包含了53个卷积层,除最后一个全连接层通过11卷积实现外,其余52个卷积层均可作为主体,是一个全卷积网络。同时,为了减小由于网络结构加深造成的梯度爆炸与梯度消失的风险,YOLO V3引
12、入残差网络(ResNet)12,使用了大量的跳跃连接,确保避免梯度弥散的现象。针对YOLO V3 网络的下一步工作,特征提取部分采用了特征金字塔(Feature Pyramid Networks,FPN)的思想,输出3个不同尺寸的特征图作为下一个网络模块的输入,深层卷积特征图通过上采样与浅层卷积特征图堆叠在一起进行特征融合,特征图上应用不同尺度的锚框输出3个不同尺度的卷积特征,最后采用非极大抑制(NMS)算法筛选出分值最高的预测框作为最后输出,从而得到最终的检测结果,网络模型如图1所示。3 改进的YOLO V3目标检测算法 弹着点处水柱目标具有尺度变化大、形状不规则、持续时间短的特点,原始的Y
13、OLO V3算法对小目标和多目标情况检测效果不佳,因此,本文在YOLO V3算法的基础上加以改进,使其更好地满足海上弹着点处水柱目标检测的需要。其中,网络结构的主要改进点包括以下3项内容:一是利用Mish激活函数替换掉网络结构中基本组件的Leaky Relu激活函数,相比Leaky Relu函数,Mish函数更为平滑,具有良好的泛化能力;二是提出新的检测模块(Detection Block,DB),将输入特征分为两个分支分别处理,通过对特征进行先压145第 2 期战术导弹技术缩后合并的方法,实现通道间信息交互,加深网络结构,提高网络的特征提取能力;三是借鉴了多尺度融合思想,采用特征金字塔与路径
14、聚合(Path Aggregation Network,PAN)相结合的方式,将低层细节信息与高层语义特征信息进行融合,从而可以提取到大小不一的目标特征,改善漏检误检问题。此外,在网络输入端还应用了Mosaic数据增强方法,用于提高目标检测效率。改进后的网络结构如图2所示。3.1Mish激活函数激活函数在神经网络中负责将神经元的输入映射到输出端,其主要作用是为了增加神经网络模型的非线性变化。在YOLO V3网络架构中,采用的Leaky Relu激活函数是经典的Relu激活函数的变体,其函数表达式如式(1)所示,导数表达式如式(2)所示,函数图像如图3所示:f(x)=x,x 0ax,x 0(1)
15、图2改进的YOLOV3网络结构图Fig.2Network structure diagram of improved YOLO V3 图1YOLO V3网络模型图Fig.1Network structure diagram of YOLO V3 146第 2 期姬嗣愚等:基于改进YOLO V3的海上弹着点水柱信号检测算法g(x)=1,x 0a,x 0(2)Leaky Relu 是分段线性函数,所有的正值不变,对负值输入有很小的坡度,不会丢失负轴的信息。由于导数总不为零,可减少静默神经元的出现频率,避免梯度消失,加速收敛,实现稀疏后的模型在提取相关特征、拟合训练数据等方面具有更好的表现能力。但在
16、训练过程中,Leaky Relu 函数主要解决Relu函数的神经元坏死问题,由于函数公式中的系数a需经过多次训练才能确定,其表现并不如Relu好13。文献14提出了Mish激活函数,其函数表达式如式(3)所示,导数表达式如式(4)所示,函数图像如图4所示。f(x)=xtanhlg(1+ex)(3)g(x)=ex2(4)式中,=4(x+1)+4e2x+e3x+ex(4x+6);=2ex+e2x+2。相比于 Leaky Relu 函数,Mish 函数正值部分基本一致,负值部分更加接近于生物学家的分析结果。Mish函数正值可以达到无穷,避免了由于封顶导致饱和负值的轻微变化,可以有更好的梯度流。在网络
17、中,这种平滑的激活函数能表达更深层的信息,在信息传播过程中表现更好,训练稳定性与识别准确性均大幅提高。3.2检测模块在改进的YOLO V3网络结构中,为了提取更多有用的特征信息,构建了新的检测模块,对原YOLO V3网络结构中经过上采样与拼接后的3个尺度的特征层进行处理,将高度为h,宽度为w,通道数为c的特征层分为两个分支(branch),其中 一 个 分 支(branch1)进 行 11 的 卷 积 操 作(Conv11+BN+Mish,CBM1),目的是对特征进行压缩,将通道数降为c/2,在保持特征图宽高尺度不变(即不损失分辨率)的前提下大幅增加非线性特性;另外一个分支(branch2)进
18、行11的卷积操作(CBM1)和 3 个卷积操作集合(CBM1+CBM3),卷积操作CBM1对通道数进行降维,后续的3个卷积操作集合用于提取非线性特征,表达更深层次的网络。在完成特征提取之后,宽高一致而通道数不一致的图像可以按列对齐,完成拼接过程,拼接后的图像大小不变,通道数变为二者之和,这样在不引入较多计算的情况下可以加深网络机构,提高网络的特征提取能力,如图5所示。对原始算法和增加检测模块后的算法进行对比实验,结果如图6所示。可以看出,在图6(a)中,通常检测框得分较低,且在多目标情况下,漏检现象比较严重,通过增加检测模块,漏检问题得到改善,且检测框得分大幅提高,如图6(b)所示。经过改进的
19、检测模块的处理,增强了模型提取特征的能力,减少了漏检现象的发生,有效提高了网络的检测性能。3.3多尺度特征融合YOLO V3借鉴了特征金字塔的思想,利用上采样将高维特征图与处理过的较低维映射进行拼接,然后在多个尺度的融合特征图上分别独立进行检测,对小目标的检测效果提升明显。在卷积神经网络中,深层卷积特征的分辨率降低,特征图3Leaky Relu激活函数Fig.3Leaky Relu activation function图4Mish激活函数Fig.4Mish activation function147第 2 期战术导弹技术表达能力增强,提取到的大多是抽象语义信息;而浅层卷积特征恰好相反,提取
20、到的大多是细节位置信息。由于弹着点处水柱目标具有形态变化多样、尺度范围较广的特点,在应用原始算法检测的过程中,很容易造成目标特征信息的丢失,出现漏检现象。针对上述问题,在原有基础上,进一步对特征融合进行改进。采用了FPN与路径聚合(PAN)相结合的方式,FPN将深层的语义特征传到浅层,而PAN则相反,它是将浅层的定位信息传导到深层,因此在深浅层网络中都涵盖了语义表达和位置信息。二者结合从不同的主干层对不同的检测层进行参数聚合,从而进一步提高特征提取能力。如图2所示,5252尺度的特征层在第一次经过检测模块后,利用一次 33 卷积操作(CBM3)与2626尺度的特征层进行特征融合,融合后的特征层
21、通过一次11卷积操作后送入第二个检测模块,得到最终输出。同理,对于2626特征层也通过上述操作与1313特征层进行融合后再检测输出,深浅层特征融合示意图如图7所示。由图7可知,相比于原算法中直接输出的高层图5特征的提取与拼接示意图Fig.5Diagram of feature extraction and concatenation图6改进前后检测效果对比Fig.6Comparison of test results before/after improvement图7深浅层信息融合特征图Fig.7Diagram of deep and shallow information fusion f
22、eature148第 2 期姬嗣愚等:基于改进YOLO V3的海上弹着点水柱信号检测算法语义特征图,经过特征拼接后的特征图信息更加丰富,目标纹理及轮廓等细节信息展示得更加充分。3.4Mosaic数据增强由于海上水柱目标数据较难获得,且在收集到的数据集中,背景相对单一。传统的离线数据增强方式虽然可以一次性扩充较多数据,但同时也会耗费较多的存储空间。Mosaic数据增强方法通过在线增强的方式,在每一轮训练前,把4张图片通过随机缩放、随机裁减、随机排布的方式进行拼接后再作为训练数据15,因此只要数据增强方式够多,并且每个方式都包含随机因子,那么就可以得到足够多样的数据,并且4张图片拼接在一起也相应提
23、高了样本批量大小(batch_size),在进行批标准化(Batch Normalization,BN)时会一次计算4张图片数据,减少了对batch_size的依赖,利用单块GPU就可进行训练,缩短了训练时间,其变换方式如图8所示。这种方法不仅丰富了检测物体的背景,而且有效压缩了存储空间,但该方法在选取图片的过程中,容易出现重复选取或从未选取等问题,导致随机处理不够充分。针对以上问题,改进了图片选取过程,如式(5)所示:Ai=randomBk(C4Nq)(5)式中,Ai表示第i张增强的图片,将数据集随机等分为N组,Nq表示第q组,Bk表示第k种图像处理方式,如翻转、缩放、色域变换等。在训练过程
24、中对每一组数据进行随机选取与拼接,可以根据需要选择增强的目标,也可以对各组数据进行增强,使图片的选取、变换和组合都得到了丰富,特别是增加了很多小目标,增强了网络的鲁棒性。4 实验设置 4.1实验环境与数据集本文利用的深度学习框架为Pytorch,实验环境为Ubuntu18.04、CUDA11.1,所有网络模型的训练与测试均在 CPU 为 Intel(R)Xeon(R)Silver 4210R CPU2.40GHz、GPU 为 Geforce RTX 3090Ti的工作站上进行。网络的初始化参数如表1所示。由于搜集到的数据集数量有限,可能难以支撑模型的训练,因此通过对数据集进行旋转、变换饱和度等
25、方式来增强训练数据集,最终得到1140 张图像,将数据集转化为 VOC 格式进行训练,其中训练集与测试集的比例为82。改进后的YOLO V3算法训练损失函数变化曲线如图9所示,由于数据集中包含不同尺度水柱目标,训练初期,损失函数下降较快,迭代20次后,损失值下降至一半左右。当迭代次数大于80时,整体损失与测试集损失均实现良好收敛,整体损失函数降至4左右,测试集损失函数降至3左右,曲线趋于稳定,检测精度较高。由图9可知,随着迭代次数的增加,损失函数变化曲线逐渐降低,训练结果趋于稳定,为了避免出现过拟合现象,迭代次数选择100次,算法呈现良好的收敛性,模型训练完成。4.2评价指标在对模型进行评估前
26、,需要选择合适的评估指标,目标检测算法中常用的评价指标通常包括召回率(Recall)、准确率(Precision)、平均准确率(Average Precision,AP)、平均准确率的均值(mean Average Precision,mAP)和每秒处理帧数(Frame Per Second,FPS)等。召回率R表示预测图8Mosaic数据增强变换方式Fig.8Transformation mode of mosaic data enhancement表1初始化参数Table 1Initialization parameters输入图片416416批量大小4动量系数0.92学习率调度器Step
27、学习率0.001迭代次数/次100149第 2 期战术导弹技术目标中预测正确样本占总预测样本的比例,准确率P表示某一类别预测目标中预测正确样本占总正确样本的比例,其定义公式分别为:R=TPTP+FN(6)P=TPTP+FP(7)在目标检测算法中,对某一类别目标的检测只存在对或错两种结果,因此可以将目标检测看作二分类问题,其标记类与预测类的判断结果存在 TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative)4种,如表2混淆矩阵所示。通常用平均准确率的均值(mAP)来评估一个检测算法的检测准确度,数值越大,
28、检测效果越好。由于准确率与召回率是一对相互矛盾的指标,因此通常采用召回率与准确率所围成的R-P曲线面积作为最优解,用平均准确率AP衡量。此外,采用每秒处理帧数评价检测速度,作为实时性的评价指标。AP和mAP计算公式分别为AP=01P()R dR(8)mAP=i=1NAPi/N(9)式中,N为检测的类别数。本次实验中,由于目标类别只有一类,因此mAP值等于AP值。4.3实验结果分析分别利用改进前后的YOLO V3算法,在水柱目标数据集上进行100轮迭代实验,对比改进前后检测效果,得到R-P曲线与改进前后的平均准确率mAP值,如图10所示。为了验证改进方法针对不同情况下水柱目标检测的有效性,选取6
29、组不同尺寸、不同形状与包含多目标物体的典型图像数据进行检测,改进前后的检测效果对比如图11所示。图 11 中,第一行为原图,第二行为原始YOLO V3 算法检测效果,第三行为改进后的图9改进的YOLO V3损失函数曲线Fig.9Improved YOLO V3 loss function curve表2混淆矩阵Table 2Confusion matrix标记标记为正标记为负预测值为正TPFP预测值为负FNTN图10改进前后在水柱测试集上的R-P曲线Fig.10R-P curve before/after improvement on the water column test sets150
30、第 2 期姬嗣愚等:基于改进YOLO V3的海上弹着点水柱信号检测算法YOLO V3算法检测效果。从图11可以看出,对于前3列图片,针对不同角度和尺寸的水柱目标,改进后的算法对水柱目标检测的准确度明显高于原始算法,说明算法改进后提取到了更为丰富的特征,改善了原算法中检测率低的问题。对于后 3 列图片,当水柱目标形态上发生较大变化,或是同时出现多个目标时,原算法容易出现识别不出、漏检问题,而改进后的算法虽然未能完全避免漏检现象,但极大地改善了检测效果。对改进前后的两种算法,分别计算其检测准确度mAP值与检测速度FPS值,具体的性能对比如表3所示。从表3可以看出,原YOLO V3算法的mAP值为7
31、7.25%,改进后算法的准确度提高了 5.39%,达到了82.64%,检测速度由27.74 FPS提高到了29.61 FPS,在使用Mosaic 在线数据增强后,FPS达到30.47 FPS,基本满足检测实时性要求。同时可以看出,在一定程度下,降低batch_size更加能够体现Mosaic数据增强对提高检测速度方面的优势,但batch_size过小会导致训练时间加长,且检测 速 度 下 降,因 此,本 文 最 终 仍 然 选 择 了batch_size=4时,应用了改进网络结构和Mosaic数据增强的模型作为最终训练结果。5 结 论 针对海上弹着点处水柱目标检测问题,本文提出了一种改进YOL
32、O V3的目标检测算法,对网络基本组件的激活函数和算法的网络结构进行了改进;构建了新的检测模块,增强了水柱特征在网络层之间的传播和利用效率,使检测层得到更强的语义信息,为目标检测任务提供了更强的特征支持。同时应用Mosaic方法进行在线数据增强,降低了训练门槛,缩短了训练时间。经过实验分析,改进后算法的平均准确率较原算法提高了5.39%,达到了82.64%,检测速度提高了2.73 FPS,达到30.47 FPS,基本满足检测实时性要求。同时,针对水柱目标形态发生较大变化或同时出现多目标的情况,改进后的算法能有效改善漏检、检测率低的问题,验证了改进方法的可行性。表3改进前后算法性能对比Table
33、 3Comparison of algorithm performance before/after improvement模型名称YOLO V3改进网络结构(batch_size=2)改进网络结构+Mosaic(batch_size=2)改进网络结构(batch_size=4)改进网络结构+Mosaic(batch_size=4)检测准确度mAP/(%)77.2582.6482.6482.6482.64检测速度/FPS27.7428.7729.9929.6130.47图11原图与改进前后水柱检测效果对比Fig.11Original image and comparison of water
34、column detection effect before/after improvement151第 2 期战术导弹技术参 考 文 献1 丛眸,张平,王宁.基于改进 YOLOv3 的装甲车辆检测方法J.兵器装备工程学报,2021,42(4):258-262.2 李旭东,叶茂,李涛.基于卷积神经网络的目标检测研究综述 J.计算机应用研究,2017,34(10):2881-2886.3 Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic
35、segmentation C.Procof IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:580-587.4 Girshick R.Faster R-CNN C.Procof IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:1440-1448.5 Ren S Q,He K M,Girshick R,et al.Faster R-CNN:Towards re
36、al-time object detection with region proposal networksJ.IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.6 Dai J F,Li Y,He K M,et al.R-FCN:Object detection via region-based fully convolutional networks EB/OL.2016-06-21.https:/arxiv.org/abs/1605.06409.7 Redmon J,Divvala S,
37、Girshick R,et al.You only look once:Unified,real-time object detectionC.Procof IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:779-788.8 Redmon J,Farhadi A.YOLO 9000:Better,faster,strongerC.Procof IEEE Conference on Computer Vision and Pattern Recognition.Pis
38、cataway,NJ:IEEE Press,2017:6517-6525.9 Redmon J,Farhadi A.YOLO V3:An incremental improvementEB/OL.2018-04-08.https:/arxiv.org/abs/1804.02767.10 Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detectorC.Procof European Conference on Computer Vision.Berlin:Springer,2016:21-37.11 Fu C Y,Liu W,R
39、anga A,et al.DSSD:Deconvolutional single shot detector J.Computer Science,2017,1(1):10-21.12 He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition C.2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA.IEEE,2016:770-778.13 张静,刘凤连,汪日伟.智能装配中基于YOL
40、O v3的工业零件识别算法研究 J.光电子激光,2020,31(10):1054-1061.14 Misra D.Mish:A self regularized non-monotonic activation functionEB/OL.2019-08-23.https:/arxiv.org/abs/1908.08681.15 Bochkovskiy A,Wang C,Liao H M.YOLOv4:Optimal speed and accuracy of object detection EB/OL.2020-04-23.https:/arxiv.org/abs/2004.10934.(
41、上接第143页)6 马啸,邵利民,金鑫,等.舰船目标识别技术研究进展 J.科技导报,2019,37(24):65-78.7 Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector C.The 14th European Conference on Computer Vision,Amsterdam,Netherlands,2016,10(3):8-16.8 Bai M,Urtasun R.Deep watershed transform for instance segmentationC.Proceedings of
42、the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,USA,2017,5221-5229.9 沈建军,陶青川,肖卓.结合改进Deeplab v3+网络的水岸线检测算法 J.中国图象图形学报,2019,24(12):2174-2182.10 Chen L C,Zhu Y K,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentationC.Computer vision ECCV 2018,2018:54-68.11 Sandler M,Howard A,Zhu M,et al.Mobilenetv2:Inverted residuals and linear bottlenecks C.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City,USA,2018:4510-4520.152