1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.5,Sep.2023,pp.1079-1091DOI:10.16337/j.10049037.2023.05.007 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742SiamBM:实现更佳匹配的 Siamese目标跟踪网络胡昭华1,2,刘浩男1,林潇1(1.南京信息工程大学电子与信息工程学院,南京 210044
2、;2.南京信息工程大学江苏省大气环境与装备技术协同创新中心,南京 210044)摘要:基于孪生网络的目标跟踪算法通常采用简单的互相关匹配方式,然而这种简单的匹配方式会引入大量无关信息,弱化目标区域的响应。基于无锚框的孪生跟踪网络虽然避免了锚框参数的调整,但由于失去了先验性信息,并不能很好地适应目标物的尺度变化。因此,针对上述所存在的问题,本文提出了一种基于孪生网络的目标跟踪匹配增强算法 SiamBM。通过将目标的边界框坐标信息进行编码,为跟踪模型提供有效的指导信息;采用深度可分离互相关级联像素匹配互相关的方式,进一步提高跟踪模型的判别能力;采用多尺度互相关的方式,增强跟踪模型的尺度适应能力。在
3、 OTB100 数据集上,SiamBM 的成功率和精确率分别达到了 0.684和 0.906,相比基准模型分别提高了 5.2%和 4.2%。实验结果表明,与目前主流的跟踪器相比,SiamBM 取得了相当有竞争力的结果,在各项数据集指标上取得了优越的性能。关键词:目标跟踪;孪生网络;多方式互相关;多尺度互相关;边界框编码中图分类号:TP391 文献标志码:ASiamBM:Siamese Object Tracking Network for Better MatchingHU Zhaohua1,2,LIU Haonan1,LIN Xiao1(1.College of Electronics an
4、d Information Engineering,Nanjing University of Information Technology,Nanjing 210044,China;2.Jiangsu Collaborative Innovation Center for Atmospheric Environment and Equipment Technology,Nanjing University of Information Technology,Nanjing 210044,China)Abstract:Object tracking algorithms based on Si
5、amese networks usually adopt simple cross-correlation matching,but this simple matching method will introduce a lot of irrelevant information and weaken the response of the target region.Although the Siamese tracking network without anchor frame avoids the adjustment of anchor frame parameters,it ca
6、nnot adapt well to the scale change of the target due to the loss of priori information.Therefore,aiming at the above problems,this paper proposes a object tracking matching enhancement algorithm SiamBM based on Siamese networks.By encoding the boundary frame coordinate information of the target,eff
7、ective guidance information is provided for the tracking model.The discriminant ability of the tracking model is further improved by means of depth separable cross-correlation and cascade pixel matching cross-correlation.Multi-scale cross-correlation is adopted to enhance the scale adaptability of t
8、he tracking model.In the OTB100 dataset,the success rate and accuracy rate of SiamBM reached 0.684 and 0.906,respectively,which increased by 5.2%and 4.2%compared with the benchmark model.The experimental results show that compared with the current mainstream trackers,SiamBM has 收稿日期:20220521;修订日期:20
9、221117数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.5,2023achieved quite competitive results and superior performance in various dataset indicators.Key words:object tracking;Siamese network;multi-modal cross-correlation;multi-scale cross-correlation;bounding-box encoding引 言 目标跟踪是计算机视觉
10、领域中一个基础而又具有挑战性的任务,是近几十年来计算机视觉领域最活跃的研究课题之一。目标跟踪的任务定义为:对于一个视频序列,在只给定目标初始帧位置的情况下,跟踪器能够在后续的每一帧中准确地跟踪此目标。目标跟踪在自动驾驶、视频监控、海洋勘探、医学影像等领域都有着广泛的应用,因此备受学术界和工业界的关注。目前的研究表明,基于孪生网络的目标跟踪算法在跟踪精度和推理速度之间取得了很好的平衡。SINT1最早将相似性学习的方式应用到目标跟踪中,其本质是抽取多个候选目标依次送入网络中进行相似度的对比。SiamFC2在孪生网络中引入了互相关的结构,解决了 SINT 速度过慢的问题,真正地实现了速度与精度的平衡
11、。SiamRPN3在 SiamFC的基础上引入了多通道互相关和目标检测中的 RPN区域生成网络4,使得回归预测更加精准。SiamRPN+5采用了深度可分离互相关,减少了大量参数,稳定了整个训练过程。然而,无论哪一种现有的互相关方式,其本质依然都是两特征图之间固定大小的滑窗卷积操作,因此当物体发生较大形变或者目标区域相对较小时,互相关会引入大量的背景信息,从而影响跟踪精度。SiamBAN6通过直接预测特征图上前景背景的分类得分和 4个中心距离偏移量来得到最大响应位置的预测框。这种像素级的无锚框预测方式7解决了 SiamRPN 系列网络存在的问题,减少了参数调整的负担。但由于失去了类似锚框的先验信
12、息以及单一尺度卷积核的采用,跟踪器并不能很好地具备学习和应对目标尺度变化的能力。另外,由于跟踪目标形状的不确定性,固定比例的锚框对跟踪网络并不具备很好的指导性。因此,根据现有算法研究的不足,本文提出了一种基于孪生网络的互相关匹配增强算法。主要工作如下:(1)为了能够使得跟踪网络充分利用到有效的先验信息,通过将已给定的目标边界真值框信息编码到网络中,增强了目标区域的前景响应,进一步提升了跟踪精度。(2)通过分析研究目前互相关结构的特点,采用了一种新的多互相关级联方式,解决了目前互相关匹配的固有问题,减少了无关的背景和干扰信息,提高了跟踪网络的判别能力。(3)通过引入非常规尺度的卷积核对模板特征和
13、搜索特征进行多方位、多尺度的特征提取并融合,既避免了一系列的锚框参数调整,又能使得跟踪器得到更多的尺度信息。最终,在能够保证高实时性跟踪的前提下,SiamBM 取得了良好的跟踪性能。1 SiamBM 网络框架 1.1网络整体结构如图 1所示,SiamBM 整体的网络结构采用基于无锚框的孪生跟踪网络,主要分为特征提取网络、互相关匹配网络和分类回归网络这 3大部分。特征提取网络采用修改后的 ResNet508深层神经网络来进行特征提取,ResNet最后两个模块的步长被设置为 1,并且扩张卷积的大小被设置为 4,增加了感受野的大小。互相关匹配网络由互相关结构和边界框编码模块组成,模板特征和搜索特征经
14、过互相关匹配后与边界框编码后的信息进行融合,作为后续分类回归网络的输入。分类回归网络包含分类和回归1080胡昭华 等:SiamBM:实现更佳匹配的 Siamese目标跟踪网络两个分支,分类分支负责预测目标为前景的得分。回归分支负责预测(l,t,b,r)4个距离,分别代表目标中心位置距回归框 4条边的偏移距离。1.2边界框编码模块主流的孪生跟踪网络对于模板帧已给定的边界框信息通常会有两种利用方式,一种是对输入图像进行常规的中心裁剪,另一种是利用边界框的坐标做相关的感兴趣区域(Region of interest,ROI)映射或者提取图像像素掩膜。这两种方式通过利用已有的边界框坐标信息将图像层面的
15、信息进行提取和操作,但是往往忽略了边界框坐标本身这种非结构化的数据信息。因此,本文算法通过将边界框编码后的信息与得到的互相关特征进行融合操作,使得跟踪器的性能得到进一步的提升。如图 2所示,编码模块首先将模板帧的边界框坐标转化成一维的特征向量:B(x,y,w,h),(x,y)代表目标边界框的角点坐标,w代表目标边界框的宽度,h代表目标边界框的高度。特征向量B经过多层全连接层得到BC=fC(B)(1)式中:fC代表全连接层结构,BC代表特征向量B经全连接层的输出特征。然后互相关网络的输出特征F与BC进行广播相加操作Fb=F+BC(2)式中:Fb R()C H W,F R()C H W,BC R(
16、)C 1 1,C代表特征图的通道数,H和W分别代表特征图的高度和宽度。最后Fb经过 1*1卷积编码得到最终的输出结果FBM=fg(Fb)(3)式中:fg代表 1*1 大小的卷积编码操作,FBM R()C H W代表最终的边界框编码输出结果。图 1SiamBM 网络结构Fig.1SiamBM network structure图 2边界框编码模块Fig.2Bounding box encoding module1081数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.5,20231.3多方式互相关作为孪生跟踪网络中最为关键的
17、组成部分,互相关结构的设计对于跟踪器的性能是至关重要的。然而目前已有的互相关方式依然都是两特征图之间进行固定大小的滑窗卷积操作,这种互相关方式是一种针对目标区域的全局信息的匹配,因此当物体发生较大形变或者目标区域相对较小时,互相关会引入大量无关的背景信息,从而干扰对目标的跟踪。因此,本文对孪生跟踪网络的互相关匹配方式进行了改进,引入了多方式互相关分支。多方式互相关分支通过级联深度可分离互相关和像素匹配互相关两种方式,能够使得网络更好地关注到目标区域,减小干扰物的影响。多方式互相关分支的结构如图 3所示,模板分支特征fz与搜索分支特征fx首先进行像素匹配互相关操作fpm=PM(fz,fx)(4)
18、式中:PM 代表像素匹配互相关,fz R()C Hz Wz,fx R()C Hx Wx,C代表特征图的通道数,Hz和Wz分别代表模板特征图的高度和宽度,Hx和Wx分别代表搜索特征图的高度和宽度,fpm R()C Hx Wx代表输出的像素匹配互相关特征。然后,像素匹配互相关特征fpm与模板分支特征fz进行深度可分离互相关,最终得到融合两种互相关的特征为FDW=DW(fpm,fz)(5)式中:DW 代表深度可分离互相关,FDW R()C H W代表多方式互相关分支的输出特征。像素匹配互相关的方式经常被应用于实时分割领域,其本质是两特征图之间进行像素级别的匹配。图 4详细展示了像素匹配互相关的流程。
19、设定模板分支的特征图为fz R()C Hz Wz,搜索分支的特征图为fx R()C Hx Wx。首先,fz与fx分别进行经过 1*1的卷积层编码得到fz1和fx1。之后,fz1进行维度变换操作分别得到fz11和fz12,fx1进行维度变换操作得到fx2,表达式为 fz11=Reshape()Conv(fz)fz12=Reshape()Conv(fz)fx2=Reshape()Conv(fx1)(6)图 3多方式互相关分支结构Fig.3Multi-mode cross-correlation branch structure图 4像素匹配互相关结构Fig.4Pixel matching cros
20、s-correlation structure1082胡昭华 等:SiamBM:实现更佳匹配的 Siamese目标跟踪网络式中:fz11 R()Hz Wz C,fz12 RC()Hz Wz,fx2 R()Hx Wx C,Conv代表 1*1*C维度大小的卷积层,Reshape代表维度变换操作。随后,fz12与fx2进行矩阵相乘操作,将得到的结果再与fz11进行矩阵相乘输出得到fm1,并对fm1进行维度变换操作得到fm2,表达式为 fm1=MatMul(MatMul(fx2,fz12),fz11)fm2=Reshape()fm1(7)式中:fm1 RC()Hx Wx,fm2 R()C Hx Wx
21、,MatMul代表矩阵相乘操作。在后续阶段,fm2与之前编码后的特征fx1沿通道进行拼接操作,最终经 1*1卷积进行降维后,得到像素匹配互相关的输出fpmfpm=Conv()Concate(fx1,fm2)(8)式中:fpm R()C Hx Wx,Concate代表沿通道进行拼接操作。像素匹配的互相关方式通过逐对进行像素匹配,减少了背景信息的干扰,增强了前景信息的提取。并且本文同时级联了两种不同的互相关方式,这是因为像素匹配互相关是一种全局像素匹配的互相关方式,而深度可分离互相关是一种局部匹配的互相关方式,两种方式进行结合后能够在捕捉到全局上下文信息的基础上,再度细化目标局部区域信息的提取,相
22、较于单一的互相关方式,这样能够使得网络具备更好的判别性。1.4多尺度互相关虽然基于无锚框的孪生跟踪网络失去了锚框信息的指导,但对于跟踪器来说,如何去学习并能够适应目标物的尺度变化是更为重要的,而不是局限于使用固定比例的锚框来进行预测框的回归。在绝大多数场景下,用来滑动提取特征的卷积核一般设置为 1*1、3*3、5*5 等这种宽高相等的常规卷积核,但这种常规的卷积核在不同场景下并不一定总是最优的。如图5(a)所示,两张图中分别画出了 3种不同尺度的卷积核,其中采用虚线框标识的卷积核的选择性要优于其他两种卷积核。可以看到,在不同的场景下,卷积核的尺度设计对于特征的提取也会产生影响。比如在图 5(a
23、)的左图中,横向尺度的卷积核能够更好地对此目标物的形状进行建模。相对应地,在图 5(a)的右图中,纵向尺度的卷积核能够更好地对目标物的形状进行建模。因此,如图 1所示,本文算法在多方式互相关分支的基础之上额外添加了两个多尺度互相关分支,横向尺度分支更加关注于横向区域的特征提取,而纵向尺度分支更加关注于纵向区域的特征提取。图 6展示了多尺度互相关分支的结构,可以看到,模板特征和搜索特征经过横向尺度分支分别得到各自的横向尺度特征,两横向特征再进行互相关操作,输出得到横向图 5两种场景下的卷积核以及不同方向上的卷积变换Fig.5Convolution kernels in two scenarios
24、 and convolution transformations in different directions图 6多尺度互相关分支结构Fig.6Multi-scale cross-correlation branch structure1083数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.5,2023尺度分支特征。同样,纵向尺度分支经类似操作,输出得到纵向尺度分支特征FH=DW(fz*Hk,fx*Hk)(9)FV=DW(fz*Vk,fx*Vk)式中:fz R()C Hz Wz、fx R()C Hx Wx分别代表互相
25、关匹配网络输入的模板特征与搜索特征,DW代表深度可分离互相关,*代表卷积操作,Hk横向卷积核经 3 1的卷积扩张为 7*3大小的卷积核,Vk纵向卷积核经 1 3的卷积扩张为 3*7大小的卷积核。最终,由图 1可见,整个互相关结构的输出可以表示为F=1FH+2FK+3FDW(10)式中:FH R()C H W代表横向尺度分支的输出特征,FV R()C H W代表纵向尺度分支的输出特征,FDW R()C H W代表多方式互相关分支的输出特征,1、2、3分别代表 3个特征权重融合系数,随着网络的训练而不断被优化。1.5损失函数对于分类分支而言,分类得分图最终预测目标为前景的概率。对于回归分支而言,回
26、归预测图最终预测 4个中心偏移距离。因此联合任务损失函数L为L=1Lcls+2Lreg(11)式中:Lcls代表二值交叉熵损失,Lreg代表 IOU 损失。在实验过程中,设定1=1,2=1。2 网络训练与测试 2.1网络训练整个网络在多种大规模数据集上进行端到端的离线训练。网络采用的训练数据集包括 ImageNet VID9、YouTubeBoundingBoxes10、GOT10k11、ImageNet DET7、COCO12 5个大型数据集。输入图像包含模板图像和搜索图像,两图像分别来自同一视频序列的不同图像帧。主干网络的模型参数初始化为在ImageNet11 上的预训练参数。在训练阶段,
27、预处理后的模板图像和搜索图像作为网络的输入共享同一网络以及网络参数,模板图像和搜索图像同时经过主干特征提取网络、互相关匹配网络和分类回归网络得到最终输出的分类得分图和回归预测图,之后结合联合任务损失函数对整个网络进行端到端的训练优化。2.2网络测试在测试阶段,首先将测试视频序列的第一帧图像进行预处理操作,并作为模板图像送入特征提取网络得到模板特征。此后,模板特征将在网络中被固定,避免后续重复地特征提取,从而加快网络的跟踪速度。同时,将模板帧已给定的边界框信息进行编码,以便后续与互相关特征进行融合。此后,将测试视频序列的后续每一帧以 4倍于模板图像的区域进行裁剪操作,裁剪区域的中心为上一帧预测的
28、目标中心点,并将其作为搜索图像送入特征提取网络中,与已经固定的模板特征进行一系列操作,得到分类得分图和回归预测图。最后通过一系列后处理操作,在分类得分最大的位置,对应到回归预测图进行 4个偏移量回归,得到此帧中目标的最终预测边界框。在整个测试的过程中,本文所提出算法的跟踪速度能够稳定保持在 58 f/s左右,相较于目前大多数主流的跟踪器,SiamBM 在实时性和精度这两个方面的平衡上实现得更加合理。3 实验结果与分析 3.1实验环境与参数设置整个实验在 Ubantu 18.04 操作系统上进行,编程采用以 Python 实现的 Pytorch 框架,硬件配置为AMD Ryzen 7 4800H
29、 2.90 GHz CPU,16 GB内存,Nvidia RTX 2060显卡。实验时,在单个 GPU 上设置1084胡昭华 等:SiamBM:实现更佳匹配的 Siamese目标跟踪网络每次迭代的 batch大小为 16,并使用带有动量的 SGD 随机梯度下降法进行梯度回传优化。整个训练的总轮数为 50 轮,在训练时,前 5 轮采用 0.001 逐渐到 0.005 的学习率进行预热训练,后续的 45 轮采用0.005 逐渐减小到 0.000 01 的学习率来进行训练,并且在第 10 轮训练后,主干网络的参数将不再被冻结,跟随整个网络进行端到端的优化训练。权重衰减系数和动量参数分别设定为 0.0
30、00 1和 0.9。3.2数据集与评估指标本文所提出的算法在 OTB10013、GOT10k11、VOT201914、LASOT154个跟踪基准数据集上进行跟踪器的性能评估。OTB100 是目标跟踪领域中最受广泛使用的基准数据集之一,由 100 个完全注释过的视频序列组成,平均每个视频序列 590 帧。OTB 数据集中的视频序列包含着各种各样的挑战,比如背景杂乱、遮挡、快速运动、变形等。OTB 通过一次评估以精度和成功图的曲线下面积两个指标来评估跟踪器。精度图显示了预测位置与真值框之间的距离在 20像素阈值之内所占帧的百分比。成功图显示平均重叠率大于给定阈值的帧的百分比。GOT10k是一个极具
31、挑战性的大规模跟踪数据集,包含超过 10 000个视频序列以及 180个测试视频序列,其训练集和测试集严格进行类别的区分,避免了对跟踪器的评估结果会对特定类别的视频序列产生偏置。GOT10k所提供的评价指标包括平均重叠率 AO和成功率 SR。平均重叠率 AO表示所有预测的边界框与真值框之间的平均重叠率。成功率 SR具体又分为 0.5和 0.75两个阈值,SR0.5代表成功跟踪到的帧与真值框重叠率超过0.5的比例,SR0.75代表成功跟踪到的帧与真值框重叠率超过0.75的比例。VOT2019 包含 60 个具有不同挑战性的视频序列。相较于 VOT2018,VOT2019 更换了 20%的视频序列
32、,并且包含了更多具有挑战性的视频序列。VOT2019 提供了 3 个评估指标:平均重叠期望EAO、准确率 A 和鲁棒性 R。准确率 A 代表跟踪成功帧的比例,鲁棒性 R 代表跟踪帧失败的比例,平均重叠期望 EAO通过 A和 R综合计算求得。LASOT 是一个高质量的大规模长期跟踪数据集,包含总共 1 400 个视频序列,共有 70 个类别。LASOT测试集包含 280个视频序列,平均每个视频序列包含 2 500帧左右,其中大量的视频序列都会出现目标物短暂消失的情况。LASOT 提供精确率和成功率两个指标,精确率衡量预测框与真值框之间的像素距离,成功率衡量预测框与真值框之间的 IOU。3.3实验
33、分析与跟踪器对比图 7显示了 SiamBM 与目前主流的一些跟踪器在 OTB基准数据集上的性能对比,对比的算法包括图 7主流跟踪器在 OTB100上的性能评估结果Fig.7Performance evaluation results of mainstream trackers on OTB1001085数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.5,2023Ocean16、ATOM17、SiamRPN3、DaSiamRPN18、GradNet19、CFNet20、SiamFC2。由图可见,本文算法在 OTB 基准上
34、的成功率达到了 0.684,精确率达到了 0.906,相较于 Ocean 和 ATOM 分别提高了0.8%和 1.7%。特别地,图 8展示了在视频序列的形变挑战下的多种跟踪算法的性能比较。可以看到,在目标形变时,SiamBM 展现了强大的适应能力,证实了本文算法解决尺度变化问题的有效性。图 9、10还展示了不同跟踪算法在 OTB100遮挡、视野消失、运动模糊、背景杂乱、尺度变化挑战下的性能对比,SiamBM 在各种挑战下都展现了良好的适应性,取到了良好的跟踪性能。表 1展示了 SiamBM 与主流跟踪器在 GOT10k大规模基准数据集上的性能对比,对比的算法包括图 8形变挑战下,各种跟踪器的性
35、能对比Fig.8Performance comparison of various trackers under the deformation challenge图 9各种跟踪算法在 OTB100不同挑战下的 AUC对比Fig.9AUC comparison of various tracking algorithms under different OTB100 challenges1086胡昭华 等:SiamBM:实现更佳匹配的 Siamese目标跟踪网络DIMP21、Ocean16、ATOM17、SiamRPN+5、SiamCAR22、SiamFC+23、SiamDW24、SiamFC
36、2、MDNet25。具体地,除 DIMP 之外,SiamBM 在平均重叠率 AO、成功率 SR0.5、成功率 SR0.75这3项指标上相较于其他跟踪器均取得了领先。可能的原因是因为 DIMP采用的在线更新机制能够及时地跟踪和适应未出现过的类别,从而做出在线调整更新,使得网络具备更好的在线适应能力。整体上可以看出,SiamBM 在没有使用在线更新机制的情况下,相较于主流的跟踪器依然取得了强有竞争力的图 10各种跟踪算法在 OTB100不同挑战下的精度对比Fig.10Accuracy comparison of various tracking algorithms under different
37、 OTB100 challenges表 1GOT10k上各项跟踪器的性能评估结果Table 1Performance evaluation results of various trackers on GOT10k跟踪器CFNetMDNetSiamFCSiamRPN+ATOMSiamFC+SiamCAROceanDimpOurs平均重叠率0.2930.2990.3480.5170.5560.5950.5790.5920.6110.604成功率(0.5阈值)0.2650.3030.3530.6150.6340.6950.6770.6950.7170.698成功率(0.75阈值)0.0870.09
38、90.0980.3290.4020.4790.4370.4730.4920.480注:加粗字体代表当前性能指标下的最好结果。1087数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.5,2023结果,展现了 SiamBM 良好的泛化能力。表 2 展示了在 VOT2019 数据集基准上,SiamBM 与多种跟踪器在准确率 A、鲁棒性 R、平均重叠期望 EAO 三个指标上的性能对比结果。对比 的 算 法 包 括 CSRDCF14、MemDTC7、SiamCRF_RT12、SPM、ROAM+26、SiamRPN+5、SiamMa
39、sk27、ATOM17。其中,准确率 A 和平均重叠期望 EAO 越高则表示性能越好,鲁棒性 R 越低则表示性能越好。在表中可以看到,即使在未采用在线更新机制的情况下,相较于在线跟踪器 ATOM,SiamBM 在鲁棒性指标上依然取得了有竞争力的结果,充分体现了边界框编码模块和多方式互相关模块的有效性,能够在跟踪过程中抑制干扰物,从而提升模型的辨别性和鲁棒性。在准确率指标 A 上,SiamBM 达到了0.604,在对比中取得了最佳的结果。在平均重叠期望 EAO 上,SiamBM 在性能对比中取得了第二名。得益于互相关匹配的增强,SiamBM 在保持良好鲁棒性的同时,在精度上也能够取到良好的性能。
40、为了评估跟踪器在长期视频跟踪过程中的鲁棒性,本文算法在大规模长期跟踪数据集 LASOT 上进行了性能评估。图 11展示了 SiamBM 在 LASOT 上与主流跟踪器的性能对比,对比的算法包括 SiamBAN6、SiamCAR22、Ocean16、SiamRPN+5、ATOM17、MDNet25、VITAL28、SiamFC2。由图可见,SiamBM 在成功率和精确率两个指标上都优于目前主流的跟踪器,在成功率上分别优于 Ocean、SiamBAN 的 0.8%和 1%。可以看到,SiamBM 在不采用在线更新的机制下,依然能够在 LASOT 长期跟踪的场景下取得良好的性能,从而验证了跟踪器具备
41、良好的鲁棒性和适应性。3.4消融实验为了验证边界框编码、多尺度互相关、多方式互相关这 3个组件结构对于跟踪性能提升的有效性,本文算法在 OTB100 数据集基准上以成功率为指标进行了相关的消融实验分析,如表 3 所示。由表 3可见,在成功率指标上,3个组件结构分别提升了 0.4%、2.2%、0.6%,表明了本文算法的有效性。为了更加具体地验证多方式互相关模块的有效性,如表 4所示,本文对两种互相关方式的选择进行了额外的表 2VOT2019上各跟踪器的性能对比Table 2Performance comparison of each tracker on VOT2019跟踪器CSRDCFMemD
42、TCSiamCRF_RTSPMROAM+SiamRPN+SiamMaskATOMOurs准确率0.4960.4850.5490.5770.5610.5990.5940.6030.604鲁棒性0.6320.5870.3460.5070.4380.4820.4610.4110.416平均重叠率0.2010.2280.2620.2750.2810.2850.2870.2920.292注:加粗字体代表当前性能指标下的最好结果。图 11LASOT基准下各项跟踪器的成功率、精度和标准化精度Fig.11Success rate,accuracy and standardization accuracy of
43、 various trackers under LASOT benchmark1088胡昭华 等:SiamBM:实现更佳匹配的 Siamese目标跟踪网络实验。可以看到,通过合理利用两种互相关方式的特点并进行结合,多方式互相关模块进一步提升了网络的性能。在表 5 中,本文算法还分析对比了不同尺度的卷积核对于跟踪性能的影响。在图 5(b)中可以看到,通过将卷积核的宽高进行不同程度的扩张,能够使得卷积核的形状在横向和纵向上进行拉伸,从而形成横向卷积核和纵向卷积核。同时,考虑到模板特征的实际大小,本文进行了 3种不同尺度的扩张实验。由表 5可见,实验采用了 3 组不同尺度的卷积核来进行对比分析,以
44、3*3 的卷积核为准进行了 3 2、2 1、3 1 的横向扩张与 2 3、1 2、1 3的纵向扩张,分别得到了 3组不同尺度的卷积核。在实验的过程中发现,虽然不同尺度卷积核的组合可能会对跟踪器的性能提升有着微小的差异,但是其都能够很好地提升跟踪器的尺度感知能力,从而带来性能上的提升。表 4多方式互相关的消融实验分析Table 4Analysis of multimodal crosscorrelation ablation experiments深度可分离互相关(DW)像素匹配互相关(PM)OTB100成功率0.6500.6480.656注:“”代表采用当前模块。表 5不同尺度的卷积核对性能的
45、影响Table 5Effects of convolution kernels of different scales on performance横向扩张比例/纵向扩张比例3:2/2:32:1/1:23:1/1:3OTB100成功率0.6830.6810.684注:加粗字体代表当前性能指标下的最好结果。3.5定性分析本文算法在 OTB100数据集上与 3种主流的跟踪器进行了视频序列上的可视化对比与分析。图 12展示了在 4个具有不同挑战的视频序列下,4种跟踪算法的跟踪可视化结果。在 Diving视频序列中,目标在前后视频帧中的姿态发生了较大的变化,ATOM17、DaSiamRPN18、Sia
46、mRPN3在目标形变后的预测都产生了较大的偏移,不能很好地将目标框回归到目标物上。而由于多尺度互相关的引入,SiamBM 的回归预测更加精准,体现了跟踪器良好的尺度适应能力;在 Board视频序列中,在目标物的背景较为杂乱的场景下,其他 3种跟踪算法在跟踪过程中都产生了错误的预测,体现了 SiamBM 良好的判别性;在 Girl2视频序列中,在目标物被遮挡之后,SiamBM 依然能够正确地保持对目标物的跟踪,体现了跟踪器良好的鲁棒性。在 Jump 视频序列中,在目标物快速运动的情况下,SiamBM 对比其他 3 种跟踪算法产生了更好的预测结果。4 结束语 本文在基于无锚框跟踪的孪生网络的基础上
47、,提出了一种匹配增强的目标跟踪算法 SiamBM。通过在孪生网络中引入多方式互相关分支,采用两种互相关级联的方式,使其能够对全局上下文特征进行再度细化,可以有效地对目标区域进行监督,增强跟踪器的判别性。同时引入两个多尺度分支,分别在横表 3本文算法在 OTB100上的消融实验分析Table 3Analysis of the ablation experiments of the algorithm in this paper on OTB100边界框编码多尺度互相关多方式互相关OTB100成功率0.6500.6540.6720.6560.6760.6800.684跟踪速度/(fs-1)64.7
48、64.059.862.359.058.758.2注:“”代表采用当前模块。1089数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.5,2023向、纵向两个方向上进行特征提取,从而能够适应各种目标物的各种形变,提高跟踪器的尺度感知能力。通过将模板帧的边界框信息编码到网络中,能够更好地利用到有效的先验信息,提高跟踪器的性能。通过一系列实验分析可以看到,SiamBM 跟踪器在多种流行数据集基准上取到了良好的性能。在未来的工作中,将会试着解决跟踪器出现跟踪丢失的问题,能够在跟踪框漂移后重新关注到目标物本身,使得跟踪器在各种未知的
49、干扰下保持长期稳定的跟踪,这也是整个目标跟踪领域的一个重点和难点。参考文献:1TAO R,GAVVES E,SMEULDERS A W M.Siamese instance search for trackingC/Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition.S.l.:IEEE,2016:1420-1429.2BERTINETTO L,VALMADRE J,HENRIQUES J F,et al.Fully-convolutional Siamese networks for obj
50、ect trackingC/Proceedings of European Conference on Computer Vision.Cham:Springer,2016:850-865.3LI B,YAN J,WU W,et al.High performance visual tracking with Siamese region proposal networkC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.S.l.:IEEE,2018:8971-8980.4REN S,H