时空模板更新的Transformer目标跟踪算法.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(09)-2161-13doi:10.3778/j.issn.1673-9418.2208034时空模板更新的Transformer目标跟踪算法汪强1,2，卢先领1,2+1.江南大学轻工过程先进控制教育部重点实验室，江苏无锡 2141222.江南大学物联网工程学院，江苏无锡 214122+通信作者 E-mail:摘要：目前主流 Transformer 目标跟踪算法只使用 Transformer 网络进行特征增强和特征融合，忽略了

2、Transformer网络的特征提取能力，并且跟踪过程中对尺度变化、形变等干扰因素缺少有效的模板更新策略。针对上述问题，提出基于时空模板更新和边界框提升的 Transformer 跟踪算法。首先采用改进后的 SwinTransformer作为骨干网络，通过移位窗口进行自注意力计算和全局信息建模，增强骨干网络的特征提取能力；其次使用Transformer编码器-解码器结构融合模板区域和搜索区域信息，利用注意力机制建立特征关联以获取全局语义信息，同时跟踪过程中每隔固定帧根据置信度分数大小动态更新模板，用于调整模板外观状态；最后采用边界框提升模块精细化边界框的回归范围，提升算法的精度。在多个具有挑战

3、性的数据集上与主流先进算法进行性能对比实验，在OTB2015数据集上成功率和精确率分别达到70.2%和91.0%，在GOT-10k数据集上平均重合度相较于基准算法 TransT提升了 0.02，在 LaSOT数据集上成功率相较于基准算法 TransT提升了0.024，并且能以42 FPS的跟踪速度进行实时跟踪。关键词：目标跟踪；Transformer网络；时空模板；边界框提升文献标志码：A中图分类号：TP391Transformer Object Tracking Algorithm Based on Spatio-Temporal Template UpdateWANG Qiang1,2,L

4、U Xianling1,2+1.Key Laboratory for Advanced Process Control for Light Industry of the Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China2.School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122,ChinaAbstract:Currently,the mainstream Transformer tracking algo

5、rithm only uses Transformer for feature enhancement andfeature fusion,ignoring the Transformers feature extraction ability,and lacks an effective template update strategyfor disturbing factors such as scale change and deformation during the tracking process.Aiming at above problems,aTransformer trac

6、king algorithm based on spatio-temporal template updating and bounding box refining is proposed.Firstly,the improved Swin Transformer is used as the backbone network,and self-attention calculation and globalinformation modeling are performed by shifting windows to enhance the feature extraction abil

7、ity of the backbonenetwork.Secondly,the Transformer encoder-decoder structure is used to fuse the template area and search area infor-mation,and the attention mechanism is used to establish feature correlation.At the same time,the template isdynamically updated according to the size of confidence sc

8、ore every fixed frame to adjust the appearance state ofthe template during the tracking process.Finally,the bounding box refinement module is used to refine the regression基金项目：国家自然科学基金（61773181）。This work was supported by the National Natural Science Foundation of China(61773181).收稿日期：2022-08-11修回日期

9、：2022-09-27Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)目标跟踪是计算机视觉领域的一个重要方向，在军事、无人驾驶、医疗等领域有着广泛的应用前景。目标跟踪算法通过给定视频序列第一帧目标位置信息，对后续的每一帧目标的位置进行自动估计。然而，在复杂的现实场景下，跟踪过程会受到背景干扰、遮挡、形变等环境因素影响跟踪效果1-7，因此设计一个在现实场景下高效运行的跟踪算法是一项艰巨的任务。近些年来基于孪生网络的目标跟踪算法具有速度快、精度高的特点成为跟踪算法的主流方向，其利用端到端的孪生网络结构

10、将跟踪问题转化为相似性学习问题。Bertinetto等人8基于上述思想提出全卷积孪生网络跟踪算法（fully-convolutional siamese net-works，SiamFC），使用 AlexNet9作为骨干网络，其在速度与精度之间取得了较好的均衡。Li等人10提出SiamRPN（siamese region proposal network）算法，将跟踪问题看作一个两阶段问题，使用边界框回归代替多尺度搜索进而提升了精度和效率。SiamRPN+11使用 ResNet12代替 AlexNet加深了网络，得到更丰富的特征语义信息，在复杂现实场景下算法也能保持良好的鲁棒性。随着 Tran

11、sformer13在计算机视觉领域得到了广泛应用，跟踪领域尝试挖掘 Transformer在孪生网络结构下跟踪算法的潜力。Chen等人14提出TransT（trans-former tracking）算法，将 Transformer编码器-解码器结构嵌入到孪生网络结构中，利用注意力机制代替传统的互相关操作，充分融合了模板特征和搜索特征之间信息。Wang等人15提出 TrDiMP（transformerdiscriminative prediction）算法，其在 DiMP（discrimi-native prediction）16算法框架基础上利用Transformer强化了模板特征和搜索特征

12、，提高了孪生网络结构匹配精度。Yan等人17提出STARK（spatio-temporal trans-former tracking）算法，使用Transformer编码器构造目标与搜索区域的全局时空特征依赖性，通过 Trans-former解码器用于预测目标对象空间位置，在公开数据集上大幅度提升了算法的精度。虽然以上基于Trans-former的目标跟踪算法取得了跟踪效果的提升，但其具有一定局限性：（1）仅使用Transformer对深度卷积网络（AlexNet 或 ResNet）提取的模板特征和搜索特征进行特征增强或特征融合，忽略了 Transformer本身作为骨干网络的特征提取能力；

13、（2）仅使用第一帧作为模板帧，导致其在被跟踪目标发生形变、尺度变化的情况下跟踪性能变差，容易发生跟踪漂移。为了解决上述问题，本文提出了基于时空模板更新的Transformer目标跟踪算法Trans-SwinAR。本文主要贡献为：（1）使用改进后的Swin Transformer18代替卷积网络作为骨干网络，增强骨干网络的特征提取能力帮助后续算法更精准地定位跟踪目标；（2）针对跟踪过程中出现目标遮挡或者尺度变化等干扰因素提出动态模板更新策略，根据置信度得分高低更新模板，用少量计算成本提升算法鲁棒性；（3）对基准跟踪器得到的结果进行边界框精细化提升，进一步提升边界框预测精度；（4）实验结果表明本文

14、算法在公共数据集上取得了不错的跟踪结果，同时保证了很好的实时性。1基于时空模板更新和边界框提升的Trans-former跟踪算法本文算法整体框架如图1所示，首先使用共享权重参数的 Swin Transformer 作为骨干网络对目标初始模板、动态模板和当前搜索帧（搜索区域）分别进行特征提取。初始模板特征、动态模板特征和搜索特征经过特征图展平操作变为特征向量，初始模板特征向量和动态模板特征向量沿空间维度进行拼接作为模板分支向量。其次模板向量和搜索区域向量通过 Transformer特征融合模块进行特征融合，解码器输出的向量通过分类回归分支进行边界框预测，同时跟踪器运行帧数达到更新间隔后将通过置信

15、度分支更新动态模板。最后跟踪器得到的跟踪结果乘以两倍大小作为新的搜索区域，再通过边界框提升range of the bounding box and improve the accuracy of the algorithm.Performance comparison experiments withmainstream advanced algorithms have been performed on multiple challenging datasets.The success rate andprecision on the OTB2015 dataset respectivel

16、y reach 70.2%and 91.0%.The average overlap on the GOT-10kdataset is improved 0.02 compared with benchmark algorithm TransT,the success rate on the LaSOT dataset isincreased by 0.024 compared with the benchmark algorithm TransT,and it can also perform real-time tracking at atracking speed of 42 FPS.K

17、ey words:object tracking;Transformer network;spatio-temporal template;bounding box refinement2162汪强等：时空模板更新的Transformer目标跟踪算法模块精细化边界框的回归范围。1.1Transformer孪生骨干网络深度卷积神经网络显著提升了跟踪器的性能，随着跟踪器的进步，骨干网络也发展了两次：AlexNet和 ResNet。Swin Transformer 和 AlexNet、ResNet 相比，通过在不重叠的窗口进行自注意力计算和允许跨窗口连接提高计算效率，并且具备更强的特征表示能力和能

18、够获取丰富的语义信息，可以帮助后续融合网络更好地定位跟踪目标，在2.2节消融实验中证明了Swin Transformer作为骨干网络带来精度上的提升。Swin Transformer 特征提取算法流程如图 2（1）所示，输入图像为H W大小的RGB三通道图像，先采用图块分割（patch partition）模块进行分块操作，将图像分为44大小的图块（patch），之后沿着通道方向进行展平（flatten），得到图块大小为 48，经过图块分割模块后图像由H,W,3变为H/4,W/4,48。而后通过线性嵌入（linear embedding）模块对图像通道数进行线性变换，得到H/4,W/4,C。S

19、win Transformer每个阶段（stage）由多个连续的Swin Transformer模块（block）组成，其中每两个连续模块的结构如图2（2）所示。图像进入到Swin Trans-former模块（block）后，经层归一化（layer norm，LN），进入窗口多头自注意力计算模块（window based multi-head self-attention，W-MSA），将图像划分为互不重叠的区域，并在区域内计算自注意力；多层感知机（multi-layer perceptron，MLP）作为前馈神经网络，用于完成非线性变换提高算法拟合能力。W-MSA 只会在每个窗口区域内进行

20、自注意力计算，而窗口之间无法进行信息传递，因此引入了偏移窗口多头自注意力（shifted windows multi-head self-attention，SW-MSA）图1Trans-SwinAR算法跟踪框架Fig.1Trans-SwinAR algorithm tracking network图2Swin Transformer孪生骨干网络（Swin-T）Fig.2Swin Transformer siamese backbone network(Swin-T)2163Journal of Frontiers of Computer Science and Technology计算机科学

21、与探索2023,17(9)模块，其在第L层划分为互不重叠窗口后，在第L+1层内偏移半个窗口距离重新划分窗口，使得不同层内有部分窗口信息可以交互，Swin Transformer模块计算过程如下：XL=W-MSA(LN(XL-1)+XL-1（1）XL=MLP(LN(XL)+XL（2）XL+1=SW-MSA(LN(XL)+XL（3）XL+1=MLP(LN(XL+1)+XL+1（4）阶段 1（Stage 1）从左至右为线性嵌入模块和Swin Transformer模块相串联。为了得到多尺度的特征图信息，需要构建一个层级式结构，Swin Trans-former网络中设计了图块拼接（patch mer

22、ging）模块，实现了等同于卷积神经网络中的池化操作，经过图块拼接后图像的宽高尺寸减半，通道数翻倍，而后再与 Swin Transformer模块以串联形式相连，即图中的第二到第四阶段（Stage 2Stage 4）。为了应对不同任务需求，Swin Transformer实现了网络结构的系列化，其网络由简单到复杂依次是Swin-T（Tiny）、Swin-S（Small）、Swin-B（Base）、Swin-L（Large）。为了平衡跟踪精度和速度，本文选择Swin-T 作为骨干网络进行特征提取，并根据前人研究工作19-21，对 Swin-T 进行网络结构的改进。原始Swin-T网络针对图像分类

23、任务选择总步长为 32，本文对网络步长进行了调整。目标跟踪任务关注被跟踪目标的空间位置信息，需要捕捉丰富的空间信息帮助定位。骨干网络的步长会影响输出特征图的宽高和感受野大小，一方面网络步长过大导致特征图尺寸变小且空间分辨率变低，深层特征图中的有效特征信息难以保留，另一方面网络感受野也会变大导致特征提取区域变大，从而反映到对目标位置信息不够敏感。而网络步长过小导致感受野随之变小，会出现目标无法覆盖的情况还会带来计算成本上升导致算法实时性下降。为了适应跟踪任务，本文移除 Swin-T最后一个阶段（Stage），将第三个阶段（Stage 3）的输出作为骨干网络最后的输出，得到骨干网络步长s为16，通

24、道数C为384。本文 Transformer 孪生骨干网络中包括两个分支：模板分支将视频序列第一帧作为初始模板区域Z0 R3 Hz0 Wz0；动态模板区域为Z1 R3 Hz1 Wz1；搜索分支将随后的每一帧作为搜索区域X R3 Hx Wx。Hz0、Wz0为初始模板区域的高和宽，Hz1、Wz1为动态模板区域的高和宽，初始模板区域与动态模板区域高和宽大小相同。Hx、Wx为搜索区域的高和宽。本文算法使用改进后的Swin-T作为骨干网络进行特征提取，经过骨干网络特征提取后得到初始模板特征图大小为fz0 RC Hz0sWz0s，动态模板特征图大小为fz1RC Hz1sWz1s，搜索区域特征图大小为fx

25、RC HxsWxs，s为16，C为384。1.2Transformer特征融合模块Transformer特征融合模块自左向右由两部分组成：特征融合循环层、解码器。如图 1中 Transformer特征融合模块所示，首先特征融合循环层中编码器先通过多头自注意力模块关注目标的语义信息，然后解码器同时接收本分支和另一分支的特征图，再通过多头互注意力模块融合来自两个分支的语义信息，充分捕获全局语义信息并关注物体的关键语义信息，特征融合循环层循环N次，循环N次后将模板分支和搜索分支的输出作为解码器的输入，用于融合模板分支和搜索分支的信息。1.2.1小节和1.2.2小节详细阐述了多头注意力模块、编码器和解

26、码器结构。多数传统孪生网络跟踪器通过互相关计算模板区域和搜索区域的相似性，而由于互相关只是在图像局部区域进行相关信息匹配，这导致丢失图像语义信息和缺少全局信息。Transformer网络通过基于注意力机制的方式获取丰富的全局语义信息，先使用编码器关注目标的关键位置信息，编码器利用自注意力机制确定模板区域和搜索区域物体大致位置，减弱背景的影响和干扰。解码器将模板区域和搜索区域物体信息进行关联，让搜索区域和目标的信息能够充分融合。Transformer特征融合模块对模板分支与搜索分支的特征向量进行特征融合。首先对fz0、fz1和fx分别作11卷积降低通道维度减少参数量，11卷积后特征图维度为fz0

27、RdHz0Wz0,fz1RdHz1Wz1,fxRdHxWx，通道数从C降维至d，C和d分别为384、256。然后将特征图展平为特征向量，得到初始模板向量fz0Rd Hz0 Wz0、动态模板向量fz1 Rd Hz1 Wz1和搜索向量fxRd Hx Wx。将初始模板向量和动态模板向量沿着空间维度方向进行拼接，得到最终模板向量fzRd(Hz0Wz0+Hz1Wz1)。最后将模板向量fz和搜索向量fx进行 Transformer特征融合得到输出向量R Rd Hx Wx。输出向量R Rd Hx Wx将作为分类回归分支和置信度2164汪强等：时空模板更新的Transforme

28、r目标跟踪算法分支的输入。1.2.1多头注意力模块注意力机制是编码器、解码器的核心。单头注意力模块为缩放点积注意力，定义如下：Attention(Q,K,V)=softmaxQKTdkV（5）其中，Q、K、V分别代表查询向量、键向量、值向量，dk为键向量维度。为了让模型关注到不同位置的信息，将单头注意力模块延伸到多头注意力模块，多头注意力模块定义如下：Hi=Attention(QWQi,KWKi,VWVi)（6）MultiHead(Q,K,V)=Concat(H1,H2,Hm)WO（7）参数矩阵WQi Rdm dk,WKi Rdm dk,WVi Rdm dv,WORmdvdm，m=8，dm=d

29、=256,dk=dv=dm/m=256/8=32。多头注意力模块将特征图上不同位置的信息映射到不同的子空间上计算特征相关性，提高了特征的表达能力。1.2.2编码器和解码器结构编码器结构如图3所示，主要由多头自注意力模块构成。编码器计算过程：将输入特征向量X代入多头注意力模块即式（7）中进行计算，再将经过多头注意力模块的输出与X相加并进行归一化得到XEncoder，如式（8）所示：XEncoder=X+MultiHead(X+Px,X+Px,X)（8）由式（6）所示，注意力机制不具备分辨输入特征序列位置信息的能力，因此对输入X Rd N加上空间位置编码。Px Rd N为空间位置编码，XEncod

30、er Rd N为编码器的输出。解码器结构如图4所示，主要由多头互注意力模块和前馈神经网络构成。前馈神经网络由两个线性变化单元和ReLU22激活函数组成，计算过程如下：FFN(x)=max(0,xW1+b1)W2+b2（9）式中，W1和W2为权重矩阵，b1和b2为偏置向量。解码器计算过程：Xq Rd Nq为本分支的输入特征向量，Xkv Rd Nkv为另一分支的输入特征向量，和编码器类似，解码器也对输入加上空间位置编码，Pq Rd Nq对应输入Xq的空间位置编码，Pkv Rd Nkv对应输入Xkv的空间位置编码。将Xq和Xkv代入多头注意力模块即式（7）中进行计算得到XDecoder，XDecod

31、er再经过前馈神经网络得到的特征向量与XDecoder相加得到解码器的输出XDecoder，如式（10）、式（11）所示：XDecoder=Xq+MultiHead(Xq+Pq,Xkv+Pkv,Xkv)（10）XDecoder=XDecoder+FFN(XDecoder)（11）1.3时空动态模板更新策略本文采用直接对特征向量直接分类和回归的方式，并且引入置信度分支更新模板从而提升算法鲁棒性能。分类分支和回归分支由三层感知机和ReLU函数组成，分类和回归分支直接对Transformer特征融合模块输出的特征向量R Rd Hx Wx中每个向量进行预测得到维度为HxWx2大小的前景背景分类向量和H

32、xWx4大小的边界框回归向量。孪生网络将目标第一帧作为初始模板帧，随后的每一帧作为当前搜索帧，而随着时间变化目标外图3编码器结构Fig.3Encoder structure图4解码器结构Fig.4Decoder structure2165Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)观同时也会发生变化，如受到目标形变、目标丢失、尺度变化等干扰因素的影响。仅仅依靠目标第一帧作为模板帧会影响跟踪器的鲁棒性，因此本文提出了一种基于时空动态更新模板的方式用于更新模板提升跟踪器的鲁棒性能。如图 1算法跟踪

33、框架中所示模板分支在初始化目标第一帧基础上增加了动态模板，动态模板可以捕捉随着时间推移目标外观的形状变化，从而提供丰富的时间空间特征信息。具体地说，Transformer孪生骨干网络对模板第一帧和动态模板帧进行特征提取，得到初始模板特征图和动态模板特征图，随后将特征图降维成二维向量，沿着空间维度将两个模板向量进行拼接，再进入1.2节中Transformer特征融合模块中进行特征融合。跟踪过程中遇到目标遮挡、目标丢失和尺度变化等情况下裁剪得到的模板是不可靠的，因此遇到极端干扰因素下模板不需要更新，本文考虑只有当搜索区域包含目标时才可以进行动态模板更新，通过在分类、回归分支基础上并行一个置信度分支

34、作为模型的更新策略。置信度分支包括一个三层感知机和Sigmoid函数，Transformer特征融合模块得到的向量经过置信度分支得到置信度分数。如图5所示，如果置信度分数大于设定阈值则将当前搜索区域目标进行裁剪作为动态模板帧，反之即不需要更新模板。在推理阶段，第一帧初始模板和搜索区域被裁剪送入跟踪网络得到边界框结果和置信度分数。Y=True,if score and frame=False,otherwise（12）如式（12）所示，Y为更新状态，当运行帧数（frame）达到更新间隔并且置信度分数（score）大于时，动态模板才会被网络进行更新。1.4边界框提升模块本文采用 Alpha-Ref

35、ine 模块23作为边界框提升模块，Alpha-Refine模块可以提升跟踪器边界框回归的准确度并且提升跟踪器的性能，其网络结构如图6所示。Alpha-Refine（AR）模块是由大连理工大学在2021年提出的边界框提升模块，其具有灵活迁移到图5动态模板更新策略Fig.5Dynamic template update strategy图6边界框提升模块Fig.6Bounding box refinement module2166汪强等：时空模板更新的Transformer目标跟踪算法任意跟踪器的特点，本文将 AR 模块嵌入到基于Transformer作为骨干网络和特征融合的跟踪器中。如图6虚

36、线框内所示，边界框提升模块网络结构依然遵循孪生网络结构，两个分支分别为模板分支和搜索分支。特征提取部分使用轻量级的ResNet3412作为特征提取网络，特征提取网络参数共享，特征提取后得到的模板特征图和搜索特征图经过特征融合，特征融合方式采用像素互相关方式，融合后得到的特征响应图进行边界框回归预测得到最终跟踪结果。边界框提升模块中模板分支的模板选取视频第一帧并裁剪为1281283大小的图像，搜索分支将基准跟踪器得到的跟踪结果乘以两倍大小作为新的搜索区域并且调整为 2562563大小的图像。大多数跟踪器裁剪的搜索区域为大于4倍目标大小的区域，而边界框提升模块只采用 2倍目标大小作为搜索区域，其中

37、更小的搜索区域可以抑制杂乱的背景使模型能够专注于丰富详细的空间信息，有利于对目标精确定位，并且较小的搜索区域可以减少计算成本，实验结果也充分证明了更小的搜索区域会提升跟踪器的性能。基准跟踪器为本文提出的基于改进后的Swin-T网络作为骨干网络和采用动态模板更新策略的跟踪器，将基准跟踪器在推理阶段得到的跟踪结果乘以两倍大小作为边界框提升模块的输入，最终得到比基准跟踪器更为紧凑精准的跟踪结果。1.5损失函数本文损失函数包括分类损失函数、回归损失函数。首先分类分支和回归分支的输入为HxWxd大小的特征向量，输出HxWx2大小的分类结果和HxWx4的边界框回归坐标结果。本文将模型输出预测结果对应原图中

38、的像素点处于真实边界框范围内定义为正样本，其他为负样本。正样本和负样本都会被纳入分类损失，而只有正样本会被纳入回归损失。分类损失函数Lcls采用交叉熵损失函数，交叉熵损失函数定义如下：Lcls=-iyilnpi+(1-yi)ln(1-pi)（13）yi=1为前景区域，yi=0为背景区域，pi为模型预测样本为前景区域的概率。回归损失函数使用L1损失和GIoU24损失进行线性损失叠加，L1损失计算公式和GIoU计算公式分别如式（14）和式（15）所示，回归损失函数如式（16）所示：L1(b,b)=|b-b|（14）LGIoU(b,b)=1-GIoU(b,b)（15）Lreg=iGLGIoU(bi,

39、b)+1L1(bi,b)（16）bi代表第i个样本的预测边界框，b代表第i个样本的真实边界框。G和1为损失权重系数，在本文中分别设置为5和2。2实验结果与分析为了验证本文算法的有效性和泛化性，先进行消融实验和横向对比实验，然后分别在 OTB201525、GOT-10k26、LaSOT27数据集上与目前主流先进跟踪算法做了相关定性分析实验和定量分析实验，实验结果表明本文算法表现出良好的跟踪性能。2.1实验平台与实验参数配置本文实验在 Ubuntu环境下 Pytorch1.5.1上实现，并使用 GPU 加速，平均帧率达到了 42 FPS。硬件平台为装有 IntelXeonSilver 4110CP

40、U、64 GB RAM、Nvida Tesla P100 GPU的服务器。实验选择GOT-10k和 LaSOT作为训练数据集，对数据集视频序列进行采样生成训练样本对，训练样本对包括模板区域和搜索区域，然后对训练样本对进行裁剪，裁剪后的模板区域大小为128128，搜索区域大小为256256。训练轮回总数为1 000，批处理大小设置为16。模型优化器为 AdamW28，骨干网络参数学习率设置为 10-5，其他参数学习率设置为 10-4，权重衰减为 10-4，500个轮回后学习率除以10。本文使用改进后的Swin-T作为Transformer孪生骨干网络，步长s为 16，输出通道数C为 384。时空

41、动态模板更新策略中更新间隔设定为100帧，置信度分数阈值设定为0.5。2.2消融实验本文提出三点改进策略：（1）使用改进后的SwinTransformer作为骨干网络提取特征；（2）时空动态模板更新策略；（3）边界框提升模块。为了验证这三点改进策略，本文在OTB2015数据集上进行消融实验，以 TransT作为基础算法（Baseline），展示了算法在不同策略下的成功率（Success）和跟踪速度（FPS）。具体消融实验结果如表1所示，其中“”表示使用当前策略，没有“”表示不使用当前策略。表中 Swin-T(32)和Swin-T(16)分别代表步长为32和16的Swin-T骨干网络。从表 1

42、可以看出，将 TransT 算法（Baseline）骨干2167Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(9)网络从 ResNet替换为改进后的 Swin-T(16)后跟踪成功率提升了0.013，这得益于Swin Transformer相比卷积神经网络能够为目标跟踪任务提供更加鲁棒的特征表示。而改进前骨干网络 Swin-T(32)的成功率相比较ResNet反而下降了0.038，因为步长过大网络感受野也会变大导致特征提取区域变大，对目标位置信息不够敏感，从而准确率下降。其次本文设计的模板更新策略（

43、update）获得了0.006的跟踪性能收益提升，并且FPS相比较基准算法仅仅下降了2 FPS，其以少量的计算成本获得了不错的性能收益，验证了时空模板更新的有效性。最后使用边界框提升（AR）模块得到了更精确的边界框，带来了0.011的跟踪性能收益提升。三个策略搭配使用更带来了显著的性能增益，相比较基准跟踪器提升了0.021，得到了最佳跟踪结果并且达到了42 FPS的跟踪实时速度。2.3横向对比实验为了探究本文使用模块与其他同类模块之间的优劣性，本文在 OTB2015数据集上进行横向对比实验，横向对比实验具体包括骨干网络对比实验和边界框提升对比实验。2.3.1骨干网络对比实验骨干网络对比实验将S

44、win-T(16)与ResNet1812、ResNet5012、ResNet10112进行比较，实验结果如表 2所示。实验内容为以 TransT 作为基准算法，将骨干网络分别替换为 Swin-T(16)、ResNet18、ResNet50、ResNet101，在 OTB2015 数据集上评测跟踪性能，评价指标包括成功率（Success）、模型参数（Param）、速度（FPS）。实验结果显示以 ResNet18作为骨干网络以较小的参数量和较快的实时性取得了不错的跟踪结果，其跟踪成功率和FPS分别为0.669和93。相比基准算法使用ResNet50作为骨干网络取得速度和精度的平衡，本文使用 Swi

45、n-T（16）作为骨干网络带来少量参数前提下相比基准算法将成功率提升了0.013，对跟踪速度的影响也比较小。而 ResNet101作为骨干网络不仅参数量大幅度上升还导致成功率的下降，这是因为模型太过复杂导致算法过拟合。2.3.2边界框提升模块对比实验边界框提升模块对比实验将 AR 模块与同类模块 IoU-Net29和 SiamMask30进行比较，实验结果如表3 所示。实验内容为以 TransT 作为基准算法，对TransT分别使用同类模块IoU-Net、SiamMask和本文AR模块，在 OTB2015数据集上进行评测跟踪性能，评价指标为成功率（Success）。实验结果显示 IoU-Net

46、、SiamMask和本文 AR模块将基准算法跟踪性能分别提升了0.003、0.009和0.011。其中IoU-Net对成功率的提升非常有限但是具备迁移到任意跟踪器的优势。SiamMask能够较大提升算法跟踪性能，但是其本身是作为一个独立的跟踪器而不是作为具备迁移性的模块。而本文使用的 AR 模块不仅可以较大提升算法跟踪性能，而且具备移植到任意跟踪器的特点。2.4实验分析为了验证本文算法的跟踪性能，对本文算法和表现优异跟踪算法（SiamRPN+11、TransT14、TrDiMP15、DiMP16、STARK17、ATOM31、SiamFC+32、Ocean33、MixFormer21）进行实验

47、定性分析和实验定量分析。2.4.1实验定性分析为了对比本文算法与先进算法在面对复杂环境时跟踪性能的差异，针对 OTB2015数据集中目前主表1消融实验对比Table 1Comparison of ablation experimentModelBaselineModel 1Model 2Model 3Model 4Model 5Model 6Model 7Model 8ResNetSwin-T(32)Swin-T(16)UpdateARSuccess0.6810.6430.6940.6870.6920.6960.7010.6950.702FPS706661685760465642表2骨干网络对

48、比实验Table 2Comparison experiment of backbone networkModelTransTBackboneResNet18ResNet50ResNet101Swin-T(16)Success0.6690.6810.6720.694Param/1071.11.73.61.9FPS93705261表3边界框提升模块对比实验Table 3Comparison experiment of boundingbox refinement moduleModelTransTRefinement+IoU-Net+SiamMask+ARSuccess0.6490.6520.65

49、80.6602168汪强等：时空模板更新的Transformer目标跟踪算法流挑战属性（背景干扰、尺度变化、目标遮挡）与主流先进算法进行了定性对比实验，跟踪效果可视化如图7所示。图中红色标注框为真实标注框，绿色标注框为本文算法预测框，蓝色、橙色、紫色标注框分别为STARK、DiMP、TransT算法预测框，预测框与真实标注框越贴近，重合度越高，代表跟踪效果越好。从图 7中可以看到，在复杂干扰场景下，本文算法能够获得准确的目标状态估计，并且得到高质量的跟踪结果，而其他对比算法出现了不同程度丢失目标和边界框估计不够精确的情况。如图 7 第一行所示的 Basketball序列，其难点在于跟踪过程中

50、存在背景相似物干扰。第 298帧当背景中出现干扰物时，TransT 算法跟错目标，当第 473帧时遇到相似目标物体几乎接近重叠时对比算法均跟踪错误，并导致后续的严重漂移，只有本文算法能够跟踪目标。这是因为对比算法中提取的特征不足以区分目标物体和背景干扰物导致跟踪错误。而本文算法使用视觉Transformer网络作为骨干网络和后续的 Transformer 特征融合模块增强了目标物体特征，从而和背景特征有效区分达到准确预测目标物体的状态，减少背景因素的干扰。如图 7第二行所示的 Bird1序列，其难点在于跟踪过程中物体发生形变和外观变化。当目标发生较大外观变化时，对比算法预测框均无法针对目标姿态

展开阅读全文