结合卷积Transformer的目标跟踪算法_王春雷.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

结合卷积Transformer的目标跟踪算法_王春雷.pdf

1、第 49卷第 4期2023年 4月Computer Engineering 计算机工程结合卷积 Transformer的目标跟踪算法王春雷1，2，3，张建林1，2，李美惠1，2，徐智勇1，2，魏宇星1，2（1.中国科学院光束控制重点实验室，成都 610209；2.中国科学院光电技术研究所，成都 610209；3.中国科学院大学电子电气与通信工程学院，北京 100049）摘要：现有基于 Transformer的目标跟踪算法未充分利用 Transformer的长距离依赖属性，导致算法提取的特征判别性不足，跟踪稳定性较差。为提高孪生网络目标跟踪算法在复杂场景中的跟踪能力，结合卷积与 Transf

2、ormer的优势，提出目标跟踪算法 CTTrack。在特征提取方面，利用卷积丰富的局部信息和 Transformer的长距离依赖属性，以卷积和窗口注意力串联的方式和层次化的结构构建一个通用的目标跟踪骨干网络 CTFormer。在特征融合方面，利用互注意力机制构建特征互增强与聚合网络以简化网络结构，加快跟踪速度。在搜索区域选择方面，结合目标运动速度估计，设计自适应调整搜索区域的跟踪策略。实验结果表明，CTTrack在 GOT-10k数据集上的平均重叠度为 70.3%，相比基于 Transformer的跟踪算法 TransT 和 TrDiMP 均提高 3.2 个百分点，在 UAV123 数据集上的

3、曲线下面积为 71.1%，相比 TransT和 TrDiMP分别提高 2.0个百分点和 3.6个百分点。在 TrackingNet、LaSOT、OTB2015、NFS数据集上分别取得 82.1%、66.8%、70.1%、66.3%的曲线下面积，并能以 43帧/s的速度进行实时跟踪。关键词：孪生网络；Transformer目标跟踪；窗口注意力；互注意力；运动估计；搜索区域开放科学（资源服务）标志码（OSID）：中文引用格式：王春雷，张建林，李美惠，等.结合卷积Transformer的目标跟踪算法 J.计算机工程，2023，49（4）：281-288，296.英文引用格式：WANG C L，ZHA

4、NG J L，LI M H，et al.Object tracking algorithm combining convolution and Transformer J.Computer Engineering，2023，49（4）：281-288，296.Object Tracking Algorithm Combining Convolution and TransformerWANG Chunlei1，2，3，ZHANG Jianlin1，2，LI Meihui1，2，XU Zhiyong1，2，WEI Yuxing1，2（1.Key Laboratory of Beam Contro

5、l，Chinese Academy of Sciences，Chengdu 610209，China；2.Institute of Optics and Electronics，Chinese Academy of Sciences，Chengdu 610209，China；3.School of Electronic，Electrical and Communication Engineering，University of Chinese Academy of Sciences，Beijing 100049，China）【Abstract】The existing target objec

6、t algorithms based on Transformer do not fully use Transformers long-distance dependence attribute，resulting in insufficient discriminability of the features extracted by the algorithm and poor tracking stability.To improve the object tracking ability，a object tracking algorithm CTTrack is proposed

7、for complex scenes，combining the advantages of convolution and Transformer.In terms of feature extraction，the algorithm combines the rich local information of convolution and long-distance dependence attribute of Transformer to construct a general object tracking backbone network CTFormer，by concate

8、nating convolution and window attention in a hierarchical structure.In feature fusion，only the Cross-Attention Mechanism（CAM）is used to construct the feature mutual enhancement and aggregation networks，which simplifies the network structure and improves tracking speed.In search area selection，the tr

9、acking strategy of adaptive search area adjustment is designed based on object motion speed estimation.The experimental results show that the Average Overlap（AO）of CTTrack on GOT-10k dataset is 70.3%，which is 3.2 percentage points higher than that of TransT and TrDiMP，and the Area Under the Curve（AU

10、C）on the UAV123 dataset is 71.1%，which is 2.0 and 3.6 percentage points higher than on TransT and TrDiMP，respectively.The AUC on the TrackingNet，LaSOT，OTB2015，and NFS datasets，are 82.1%，66.8%，70.1%，and 66.3%，respectively，with real-time tracking at a speed of 43 frames/s.【Key words】siamese network；Tr

11、ansformer object tracking；window attention；cross-attention；motion estimation；search areaDOI：10.19678/j.issn.1000-3428.0064096基金项目：国家自然科学基金青年科学基金“基于交叉度量跨模态学习的多谱段目标跟踪方法研究”（62101529）。作者简介：王春雷（1996），男，硕士研究生，主研方向为目标跟踪；张建林（通信作者），研究员、博士、博士生导师；李美惠，博士；徐智勇，研究员、博士生导师；魏宇星，副研究员。收稿日期：2022-03-04 修回日期：2022-04-21 Em

12、ail：开发研究与工程应用文章编号：1000-3428（2023）04-0281-08 文献标志码：A 中图分类号：TP3912023年 4月 15日Computer Engineering 计算机工程0概述视频目标跟踪是计算机视觉领域中重要的方向，广泛应用于军事、医学、安防、无人驾驶等领域。但是在实际工程中经常存在目标姿态变化、背景干扰、遮挡、尺度变化等情况而影响目标跟踪效果1-2。此外，实时性也是评价跟踪算法实际应用的重要指标。因此，在满足实时性的前提下，提高算法在复杂场景中的跟踪精度具有重要意义。近年来，基于孪生网络的跟踪算法因其具有精度高、速度快的特点而成为目标跟踪算法的主流方向。S

13、iamFC3全面完整地将孪生网络引入目标跟踪中，将目标跟踪作为简单的相似性度量问题，使用浅层网络 AlexNet提取特征，通过卷积度量两个分支的相似性，为后续算法的发展提供一个新的方向。SiamRPN4 将检测领域中的区域提议网络（Region Proposal Network，RPN）引入到跟踪算法中，在一定程度上解决了 SiamFC3 的尺度问题，跟踪精度和速度得到有效提高，但是 RPN 的引入带来了部分超参数，使得网络对于超参数过于敏感。SiamRPN+5 和 SiamDW6 通过深度分析孪生网络跟踪算法的特点，将骨干网络从浅层的 AlexNet、Goo

14、gleNet等推广到深层的 ResNet7 ，为后续算法的发展提供扎实的基础。研究人员提出的 SiamFC+8 和 SiamCAR9 算法再次将目标检测中的 Anchor-Free 策略引入到跟踪算法领域中，缓解超参数敏感的问题，提升跟踪精度。2021 年主流的 TransT10 、STARK11、TrDiMP12 等算法在孪生网络上引入 Transformer13 进行特征增强和融合，大幅提升算法的跟踪效果。虽然现有基于 Transformer13目标跟踪算法的性能获得显著提高，但是其本质仅简单使用Transformer 进行特征的增强和融合，未充分利用

15、Transformer 的长距离依赖属性，无法完全发挥Transformer 的优势。此外，Transformer 相对于卷积神经网络具有更高的计算量，导致相关算法的网络过于臃肿，难以真正投入使用，而且因其长距离依赖属性导致在提取视觉特征时无法获取丰富的局部信息，然而，卷积神经网络能够提取丰富的局部特征且计算量较小。因此，为获得更优的跟踪效果和更快的跟踪速度，本文在现有算法的基础上，提出结合卷积 Transformer的目标跟踪算法 CTTrack。为充分利用卷积神经网络与 Transfomer 的特性，设计一个全新的目标跟踪骨干网络。利用互注意力设计简单的特征互增强与

16、聚合网络，抛弃繁琐的编码-解码过程，降低计算量并加快跟踪速度。针对因跟踪过程中目标快速运动、目标丢失等存在搜索区域选择困难的问题，通过运动估计自适应动态调整搜索区域的策略，进一步提高跟踪精度。1相关工作 1.1孪生网络目标跟踪算法孪生网络目标跟踪算法具有结构简单、精度较优、速度较快特点。其中，SiamFC3 普遍被认为是首个孪生跟踪网络，后续算法大多在此基础上从不同角度进行探索。SiamFC3 网络结构如图 1所示。SiamFC3 由模板分支和搜索分支组成。两个分支的输入模板图像z和搜索图像x通过共享权重的骨干网络提取特征，并以模板分支的特征图作为卷积核与搜索图像的特征图进行卷积，以得到响应图

17、，响应图中响应值最高的位置对应着目标可能出现的位置，最后将响应图进行双三次插值定位目标位置，后续发表的孪生网络跟踪算法结构大致与此类似。1.2Transformer的应用Transformer13 于2017年被提出，最早被应用于机器翻译领域，使用注意力机制组成编码-解码的结构。后续研究发现基于 Transformer13 的模型在各种自然语言处理任务中表现良好，目前已经取代长短时记忆（Long Short-Term Memory，LSTM）14 网络成为自然语言处理领域的首选框架。从 2020年开始，Transformer被应用到计算机视觉领域，DETR15算法基于

18、Transformer设计一个端到端的目标检测框架，在不增加任何先验知识的情况下，取得较优的效果。受DETR15 的影响，Transformer 在计算机视觉领域迅速发展。ViT16 将图像拆分成不同的小块，设计一个完全无卷积的网络结构，在大规模数据集上获得优于 ResNet7的性能，标志着完全无卷积的Transformer网络在计算机视觉领域具有较高的可行性，但是因Transformer具有较大的计算量，在下游任务中难以得到应用。2本文算法针对孪生网络目标跟踪算法在复杂场景中跟踪漂移、鲁棒性不足、实时性较差等问题，本文提出结合卷积 Transformer13 的目标跟踪算法 CTTrack

19、，其网络结构如图2所示。该网络结合卷积与Transformer13 的特性，设计通用的骨干网络 CTFormer，仅采用互注意力机制（Cross-Attention Mechanism，CAM）构建一个简单的特征互增强与聚合网络（ECN）。针对在推理过程中搜索区域选择困难的问题，本文提出结合运动估计自适应调整搜索区域的策略 AAS。图 1SiamFC网络结构Fig.1Structure of SiamFC network282第 49卷第 4期王春雷，张建林，李美惠，等：结合卷积 Transformer的目标跟踪算法CTTrack网络分为 5个部分：1）骨干网络，采用本文设计的CTForme

20、r网络的前3个阶段，并去掉第3个阶段的池化层，共进行16倍下采样，2个分支权重共享维持孪生的结构。为获取鲁棒性更优的特征，本文同时对第2层和第3层的特征进行加权输出。2）Flatten 模块，通过 Flatten 模块调整骨干网络输出特征的维度和通道数。Flatten模块即为简单的卷积核为1 1的卷积，调整输出通道数为 256。3）特征互增强与聚合网络，分别对 2个分支图像进行特征互增强与聚合，该网络主要由CAM模块组成。为获得更好的效果，通过重复 4次实验验证该结构的有效性，在保证实时性的同时获得较优的性能。4）相似性度量，采用 CAM 模块度量两个分支的相似性并生成响应图。CAM 模块能进

21、行像素级的逐点度量，相较于早期利用卷积进行全局相似性度量的方式具有更优的鲁棒性。5）预测头网络，其设计参考DETR15 算法，包括一个分类分支和一个回归分支。每个分支均由带有一个ReLU激活函数的多层感知机（Multi-Layer Perceptron，MLP）组成，对每个特征向量进行预测。分类分支预测每个特征向量的前景、背景分类结果；回归分支预测目标所在区域的归一化坐标，并采用分类分支的分类结果指导回归过程，即基于分类得分最高的值选取回归分支的最终唯一输出坐标。整个预测头采用 Anchor-Free策略，完全抛弃基于先验知识的锚点框，使本文所提的网络结构更加简洁。损失函数的设计也与 DETR

22、15 算法类似，采用标准的二元交叉熵作为分类损失，如式（1）所示：Lcls=-i=1Nyiloga(pi)+(1-yi)loga(1-pi)（1）其中：yi表示第i个样本的真实标签，1为前景，0为背景；pi表示预测第i个样本为前景的概率。回归损失函数采用 L1损失和 GIOU损失的线性组合，如式（2）所示：Lreg=i=1NGLGIOU(bi,b?)+1L1(bi,b?)（2）其中：bi表示第i个预测的边界框；b?表示归一化的真实边界框；GIOU损失的系数G为2；L1损失的系数1为5。2.1CTFormer骨干网络卷积神经网络被广泛应用于目标跟踪领域，从早期的 AlexNet、GoogleNe

23、t到 ResNet7 ，骨干网络一直向更深的网络发展。因此，骨干网络获得更优的特征表示对跟踪任务具有重要作用。但是，自从SiamRPN+5 将 ResNet7 应用于跟踪任务中，受限于实时性的要求，骨干网络一直停留在 ResNet7 上。虽然纯 Transformer13 结构的 ViT16 已经在图像分类任务上获得远优于 ResNet7 的性能，但是极高的计算量使其难以真正应用于跟踪任务中。此外，卷积神经网络虽然提取特征的判别性不足、区域相关性较弱，但是在提取底层特征时获取局部信息方面具有较大的优势。Transformer13 因其长距离依赖属性，更加擅长提取全局特征，因

24、此，对卷积和Transformer13 进行合理地结合可以有效地弥补各自缺陷并充分发挥各自优势。最近研究表明，Transformer13 性能的强大不仅在于其频繁叠加的全局注意力，而且与其独特的结构密不可分。因此，为充分结合卷积与 Transformer13 的优势，本文设计结合卷积 Transformer13 的模块，命名为 CTFormer，结构如图 3所示。图 2CTTrack网络结构Fig.2Structure of CTTrack network图 3CTFormer模块结构Fig.3Structure of CTFormer module2832

25、023年 4月 15日Computer Engineering 计算机工程该模块由归一化层（LN）、卷积层（Conv）、多层感知机（MLP）、窗口注意力层（WMSA）组成，其中，xl为第l层的输入，xl+1为第l+1层输入，也为第l层的输出，xl+2为第l+1层输出。具体计算过程如式（3）式（6）所示：x?l=Conv(LN(xl)+xl（3）xl+1=MMLP(LN(x?l)+x?l（4）x?l+1=WWMSA(LN(xl+1)+xl+1（5）xl+2=MMLP(LN(x?l+1)+x?l+1（6）使用窗口注意力代替原 Transformer13 中计算量庞大的全局自注意力。其中，窗口注意力

26、层仅在固定尺寸为 8的窗口内计算局部注意力，相对于全局注意力具有更少的计算量。虽然窗口注意力无法像全局注意力一样建模全局特性，但是在实际跟踪任务中使用局部注意力相较于全局注意力仅有细微的精度损失。为弥补精度的损失，本文在前端接入一个同样以卷积代替全局注意力的类 Transformer13 模块，将两者串联成对组成 CTFormer 模块。卷积的添加使不同的窗口间有了一定的信息交互，使得窗口注意力不仅局限于某个窗口内，而且能够获得鲁棒性更优的图像特征。受 PVT17和 Swin Transformer18 的启发，本文同样采用卷积神经网络的层次化结构构建网络

27、，CTFormer网络结构如图 4所示。CTFormer网络由浅层特征提取层、CTFormer模块、池化层组成，分为 4个阶段，各个阶段的 CTFormer模块数量设置为 2，2，8，2 。其中，浅层特征提取层直接使用EfficientNetV219 网络的前3个阶段来提取底层特征，同时调整该层输出通道数为 96，总步长为 4，特征图分辨率降低 1/4。池化层为简单的 2 倍下采样，并调整输出通道数为输入的 2倍，这样便构成典型的金字塔结构，特征图的分辨率随着不同阶段的网络深度逐渐减小，通道数逐渐增大。在 ImageNet1k 上对 CTFormer 网络进行预训练，最终获得 83.1%的 T

28、op-1 准确率，远超 ResNet-507 的 76.5%，后续实验结果表明，该网络更加适用于跟踪任务。2.2特征互增强与聚合Transformer13 的多层编码-解码结构广泛应用于目标跟踪领域，如 STARK11、TrDiMP12 等性能大幅度领先其他跟踪算法，但繁琐的编码-解码结构使网络过于臃肿，带来极大的计算量，难以真正投入使用。因此，为了在不产生过多计算量的情况下合理利用 Transformer13的优势，本文参考 TransT10 的设计，仅截取 Transformer13 结构中计算互注意力的部分来融合不同分支的特征。CAM 模块的结构如图 5所示。CAM 模块基于残差网络的思

29、想，结合多头互注意（Multi-Head Cross-Attention，MHCA）、归一化、前馈神经网络设计而构建的，整个 CAM 模块的计算过程如式（7）和式（8）所示：X?CAM=LN(MMHCA(Xkv+Pkv,Xq+Pq)+Xq)（7）XCAM=LN(FFFN(X?CAM)+X?CAM)（8）其中：Xq为本分支的输入；Pq为Xq的空间位置编码；Xkv为另一个分支的输入；Pkv为Xkv的空间位置编码，位置编码均由正弦函数生成。CAM 模块通过多头互注意力获得两个分支的相似性后，结合残差连接及归一化获得初步聚合增强后的本分支特征X?CAM，图 4CTFormer网络结构Fig.4Stru

30、cture of CTFormer network图 5互注意力机制模块结构Fig.5Structure of cross-attention mechanism block284第 49卷第 4期王春雷，张建林，李美惠，等：结合卷积 Transformer的目标跟踪算法经过由 2 个线性变换和一个 ReLU 激活函数组成的前馈神经网络进行空间变换，以增强模型的表现能力，最终通过残差连接和归一化获得聚合增强后的本分支特征XCAM。CAM模块的交叉使用分别对2个分支的特征进行增强，构建特征互增强与聚合网络。对特征互增强与聚合网络重复多次获取更具判别性的特征，同时也可借助CAM模块度量2个分支的

31、相似性，获得响应图。使用特征互增强与聚合网络，相对于 STARK11、TrDiMP12 重复 6次繁琐的编码-解码结构具有更低的计算量，不需要额外地计算各个分支自注意力进行自增强的过程，在不降低性能的同时加快跟踪速度。2.3自适应动态调整搜索区域的跟踪策略经过多次实验，本文发现搜索区域的大小对跟踪效果有较大的影响，现有算法如 TransT10、STARK11 等选择一个相对目标尺寸固定放大倍数的搜索区域，但是固定放大倍数的搜索区域无法处理跟踪过程出现的复杂情况。在跟踪任务中目标的运动是不均匀的，而且存在较大的视角变化，搜索区域选择过大，可能包含过多干扰物导致跟踪漂移。搜

32、索区域选择过小，当目标快速运动时，目标可能会离开视野无法跟踪。针对这一问题，本文提出一个通过运动估计动态调整搜索区域的跟踪策略。本文设置初始搜索区域放大倍数为 3，进行跟踪并获取连续5帧的目标中心点位置(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3)、(xi+4,yi+4)，相邻 2 帧的中心点偏差的计算过程如式（9）式（12）所示：(x1,y1)=(|xi+1-xi|,|yi+1-yi|)（9）(x2,y2)=(|xi+2-xi+1|,|yi+2-yi+1|)（10）(x3,y3)=(|xi+3-xi+2|,|yi+3-yi+2|)（11）(x4,y4)

33、=(|xi+4-xi+3|,|yi+4-yi+3|)（12）并计算相对于x轴和y轴运动距离的最大值，如式（13）式（16）所示：d1=max(x1,y1)（13）d2=max(x2,y2)（14）d3=max(x3,y3)（15）d4=max(x4,y4)（16）根据 4个相邻两帧运动距离的最大值d1、d2、d3、d4调整搜索区域的放大倍数s。通过多次实验测试，本文初步设置搜索区域放大倍数s和d1、d2、d3、d4的关系，如式（17）所示：s=|4，d1,d2,d3,d4 252.5，d1,d2,d3,d4 183，其他（17）通过后续实验验证，该策略相对于固定搜索区域放大倍数的策略具有更优的

34、性能，而且能够减少大尺寸目标图像不必要的 Padding操作，加快推理速度。3实验与结果分析 3.1实验细节本文实验的所有训练过程软件环境为Ubuntu20.04、PyTorch1.7.1、Python3.8.8，硬件配置为 Intel Xeon Platinum 8163 CPU和 GeForce RTXTM 3090 GPU 8。推理过程在 RTX 3060上进行。对于骨干网络预训练过程，本文在 ImageNet1k上使用 PyTorch 扩展工具 Apex 进行实验，结合增强和正则化策略，采用 AdamW 优化器训练 300 个周期。本文设置 batch size 为 128，初

35、始学习率为0.001，并采用余弦衰减调整学习率，骨干网络在第280 个周期左右性能达到饱和，获得 83.1%的 Top-1准确率。对于整个跟踪网络训练过程，本文在GOT-10k20、LaSOT21、COCO22、TrackingNet23 4个通用的目标跟踪数据集上进行训练，并采用随机采样、变换策略生成训练样本对。裁剪模板图像分支输入图像尺寸为128128像素，搜索图像分支输入尺寸为256256像素。骨干网络学习率设置为1e5，其他参数学习率设置为1e4，采用分布式数据并行（Distributed Data Paralle，DDP）进行单机多卡训练，每个 GPU的 batch size

36、设置为 50，每个周期训练 400 000对图像，共训练 120个周期，在第 70个周期后学习率衰减 0.1。3.2结果分析本文实验将本文所提的算法与近三年表现优异的算法（STARK11、TransT10 、TrDiMP12、Siam R-CNN24、PrDiMP5025 、Ocean26 、DiMP5027、SiamRPN+5 、ATOM28 ）进行定性与定量分析，以验证算法的性能。3.2.1定性分析为验证算法的性能，针对 OTB201529 数据集中目前主流挑战属性进行定性实验，实验结果如图 6所示（彩色效果见计算机工程官网 HTML 版）。第 14行的挑战属性依次为背景干扰、目标

37、遮挡、光照变化、姿态变化。图 6不同算法的预测结果对比Fig.6Prediction results comparison among different algorithms2852023年 4月 15日Computer Engineering 计算机工程图 6 中红色标注框为真实标注框，蓝色标注框为本文算法 CTFormer的预测框，预测框与真实标注框越贴近，重合度越高代表跟踪效果越好。1）背景干扰挑战，在第 1 行序列第 277 帧中，当背景出现干扰物时，TransT10算法跟错目标，在第475帧中当干扰物再次与目标拉近距离时，对比算法均跟踪错误，并导致后续严重的跟踪漂移。这是因为对比算

38、法没有有效调整搜索区域的策略，导致干扰物与目标同时出现在搜索区域中，所提取的特征又不足以分辨干扰物与目标，导致跟踪错误，验证了本文所提动态调整搜索区域策略的有效性。2）目标遮挡挑战，在第 2行序列第 733帧中，当目标被部分遮挡时，TransT10 算法跟踪错误。在第1 289帧中，当目标被轻微遮挡时，对比算法跟踪效果降低，无法准确框选出目标。第1 356帧中，当目标被大部分干扰物遮挡时，ATOM28 算法跟踪错误，在此过程中本文算法一直能够对目标进行稳定跟踪。其原因为对比算法提取特征的表达能力不足，无法根据目标的部分特征完成整体跟踪，进而说明本文所提的骨干网络和特征聚合增强网络提取特征的表达

39、能力足够强。3）光照变化挑战，从第3行序列可以看出：当场景中光照发生变化时，对比算法跟踪效果均会不同程度的降低，甚至会发生跟踪漂移，而本文算法能稳定跟踪，说明本文所提网络提取的特征具有更优的鲁棒性。4）姿态变化挑战，从第4行序列可以看出：当目标发生较大姿态变化时，对比算法的预测框无法根据目标的姿态变化进行有效调整，导致预测框过大且精度降低，甚至当姿态变化剧烈时，导致ATOM28 算法跟踪错误。通过以上 4 个主流挑战属性的对比，充分验证本文算法的有效性，并验证本文算法的主体部分发挥了一定的作用。3.2.2定量分析为更加充分地说明本文算法的有效性，在多个公开数据集上进行大量的定量实验。首先在GO

40、T-10k20 数据集上进行对比实验。GOT-10k20 场景丰富挑战难度高，包含 10 000多条真实拍摄的视频片段和 563个类别，超过 150万个手工标注框。GOT-10k20 是单目标跟踪的一个主流评价基准，以平均重叠度（Average Overlap，AO）和成功率（Success Rate，SR）作为主要的评价指标。遵照其要求，本文仅在 GOT-10k20 上进行训练并与其他算法进行对比，具体对比情况如图7所示。在图 7中，CTTrack为本文的基础版本，CTTrack-Tiny为仅进行 2次 CAM 融合的轻量版本。本文算法基础版本的平均重叠度（AO）达到 70.3%，优于当前主

41、流算法，比 STARK11 提高 1.5个百分点，比 TransT10 和 TrDiMP12 提高约 3.2 个百分点，相对于 Ocean、PrDiMP50、Siam R-CNN算法普遍提高了 510个百分点，取得了较优的效果。在跟踪速度方面，本文所提的算法分别以43 帧/s和53帧/s的速度超越目前的主流算法，具有较优的实时性。在 GOT-10k数据集上不同算法的性能对比如表 1所示，加粗表示最优数据。本文在 LaSOT21 数据集上进行测试实验。LaSOT21 是一个大规模的长时跟踪数据集及评价基准，包含 1 400个视频序列，其中，训练集 1 120个序列，测试集

42、280 个序列，平均每个序列 2 500 多帧，共有352万个高质量的手工标注框。评价标准一般为曲线下面积（AUC）和归一化精度（Pnorm）。在 LaSOT21 数据集上不同算法的评价指标对比如表 2所示。从表 2 可以看出：本文所提算法的基础版本（CTTrack）的性能指标大幅度领先目前的主流算法，相对于 TransT10 和 TrDiMP12分别提高 1.9和 2.9个百分点，比SiamRPN+、ATOM、Ocean、DiMP50、PrDiMP50、Siam R-CNN算法普遍提高了10个百分点。由于本文表 1不同算法在 GOT-10k数据集上的性能对比 Table 1Performan

43、ce comparison among different algorithms on GOT-10k dataset%算法SiamRPN+DiMP50OceanPrDiMP50Siam R-CNNTrDiMPTransTSTARKCTTrack-TinyCTTrackAO51.761.161.163.464.967.167.168.869.670.3SR0.5061.671.772.173.872.877.776.878.180.680.3SR0.7532.549.247.354.359.758.360.964.161.963.9表 2不同算法在 LaSOT数据集上的评价指标对比 Table

44、 2Evaluation indicators comparison among different algorithms on LaSOT dataset%算法SiamRPN+ATOMOceanDiMP50PrDiMP50TrDiMPSiam R-CNNTransTSTARKCTTrack-TinyCTTrackAUC49.651.556.056.959.863.964.864.967.165.266.8Pnorm56.957.665.165.068.872.273.877.075.076.1图 7不同算法在 GOT-10k数据集上的平均重叠度对比Fig.7Average overall c

45、omparison among different algorithms on GOT-10k dataset286第 49卷第 4期王春雷，张建林，李美惠，等：结合卷积 Transformer的目标跟踪算法算法没有添加任何额外的模板更新策略，因此在长时跟踪上有一定的劣势，导致本文算法以0.3个百分点的差距落后于 LaSOT21 排行榜上的第一名 STARK11。本文在 TrackingNet23 数据集上对不同算法进行对比测试。TrackingNet23 是一个更大规模的单目标跟踪数据集，超过30 000个视频序列，通过在YouYube视频上采样来表示真实世界的场景，因此涵盖非常丰富的目标

46、类别。评价标准与 LaSOT21 类似一般为曲线下面积（AUC）和归一化精度（Pnorm）。在TrackingNet23 上不同算法的评价指标对比如表 3所示。从表 3可以看出：本文算法的基础版本在AUC和Pnorm均领先于目前的主流算法，甚至超越了 STARK11，AUC 达到82.1%。本文在 UAV12330数据集上进行对比测试。UAV12330 是一个完全由无人机拍摄的数据集，背景干净但视角变化较多，共包含 123个视频序列，其中，有 20 个长视频，相对于 OTB201529 跟踪难度更高。本文采用 AUC 和精度（P）作为评价指标。由于不同的测试工具有一定的误

47、差，因此为保证对比实验的公平性，本文将对比算法的原始跟踪结果均在GOT-10k20工具包上进行重新测试，具体测试结果如图 8 所示。从图 8 可以看出：本文算法无论是AUC还是精度均具有较优的表现。本文在 OTB201529 和 NFS31 数据集上进行对比测试实验，不同算法的 AUC对比如表 4所示。OTB201529 共有100个视频序列，包含遮挡、光照变化、快速运动等11个挑战属性。NFS31 数据集包含100个视频序列，共17个物体类别，有2个版本分别为30帧/s和 240帧/s，在 240帧/s版本上各个算法的指标差距较小。因此，本文仅在 30帧/s版本上进行

48、对比测试。从表 4可以看出：本文算法的性能相比于主流算法具有最优的性能。3.3消融实验为充分挖掘算法的性能且明确各个策略对网络性能的影响，本文在GOT-10k20 数据集上进行消融实验，具体消融实验结果如表 5所示。表 3不同算法在 TrackingNet数据集上的评价指标对比 Table 3Evaluation indicators comparison among different algorithms on TrackingNet dataset%算法ATOMSiamRPN+DiMP50PrDiMP50TrDiMPSiam R-CNNTransTSTARKCTTrack-TinyCTT

49、rackAUC70.373.374.075.878.481.281.482.081.582.1Pnorm77.180.080.181.683.385.486.786.987.387.2图 8不同算法在 UAV123数据集上的评价指标对比Fig.8Evaluation indicators comparison among different algorithms on UAV123 dataset表 5消融实验结果 Table 5Ablation experiment resultsCTFormerECNAASResNet-50Encoder-DecoderAO/%46.661.066.166

50、.665.866.469.369.969.570.3跟踪速度/(帧s1)66633033454826294043表 4不同算法在 OTB2015和 NFS数据集上的评价指标对比 Table 4Evaluation indicators comparison among different algorithms on OTB2015 and NFS dataset%算法STARKTransTPrDiMP50DiMP50ATOMSiamRPN+本文算法AUCOTB2015 数据集68.169.469.668.466.968.770.1NFS数据集66.265.363.561.858.457.166

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？