时空特征对齐的多目标跟踪算法.pdf

资源描述

1、时空特征对齐的多目标跟踪算法程稳1,2,3，陈忠碧2*，李庆庆2，李美惠2，张建林2，魏宇星21 中国科学院光场调控科学技术全国重点实验室，四川成都 610209；2 中国科学院光电技术研究所，四川成都 610209；3 中国科学院大学电子电气与通信工程学院，北京 100049 ConvGRUConvConvConvConvBackboneGeneral featureextractionSpatial-temporalfeature extractionDetectionRe-IDAlignmentmoduleHeat mapCenter offsetBox sizeRe-IDembed

2、dingAssociationT1 T2 T3d1d2d3T1 T2 T3d1d2d3MatchingFtAligned Mt1Mt1Mt摘要：多目标跟踪(Multi-object tracking,MOT)是计算机视觉领域的一项重要任务，现有研究大多针对目标检测和数据关联进行改进，通常忽视了不同帧之间的相关性，未能充分利用视频时序信息，导致算法在运动模糊，遮挡和小目标场景中的性能显著下降。为解决上述问题，本文提出了一种时空特征对齐的多目标跟踪方法。首先，引入卷积门控递归单元(convolutional gated recurrent unit,ConvGRU)，对视频中目标的时空信息进行编

3、码；该结构通过考虑整个历史帧序列，有效提取时序信息，以增强特征表示。然后，设计特征对齐模块，保证历史帧信息和当前帧信息的时间一致性，以降低误检率。最后，本文在 MOT17 和 MOT20 数据集上进行了测试，所提算法的 MOTA(multiple objecttracking accurary)值分别为 74.2 和 67.4，相比基准方法 FairMOT 提升了 0.5 和 5.6；IDF1(identification F1 score)值分别为 73.9 和 70.6，相比基准方法 FairMOT 提升了 1.6 和 3.3。此外，定性和定量实验结果表明，本文方法的综合跟踪性能优于目前大

4、多数先进方法。关键词：多目标跟踪；时空特征；ConvGRU；时间一致性；特征对齐中图分类号：TP391.41文献标志码：A程稳，陈忠碧，李庆庆，等.时空特征对齐的多目标跟踪算法 J.光电工程，2023，50(6):230009Cheng W,Chen Z B,Li Q Q,et al.Multiple object tracking with aligned spatial-temporal featureJ.Opto-Electron Eng,2023,50(6):230009 Multiple object tracking with alignedspatial-temporal fea

5、tureCheng Wen1,2,3,Chen Zhongbi2*,Li Qingqing2,Li Meihui2,Zhang Jianlin2,Wei Yuxing21 National Key Laboratory of Optical Field Manipulation Science and Technology,Chinese Academy of Sciences,Chengdu,Sichuan 610209 China;2 Institute of Optics and Electronics,Chinese Academy of Science,Chengdu,Sichuan

6、 610209 China;3 University of Chinese Academy of Science School of Electronic,Electrical,Communication Engineering,Beijing 100049ChinaAbstract:Multiple object tracking (MOT)is an important task in computer vision.Most of the MOT methods 收稿日期：20230112；修回日期：20230402；录用日期：20230403基金项目：国家自然科学基金青年科学基金资助项

7、目(62101529)*通信作者：陈忠碧，。版权所有2023 中国科学院光电技术研究所 Opto-Electronic Engineering 光电工程 Article2023 年,第 50 卷,第 6 期DOI:10.12086/oee.2023.230009230009-1improve object detection and data association,usually ignoring the correlation between different frames.They dontmake good use of the temporal information in

8、the video,which makes the tracking performance significantlydegraded in motion blur,occlusion,and small target scenes.In order to solve these problems,this paper proposesa multiple object tracking method with the aligned spatial-temporal feature.First,the convolutional gated recurrentunit(ConvGRU)is

9、 introduced to encode the spatial-temporal information of the object in the video;By consideringthe whole history frame sequence,this structure effectively extracts the spatial-temporal information to enhance thefeature representation.Then,the feature alignment module is designed to ensure the time

10、consistency between thehistorical frame information and the current frame information to reduce the false detection rate.Finally,this papertests on MOT17 and MOT20 datasets,and multiple object tracking accuracy(MOTA)values are 74.2 and 67.4,respectively,which is increased by 0.5 and 5.6 compared wit

11、h the baseline FairMOT method.Our identification F1score (IDF1)values are 73.9 and 70.6,respectively,which are increased by 1.6 and 3.3 compared with thebaseline FairMOT method.In addition,the qualitative and quantitative experimental results show that the overalltracking performance of this method

12、is better than that of most of the current advanced methods.Keywords:multiple object tracking;spatial-temporal feature;ConvGRU;time consistency;feature alignment 1 引言多目标跟踪是计算机视觉的重要组成部分，广泛应用在监控视频分析和自动驾驶等领域，其目的是定位多个感兴趣的目标，并维持每个目标唯一的身份编号(identification,ID)，记录连续运动轨迹1。多目标跟踪面临诸多挑战，首先在背景复杂的场景中，目标的运动具有不确定性和

13、随意性，而且目标与目标之间存在相互遮挡以及被物体遮挡现象，导致目标特征发生改变；其次在低分辨率场景中，目标与背景差异较小，分辨出感兴趣目标就十分困难；并且在多目标跟踪过程中目标数目具有不确定性，容易带来误检、漏检以及 ID 切换等现象。针对上述问题，研究者提出了一系列多目标跟踪方法。最早的多目标跟踪算法主要关注优化检测以及数据关联。随着目标检测和行人重识别的迅速发展，MOT 也有了相当大的突破2-10。但是这些方法的检测步骤是完全独立于先前的历史帧，一旦目标变得部分或完全被遮挡，检测器就失效了，从而造成轨迹丢失。Zhou 等人 11-12将成对的帧作为输入，直接输出检测和成对的关联，虽然这些方

14、法提高了跟踪的健壮性，但是它们输入的是成对的帧，不能提取多帧的相关性，只能处理单帧遮挡。最近，随着端到端的目标检测器 DETR13的提出，开始有学者提出了基于注意力机制的多目标跟踪算法14-16。虽然这些算法是端到端的(联合检测和跟踪)，但是其中的检测部分也只是将基于卷积的检测器换成了基于Transformer17的检测器，仍是独立地对每一帧进行特征提取，没有对目标的时序信息进行直接地建模。目前主流的多目标跟踪方法大多是单独地提取每一帧的信息，忽略了不同帧之间的关联，虽然近几年也有一些方法开始尝试构建不同帧之间相关性，但是它们都仅停留在相邻帧，没有对视频中存在的时序信息进行显式建模。而在视频目

15、标检测和视频行人重识别领域中，视频时序信息已被证实在处理运动模糊，遮挡和小目标等问题上很有效。受此启发，本文提出了一种时空特征对齐的多目标跟踪方法。本文主要贡献如下：1)提出时空特征对齐的多目标跟踪方法，充分利用时空特征以及保证时间一致性，提升多目标跟踪性能；2)引入卷积门控递归单元，对视频时空信息进行建模，该结构可以学习整个历史帧序列信息，输入任意长度的视频，构建任意长度视频帧之间的相关性；3)设计特征对齐模块，利用前后帧目标的位置对应关系，将历史帧信息与当前帧信息对齐，保证时间一致性，降低误检率；4)将设计的方法在公开数据集 MOT17 和MOT20 上进行实验验证，

16、结果表明所提方法较基准方法提升明显且优于目前同类先进方法。特别是在MOT20 上，MOTA 值达到了 67.4，IDF1 值达到了70.6。2 相关工作本文方法从视频理解相关领域出发，探究多目标跟踪中视频时序信息的有效性，下面为这些领域中与本文方法相关的工作以及本文方法的不同之处。程稳,等.光电工程,2023,50(6):230009https:/doi.org/10.12086/oee.2023.230009230009-2 2.1 多目标跟踪多目标跟踪方法大致可以分为三类，分别为基于检测2-3,18-19，联合检测与重识别9-10,20-22以及联合检测与跟踪11-12,14-16,23。

17、基于检测的算法将多目标跟踪任务分为四步，分别为目标检测、特征提取、相似度计算和数据关联。由于目标检测和行人重识别的迅速发展，大多数学者的目光聚焦在前两步，而后两步采用传统方法。SORT2是最早利用卷积神经网络检测行人的多目标跟踪算法之一，该算法依靠卡尔曼滤波24和匈牙利算法25来解决目标关联，但是相似度计算只利用了运动信息检测框和跟踪框的交并比(intersection over union,IOU)，对于遮挡问题效果不佳，DeepSORT3在 SORT 的基础上引入行人重识别(re-identification,Re-ID)网络来提取目标的深度表观特征，使得数据关联更准确，还有一些方法利用了

18、更复杂的特征，如 Xu 等人8使用了时空图卷积来提取轨迹深度特征表示。不过复杂特征的提取大大增加了计算量，算法实时性较差。为了提高实时性，JDE9提出联合检测与重识别这一跟踪范式，用一个网络来实现目标检测和 Re-ID 特征提取，平衡了跟踪精度和跟踪速度，而针对 JDE 方法在单一网络中检测和 Re-ID 特征存在不公平等问题，一系列算法如 FairMOT10，CSTrack20，RelationTrack21，CorrTrack22相继提出。也有研究者尝试为 MOT 构建端到端的解决方案，也就是联合检测与跟踪，该范式旨在同时输出检测和跟踪结果，Tracktor11直接利

19、用检测器的回归模块预测目标下一帧的位置来完成多目标跟踪任务，CenterTrack12通过在成对的图像上执行检测，并结合先前帧的目标检测结果来预测当前帧的目标位置偏移，从而将前后帧中相同目标建立起联系，实现多目标跟踪。ChainedTrack26使用相邻帧作为输入，并生成代表相同目标的框对，将跨帧关联问题转化成目标检测问题。简单有效的端到端目标检测器 DETR13的出现给目标检测领域带来革新的同时，也给多目标跟踪带来了新思路，有学者开始构建基于 Transformer17的端到端的多目标跟踪器，如 TransTrack14，TrackFormer15，MOTR16，这些算法

20、主要在 DETR 解码器的查询输入这块进行一定的改进以适应 MOT 任务。可以看出，MOT 的发展与目标检测和行人重识别的发展是一致的，不过本文从视频目标检测和视频行人重识别出发来研究视频时序信息对 MOT 的重要性。2.2 视频行人重识别在视频行人重识别方面，视频比静止图像包含更丰富的空间和时间信息，基于视频的行人重识别最直接的方法是先把视频拆成一帧一帧的图像，利用深度学习提取每帧图像的帧级别特征，然后通过不同操作如平均池化或最大池化27，递归循环网络(recurrentneural networks,RNN)28-29和时间注意力30来聚合多帧特征得到视频级别特征。另一种策略是通过 3D

21、卷积同时捕获空间和时间信息31，不同于基于 2D 卷积的模型需要诸如循环网络来提取时间信息，3D 卷积自然处理输入视频以输出时空特征。尽管性能良好，但 3D 卷积通常需要更多的计算和内存资源，因此本文方法没有采用 3D 卷积模型，而是采用先提取图像单帧级别特征，再聚合多帧特征这一策略。2.3 视频目标检测在视频目标检测方面，相比于图像目标检测，视频具有高冗余度的特性，其中包含了大量的时空信息32。充分利用好时序上下文关系，可以解决视频中连续帧之间的大量冗余的情况，提高检测速度33；还可以解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡和奇异姿势等问题。对于高冗余度特性，学者们希望利用运动信

22、息来进行检测，其中最常用的运动信息是光流。DFF34只对关键帧进行特征提取，而对于关键帧附近的非关键帧，通过计算光流来聚集关键帧特征，大大减少了计算量。对于时空信息的提取，T-CNN35用检测算法学习图像中目标的空间信息，用跟踪算法学习图像中目标的时序信息，D&T36利用孪生网络来提取不同帧的相关性也就是时序信息，STMN37在单帧检测器上加入时空存储模块来提取时空信息，使其能够处理任意长度的视频。与 STMN结构类似，本文在通用特征提取模块后引入了ConvGRU18来提取时空信息，并用特征对齐模块来保证了时空一致性。3 本文方法本节对本文方法进行详细描述。首先在 3.1 节对本文方法整体架构

23、进行概述，然后在 3.2 节、3.3 节和 3.4 节详细介绍各个模块，分别为时空特征提取模块、检测头与 Re-ID 头和数据关联模块。3.1 方法整体架构针对目前主流多目标跟踪算法未能有效地提取时序信息这一问题，本文提出时空特征对齐的多目标跟程稳,等.光电工程,2023,50(6):230009https:/doi.org/10.12086/oee.2023.230009230009-3I1,I2,InF1,F2,FnMt1Aligned Mt1FtAligned Mt1Mtd1,d2,dNT1,T2,TK踪方法，结构如图 1 所示，是联合检测与重识别这一范式下的多目标跟踪方法。算法模型由通

24、用特征提取、时空特征提取、检测头、Re-ID 头和数据关联 5 部分组成。给定连续视频帧序列,本文方法将每个帧单独地通过骨干网络得到单帧级别特征图，本文方法的骨干网络与 FairMOT10相同，采用 DLA-3438网络来提取图像单帧级别特征，该网络包含很多高维特征与低维特征的连接，能更好地聚合空间信息和语义信息，提取目标位置与表观信息；对于任意时间步，先将存放历史帧序列信息的通过特征对齐模块得到，然后和一同输入到 ConvGRU18得到；经过通用特征提取模块和时空特征提取模块后，直接将特征图送入检测头和 Re-ID 头分别输出位置信息和 Re-ID特征；然后利用位置信息和 Re-ID 特征计

25、算当前帧检测目标与轨迹的相似度矩阵，最后结合分配算法实现数据关联完成多目标跟踪。3.2 时空特征提取模块本文方法使用 ConvGRU18来学习目标的时空信息，ConvGRU 是如图 2 所示的门控循环单元(gatedrecurrent unit,GRU)的改进版本。GRU 常用于自然语言处理中捕捉序列数据的长时间依赖关系，不过自然语言处理领域处理的是一维信息，而图像是二维的，为了同时捕捉时间和空间信息，ConvGRU 将一维状态向量替换成二维状态特征图，将全连接层替换成卷积层。ConvGRU 的计算公式如下：zt=(WzFt+UzMt1),(1)rt=(WrFt+UrMt1),(2)eMt=t

26、anh(WFt+rt(U Mt1),(3)Mt=(1zt)eMt+ztMt1,(4)WzWrUzUrFtMt1其中表示卷积，表示点乘，W 和，U 都是 2D 卷积核，表示当前帧特征图，表示过去状态特征图，代表了整个历史帧信息。Mt1FtFtFt1Mt1FtFt(x,y)Ft(x,y)RDFt1(x,y)Ft1(x,y)RDMt1Ft由于视频中目标是运动的，目标在当前帧的空间位置与前一帧的空间位置不同，那么代表历史帧特征的可能没有和当前帧特征在空间位置上进行对齐，这可能会导致 ConvGRU 难以忘记历史帧目标的空间位置，从而叠加了未对齐的特征，造成拖尾现象特征图上历史帧目标所在的空间位置存在

27、高响应，从而使得检测器认为目标还处在前一时刻的空间位置，造成大量误检。为了解决这一问题，本文引入特征对齐模块如图 3，充分利用相邻帧之间的一致性信息。具体来说，就是根据当前帧特征图和前一帧特征图的位置对应关系来修正过去状态特征图，使其与对齐。首先计算中位置的特征向量与中位置附近区域的特征向量的余弦相似度，然后对进行加权使其对齐到当前帧特征图。具体计算如式(5)Cx,y(i,j)=Ft(x,y)Ft1(x+i,y+j)i,jd,dFt(x,y)Ft1(x+i,y+j),(5)Aligned Mt1(x,y)=i,jd,dCx,y(i,j)Mt1(x+i,y+j),(6)i,jd,dd=2其中限制

28、在范围，d 是个超参数，本文设置,基于的假设是相邻帧不会有过大的位移，当然这样也可以减少计算量。ConvGRUConvConvConvConvBackboneGeneral featureextractionSpatial-temporalfeature extractionDetectionRe-IDAlignmentmoduleHeat mapCenter offsetBox sizeRe-IDembeddingAssociationT1 T2 T3d1d2d3T1 T2 T3d1d2d3MatchingFtAligned Mt1Mt1Mt图 1算法整体框架Fig.1Overall fra

29、mework of the algorithm 程稳,等.光电工程,2023,50(6):230009https:/doi.org/10.12086/oee.2023.230009230009-4 3.3 检测头和 Re-ID 头b=(x1,y1,x2,y2)(cx,cy)=(x1+x22,y1+y22)cd=(cx4,cy4)Hxy=exp(xcdx)2+(ycdy)222检测模块主要由三个并行的卷积模块(卷积核大小为 3x3，输出通道数为 256 的卷积+卷积核大小为1x1 的卷积)组成，分别输出目标中心点热力图，目标中心点偏移和检测框宽高。热力图分支负责预测目标中心点位置，训练时需要将标

30、签转化为热力图形式来计算损失，假设目标真实框为，则中心点为，经下采样得低分辨率坐标，则该目标的中心点分散至热力图上，其中为标准差。热力图分支的损失函数为：Lheatmap=1Nxy(1bHxy)logbHxy,Hxy=1(1Hxy)(bHxy)log(1bHxy)otherwise,(7)bHxy其中，参数用于控制易分类样本权重，参数用于减少负样本权重占比，N 是图像中心点个数，是热力图估计。中心点偏移分支用于估计目标中心点的偏移补偿，检测框宽高分支用于估计目标中心点到检测框四条边的距离，损失函数为：Lbox=Ni=1?oi oi?1+s?si si?1,(8)oisi oi si其中，和

31、分别为中心点位置和检测框宽高的真实值，和为对应的网络估计值。p(k),k 1,KRe-ID 模块旨在提取同一类别中可以区分不同身份的细粒度表观特征，主要在时空特征提取模块后应用卷积提取 128 维的特征图。训练时将 Re-ID 作为分类任务，将真值处目标特征向量经过一个线性分类层，得到每个 ID 分类的概率值，其中 K 为类别数目。损失函数为：Lid=Ni=1Kk=iYi(k)lnp(k),(9)Yi(k)其中，表示第 i 个目标的真实 ID 概率分布。本文同时训练检测任务和 Re-ID 任务，使用不确定性损失来自动平衡两个任务，计算如下：Ldet=Lheatmap+Lbox,(10)L=

32、12(1ew1Ldet+1ew2Lid+w1+w2),(11)w1w2其中，和为可学习参数，用于平衡检测和重识别任务 3.4 数据关联DrDmD=0.98Dr+0.02Dm数据关联策略与 FairMOT10保持一致。首先基于第一帧中检测到的框初始化轨迹片段。然后在后续的帧中，使用两阶段匹配策略实现检测框与轨迹片段的连接。在第一阶段，通过网络得到输入图像的目标位置信息和 Re-ID 特征，首先利用卡尔曼滤波和马氏距离排除相距较远的匹配，然后将 Re-ID 特征余弦距离和马氏距离融合在一起计算相似度，利用匈牙利算法完成目标和轨迹的第一次匹配；在第二阶段，对未匹配的轨迹片段

33、和未匹配的目标计算交并比(Intersection over union,IoU)，然后利用匈牙利算法完成目标和轨迹的第二次匹配；最后更新轨迹，将未匹配的目标初始化为新轨迹，对未匹配的轨迹做记录，当轨迹连续 30 帧都没匹配到新目标，则丢失该轨迹。4 实验结果与分析 4.1 数据集与模型评价实验主要在多目标跟踪数据集 MOT17 和 tanhXX+X1Input FtHidden stateHidden statetanhX+SigmoidtanhDot productAddConcatMt1Mt图 2门控循环单元结构图Fig.2Gated recurrent unit

34、SimilarityInterpolationFt1Mt1FtAligned Mt1图 3特征对齐Fig.3Feature alignment程稳,等.光电工程,2023,50(6):230009https:/doi.org/10.12086/oee.2023.230009230009-5MOT20 上进行，并与现有方法进行对比分析。MOT17 数据集主要标注目标为移动的行人，包含了不同天气状况、相机静止或运动、多个拍摄角度和光照变化的视频，涵盖了多目标跟踪过程中可能遇到各种挑战的场景。MOT17 数据集共 14 个视频序列，分为 7 个训练集和 7 个测试集，视频序列长度平均为800 帧，其

35、中训练集包含 112297 个检测框标注和548 个 ID 标注且提供 3 种检测器 SDP、DPM 和Faster R-CNN 的检测结果。为了进行公平的对比分析，实验在训练时还使用了与 FairMOT10相同的额外数据集 ETH、CityPerson、CalTech、CUHK-SYSU、PRW、CrowdHuman。CityPerson 是行人检测数据集，数据是由车载摄像机在城市中收集，总计 25000 张图片，350000 个标注框；ETH 包含 5598 张图片。不过这两个数据集只提供了目标真实检测框，所以训练时忽略了这些数据集中的 Re-I D 损失

36、。CalTech、CUHK-SYSU、PRW、MOT17 提供了目标真实检测框和 ID，可以用来同时训练检测分支和 Re-ID 分支。对于消融实验，本文使用上述 6 个额外数据集和MOT17 的前半序列作为训练集，MOT17 的后半序列作为验证集。MOT 任务中的评价指标主要包括如下：多目标跟踪准确度(Multiple object trackingaccurary,MOTA)：同时考虑误检、漏检和 ID 切换，能够直接衡量算法检测和跟踪的性能。计算公式如式(12)所示，其中，t 表示时间帧的索引，FN 表示漏检数，FP 表示误检数，IDSW 表示 ID 切换次数，GT 表示真实

37、检测框数。tFNt+FPt+IDSWttGTt.(12)识别 F1 值(Identification F1 Score，IDF1)：用来衡量 ID 识别准确率与召回率之间的平衡性，评估跟踪器的 ID 识别性能。计算公式如式(13)所示，其中，IDTP 表示真阳性 ID，IDFP 表示假阳性 ID，IDFN 表示假阴性 ID，与检测指标的 TP、FP、FN 相对应。IDF1=2IDTP2IDTP+IDFP+IDFN.(13)高阶跟踪精度(Higher order tracking accuracy,HOTA)：同时考虑了检测精度、关联和定位精度。误检数(False positive,FP

38、)：被预测为正样本的负样本数。漏检数(False negatives,FN)：被预测为负样本的正样本数。命中轨迹比(Mostly tracked targets,MT)：跟踪轨迹占真实轨迹 80%以上的轨迹数与轨迹总数之比。丢失轨迹比(Mostly lost targets,ML)：跟踪轨迹占真实轨迹 20%以下的轨迹数与轨迹总数之比。ID 切换(Identity switches,IDs)：目标 ID 切换的总数。4.2 实验环境与训练细节实验硬件环境为搭载 Inter Xeon(R)Platinum 8163CPU 2.50GHz 处理器和 4 张 NVIDIA GeForce RT

39、X3090(24G 显存)的深度学习服务器。软件环境为Ubuntu 20.04 操作系统下的 Pytorch1.7 深度学习框架。实验按照 FairMOT10的设置，采用了如随机翻转和随机裁剪等数据增强方法。为了解决不同帧率的问题，本文对视频序列进行了有间隔的随机采样。ConvGRU 的卷积核大小设为 55，特征对齐模块的局部区域大小设为 5。训练时输入图片大小为1088608，首先使用在 COCO 数据集预训练得到的模型参数来初始化骨干网络模型，然后采用 Adam 优化器训练 30 个轮次，batch size 设置为 12，初始化学习率为 1e-4，在第 20 个轮次更改学习率为 1e-5

40、。4.3 定量分析为了验证本文提出的时空特征对齐的多目标跟踪方法的效果，在 MOT Challenge 上与当前一些先进MOT 算法进行了指标对比。表 1、表 2 分别为在MOT17、MOT20 测试集对比结果。从表 1 可以看出，本文方法在 IDF1 指标上超过大部分现有方法且具有较高的 MOTA 值。对比基准方法 FairMOT，IDF1 值由原 72.3 提升至 73.9，提升了 1.6，MOTA 值由原73.7 提升至 74.2，提升了 0.5，MT 和 IDS 指标也有所提升。不过特征对齐模块需要计算前后帧点对点的相似度，计算量较大，导致帧率有所下降。值得注意的是，尽管 CSTrac

41、k 方法的 MOTA 值较本文方法高，但是 IDF1 值较本文方法低，这也可以从 FP、FN 指标和 MT、ML、IDS 指标中可以看出，CSTrack 方法的检测效果比本文方法好，但跟踪效果比本文方法差。MOT20 数据集的目标更加稠密，目标遮挡现象更严重，因此更具有挑战性。实验结果如表 2 所示，可以看出，本文方法在 MOTA 指标上超过大部分现有方法且具有较高的 IDF1 值，并且带来的性能提升比在MOT17 数据集上更加明显，说明本文方法的时空特征提取模块在遮挡和小目标等困难场景中更能发挥作用。对比基准方法 FairMOT，IDF1 值由原 67.3 提升至 70.6，提升了 3.3，

42、MOTA 值由原 61.8 提升至 67.4，提升了 5.6，IDS 指标也有所提升。值得注意的是，程稳,等.光电工程,2023,50(6):230009https:/doi.org/10.12086/oee.2023.230009230009-6尽管 CorrTracker 方法的 IDF1 指标较本文方法高，但MT、ML 以及 IDS 这些评价跟踪器的指标都较本文方法低，说明本文方法的跟踪效果不比 CorrTracker 差。4.4 消融实验本文的消融实验使用上述 6 个额外数据集和MOT17 的前半序列作为训练集，MOT17 的后半序列作为验证集。本文探究了 ConvGRU 和特征对齐模

43、块对整体跟踪性能的影响。从表 3 可以看出，使用ConvGRU 和特征对齐模块均能有效提升多目标跟踪性能，其中最重要的指标 MOTA 由原 69.1 提升至70.0，IDF1 由原 72.8 提升至 74.8，但是误检率有所升高，不过加入特征对齐模块后有所缓解。值得注意的是，本文方法的 IDs 较基准方法也有所增加，但ML 较高，ML 较低，导致 IDs 占据总匹配数较小，从 IDF1 指标也能看出整体跟踪性能更好。本文还设计了消融实验探究视频序列输入长度对跟踪性能的影响，如表 4 所示。当视频序列输入长度从 2 增加到 8 时，MOTA 和 IDF1 指标分别提高了1.1 和 1.3，说明视

44、频序列输入长度的增加可以提高跟踪性能，模型能够很好地学习目标长时间的依赖关系。尽管随着视频序列输入长度的增加，IDs 也随之增加，但 MT 随之增加，ML 随之减小，导致 IDs 占据总匹配数的比例越来越小，因此匹配错误越来越低，这也从 IDF1 指标中可以看出。表 1本文方法与其他先进方法在 MOT17 数据集上的对比结果Table 1The tracking performance comparision between our method and other advanced methods on MOT17 data setMethodYearMOTAIDF1HOTAFPFNMTML

45、IDSFPSTubeTK39CVPR202063.058.648.02706017748331.219.955293.0CTracker26ECCV202066.657.449.02228416049132.224.255296.8CenterTrack12ECCV202067.864.752.21848916033234.624.6330922.0TraDes40CVPR202169.163.952.72089215006036.421.535553.4FairMOT10IJCV202173.772.359.32750711747743.217.3330318.9TrackFormer15C

46、VPR202265.063.9-70443123552-3528-MOTR16ECCV202267.467.0-3235514940034.624.51992-CSTrack20TIP202274.972.3-2384711430341.517.5356716.4Ours74.273.960.12712911633743.819.1236710.9 表 2本文方法与其他先进方法在 MOT20 数据集上的对比结果Table 2The tracking performance comparision between our method and other advanced methods on

47、MOT20 data setMethodYearMOTAIDF1HOTAFPFNMTMLIDSFPSFairMOT10IJCV202161.867.354.61034408890168.87.652438.9TransTrack14arXiv202164.559.2-2856615137749.113.63565-CorrTracker22CVPR202165.273.6-298089951047.612.73369-CSTrack20TIP202266.668.654.02540414435850.415.531964.5Ours67.470.655.64935811737059.612.3

48、20664.8 表 3不同模块对跟踪性能的影响Table 3The impact of different components on the overall tracking performanceMethodMOTAIDF1FPFNMTMLIDSBaseline69.172.819761444314353299Baseline+ConvGRU69.673.424341372915050321Baseline+ConvGRU+Alignment Module70.074.822011371515351320 表 4视频序列输入长度对跟踪性能的影响Table 4The impact of vi

49、deo sequence input length on the overall tracking performanceInput lengthMOTAIDF1FPFNMTMLIDS268.973.524121409214352311369.674.121081399014451319469.673.921561394915252293569.574.122211394715152313870.074.822011371515351320程稳,等.光电工程,2023,50(6):230009https:/doi.org/10.12086/oee.2023.230009230009-7 4.5

50、定性分析除了在基准数据集上进行量化指标的测试，本节也对本文方法与基准方法进行了对比定性分析，通过可视化的结果来分析本文方法在面对多目标跟踪中遮挡、目标形变等问题时表现出的效果。与消融实验一样，将 MOT17 的前半序列作为训练集，MOT17 的后半序列作为验证集，本文在验证集上进行定性分析。图 4 表示本文方法和基准方法的多目标跟踪结果对比图，由于原数据集的图片过大，含有的目标比较多，不方便对比分析，所以截取了中间比较有代表性的一 I DSFPFPMOT17-04#Frame720MOT17-04#Frame723MOT17-04#Frame724FairMOTOursMOT17-04#Fr

展开阅读全文