1、740 Radio Communications TechnologyVol.49 No.4 2023doi:10.3969/j.issn.1003-3114.2023.04.020引用格式:毛焕,陈宇麟,严舒婷,等.结合重识别特征和运动预测的多目标跟踪方法J.无线电通信技术,2023,49(4):740-745.MAO Huan,CHEN Yulin,YAN Shuting,et al.A Multi Object Tracking Method Combining Re-identification Features and Motion Pre-diction J.Radio Commu
2、nications Technology,2023,49(4):740-745.结合重识别特征和运动预测的多目标跟踪方法毛 焕,陈宇麟,严舒婷,陈 锋(福州大学 物理与信息工程学院,福建 福州 350108)摘 要:多目标跟踪是智慧城市交通安防的重要技术之一。为了提高多目标跟踪的准确性并改善真实场景下的遮挡问题,提出了一种结合重识别特征和运动预测的多目标跟踪方法。在多目标检测网络中扩展一个基于卷积神经网络(Convolutional Neural Networks,CNN)的重识别特征分支,提取目标的重识别特征;采用基于置信度的卡尔曼滤波预测模型来预测轨迹的空间分布以改善目标的遮挡问题,结合检
3、测目标和轨迹在重识别特征和位置两方面的相似度来完成目标关联。实验结果表明,所提出的方法在真实行人场景下的跟踪精度优于大多数算法,具备一定的应用潜力。关键词:深度学习;多目标跟踪;卷积神经网络;运动预测中图分类号:TN911 文献标志码:A 开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)04-0740-06A Multi Object Tracking Method Combining Re-identification Features and Motion PredictionMAO Huan,CHEN Yulin,YAN Shuting,CHEN Feng
4、(College of Physics and Information Engineering,Fuzhou University,Fuzhou 350108,China)Abstract:In order to improve the accuracy of multi-object tracking and to improve the real-world occlusion problem,a multi-object tracking method based on combining re-identification features and motion prediction
5、is proposed.Re-identification features of targets are extracted from a convolutional neural network-based re-identification feature branch extended in multi-target detector.A confidence-based Kalman filter prediction model is used to predict the spatial distribution of trajectories to improve the ta
6、rget occlusion problem.And target association is accomplished by combining the detection of similarity between targets and trajectories in terms of both re-iden-tification features and location.Experimental results show that the tracking accuracy of the proposed method in real pedestrian scenarios i
7、s better than most algorithms and has some application potential.Keywords:deep learning;multi object tracking;CNN;motion prediction收稿日期:2023-03-19基金项目:国家自然科学基金(面上项目)(61871132)Foundation Item:National Natural Science Foundation of China(Gene-ral Program)(61871132)0 引言多目标跟踪是计算机视觉领域研究的一个热点问题。它的目标是在视频序列
8、数据中关联感兴趣的目标形成轨迹达到跟踪的效果,在视频分析、安防监控、自动驾驶等领域有重要的应用1。在智慧城市的交通场景中,对行人、车辆等多个目标进行检测跟踪是建设智慧交通的重要环节之一。随着近几年基于深度学习的目标检测算法的发展,多目标跟踪作为目标检测的下游任务,它的跟踪效果也得到了巨大提升,但在真实场景的视频中,目标遮挡、身份切换、复杂背景等问题仍难以解决。大多数的多目标跟踪研究主要分为基于先检测后跟踪的两阶段方法2和端到端跟踪的单阶段方法3。基于先检测后跟踪的方法先使用一个目标检测器得到当前帧的检测结果,将检测结果与轨迹根据特定的关联策略更新轨迹的状态,这类方法的性能非常依赖于检测器的性能
9、。端到端的多目标跟踪方法在近几年受到关注,这类方法需要在一个网络结构中实现检测和跟踪,其性能和基于先检测后2023年第49卷第4期无线电通信技术741 跟踪的方法仍存在差距。本文基于先检测后跟踪的范式,在目标关联阶段使用重识别特征和基于置信度的卡尔曼滤波的运动预测计算检测目标和轨迹之间的相似度,以改善多目标跟踪的遮挡问题,并将重识别特征提取集成到基于卷积神经网络(Convolutional Neural Net-works,CNN)的目标检测器中,减少了网络训练和推理的计算开销。1 相关工作1.1 基于检测的多目标跟踪多目标跟踪算法的研究根据轨迹初始化方式的不同,分为无检测跟踪(Detecti
10、on-Free Tracking,DFT)和基于检测的跟踪(Detection-Based Tracking,DBT)1,DFT 算法需要在首帧中手工标定需要跟踪的目标,再在后续帧中跟踪兴趣目标,难以处理新目标的产生和目标丢失问题。基于检测的多目标跟踪以目标检测为基础实现目标的关联跟踪,因此跟踪的精度受到目标检测器的性能影响。随着近几年深度学习的发展,目标检测性能的提高使 DBT 算法成为目前主流的研究方向。基于检测的多目标跟踪算法在目标检测的基础上,通过特征提取、运动预测等方法描述检测目标和轨迹的状态,再关联目标和轨迹,即为目标分配对应的身份编号。IoU Tracker2直接使用相邻帧间的I
11、oU 距离进行关联,可以达到极高的运行速度,但跟踪性能容易受到遮挡场景的影响。SORT4使用卡尔曼滤波5进行运动预测,有效克服了轨迹在短时遮挡场景下的丢失问题。Deep SORT6在此基础上加入了外观特征和级联匹配的策略,以改善长时遮挡下的跟踪丢失问题。这些基于检测的多目标跟踪算法都以级联的形式处理目标检测和目标关联两部分,在目标关联模块中有基于 CNN 的特征提取网络需要训练,难以实现端到端的多目标跟踪,且训练和计算的成本较为昂贵。1.2 联合检测与跟踪为了降低基于检测的多目标跟踪算法的训练成本,JDE7将重识别特征和目标检测联合训练的网络,在目标检测模型 YOLOv38的检测头中加入一个特
12、征提取分支以表达对应检测目标的特征,实现了单阶段的训练。由于基于锚框的检测器容易存在相邻目标的歧义问题,会使集成在检测头的特征提取分支学习到的特征不够明确,从而影响目标和轨迹的关联,FairMOT9使用基于目标中心点的检测器 CenterNet10,提取目标中心点对应的特征表达,并且平衡了检测任务和特征提取任务的学习,在保持算法的计算速度下获得了更好的跟踪性能。CenterTrack3结合相邻两帧的信息,以 CenterNet 为基础回归当前帧的目标位置和相对偏移量,达到了端到端的多目标跟踪,然而只使用相邻两帧的信息难以处理帧序列中目标长时间丢失的问题。2 多目标跟踪方法本文所提多目标跟踪方法
13、的整体网络结构如图 1 所示,主要由目标检测器和目标关联两个模块组成,其中目标检测器包含了重识别特征分支和检测分支。将视频序列逐帧输入目标检测器,得到每一帧的检测框以及对应的重识别特征。目标关联部分管理了轨迹的生成、更新和销毁等操作,根据当前帧中检测框的位置和对应的重识别特征计算检测框和轨迹的代价矩阵 C,通过匈牙利算法匹配检测框和轨迹,更新当前帧中的轨迹。本文设计的目标关联部分只考虑了过去帧和当前帧的信息,属于在线跟踪方法。图 1 整体网络结构Fig.1 Overall network architecture742 Radio Communications TechnologyVol.49
14、 No.4 20232.1 重识别特征分支为了避免遮挡场景下位置信息不可靠的问题,引入重识别特征度量检测框与轨迹的相似度,重识别特征通常是经过基于 CNN 的网络提取判别式特征,这需要额外训练一个重识别特征提取网络。为了减少额外的计算开销,本方法在检测器的预测头中扩展一个重识别特征分支,以多任务学习的方式训练检测任务和重识别特征提取能力,其中检测器采用基于无锚框的检测器 CenterNet,以避免重识别特征提取分支对相邻目标的锚框产生歧义。在检测器中的多任务头输出尺寸为 howoco的特征图,其中 ho、wo、co分别表示输出特征图的长、宽和通道数,检测任务包括类别分支和检测框分支,通道数分别
15、为类别数量 nc和框的顶点数量 4。类似地,本文提出的重识别特征分支输出尺寸为 howocid的特征图,对于检测输出的每一个目标框,都对应一个通道数为 cid维的重识别特征。重识别特征提取分支的网络结构如图 2 所示,由卷积层、ReLU 非线性激活函数、批归一化(Batch Normalization)层11组成。通过卷积的过程,根据卷积核的大小和步长整合特征图在空间上的相关性,并利用卷积核的数量整合通道之间的相关性,其中最后一层的卷积层将特征通道数调整到重识别特征的目标维数。在两层卷积层中间除了 ReLU 非线性激活函数,还加入了批归一化层将特征分布归一化到超球面,以加快网络收敛速度。图 2
16、 重识别特征提取分支的网络结构Fig.2 Architecture of re-identification branch在训练过程中,重识别特征分支输出的特征集合 Fid=fiid,i1,Np,Np表示模型预测的检测框的数量,fiid 1cid表示第 i 个检测框对应的重识别特征,添加一个线性层生成 Nt个标签分类的分布Pi=pi(j),j1,Nt,pi(j)表示 Pi对应第 j 类的预测概率,以分类任务的形式训练重识别特征分支,使用交叉熵函数作为损失函数。具体的过程表示如下:Lid=-Npi=1Ntj=1Li(j)lbpi(j),Pi=Linear(fiid)。在目标关联过程中,计算检测框
17、与轨迹的代价矩阵 C 中结合了重识别特征的代价矩阵 Cid,由于重识别特征不依赖目标的位置信息,可以作用于目标在遮挡后的身份匹配的场景,改善由于遮挡导致的身份切换(ID Switch,IDS)的问题。以 Ftrack=f jtrack,j1,Ntrack表示轨迹的特征集合,Ntrack表示当前轨迹的数量,使用余弦距离计算检测框特征与轨迹特征之间的代价,得到重识别特征的代价矩阵 Cid=d(fiid,fjtrack),i1,Np,j1,Ntrack,其中 d(fiid,fjtrack)表示如下:d(fiid,fjtrack)=1-fiid,fjtrack|fiid|2|fjtrack|2。由于光
18、照、遮挡等因素的影响,目标的特征在不同的帧中存在变化,因此以平滑的方式更新轨迹的重识别特征,对于匹配到的轨迹特征 fjtrack和检测框的特征 fiid,具体的更新过程表示如下:fjtrack=fjtrack+(1-)fiid,式中:f jtrack为更新后的轨迹特征,是一个平滑系数,设为 0.9。2.2 基于目标置信度的运动预测在检测框目标与轨迹的关联中,位置信息是重要的参考维度。直接使用 IoU 距离计算当前帧下的检测框与轨迹在前一帧的位置。虽然有极高的计算速度,但是忽略了目标的运动信息,面对遮挡、运动等复杂情况存在 IDS 的问题。为了提高关联过程的抗遮挡性能,使用卡尔曼滤波器建立运动模
19、型,预测目标的运动状态,将目标的状态量定义为一个八维的状态空间向量(x,y,a,h,vx,vy,va,vh),包含了检测框的中心点位置(x,y)、框的宽高比 a、框的高度h 以及各自的速度(vx,vy,va,vh)。在标准的卡尔曼滤波中生成的测量噪声协方差 R 是一个常量矩阵,来源于观测器件的精度误差,在多目标跟踪任务中为目标轨迹在每一帧中的检测框的不确定程度,对于高置信度的检测框不确定程度应当低,低置信度的检测框不确定程度高,对于不同检测框的误差应当不同,然而使用常量矩阵作为测量噪声协方差 R忽略了检测框的置信度变化。因此,本文使用一种2023年第49卷第4期无线电通信技术743 基于置信度
20、自适应的噪声误差:R=(1-c2track)R,式中:ctrack是轨迹的置信度分数,噪声协方差 R 与轨迹置信度 ctrack呈负相关。轨迹置信度分数 ctrack在目标完成关联后根据匹配到的检测框的置信度cdet进行更新,提出一种基于轨迹跟踪时长的轨迹置信度的计算方法:ctrack=1-e-lL1+e-lLcdet,式中:cdet表示当前帧检测框的置信度,L 为一个缩放尺度因子,设为 30,l 表示轨迹的跟踪时长,即轨迹在视频序列中存在的帧数。由于遮挡等场景导致的身份切换问题,跟踪时长短的轨迹存在可能是旧轨迹身份切换而创建的新轨迹;反之,对于跟踪时长长的轨迹一般不存在这个情况,因此以一个与
21、轨迹跟踪时长正相关的关系表示跟踪置信度 ctrack,对跟踪时长短的轨迹给予较小的置信度,跟踪时长长的轨迹给予较大的置信度。通过基于目标置信度的卡尔曼滤波预测轨迹在当前帧的运动状态,将当前帧的检测框的集合表示为 Bpred=bipred,i1,Np,检测框轨迹的预测位置框的集合表示为 Btrack=bjtrack,j1,N,使用IoU 距离计算检测框的位置与轨迹的位置之间的代价矩阵 Cbbox=d(bipred,bjtrack),i1,Np,j1,Ntrack,其中 d(bipred,bjtrack)表示如下:d(bipred,bjtrack)=1-bipredbjtrackbipredbjt
22、rack。通过融合特征代价矩阵 Cid和位置代价矩阵Cbbox得到最终的代价矩阵 C,在关联更新部分中参考文献12使用层次化的多次关联策略,利用匈牙利算法完成轨迹和检测框的关联更新。3 实验结果和分析3.1 数据集本文基于 MOT1713多目标跟踪数据集进行训练并评估跟踪算法的性能。MOT17 数据集多个不同的包含了室内和室外公共场所场景的视频序列帧,以行人作为跟踪目标,并在训练集中公开提供了3 个不同的检测器对目标的检测结果作为目标框的真实值,检测器包括了 SDP14、Faster-RCNN15和DPM16。由于缺少公开的 MOT17 测试集标签供性能评估,本文基于修改的 MOT17 训练集
23、进行实验。其中,将每个序列帧平均划分成两部分,前半部分作为训练集进行训练,后半部分作为验证集以评估算法性能。所有评估实验均在配置为 Intel i9-9900X CPU、NVIDIA GeForce RTX 2080 Ti GPU 和 64 GB内存的机器上进行。3.2 评价指标本文从多目标任务的目标跟踪准确度以及身份识别精度两方面对多目标跟踪算法的性能进行全面分析。对于多目标跟踪准确度(Multiple Object Tracking Accuracy,MOTA)17,定义如下:MOTA=1-FN+FP+IDSWGT,式中:FN、FP、GT 分别表示整个序列帧中的漏检目标数量、误检目标数量和
24、真实目标数量,IDSW 表示发生身份切换的次数。本文使用 IDSW 和身份编号的 F1值(IDF1)18衡量多目标跟踪算法的身份识别精度,定义如下:IDF1=2IDTP2IDTP+IDFP+IDFN,式中:IDFN、IDFP、IDTP 分别表示身份编号的假阴、假阳和真阳数量。3.3 实验细节本文采用 Adam 优化器进行训练,具体的优化参数为:总共训练 30 epoch,学 习 率 为 10-4,在20 epoch 后衰退至 10-5,Batch Size 设置为 12,输入图像尺度统一调整至 1 088608 的解析度大小,不使用任何额外的数据增强。所有训练实验均使用两张 NVIDIA Ge
25、Force RTX 2080 Ti GPU 完成并行训练,开发环境采用 Python 3.8.0 编程语言和 Pytorch 1.7.1 深度学习框架。3.4 消融实验本节进行两组消融实验来研究所提出的方法的有效性以及性能的提升,所有消融的运行环境保持一致。3.4.1 重识别特征分支的有效性本组实验对重识别特征分支的有效结构进行了探究,分别设置了不同的分支结构进行评估,结构 1由卷积层、批归一化层、Dropout 层19、ReLU 激活函数、卷积层组成;结构 2 由卷积层、批归一化层、Dropout 层组成。本文使用的重识别特征分支结构由卷积层、ReLU 激活函数、批归一化层组成,实验结果如表
26、 1 所示。744 Radio Communications TechnologyVol.49 No.4 2023表 1 采用不同结构的重识别特征分支在 MOT17验证集的实验结果Tab.1 Experimental results using different structures of re-identified branches in the MOT17 validation set分支结构IDF1/%MOTA/%IDSW170.967.6473263.566.8686本文7 72 2.4 46 68 8.1 14 45 58 8 通过对表 1 的分析,本文使用的重识别特征分支结构在
27、MOT17 验证集上的 IDF1、MOTA 和 IDSW均优于结构 1 和结构 2。另外,本文使用的网络结构只有一层卷积层和批归一化层需要训练参数,在使用较少的计算资源下获得了更好的重识别特征效果。3.4.2 基于置信度的卡尔曼滤波的有效性本组实验评估对比了常规的卡尔曼滤波器和基于目标置信度的卡尔曼滤波器的性能,并探究了基于轨迹跟踪时长的轨迹置信度分数对性能的影响。结果如表 2 所示,其中 R 表示常量噪声协方差,Rc加入基于置信度的自适应噪声协方差,R(c,l)引入了基于轨迹跟踪时长的置信度计算。表 2 采用不同噪声协方差在 MOT17 验证集的实验结果Tab.2 Experimental
28、results using different noise covariances in the MOT17 validation set噪声IDF1/%MOTA/%IDSWR72.468.1458Rc72.76 68 8.2 2460R(c,l)7 73 3.0 06 68 8.2 24 44 42 2在相同的网络结构下,不同的噪声矩阵对MOTA 指标的影响较小,在 IDF1 指标中,加入置信度的噪声矩阵 Rc和引入置信度和轨迹时长计算的噪声矩阵 R(c,l)相比常量噪声矩阵分别提高了 0.3%和 0.6%,另外,加入轨迹时长计算的噪声矩阵 R(c,l)有效降低了 IDSW 的次数,验证了本
29、文提出的基于置信度的卡尔曼滤波器和基于轨迹时长的置信度计算的有效性。3.5 对比实验为了验证本文所提出的方法的有效性,本节与其他较为先进的算法进行了比较,表 3 展示了不同方法在 MOT17 验证集上评估的性能结果。其中加粗字体为最优结果。表 3 不同方法在 MOT17 验证集的实验结果Tab.3 Experimental results of different methods on MOT17 validation set方法IDF1/%MOTA/%IDSW文献765.060.3474文献971.867.7463本文7 73 3.0 06 68 8.2 24 44 42 2 从表 3 可以
30、看到,本文提出的方法在 MOT17 验证集上的性能相较于次优的结果,在 IDF1、MOTA指标上分别提高了 1.2%和 0.5%,IDSW 降低了 21,达到了最优的性能结果。图 3 展示了本文方法的可视化跟踪结果,可以看到在对于小目标和复杂遮挡下仍然存在漏检和 IDSW 的情况,因此,仍需要进一步探索更优的检测和跟踪。图 3 本文方法在 MOT17 上的可视化结果Fig.3 Visualization result of the proposed method on MOT17 dataset4 结束语本文提出了一种结合重识别特征和运动预测的多目标检测算法。在目标检测器的检测头基础上集成了一
31、个重识别特征提取分支,降低了多目标跟踪网络的训练成本。使用基于目标置信度的卡尔曼滤波器预测轨迹的运动状态,并结合重识别特征信息完成轨迹和检测框的关联,改善复杂场景下的遮挡问题。在 MOT17 验证集上的实验结果表明,本模型在跟踪精度上优于大多数算法。此外,将进一步研究并实现端到端的多目标跟踪算法,从而促进实际场景中的算法部署。参 考 文 献1 LUO W,XING J,MILAN A,et al.Multiple Object Track-ing:A Literature ReviewJ.Artificial Intelligence,2021,293:103448.2023年第49卷第4期无
32、线电通信技术745 2 BOCHINSKI E,EISELEIN V,SIKORA T.High-speed Tracking-by-detection Without Using Image InformationC2017 14th IEEE International Conference on Ad-vanced Video and Signal Based Surveillance(AVSS).Lecce:IEEE,2017:1-6.3 ZHOU X,KOLTUN V,KRHENBHL P.Tracking Ob-jects as Points C Computer VisionEC
33、CV 2020.Glasgow:ECCV,2020:474-490.4 BEWLEY A,GE Z,OTT L,et al.Simple Online and Real-time TrackingC2016 IEEE International Conference on Image Processing(ICIP).Beijing:IEEE,2016:3464-3468.5 KALMAN R E.A New Approach to Linear Filtering and Prediction ProblemsJ.Journal of Basic Engineering,1960,82(1)
34、:35-45.6 WOJKE N,BEWLEY A,PAULUS D.Simple Online and Realtime Tracking with a Deep Association MetricC2017 IEEE International Conference on Image Processing(ICIP).Beijing:IEEE,2017:3645-3649.7 WANG Z,ZHENG L,LIU Y,et al.Towards Real-time Multi-object Tracking C Computer VisionECCV 2020.Glasgow:ECCV,
35、2020:107-122.8 REDMON J,FARHADI A.Yolov3:An Incremental Im-provementJ/OL.(2018-04-08)2023-03-11.https:arxiv.org/abs/1804.02767.9 ZHANG Y F,WANG C Y,WANG X G,et al.Fairmot:On the Fairness of Detection and Re-identification in Multiple Object Tracking J.International Journal of Computer Vision,2021,12
36、9(11):3069-3087.10 ZHOU X,WANG D,KRHENBHL P.Objects as PointsJ/OL.(2019-04-16)2023-04-11.https:arxiv.org/abs/1904.07850.11 IOFFE S,SZEGEDY C.Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate ShiftC ICML15:Proceedings of the 32nd Internation-al Conference on Intern
37、ational Conference on Machine Learning.Lille:PMLR,2015:448-456.12 CHEN L,AI H,ZHUANG Z,et al.Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-identificationC2018 IEEE Internation-al Conference on Multimedia and Expo(ICME).San Die-go:IEEE,2018:1-6.13 MILAN A,LE
38、AL-TAIX L,REID I,et al.MOT16:A Benchmark for Multi-Object TrackingJ/OL.(2016-03-02)2023-03-15.http:arxiv.org/abs/1603.00831.14 YANG F,CHOI W,LIN Y.Exploit All the Layers:Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection ClassifiersCProceed-ings of the IEEE Con
39、ference on Computer Vision and Pat-tern Recognition.Las Vegas:IEEE,2016:2129-2137.15 REN S,HE K,GIRSHICK R,et al.Faster R-CNN:To-wards Real-time Object Detection with Region Proposal NetworksJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.16 FELZENSZWALB P F,GIR
40、SHICK R B,MCALLESTER D,et al.Object Detection with Discriminatively Trained Part-based ModelsJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.17 BERNARDIN K,STIEFELHAGEN R.Evaluating Multiple Object Tracking Performance:The Clear Mot MetricsJ.EURASIP Journal on I
41、mage and Video Processing,2008(1):1-10.18 RISTANI E,SOLERA F,ZOU R,et al.Performance Measures and a Data Set for Multi-target,Multi-camera Tracking C Computer VisionECCV 2016 Work-shops.Amsterdam:ECCV,2016:17-35.19 HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving Neural Networks by Preventing Co-adaptation of Feature DetectorsJ/OL.(2012-07-03)2023-03-15.https:arxiv.org/abs/1207.0580.作者简介:毛 焕福州大学硕士研究生。主要研究方向:计算机视觉、多目标跟踪。陈宇麟福州大学硕士研究生。主要研究方向:计算机视觉、多目标跟踪。严舒婷福州大学硕士研究生。主要研究方向:计算机视觉、多目标跟踪。陈 锋博士,福州大学副教授,硕士生导师。主要研究方向:下一代视频通信、5G 人工智能。主持国家自然科学青年基金、福建省自然科学基金和多项横向课题。