基于车辆外观特征和帧间光流的目标跟踪算法.pdf

资源描述

1、第42卷第1期2024年1月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.42 No.1Jan.2024DOI:10.3969/j.issn.0255-8297.2024.01.009基于车辆外观特征和帧间光流的目标跟踪算法李绍骞1，程鑫1，周经美2，赵祥模11.长安大学信息工程学院，陕西西安 7100642.长安大学电子与控制工程学院，陕西西安 710064摘摘摘要要要：在复杂道路场景下，车辆目标之间频繁遮挡、车辆目标之间相似的外观、目标整个运动过程中采用静态预设参数都会引起跟

2、踪准确率下降等问题。该文提出了一种基于车辆外观特征和帧间光流的目标跟踪算法。首先，通过 YOLOv5 算法中的 YOLOv5x 网络模型获得车辆目标框的位置信息；其次，利用 RAFT(recurrent all-pairs field transforms for opticalflow)算法计算当前帧和前一帧之间的光流，并根据得到的位置信息对光流图进行裁剪；最后，在卡尔曼滤波过程中利用帧间光流进行补偿得到更精确的运动状态信息，并利用车辆外观特征和交并比特征完成轨迹匹配。实验结果表明，基于车辆外观特征和帧间光流的目标跟踪算法在 MOT16 数据集上表现良好，相较于跟踪算法 DeepSORT，成

3、功跟踪帧数占比提高了 1.6%，跟踪准确度提升了 1.3%，跟踪精度提升了 0.6%，改进的车辆外观特征提取模型准确率在训练集和验证集上分别提高了 1.7%、6.3%。因此，基于高精度的车辆外观特征模型结合关联帧间光流的运动状态信息能够有效实现交通场景下的车辆目标跟踪。关键词：目标跟踪；车辆外观特征；帧间光流；卡尔曼滤波中图分类号：TP391.4文章编号：0255-8297(2024)01-0103-16Object Tracking Algorithm Based onVehicle Appearance Features andInter-frame Optical FlowLI Shao

4、qian1,CHENG Xin1,ZHOU Jingmei2,ZHAO Xiangmo11.College of Information Engineering,Changan University,Xian 710064,Shaanxi,China2.College of Electronic and Control Engineering,Changan University,Xian 710064,Shaanxi,ChinaAbstract:In complex road scenes,frequent occlusions and similar appearances between

5、vehicle targets,coupled with the use of static preset parameters used throughout the entiremovement of the targets collectively contribute to a decline in tracking accuracy.Thispaper proposes an object tracking algorithm based on vehicle appearance features andinter-frame optical flow.Firstly,the po

6、sition information of the vehicle target frame is收稿日期：2023-06-29基金项目：国家重点研发计划（No.2021YFB2501200）；国家自然科学基金（No.52102452）；陕西省重点研发计划（No.2023-YBGY-119）；陕西省自然科学基础研究计划面上项目（No.2023-JC-YB-523）；陕西省创新能力支撑计划（No.2022KJXX-02）；陕西省交通运输厅交通科研项目（No.21-05X）；陕西省高校科协青年人才托举计划（No.20210122）；中央高校基本科研业务费专项资金项目（No.300102242203

7、）资助通信作者：程鑫，副教授，研究方向为深度学习与计算机视觉、人工智能与车联网技术。E-mail:104应用科学学报第42卷obtained through the YOLOv5x network model.Secondly,the optical flow between thecurrent frame and the previous frame is calculated using the RAFT(recurrent all-pairsfield transforms for optical flow)algorithm,and the optical flow map is c

8、lipped accordingto the obtained position information.Finally,in the process of Kalman filtering,inter-frameoptical flow is used to compensate for more accurate motion state information,while ve-hicle appearance features and intersection over union(IOU)features are used to completetrajectory matching

9、.Experimental results show that the tracking algorithm correlatinginter-frame optical flow performs well on the MOT16 data set.Compared with simpleonline and realtime tracking with a deep association metric(DeepSORT),mostly trackedtrajectories(MT)has increased by 1.6%,multiple object tracking accura

10、cy(MOTA)hasincreased by 1.3%,and multiple object tracking precision(MOTP)has increased by 0.6%.The accuracy of the improved vehicle appearance feature extraction model has been im-proved by 1.7%and 6.3%on the training and verification sets,respectively.Consequently,leveraging the high-precision vehi

11、cle appearance feature model and motion state informa-tion from the associated inter-frame optical flow enables effective vehicle target tracking intraffic scenes.Keywords:object tracking,vehicle exterior features,inter-frame optical flow,Kalmanfilter目标跟踪算法在机器人视觉、视频监控和无人驾驶等领域有着广泛的应用1，实现高精度和实时的目标跟踪是一

12、项具有挑战性的任务。目标跟踪主要利用目标检测算法、数据关联2与运动估计算法3-4进行处理，首先，通过目标检测算法得到图像中目标的位置信息，之后通过数据关联与运动估计算法预测并更新目标整个运动过程的轨迹信息。在理想情况下，整个运动过程中目标 ID 的变换周期与目标出现到消失的周期相同，并且在这一周期内 ID 不发生变换5。但是道路环境复杂、车辆目标之间的频繁遮挡和相似的外观导致跟踪算法的准确率降低6，并且多数目标跟踪算法仅采用预设参数作为目标整个运动过程的运动状态参数，因此，寻找一个更具有普适性的参数来描述目标运动的状态，对提升目标跟踪算法的准确率具有重要意义。1相关工作为解决上述提到的频繁遮挡

13、以及相似外观带来的跟踪算法准确率降低等问题，目前常用的方法是通过深度学习模型来提取目标外观特征，然后计算目标的外观相似性。例如，可以将卷积神经网络（convolutional neural network,CNN）集成到经典的目标跟踪算法中提取目标的外观特征，在后续的跟踪过程中利用不同目标之间的外观特征计算两者间的外观相似性来重新识别对象7，进而完成相同目标之间匹配的任务。常见的跟踪算法 DeepSORT（simpleonline and realtime tracking with a deep association metric）采用检测和 Re-ID 模型分离的策略实现跟踪，相较于联合

14、检测和 Re-ID 模型8-10的跟踪算法，分离策略的模型更加简单，且耦合性更低，因此本文选择检测和 Re-ID 模型分离的 DeepSORT 作为跟踪的基础算法。光流描述的是连续两帧之间的运动信息。在深度学习未应用于计算机视觉领域之前，通常利用 Horn-Schunck 和金字塔 LK（Lucas-Kanada）计算图像间的光流信息，之后可以通过光流图进行展示，光流图中不同的颜色以及颜色的深浅代表像素速度大小和方向信息。文献 11-12 通过 CNN 直接对两帧之间的光流进行预测，避开了传统算法需要优化的问题。文献 13 提出的 PWC-Net（CNNs for optical flow u

15、sing pyramid,warping and cost volume）通过卷积神经网络得到图像特征，从低分辨率开始估计光流，之后上采样到高分辨率，同时构建第1期李绍骞，等：基于车辆外观特征和帧间光流的目标跟踪算法105成本代价矩阵预测当前分辨率的光流，逐步得到最终分辨率的光流，后续很多光流算法基于此框架实现。文献 14 提出的 RAFT（recurrent all-pairs field transforms for optical flow）通过卷积神经网络逐像素点提取特征，构建 4D 像素点关联性金字塔，通过像素点的 4D 关联信息，利用门控循环神经网络迭代更新光流场。RAFT 通过不

16、同尺度的光流相关性特征，解决了不同尺度光流估计不准确的问题。随着 CNN 的发展，研究人员首先将孪生网络应用于目标跟踪领域，通过基于端到端的全卷积孪生网络计算后续图像帧与第 1 帧模板之间的相似度特征，进而解决目标遮挡的问题，但当图像出现多个目标交替遮挡时跟踪性能会大幅下降。文献 6 提出的新型多目标跟踪网络，首先利用孪生网络提取待检测目标的外观信息，再通过光流和卡尔曼滤波计算得到运动信息，最后将目标与现有轨迹关联起来得到跟踪结果。近年来，Tracking-by-detection7已成为主要的跟踪范式，这得益于深度学习和目标检测技术的成熟。Tracking-by-detection主要分为检

17、测和关联匹配两步。首先对象检测器独立发现视频流中每一帧的潜在目标，然后与上一步中得到的检测进行关联。Tracking-by-detection 根据位置或身份特征维护每个轨迹的状态，并根据其最后可见状态将当前帧检测与每个轨迹相关联15。文献 16 提出的目标跟踪算法 SORT（simple online and realtime tracking）首次在多目标跟踪问题上应用Tracking-by-detection 架构，该算法更加注重于实时在线跟踪，以 Faster RCNN 作为目标检测算法，向跟踪器中输入前一帧和当前帧的检测信息，通过卡尔曼滤波算法和匈牙利算法关联前后两帧的数据，进而实现

18、目标的跟踪，但这种方法的数据关联度量信息有限，无法满足遮挡情况下的目标跟踪需求。基于 Tracking-by-detection 架构的方法需要两个模块都进行特征提取，实时性较差，为此文献 10 提出的检测和跟踪联合（joint detection and embedding,JDE）算法将检测和跟踪模块集成到单一网络中进行训练，该方法能够通过单一网络实现分类、定位与跟踪任务，但较易产生误检。文献 17 提出了一种基于卡尔曼滤波器和匈牙利算法的跟踪方法。该方法首先利用卡尔曼滤波器建立运动模型，然后利用匈牙利算法对目标间的关联进行优化求解。该算法在实时速度上具有明显优势，但当目标运动复杂且当前帧

19、中目标检测丢失时，卡尔曼滤波器预测的边界框与输入不匹配，不可避免地会漏掉一些轨迹。受上述文献启发，针对车辆目标跟踪任务，本文充分考虑目标跟踪算法静态预设参数的不确定性，设计了基于相邻帧光流变化的运动状态信息更新算法；考虑车辆目标运动过程中发生的遮挡和相似外观问题，设计了车辆外观特征提取模型，提出了基于车辆外观特征和帧间光流的目标跟踪算法。2跟踪算法流程跟踪算法流程如图 1 所示。选择相邻两帧图像作为 RAFT 算法的输入，计算光流场变化并生成光流场变化图；通过 YOLOv5 算法中的 YOLOv5x 网络模型获得车辆目标框的位置信息；利用车辆目标框的位置信息对光流场变化图进行裁剪得到光流小图，

20、即帧间光流；在卡尔曼滤波更新运动状态信息时利用帧间光流进行补偿进而得到更精确的运动状态信息，并利用车辆外观特征和交并比（intersection over union,IOU）完成轨迹匹配，实现目标跟踪任务。图 2 为跟踪算法的详细流程图。2.1关联帧间光流光流法是计算相邻帧之间像素运动信息的方法，计算出的光流表示像素在时间域 x 和 y方向上的运动变化。假设图像上的一个像素点(x,y)在 t 时刻的亮度为 I(x,y,t)，根据亮度恒定假设，在 t+dt 时刻的亮度 I(x+dx,y+dy,t+dt)与 t 时刻的亮度相等，即106应用科学学报第42卷?图 1 算法流程图Figure 1 A

21、lgorithm flow chartFrame1Frame2RAFTYOLOv5?IOU?max_ageFrame2?t(1)(5)式中：t(1)为 2对应 95%置信度阈值，本文取 9.487 7；当 d(1)(i,j)小于阈值时，s(1)i,j取 1，表示预测框和检测框关联成功，否则为 0。为解决当被遮挡目标重新出现在图像中时 ID 的变换问题，需要对一部分帧中的特征进行保存，由集合 Fk表示，公式为Fk=f(i)k,k 1,Lk(6)式中：Lk为存储特征的长度，本文设置为 100。DeepSORT 选择最小余弦距离对外观特征进行度量，公式为d(2)(i,j)=min1 fTjf(i)k

22、|f(i)k Fi(7)式中：d(2)(i,j)为第 i 个关联轨迹与第 j 个检测框的外观特征最小余弦距离。fTjf(i)k为最小余弦距离的归一化结果，与利用马氏距离判断两者相似的方法类似，通过 2设置阈值 t(2)，再根据 d(2)(i,j)判断是否关联，表示为s(2)i,j=1,d(2)(i,j)6 t(2)0,d(2)(i,j)t(2)(8)通过运动特征和外观特征构造关联度量函数，公式为ci,j=d(1)(i,j)+(1 )d(2)(i,j)(9)式中：为两种特征的比例系数。计算出来的 ci,j越小表示第 i 条轨迹和第 j 个检测框相似性越大。算法中关联度量还涉及外观特征，通过使用

23、WarmUp 结合 CosineAnnealingLR 的方法在 VERI-Wild 数据集训练车辆外观特征模型，保证外观特征的检测精度，为外观特征的度量提供了更加准确的外观特征提取模型。综合考虑运动状态特征和外观特征来判断第 i 条轨迹和第 j 个检测框是否关联成功，公式为si,j=2Ym=1s(m)i,j(10)基于关联度量的结果利用匈牙利算法进行最优匹配。运动状态信息是后续运动状态度量的重中之重，其中，状态信息中的 x、y 方向的速度由控制位置的方差权重和控制速度的方差权重估计得到。算法引入帧间光流，光流即相邻图像帧间像素在 x、y 方向的速度，通过实时计算连续帧间光流替换卡尔曼滤波过程

24、状态信息中的速度量，融合光流后的运动状态信息相对于使用速度估计值的原始 DeepSORT 算法所采用的运动状态信息，能够对算法的预测过程提供更有利的支撑。引入光流后状态信息转变为：(x,y,a,h,flowx,flowy,a0,h0)，其中 flowx和 flowy分别为检测框中心坐标在 x 和 y 方向上的瞬时速度，a0为检测框长宽比的瞬时速度，h0为检测框高的瞬时速度。第1期李绍骞，等：基于车辆外观特征和帧间光流的目标跟踪算法1113实验分析3.1实验平台与数据集实验均基于 python 语言和 pytorch 1.7.0 框架进行实现，实验操作系统为 Windows 10，实验平台内存为

25、 32 G，CPU 为 Intel Coffeelake I9-9900 CPU，GPU 为 GeForce RTX 3090，显存 24 G，CUDA 版本为 11.0。训练目标检测模型选择 BDD100K 自动驾驶数据集，此数据集是目前规模最大、最多样化的开源数据集，由 100 000 个视频组成，每个视频大约 40 s，清晰度为 720 P，视频刷新率为30 帧/s，总时间超过 1 100 h，涵盖了交通场景中多种类的目标，并对道路上常见的目标标注边界框，与此同时，BDD100K 涵盖了道路上出现频次最高的 Bus、Truck、Car 的 3 种数据，能够满足模型应用于交通场景的需求。训

26、练车辆外观特征模型选择 VERI-Wild 数据集，此数据集包含由 174 个摄像头捕获的监控网络，覆盖区域超过 200 km2，是第 1 个无约束条件收集的车辆数据集，该数据集涵盖了4 万辆汽车构成的 40 万幅图像，并且为每辆汽车分配了 ID。同时，此数据集相对于 VeRI-776数据集和 VehicleID 数据集在视角、光照、背景和遮挡 4 个方面更加复杂。选择目标跟踪领域中最常用的 MOT Challenge 数据集中的 MOT1618验证跟踪算法的有效性，MOT16 共有 14 个视频，训练集和测试集各有 7 个，视频中的场景采用固定场景的摄像头和移动摄像头进行拍摄，不同视频的拍摄

27、角度、天气、时间均不同，并且待跟踪目标群体密度较高。数据集提供了训练集的标注、训练集和测试集的检测结果，为目标跟踪任务提供了便利。另外，MOT Challenge 数据集主要侧重行人跟踪，本文主要利用该数据集验证所提出跟踪算法的有效性。3.2实验评价指标为评估检测模型的性能，使用目标检测领域典型的评价指标平均精度（average precision,AP）和平均精度均值（mean average precision,mAP），同时，为评估目标跟踪算法的性能，使用目标跟踪领域典型的评价指标，包括多目标跟踪准确度（multiple object tracking accuracy,MOTA）、多目

28、标跟踪精度（multiple object tracking precision,MOTP)、多数被跟踪轨迹MT（mostly tracked trajectories）、识别 F1 值（Identification F1-Score,IDF1）和高阶跟踪精度（higher order tracking accuracy,HOTA）。AP 指目标检测过程中准确率 Pprecision和召回率 Rrecall绘制的 PR 曲线与 x 轴围成区域的面积，Pprecision和 Rrecall的公式分别为Pprecision=TP/(TP+FN)(11)Rrecall=TP/(TP+FP)(12)式

29、中：TP 为正确检测到目标的数量；FN 为未正确检测到目标的数量；FP 为检测错误的目标数量。mAP 表示所有检测类别 AP 的平均值，公式为mAP=nXi=1APi/n(13)目标跟踪的指标主要有 MT（mostly tracked），常用来指 80%时间内成功匹配成功的次数，另外本文还选用了 MOTP，MOTA、IDF1 和 HOTA，公式分别为MOTP=1 Xt,idit/Xtct(14)112应用科学学报第42卷式中：dit为第 i 帧检测框和预测框之间的距离；ct为第 t 帧的成功匹配数；MOTP 越高表示精度越高。MOTA=1 Xt(mt+fpt+mmet)/Xtgt(15)式中：

30、mt为第 t 帧漏检的数量；fpt为第 t 帧误报数量；mmet表示第 t 帧匹配错误的数量；MOTA 是衡量跟踪算法性能最主要的指标，其值越接近 1 表示算法性能越好。IDF1 综合了目标重识别和位置两个方面的性能，能够更全面地衡量跟踪算法的综合性能，不仅考虑正确的匹配，还考虑了漏检和误检的情况。公式为IDF1=2IDTP2IDTP+IDFP+IDFN(16)式中：IDTP 为真正的 ID 数；IDFP 为假阳的 ID 数；IDFN 为假阴的 ID 数。HOTA 综合了多个指标，包括误检率、漏检率、ID 混淆率、轨迹错误率以及目标重识别的准确率；HOTA 指标引入了目标重识别的准确率，能够更

31、好地评估目标的外观变化问题。相关公式为HOTA=vuutPcTPA(c)|TP|+|FN|+|FP|(17)A(c)=|TPA(c)|TPA(c)|+|FNA(c)|+|FPA(c)|(18)TPA(c)=k,k TP|prID(k)=prID(c)gtID(k)=gtID(c)(19)FNA(c)=k,k TP|prID(k)6=prID(c)gtID(k)=gtID(c)FN|gtID(k)=gtID(c)(20)FPA(c)=k,k TP|prID(k)=prID(c)gtID(k)6=gtID(c)FP|prID(k)=prID(c)(21)式中：prID(k)表示预测身份为k 的目标

32、；gtID(k)表示真实身份为k 的目标；TPA(c)、FNA(c)和 FPA(c)分别表示身份为 c 的匹配目标、漏检目标和虚检目标。可以看到 HOTA 指标不仅考虑了跟踪的准确性还关注了匹配目标的身份正确性，因此更能反映跟踪算法的综合性能。3.3车辆检测模型分析综合考虑检测速度、精确度等多方面因素，选择整体检测性能较好的 YOLO 系列算法，其中 YOLOv5 具有检测准确率较高、算法运行速度快、应用成熟等优势，因此本文选择YOLOv5 算法作为目标跟踪中的检测器。YOLOv5 系列包含了 4 种不同的网络模型，分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x，且这 4

33、种网络模型的体积逐渐扩大，检测准确率逐渐升高。在 BDD100K 的基础上，采用不同的网络模型进行训练，训练使用的数据集中包含 100 000 万幅图像，训练集、测试集、验证集比例为 721，网络训练超参数如表 2 所示。主要关注 Bus、Truck、Car 这 3 个种类的平均精度、所有类别的 mAP 和不同交并比阈值下的 mAP。由表 3 可知，在 4 种网络模型训练得到的结果中，YOLOv5x 在 Car、Bus、Truck这 3 个类别上的 AP 均高于其他 3 种网络模型，同时 mAP 也高于其他 3 种检测模型。为进一步对比网络模型在真实场景中的检测能力，选取检测精度相对较高的

34、YOLOv5l、YOLOv5x进行实际应用场景的测试。第1期李绍骞，等：基于车辆外观特征和帧间光流的目标跟踪算法113表 2 网络训练超参数Table 2 Network training hyperparameters训练参数名称参数值初始学习率0.01学习率下降参数0.000 1权重衰减系数0.000 5批处理大小8训练批次200图像输入尺寸/像素640640表 3 网络模型检测性能Table 3 Network model checking performance%Network modelsCar APBus APTruck APmAP0.5mAP.5:.95YOLOv5s76.961

35、.462.767.045.3YOLOv5m78.163.863.568.247.7YOLOv5l79.865.266.169.449.1YOLOv5x80.766.567.771.351.6为直观展示检测模型的有效性，选取某高速隧道数据进行分析，图 711 为不同场景下模型检测效果图，各图(a)(c)分别展示交通场景原图、YOLOv5l 网络模型检测结果图、YOLOv5x 网络模型检测结果图。在图 7 所示的红色矩形选中区域内，YOLOv5l 将远处的car 检测为 truck，YOLOv5x 模型正确检测；在图 8 所示的红色矩形选中区域内，YOLOv5l检测模型相较于 YOLOv5x 检测

36、模型对 car 检测的置信度更低，此外，YOLOv5l 检测模型误将墙壁上背景检测为目标；在图 9 所示的红色矩形选中区域内，YOLOv5l 检测模型将 truck检测为 train 并且检测置信度较低；在图 10 所示的红色矩形选中区域内，YOLOv5l 检测模型未检测出驶入图像范围内目标车辆，YOLOv5x 模型正确检测；在如图 11 所示的红色矩形选中区域内，YOLOv5l 检测模型将路障检测为目标车辆，YOLOv5x 模型未发生此类问题。(a)?(a)Original picture of traffic scene(b)YOLOv5l?(b)YOLOv5l detection res

37、ults(c)YOLOv5x?(c)YOLOv5x detection results图 7 模型误检效果对比Figure 7 Comparison of model false detection effects114应用科学学报第42卷(a)?(a)Original picture of traffic scene(b)YOLOv5l?(b)YOLOv5l detection results(c)YOLOv5x?(c)YOLOv5x detection results图 8 模型误检效果对比Figure 8 Comparison of model false detection effec

38、ts(a)?(a)Original picture of traffic scene(b)YOLOv5l?(b)YOLOv5l detection results(c)YOLOv5x?(c)YOLOv5x detection results图 9 模型误检效果对比Figure 9 Comparison of model false detection effects(a)?(a)Original picture of traffic scene(b)YOLOv5l?(b)YOLOv5l detection results(c)YOLOv5x?(c)YOLOv5x detection resul

39、ts图 10 模型漏检效果对比Figure 10 Comparison of model missing detection effect(a)?(a)Original picture of traffic scene(b)YOLOv5l?(b)YOLOv5l detection results(c)YOLOv5x?(c)YOLOv5x detection results图 11 模型误检效果对比Figure 11 Comparison of model false detection effects第1期李绍骞，等：基于车辆外观特征和帧间光流的目标跟踪算法115文献 17 研究表明，检测模型

40、作为“Tracking-by-detection”二阶段目标跟踪策略中的关键要素，对目标跟踪性能有 18.9%的影响。于是本文在 BDD100K 的基础上，采用不同的网络模型进行训练，通过对比不同网络模型在检测指标、真实应用场景的表现，选择高准确率、强鲁棒性的目标检测模型。从定量和定性两个方面对不同网络模型的效果进行分析，得出YOLOv5x 检测模型能够解决误检、漏检、置信度低 3 大问题，能够为目标跟踪算法提供精准稳定的检测基础。3.4车辆外观特征模型分析采用 WarmUp 结合 CosineAnnealingLR 方法在 VERI-Wild 数据集上训练车辆外观特征模型，表 4 分别展示了

41、采用 DeepSORT 中的 Deep 特征提取网络训练的车辆外观特征模型与经本文算法改进后的车辆外观特征模型在训练集和验证集上的精度，改进方法的准确率在训练集上提升了 1.7%，在验证集上提升了 6.3%。图 12(a)和(b)分别展示了原方法和改进方法训练过程中 Loss 的变化情况和 Top1err 的变化情况，从图中能够看出原方法训练到第 150 轮时收敛，改进方法训练到第 120 轮时 Loss 达到最小值，两种方法在训练集和验证集的准确率如表 4 所示，Top1err 整体趋势与 Loss 趋势相同，分别在第 150 轮时和第 120 轮时收敛，表明模型达到最好状态。表 4 车辆外

42、观模型训练结果Table 4 Vehicle appearance model training results%MethodTrain accuracyValidation accuracyDeep83.664.1Ours85.370.46543210Loss050100EpochEpochEpochEpochLoss0501001.00.80.60.40.20Toplerr0501001.00.80.60.40.2108642Toplerr050100(a)?(a)Original method loss curve(b)?(b)Improved method loss curvesTra

43、inValidationTrainValidationTrainValidationTrainValidation图 12 损失曲线Figure 12 Loss curvesDeepSORT 采用外观特征与 Mahalanobis 距离特征联合作为目标匹配的度量单位，其在一定程度上提高了匹配的精度，减少了 ID 变换的次数，因此外观特征是决定目标能否匹配成功的关键度量单位之一。为此，修改特征提取网络结构来获得更加精确的车辆外观特征，同116应用科学学报第42卷时，采用 WarmUp 结合 CosineAnnealingLR 方法训练得到准确率更高的车辆外观特征模型来提取跟踪过程中的车辆外观特征

44、，可以提高目标跟踪算法的精度。3.5跟踪算法分析通过 MOT16 数据集验证算法在添加帧间光流模块后的有效性，如表 5 所示，相较于 DeepSORT 算法，在 DeepSORT 算法的基础上添加帧间光流模块后，MT 提升了1.6%，MOTA 提升了 1.3%，MOTP 提升了 0.6%，IDF1 提升了 2.6%，HOTA 提升了 1.6%，相较表中其他方法，5 项指标结果仍表现较好。表 5 目标跟踪算法性能指标Table 5 Target tracking algorithm performance indicators%MethodMOTAMOTPMTIDF1HOTASORT59.879

45、.625.449.941.3DeepSORT61.479.132.851.842.7关联帧间光流 DeepSORT62.779.734.454.444.3为直观展示添加关联帧间光流模块后的跟踪效果，实验选取某高速道路数据进行应用分析，同时为验证算法的鲁棒性，在视频中人工添加黑色遮挡，比较目标在遮挡前后的 ID 变化，图 1316 分别展示了跟踪算法对不同车道目标的跟踪效果，其中每幅图的(a)和(b)分别展示车辆目标未经过遮挡前的 ID 情况和车辆经过遮挡后的 ID 情况。在图 13 所示的红色矩形选中区域内，车辆未经过遮挡前 ID 为 4，经过遮挡后 ID 仍为 4；在图 14 所示的红色矩形

46、选中区域内，车辆未经过遮挡前 ID 为 49，经过遮挡后 ID 仍为 49；在图 15 所示的红色矩形选中区域内，车辆未经过遮挡前 ID 为 98，经过遮挡后 ID 仍为 98；在图 16 所示的红色矩形选中区域内，车辆未经过遮挡前 ID 为 419，经过遮挡后 ID 仍为 419。(a)?ID(a)Vehicle ID before occlusion(b)?ID(b)Vehicle ID after occlusion图 13 逆向 1 车道Figure 13 Reverse lane 1目标跟踪可以通过检验目标首次被检测器检测到的 ID 和目标消失时的 ID 的一致性判断跟踪算法的性能。

47、本文从两个方面对目标跟踪效果分析，在性能指标方面，提出的目标跟踪算法各项性能指标均优于 DeepSORT 及其他跟踪算法，在实际道路测试方面，提出的目标跟踪算法在人工添加黑色遮挡的条件下仍能保证被遮挡前后的 ID 的一致性。从定量和定性两个方面分析可得，跟踪算法在精准度、鲁棒性等方面均呈现较好的效果。第1期李绍骞，等：基于车辆外观特征和帧间光流的目标跟踪算法117(a)?ID(a)Vehicle ID before occlusion(b)?ID(b)Vehicle ID after occlusion图 14 逆向 2 车道Figure 14 Reverse lane 2(a)?ID(a)V

48、ehicle ID before occlusion(b)?ID(b)Vehicle ID after occlusion图 15 同向 1 车道Figure 15 Lane in the same direction 1(a)?ID(a)Vehicle ID before occlusion(b)?ID(b)Vehicle ID after occlusion图 16 同向 2 车道Figure 16 Lane in the same direction 24结论在复杂道路场景下，车辆目标之间的频繁遮挡、车辆目标之间相似的外观、目标整个运动过程中采用的静态预设参数都会导致跟踪准确率下降的问题

49、。本文提出了一种基于车辆外观特征和帧间光流的目标跟踪算法，并通过实验验证了算法的有效性。研究结论如下：1）在 BDD100K 的基础上，采用不同的网络模型进行训练，通过对比不同网络模型在检测指标、真实应用场景的表现，选择高准确率、强鲁棒性的目标检测模型 YOLOv5x，能够克服真实应用场景中存在的误检、漏检、置信度低等问题，为目标跟踪算法提供精准稳定的检测基础；2）在修改车辆外观特征提取网络的基础上采用 WarmUp 结合 CosineAnnealingLR 方法训练得到准确率更高的车辆外观特征模型来提取跟踪过程中的车辆外观特征，进一步提高了目标跟踪算法的精度；118应用科学学报第42卷3）在

50、卡尔曼滤波更新运动状态信息时关联帧间光流得到更精确的运动状态信息，实验结果表明，改进算法显著提升了目标跟踪的准确率和精度。引入了光流计算模块能够为我们提供一种动态更新运动状态信息的方式，但是由于相邻帧间的光流计算对系统的要求较高，因此在后续研究中将针对引入关联帧间光流模块后导致的跟踪算法计算量变大的问题进行优化，进而实现高精度、实时性的目标跟踪算法。参参参考考考文文文献献献:1 Chen X,Yan B,Zhu J W,et al.Transformer tracking C/IEEE Conference on ComputerVision and Pattern Recognition,2

展开阅读全文