基于Transformer和位置约束的端到端多目标追踪算法.pdf

资源描述

1、第卷第期重庆邮电大学学报(自然科学版).年月 ().:./.基于和位置约束的端到端多目标追踪算法收稿日期:修订日期:通讯作者:雒江涛 .吴悦雒江涛张攀任媛(.重庆邮电大学通信与信息工程学院重庆.重庆邮电大学电子信息与网络工程研究院重庆)摘要:为了应对计算机视觉中多目标追踪任务的挑战针对网络中使用的锚点造成重识别训练模糊的问题通过可生成参考点的可变形提出了一个端到端的多目标追踪系统()由骨干网络模块提取特征图将其送入可生成参考点的可变形架构以检测目标并生成代表检测框中心的参考点利用参考点对候选目标进行空间位置约束并计算检测框的交并比来关联目标实验结果表明利用的查询

2、特征向量对目标进行位置约束提高了追踪精度并且降低了切换的指标关键词:多目标追踪位置约束端到端中图分类号:文献标志码:文章编号:()(.):.().:引言多目标追踪()是计算机视觉领域的一项关键任务广泛应用于公共安全、动作识别、体育视频分析、老年人护理和人机交互等领域的目的是检测视频中目标的轨迹如车辆、动物和行人的轨迹等一般来说一个典型的任务包括目标检测和数据关联两个阶段目标检测是为了检测和定位对象而数据关联的目的是利用特征来关联这些对象由于特征的多样性如何为数据关联提取更具代表性的特征对系统来说是一个挑战最常用的特征是外观特征为了提取合适的外观特征有很多高精度但复杂的工作集中

3、在采用重识别()网络学习外观特征用于后期任务中的目标关联另一种更简单的提取和利用外观特征的方法是在一个联合的网络中共同学习检测器分支和重识别分支根据文献所提出的工作基于锚的检测器有多个相邻的锚只要它们检测框的交并比()足够大就可能在分支中被估计为同一个这为训练引入了严重的模糊性因此无锚检测器被引入作为联合追踪系统的检测模块然而这些在所谓的无锚方法中被提取的点依然可以被视为锚点架构在计算机视觉中被引入因其有能力并行处理序列数据并且可以处理更大的感受野提出了一个无锚的端到端目标检测系统文献提出了它的改进模型称为可变形()在目标检测上得到了不错的效果和使用时间特征和目标查询特征

4、向量作为数据关联的外观特征在上取得了良好的效果然而查询特征向量作为目标检测器的一个组成部分原本任务只是学习不同类别(如猫和狗)之间的不同特征而无法学习到同一类别(如人和人)内的相似特征的差异度因此用查询特征向量来关联对象会使切换()更大无法利用查询特征向量直接代表目标的外观特征而额外地引入重识别网络提取外观特征又不能真正利用到无锚的优势因此本文提出了一个端到端的多目标追踪系统()利用从目标查询特征向量中学习到的参考点对目标进行空间位置约束而不是利用目标查询特征向量直接代表外观特征或另外引入一个网络得到外观特征首先检测模块采用可生成参考点的可变形与原来的可变形相比改进后的可变

5、形在数据关联模块中为空间位置约束额外生成并输出了二维参考点其次对于关联模块参考点被用来识别目标的中心点并利用中心点通过分类学习任务来约束目标的空间位置然后被用来进一步约束候选目标间的距离最后根据每一帧得到的目标位置和对应的生成最终的目标轨迹总的来看本文提出的系统具有以下两个特点)端到端的网络结构本文将目标检测器和特征提取器合并为一个统一的结构)简单但有效的空间位置约束利用学习到的参考点去约束候选目标的空间位置从而有效地完成追踪任务实验结果证明利用的查询特征向量对目标进行位置约束提高了追踪精度与其他先进方法相比在多目标追踪准确度()指标上取得了有竞争力的结果相较于其他利用

6、目标查询特征向量来直接表示外观特征的模型来说在切换的指标上有所降低可生成参考点的可变形.原始可变形原始可变形架构由个编码器和个解码器组成其中编码器对输入的图像特征进行编码以获得编码特征矩阵解码器则对编码特征矩阵进行解码以获得解码特征将此两项通过前馈网络后即能计算出目标的类别和检测坐标可变形注意力机制被用来将全局特征图转化为只关注图中稀疏而有意义的位置可变形注意力机制的具体过程可以写为()()()()式中:表示为注意头的索引表示输入特征重庆邮电大学学报(自然科学版)第卷的层次索引表示采样点的索引和为可学习权重表示内容特征表示采样点对每个查询元素的参考

7、点进行标准化处理表示输入的多尺度特征图和分别为第层特征层中第个注意头的第采样点的偏移值和注意权重值()是缩放操作使采样点映射到输入特征图中.可生成参考点的可变形与原始可变形相比改进后的额外生成并输出参考点这些参考点在后续的数据关联模块中被用来约束目标的空间位置如图所示查询特征向量经过最后一层解码器中的多尺度注意力以及多头可变形注意力学习到了具有编码特征意义的特征向量经过多层感知机()从高维的隐层特征向量得到二维向量然后经激活函数生成代表目标检测框中心的二维参考点()即:()()()()式中:代表由线性层和激活函数组成的多层感知机并且查询特征向量通过最

8、后一层线性层即被降维到二维参考点在后续的数据关联中利用标签中的目标信息作为监督信号进一步学习图可生成参考点的结构.基于位置约束的追踪方法基于上述可生成参考点的可变形生成的参考点本文设计了基于参考点和位置约束追踪方法包括个子模块:提取特征的骨干网络模块、采用可生成参考点的可变形结构的检测模块以及通过位置约束和匹配目标的数据关联模块该模型的框架图如图所示图结构图.第期吴悦等:基于和位置约束的端到端多目标追踪算法.骨干网络模块根据本文利用作为骨干网络来提取初步的图像帧特征为了进行多尺度检测在输入骨干网络前应针对图像帧进行随机尺度变换因此本文采用第层到第层的

9、特征图并将第层的特征经过卷积核的卷积运算步长为从而通过特征金字塔获得第层的特征即本文中的特征金字塔是由层不同尺度的特征组成特征金字塔中有层不同尺度的特征为了区分不同特征层中具有相同坐标的特征点本文通过网络学习一个线性的位置编码用表示特征点在特征图上的位置表示位置编码的维度多尺度特征点的位置编码可以描述为()/()()/()()()式中:代表奇数维度代表偶数维度()表示学习到的第层的层级特征向量通过该层级特征向量便能区分特征金字塔中不同特征层上同一位置的特征点代表波长值为 .可生成参考点的可变形检测模块检测模块利用.节提出的可生成参考点的可变形来检测目标在优化网

10、络参数的过程中检测损失的计算式为 ()()式中:表示检测检测框损失表示广义交并比()损失表示掩码损失表示检测框的系数表示的系数表示掩码的系数检测框损失定义为 ()()式中:表示真实检测框的坐标表示预测的检测框表示样本的数量查询特征向量经过可生成的可变形利用全连接层()以及激活函数后得到预测检测框即()损失的计算方法为()()()()式中:表示能够包围和的最小矩形()表示计算面积的函数表示真实检测框和预测检测框的交并比掩码损失由焦点损失计算得()()()式中:表示补偿操作即表示真实掩码表示预测的掩码代表用于对应硬样本的平衡系数本文中的值为代表用于平衡正负样本的权重

11、系数值为.基于位置约束的数据关联模块在基于检测的追踪算法中检测到每一帧的目标后正确地将其与前一帧和后一帧进行关联是数据关联模块的主要任务本文利用位置约束和来进行数据关联其中位置约束将相邻两帧中具有相同的目标的参考点的距离尽可能缩小到最短训练阶段中作为端到端的多目标追踪系统由可生成参考点的可变形生成的参考点不仅在检测模块中利用损失函数进行学习更在数据关联模块中利用目标的真实进行训练以此得到具有特征的参考点特征具体而言由于行人行走的速度较为缓慢故本文假设两帧之间的参考点越近则两个目标行人属于同一个的可能性就越大因此在关联模块中本文将分配问题转换为分类任务即利用标签中的号

12、作为监督信号通过学习分类任务将参考点映射到唯一的上的损失可计算为()()()式中:是目标预测的号代表预测符号如果目标真实的号与预测相同则为反之为是的数量是平衡系数本文中设置为.以避免过度拟合系统的总损失为 ()()式中:为检测模块损失为关联模块损失和表示检测和关联模块的系数在推理阶段由于缺乏标签本文没有利用生成得到的直接作为目标的而是利用具有位置约束的空间特征来关联目标通过由目标查询特征向量学到的参考点之间的余弦相似度来衡量参考点距离得到第一次匹配结果表达重庆邮电大学学报(自然科学版)第卷式为()()()式中:和分别表示参考点在帧和帧

13、的索引表示参考点和参考点在映射到同一平面后的角度()表示利用匈牙利算法通过余弦相似度分配对象而后进一步利用相邻帧中两个目标检测框的交并比进行第二次匹配来得到空间特征相似度最大的匹配结果实验及分析为了验证本文所提方法的有效性本节首先将在.中简要介绍本文使用的数据集然后在.中比较了本文所提方法与其他一些先进方法最后在.中进行消融性研究.数据集与实验细节本文利用和前二分之一的训练集作为训练集包含张图像用于训练、张图像用于验证以及张图像用于测试共有万个人类实例每张图片有个人包含个训练序列和个测试序列由于该数据集没有提供官方的验证集分割所以本文将训练集分成两部

14、分:用于训练用于验证以测试本文提出的模型本文采用作为主干先使用数据集进行预训练轮以学习密集的人物特征再使用前二分之一的训练集进行轮的训练其中注意力头的数量设置为多层感知机的隐藏层数为前馈网络由层线性层以及激活函数组成学习率设置为批量大小设置为本文利用指标包括多目标追踪精度()、以及来衡量追踪性能是评估检测和追踪整体性能的主要指标计算公式为 ()()()式中:为帧的索引为帧中的真实检测框的数量和分别表示假阴性的数量和假阳性的数量表示切换次数.方法对比与各比较方法的细节如下):是一个基于查询键值机制的追踪方法利用前后两帧提取到的外观特征来关联目

15、标):基于提出了一个时域拓扑以此在数据关联时通过追踪查询特征向量分配号关联目标):引入了一个概率自回归生成模型通过直接测量小轨道自然运动的可能性来对小轨道建议进行评分):在基础上增加了一个额外的头部分支预测用于数据关联的追踪偏移):是一个无锚追踪方法通过利用关键点估计来寻找中心点并回归得到目标的属性):数据关联时利用空间位置约束和关联目标本文将所比较的方法分为两组第一组是基于的方法包括和第二组是最近的不含的方法包括、和所有方法都使用以及前二分之一的训练集进行训练并使用后二分之一的训练集进行验证实验结果如表表所示表与基于方法的比较结果.方法.表与不含方法的

16、比较结果.方法.由表可见在所有评价指标上都优于基于的方法与相比可以在指标上实现.的提升并且在切换上实现.的提升与相比在上有.的提升并且在上提高了第期吴悦等:基于和位置约束的端到端多目标追踪算法.的优越性在于利用了位置约束来约束候选区域的范围而非采用额外的模块和主要采用相邻帧的类间外观特征而非类内外观特征使得同一类别(如行人)之间的差异并不显著由表可见与没有的第二组相比在方面优势明显与相比提升幅度可以达到约.与相比提升幅度为.与相比提升幅度为.在和方面没有比和更好的性能这是因为和不仅利用了运动特征还利用到外观特征进行关联而只是

17、利用了位置约束因此当有严重的遮挡时目标的可能会被错误地关联起来这导致切换不如其他使用网络的方法本文利用验证集的个片段案例来证明在不同场景下的适应能力图显示了随机在验证集上选择的结果可视化每张图左侧的数字代表场景每个物体由不同颜色检测框和一个唯一的表示其中、为特别拥堵的场景和为尺度变化较大的场景和则为小尺度行人密集的场景从、以及可以看到由于采用了位置约束在拥挤的场景下表现良好如中骑自行车的男孩在帧中被检测到号为接着在第帧丢失而在第帧又被准确地追踪到并且被关联为多尺度特征金字塔使得能够在追踪多尺度目标时表现良好和结果表明该方法可以处理大

18、尺度的变化和的结果表明方法同时可准确地追踪小尺度的行人.消融实验关于数据集的消融实验结果如表所示由表可见由于与的场景不同仅使用数据集进行训练会使得检测器无法自适应场景因此导致检测精度最低也就使得以及结果较差并且由于缺乏的标注无法利用标注进行训练因此得到的有关追踪的性能指标也较低另一方面由于中行人较为密集经过的预训练相较于没有预训练的方法有所提高提高比例约为.图验证集上结果可视化.表关于数据集的消融实验.数据集/.以种方式来提取特征:能够直接代表外观特征的查询特征向量、学习外观特征向量的额外的网络以及本文中使用代表目标中心点参考点的位置约束其中查询

19、特征向量是利用可变形中的查询特征向量不经过任何处理得到额外的外观特征向量是通过骨干网络得到的特征图经过全连接层并根据标签作为监督信号利用()式学习得到结果如表所示表关于特征提取方式的消融实验.特征提取方式/查询特征向量.额外的网络.位置约束.由表可见中的查询特征向量只用于对不同的类进行分类和用来定位目标的检测框它只能在不同的类之间学习特征而不能在同一类内重庆邮电大学学报(自然科学版)第卷学习特征的差异与查询特征向量相比参考点是由查询特征向量产生的它可以将同一目标的中心点约束在很短的距离内因此使用位置约束作为关联特征的结果要比直接使用查询特征向量的效果好

20、由于训练集没有标注而训练集中也只有二分之一的标注因此网络无法得到很好的训练也就造成了提取到的特征无法代表目标的外观特征所以引入额外的层的方法结果最差结束语领域普遍采用重识别的方法来提取目标外观特征以完成追踪任务这实际上不是直接的追踪方法并且有锚的检测器会为重识别网络的训练带来歧义本文提出了一个仅采用可生成参考点的可变形结构并基于空间位置约束即能完成追踪任务的端到端多目标追踪系统实验结果表明在验证集上可取得.的效果由于预训练网络学习到的是类间特征导致缺乏更深层次的类内外观特征因此后续工作将专注于利用提取类内的外观特征参考文献:./.:/././.:.(

21、):.():./().:./().:.:.():./().:.:/.:./:.:.:.():.:/.:.:/.:.:.():./.:.:/.:.第期吴悦等:基于和位置约束的端到端多目标追踪算法 .:/.:./.:/././.:.:/().:./.:./.:.:/.:/./.:/.:/./.:/.:/././.:.:/.:.():.:/.:/./.:/.:/./.:.:.:/.:/./.:/.:./.:.作者简介:吴悦()女重庆人博士研究生主要研究方向为计算机视觉:.雒江涛()男河南郑州人教授博士生导师主要研究方向为移动大数据、未来互联网体系架构等:.张攀()四川安岳人博士研究生主要研究方向为图像处理:.任媛()女四川成都人硕士研究生主要研究方向为计算机视觉:.(编辑:张勇)重庆邮电大学学报(自然科学版)第卷

展开阅读全文