收藏 分销(赏)

基于空间级解耦和上下文增强的行人搜索方法.pdf

上传人:自信****多点 文档编号:2353096 上传时间:2024-05-28 格式:PDF 页数:10 大小:2.95MB
下载 相关 举报
基于空间级解耦和上下文增强的行人搜索方法.pdf_第1页
第1页 / 共10页
基于空间级解耦和上下文增强的行人搜索方法.pdf_第2页
第2页 / 共10页
基于空间级解耦和上下文增强的行人搜索方法.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 56 卷 第 12 期 2023 年 12 月 天津大学学报(自然科学与工程技术版)Journal of Tianjin University(Science and Technology)Vol.56 No.12Dec.2023 收稿日期:2022-09-05;修回日期:2022-12-01.作者简介:庞彦伟(1976 ),男,博士,教授.通信作者:庞彦伟,.基金项目:天津市科技计划资助项目(19ZXZNGX00050).Supported by Tianjin Science and Technology Program(No.19ZXZNGX00050).DOI:10.11784/t

2、dxbz202209005 基于空间级解耦和上下文增强的行人搜索方法 庞彦伟1,2,王佳蓓1,2(1.天津大学电气自动化与信息工程学院,天津 300072;2.天津市类脑智能技术重点实验室,天津 300072)摘 要:行人搜索是一个同时处理行人检测与行人重识别的联合任务 然而,行人检测与行人重识别之间存在任务冲突:行人检测旨在区分人与背景区域,关注行人的共性;行人重识别旨在辨别不同人,关注行人的特性.针对此任务冲突,与以往堆叠多个卷积层的深度级解耦方式不同,基于空间分离的思想,提出了一种简单高效的空间级解耦策略该策略为两个任务设计不同的可形变卷积,自适应地在不同位置上分别提取行人检测特征与行人

3、重识别特征,实现了行人共性与特性的分离.进一步,为了利用丰富的上下文信息帮助更好地辨别不同的行人,提出了一种上下文增强特征提取模块 该模块使用全局感知的多头注意力网络生成信息互补的多级特征,然后利用所设计的基于自注意力机制的多级特征融合模块,融合得到上下文增强特征.在该上下文增强特征的基础上,应用上述空间级解耦策略对其不同空间位置进行采样,解耦行人检测和行人重识别两个任务.实验结果表明,所提方法在 CUHK-SYSU 测试集上 mAP 和 top-1 准确率分别达到了 94.2%和 94.6%,在 PRW 测试集上 mAP 和 top-1 准确率分别达到了52.6%和 87.6%,能够有效地提

4、升行人搜索任务性能 关键词:行人搜索;行人检测;行人重识别;形变卷积;上下文增强 中图分类号:TP391.4 文献标志码:A 文章编号:0493-2137(2023)12-1307-10 Person Search with Spatial-Level Decoupling and Contextual Enhancement Pang Yanwei1,2,Wang Jiabei1,2(1.School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;2.Tianjin Key

5、Laboratory of Brain-Inspired Intelligence Technology,Tianjin University,Tianjin 300072,China)Abstract:Person search is a joint task that simultaneously performs pedestrian detection and person re-identification;however,these two sub-tasks are not similar.Pedestrian detection aims to differentiate pe

6、rsons frombackground regions by focusing on the commonness of pedestrians,while person re-identification aims to distinguish different persons by emphasizing the uniqueness of each pedestrian.To address this task contradiction,a simple and efficient spatial-level decoupling strategy was proposed,as

7、opposed to the existing depth-level decoupling methods of stacking multiple convolutional layers.Two different deformable convolutions were endorsed to adaptively extractfeatures at different positions for the two sub-tasks,allowing the separation of pedestrian commonness and unique-ness.Furthermore

8、,a context-enhanced feature extraction module was also presented to exploit rich contextual infor-mation for better person identification.A multi-head attention network capable of capturing long-range dependencies was used to generate multi-level features with complementary information.Moreover,a mu

9、lti-level feature fusion module based on a self-attention mechanism was proposed to obtain the context-enhanced features.The above spatial-level decoupling strategy was applied to the context-enhanced feature for sampling features at different spatial posi-tions,thereby decoupling the pedestrian det

10、ection task and person re-identification task.Experimental results show that the mean average precision(mAP)and top-1 accuracy of the proposed method are 94.2%and 94.6%on the 1308 天津大学学报(自然科学与工程技术版)第 56 卷 第 12 期 CUHK-SYSU test set,respectively.For the PRW test set,the mAP and top-1 accuracy are 52.6

11、%and 87.6%,respectively.Those results indicate that the proposed method can significantly improve person search.Keywords:person search;pedestrian detection;person re-identification;deformable convolution;contextualenhancement 行人搜索1-2旨在从一组多种场景图像中寻找与定位特定目标行人,它可以看作是行人检测与行人重识别的联合任务 相比于在剪裁后的行人图像中辨别行人的行人重

12、识别任务3,在全景图像中对行人进行搜索与辨别的行人搜索任务更加贴近真实应用场景,同时也具有挑战性 一方面,它需要面对这两个子任务各自普遍存在的挑战,如遮挡4和尺度变 化5;另一方面,行人搜索需要应对行人检测与行人重识别两个子任务之间的冲突6 在过去的几年里,借助于深度卷积网络,行人搜索研究工作取得了巨大的成就 当前行人搜索方法大致可以分为两类:两步行人搜索方法和单步行人搜索方法 两步行人搜索方法使用两个独立的网络分别处理行人检测与行人重识别任务,即首先在全景图像中检测行人,然后使用裁剪后的行人图像完成行人重识别任务 例如,Wang 等7利用了检测和重识别任务的相关性,提出了一个查询目标图像身份

13、信息引导检测器和一个适应检测结果的重识别模型 与之相对应,单步行人搜索方法则在单个网络中同时进行行人检测与重识别任务 Xiao 等1通过引入在线实例匹配损失监督行人重识别的学习,提出了第 1 个单步端到端行人搜索方法 之后很多单步行人搜索方法8-9都是基于这个框架 例如,Chen 等10提出将行人特征表达向量在极坐标系中分解为径向模长和角度,分别用于检测分类和重识别预测 Han 等11提出了一种解耦检测与重识别优化网络,使用区域候选框网络预测行人检测结果,使用真值框的感兴趣区域特征预测行人重识别 与两步行人搜索方法相比,单步行人搜索方法在运行速度与内存消耗上均具有比较明显的优势 本文聚焦于解决

14、行人搜索任务中行人检测与行人重识别的任务冲突问题 行人检测目的是定位图像中的人,区分人和背景的过程会最小化不同人之间的特征差异;而重识别任务目的是判断不同行人图像是否属于同一人,辨别不同的行人过程会最大化不同行人特征差异 为了解决该任务冲突问题,现有的单步行人搜索方法在不同的深度层级上分别预测检测与重识别,在检测与重识别预测网络之间保持一定的深度距离,隐式地转换特征 与之不同的是,本文在空间中分离特征选择,提出空间级解耦策略 其出发点在于检测任务的空间特征选择集中在最小化不同人特征差异的位置上,而重识别任务的空间特征选择集中在最大化不同人特征差异的位置上 所提出的空间级解耦策略是通过分离变形模

15、块(separate de-formation module,SDM)实现的 SDM 使用同一输入特征,利用两个并行可形变卷积分支分别提取特征进行检测预测和重识别预测,通过使用不同的空间特征来缓解任务冲突 此外,具有丰富上下文信息的特征对于行人搜索任务至关重要 例如,在一些具有挑战性的场景中,上下文信息可以通过利用周围环境或附近行人来帮助识别目标行人12-13 为此,本文提出上下文增强特征提取模块(context-enhanced feature extraction mod-ule,CFEM),该模块包括多级特征生成(multi-level feature generation,MFG)和多

16、级特征融合(multi-level feature fusion,MFF),采用基于全局感知的多头注意力网络来生成具有丰富上下文互补信息的多级特征,代替原有基于局部感知的卷积神经网络,在多级特征的基础上,进一步引入基于自注意力机制的上下文多级特征融合模块,挖掘更多的上下文信息,在两个公开数据集上进行丰富的实验,证明了本方法的有效性.1 本文方法 基于空间级解耦和上下文增强的行人搜索方法的网络结构如图 1 所示,主要包括上下文增强特征提取模块和分离变形模块两个部分 给定一幅包含待搜索行人的输入图像,先经过上下文增强特征提取模块(CFEM)提取两个任务通用的融合特征,其中多级特征生成(MFG)能够

17、提供上下文信息丰富的特征金字塔,多级特征融合(MFF)将不同分辨率的特征有效地融合成为上下文增强特征 然后,分离变形模块(SDM)对这一上下文增强特征的不同空间位置进行采样,通过一种高效的并行多任务设计,解耦行人检测和重识别两个子任务,最终有效完成行人搜索任务 1.1 分离变形模块 行人搜索的两个子任务之间存在着本质上的任务冲突:行人检测任务将所有人视为同一类(前景),为了区分人和背景会最小化不同人之间的特征差异,2023 年 12 月 庞彦伟等:基于空间级解耦和上下文增强的行人搜索方法 1309 使得不同人的特征尽可能地靠近;而行人重识别任务将不同人视为不同的类别,为了辨别不同的人会最大化不

18、同人特征差异,使得不同人的特征尽可能地远离,如图 2 所示,其中不同颜色的特征表示不同类别的特征 理想的单步行人搜索方法应该能够处理该任务冲突,而不需要过于复杂的过程 图 1 所提方法网络结构 Fig.1 Network structure of the proposed method 图 2 行人检测与行人重识别任务冲突说明 Fig.2 Description of task contradiction between pedestrian detection and person re-identification 为了解决检测和重识别之间的任务冲突问题,当前大多数行人搜索方法倾向于使用来

19、自不同深度层的不同特征来进行这两个子任务的预测 具体地,两步行人搜索方法采用两个独立的网络分别处理行人检测与行人重识别任务,以此来显式分离检测与重识别的特征 单步行人搜索方法是在检测预测与重识别预测之间堆叠几个卷积或正则化层等,以不同深度级的方式生成不同特征,从而隐式地解耦检测和重识别任务,典型的单步行人搜索方法预测网络对比如图3 所示 图 3(a)中的 OIM1和图 3(b)中的 NAE10在检测预测和重识别预测之间存在多个全连接或归一化层 图 3(c)中 AlignPS14遵循重识别任务优先的原则,在检测预测之前叠加 4 个卷积层 总之,这些已有的行人搜索预测网络在检测和重识别预测层之间保

20、持一定的深度距离 这种方法一定程度上忽略了两个子任务之间的相关性,并且带来了大量不必要的计算开销,所以本文认为这种深度级的解耦并不是一个有效的解决冲突的方式 为解决已有方法的局限,本文提出空间级解耦策略,在空间级上选择不同位置的特征,在空间中分离特征选择 行人检测特征更集中在能够最大化行人共性特征的位置,以便将人与背景区域分开 相反地,重识别预测特征更集中在能够最大化不同人的特征差异的位置,以便区分不同的人空间级解耦策略是通过一个分离变形模块(SDM)来实现的,该模块有效地学习空间中两个子任务关注的不同位置特征,如图 3(d)所示 通过一定程度的空间分离,便可以有效缓解行人重识别与行人检测之间

21、的任务冲突,同时避免了已有方案存在的计算开销大的问题 假设行人搜索预测网络的输入特征是F 1310 天津大学学报(自然科学与工程技术版)第 56 卷 第 12 期 C H WR,使用两个独立并行的3 3可形变卷积来分别生成检测预测特征detC H WRF与重识别预测特征reidC H WRF,表达式分别为 ()detdetdconv=fFF(1)()reidreiddconv=fFF(2)式中detdconvf和reiddconvf分别表示用于检测预测和重识别预测的3 3可形变卷积 在训练期间,这两个可形变卷积学习对不同空间位置的特征进行采样,分别用于检测和重识别的预测 下面介绍最终预测网络与

22、损失函数相关的设置.对于行人检测预测网络,检测预测特征detF并行输入到 3 个1 1卷积层中,分别对应于分类、回归和中心度的预测 采用 Focal 损失15、IoU 损失和二元交叉熵损失来分别监督分类、回归和中心度的学习 与经典的无锚框检测器 FCOS16的预测网络不同,舍弃了在最终预测之前进行的 4 次卷积操作,提高了算法效率 对于行人重识别预测网络,重识别预测特征reidF首先按通道减去相应的通道特征平均值,以生成更具有辨别力的行人表达特征,采用 Focal 损失辅助的OIM 损失17来监督训练过程中重识别特征学习 (a)OIM (b)NAE (c)AlignPS (d)SDM 图 3

23、不同单步行人搜索方法预测网络对比 Fig.3 Comparison of different prediction networks inone-step person search methods 1.2 上下文增强特征提取模块 上下文信息在行人搜索中起着重要的作用,一些研究利用上下文信息来提高行人搜索的准确性 例如,Yan 等12建立了一个图学习框架并使用具有相邻行人信息的上下文特征来更新计算不同行人之间的相似性 Munjal 等13提出了一种查询图像引导的行人搜索网络,利用查询图像与待搜索的图库图像的全局上下文信息 本文提出了一个简单而有效的上下文增强特征提取模块(CFEM),它可以生成

24、拥有丰富上下文信息、更鲁棒的特征 CFEM 分为两个连续的部分:多级特征生成(MFG)和多级特征融合(MFF)1.2.1 多级特征生成 目前大多数行人搜索方法使用卷积神经网络生成多级特征,如 ResNet-5018 然而卷积神经网络具有局部感知的特性,捕捉全局上下文信息能力有限 相比之下,最近广泛研究与应用的多头注意力网络19基于注意力机制,能够有效地捕获长距离上下文依赖关系 其中,多头指的是先将特征按通道分开成若干子特征,在不同的特征子空间中分别进行特征提取,再将提取到的子特征级联,从而增强了整体特征的表达能力 受此启发,使用多头注意力网络代替卷积神经网络作为骨干网络进行多级特征提取 具体地

25、,使用了两个广泛使用的多头注意力网络(Swin Transformer20和 PVT21)来提取多级特征 与卷积神经网络模型 ResNet 类似,这两种多头注意力网络采用金字塔结构构建分层特征图,避免了巨大的计算开支 最后 3 个输出特征表示为3C、4C、5C,它们相对于输入图像的步长分别为 8、16、32 像素 由于捕获了长距离的上下文依赖信息,由多头注意力网络提取的特征更加具有鲁棒性和辨别性 1.2.2 多级特征融合 首先在多级特征图上分别使用1 1的横向卷积来减少通道数,生成的特征图表示为3P、4P、5P,都具有 256 个通道 最简单直接的方法是使用来自3P、4P、5P的单级特征输出

26、然而这种单级特征并不包含丰富的上下文信息,利用多级特征融合策略来挖掘丰富的上下文信息是更优的选择 实验发现3P对性能的贡献不大,所以将5P上采样到与4P相同的尺度表示为5P,并利用4P和5P进行多级特征融合,其中4C H WRP,5C H WRP,256C=,H与W为输入图像高度与宽度的1/16 3 种不同的多级特征融合网络结构的对比如图 4 所示 多级加和是一种简单的生成上下文增强的输出特征F的方式,如图 4(a)所示,计算表达式为 45=+FPP(3)其中融合后的特征F具有 256 个通道,分辨率为输入图像的 1/16,同时也是第 1.1 节中行人搜索预测网络 SDM 的输入特征 带权多级

27、加和如图 4(b)所示,首先每个特征图分别经过一个减少通道数为d的1 1卷积层来减少 2023 年 12 月 庞彦伟等:基于空间级解耦和上下文增强的行人搜索方法 1311 计算量,并级联两者输出特征为2catd H WRF,计算表达式为 catconcatenateconv4conv5(),()=fffFPP(4)然后使用一个1 1卷积层和一个 Softmax 激活函数来获得一个两通道的注意力特征图2wH WRF,两个通道注意力图分别用于重新配置特征图4P和5P各个位置上的权重,计算表达式为 wsoftmaxconvcat()=ffFF(5)最后加和两个加权后的特征图,获得最终输出特征F,计算

28、表达式为 014w5w=+?FPFPF(6)式中?表示逐元素相乘 为了充分增强各级特征中的上下文信息,提出了上下文多级加和策略,如图 4(c)所示 首先在多级输入特征图上分别使用注意力层,利用其对非相邻特征间关系的建模能力,来捕捉特征中的远距离信息 其中注意层保留了原有设计的跳连接方式 之后,多级注意力层后的输出特征的和作为最终输出特征,实现了具有丰富上下文信息的多特征融合,计算表达式为 att4att5()()=+ffFPP(7)(a)多级加和 (b)带权多级加和 (c)上下文多级加和 图 4 不同多级特征融合网络结构对比 Fig.4 Comparison of different mult

29、i-level feature fusionnetwork structures 2 实验结果与分析 2.1 实验数据集与评价指标 为了验证所提出方法的有效性,本文在两个公开行人搜索数据集 CUHK-SYSU1和 PRW2进行行人搜索实验 CUHK-SYSU 是一个大规模的行人搜索数据集,有街拍和电影场景两种数据来源 它一共包含 18184张图像、8432 个标注身份和 96143 个标注行人边界框 对于每个需要查询的目标行人,对应的搜索图库大小包含了从 504000 不等的 6 种配置 如果没有特殊说明,默认使用搜索图库大小为 100 张图的配置来进行实验 PRW 是由在清华大学中使用 6

30、个摄像头拍摄采集的视频中截取得到的数据集,有1080 1920和576 720两种不同分辨率 总共有 11816 张图像、932 个标注身份和 34304 个标注行人边界框 数据集被分成训练集和测试集,训练集包含 5704 张图像和482 个标注身份,测试集包含 6112 张图像和 450 个标注身份 使用 mAP(mean average precision)和 top-1 准确率两个标准行人搜索任务评价指标 与行人重识别任务评价不同,只有当预测边界框与真值的交并比(intersection over union,IoU)大于 0.5,该预测框才会被作为候选框计算行人搜索匹配度,计算 mAP

31、 和top-1 准确率 对于 mAP,首先基于每个目标行人的精度-召回曲线下的面积计算平均精度(AP),再对所有目标行人的 AP 计算平均来作为 mAP top-1 准确率是指在整个搜索图库中,具有最高得分的预测候选框与给定目标行人匹配的平均值 除了以上两个用于行人搜索任务的评价指标外,本文还使用 AP50 评价指标来度量行人检测任务的性能 2.2 实验细节 本文基于开源库 mmdetection22实现了所提出的单步无锚框行人搜索方法 使用在 ImageNet-1K23上预训练过的骨干网络,包括 ResNet-50、Swin Trans-former 和 PVTv2最后采用的 PVTv2 模

32、型使用AdamW 优化器在单个 NVIDIA GeForce RTX 3090 GPU 上训练 具体相关实验参数设置如表 1 所示 表 1 实验参数设置 Tab.1 Parameter setting of the experiment 实验参数 设定值 训练轮次 24 初始学习率 110-5 学习率下降轮次 16,22 训练图像批大小 2 训练图像高度范围 400,600,800,900 训练图像高宽比 0.6 测试图像大小 1 500900 2.3 所提模块有效性验证 本文在 PRW 数据集上进行消融实验来验证所提出的不同模块的效果,包括上下文增强特征提取模块和分离变形模块,其中上下文增强

33、特征提取模块包含两部分:多级特征生成和多级特征融合,如表 2 所示.基准模型采用卷积神经网络模型 ResNet-50 作为骨干网络,并采用最后的单级特征图5P输入行人搜索预测网络,该预测网络中检测与重识别提取相同空间位置特征 基准模型实现了 31.7%的 mAP 和73.0%的 top-1 准确率 基于多头注意力网络 PVTv2-1312 天津大学学报(自然科学与工程技术版)第 56 卷 第 12 期 B2 的上下文多级特征生成在 mAP 和 top-1 准确率上分别提供了 8.3%和 7.8%的提高 而上下文多级特征融合进一步在 mAP 和 top-1 准确率分别提升了 3.6%和 3.0%

34、将上述两个实验结果累加,即用上下文增强特征提取模块替换基准模型中 ResNet-50 和5P时,分别在 mAP 和 top-1 准确率上提高了 11.9%和10.8%,这证明了丰富的上下文信息对于行人搜索任务的重要性 此外,进一步将分离变形模块替换基准模型的预测网络,mAP 和 top-1 准确率分别提高了9.0%和 3.8%,这一较大提升验证了分离变形模块一定程度上缓解了行人检测与行人重识别之间的任务冲突问题,从而提高了行人搜索方法的性能 表 2 在 PRW测试集上所提模块消融实验结果 Tab.2 Ablation experiment results of the proposed mod

35、-ules on the PRW test set 方法 AP50/%mAP/%top-1/%基准模型 89.2 31.7 73.0基准模型MFG 89.9 40.0 80.8基准模型MFGMFF 93.8 43.6 83.8基准模型MFGMFFSDM 94.0 52.6 87.6表 3 为分离变形模块行人搜索预测网络在不同设置下的对比实验结果,即使用不同的检测预测特征采样卷积和重识别预测特征采样卷积 首先使用单个相同的可形变卷积同时进行检测与重识别预测在mAP 和 top-1 准 确 率 上 分 别 达 到 了 44.8%和84.4%表 3 中其他实验结果均为使用两个或多个不同的卷积分别处理

36、检测与重识别预测 仅使用单个可形变卷积分别用于检测预测特征采样和重识别预测特征采样,在 mAP 上分别达到了 43.0%和48.9%与这些方法相比,通过使用两个并行的可形变卷积自适应地对检测和重识别预测特征进行采样,分离变形模块实现了最好的性能,mAP 和 top-1 准确率分别是 52.6%和 87.6%,这证明了分离变形模块可以通过对检测和重识别在不同感兴趣位置上提取特征,有效地解决两者之间的任务冲突 此外,按照AlignPS14在检测预测之前堆叠 4 个标准卷积,在增加了网络参数量的同时,观察发现可以提高检测性能,然而并没有改善搜索 mAP 性能,对 top-1 准确率的提高很小,这表明

37、在检测和重识别预测层之间堆叠更多的卷积层并不重要 这也反映了先前方法所采用的深度级解耦策略增加计算开支的同时并没有带来行人搜索性能上的明显收益,反而会引入一定负作用 一个重要的原因是在单步行人搜索方法中由于存在任务冲突,单一任务性能的提升可能会导致另一任务性能的下降,最终的搜索性能下降 表 3 在 PRW测试集上分离变形模块对比实验结果 Tab.3 Comparison of experiment results of separate deformation module on the PRW test set 检测预测特征采样卷积 重识别预测特征采样卷积 AP50/%mAP/%top-1/

38、%单个相同的可形变卷积 93.7 44.8 84.4 可形变卷积 标准卷积 93.9 43.0 84.2 标准卷积 可形变卷积 93.9 48.9 85.6 可形变卷积 可形变卷积 94.0 52.6 87.6 可形变卷积标准卷积 可形变卷积 94.7 52.1 87.8 分离变形模块中分别用于生成检测和重识别预测特征的可形变卷积采样偏移如图 5 所示,即第 1.1节中式(1)和式(2)中的可形变卷积detdconvf和reiddconvf 绿点表示检测边界框的中心点,红点表示3 3可变形卷积核的 9 个采样点,因为将行人图像裁剪并调整到相同的比例展示,所以采样点看起来大小不同 观察发现检测(

39、见图 5(a)更多关注人的身体边缘区域和背景区域,而重识别(见图 5(b)多关注行人的内部区域,如肩膀处 它表明检测和重识别集中在不同空间位置的特征上,所提出的 SDM 在空间不同位置上进行采样,实现了空间解耦策略,一定程度上缓解了任务冲突 表 4 展示了不同骨干网络的对比实验结果 对于行人检测任务性能 AP50,卷积神经网络和多头注意力网络作为骨干网络的性能相近 对于行人搜索任务性能,ResNet-50 和 ResNet-101 的 mAP 分别为44.6%和 45.0%,而 Swin-T、PVTv2-B1、Swin-S 和 (a)检测 (b)重识别 图 5在 PRW测试集上可形变卷积采样点

40、可视化 Fig.5Visualization of sampling points of deformable convolution in SDM on the PRW test set 2023 年 12 月 庞彦伟等:基于空间级解耦和上下文增强的行人搜索方法 1313 PVTv2-B2 的 mAP 分别为 48.2%、48.3%、49.5%和52.6%,作为骨干网络,多头注意力网络优于卷积神经网络,上下文信息对于帮助辨别目标行人十分重要,进而基于全局注意力机制的多头注意力网络相比于局部感知的卷积神经网络更能够捕获上下文信息,可以利用丰富的上下文信息来提升行人搜索性能 在骨干网络采用不同多

41、头注意力网络中,PVTv2-B2 的性能最好 与 PVTv2-B2 相比,Swin-T 和 Swin-S 可能无法通过局部注意模块充分利用全局上下文信息,所以最终采用 PVTv2-B2 作为模型骨干网络 表 4 在 PRW测试集上不同骨干网络对比实验结果 Tab.4 Comparison of experiment results of differentbackbone networks on the PRW test set 方法 AP50/%mAP/%top-1/%ResNet-5018 93.9 44.6 82.3 ResNet-10118 94.2 45.0 82.2 Swin-T2

42、0 93.9 48.2 84.1 PVTv2-B121 93.2 48.3 85.1 Swin-S20 94.4 49.5 84.1 PVTv2-B2 94.0 52.6 87.6 此外,表 5 展示了骨干网络生成的不同单级特征和多级融合特征对比实验结果,该特征同时也是输入行人搜索预测网络的特征 使用单级特征进行预测时,4P和5P分别在 mAP 和 top-1 准确率上的表现最佳 单级特征由于感受野固定,所获得的上下文信息不够,有一定的局限性 进一步分析不同的多级特征融合策略的影响 与单级特征相比,多级融合特征性能更优 比如与单级特征4P相比,简单地加和4P和5P分别提升了 0.8%的 mAP

43、 和 3.2%的 top-1 准确率 在4P和5P上的多级特征融合策略中,上下文多级特征融合的性能最好,最终模型采用这一策略 这同样验证了具有丰富上下文信息的特征对于行人搜索任务的重要性 表 5 在 PRW测试集上单级特征与多级融合特征对比实验结果 Tab.5 Comparison of experiment results of single-level features and multi-level fused features on the PRW test set 方法 步长AP50/%mAP/%top-1/%P3 8 88.8 32.1 72.8P4 16 94.0 51.5 84

44、.5单级特征 P5 32 90.6 51.0 87.0P4P5 16 94.0 52.3 87.7P3P4P5 16 94.4 52.1 86.8带权 P4P5 16 94.0 52.0 87.0多级融合特征 上下文 P4P5 16 94.0 52.6 87.6 为了证明提出的分离变形模块的有效性,在AlignPS 上进行实验,骨干网络均使用 ResNet-50,用空间级解耦的 SDM 替换 AlignPS 中的原始深度级解耦的预测网络模型 表 6 展示了模型准确率、推理时间、时间复杂度和空间复杂度的结果 其中时间复杂度采用浮点运算(floating-point operations,FLOP

45、s)次数指标衡量,空间复杂度采用访存量指标衡量 与原始的 AlignPS 预测网络相比,通过将 SDM 集成到AlignPS 中,它以更低的计算复杂度、更快的推理速度获得了更好的性能,证明了所提出的空间级解耦策略的有效性 表 6在 PRW测试集上 AlignPS与 SDM效率对比实验结果 Tab.6Comparison of experiment results of the efficiency of AlignPS and SDM on the PRW test set 方法 mAP/%top-1/%推理时间/ms FLOPs/109访存量/MBAlignPS1445.6 81.949 1

46、90 42 SDM 46.6 82.430 110 37 2.4 与其他方法的比较 本文将所提出的方法与一些先进的行人搜索方法进行行人搜索任务性能比较,包括单步行人搜索方法和两步行人搜索方法,如表 7 所示 表 7在 CUHK-SYSU 和 PRW 测试集上与其他先进方法对比 Tab.7Comparison with other state-of-the-art methods on the CUHK-SYSU and PRW test sets CUHK-SYSU PRW 方法 mAP/%top-1/%mAP/%top-1/%IDE2 20.5 48.3MGTS6 83.0 83.7 32.

47、6 72.1CLSA24 87.2 88.5 38.7 65.0RDLR25 93.0 94.2 42.9 70.2两步法IGPN26 90.3 91.4 42.7 87.0 TCTS7 93.9 95.1 46.8 87.5OIM1 75.5 78.7 21.3 49.4IAN9 76.3 80.1 23.0 61.9NPSM27 77.9 81.2 24.2 53.1RCAA28 79.3 81.3 CTXG12 84.1 86.5 33.4 73.6QEEPS13 88.9 89.1 37.1 76.7BINet8 90.0 90.7 45.3 81.7NAE10 91.5 92.4 4

48、3.3 80.9PGA29 90.2 91.8 42.5 83.5CANR30 92.4 93.2 43.4 83.8AlignPS14 93.1 93.4 45.9 81.9DMRNet11 93.2 94.2 46.9 83.3OIMNet+31 93.1 93.9 46.8 83.9单步法本文方法 94.2 94.6 52.6 87.6 在 CUHK-SYSU 数据集上,使用 100 个搜索图库将本文方法与其他先进方法进行了比较 本文方 1314 天津大学学报(自然科学与工程技术版)第 56 卷 第 12 期 法达到了 94.2%的 mAP 和 94.6%的 top-1 准确率,优于目前

49、多数的单步和两步行人搜索方法 例如,两步法 TCTS 和单步法 DMRNet 分别有 93.9%和 93.2%的mAP,本文方法分别高出其 0.3%和 1.0%另外,还将本文方法与其他的单步和两步行人搜索方法在 504000 的不同图库规模下进行了比较,如图 6 所示 行人搜索任务是在图库候选图像中按照给定的包含目标行人的查询图像进行搜索,定位与识别目标行人,图库规模表示图库中候选图像数量 随着图库规模的增加,行人搜索的挑战难度越来越大 本文方法在不同的图库规模下稳定地优于其他方法,尤其是图库规模较大的时候 PRW 数据集由于搜索图库规模更大,拍摄视角变换更多,性能指标更低,更具有挑战性 本文

50、方法分别实现了 52.6%的 mAP 和 87.6%的 top-1 准确率,超过了当前所有其他先进方法 本文方法在 mAP 上比最好的两步行人搜索方法 TCTS 提高了 5.8%,比最好的单步行人搜索方法 DMRNet 在 mAP 和 top-1准确率上分别提高了 5.7%和 4.3%(a)与其他两步行人搜索方法比较 (b)与其他单步行人搜索方法比较 图 6 在 CUHK-SYSU测试集上改变图库规模与其他方法对比 Fig.6 Comparison with other methods regarding gallery sizes changes on the CUHK-SYSU test

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服