基于高分辨率网络的地铁人体姿态估计研究.pdf

资源描述

1、2023年第3期高效韧性运行高效韧性运行基于高分辨率网络的地铁人体姿态估计研究刘珊珊1，冯赛楠1，田青1，钱付余2，豆飞3，牛志斌3（1.北方工业大学信息学院，北京 100144；2.交控科技股份有限公司，北京 100070；3.北京市地铁运营有限公司，北京 100044）摘要：目前，人体姿态估计从二维发展到三维，从图像发展到视频，从复杂网络发展到轻量化网络，在不断发展过程中，姿态估计又融合了深度学习的理论，采用卷积神经网络作为模型的主要构建单元，使姿态估计获得更大的发展空间。研究采用高分辨率网络为主干网络，并行处理多个分辨率网络分支，在更深的网络层级中产生高分辨率表征，并通过并行的网络各个

2、层级进行多尺度融合来增强高分辨率表征的语义丰富程度，通过在网络中添加注意力机制模块增强特征提取能力，提高人体姿态估计的准确度。关键词：人体姿态估计；高分辨率网络；注意力机制中图分类号：TP391.4 文献标识码：A 文章编号：1672-061X（2023）03-0070-08DOI：10.19550/j.issn.1672-061x.2023.04.01.0011 概述随着交通行业的快速发展，我国铁路发生了翻天覆地的变化，见证了从无到有、从弱到强，从蹒跚起步、艰难延伸到铁路密布、高铁飞驰的发展历程1，面对新时代，为了满足人民群众高质量出行的需要，坚持和发展铁路技术创新尤为重要。目前来说，地铁成

3、为人们工作生活中主要的出行方式，也正因为其过大的人流量，导致地铁车站及车厢的人流量密集，传统的行人检测在密集场景下容易出现误检、漏检的情况。人体姿态估计的任务是确定图像中人体某一身体部位出现的位置，估计人关节点的坐标，广泛应用于地铁等密集场所下行人的动作识别，保证出行安全。研究依靠改进的人体姿态估计算法能够更好地避免背景遮挡、光照变化等影响行人检测，通过在地铁等实际场景中利用人体姿态估计的方法来追踪某段时间内人体姿势的变化完成动作识别2-4，得到对人体姿态的实时监测与估计。基金项目：国家重点研发计划项目（2020YFB1600702）第一作者：刘珊珊（1998），女，硕士研究生。E-mail：

4、702023年第3期高效韧性运行高效韧性运行人体姿态估计方法可以分为自顶向下和自底向上2类5。其中自底向上的方法虽然在检测效率上具有一些优点，但检测精度并不高，而自顶向下的方法可以先检测出所有人体目标，再分别对每个目标的关键点进行检测，因此检测精度较高6-8，所以本研究采取了自顶向下的方式进行人体姿态估计。对于基于深度学习的人体姿态估计主要分为基于回归的方式和基于热图的方式9-10，前者直接预测每个关键点的位置坐标，后者针对每个关键点预测一张热力图。热图是关键点的概率分布图，通常建模成围绕每个关键点的高斯分布的叠加，每个像素都给1个值，这个值对应像素属于某个关键点可能性的值。当前基于热图的方式

5、检测效果更好，因此，本研究高分辨率网络采用基于热图的方式进行关键点检测11。在人体姿态估计的网络中，高分辨率网络（High-Resolution Net，HRNet）在整个检测过程中都保持着高分辨率的表征12，将多分辨率子网通过并行的方式进行连接，同时进行多次多尺度融合13，使该网络能够更加准确地预测热图。因此，采用了高分辨率网络作为主干网络，并在其基础上做了如下改进：首先添加了注意力机制模块，从空间维度和通道维度获取关键特征信息，增强特征的提取能力；其次为了更加精确地定位关键点，对损失函数进行了改进，使网络能够容忍背景像素上的微小误差，获得更好的收敛速度。2 网络结构2.1HRNet整体结构

6、HRNet 主要是针对2D人体姿态估计任务提出的。不同于其他网络通过下采样得到强语义信息，然后通过上采样恢复高分辨率，在不断地上下采样过程中丢失大量的有效信息，HRNet可以在整个过程中保持高分辨率表征，因此较其他网络来说会明显提升人体姿势识别的效果。首先将高分辨率子网络作为第1阶段的开始，逐步增加高分辨率到低分辨率的子网形成更多的阶段，并将多分辨率子网并行连接，通过在并行的多分辨率子网络上反复交换信息，进行多次多尺度融合，使每个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征，多次融合之后的结果会更加精确12，14，之后通过网络输出的高分辨率表示来估计关

7、键点，提升预测的关键点热图的准确性（见图1）。将HRNet结构分为4个部分，每个部分均存在1个蓝色框和1个橙色框，其中蓝色框代表基本结构，橙色框代表过渡结构。HRNet 中第1部分蓝色框使用的是BottleNeck，其他部分蓝色框使用的是 BasicBlock。第1部分橙色框是1个TransitionLayer，第2和第3部分橙色框是 1 个 FuseLayer 和 1 个 TransitionLayer 的叠加，第4部分橙色框是1个FuseLayer。（1）BottleNeck结构能够降低参数量，首先它利用PW（Pointwise Convol

8、ution）对数据进行降维，再进行常规卷积核的卷积，最后PW对数据进行升维，它的核心思想是利用多个小卷积核替代1个大卷积核，利用11卷积核替代大的卷积核的一部分工作。BottleNeck搭建模块见图2。（2）BasicBlock 结构包含1个残差支路和short-cut支路，它比传统的卷积结构多了1个short-cut支路，用于传递低层的信息使得网络能够训练地很深。BasicBlock搭建模块见图3。（3）FuseLayer 用来进行不同分支的信息交互，TransitionLayer用来生成1个下采样2倍分支的输入feature map。图1HRNet结构712023年第3期高效韧性运行高效韧

9、性运行HRNet是高分辨率的网络模型，面对频繁的下采样会导致空间方向特征丢失的问题，在进行特征提取和特征融合时，从输入到输出一直保持高分辨率表征14，为了增强对输入图片的特征提取能力，因此在HRNet中引入注意力机制模块，突出图像中尺度较小和遮挡人体关键点的特征，从而极大地提高HRNet的性能。改进后的HRNet结构见图4。2.2注意力机制模块在计算机视觉中把聚焦图像的重要特征、抑制不必要的区域响应方法称作注意力机制（Attention Mechanisms），它在分类、目标检测、人脸识别、动作识别、姿态估计、3D视觉等任务中发挥着重要作用，极大地提升了计算机网络的性能。一般来说，注意力机制通

10、常被分为通道注意力机制、空间注意力机制、时间注意力机制、分支注意力机制，把通道维度和空间维度组合15，提出Convolutional Block Attention Module（CBAM），用于前馈卷积神经网络的简单而有效的注意力模块。相较于其他注意力机制模块，CBAM模块不仅保留了通道注意力，还添加了空间注意力，这使得网络模型能够注重关键信息的重要程度和关联程度、提升对关键区域的特征表达；空间注意力使神经网络更加关注图像中对分类起关键性作用的像素区域而忽略不重要的区域，通道注图2BottleNeck搭建模块图3BasicBlock搭建模块图4改进后的HRNet结构722023年第3期高效韧

11、性运行高效韧性运行意力用于处理特征图通道的分配关系，同时使用2个维度上的注意力机制使模型性能得到更加明显的提升；CBAM内部使用轻量级卷积来获取通道和空间的注意力权重，因此它是1种可以嵌入到任何主干网络中以提高性能的轻量级模块，具有通用性；引入CBAM可以提高目标检测和物体分类的精度，用到的计算量和参数都比较少，因此本研究引入CBAM模块提高网络的检测性能。给定1张特征图，CBAM模块能够序列化地在通道和空间2个维度上产生注意力特征图信息，然后2种特征图信息再与之前原输入特征图进行相乘进行自适应特征修正，产生最后的特征图。CBAM模块主要由通道注意力模块和空间注意力模块组成，2个注意力模块采用

12、串联的方式，首先在空间和通道上进行注意力机制处理，沿着通道和空间2个维度推断出注意力权重系数，然后再与feature map相乘，CBAM结构见图5。2.2.1CBAM总体流程首先输入网络主干生成的特征图 FRC H W，经过通道注意力模块处理后，获得通道注意力图MCR1 1 C，通过跳跃连接的方式乘以输入特征图F中的相应元素，将结果F送入空间注意力模块中，之后利用空间注意力模块生成带有空间注意力权重的特征图MSRH W 1，最后乘以特征图F得到最终的输出特征图F。CBAM 模块整体运行过程可以描述为以下公式：F=MC（F）F ，（1）F=MS（F）F ，（2）式中：表示元素级相乘。2.2.2

13、通道注意力机制模块通道注意力机制通过特征内部之间的关系来产生注意力机制特征图（见图6），特征图的每个通道可以当作一个特征检测器。压缩特征图的空间维度能够更高效地计算通道注意力特征，平均池化方法和最大池化方法都能够学习到物体的判别特征，同时使用这2种方法得到的效果更好，经过池化之后产生了2种不同的空间上下文信息：代表平均池化特征的Fcavg和代表最大池化特征的Fcmax，然后再将该特征送入到一个共享的多层感知机（MLP）网络中，产生最终的通道注意力特征图McRC 1 1，为了降低计算参数，在 MLP 中采用了一个降维系数 r，McRC/r 1 1。通道注意力计算公式为：Mc（F）=(MLP(Av

14、gPool(F)+MLP(MaxPool(F)=(W1(W0(Fcavg）+W1(W0(Fcmax）。（3）2.2.3空间注意力机制模块空间注意力机制通过特征图空间内部的关系，来产生空间注意力特征图（见图7）。为了计算空间注意力，首先在通道维度通过平均池化和最大池化产生 2D 特征图：FsavgR1 H W，FsmaxR1 H W，然后拼接起来它们产生的特征图，在拼接后的特征图上，使用卷积操作产生最终的空间注意力特征图：Ms(F)RH，W。空间注意力计算方式为：Ms(F)=(f7*7（AvgPool(F)；Maxpool(F)）=(f7*7（Fsavg；Fsmax）。（4）图5CBAM结构图7

15、空间注意力机制模块图6通道注意力机制模块732023年第3期高效韧性运行高效韧性运行2.3损失函数的改进2.3.1均方误差损失（MSE）均方误差损失（MSE）存在2个问题：（1）MSE损失的梯度是线性的，对微小误差不敏感，这影响了正确定位高斯分布mode的能力；（2）在训练过程中，所有的像素具有同样的损失函数和权重16，但是，在热力图中背景像素相对于前景像素是占有绝对主导地位的。这2个问题导致由MSE训练的模型预测出结果的前景像素是模糊和膨胀的，这样的低质量热力图可能会导致关键点的错误估计，因此将原本的MSE损失函数改为Adaptive wing loss。2.3.2Adaptive wing

16、 loss对于热图回归的理想损失函数，当误差很大时，损失函数具有恒定的影响，因此它将对不准确的注释和遮挡具有鲁棒性。经过不断地训练后误差减小，会出现以下情况16：（1）对于前景像素（y=1），影响和梯度应开始增加，训练能够更专注于减少他们的错误，当误差接近于0时，影响会快速减少，此时这些已经“足够好”的像素不再被关注，正确估计的影响能够帮助网络保持收敛。（2）对于背景像素（y=0），梯度应随着训练误差的减小，梯度会减小到0，因此，当误差较小时影响也会相对较小，训练时对背景像素的关注减少，对背景像素微小误差的敏感程度降低，能够稳定训练过程。由于ground truth热图的像素值范围是（0，1）

17、，这个损失函数应能够根据不同的像素值进行平滑的转换，且对于强度接近于1的ground truth像素，应增加小误差的影响，对于强度接近于0的ground truth 像素，损失函数应该像 MSE loss 一样，故而可以使用 Adaptive Wing（AWing）loss16，定义如下：AWing（y，y）=wln(1+|y-y -y)if|(y-y)0)i(vi 0)，（6）式中：i为第i个关键点；vi为第i个关键点的可见性，vi=0为在图像外无法标注的点，vi=1为标注了但是被遮挡的点，vi=2为标注了并且可见的点；对于(x)，当x为True时值为1，x为False时值为0，di为检测的

18、关键点与数据集中标注的关键点之间的欧氏距离；s为目标的尺度因子，值为目标面积的平方根，这里的面积指的是分割面积；ki为用来控制关键点类别i的衰减常数。一般用平均精度（Average Precision，AP）来评价实验结果的准确性，在COCO数据集的实验结果中，主要关注AP这个指标，AP的数据结果通过OKS计算得出，对于单人姿态估计中的AP，计算方式为：AP=p(OKSp T)p1 。（7）对于多人姿态估计而言，由于1张图片中有M个目标，假设总共预测出N个个体，那么ground truth和预测值之间能构成一个MN的矩阵，然后将每一行的最大值作为该目标的OKS，则：742023年第3期高效韧性

19、运行高效韧性运行AP=m p(OKSp T)m p1 ，（8）式中：AP为所有图片的OKS大于阈值T的百分比，T由人为给定，在本实验中 AP 是指 OKS=0.50，0.55，0.90，0.95时10个阈值之间所有检测关键点准确率的平均值，AP50是在OKS=0.50时的检测关键点的准确率，AP75 是在 OKS=0.75 时的检测关键点的准确率；APM为中尺寸物体检测关键点的准确率，APL为大尺寸物体检测关键点的准确率。3.3实验结果普通场景下的人体姿态估计效果见图8。真实地铁场景下的人体姿态估计见图9。在真实的地铁场景行人检测实验中，在遮挡严重情况下，依然能够得到较好的检测效果，因此该网络

20、适用于在地铁等人流量密集、遮挡严重的场景下进行行人检测任务。不同网络模型在COCO数据集上的结果对比见表1。由实验结果可知，本次研究提出的方法精度比原HRNet网络提升了0.7%，达到了74.1%，与当下流行的人体姿态估计网络相比，如 Hourglass、CPN、CPN+OHKM、Simple Baseline、Lite-HRNet、HRNet-W32，研究所使用的网络在预测关键点的平均精度上分别提升了7.2、5.5、4.7、3.7、9.3、0.7个百分点，且对比表中所示的所有指标，网络模型平均精度均高于其他网络模型的平均精度。因此，改进后的网络模型在人体姿态估计过程中，精确度更高、具有更好的

21、鲁棒性，证明本研究提出方法的有效性。4 结束语基于高分辨率网络HRNet对人体姿势识别进行研究，在网络中添加了注意力机制模块CBAM，该模块将空间和通道2个维度进行结合，极大提高了网络的性能，提升了重要特征的权重。使用Adaptive wing loss作为损失函数，当误差很大时，损失函数具有恒定的影响，但当误差较小时，会减少在训练时对背景像素的关注，稳定训练过程。实验结果证明，改进后的网络模型能够准确的检测出尺度较小和遮挡的关键点，具有较好的检测能力和鲁棒性，因此，在地铁实际情况中能够更好应对人群密集、遮挡严重的问题。参考文献1 傅志寰，刘忠民，李子明.中国铁路百年发展与创新 J.中国铁路，

22、2021（7）：1-7.2 KE L，CHANG M C，QI H，et al.Multi-scale structure-aware network for human pose estimationC/Pro图8普通场景效果图图9地铁场景效果图表1不同网络模型在COCO数据集上的结果对比网络模型HourglassCPNCPN+OHKMSimple BaselineLite-HRNetHRNet-W32OursAP66.968.669.470.464.873.474.1AP5088.686.789.590.0AP7578.373.080.781.3APM67.162.170.270.9APL

23、77.270.580.181.1752023年第3期高效韧性运行高效韧性运行ceedings of the European Conference on Computer Vision.Cham：Springer，2018：713-728.3 LI B，DAI Y C，CHENG X L，et al.Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep CNNC/2017 IEEE International Conference on Mul

24、timedia&ExpoWorkshops.Hong Kong，China，2017：4 171-4 180.4 TOSHEV A，SZEGEDY C.Deeppose：human pose estimation via deep neural networksC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014：1 653-1 660.5 何进英.人体姿态估计的原理及其应用场景简述 J.电脑知识与技术，2021，17（21）：108-110.6 李坤，侯庆.基于注意力机制的轻量

25、型人体姿态估计 J.计算机应用，2022（3）：1-9.7 CHENG B，XIAO B，WANG J，et al.Higherhrnet：scale-aware representation learning for bottom-up human pose estimation C/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway：IEEE，2020：5 386-5 395.8 FANG H，XIE S，TAI Y W，et al.2017.Rmpe：re

26、gional multi-person pose estimation C/The IEEE International Conference on Computer Vision：volume 2.9 FISCHLER M A，ELSCHLAGER R A.The representation and matching of pictorial structuresJ.IEEE Transactions on computers，1973（1）：67-92.10 SUN K，XIAO B，LIU D，et al.2019.Deep high-resolution representation

27、 learning for human pose estimationC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.5 693-5 703.11 ZHANG H，OUYANG H，LIU S，et al.Human pose estimation with spatial contextual informationJ.arXiv preprint arXiv：1901.01760，2019.12 SU K，YU D，XU Z，et al.Multi-person pose est

28、imation with enhanced-wise and spatial informationC/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019：5 674-5 682.13 ARTACHO B，SAVAKIS A.Unipose：unified human pose estimation in single images and videosC/Proceedings of the IEEE/CVF Conference on Computer Vision a

29、nd Pattern Recognition.Piscataway：IEEE，2020：7 035-7 044.14 YANG W，LI S，OUYANG W，et al.Learning feature pyramids for human pose estimationC/proceedings of the IEEE international conference on computer vision.2017：1 281-1 290.15 SONG L，YU G，YUAN J，et al.Human pose estimation and its application to act

30、ion recognition：a surveyJ.Journal of Visual Communication and Image Representation，2021，76：103 055.16 WANG C，ZHANG F，GE S S.A comprehensive survey on 2D multi-person pose estimation methodsJ.Engineering Applications of Artificial Intelligence，2021，102：104 260.17 IQBALU，MILANA，GALLJ.Posetrack：Joint m

31、ulti-person pose estimation and tracking C.In CVPR，2017：4 654-4 663.18 YU C，XIAO B，GAO C，et al.Lite-hrnet：A lightweight high-resolution network C/2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR）.Los Alamitos，CA，USA：IEEE Computer Society，2021：10 435-10 445.责任编辑李葳收稿日期 2023-04

32、-01762023年第3期高效韧性运行高效韧性运行Research on Human Pose Estimation at Subways Based on High Resolution NetworkLIU Shanshan1,FENG Sainan1,TIAN Qing1,QIAN Fuyu2,DOU Fei3,NIU Zhibin3(1.School of Information,North China University of Technology,Beijing 100144,China;2.Traffic Control Technology Co.,Ltd.,Beijing

33、100070,China;3.Beijing Mass Transit Railway Operation Corporation Limited,Beijing 100044,China)Abstract:At present,human pose estimation continuously develops from 2D to 3D,from images to videos,and from complex networks to lightweight networks.In this process,pose estimation integrates deep learnin

34、g theory,and uses convolutional neural network as the main building unit of the model,so that pose estimation has a greater development space.In this study,a high-resolution network is used as the backbone network and multiple resolution network branches are processed in parallel to generate high-re

35、solution representations in deeper network levels.Multi-scale fusion is carried out at all levels of parallel networks to enhance the semantic richness of high-resolution representations,and attention mechanism modules are added to the network to enhance the ability of feature extraction and improve

36、 the accuracy of human pose estimation.Keywords:human pose estimation;high-resolution network;attention mechanismResearch on Energy-saving Operation Scheme of Low Carbon Oriented Urban Rail Transit TrainYUAN Ye1,AN Fusong2,YANG Jingxuan2,WEI Yun3,YANG Xin2,SHENG Xubiao4(1.Beijing Urban Rail Transit

37、Consultation Co.,Ltd.,Beijing 100068,China;2.State Key Laboratory of Advanced Rail Autonomous Operation,Beijing Jiaotong University,Beijing 100044,China;3.Technology Innovation Research Institute,Beijing Mass Transit Railway Operation Corporation Limited,Beijing 100044,China;4.Traffic Control Techno

38、logy Co.,Ltd.,Beijing 100070,China)Abstract:With the rapid development of urban rail transit,the problem of excessive total energy consumption and carbon emission is also becoming increasingly prominent.A low-carbon oriented integrated optimization method for train operation scheme of urban rail tra

39、nsit is proposed.Analyze the dynamic characteristics of trains during operation,determine the calculation method of train traction energy consumption,and quantify the relationship between train carbon emission and traction energy consumption through power grid emission factors.Through the control of

40、 train working diagram and speed curve,more regenerative braking energy is matched while traction energy consumption is reduced.An integrated optimization model aiming at minimizing the total carbon emissions of trains along the whole line is built,and an efficient heuristic algorithm based on genet

41、ic algorithm is designed to solve the model.Based on the actual data of Beijing Subway Yanfang Line,the results show that the matching amount of regenerative braking energy of the optimized train increases by 76.1%and the carbon emission of the whole line decreases by 33%.Keywords:carbon emission;urban rail transit;train working diagram;speed curve;integrated optimization（上接第69页）77

展开阅读全文