收藏 分销(赏)

基于改进的多算法融合地铁站内乘客行为识别.pdf

上传人:自信****多点 文档编号:2349714 上传时间:2024-05-28 格式:PDF 页数:11 大小:3.28MB
下载 相关 举报
基于改进的多算法融合地铁站内乘客行为识别.pdf_第1页
第1页 / 共11页
基于改进的多算法融合地铁站内乘客行为识别.pdf_第2页
第2页 / 共11页
基于改进的多算法融合地铁站内乘客行为识别.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 20 卷 第 11 期2023 年 11 月铁道科学与工程学报Journal of Railway Science and EngineeringVolume 20 Number 11November 2023基于改进的多算法融合地铁站内乘客行为识别章宇翔,李先旺,贺德强,贺岁球,陈彦君,李琴(广西大学 机械工程学院,广西 南宁 530004)摘要:乘客的行为识别在保障乘客安全方面发挥着重要作用,它能提高地铁站对乘客安全的管理能力。然而,由于地铁车站内乘客人数众多,在出现照明变化和人员遮挡时会严重影响识别的准确率。为了解决准确率低的问题,在时空图卷积神经网络(STGCN)的基础上结合有效通

2、道注意力网络(ECANet),加强了不同节点的连接,提出一种STEGCN节点注意力算法。此外,为了进一步提高准确率,采用双流结构,更进一步提出一种 2s-STEGCN 算法。应用 Alphapose 框架,结合YOLOv5_m目标检测算法、SPPE单人姿态估计算法和2s-STEGCN算法,提出一种改进的多算法融合行为识别方法用于地铁站内乘客的行为识别。首先,利用YOLOv5_m对乘客进行框定;然后,通过SPPE对框定的乘客进行骨骼关键点提取;最后,将提取到的骨骼关键点以坐标的形式输入2s-STEGCN,完成乘客的行为识别。为了验证2s-STEGCN算法的有效性,使用南宁地铁1号线的客流数据集分

3、别在单人场景与多人场景下开展实验。实验结果表明:在损失值方面,2s-STEGCN具有最低的损失值,它的损失值仅为0.244,比STGCN的损失值低约0.025,这表明了2s-STEGCN具有更强的模型构建能力。在准确率方面,单人场景下的2s-STEGCN拥有最高的准确率,它的准确率达到96.13%,比STGCN高3.69%。此外,2s-STEGCN的准确率在多人场景下也有明显提升。该实验结果可为地铁乘客行为识别提供参考和理论支持。关键词:行为识别;时空图卷积;目标检测;姿态估计中图分类号:TP18 文献标志码:A 开放科学(资源服务)标识码(OSID)文章编号:1672-7029(2023)1

4、1-4096-11Passenger action recognition in subway stations based on improved multi-algorithm fusionZHANG Yuxiang,LI Xianwang,HE Deqiang,HE Suiqiu,CHEN Yanjun,LI Qin(School of Mechanical Engineering,Guangxi University,Nanning 530004,China)Abstract:Passenger action recognition plays a vital role in safe

5、guarding passenger safety,which improves the capability of managing passenger safety in subway stations.However,the accuracy of the passenger action recognition is seriously affected by the large number of passengers in the subway stations when there are lighting changes and obstructions.Thus,to sol

6、ve this problem,a STEGCN algorithm was proposed based on a spatio-temporal graphic convolutional neural network(STGCN)combined with an effective channel attention network 收稿日期:2023-01-11基金项目:国家自然科学基金资助项目(U22A2053);广西创新驱动发展专项(桂科 AA20302010);广西研究生教育创新计划资助项目(YCBZ2022043)通信作者:贺德强(1973),男,湖南桃江人,教授,博士,从事列

7、车故障诊断与智能维护、列车优化控制研究;Email:DOI:10.19713/ki.43-1423/u.T20230047第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别(ECANet),with enhanced connectivity of different nodes.In addition,an algorithm of 2s-STEGCN was further proposed by using a dual-stream structure to achieve further improvement in the accuracy of passenger

8、action recognition.Specifically,the Alphapose framework was applied in combining the YOLOv5_m object detection algorithm,the single-person pose estimation(SPPE)algorithm and the 2s-STEGCN algorithm to present an improved multi-algorithm fusion action recognition method for the passenger action recog

9、nition in subway stations.Firstly,the passenger was framed using the YOLOv5_m algorithm.Secondly,the skeletal key points of the framed passenger were detected by the SPPE algorithm.Finally,the detected skeletal key points were input into the 2s-STEGCN algorithm as coordinates to realize passenger ac

10、tion recognition.To verify the validity of the 2s-STEGCN algorithm,experiments were conducted using the passenger flow dataset of Nanning Rail Transit Line 1 in single-person scenarios and multi-person scenarios,respectively.The results show that the 2s-STEGCN algorithm has the lowest loss value,whi

11、ch is only 0.244,lower than that of the STGCN algorithm by about 0.025.The results indicate that the 2s-STEGCN algorithm has a stronger model-building ability.Regarding the accuracy rate,the 2s-STEGCN algorithm possesses the highest accuracy rate in single-person scenarios,which reaches 96.13%,3.69%

12、higher than that of the STGCN algorithm.Additionally,the accuracy rate of the 2s-STEGCN algorithm in multi-person scenarios is also significantly improved.Therefore,the results of this experiment can provide reference and theoretical support for subway passenger action recognition.Key words:action r

13、ecognition;spatio-temporal graph convolutional;object detection;pose estimation 地铁给人们带来快速、便捷、有序的交通环境,使其成为解决大城市交通拥堵的理想方式。如今,地铁已经成为大多数城市居民日常出行的首选12。然而,随着地铁乘客的增多,威胁到乘客生命安全的行为概率也将增大。为了保证地铁站内乘客的安全以及地铁站的正常运营,车站需要对乘客的异常行为进行准确的把控。目前,常用的方法是先利用车站内的摄像头对乘客行为进行采集,再使用行为识别算法对乘客的行为进行判断,最后将结果及时转递至车站的中央控制室。常用的行为识别算法分

14、为2种:一种是传统行为识别方法,另一种是基于深度学习的方法。传统方法中最经典的模型是iDT(improved Dense Trajectories)34,然而随着深度学习的不断发展,iDT不仅在效果方面比深度学习差,而且识别的速度极慢。因此,在行为识别领域,传统算法已经逐渐被深度学习算法取代。基于深度学习的方法主要分为3种:1)基于三维卷积的方法;2)基于双流结构的方法;3)基于骨骼关键点的方法。三维卷积是在二维卷积的基础上添加时间维度,可直接提取包含时间和空间2个方面的特征5;双流结构是将行为识别中的特征提取分为2个分支,最后结合2种特征进行行为识别67;基于骨骼关键点的行为识别方法主要是以

15、姿态估计算法的结果作为输入而进行的行为识别,利用骨骼关键点的信息描述行为不仅是当前最准确的方式,且不易受到场景和光照等影响,适应性强。由于车站内乘客人数众多,在出现照明变化和人员遮挡时会严重影响识别的准确率。因此,本文选用基于骨骼关键点的方法对地铁站内的乘客进行行为识别。为此,提出一种具有双流结构的2s-STEGCN用于站内乘客的 行 为 识 别。具 体 而 言,本 文 将 ECANet 与STGCN相结合构造STEGCN,增强关键点之间的联系,以提高行为识别的准确率。此外,引入双流结构,一个流提取人体关键点的空间特征,另一个流提取图与图之间的时间特征,最后将2个流融合,以求进一步提高模型性能

16、。1 相关工作如今,随着人体姿态估计和图卷积的不断发展,基于骨骼关键点的行为识别已经成为了一个热门的研究领域。基于骨骼关键点的行为识别可细分为3种,分别是基于RNN,CNN和图卷积网络的方法。基于RNN的方法通常是将骨骼信息以4097铁 道 科 学 与 工 程 学 报2023 年 11月坐标向量的形式表示,利用坐标向量表示人体的关节。DU等8主张将人体骨骼分为5个部分,并提出了一种端到端的分层级RNN方法。LIU等9将基于 RNN 的 3D 动作识别扩展到时空域,提出一种ST-LSTM网络。ZHANG等10提出了一种端到端的视图自适应模型,它不需要遵循人类预定义的标准重新定位骨骼,能自动调节观

17、察视点,优化识别的性能。为了解决梯度爆炸的问题,LI等11提出一种新的神经网络,称为IndRNN。基于CNN的方法是运用人工设计的变换规则将骨骼信息以伪图像的形式表示。KE等12用了所有时间特征向量之间的内在关系,提出一种MTLN的方法,提高行为识别的性能。KIM 等13提出一种 Res-TCN 方法用于3D人体行为分析。LI等14为了避免骨架数据平移与缩放的影响,提出一种平移尺寸不变的图像映射方法并结合多尺度深度CNN证明了该方法。LIU等15首次将3D CNN应用于骨架行为识别,并提出一种新的双流模型。然而,骨骼信息是以图形的形式表示,基于RNN和CNN的方法均无法充分的表示骨骼结构。因此

18、,YAN等16提出一种基于时空图卷积网络(STGCN)的方法,它打破了传统骨架的定义,更好地表述了关节之间的依赖关系,能将骨骼信息直接以图的形式表示,与之前的方法相比,展现出更好的性能。但是,STGCN同样存在缺陷,例如:它使用的骨架图是预定义的,仅仅能够代表人体的物理结构。不仅如此,GCN的结构是分层的,不同的层包含不同的语义信息,而 GCN 将语义信息固定在所有层,缺乏灵活性。为了解决 STGCN存在的问题,SHI等17提出一种自适应图卷积神经网络(2s-AGCN)用于基于骨架的动作识别,这再一次证明双流结构在行为识别中的有效性。BAI等18提出一种双流时空图卷积(2s-STGCN),解决

19、了图形的时间特征难以被充分利用的问题。2 方法2.1AlphaposeAlphapose是一种多人姿态估计框架19,该框架由对称空间变换网络(SSTN)、参数姿势非最大值抑制(NMS)和姿势引导建议生成器(PGPG)组成。换言之是将目标检测算法和SPPE单人姿态估计相结合以达到多人姿态估计的目的。这种框架的准确率将高度依赖目标检测框的检测质量,本文将通过实验对比选取适合的目标检测器对车站内的乘客进行目标检测。多人行为识别的框架如图 1所示。2.2行为识别2.2.1时空图卷积神经网络1)空间图的构建参考STGCN模式,给定2D或3D坐标形式的身体关节序列,构造一个时空图G=(VE),V=|vti

20、t=1Ti=1N是节点矩阵集合,T为帧数,N为关键点数。生成的人体骨骼关键点以2维坐标和置信度表示为(xyz),因此,骨骼关键点F(vti)将定义为特征向量,它由坐标向量和第t帧、第i个关键点的置信度组成。分2步构建骨骼序列图1多人行为识别框架Fig.1Multi-person action recognition framework4098第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别的时空图。第1步,帧与帧之间的边表示人体对应骨骼点的时序关系;第2步,在每一帧图中,按照人体的骨架连接关系构造空间图。E是边的集合,它 由 2 个 子 集 组 成。第 1 个 子 集 为ES=

21、|vtivtj(ij)H,它是每一帧图内骨骼点之间的连接集合,H表示人体骨骼点的集合。第 2 个子集EF=vtiv(t+l)i表示相同关键点的不同帧之间的连接。一个人体中有14个骨骼关键点,人体骨骼关键点的空间图构建如图2所示。2)时间图的构建时间图表示前后帧之间的连接,且由向量组成,每个向量中包含着长度信息和方向信息。将第t帧图像中的节点i定义为vti,第t+r帧图像中的节 点i定 义 为v(t+r)i。令vti=(x1y1c1),v(t+r)i=(x2y2c2),那么r帧图像内同一个节点i的向量将表示为vtiv(t+r)i=(x2-x1y2-y1min(c2c1)。图3为人体骨骼关键的时间

22、图,相邻帧之间的骨骼关键点用绿线连接。因此,一个骨骼关键点i的所有矢量将表示它随时间的轨迹。3)图卷积参考STGCN模式,节点vti上的时空图卷积被定义为:fout(vti)=vtjS(ti)1Ztifin(vtj)w(lin(vtj)(1)其中:f表示特征图,vtj空间图中第t帧的节点j,S(vti)表示vti的卷积区域,w表示加权函数,li表示映射函数,Zij表示正则化项Zij(vti)=|vtk|lti(vtk)=lti(vtj)|等于相应的子集基数。空间图卷积由特征B和图结构G定义。空间图卷绕的分层更新规则可应用于时间t的特征B,如式(2)所示:B(l+1)=(D-12GD-12B(l

23、)t(l)(2)其中:G=G+1,D是G的对角矩阵;()为激活函数,D-12GD-12B(l)t为一个空间平均特征的聚合。vtiv(t+r)i上的时间图卷积可以被定义为:fout(vti)=vtjS(vti)1Ztifin(vtj)w(lin(vtj)(3)fout(ai)=aiCifin(aj)w(l(aj)(4)ai=vtiv(t+r)i(5)aj=vtjv(t+r)j(6)其中:f表示特征图;v表示时间图中的向量;Ci表示ai的卷积区域,a表示为r帧图像中同一个节点的向量;w表示权重函数;l表示映射函数。4)策略由于身体骨架是空间定位,本文将采用空间构型划分的策略,将邻域集划分为3个子集

24、。第1个子集为节点本身,第2个为空间位置上比节点更靠近整个骨架重心的邻节点集合,第3个则为空间位置上比节点更远离重心的邻节点集合。lti(vtj)=012ifififdj=didjdi(7)其中:lti(vti)是vti单帧下的映射;di是训练集内所有帧中的关键点i到重心的平均距离;dj是节点vtj到重心的距离。2.2.2注意力机制注意力机制是实现网络自适应注意的一种方式,其本质就是定位到感兴趣的特征,抑制无用图2人体骨骼关键点的空间图Fig.2Spatial graph of the key points of the human skeleton图3人体骨骼关键点的时间图Fig.3Temp

25、oral graph of the key points of the human skeleton4099铁 道 科 学 与 工 程 学 报2023 年 11月特征。ECANet20是一种通道注意力机制,它被认为是 SENet21的改进版。它通过快速 1D卷积产生通道关注,其核大小可通过通道维度的非线性映射自适应确定,图4为ECANet的网络结构。首先在输入特征上进行全局平均池化(GAP),不需要进行维度缩减。再通过卷积核大小为k的1D卷积来捕获局部跨通道交互,k表示剧本跨通道交互的覆盖范围,该覆盖范围自适应确定并与通道大小成比例。最后,使用sigmoid函数生成每个通道的权重,将输入特征与

26、通道权重结合得到最终的输出。2.2.3STEGCN在地铁站内的场景中,乘客的安全将是地铁工作人员最为关注的。而站内乘客最经常出现的危险行为则是摔倒,摔倒的过程往往非常突然,人体腿部和头部的关键点会在短时间内发生急剧的空间变化。此时,手部特征对摔倒动作的识别贡献较小,而人体腿部和头部的特征贡献较大。这时,人体的腿部和头部将被定义为感兴趣特征,而手部将被定义为无用特征。然而,STGCN的感受野仅在相邻卷积核的范围内,只能提取局部的特征信息,无法将腿部与头部的特征联系起来。为了让网络能自适应地注意人体腿部和头部随时间变化的特征,本文结合STGCN与ECANet提出一种称为STEGCN的节点注意力模型

27、,通过引入注意力机制使得模型可以关注不同节点之间的连接。图 5为 STEGCN 网络结构图,GCN 模块表示空间卷积操作,TCN模块表示时间卷积操作。网络中共有9个GCN+TCN模块层,残差结构应用于每一层。13层的输出通道为64,46层的输出通道为 128,79 层的输出通道为 256。KONG等22通过实验证明将注意力机制添加至第2层或第3层的结果相似,且比添加至其他层的效果更好。本文在第2层中添加ECANet使其达到更好的性能效果,为此本文通过消融实验证明这一点。STEGCN的图卷积过程如下:fout=j-12j(AjM)-12jfinWj(8)jAj=A+I(9)iij=k(Aikj)

28、+(10)其中:fin为输入的特征图;A为邻接矩阵,表示单帧图像的骨骼关键点的连接;为单位矩阵,用于表示自连接;M为可学习权重矩阵,用于学习不同骨骼节点的重要性,初始值均为1;W为图卷积的权重矩阵;iij表示归一化的对角矩阵,为了避免Aj出现空行,令=0.001。2.2.42s-STEGCN双流结构在视频动作识别中具有优异的性能23。因此,为了进一步提高行为识别的准确率,本文采用节点流和骨骼流作为2个输入流,2个输入流使用的网络均为 STEGCN,并以此构建 2s-STEGCN。虽然节点流与骨骼流使用相同的网络,但是它们获取的信息却不相同。在骨骼流中,输入的数据形式为单帧图像中各个骨骼节点的连

29、接图4ECANet网络结构图Fig.4ECANet network4100第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别图。而在节点流中,输入的数据形式为单个骨骼节点在一段时间内的位置变化连接图。当节点流与骨骼流中分别完成预测后,将2个流的softmax分数相加,得到融合分数,并完成行为的预测。图6为2s-STEGCN的行为识别框架图。3 实验3.1数据集介绍实验所使用的数据均来自南宁地铁1号线的监控视频,本文将利用监控视频制作一个图像数据集和一个视频数据集,分别将它们命名为Data set-1与Data set-2。模型的训练和测试在实验室的计算机中进行,使用的CPU是In

30、terCoreTM i3-9100F,图62s-STEGCN行为识别框架图Fig.62s-STEGCN action recognition Framework图5STEGCN网络结构图Fig.5STEGCN network4101铁 道 科 学 与 工 程 学 报2023 年 11月GPU 是 NVIDIA GeForce GTX1060(6GB)。软件环境如下:Ubuntu 18.04+Pytorch 1.4.0+Cuda-10.1+Cudnn-7.6.3+Python 3.7.0+OpenCV-4.0.0等。1)Data set-1将地铁监控视频以一定的时间间隔剪切成像素为1 9201

31、080的图像,然后通过人工筛选、数据增强图像标注后制成Data set-1。采用的数据增强方法如下:1)图像的镜像处理;2)随机旋转角度;3)随机更改图像对比度;4)增加高斯噪声。最终获得6 733张图像数据。图像标注使用 Labelimg软件进行标注,获得的标注数据。其中包括位置、类别、识别难度等。所有的数据都将做成PASCAL VOC格式。2)Data set-2该数据集是一个视频数据集,视频内的对象均是一个人,共计125个视频,24 548张图像。视频场景主要包括站台,站厅,扶梯口。所有视频均为 1 9201 080分辨率,24位真彩色(RGB),采用 MP4格式,无音频,30帧/s。每

32、个视频包含不同的行为动作,如站立、行走、跌倒和躺下。3.2目标检测器选取在Alphapose检测框架中,人体的姿态估计使用的是SPPE(single-person pose estimator)模型。然而,SPPE 容易受到边界框错误的影响。即使在IoU0.5的情况下,边界框被认为是正确的,检测到的人体骨架仍然可能是错误的。因此,Alphapose骨架检测模型的精度很大程度上取决于人体边界框的质量。为了提高骨骼关键点检测精度同时确保其检测速度,本文将选用YOLO系列的目标检测算法在 Data set-1 数据中进行实验及对比,选取综合性能最好的模型进行用于人体边界框检测,实验将IoU设置为0.

33、75,实验结果如表1。为了保证人体边界框的精度和检测速度,本文选取YOLOv5_m作为人体目标检测器。3.3行为识别对比本文使用Data set-2数据集对行为识别模型开展实验。实验使用PyTorch实现,模型通过随机梯度下降(SGD)和 Nesterov 动量(设置为 0.9)进行训练。采用衰减策略来对权重进行调整。首先用较高的值初始化学习速率,并在训练过程中的后期逐渐降低学习速率。实验中,学习率被初始化为101,Epoch设置为100。在第20,40,60和80个Epoch 结束后学习率分别降至 102,103,104和105。由于服务器 GPU 内存较小,Batchsize 设置为8。3

34、.3.1消融实验为了验证在 STGCN 的第 2 个 GCN+TCN 模块层中添加ECANet的效果最好,将开展消融实验。实验分为10组,第1组为原始的STGCN网络,其余 9组表示在 STGCN的不同 GCN+TCN模块层之中添加一个ECANet的实验结果。消融实验结果如表2所示。从表2中可以看出,无论在哪一层添加ECANet,其准确率始终高于原始的STGCN。在第2层或第3层中添加ECANet的效果最好,准确率比 STGCN 高 1.77%。因此,本文将在第 2 层中添加ECANet以构建STEGCN。3.3.2损失值对比模型的损失值表示预测值和真实值之间的差异。训练损失值越小,模型构建得

35、越好。STGCN,表1YOLO算法的实验结果对比Table 1Comparison of experimental results of YOLO algorithm模型Yolov4Yolov4_tinyYolov5_sYolov5_mYolov5_lmAP/%65.8853.0464.2773.2276.59精确度/%83.7575.6082.4385.5487.15召回率/%69.7260.3062.2670.9973.55F10.760.670.710.780.80时间/ms6113283755表2消融实验的结果Table 2Results of the ablation experim

36、ent组号12345678910模型STGCNSTGCN1+ECANetSTGCN2+ECANet(STEGCN)STGCN3+ECANetSTGCN4+ECANetSTGCN5+ECANetSTGCN6+ECANetSTGCN7+ECANetSTGCN8+ECANetSTGCN9+ECANet准确率/%92.4494.0194.2194.2193.6293.6193.5993.6093.5993.584102第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别2s-STGCN,STEGCN和2s-STEGCN的损失曲线如图 7所示。2s-STEGCN 在收敛速度和最终损失值方面优

37、于其他3个模型。STGCN的最终损失值为0.269,STEGCN 的 最 终 损 失 值 为 0.255。2s-STGCN 的最终损失数值为 0.258,2s-STEGCN 的损失值为 0.244,比 STGCN 的损失值低约 0.025。这一结果表明 2s-STEGCN模型比其他 3个模型构建得更好。3.3.3准确率对比表3是不同行为识别模型的实验结果,图8是不同行为识别模型的准确率曲线。从表3中可以看出,STEGCN 的准确率为 94.21%,比 STGCN 高1.77%的主要原因是,STGCN只关注当前节点和相邻节点间的有效特征,而本文在STGCN中引入ECANet 注意力机制,加强了非

38、相邻节点间的连接,使得模型能关注到非相邻节点间的有效特征,从而提高模型的准确率,这说明了ECANet的有效性。2s-STGCN在STGCN的基础上引入双流结构,它将时间流与空间流相结合,当空间流与时间流中分别完成预测后,将2个流的softmax分数相加,得到的最终预测结果,它既能关注时间流中的某一骨骼节点随时间变化的特征又能关注空间流中某一时刻各个骨骼点之间的位置特征。因此,2s-STGCN 的 准 确 率 比 STGCN 高 1.67%,达 到 了94.11%,这说明了双流结构在行为识别中的有效性。而本文将双流结构与STEGCN相结合构建的2s-STEGCN具有最高的准确率,它的准确率可以达

39、到96.13%。图 9显示了 2s-STEGCN 模型在单人场景下的部 分 实 验 结 果。图 中 可 以 清 楚 地 看 出,YOLOv5_m对人体进行检测,并使用的检测框将目标定位。SPPE对检测框内的人体进行骨骼关键点的提取。最后使用2s-STEGCN对视频中的乘客进行行为识别,并将模型识别到的行为以及出现该行为的概率标注在检测框上。摔倒在地铁场景中属于危险行为,它的主要特征是膝盖关键点与相邻关键点之间位置、角度关系的变化和它们坐标序列在连续帧中发生的变化。因此,对于摔倒行为本文使用红色字体标注。图10为多人场景下的部分实验结果对比,图中显示,本文的组合模型具有比原STGCN更好的识别结

40、果。然而,在多人场景下,本文的组合模型的准确率远没有单人场景下的高。其主要的原因是多人场景下会存在人与人之间的遮挡以及侧向面对摄像头的行人无法完全展示整体的人体骨骼等问题,这都会大大提高人体骨骼关键点的提取难度,进而影响行为识别的准确率。图7行为识别模型的损失曲线对比Fig.7Comparison of loss curves of action recognition models表3不同行为识别模型的实验结果Table 3Experimental results of different action recognition models模型STGCN2s-STGCNSTEGCN2s-ST

41、EGCN准确率/%92.4494.1194.2196.13图8行为识别模型的准确率曲线对比Fig.8Comparison of accuracy curves of action recognition models4103铁 道 科 学 与 工 程 学 报2023 年 11月图9单人场景下的部分实验结果Fig.9Partial experimental results in the single person scenario(a)YOLO_m+SPPE+2s-STEGCN;(b)YOLO_m+SPPE+STGCN图10多人场景下的部分实验结果对比Fig.10Comparison of pa

42、rtial experimental results in multiplayer scenarios4104第 11 期章宇翔,等:基于改进的多算法融合地铁站内乘客行为识别4 结论1)结合 STGCN 与 ECANet提出一种 STEGCN算法。此外,运用双流结构,构建出2s-STEGCN算法。2)为了实现地铁站的乘客行为识别,提出一种改进的多算法融合行为识别方法。YOLOv5_m目标检测算法用于对地铁站内乘客进行目标检测,将检测到的目标以SPPE单人姿态估计算法对检测到的人进行骨骼关键点的提取,最后将含有时间序列的骨骼关键点运用2s-STEGCN模型进行行为识别。3)本文使用南宁地铁1号线

43、的监控视频数据开展实验。首先,使用 Data-set1数据集对 YOLO系列算法进行实验,最终选取YOLOv5_m用于乘客人体检测。其次,使用Data-set2数据集开展消融实验,以验证STEGCN的有效性。同时再使用Data-set2数据集对STGCN,STEGCN,2s-STGCN和2s-STEGCN开展对比实验,实验结果表明,与其他 3个模型相比,2s-STEGCN 不仅具有最好的模型构建能力,还具有最高的准确率,此方法在单人场景中体现出令人满意的性能。最后,将改进的多算法融合行为识别方法部署至多人场景的地铁车站中,结果表明,改进的多算法融合行为识别方法不仅能够实现多人场景下的行为识别,

44、在准确率方面还有所提升。参考文献:1HE Deqiang,LIU Chenyu,JIN Zhenzhen,et al.Fault diagnosis of flywheel bearing based on parameter optimization variational mode decomposition energy entropy and deep learningJ.Energy,2022,239:122108.2肖红升,贺德强,杨严杰,等.基于可靠度的列车多部件预防性机会维修策略研究J.铁道科学与工程学报,2019,16(4):10331040.XIAO Hongsheng,H

45、E Deqiang,YANG Yanjie,et al.Research on the preventive opportunistic maintenance strategy of train multi-components based on reliabilityJ.Journal of Railway Science and Engineering,2019,16(4):10331040.3WANG Heng,SCHMID C.Action recognition with improved trajectoriesC/2013 IEEE International Conferen

46、ce on Computer Vision.December 1-8,2013,Sydney,NSW,Australia.IEEE,2014:35513558.4周航,刘於锡,龚越,等.基于密集轨迹和光流二值化图的行为识别算法J.计算机工程与应用,2022,58(20):174180.ZHOU Hang,LIU Yuxi,GONG Yue,et al.Action recognition algorithm based on dense trajectories and optical flow binarization imageJ.Computer Engineering and Appl

47、ications,2022,58(20):174180.5LIU Jiaheng,GUO Jinyang,XU Dong.APSNet:toward adaptive point sampling for efficient 3D action recognitionJ.IEEE Transactions on Image Processing,2022,31:52875302.6吕亚兰,安建伟.基于特征融合双流网络的人体行为识别J.电子测量技术,2020,43(20):121126.L Yalan,AN Jianwei.Human behavior recognition based on

48、feature fusion double-stream networkJ.Electronic Measurement Technology,2020,43(20):121126.7WANG Zhongwen,LU Haozhu,JIN Junlan,et al.Human action recognition based on improved two-stream convolution networkJ.Applied Sciences,2022,12(12):5784.8DU Yong,WANG Wei,WANG Liang.Hierarchical recurrent neural

49、 network for skeleton based action recognitionC/2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).June 7-12,2015,Boston,MA,USA.IEEE,2015:11101118.9LIU Jun,SHAHROUDY A,XU Dong,et al.Spatio-temporal LSTM with trust gates for 3D human action recognitionC/European Conference on Compu

50、ter Vision.Cham:Springer,2016:816833.10 ZHANG Pengfei,LAN Cuiling,XING Junliang,et al.View adaptive recurrent neural networks for high performance human action recognition from skeleton dataC/2017 IEEE International Conference on Computer Vision(ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:213621

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服