1、第3 9 卷第4期2023年8 月Journal of Harbin University of Commerce(Natural Sciences Edition)哈尔滨商业大学学报(自然科学版)Vol.39 No.4Aug.2023基于Kinect的双流时空卷积人体行为识别技术熊新炎,张童(哈尔滨商业大学轻工学院,哈尔滨150 0 2 8)摘要:针对原有双流时空卷积网络模型中网络深度不足,从而导致人体行为识别结果偏低的问题,针对该网络模型进行改进,且融入Kinect骨骼序列数据.对于输入数据,通过Kinect相机对人体动作转化为骨骼序列;改进双流卷积网络模型是在原有的模型框架下,用Rest
2、Net-50网络结构替代原VGG-16网络结构,再对数据进行一系列处理.在HMDB-51和UCF-101两个公开数据集上进行模型的训练和验证,其识别结果分别为7 0.8%和9 1.4%,通过对比结果表明,本文提出的改进双流卷积网络融合Kinect骨骼数据能够有效提升人体行为识别的正确率。关键词:Kinect;骨骼序列;双流神经网络;人体行为识别中图分类号:TP391.4文献标识码:A文章编号:16 7 2-0 9 46(2 0 2 3)0 4-0 40 3-0 5Kinect-based dual-stream spatiotemporal convolution human behavior
3、recognition technologyXIONG Xinyan,ZHANG Tong(College of Light Industry,Harbin University of Commerce,Harbin 150028,China)Abstract:In response to the problem of insufficient network depth in the original dual streamspatiotemporal convolutional network model,which leads to low recognition results of
4、humanbehavior,this paper improved the network model and incorporates Kinect bone sequencedata.For input data,this paper used Kinect cameras to convert human movements intoskeletal sequences;the improved dual stream convolutional network model replaced theoriginal VGG-16 network structure with the Re
5、stNet-50 network structure under theoriginal model framework,and then performed a series of data processing.The model wastrained and validated on two publicly available datasets,HMDB-51 and UCF-101,andthe recognition results were 70.8%and 91.4%,respectively.The comparison resultsshowed that the impr
6、oved dual flow convolutional network proposed in this paper for fusingKinect bone data can effectively improve the accuracy of human behavior recognition.Key words:Kinect;bone sequence;two-stream neural network;human action recognition收稿日期:2 0 2 2-0 9-18.作者简介:熊新炎(19 8 1),男,工学博士,硕士生导师,研究方向:机器视觉、机器人工程
7、、智能控制系统.404 随着科技日新月异的发展,对于智能安防检测 、人机交互领域2 、虚拟实现领域3 的应用需求,人体行为识别成为计算机视觉领域中的研究热点之一4,在国内外人受到广泛研究人员的关注.人体行为识别的方法大致可分为两种:1)基于传感器采集数据方法,再利用识别算法对数据集进行训练和测试.Zhang等5 提出一种多传感器数据融合人体行为识别,该方法通过LSTM网络,增加数据之间的联系,保留了其中有效的数据,而且所需要的参数相对于其他网络减少,但是,该网络模型的训练速度较慢,消耗的网络资源较多.Tran61等提出一种C3D网络进行人体识别,该网络是在原有的2 D网络模型的基础上进行修改,
8、提高了网络的计算效率,但是三维网络的参数容易出现过拟合现象.Guo7等人提出一种深度学习网络来对可穿戴设备人体行为数据进行识别,在网络模型中增加了多个分支结构,其目的是对不同传感器数据进行分别特征提取与融合,使该网络具有较强的泛华能力,但是这种方法增加了网络的计算复杂度,增加了训练的时间与模型计算的成本.2)基于相机采集数据方法,人体骨骼序列可以通过Kinect和OpenPose进行采集建模,通过一些算法达到识别人体行为的目的.Xin等 提出一种基于特征选择的模板识别方法,但是这个方法每个动作的参考模板过于单一,这使动作之间的差异性降低.Li 等9 提出一种人体关节点角度测量的姿势识别算法,该
9、方法能够实时监测人体骨骼节点之间的角度,但是对于一些细微动作的检测还是不够明显.综合上述方法的分析研究,针对文献10 提出的一种双流时空卷积方法存在的一些问题,本文提出一种基于Kinect的改进双流时空卷积神经网络方法进行人体动作识别.该方法首先使用RestNet-50网络模块替换了原网络中的VGG-16网络模块,增加其网络的深度,然后引人了残差连接和批标准化,减少了梯度消散和数据过拟合问题,实现良好的网络效果.进过HMDB51和UCF-101两个数据集上的实验对比分析,验证了改进的双流卷积神经网络是可行的.哈尔滨商业大学学报(自然科学版)1人体骨骼特征提取1.1关节点的坐标获取与转换人体是一
10、个复杂的结构,为了方便计算与分析,将复杂的人体结构,简化为图1所示的人体关节点骨骼模型.其选取人体中的2 0 个主要关节,并进行数字标记,将整个人体结构进行简化.为了计算方便,就必须对这些关节点的坐标转化到世界坐标系中.设第一个关节点的坐标为M(i,y1,z)并将这个关节点定位主要关节点,然后带人式(1)中求出剩下关节点转换后的坐标.M,=M,(x1,y,z)-M,(xi,yi,z)其中M为转换后的坐标,M(1,y1,z)为关节中心点.131415168图1关节点标记图Figure 1 Joint point marking diagram1.2关键点的行为特征提取人体的行为是动态的,为了提取
11、动态人体行为特征,假设输入一张时空图片为G(N,E),某一段视频的顿数为T,将每个关节点在T顿内的特征矩阵表示为N,则所有关节点在T顿内的特征矩阵集合表示为:N=nult=1,2,3,.,T,i=1,2,.,20(2)E分为两个部分,一个是单顿内所有关节点连接集合E,,另一个是在T顿内同一位置关节点的连接集合E,图2 为人体关节点的时空图构建图.第3 9 卷(1)217181932045961071112第4期图2 人体关节点的时空图构建图Figure 2Construction of spatiotemporal mapof human joint pointsE,=(nin,l(ij=1,
12、2,20)E,=(nin(+1)il为了更好地区分动作之间的差异,可以使用余弦相似度来到达区分的目的.假设两个节点的坐标为A(xi,i,z),B(xi+1,i+1,zi+1),那么两个相邻关熊新炎,等:基于Kinect的双流时空卷积人体行为识别技术a=arc cos 其中i=1,2,.,20.2时空卷积神经网络2.1时空双流神经网络时空双流卷积网络进行人体识别时,会从两个(3)方面对视频数据进行处理,一个是空间维度,空间(4)维度处理的是单帧内的人体行为信息,而另一个时间维度处理的是连续视频帧的光流信息产生的光流图像 ,图3 是时空双流神经网络的结构示意图.405.节点的向量就可以表示为:n=
13、(x;i,2.)-(:+1,i+1,2i+1)通过式(3)求得两个相邻节点之间形成的特征向量,就能根据式(4)求出两个相邻向量之间的夹角.(6)(5)n.ni+1Spatial stream ConvNetClassConvlConv27x7x965x5x256Conv3 Conv43x3x512Full6 Full73x3x5123x3x512Stride4096Stride2Stride2NormNormStride1StrideiPool2x2dropoutdropoutPool2x22Pool2x2Single frameInput videoMulti-frameoptical fl
14、owConv5Temporal stream ConvNetConvlCony277965x5x256Conv3.Conv4.Conv5Full6 Full73x3x512Stride2Stride23x3x5123x3x512Stridei4096NormNormStridei1StrideiPool2x2Pool2x2Pool 2x22048softmax2048softmaxdropoutdropoutscorefusion图3 时空双流神经网络结构Figure 3 Structure of spatiotemporal dual flow neural network双流神经网络结构采
15、用的是VGG-16网络9】,VGG-16网络有13 个卷积层和3 个全连接层,该网络在每次池化之后,经过卷积通道数都会翻倍,这样的好处就是为了保留更多的特征.但是,随着层数不断提高,准确率反而降低.所以本文便提出一种改进的时空双流神经网络来解决这一问题.2.2改进时空双流神经网络根据上文所述,双流卷积网络VGG-16模型所存在的问题,本文提出使用RestNet-50网络模型替代了原有的VCG-16模型,并且在该网络中加人了残差模块,便增加了双流网络的深度,同时减少了数据过拟合,降低了梯度爆炸问题,实现良好的网络效果.表1是RestNet50 的网络结构.每406.个网络层都有不同数量的残差模块
16、,在第一层和第五层结束后面分别有一个最大池化层和一个平均池化层,最后还有一层全连接层,表1RestNet-50 网络结构Table 1RestNet-50 Network Structure网络层输出尺寸Conv 1112 112哈尔滨商业大学学报(自然科学版)来说,增加双流网络的网络深度,但同时也会出现一些新的问题,梯度消散、网络退化等等,为了解决这一问题,本文在网络中加入了残差连接模块.图4为残差模块的结构图.X结构Weight layer7 7,64,stride 23 3 max pool,stride 2第3 9 卷F(x)ReluidentityXRelu11647Conv2_x5
17、6 56Conv3_x28 28Conv4_x14 14Conv5_x77112.3残差连接RestNet-50网络相对于VGG-16网络模型Weight layer3364x3L11256111287331284L1 15121125633256x6L1 110241151233512x3L1 12.048Avange_pool,1000-d,fc,softmaxF(x)+xFigure 4Residual module2.4整体识别网络设计本文设计的基于Kinect 的双层时空卷网络结构如图5所示,首先通过Kinect提取到的骨骼关节点序列,然后通过软件将这些序列分成两个部分,传入空间模块
18、和时间模块两个子网络中,这两个网络由5个卷积层构成,卷积完成之后再送人dropout层中减少数据的过拟合,然后进行数据的融合与连接,最后再分类输出.图4残差模块空间流RestNet-50卷积层Conv1Kinect提取骨骼关节点序列3实验与结果分析实验环境:Windows10操作系统;CPU:I n t e lcore i510 2 0 0 H;显卡:NVIDIA GTX1650Ti 4GGDDR6独立显卡;运行内存:8 G;利用MatlabR2020b搭建深度学习框架.Conv5_xConv1Conv5_x时间流RestNet-50卷积层图5整体识别网络结构Figure 5 Overall
19、Identification Network Structure3.1数据集本文所使用的数据集为HMDB-51和UCF-101这两个被广泛使用的数据集.HMDB-51数据集和UCF101数据集都是从YouTube收集来的具有真实动作视频的动作识别数据集.HMDB-51拥有来自51个动作类别的6 8 49 个视频,每个动作dropoutdropout融合层全连接层Softmax第4期至少包含10 1个视频,分辨率3 2 0*2 40.UCF101拥有来自10 1个动作类别的13 3 2 0 个视频,在动作方面具有最大的多样性,10 1个动作类别的视频分为2 5组,每组可以包含4 7 个动作的视频
20、.3.2数据训练和实验测试利用OpenPose 在VS2017软件上将HMDB-51和UCF-101数据集里面的视频分解为空间和时间两个部分,空间为单帧RGB图像,时间为光流图像,视频的帧数设置为2 0 顿,通过Kinect相机中算法对扫描单帧RCB图像中的骨骼关节点.在Matlab2020上构建深度学习框架,将单顿RGB图像和光流图像分别输入到空间和时间两个子卷积网络中,融合卷积完成之后再送人dropout层中减少数据的过拟合,然后进行数据的融合与连接,最后再分类输出.训练次数设置为10 0,数据集中70%作为训练集,3 0%作为实验集,最终实验的结果如图6 所示,HMDB51的识别准确率为
21、70.8%,UCF-101的识别准确率为9 1.4%,在准确率上有明显提高.100908070%/率耻6050403020100图6 HMDB-51和UCF-101的验证结果Figure 6Validation Results of HMDB-51and UCF-1013.3与其他方法对比在HMDB-51和UCF-101数据集上面与其他研究方法进行对比,识别准确率进行对比结果如表2 所示.本文算法与多个文献中所使用的方法都有略微的提高,通过结果的比较,可以看出本文所提出的方法能更好完成动作识别任务.熊新炎,等:基于Kinect的双流时空卷积人体行为识别技术方法文献10 Two-stream C
22、NN文献7 C3D文献5sr3d文献14 TSN本文RestNet-504 结 语本文提出一种基于Kinect的双流时空卷积网络进行人体动作识别的方法.该方法在舍去了原有的双流卷积模块中的VCG-16框架,用RestNet-50网络框架代替,并加人残差模块,增加了网络深度,减少梯度消散和数据过拟合,在HMDB51和UCF10 1这两个数据集上的识别率分别是70.8%和9 1.4%,对比其他方面,本文方法在识别率上有明显提高,但是由于网络深度的增加和残差模块的加人,增加了网络模型中的参数,且识别训练花费的时间较长,前期对视频的处理方式有一些复杂化,这些问题将在今后的工作中进一步完善.参考文献:1
23、KIM I S,CHOI H S,YI K M,et al.Intelligent visualsurveillance a survey J.International Journal ofUCF101Control,Automation and Systems,2010,8(5):926-939HMDB-512RAUTARAY S S,AGRAWAL A Vision based hand5001000150020002.500选代次数407表2 与其他研究方法对比Table 2Comparison with other research methods文献HMDB51/%88.059.4
24、86.454.3836一一68.591.470.8gesture recognition for human computer interaction:asurveyJ.Artificial Intelligence Review,2015,43(1):1-54.3SUMA E A,KRUM D M,LANGE B,et al.Adaptinguser interfaces for gestural interaction with the flexibleaction and articulated skeleton toolkit J.Com-puters&Graphics,2013,37
25、(3):193-201.4朱红蕾,朱昶胜,徐志刚人体行为识别数据集研究进展J自动化学报,2 0 18,44(6):9 7 8 10 0 4.5张俊,李昌.基于LSTM多传感器数据融合人体行为识别方法J芜湖职业技术学院学报,2 0 2 1,23(2):32 35.(下转43 0 页)UCF101/%.4302020,39(2):1-20.4KONGF,NIETO J J.Almost periodic dynamicalbehaviors of the hematopoiesis model with mixeddiscontinuous harvesting terms J.D i s c r
26、 e t e&Continuous Dynamical Systems-B,2019,24(11):5803-5830.5LIU B.New results on the positive almost periodicsolutions for a model of hematopoiesis J.NonlinearAnalysis:Real World Applications,2014,17:252-264.6BEN F H,CHERIF F.Positive pseudo almost periodicsolutions to a class of hematopoiesis mode
27、l:oscillationsand dynamics J.Journal of Applied Mathematics andComputing,2020,63(1):479-500.7王文涛,刘福窑,陈.具有非单调反馈的随机Mackey-Glass造血模型J.应用数学学报,2 0 2 0,43(5):865 874.8龙欣时滞Nicholson果蝇系统的动力学分析D.长沙:长沙理工大学,2 0 2 1.9董亚男,史培林.具有Logistic增长的随机溶瘤疗法模型的动力学行为研究J.数学的实践与认识,2020,50(24):99 108.10BEREZANSKYL,BRAVERMAN E,ID
28、ELS L.Mackey-Glass model of hematopoiesis with non-monotonefeedback:stability,o s c i l l a t i o n a n d c o n t r o l J.Applied Mathematics and Computation,2 0 13,2 19(上接40 7 页)6TRAN D,BOURDEV L,FERGUS R,et al.Learningspatiotemporal features with 3D convolutional networks C/Proceedings of IEEE Int
29、ernational Conference onComputer Vision,2015:4489-4497.7郭毅博,孟文化,范一鸣,等基于可穿戴传感器数据的人体行为识别数据特征提取方法J.计算机辅助设计与图形学学报,2 0 2 1,33(8):12 46-12 53.8辛义忠,邢志飞.基于Kinect的人体动作识别方法J.计算机工程与设计,2 0 16,37(4):10 56-10 6 1.9李昕迪,朱国强.基于Kinect的人体姿势识别算法与实现J.自动化技术与应用,2 0 16(2):117-12 1.10SIMONYAN K,ZISSERMAN A.Two-stream convol
30、utionalnetworks for action recognition in videos J.-arXivpreprint arXiv:2014,1406:2199.11 吕淑平,黄毅,王莹莹,基于双流卷积神经网络的人体动作识别研究J实验技术与管理,2 0 2 1,38(8):144-148.12孙满贞张鹏,苏本跃。基于骨骼数据特征的人体哈尔滨商业大学学报(自然科学版)(11):6268-6283.11 王利波,徐瑰瑰,张杰华.一类带有时滞的Lotka-Volterra食饵捕食系统的概周期解J.中国科技信息,2 0 2 1(2 0):10 7-10 9.12 杨巧艳,廖代琴,颜向平.具
31、有时滞的Lotka-Volterra食饵-捕食者成年种群模型的稳定性分析J.应用数学,2 0 2 2,35(4):9 6 6-9 7 3.13 LEI J,MACKEY M C.Multistability in an age-structured modelof Ihematopoiesis:Cyclicalneutropenia J.Journal of theoretical biology,2011,270(1):143-153.14 ZHANG H,YANG M,WANG L.Existence andexponential convergence of the positive a
32、lmost periodicsolution for a model of hematopoiesis J.AppliedMathematics Letters,2013,26(1):38-42.15 ZHANG H.New results on the positive pseudo almostperiodic solutions for a generalized model ofhematopoiesis J.Electronic Journal of QualitativeTheory of Differential Equations,2014,2014(2 4):1-10.16
33、YAN Y,SUGIE J.Existence regions of positiveperiodic solutions for a discrete hematopoiesis modelwith unimodal production functions J.AppliedMathematical Modelling,2019,68:152-168.行为识别方法综述J软件导刊,2 0 2 2,2 1(4):233 239.13 吕亚兰,安建伟.基于特征融合双流网络的人体行为识别J.电子测量技术,2 0 2 0,43(2 0):12 1-126.200456514WANG L,XIONG
34、Y,WANG Z,et al.Towards GoodPractices for Very Deep Two-Stream ConvNets J.Computer Science,2015.15 裴利沈,刘少博,赵雪专人体行为识别研究综述J.计算机科学与探索,2 0 2 2,16(2):30 5-32 2.16 李永,梁起明,杨凯凯,等基于深度学习的人体行为识别检测综述J.科学技术与工程,2 0 2 1,2 1(20):8310 8320.17邓志新,洪泓,金一,等基于时空双流全卷积网络的视频目标分割算法研究及改进J工业控制计算机,2 0 18,31(8):113-114,12 9.18 刘云,张堃,王传旭基于双流卷积神经网络的人体行为识别方法J.计算机系统应用,2 0 19,2 8(7):234 239.第39卷