收藏 分销(赏)

基于3D卷积神经网络的视频人体行为识别.pdf

上传人:自信****多点 文档编号:2020479 上传时间:2024-05-13 格式:PDF 页数:4 大小:1.22MB
下载 相关 举报
基于3D卷积神经网络的视频人体行为识别.pdf_第1页
第1页 / 共4页
基于3D卷积神经网络的视频人体行为识别.pdf_第2页
第2页 / 共4页
基于3D卷积神经网络的视频人体行为识别.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 7 期计算机与数字工程收稿日期:2023年1月11日,修回日期:2023年2月15日作者简介:林庆,男,教授,硕士生导师,研究方向:人工智能、数据挖掘与模式识别、图像识别与智能系统、数据库、数据仓库与决策支持、计算机应用技术。陈敏,女,硕士研究生,研究方向:深度学习、模式识别、行为识别。1引言随着人体行为识别在公共视频监控等的发展,人们对行为识别研究越来越深入20。深度学习算法比传统算法不仅自动提取特征,而且从输入到输出实现了端到端的飞跃。但是也有其不足,比如抓取时空信息时会受到环境的影响。2015年 Du Tran等提出了 C3D1模型,利用三维卷积在行为分类中得到了很好的性

2、能。本文在其基础上优化改进,提出了一种新的基于3D卷积神经网络的网络模型。2相关工作受到科技的制约,刚开始对视频特征的提取描述还是基于传统的手工提取。Lindeberg16通过将图像处理中的 Harris 角点检测算法扩展到 3D 形式,提出了时空兴趣点STIPs。SIFT和HOG还扩展到 SIFT-3D17和 HOG3D18进行视频行为识别。Wang等提出的IDT19方法是效果比较突出的方法了,其IDT描述符表明时间信号可以不同于空间信号处理,从视频帧中密集采样的特征点开始,使用光学流来进行跟踪,在每个跟踪器角,沿着轨迹来提取其特征。2014年在NIPS中提出的双流方法,则先对视总第 405

3、期2023 年第 7 期计算机与数字工程Computer&Digital EngineeringVol.51No.7基于 3D 卷积神经网络的视频人体行为识别林庆陈敏(江苏大学计算机科学与通信工程学院镇江212013)摘要基于视频的行为识别在我们的生活中有着至关重要的作用,比如智能家居、智能安防等。论文提出了一种新的基于3D卷积神经网络的深度学习的视频人体行为识别方法。该神经网络是将VGG-16网络扩展成3D形式,在此基础上加入残差块结构,在增加网络深度的时候能够减少训练误差,经过均值池化层后,输入到LSTM层,识别样本数据集中的各种行为。对比实验结果表明,该方法正确率达到了89.6%。关键词

4、行为识别;深度学习;卷积神经网络中图分类号TP751DOI:10.3969/j.issn.1672-9722.2023.07.034Video Human Behavior Recognition Based on 3D ConvolutionalNeural NetworkLIN QingCHEN Min(School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang212013)AbstractVideo-based behavior recognition plays a vita

5、l role in our life,such as intelligent home,intelligent security andother aspects.This paper proposes a new deep learning method of video human behavior recognition based on 3D convolutional neural network.The neural network is an extension of VGG-16 network into 3D form,on this basis,to join the re

6、sidual block structure,while increasing network depth can reduce the training error,and after a mean pooling layer,input to the LSTM layer,identification of various behavior of the sample data set.The comparative experimental results show that the accuracy of the method reaches89.6%.Key Wordsbehavio

7、r recognition,deep learning,convolutional neural networkClass NumberTP7511631第 51 卷频序列中每两帧计算密集光流,然后对视频图像和密集光流分别训练卷积模型,最后进行融合。随之出现了各种深度学习方法,如时域分段网络TSN、LSTM网络融合双流、C3D网络、基于ResNet的双流融合等。3基于3D卷积和ResNet学习3.13D卷积和池化采用2D卷积对视频的操作,没有考虑到时间维度的帧间运动信息。但是3D卷积能很好地捕获视频中的时空特征信息。在卷积神经网络中,我们还会用到池化操作来降低卷积层输出的特征向量,同时改善结果

8、。本文中主要采用的是最大池化操作。3D卷积神经网络通过 3D卷积和池化建模时间信息,卷积和池化操作都在时空上执行,且在每次卷积运算之后,能够保留输入信号的时间信息,从而产生输出。3.2ResNet残差连接网络的深度对于学习表达能力更强的特征是重要的。但随着网络深度的增加,基于随机梯度下降的网络训练过程中容易引发梯度消散/梯度爆炸。为了解决这个问题,可以使用BatchNorm、将激活函数换为ReLU等。但是随之而来又出现了模型退化的问题。针对模型退化,何凯明提出了 ResNet残差网络,其性能比传统网络模型更好。本文结合使用了一个简单的残差连接以及一种变形形式的残差连接。简单的残差连接结构如图1

9、所示。xweight layerF(x)ReLUweight layerF(x)+xReLUxidentity图1一个简单的残差连接yl=xl+F()xlWl(1)xl+1=f()yl(2)图1公式化在式(1)、(2)中,xl、xl+1表示第l层输入、输出,F表示残差结构学习,f代表激活函数ReLU。式(3)、(4)是从l到L的前向、反向传播过程,对于任何一层x的梯度,有两部分组成,第一部分是直接由L层直导l层,证明了其有效性;第二部分是由链式的累加组成的,缓解了梯度消散的问题。xL=xl+i=lL1F()xiWi(3)lossxl=lossxLxLxl=lossxL1+xli=lL1F()x

10、iWi(4)另一种在本文中使用的残差连接是一个变形形式,具体如图2所示。x1+ix1BNReLUweightBNReLUweightaddition图2加入BN的变形残差连接形式BN层是给数据一个固定的分布,经过别的操作会改变数据的分布,削减BN层的作用。因此在临近输入设置BN层会提升效果,BN层在卷积层之前会提升网络的泛化能力。3.3LSTM的分类识别应用LSTM2结构如图3所示。记忆细胞和三个门的激活情况如式(5)所示,xt、t代表在t时间段的输入、隐藏状态,it、ft、ct、ot代表输入门、遗忘门、记忆单元、输出门,Wij表示门i和j之间的权重矩阵,bi是门i的偏置项,是 Sigmoid

11、 函数,tanh是双曲正切函数。xtxtht-1ht-1itotInput GateOutput GateCellhtxtht-1ftht-1xtForget Gate图3LSTM结构林庆等:基于3D卷积神经网络的视频人体行为识别16322023 年第 7 期计算机与数字工程it=(Wxixt+Whitt-1+Wcict-1+bi)ft=(Wxfxt+Whftt-1+Wcfct-1+bf)ct=fttt-1+ittanh(Wxcxt+Whcct-1+bc)ot=(Wxoxt+Whott-1+Wcoct-1+bo)ht=ottanh(ct)(5)在本文中,我们将提取到的特征量输入到LSTM层中去

12、,再将 LSTM层的隐藏状态作为下一层的输入。文献 2 中发现两个堆叠的LSTM层的效果较好,我们也选择了两层LSTM。3.4时空特征学习本文的网络架构设置如图4所示,使用Adam5优化算法训练,其随机梯度下降保持着一个单一的学习率,用于权重的更新,在训练中的学习率不会改变。实验结果表明 Adam优于其它随机优化方法。333Conw,64333Conw,64333Conw,256333Conw,256333Conw,256333Conw,256pool,/2pool,/2333Conw,64333Conw,64333Conw,256333Conw,256333Conw,512333Conw,5

13、12pool,/2333Conw,64333Conw,64333Conw,128333Conw,128333Conw,512333Conw,512pool,/2333Conw,128333Conw,128333Conw,128333Conw,128avg pool1stm图4网络架构图4视频行为识别实验4.1数据集UCF101数据集有 101类别。对于数据集,将视频保持结构不变截取视频帧,再进行分割处理,随机生成3 1的训练集与测试集。4.2数据处理图像分类3中,在深度学习的训练时将图片的随机裁剪是普遍的数据扩充方法。这个裁剪并不仅仅是增强数据4,也是一个弱化数据噪声与增加模型稳定性的方法。在

14、本文中,我们使用了这种数据扩充方法。实验表明,数据增强可以有效地提高视频中行为识别的结果,减少过拟合的影响。4.3结果对比本文的输入类型是连续的RGB14,我们在表1中列出了基于输入类型不同的卷积神经网络用于行为识别分类的准确率的对比。由于设计和训练的制度差异较大,很难直接进行比较。表1根据不同的网络输入类型对比输入RGB+FlowRGB+FlowFlowFlowRGBRGBRGB方法Two-stream(SVM fusion)6LSTM7Temporal stream8Motion stream(ResNet-50)9C3D(1 net)1Appearance Stream(ResNet-5

15、0)93D ConvNets+ResNet+LSTM(Ours)UCF10188.0%88.6%75.3%87.0%82.3%82.3%89.6%表1表明基于3D卷积的残差连接+LSTM网络在目标数据集上表现出了优越的性能,但是,在准确度与现如今的最佳方法仍然是有一定的差距,具体见表2。表2与传统的、深度学习的方法准确度对比方法Composite LSTM Model10C3D1IDT12Two-stream(SVM fusion)6LSTM7ST-ResNet13TSN11ST-ResNet+IDT133D ConvNets+ResNet+LSTM(Ours)UCF10184.3%85.2%

16、86.4%88.0%88.6%93.4%94.0%94.6%89.6%综上所述,我们的方法使用了连续 RGB输入类型,在传统经典的方法中做了有效的融合,测试中得到了不错的识别准确率。5结语本文先对3D卷积、残差连接、LSTM详细描述以及如何将其融合运用,提出了一种新的基于3D卷积的残差 LSTM 网络模型。我们选择连续的RGB输入,输入数据通过随机裁剪达到数据增强效1633第 51 卷果,提取特征后通过LSTM识别分类,Adam算法不断优化训练得到增强的识别效果。对于输入数据处理以及网络模型还有改善的空间。我们将关注3D卷积网络的结构,对视频行为方面的各种流行的方法融合应用到我们的框架中。参

17、考 文 献1Tran D,Bourdev L,Fergus R,et al.Learning Spatiotemporal Features with 3D Convolutional NetworksJ.Research Gate,2014:4489-4497.2Song L,Weng L,Wang L,et al.Two-Stream Designed2D/3D Residual Networks with Lstms for Action Recognition in Videos,2018:808-812.3 Brendel W,Bethge M.Approximating CNNs

18、withBag-of-local-Features models works surprisingly well onImageNet J.ArXiv:1904.0076001(cs),2019:1-15.4Azulay A,Weiss Y.Why do deep convolutional networksgeneralize so poorly to small image transformations?J.ArXiv:1805.12177v2(cs),2018:1-25.5Kingma D,Ba J.Adam:A Method for Stochastic Optimization J

19、.Computer Science,2014:1-15.6Simonyan K,Zisserman A.Two-Stream ConvolutionalNetworks for Action Recognition in Videos J.Advancesin Neural Information Processing Systems,2014:1-11.7Ng Y H,Hausknecht M,Vijayanarasimhan S,et al.Beyond short snippets:Deep networks for video classificationC/2015 IEEE Con

20、ference on Computer Vision and Pattern Recognition(CVPR).IEEE,2015:1-9.8Shi Y,Tian Y,Wang Y,et al.Sequential Deep Trajectory Descriptor for Action Recognition with Three-streamCNNJ.IEEE Transactions on Multimedia,2017,19(7):1510-1520.9Feichtenhofer C,Pinz A,Wildes R P.SpatiotemporalMultiplier Networ

21、ks for Video Action RecognitionJ.IEEE,2017:1.10Srivastava N,Mansimov E,Salakhutdinov R.Unsupervised Learning of Video Representations Using LSTMsJ.JMLR.org,2015:1-12.11Wang L,Xiong Y,Wang Z,et al.Temporal SegmentNetworks:Towards Good Practices for Deep Action Recognition J.Springer,Cham,2016:1-16.12

22、Wang H,Schmid C.Action Recognition with ImprovedTrajectoriesC/2013 IEEE International Conferenceon Computer Vision.IEEE,2014:1-8.13Feichtenhofer C,Pinz A,Wildes R P.SpatiotemporalResidual Networks for Video Action RecognitionC/2017 IEEE Conference on Computer Vision and PatternRecognition(CVPR).IEEE

23、,2017:1-9.14黄晴晴,周风余,刘美珍.基于视频的人体动作识别算法综述 J.计算机应用研究,2020,37(11):19-25.HUANG Qingqing,ZHOU Fengyu,LIU Meizheng.Summary of Human Action Recognition Algorithm Based onVideoJ.Computer Application Research,2020,37(11):19-25.15Yang H,Zhang J,Li S,et al.Bi-direction hierarchicalLSTM with spatial-temporal att

24、ention for action recognition J.Journal of Intelligent and Fuzzy Systems,2018,36(1):1-12.16Laptev I,Lindeberg T.Space-time Interest Points J.IEEE,2003:1-8.17Scovanner P,Ali S,Shah M.A 3-dimensional SIFT descriptor and its application to action recognition J.AcmMultimedia,2007:1.18Klser A,Marszalek M

25、,Schmid C.A Spatio-TemporalDescriptor Based on 3D-Gradients C/British MachineVision Conference,2010:1-10.19Wang H,Schmid C.Action Recognition with ImprovedTrajectories C/2013 IEEE International Conference onComputer Vision.IEEE,2014:1-8.20罗会兰,童康,孔繁胜.基于深度学习的视频中人体动作识别进展综述 J.电子学报,2019,47(5):1162-1173.L

26、UO Huilan,TONG Kang,KONG Fansheng.Review ofHuman Action Recognition in Video Based on DeepLearningJ.Acta Electronica Sinica,2019,47(5):1162-1173.18ZHANG X F,XU D Z.Low-complexity ESPRIT-basedDOA estimation for collocated MIMO radar using reduced-dimension transformation J.Electronic Letters,2011,47(

27、4):283-284.19 Tan J,NIE Z P,WANG D B.Low complexity MUSIC-based direction-of-arrival algorithm for monostaticMIMO radarJ.Electronics Letters,2017,53(4):275-277.20LIU H,JIANG H,YANG X,et al.Amplitude and PhaseCalibration of Digital Array Radar Using FrequencyStepped SignalsC/IET International Radar Conference,Xian,2013:1-5.(上接第1461页)林庆等:基于3D卷积神经网络的视频人体行为识别1634

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服