收藏 分销(赏)

基于特征交互与自适应融合的骨骼动作识别.pdf

上传人:自信****多点 文档编号:649139 上传时间:2024-01-23 格式:PDF 页数:7 大小:1.89MB
下载 相关 举报
基于特征交互与自适应融合的骨骼动作识别.pdf_第1页
第1页 / 共7页
基于特征交互与自适应融合的骨骼动作识别.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2581-2587ISSN 10019081CODEN JYIIDUhttp:/基于特征交互与自适应融合的骨骼动作识别李豆豆,李汪根*,夏义春,束阳,高坤(安徽师范大学 计算机与信息学院,安徽 芜湖 241003)(通信作者电子邮箱)摘要:当前骨骼动作识别任务中仍存在数据预处理不合理、模型参数量大、识别精度低的缺点。为解决以上问题,提出了一种基于特征交互与自适应融合的骨骼动作识别方法AFFGCN。首先,提出一种自适应分池数据预处理算法,以解决数据帧分布不均匀和数据帧代表性差的问

2、题;其次,引入一种多信息特征交互的方法来挖掘更深的特征,以提高模型的性能;最后,提出一种自适应特征融合(AFF)模块用于图卷积特征融合,以进一步提高模型性能。实验结果表明,该方法在NTU-RGB+D 60数据集上较基线方法轻量级多信息图卷积神经网络(LMI-GCN)在交叉主题(CS)与交叉视角(CV)两种评估设置上均提升了1.2个百分点,在NTU-RGB+D 120数据集上较基线方法LMI-GCN在CS和交叉设置号(SS)评估设置上分别提升了1.5和1.4个百分点。而在单流和多流网络上的实验结果表明,相较于语义引导神经网络(SGN)等当前主流骨骼动作识别方法,所提方法的模型参数量更低、准确度更

3、高,模型性能优势明显,更加适用于移动设备的部署。关键词:图卷积神经网络;自适应特征融合;人体骨骼动作识别;多信息融合;特征交互中图分类号:TP391 文献标志码:ASkeleton-based action recognition based on feature interaction and adaptive fusionLI Doudou,LI Wanggen*,XIA Yichun,SHU Yang,GAO Kun(School of Computer and Information,Anhui Normal University,Wuhu Anhui 241003,China)Abs

4、tract:At present,in skeleton-based action recognition task,there still are some shortcomings,such as unreasonable data preprocessing,too many model parameters and low recognition accuracy.In order to solve the above problems,a skeleton-based action recognition method based on feature interaction and

5、 adaptive fusion,namely AFFGCN(Adaptively Feature Fusion Graph Convolutional Neural Network),was proposed.Firstly,an adaptive pooling method for data preprocessing to solve the problems of uneven data frame distribution and poor data frame representation was proposed.Secondly,a multi-information fea

6、ture interaction method was introduced to mine deeper features,so as to improve performance of the model.Finally,an Adaptive Feature Fusion(AFF)module was proposed to fuse graph convolutional features,thereby further improving the model performance.Experimental results show that the proposed method

7、increases 1.2 percentage points compared with baseline method Lightweight Multi-Information Graph Convolutional Neural Network(LMI-GCN)on NTU-RGB+D 60 dataset in both Cross-Subject(CS)and Cross-View(CV)evaluation settings.At the same time,the CS and Cross-Setup(SS)evaluation settings of the proposed

8、 method on NTU-RGB+D 120 dataset are increased by 1.5 and 1.4 percentage points respectively compared with those of baseline method LMI-GCN.And the experimental results on single-stream and multi-stream networks show that compared with current mainstream skeleton-based action recognition methods suc

9、h as Semantics-Guided Neural network(SGN),the proposed method has less parameters and higher accuracy of the model,showing obvious advantages of the model,and that the model is more suitable for mobile device deployment.Key words:Graph Convolutional neural Network(GCN);Adaptive Feature Fusion(AFF);h

10、uman skeleton-based action recognition;multi-information fusion;feature interaction0 引言 当前,人体动作识别已经在众多领域得到应用,如人机交互、视频监控、动作迁移等1-2。得益于深度学习,基于深度学习的动作识别是当前的研究热点,因为深度学习具有效率高、应用广泛、模型易构建、可以实现端到端学习等优点3,基于深度学习方法的动作识别相较于传统方法的骨骼动作识别有很多优点。基于骨骼的动作识别相较于基于 RGB(Red,Green,Blue)的人体骨骼动作识别具有数据集体积小、结构信息明显等优点3-4。当前,深度学习中

11、基于骨骼的人体动作识别主流的方法是图卷积神经网络(Graph Convolutional neural 文章编号:1001-9081(2023)08-2581-07DOI:10.11772/j.issn.1001-9081.2022071105收稿日期:20220729;修回日期:20221118;录用日期:20221130。基金项目:高校领军人才引进与培育计划项目(051619)。作者简介:李豆豆(1996),男,安徽淮北人,硕士研究生,主要研究方向:深度学习、骨骼动作识别;李汪根(1973),男,安徽安庆人,教授,博士,主要研究方向:生物计算、智能计算;夏义春(1995),男,安徽合肥人,

12、硕士研究生,主要研究方向:推荐系统、计算广告、深度学习;束阳(1997),男,安徽宣城人,硕士研究生,主要研究方向:深度学习、骨骼动作识别;高坤(1997),男,安徽淮南人,硕士研究生,主要研究方向:深度学习、姿态估计。第 43 卷计算机应用Network,GCN)5、循环神经网络(Recurrent Neural Network,RNN)6、卷 积 神 经 网 络(Convolutional Neural Network,CNN)7。骨骼数据是非欧几里得数据,因为GCN可以很好地处理非欧几里得数据,故更适合处理骨骼数据8,Yan等4首次将图卷积构建的时空图卷积网络模型(Spatial-Tem

13、poral Graph Convolutional Network,ST-GCN)用于人体骨骼动作识别,根据经验设置关节点由图的节点表示,骨骼由图节点之间的关系表示,开创了图卷积在骨骼动作识别中的应用先例,为后续的研究工作提供了思路。Shi等9认为人体骨骼的静态图拓扑影响模型的性能,提出双流自适应图卷积神经网络(Two-stream Adaptive Graph Convolutional Networks,2s-AGCN),采用固定图拓扑和自适应学习非固定图拓扑相结合的方式增加图的灵活性,并引入二阶骨骼信息和一阶骨骼信息结合。Cheng等10认为传统的图卷积计算量和参数量庞大,无法实现轻量化

14、,限制了特征提取的性能。提出一种新的卷积算子Shift卷积来代替原来的2D卷积,目的是将Shift操作和1 1卷积结合,使得1 1卷积可以融合空间信息,同时大幅度减少参数量和计算量,为此Cheng等提出ShiftGCN,并在此基础上使用空间架构搜索技术和融合显式空间编码信息构建了ShiftGCN+模型,在轻量级模型中产生很大的影响。传统图卷积也有轻量级模型。如何保证模型的轻量化并且维持模型的高性能是研究人员一直考虑的问题。Zhang等11提出一种轻量级的语义引导神经网络(Semantics-Guided Neural network,SGN),该方法利用关节类型信息和帧语义信息作为图卷积的输入

15、,引导图卷积提取高阶语义信息和重要特征,由此提高模型的表示能力,在使用少量数据帧的情况下达到小模型高性能的效果。Song等12提出一种构建更快、更强的骨骼动作识别 EfficientGCN(Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition)方法,首先提出多分支信息进行早期融合的MIB(early fused Multiple Input Branches network)体系结构,其次使用灵活的复合缩放策略提高模型性能的同时减少可训练参数,然后将时空关节注意机制用于每个模型块,使模型

16、更好地区分关键的关节。上述研究方法都达到了很好的效果,本文针对轻量级模型识别精度不高的问题,对轻量级多信息图卷积神经网络(Lightweight Multi-Information Graph Convolutional Neural Network,LMI-GCN)13进行改进。本文的主要工作如下:1)提出了一种自适应分池数据预处理方法以解决数据帧分布不均匀问题,保证了数据帧的代表性。2)引入一种高级语义信息的特征交互方式,同时融合10种信息以提升模型的表征能力。3)引入一种自适应特征融合(Adaptive Feature Fusion,AFF)的方式,用于图卷积特征的融合以提高模型的性能。

17、1 自适应分池数据预处理 与SGN方法11相似,为达到轻量级模型的要求,减少模型输入的数据量和训练模型权重文件的大小,本文基线方法LMI-GCN13数据预处理对样本采取抽25帧的方式。该方法先对样本帧按25份平均分池,其中,前15个分池中对每个分池随机抽取1帧,共组成15帧,再从剩下的所有样本帧中随机抽取10帧,由此组合新的25帧。该方法虽然解决了数据帧丢失问题,但是得到的样本最后10帧不具有代表性,随机性较大,分布不够均匀。针对这一问题,本文提出自适应分池数据预处理算法,保证了数据帧的代表性和数据分布足够均匀。本文的数据集表示为i=1nsi,对于1个样本si RN T C,其中,si表示样本

18、,N代表样本关节数,T代表每个样本的帧数,F表示输入样本关节点的位置信息,F=(x,y,z)。自适应分池是对1个样本si序列帧合理地划分分池大小,并在不同大小的池中随机抽取一帧。如此划分的目的是使样本帧分池得更均衡,抽取的帧分布也更均衡,得到的样本帧更均匀后训练过程中更稳定,训练结果误差更小,随机性也就更小,具体结果如消融实验所示。与LMI-GCN类似,为了方便多通道自适应图G的计算,本文将样本帧T设置为25。具体流程如算法1所示。算法1 自适应分池数据预处理算法。1)m=0,n=0,y=02)For a=1 to A/循环所有样本3)m=int(T/25)/均分池大小 n=m+1/适应池大小

19、 y=T%20/求余数4)For m 1 to m 25-y5)random 1 frame/随机抽取一帧6)end for and return m 1 to m 25-y /结束循环,并返回均分池帧骨骼序列7)For n 25-y+1 to n 258)random 1 frame/随机抽取一帧9)end for and return n 25-y+1 to n 25 /结束循环并返回适应池帧骨骼序列10)combine m 1 to m 25-y and n 25-y+1 to n 25 /合并25帧新骨骼序列11)end for and return 25 frame /结束循环,每个

20、样本均返回25帧新骨骼序列2 本文网络结构 本文网络结构共分3个模块:特征处理模块、图卷积的空间特征提取模块和时间卷积的时间提取模块。提取时间特征后的张量输入到分类器中。2.1本文网络总体架构网络总体架构如图1所示:I表示高阶特征信息;MI表示多信息特征交互;G表示多通道自适应图;SMP表示空间最大池化;Shuffle表示通道洗牌;TMP表示时间最大池化;13和11分别表示13和11卷积。在特征提取之前,对数据预处理后的样本帧进行高阶信息融合,本文使用先验知识形成的多信息I和多信息交互后的4种特征交互信息MI,两种类型的信息拼接后输入到图卷积中(如2.2节所述)。与LMI-GCN类似,本文使用

21、的多通道自适应图G,其中G1用于图卷积的第一层和第二层,图G2用于图卷积的第三层,图G3用于时间卷积的部分输入。本文方法与当前流行的方法类似,骨骼特征的提取分成关节特征提取和时间特征提取,最终的时间特征提取后的特征输入到分类器。受ShuffleNet14和文献 15中多流分组洗牌的启发,为了降低本文模型的参数量和计算量,本文使用的所有图卷积和时间卷积均是分组洗牌卷积,与文献 15 相同,本文使用的洗牌中Shuffle系数为4,分组时将特征图平均地切分为两份。每组通过各自的操作后再进行张量拼接,具体如2.3节所述。2582第 8 期李豆豆等:基于特征交互与自适应融合的骨骼动作识别2.2基于特征交

22、互的多信息融合当前一些研究9-11,13表明,丰富的显性特征信息可以提升模型性能。本文中引入10种特征信息,其中包括6种显性特征信息和4种特征交互信息。显性特征信息包括:关节信息p、一阶关节速度p、二阶关节速度p、骨骼信息b、骨骼速度b和局部相对位置l。特征交互信息包括:一阶关节速度和骨骼交互pb、关节信息和骨骼交互pb、骨骼速度和关节交互bp和二阶关节速度和局部相对位置交互pl。6种显性特征是先验知识确定的,其中局部相对位置如图2(a)所示,人体骨架共包含25个关节点,关节点编号如图2(a)所示,关节点21是人体骨架的中心关节点,另外关节点22和关节点23分别是左手的小指头关节和左手拇指关节

23、,关节点24和关节点25分别是右手的小指头关节和右手的拇指关节。上半身的关节相对位置均是相较于中心位置21号关节的距离,下半身关节相对位置是相较于1号关节的距离,手部关节相对位置是相较于手肘12号和8号的距离。图2(b)是一阶关节速度示意图。特征交互思想受推荐系统16启发,本文给出特征交互的解释:人体动作识别过程中,不同骨骼长度在不同的关节位置所展现出来的动作是不同的。手关节相较于中心距离不同,手关节有不同的运动速度和方向,动作效果也不同。如手放在胸前挥手是表示拒绝的意思,手放在头上方挥手是拜拜的意思。6种显性特征信息由关节坐标变换后嵌入至高维空间,本文的关节坐标输入表示为k=(x,y,z)R

24、3 N T,6种显性信息如式(1)所示:p=embed(k)b=embed(ki,q-kj,q)b=embed(ki-j,q+1-ki-j,q)p=embed(ki,q+1-ki,q)p=embed(ki,q+2-ki,q)l=embed(ki,q-kj,q)(1)4种特征交互信息的高维嵌入如式(2)所示:pb=p*bpb=p*bbp=b*ppl=p*l(2)其中:1 i j,i j N,1 q T;高维函数embed由两层11卷积组成,本文的高维嵌入从3升维至64;*表示张量相乘。本文将 10 种特征信息相加后进行张量拼接,如式(3)所示:z=cat(m,i)RC N T;m=(p+p+p+

25、pb+pb)RC N Ti=(b+b+l+bp+pl)RC N T(3)其中:cat代表特征张量的拼接;z是特征融合之后的结果,也是本文网络AFFGCN的输入。2.3自适应特征融合2.3.1自适应特征融合图卷积之前的工作17-18表明,考虑到输入特征图在不同的位置产生的差异,特征融合时使用动态特征融合方法产生的效果是明显的。为此,本文引入一种自适应特征融合模块用于图卷积的残差连接。本文中的自适应特征融合图卷积如图1所示。每个卷积均包括正则化BN(Batch Normalization)和激活函数ReLU(Rectified Linear Unit)。自适应特征融合在残差后跨层连接使用。3层图卷

26、积的具体流程如图1所示,特征张量的通道由128变换成256。2.3.2自适应特征融合图卷积中,自适应特征融合在图1中A,自适应特征融合具体如图3所示。图3自适应特征融合模块Fig.3Adaptive feature fusion module如图3所示,自适应特征融合有两个输入X和R,其中:LOC_ATT(LOCal ATTention)代表局部注意力机制;GLO_ATT图1总体网络框架Fig.1Overall network framework图2局部相对位置与一阶关节速度Fig.2Local relative position and first-order joint velocity2

27、583第 43 卷计算机应用(GLObal ATTention)代表全局注意力机制;W代表两个输入的融合权重。该模块输出融合过程如式(4)所示:Vout=W*X+(1-W)*R(4)其中:*代表张量相乘。局部注意力机制和全局注意力机制如式(5)所示:VLOC=BR(Conv(BR(Conv(Vin)VGLO=BR(Conv(BR(Conv(AP(Vin)(5)其中:BR代表正则化和激活函数;Conv表示11卷积;Vin代表输入X和R相加的结果;AP表示全局平均池化。为了降低参数量,本文使用分组洗牌图卷积。分组洗牌图卷积如式(6)所示:Vout0,Vout1=chunk(shuffle(Vin)

28、Vout=cat(Conv(g*Vout0),Conv(Vout1)(6)其中:chunk表示张量切分;shuffle表示通道洗牌;g表示多通道自适应图;cat表示通道拼接。与普通图卷积不同的是,使用张量平均切分后,一部分使用图卷积,另一部分只使用11卷积,最终将图卷积和11卷积的输出特征进行张量拼接后输入到下个图卷积进行特征提取。2.4分组洗牌时间卷积第三层图卷积输出后是分组洗牌时间卷积,如图1所示,输入时间卷积中的特征图,先张量切分成两份,每一份都经过13卷积再进行张量拼接成一份特征图,然后将特征图经过Shuffle通道洗牌,将洗牌后的特征图进行张量切分两份后分别进行11卷积,最后将特征图

29、输入到分类器中。3 实验与结果分析 3.1实验数据集本文使用的骨骼数据集 NTU-RGB+D 60 数据集19和NTU-RGB+D 120数据集20来自南洋理工大学的 Rose Lab实验室,该数据集是目前使用最广泛的人体骨骼数据集之一。骨骼数据是包含人体关节点3维坐标的人体骨架图,如图4所示,是人体骨架图的2维示意图。NTU-RGB+D 60数据集是由50个单人动作类别和10个双人互动动作类别组成,数据集的采集由3个不同视角的深度摄像机完成,共包含56 880个动作样本,其中有302个动作样本为不可用样本,在使用时将剔除。骨骼数据的每个动作样本包含若干帧的人体25个关节点的三维坐标。该数据集

30、的划分方式包括交叉主题(Cross-Subject,CS)和交叉视角(Cross-View,CV)。交叉主题按照40个受试者将数据集划分为训练集40 091个样本和测试集16 487个样本。交叉视角将2号和3号相机采集的37 646个样本划分为训练集,将1号相机采集的18 932个样本划分为测试集。NTU-RGB+D 120 数据集20是 NTU-RGB+D 60 数据集19的扩充。与NTU-RGB+D 60数据集不相同的地方是,该数据集由120个动作类别组成,共包含114 480个动作样本,其中有535个动作样本为不可用样本,使用时将剔除;另外,本文使用的数据集划分方式包括交叉主题(CS)和

31、交叉设置号(Cross-Setup,SS)两种。交叉主题按照106个受试者将数据集划分为63 026个训练集样本和50 919个测试集样本;交叉设置号将数据集按照奇数设置号的54 468个样本划分为训练集,将偶数设置号的59 477个样本划分为测试集样本。需要注意的是,NTU-RGB+D 120数据集有32个设置号,不同的是NTU-RGB+D 60数据集有17个设置号。3.2实验环境与实验设置实验环境 一台单卡GPU为3080ti的主机设备;CPU为Intel Core i5-12600KF;PyTorch 版本为 1.7.0;Python 版本为3.8;Cuda版本为11.3;操作系统为Ub

32、untu 20.04。实验设置 本文的所有实验均是在120个epoch下的结果;实验过程中,初始学习率为 0.001,训练过程中 epoch 为60、90、110时学习率下降为原来的1/10;权重衰减值设置为0.000 1;Batch size设置为64;测试结果取测试时进行5次测试的平均结果。3.3消融实验为了证实本文方法的有效性,本文在NTU RGB+D 60数据集19上进行了消融实验。需要说明的是,以下消融实验是在分组洗牌卷积的基础上进行的,由于对比精度和LMI-GCN有所差异,在使用分组卷积后,降低了参数量,同时也会带来性能的降低,如表1所示(约降低了0.2个百分点)。如表2所示,消融

33、实验时对比自适应分池数据预处理的结果,在没有增加参数量的同时使用自适应分池数据预处理在两种评估标准上性能分别提升0.2和0.3个百分点;如图5所示,在使用自适应分池数据预处理后相较于基线方法的随机池数据预处理训练过程的验证集准确度更加稳定,最终训练多次的结果误差更小,这也说明了自适应分池数据预处理解决了数据分布不均匀问题和解决了样本帧随机性问题。图4人体骨骼二维示意图Fig.4Two-dimensional diagrams of human skeleton表1是否使用分组洗牌卷积的对比Tab.1Comparison of using and not using group shuffle

34、convolution方法AFFGCNAFFGCN*CS/%91.090.8CV/%95.795.6参数量/1060.7300.503 注:*表示使用分组洗牌卷积。图5数据预处理验证集准确度对比Fig.5Accuracy comparison of data preprocessing validation set2584第 8 期李豆豆等:基于特征交互与自适应融合的骨骼动作识别对不同的方法做消融实验时,如表2所示,在只使用多信息MI时,该方法在CS评估设置上提升0.3个百分点,在CV评估设置上提升0.3个百分点,本文方法的多信息MI与基线方法LMI-GCN相比,由4个多信息增加至6个多信息,

35、此外又融入4个多信息特征交互。虽然相较于基线方法多信息由4个增加至 10 个,但是参数量只增加 0.1106,性能的提升明显。在只使用自适应特征融合方法时,相较于基线方法在CS评估设置上增加了0.4个百分点,在CV评估设置上也增加了0.4个百分点。在自适应分池数据预处理的基础上进行消融实验时,使用 10种多信息时,在 CS评估设置上性能提升了 0.5个百分点,在CV评估设置上性能提升0.3个百分点。在自适应分池数据预处理和10个多信息的基础上加上自适应特征融合时,在CS评估设置上提升了0.5个百分点,在CV评估设置上提升了0.6个百分点。在自适应分池数据预处理的基础上进行消融实验,基于特征交互

36、的和自适应特征融合两种方法对模型性能提升更明显,这也证明了三种方法的适用性。经过以上消融实验可以看出,本文所提出的三种方法具有相容性,同时三种方法存在递进关系。最终,与基线方法 LMI-GCN 相比,本文三种方法在CS上提升了1.2个百分点,在CV上提升了1.2个百分点。为了验证10种信息的必要性,本文在不同的多信息上进行消融实验。由表3可以看出,在只使用关节位置信息P和骨骼信息 B 时,相应地在 CS 评估和 CV 评估上的效果只有88.5%和94.2%;在此基础上使用一阶关节速度P和骨骼速度B时,在CS和CV上的评估效果分别为89.8%和94.9%,性能分别提升1.3个百分点和0.7个百分

37、点,由此可见,使用一阶关节速度和一阶骨骼速度模型性能提升显著。在使用全部6种信息时,在CS和CV评估设置上的评估效果为90.2%和95.1%,相较于只使用两种信息P和B时在CS和CV评估设置上分别提升1.7和0.9个百分点。在只使用特征交互信息I时,在CS和CV评估设置上的效果为90.3%和95.3%,相较于只使用两种信息P和B时在CS和CV评估设置上分别提升1.8和1.1个百分点。由此说明,6种特征信息和特征交互信息都对模型的性能提升有显著帮助,同时在使用10种全部信息时,模型的效果达到最佳,在CS和CV评估设置上达到90.8%和95.6%。由此可见,本文提出的10种信息对模型的性能提升很有

38、帮助。本文方法在NTU-RGB+D 60数据集上实验结果如图6所示。为了证明本文方法的性能优势,在NTU-RGB+D 60数据集上与当前主流的方法对比,如表4所示。从表4可以看出,与经典模型ST-GCN相比,本文方法分别在CS和CV评估设置上高出了9.3和7.3个百分点;与轻量级经典模型SGN相比,本文方法在CS和CV评估设置上分别高出1.8和1.1个百分点,并且本文方法参数量0.5106低于SGN 的 0.69106;与 轻 量 级 模 型 ShiftGCN+10和表2验证文中三种方法的有效性Tab.2Verification of effectiveness of three method

39、s in the paper方法LMI-GCN*ADMIAFAD+MIAD+MI+AF 注:LMI-GCN*表示基线方法;AD代表自适应分池数据预处理;MI代表多特征交互;AF代表自适应特征融合;CS表示交叉受试者;CV表示交叉视角。CS/%89.689.889.990.090.390.8CV/%94.494.794.794.895.095.6参数量/1060.3760.3760.3850.4940.3850.503表3多信息实验对比Tab.3Comparison of multi-information experiments方法P+BP+B+P+BAMIAMI 注:AM表示6个多信息;I表

40、示4种信息交互;AMI代表所有10信息;P表示一阶关节速度;B表示一阶骨骼速度。CS/%88.589.890.290.390.8CV/%94.294.995.195.395.6参数量/1060.4850.4940.5030.5030.503图6本文方法与基线方法LMI-GCN对比Fig.6Comparison of the proposed method and baseline method LMI-GCN表4在NTU-RGB+D 60数据集上本文方法与当前主流方法的对比Tab.4Comparison of the proposed method with current mainstrea

41、m methods on NTU-RGB+D 60 dataset方法ST-GCN42s-AGCN9SGN11NAS-GCN21PR-GCN22ShiftGCN+104s ShiftGCN+EfficientGCN-B0Sybio-GNN23LMI-GCN*MS-SGN24ED-GCN252S-EGCN26ST-GCN+271s AFFGCN*1s AFFGCN2s AFFGCN*3s AFFGCN*参数量/1063.106.940.696.570.500.452.760.3214.850.381.501.390.500.731.001.50CS/%81.588.589.089.485.287

42、.990.789.990.189.690.188.789.190.190.891.091.491.6CV/%88.395.194.595.791.794.896.594.795.494.495.295.295.595.595.695.795.996.1 注:*代表本文使用的分组洗牌卷积;1s代表单流网络,2s代表双流网络,3s代表三流网络。2585第 43 卷计算机应用EfficientGCN-B012对比可以看出,本文方法在模型参数量没有显著增加的情况下,模型性能均有显著优势。与PR-GCN(a deep Graph Convolutional Network with Point Refi

43、nement for 6D Pose Estimation)相比,本文方法在相同的参数量情况下,在CS和CV评估设置上分别高出5.6和3.9个百分点;与基线方法 LMI-GCN 相比,在模型参数量仅提高 0.12106的情况下,在CS和CV评估设置上都提升1.2个百分点。另外,与最新的方法对比,本文方法在两种评估设置上均有显著优势,其中,对 比 最 新 的 SOTA(State-Of-The-Art model)方 法 ST-GCN+27模型,本文方法在参数量只有ST-GCN+的36%情况下,在两种评估设置上分别高出0.7和0.1个百分点。在多流网络上对比,本文方法3s AFFGCN对比经典网

44、络2s-AGCN优势明显,参数量只有4s-ShiftGCN+近一半的情况下,CS评估设置上高出0.9个百分点。最终本文方法在单流网络上两种评估设置性能均达到最佳,在多流网络上CS设置上性能达到最佳。如表5所示,本文方法在NTU-RGB+D 120数据集上与主流方法对比,在单流网络上,本文方法(1s AFFGCN*)相较于经典模型ST-GCN在两种评估设置上分别高出15和14个百分点,同时本文方法的计算量约是ST-GCN的1/20。与轻量级模型相比,如SGN,在CS和SS两种评估设置上均有显著的性能优势,相比于基线方法LMI-GCN在CS和SS两种评估设置上分别提高 1.5 和 1.4 个百分点

45、。与 2021 年的 SOTA 模型EfficientGCN-B0对比,虽然本文方法在CS评估设置上准确度略低于该方法,但是在SS评估设置上本文方法高出2.9个百分点。与最新的方法相比,本文方法在单流和多流网络上无论在计算量还是在性能方面都有显著的优势。4 结语 本文针对轻量级人体骨骼动作识别方法LMI-GCN的不足,在该方法基础上进行改进,首先提出自适应分池数据预处理;其次,引入一种基于多信息特征交互的方法,并使用基于特征交互的多信息进行高维融合;然后引入自适应特征融合用于图卷积的动态特征融合。最终提出轻量级人体骨骼动作识别方法 AFFGCN,在当前流行的人体骨骼数据集 NTU-RGB+D

46、60和NTU-RGB+D 120数据集上在单流和多流网络进行实验验证,证明本文方法的有效性。参考文献(References)1 AHMAD T,JIN L W,ZHANG X,et al.Graph convolutional neural network for human action recognition:a comprehensive surveyJ.IEEE Transactions on Artificial Intelligence,2021,2(2):128-145.2 MA L Q,JIA X,SUN Q R,et al.Pose guided person image g

47、eneration C/Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:405-415.3 刘建伟,刘媛,罗雄麟.深度学习研究进展 J.计算机应用研究,2014,31(7):1921-1930,1942.(LIU J W,LIU Y,LUO X L.Research and development on deep learningJ.Application Research of Co

48、mputers,2014,31(7):1921-1930,1942.)4 YAN S J,XIONG Y J,LIN D H.Spatial temporal graph convolutional networks for skeleton-based action recognitionC/Proceedings of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-77452.5 CHENG K,ZHANG Y F,HE X Y,et al.Skeleton-bas

49、ed action recognition with shift graph convolutional network C/Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2020:180-189.6 DU Y,WANG W,WANG L.Hierarchical recurrent neural network for skeleton based action recognitionC/Proceedings of the 2015

50、 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2015:1110-1118.7 KE Q H,BENNAMOUN M,AN S J,et al.A new representation of skeleton sequences for 3D action recognitionC/Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2017:4

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服