融合时空域注意力模块的多流卷积人体动作识别.pdf

资源描述

1、华南师范大学学报(自然科学版)()():./.收稿日期:华南师范大学学报(自然科学版)网址:.基金项目:国家自然科学基金项目()通信作者:陈泯融:.融合时空域注意力模块的多流卷积人体动作识别吴子依陈泯融(华南师范大学计算机学院广州)摘要:为了更好地提取并融合人体骨架中的时序特征和空间特征文章构建了融合时空域注意力模块的多流卷积神经网络():针对目前大多数方法在建模骨架序列相关性时因忽略了人体运动特性而没有对运动尺度进行适当建模的问题引入了自适应选取运动尺度模块从原尺度动作特征中自适应地提取关键时序特征为了更好地对特征进行时间维度和空间维度上的建模设计了融合时空域的注意力模块通过对高维时空特

2、征进行权重分配进而帮助网络提取更有效的动作信息最后在个常用的人体动作识别数据集(、和)上进行了对比实验以验证网络的有效性实验结果表明:与、等网络相比网络都取得了更好的识别效果证明网络可以对动作信息进行有效的提取与建模从而获得较好的动作识别性能关键词:动作识别人体骨架自适应选取注意力机制多流卷积神经网络中图分类号:文献标志码:文章编号:()():().().:在人体动作识别任务中主要的输入数据有视频和人体骨架序列在基于视频的动作识别中一般以数据作为输入根据像素点生成特征图像进而通过分类达到动作识别的目的在基于人体骨架序列的动作识别中一般以人体关节点的位置信息作为输入并对

3、其进行特征提取和建模从而得到最终的分类结果随着高精度深度传感器的技术改进和姿态估计算法对应的准确率不断攀升人体骨架数据越来越易于获取由于人体骨架关节点一般由维或维的坐标来表示对应耗费的计算量较小且人体骨架关节点作为输入数据具有对照明条件、背景噪声和遮挡等干扰不敏感的优点使得基于骨架的动作识别成为了计算机视觉领域的研究热点近年来在基于骨架的动作识别领域中较为主流的深度学习网络有循环神经网络()、图卷积网络()和卷积神经网络()其中运用于动作识别任务中可以很好地处理时序问题擅长处理非欧几里得的图结构数据可以根据人体拓扑结构的先验知识来对人体骨架进行动态建模可通过多层堆叠的卷积操作来提取

4、图像的高阶特征弥补了在空间特征提取上的不足与相比也不需要预先考虑人体骨架结构图的设计目前仍有大部分研究倾向于设计基于的动作识别网络如等提出了一个端到端的共现特征学习卷积神经网络框架:首先在不同层级中将上下文信息逐渐聚合然后通过信道置换来对骨架中所有关节点之间的联系进行建模从而通过获取全局共现特征来提高网络的动作识别能力此外在计算机视觉领域中注意力机制因其有助于网络对骨架序列进行重要性排序使网络选择性地对关键信息进行编码而受到研究者们的青睐如:提出了由自注意力与交叉注意力组成的注意力模块该模块有助于网络提取相应场景中与上下文信息高度相关的关键节点提出了新型注意力图卷积网络()利用

5、注意力机制增强每层网络中关键节点的权重信号然而已有研究大多将注意力置于通道或者空间维度上忽略了时序对于动作识别的重要性比如“坐下”和“起身”虽然动作构成相同但由于发生的时间顺序不同而导致动作类别不同综上所述本文为了显式地对骨架序列中帧内空间特征和帧间时序特征进行编码并运用注意力机制对时间和空间维度上的特征进行有效的权重分配设计了基于注意力增强的多流卷积神经网络()在网络中自适应选取运动尺度模块提取人体骨架运动中具有辨别性的轨迹信息用以提高网络对全局运动的建模能力融合时空域的注意力模块对高维特征图进行空间维度和时间维度上的权重信号分配帮助网络获取到有效的时空特征最后在个常用的人体动作识

6、别数据集(、和)上将网络与、等网络进行了对比实验预备知识.视点不变性特征表示研究人员常将几何特征和笛卡尔坐标特征作为基于骨架人体动作识别网络的输入数据然而笛卡尔坐标特征会随位置和视点而变化几何特征在不同数据集中的提取方法各不相同且存在一定的数据冗余针对上述问题本文引入视点不变性特征来对关节点的空间信息进行建模在视点不变性特征中第帧中第个关节点对应的笛卡尔坐标为()该帧中所有关节点组成的集合表示则第帧中所有关节点之间的欧式距离构成的矩阵如下所示:()其中为骨架中第个关节点与第个关节点之间的欧式距离为维的对称矩阵代表了骨架序列中第帧对应的视点不变性特征.通道注意力模块在计算机

7、视觉的领域中注意力机制可以帮助聚焦部分重要信息使得网络获得更具价值的特征信息进一步提升网络性能等提出运用通道注意力机制来获取不同通道上的全局特征值并通过广播和矩阵乘法来实现注意力的分配通道注意力模块通过对卷积层中每个通道上的信息进行权华南师范大学学报(自然科学版)第卷重分配进而帮助网络获得有效信息通道上信息的权重越大则代表该通道上的信息越重要通道上信息的权重越小则代表该通道上的信息的重要性越低通道注意力模块的结构如图所示图通道注意力模块示意图如图所示通道注意力模块的操作流程分为以下几步首先通过挤压操作获取输入特征图在通道上的上下文信息得到矩阵其次经

8、由全连接层和激活函数操作对矩阵进行通道上的权重分配其计算公式如下:()()其中和均为权重矩阵()为激活函数()为激活函数更详细地说刻画了中各个通道对应的权重信号的矩阵经广播()后与输入特征图相乘得到权重分配后的特征图和将通道注意力机制运用到人体动作识别任务当中对空间特征维度与通道特征维度进行压缩以获取特征图时间帧上的重要信息排序同时结合构造了基于时间注意力增强的时空图卷积网络有效提高了网络的识别性能基于人体骨架序列的多流卷积神经网络本文从人体运动中复杂的时空关系角度出发显式构建了空间、时序和原始特征模块让网络可以对骨架序列数据进行有针对性的特征提取与建模同时为了对提取出的

9、细粒度特征进行时间维度和空间维度上的权重分配构建了融合时间域和空间域的注意力模块()以帮助网络更好地获得骨架序列中有效的时空特征.时序特征提取模块视点不变性特征与其他几何特征一样不包含全局运动信息等在网络中引入种运动尺度特征来提取全局运动信息:一是原尺度动作特征为相邻帧对应关节点的轨迹信息二是快尺度动作特征为每两帧之间对应关节点的轨迹信息人体运动有快有慢为了学习具有鲁棒性的全局运动信息本文引入了自适应选取运动尺度模块其实现原理如图所示图自适应选取运动尺度模块实现原理图自适应选取运动尺度模块采用自适应最大池化来选择帧间对应关节点运动幅度较大的轨迹信息并将其记作自适应动作尺度特征原动作

10、尺度特征与自适应动作尺度特征对应表述为和其计算公式如下:?()()?()其中为帧之间的原尺度动作特征由相邻帧的关节点坐标集合和计算得到()为自适应选取原尺度动作特征中具有辨别性全局运动特征的操作为得到的自适应动作尺度特征为提取自适应运动尺度特征的比率为自适应选取运动尺度模块对应的时域维度.融合时间域和空间域的注意力模块在融合时间域和空间域的注意力模块()中时间注意力模块()以网络隐层输出作为模块的输入数据将数据的时间维度和通道维度进行互换并通过压缩和再广播操作来获得时间维度上每帧对应的权重信号空间注意力模块()在通道维度上对输入数据进行压缩使网络获得特征图在通道上的上下文信息实现空间维

11、度上的注意力分配模块和模块在融合前独立运行参数不共享第期吴子依等:融合时空域注意力模块的多流卷积人体动作识别在本研究中模块的输入数据为网络隐层的输出?其中为输入特征图的通道数为骨架序列中的帧数为骨架中的关节点数在模块中为了获取特征图在空间维度上信息的整体分布首先由卷积操作()和激活函数得到空间注意力张量?即将全通道上的信息进行压缩后赋予特征图上每一位置对应的权重信号表示该位置与其他帧、关节点之间的关联强度在模块中首先将在时间维度和通道维度上进行转换得到?然后通过卷积操作和平均池化()对进行压缩得到?最后经扁平化()和全连接层()操作后利用激活函数得到时间注意力张量

12、?操作流程如下所示:()()()()()其中()为模块上压缩通道数为、卷积核大小为的卷积操作用以获取特征图在空间维度上的全局信息()为模块上的卷积操作用以获取特征图在时间维度上的局部感受野进而通过平均池化操作进一步压缩特征图尺寸从而得到全局特征响应值为了实现特征图上的注意力分配将和进行维度转换并广播分别得到注意力矩阵和两者维度均为然后将和以串行的方式与输入数据进行相乘操作流程如下所示:()其中为对位相乘模块结构如图所示图融合时间域和空间域的注意力模块图 .多流卷积神经网络架构本文提出了融合时空域注意力模块的多流卷积神经网络()该网络对帧中不同关节点之间的空间特征和帧间时序特

13、征进行提取和建模并由融合时空域的注意力模块对特征图进行权重分配从而使网络获得较好的动作识别性能网络主要由个模块组成:空间特征模块、时序特征模块和原始特征模块每个模块中包含层每层在卷积操作之后都带有批归一化操作和激活函数空间特征模块、时序特征模块和原始特征模块中的信息编码方式如下:()()()()其中表示在空间特征模块中对视点不变性特征的编码过程:()()()由于为每帧中各个关节点之间的欧氏距离为了减弱帧内空间特征和帧间时序特征在建模时产生的噪声影响维卷积核大小均设置为表示对原尺度动作特征的编码过程:()()()表示对自适应动作尺度特征的编码过程在的基础上加入了线性插值以保持

14、特征图在时间维度上的一致性表示对骨架关节点位置信息的编码过程:()()()为了有效地融合高维时空特征并获得更好的分类结果首先将空间特征模块、时序特征模块和原始华南师范大学学报(自然科学版)第卷特征模块的输出在通道维度上进行连接得到维度为的特征图然后将该特征图输入到模块中并在模块之后的每层中都加入滑动窗口尺寸为的最大池化操作最后通过空间最大池化层()操作来聚合输出特征图在时间维度上对应的关节点信息并经由全连接层得到分类结果网络结构如图所示图网络结构图实验结果及分析.实验数据集为了验证网络的有效性本文在个人体骨架动作识别数据集(数据集()、数据集和数

15、据集)上进行了一系列实验个数据集的具体构成和评估标准为:()数据集由传感器收集而成用于人体骨架动作识别由个动作样本组成包含个动作类别每帧人体骨架包含个人体主要关节点每个关节点位置由坐标表示本研究遵循交叉对象()和交叉视角()类评估基准将数据集划分为训练集和测试集:在评估基准上按照人物来划分训练集和测试集在评估基准上将相机采集的样本作为测试集相机和相机采集的样本作为训练集本文在和评估基准的训练集中分别随机选择的数据用做验证集()数据集中总共有个动作样本这些样本被拆分成个训练集和个测试集每个拆分集中大约有个训练样本和个测试样本每个动作样本由一个骨

16、架视频来表示视频中每帧骨架包含个人体主要关节点每个关节点用坐标()表示本文选择三折交叉验证策略得到最后的动作识别准确率第期吴子依等:融合时空域注意力模块的多流卷积人体动作识别()数据集包含个动作样本对应个动作类别其中每个受试者的每个动作都被记录次骨架中每个关节点由坐标()表示.实验参数设置网络架构由编程语言实现并采用深度学习框架将作为集成开发环境实验过程中使用个在、和数据集上的实验批大小都设置为本文采用优化器初始学习率为.学习率分别在第、次处衰减训练在第次结束权重衰减初始值设置为.所有实验都使用平滑标签其中平滑因子设为.通过交叉熵损失进行分类训练.消融实

17、验.自适应选取运动尺度模块的消融实验本文在数据集上进行相关的消融实验首先将不含自适应选取运动尺度模块、模块且滤波器数目为个的网络作为基准网络()其次在基准网络的基础上添加自适应选取运动尺度模块并将滤波器数为、个的网络依次记为、以探究参数量对网络动作识别性能的影响由实验结果(表)可知:()在添加了自适应选取运动尺度模块的情况下当滤波器数目为时网络在数据集上取得最佳识别效果()网络在、基准上的识别准确率分别达到了.、.比基准网络对应的识别准确率分别高出.、.这说明了滤波器数目为时自适应选取运动尺度模块有助于网络提取更具鲁棒性的全局运动特征使得网络可以更好地实现动作建模表不同自适应选取

18、运动尺度模块在数据集上的性能网络识别准确率/基准基准.融合时间域和空间域的注意力模块实验首先在网络的基础上分别加入时间注意力模块()、空间注意力模块()设置了组对比网络以探究两者对网络识别效果的影响其次由于时间注意力模块与空间注意力模块有(串行)、(并行)种组合方式其中串行方式分为先由时间维度上的注意力矩阵与输入数据进行点乘操作、先由空间维度上的注意力矩阵与输入数据进行点乘操作种所以在网络的基础上又设置了组对比网络:()、()和()以探究时间注意力模块和空间注意力模块的不同组合方式对网络识别效果的影响在数据集上的实验结果(表)表明:()单独引入时间注意力模块()或空间注意力模

19、块()的网络的识别准确率均低于融合时间域和空间域的注意力模块的网络这说明针对融合后的时空特征图引入单一的时间注意力或空间注意力模块不利于网络提取有效的时空特征对时空特征图进行有针对性的权重分配更有助于网络提取到更具判别性的动作特征()()网络在、基准上的识别准确率分别达到了.、.表明先由空间维度上的注意力矩阵与输入数据进行点乘再获取特征图时间维度上注意力的串行组合方式获得了最佳的识别效果表不同组合方式的时间和空间注意力模块在数据集上的性能网络识别准确率/.().().().对比实验在个数据集上将包含了自适应选取运动尺度模块和融合时空域注意力模块的动作识别网络()与、等网络进行了对比实验

20、其中在数据集上将华南师范大学学报(自然科学版)第卷网络与、网络进行对比在数据集上将网络与、网络进行对比在数据集上将网络与、网络进行对比由实验结果(表至表)可知网络在个数据集上的分类效果最好:()在数据集上网络在、基准上都取得了最好的动作识别效果在基准上网络取得了.的识别准确率分别比、网络提高了.、.在基准上网络取得了.的识别准确率与网络的识别准确率持平但比网络的识别准确率高出.()在数据集上网络使用一维卷积通过关节点联合距离特征()和全局运动尺度模块进行空间、时间维度上的特征提取与建模取得了.的识别准确率而网络通过引入

21、自适应选取运动尺度模块和融合时空域的注意力模块帮助网络提取到具有鲁棒性的全局特征和重要的时空特征在数据集上取得了.的识别准确率比网络的识别准确率提高了.()在数据集上与网络相比网络的识别准确率提高了.综上所述网络通过自适应选取运动尺度模块可获取人体骨架序列中重要的时序特征且融合时空域的注意力模块可帮助网络获得分流提取到的特征图在时间维度和空间维度上的权重分配从而有效地提高网络的动作识别性能表不同网络在数据集上的性能比较网络识别准确率/基准基准.表不同网络在数据集上的性能比较网络识别准确率/.表不同网络在数据集上的性能比较网络识别准确率/.总结为了更好地实现特征提取

22、与建模本文设计了多流卷积神经网络()首先为了学习具有鲁棒性的全局运动信息设计了自适应选取运动尺度模块以从原尺度动作特征中提取重要的时序特征并减少特征提取过程中的信息损失其次通过融合时空域注意力模块()来对网络隐层输出数据进行注意力的分配从而帮助网络获取有效的时空特征在数据集上的消融实验结果证明了自适应选取运动尺度模块和模块的有效性:添加了自适应选取运动尺度模块且滤波器数量为的网络在、基准上的识别准确率分别达到了.、.比不含该模块的网络的识别准确率分别高出.、.添加了模块的网络取得了最佳的识别效果在、基准上的识别准确率分别达到了.、.在个常用的人体动作识别数据集(、和)上的对比实验结

23、果表明网络的有效性:在数据集上网络在、基准的识别准确率分别为.、.在数据集上网络的识别准确率为.在数据集上网络的识别准确率为.实验结果表明网络中的分第期吴子依等:融合时空域注意力模块的多流卷积人体动作识别流结构可提取出具有判别性的时空特征且由时空域注意力模块对其进行时间维度和空间维度上的权重分配有助于网络获得较好的动作识别效果由于人体骨架数据较难刻画细微的动作且不包含交互对象(书和键盘)等的相关信息导致网络在捕捉高精度动作信息时存在一定难度对多局部细粒度化动作和人物交互动作的识别准确度还存在较大的进步空间例如打喷嚏、敲键盘和看书等动作后续研究可以结合多模态数据对动作进行更

24、加全面的描述从而使基于骨架的人体动作识别模型可以更好地识别细微动作并实现人物之间交互的动作建模参考文献:.:.:.:.:.:.:.:.:.():.:.:.:.():.:.:.():.刘芳乔建忠代钦等.基于双流多关系的骨架动作识别方法.东北大学学报(自然科学版)():.()():.兰红何璠张蒲芬.基于增强型图卷积的骨架识别模型/.计算机应用研究():.():.华南师范大学学报(自然科学版)第卷 /.:.:/.:.:.:.:.():.:.:./.:.:.():.:.:.().:.:.:.:.:./.().:./?.第期吴子依等:融合时空域注意力模块的多流卷积人体动作识别 .:.:./.:.:.:.:.:.:.:.:.:.:.:.【责任编辑:庄晓琼责任校对:庄晓琼英文审校:曾姝倩邓乾霞】华南师范大学学报(自然科学版)第卷

展开阅读全文