收藏 分销(赏)

融合时空域注意力模块的多流卷积人体动作识别.pdf

上传人:自信****多点 文档编号:716098 上传时间:2024-02-20 格式:PDF 页数:10 大小:1.29MB
下载 相关 举报
融合时空域注意力模块的多流卷积人体动作识别.pdf_第1页
第1页 / 共10页
融合时空域注意力模块的多流卷积人体动作识别.pdf_第2页
第2页 / 共10页
融合时空域注意力模块的多流卷积人体动作识别.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、华南师范大学学报(自然科学版)()():./.收稿日期:华南师范大学学报(自然科学版)网址:.基金项目:国家自然科学基金项目()通信作者:陈泯融:.融合时空域注意力模块的多流卷积人体动作识别吴子依 陈泯融(华南师范大学计算机学院 广州)摘要:为了更好地提取并融合人体骨架中的时序特征和空间特征文章构建了融合时空域注意力模块的多流卷积神经网络():针对目前大多数方法在建模骨架序列相关性时因忽略了人体运动特性而没有对运动尺度进行适当建模的问题引入了自适应选取运动尺度模块从原尺度动作特征中自适应地提取关键时序特征为了更好地对特征进行时间维度和空间维度上的建模设计了融合时空域的注意力模块通过对高维时空特

2、征进行权重分配进而帮助网络提取更有效的动作信息 最后在 个常用的人体动作识别数据集(、和)上进行了对比实验以验证 网络的有效性 实验结果表明:与、等网络相比 网络都取得了更好的识别效果证明 网络可以对动作信息进行有效的提取与建模从而获得较好的动作识别性能关键词:动作识别 人体骨架 自适应选取 注意力机制 多流卷积神经网络中图分类号:文献标志码:文章编号:()():().().:在人体动作识别任务中主要的输入数据有视频和人体骨架序列 在基于视频的动作识别中一般以 数据作为输入根据像素点生成特征图像进而通过分类达到动作识别的目的 在基于人体骨架序列的动作识别中一般以人体关节点的位置信息作为输入并对

3、其进行特征提取和建模从而得到最终的分类结果 随着高精度深度传感器的技术改进和姿态估计算法对应的准确率不断攀升人体骨架数据越来越易于获取 由于人体骨架关节点一般由 维或 维的坐标来表示对应耗费的计算量较小且人体骨架关节点作为输入数据具有对照明条件、背景噪声和遮挡等干扰不敏感的优点使得基于骨架的动作识别成为了计算机视觉领域的研究热点近年来在基于骨架的动作识别领域中较为主流的深度学习网络有循环神经网络()、图卷积网络()和卷积神经网络()其中运用于动作识别任务中可以很好地处理时序问题 擅长处理非欧几里得的图结构数据可以根据人体拓扑结构的先验知识来对人体骨架进行动态建模 可通过多层堆叠的卷积操作来提取

4、图像的高阶特征弥补了 在空间特征提取上的不足与 相比 也不需要预先考虑人体骨架结构图的设计 目前仍有大部分研究倾向于设计基于 的动作识别网络 如 等提出了一个端到端的共现特征学习卷积神经网络框架:首先在不同层级中将上下文信息逐渐聚合然后通过信道置换来对骨架中所有关节点之间的联系进行建模从而通过获取全局共现特征来提高网络的动作识别能力此外在计算机视觉领域中注意力机制因其有助于网络对骨架序列进行重要性排序使网络选择性地对关键信息进行编码而受到研究者们的青睐 如:提出了由自注意力与交叉注意力组成的注意力模块该模块有助于网络提取相应场景中与上下文信息高度相关的关键节点提出了新型注意力图卷积网络()利用

5、注意力机制增强每层网络中关键节点的权重信号 然而已有研究大多将注意力置于通道或者空间维度上忽略了时序对于动作识别的重要性 比如“坐下”和“起身”虽然动作构成相同但由于发生的时间顺序不同而导致动作类别不同综上所述本文为了显式地对骨架序列中帧内空间特征和帧间时序特征进行编码并运用注意力机制对时间和空间维度上的特征进行有效的权重分配设计了基于注意力增强的多流卷积神经网络()在 网络中自适应选取运动尺度模块提取人体骨架运动中具有辨别性的轨迹信息用以提高网络对全局运动的建模能力融合时空域的注意力模块对高维特征图进行空间维度和时间维度上的权重信号分配帮助网络获取到有效的时空特征 最后在 个常用的人体动作识

6、别数据集(、和)上将 网络与、等网络进行了对比实验 预备知识.视点不变性特征表示研究人员常将几何特征和笛卡尔坐标特征作为基于骨架人体动作识别网络的输入数据 然而笛卡尔坐标特征会随位置和视点而变化几何特征在不同数据集中的提取方法各不相同且存在一定的数据冗余 针对上述问题本文引入视点不变性特征来对关节点的空间信息进行建模在视点不变性特征中第 帧中第 个关节点对应的笛卡尔坐标为()该帧中所有关节点组成的集合表示则第 帧中所有关节点之间的欧式距离构成的矩阵如下所示:()其中为骨架中第 个关节点与第 个关节点之间的欧式距离为 维的对称矩阵代表了骨架序列中第 帧对应的视点不变性特征.通道注意力模块在计算机

7、视觉的领域中注意力机制可以帮助聚焦部分重要信息使得网络获得更具价值的特征信息进一步提升网络性能 等提出运用通道注意力机制来获取不同通道上的全局特征值并通过广播和矩阵乘法来实现注意力的分配 通道注意力模块通过对卷积层中每个通道上的信息进行权华 南 师 范 大 学 学 报(自 然 科 学 版)第 卷重分配进而帮助网络获得有效信息 通道上信息的权重越大则代表该通道上的信息越重要通道上信息的权重越小则代表该通道上的信息的重要性越低 通道注意力模块的结构如图 所示图 通道注意力模块示意图 如图所示通道注意力模块的操作流程分为以下几步 首先通过挤压操作 获取输入特征图 在通道上的上下文信息得到矩阵 其次经

8、由全连接层 和激活函数操作对矩阵 进行通道上的权重分配其计算公式如下:()()其中和均为权重矩阵()为 激活函数()为 激活函数更详细地说刻画了 中各个通道对应的权重信号的矩阵 经广播()后与输入特征图 相乘得到权重分配后的特征图 和将通道注意力机制运用到人体动作识别任务当中对空间特征维度与通道特征维度进行压缩以获取特征图时间帧上的重要信息排序同时结合 构造了基于时间注意力增强的时空图卷积网络有效提高了网络的识别性能 基于人体骨架序列的多流卷积神经网络 本文从人体运动中复杂的时空关系角度出发显式构建了空间、时序和原始特征模块让网络可以对骨架序列数据进行有针对性的特征提取与建模同时为了对提取出的

9、细粒度特征进行时间维度和空间维度上的权重分配构建了融合时间域和空间域的注意力模块()以帮助网络更好地获得骨架序列中有效的时空特征.时序特征提取模块视点不变性特征与其他几何特征一样不包含全局运动信息 等在网络中引入 种运动尺度特征来提取全局运动信息:一是原尺度动作特征为相邻帧对应关节点的轨迹信息二是快尺度动作特征为每两帧之间对应关节点的轨迹信息人体运动有快有慢为了学习具有鲁棒性的全局运动信息本文引入了自适应选取运动尺度模块其实现原理如图 所示图 自适应选取运动尺度模块实现原理图 自适应选取运动尺度模块采用自适应最大池化来选择帧间对应关节点运动幅度较大的轨迹信息并将其记作自适应动作尺度特征 原动作

10、尺度特征与自适应动作尺度特征对应表述为和其计算公式如下:?()()?()其中为帧之间的原尺度动作特征由相邻帧的关节点坐标集合 和 计算得到()为自适应选取原尺度动作特征中具有辨别性全局运动特征的操作为得到的自适应动作尺度特征 为提取自适应运动尺度特征的比率 为自适应选取运动尺度模块对应的时域维度.融合时间域和空间域的注意力模块在融合时间域和空间域的注意力模块()中时间注意力模块()以网络隐层输出作为模块的输入数据将数据的时间维度和通道维度进行互换并通过压缩和再广播操作来获得时间维度上每帧对应的权重信号空间注意力模块()在通道维度上对输入数据进行压缩使网络获得特征图在通道上的上下文信息实现空间维

11、度上的注意力分配 模块和 模块在融合前独立运行参数不共享第 期吴子依等:融合时空域注意力模块的多流卷积人体动作识别在本研究中 模块的输入数据为网络隐层的输出?其中 为输入特征图的通道数 为骨架序列中的帧数 为骨架中的关节点数 在 模块中为了获取特征图在空间维度上信息的整体分布首先由卷积操作()和 激活函数得到空间注意力张量?即将全通道上的信息进行压缩后赋予特征图上每一位置对应的权重信号表示该位置与其他帧、关节点之间的关联强度 在 模块中首先将 在时间维度和通道维度上进行转换得到?然后通过卷积操作和平均池化()对 进行压缩得到?最后经扁平化()和全连接层()操作后利用 激活函数得到时间注意力张量

12、?操作流程如下所示:()()()()()其中()为 模块上压缩通道数为、卷积核大小为 的卷积操作用以获取特征图在空间维度上的全局信息()为 模块上 的卷积操作用以获取特征图在时间维度上的局部感受野进而通过平均池化操作进一步压缩特征图尺寸从而得到全局特征响应值 为了实现特征图上的注意力分配将和进行维度转换并广播分别得到注意力矩阵和两者维度均为 然后将和以串行的方式与输入数据 进行相乘操作流程如下所示:()其中为对位相乘 模块结构如图 所示图 融合时间域和空间域的注意力模块图 .多流卷积神经网络架构本文提出了融合时空域注意力模块的多流卷积神经网络()该网络对帧中不同关节点之间的空间特征和帧间时序特

13、征进行提取和建模并由融合时空域的注意力模块对特征图进行权重分配从而使网络获得较好的动作识别性能 网络主要由 个模块组成:空间特征模块、时序特征模块和原始特征模块 每个模块中包含 层 每层 在卷积操作之后都带有批归一化操作和 激活函数 空间特征模块、时序特征模块和原始特征模块中的信息编码方式如下:()()()()其中表示在空间特征模块中对视点不变性特征的编码过程:()()()由于为每帧中各个关节点之间的欧氏距离为了减弱帧内空间特征和帧间时序特征在建模时产生的噪声影响 维卷积核大小均设置为 表示对原尺度动作特征的编码过程:()()()表示对自适应动作尺度特征的编码过程在的基础上加入了线性插值以保持

14、特征图在时间维度上的一致性表示对骨架关节点位置信息的编码过程:()()()为了有效地融合高维时空特征并获得更好的分类结果首先将空间特征模块、时序特征模块和原始华 南 师 范 大 学 学 报(自 然 科 学 版)第 卷特征模块的输出在通道维度上进行连接得到维度为 的特征图然后将该特征图输入到 模块中并在 模块之后的每层 中都加入滑动窗口尺寸为 的最大池化操作最后通过空间最大池化层()操作来聚合输出特征图在时间维度上对应的关节点信息并经由全连接层得到分类结果 网络结构如图 所示图 网络结构图 实验结果及分析.实验数据集为了验证 网络的有效性本文在 个人体骨架动作识别数据集(数据集()、数据集和 数

15、据集)上进行了一系列实验 个数据集的具体构成和评估标准为:()数据集由 传感器收集而成用于 人体骨架动作识别由 个动作样本组成包含 个动作类别 每帧人体骨架包含 个人体主要关节点每个关节点位置由 坐标表示 本研究遵循交叉对象()和交叉视角()类评估基准将 数据集划分为训练集和测试集:在 评估基准上按照人物 来划分训练集和测试集在 评估基准上将相机 采集的样本作为测试集相机 和相机 采集的样本作为训练集 本文在 和 评估基准的训练集中分别随机选择 的数据用做验证集()数据集中总共有 个动作样本这些样本被拆分成 个训练集和 个测试集每个拆分集中大约有 个训练样本和 个测试样本 每个动作样本由一个骨

16、架视频来表示视频中每帧骨架包含 个人体主要关节点每个关节点用 坐标()表示 本文选择三折交叉验证策略得到最后的动作识别准确率第 期吴子依等:融合时空域注意力模块的多流卷积人体动作识别()数据集包含 个动作样本对应 个动作类别 其中每个受试者的每个动作都被记录 次 骨架中每个关节点由 坐标()表示.实验参数设置网络架构由 编程语言实现并采用 深度学习框架将 作为集成开发环境实验过程中使用 个 在、和 数据集上的实验批大小都设置为 本文采用 优化器初始学习率为.学习率分别在第、次处衰减 训练在第 次结束权重衰减初始值设置为.所有实验都使用平滑标签其中平滑因子设为.通过交叉熵损失进行分类训练.消融实

17、验.自适应选取运动尺度模块的消融实验本文在 数据集上进行相关的消融实验 首先将不含自适应选取运动尺度模块、模块且滤波器数目为 个的网络作为基准网络()其次在基准网络的基础上添加自适应选取运动尺度模块并将滤波器数为、个的网络依次记为、以探究参数量对网络动作识别性能的影响由实验结果(表)可知:()在添加了自适应选取运动尺度模块的情况下当滤波器数目为 时网络在 数据集上取得最佳识别效果()网络在、基准上的识别准确率分别达到了.、.比基准网络对应的识别准确率分别高出.、.这说明了滤波器数目为 时自适应选取运动尺度模块有助于网络提取更具鲁棒性的全局运动特征使得网络可以更好地实现动作建模表 不同自适应选取

18、运动尺度模块在 数据集上的性能 网络识别准确率/基准 基准.融合时间域和空间域的注意力模块实验首先在 网络的基础上分别加入时间注意力模块()、空间注意力模块()设置了 组对比网络以探究两者对网络识别效果的影响其次由于时间注意力模块与空间注意力模块有(串行)、(并行)种组合方式其中串行方式分为先由时间维度上的注意力矩阵与输入数据进行点乘操作、先由空间维度上的注意力矩阵与输入数据进行点乘操作 种所以在 网络的基础上又设置了 组对比网络:()、()和()以探究时间注意力模块和空间注意力模块的不同组合方式对网络识别效果的影响在 数据集上的实验结果(表)表明:()单独引入时间注意力模块()或空间注意力模

19、块()的网络的识别准确率均低于融合时间域和空间域的注意力模块的网络这说明针对融合后的时空特征图引入单一的时间注意力或空间注意力模块不利于网络提取有效的时空特征对时空特征图进行有针对性的权重分配更有助于网络提取到更具判别性的动作特征()()网络在、基准上的识别准确率分别达到了.、.表明先由空间维度上的注意力矩阵与输入数据进行点乘再获取特征图时间维度上注意力的串行组合方式获得了最佳的识别效果表 不同组合方式的时间和空间注意力模块在 数据集上的性能 网络识别准确率/.().().().对比实验在 个数据集上将包含了自适应选取运动尺度模块和融合时空域注意力模块的动作识别网络()与、等网络进行了对比实验

20、 其中在 数据集上将 华 南 师 范 大 学 学 报(自 然 科 学 版)第 卷 网络与 、网络进行对比在 数据集上将 网络与 、网络进行对比在 数据集上将 网络与、网络进行对比由实验结果(表 至表)可知 网络在 个数据集上的分类效果最好:()在 数据集上 网络在、基准上都取得了最好的动作识别效果 在 基准上 网络取得了.的识别准确率分别比、网络提高了.、.在 基准上 网络取得了.的识别准确率与 网络的识别准确率持平但比 网络的识别准确率高出.()在 数据集上 网络使用一维卷积通过关节点联合距离特征()和全局运动尺度模块进行空间、时间维度上的特征提取与建模取得了.的识别准确率 而 网络通过引入

21、自适应选取运动尺度模块和融合时空域的注意力模块帮助网络提取到具有鲁棒性的全局特征和重要的时空特征在 数据集上取得了.的识别准确率比 网络的识别准确率提高了.()在 数据集上与 网络相比 网络的识别准确率提高了.综上所述网络通过自适应选取运动尺度模块可获取人体骨架序列中重要的时序特征且融合时空域的注意力模块可帮助网络获得分流提取到的特征图在时间维度和空间维度上的权重分配从而有效地提高网络的动作识别性能表 不同网络在 数据集上的性能比较 网络识别准确率/基准 基准.表 不同网络在 数据集上的性能比较 网络识别准确率/.表 不同网络在 数据集上的性能比较 网络识别准确率/.总结为了更好地实现特征提取

22、与建模本文设计了多流卷积神经网络()首先为了学习具有鲁棒性的全局运动信息设计了自适应选取运动尺度模块以从原尺度动作特征中提取重要的时序特征并减少特征提取过程中的信息损失其次通过融合时空域注意力模块()来对网络隐层输出数据进行注意力的分配从而帮助网络获取有效的时空特征 在 数据集上的消融实验结果证明了自适应选取运动尺度模块和 模块的有效性:添加了自适应选取运动尺度模块且滤波器数量为 的网络在、基准上的识别准确率分别达到了.、.比不含该模块的网络的识别准确率分别高出.、.添加了 模块的网络取得了最佳的识别效果在、基准上的识别准确率分别达到了.、.在 个常用的人体动作识别数据集(、和)上的对比实验结

23、果表明 网络的有效性:在 数据集上 网络在、基准的识别准确率分别为.、.在 数据集上 网络的识别准确率为.在 数据集上 网络的识别准确率为.实验结果表明 网络中的分第 期吴子依等:融合时空域注意力模块的多流卷积人体动作识别流结构可提取出具有判别性的时空特征且由时空域注意力模块对其进行时间维度和空间维度上的权重分配有助于网络获得较好的动作识别效果由于人体骨架数据较难刻画细微的动作且不包含交互对象(书和键盘)等的相关信息导致 网络在捕捉高精度动作信息时存在一定难度对多局部细粒度化动作和人物交互动作的识别准确度还存在较大的进步空间例如打喷嚏、敲键盘和看书等动作 后续研究可以结合多模态数据对动作进行更

24、加全面的描述从而使基于骨架的人体动作识别模型可以更好地识别细微动作并实现人物之间交互的动作建模参考文献:.:.:.:.:.:.:.:.:.():.:.:.:.():.:.:.():.刘芳乔建忠代钦等.基于双流多关系 的骨架动作识别方法.东北大学学报(自然科学版)():.()():.兰红何璠张蒲芬.基于增强型图卷积的骨架识别模型/.计算机应用研究():.():.华 南 师 范 大 学 学 报(自 然 科 学 版)第 卷 /.:.:/.:.:.:.:.():.:.:./.:.:.():.:.:.().:.:.:.:.:./.().:./?.第 期吴子依等:融合时空域注意力模块的多流卷积人体动作识别 .:.:./.:.:.:.:.:.:.:.:.:.:.:.【责任编辑:庄晓琼 责任校对:庄晓琼 英文审校:曾姝倩邓乾霞】华 南 师 范 大 学 学 报(自 然 科 学 版)第 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服