1、 年 月 陕西理工大学学报(自然科学版).第 卷第 期 ().引用格式:王丰平张云.融合 与时序 的动态手势识别.陕西理工大学学报(自然科学版)():.融合 与时序 的动态手势识别王丰平 张 云.昆明理工大学 信息工程与自动化学院 云南 昆明.云南省计算机应用技术重点实验室 云南 昆明 摘 要:针对传统手势识别方法没有综合考虑手势的全局空间、局部空间、时序等特征信息提取的特征通常很难全面表征手势之间的区别提出了一种卷积神经网络()和 网络相结合的网络结构 首先对输入视频序列的每一帧使用轻量化 卷积神经网络来提取空间特征信息再将输出经过 后加上时序嵌入序列输入到 模型中利用注意力机制来提取手势的
2、全局注意力特征和时序特征 并在两个公开数据集/和 上进行了实验与经典方法相比平均识别精度分别提升了.、.和.实验结果表明提出的方法能够准确地提取动态手势序列的特征并表征手势类别关键词:手势识别 时序特征中图分类号:.文献标识码:文章编号:()收稿日期:修回日期:基金项目:国家自然科学基金项目()云南省科技计划项目()云南省重点实验室开放基金项目()通信作者:张云()男上海人博士教授主要研究方向为计算机视觉、模式识别当前非语言交流在人们的生活中越来越重要传达了大约 的信息而语言交流在人们的互动中比例已不超过 手势识别在人机交互中占有重要的地位在声音和视觉驱使下手势的使用是人机交互中最有效和最强大
3、的方法 有效的人机交互()需要鲁棒和准确的手势识别方法 这种识别系统被用来替代常用的 设备如鼠标、键盘等 自动识别等小型微型系统如手势识别系统是 领域最活跃且最有意义的研究方向之一目前在手势识别方面已经有大量的研究报道 随着卷积神经网络()在计算机视觉领域的成功应用在深度神经网络的驱动下手势识别精度得到了大大的提升 文献提出的 方法利用 个卷积层提取局部特征然后将提取的特征再输入双向循环层来获取全局时序特征 文献对 颜色相机中的原始图像序列中的 手骨架和物体对象轮廓进行建模输入到端对端的卷积神经网络中对整个序列中的对象和动作类别进行估计 文献提出了一种基于手势骨骼 矩阵黎曼流行学习的卷积神经网
4、络对于给定手势关节位置的流行在空间域和时间域上进行聚合 这些基于原始图像或对手势提取骨骼特征信息进行建模后利用卷积神经网络提取特征分类的网络模型的缺点是没有对手势的全局和局部特征进行提取它们仅仅依赖于手势的全局空间特征或局部空间特征来对手势图像进行表征学习没有综合考虑手势的全局和局部特征 并且对于发生畸变、遮挡等问题的数据识别精度不高 文献提出了一种基于注意力机制引导的图卷积神经网络手物双流协同学习方法 文献提出了一种新的融合了由 位置坐标信息表示的 个关节旋转特征和指尖距离特征的手势特征并用支持向量机进行手势识别的方法 但这些方法没有充分考虑时序相关特征并在发生射影畸变和自遮挡等问题时依然存
5、在精确度不高等问题为了解决以上问题本文提出一种基于卷积神经网络和基于 全局时序特征分析的网络来对手势进行分类识别 具体而言首先使用轻量化 卷积神经网络模型对输入视频序列的每一帧进行空间特征提取然后对每一个提取的特征向量加上时序嵌入输入到 模型中利用全局以及局部空间特征和时序特征进行学习用以对手势分类识别 最后在两个公开的基准数据集上进行实验评价 方法.方法概述本文提出的方法接受一个可变长度的输入序列输出手势的类别概率分布 该方法的整体架构如图 所示以 为主干网络由三个模块组成第一部分为特征提取网络主要由轻量级 构成对输入的原始图像序列进行特征提取第二部分为特征精炼网络主要由 构成对第一部分提取
6、的特征图进一步提取全局空间特征和全局注意力特征以及时序特征第三部分为分类网络根据第二部分得到的特征进行动态手势分类图 提出的方法框架图整个框架可以定义成一个函数:()该函数对一段时间 内的 帧大小为 通道数为 的图像序列进行预测得到集合 中 个手势类别的概率分布 这个函数可以分解为以下 个函数:)第一部分对输入的原始图像进行空间特征的提取 本部分可以定义为如下函数:()()()其中 表示集合 到集合 的一个映射 该函数从输入的每帧图像中提取特征并映射到 维特征向量上再将时间 内的 帧图像上提取的特征向量进行融合得到一个特征集合 因此这里 可以表示为 个特征提取函数融合:()式中()表示对时序
7、内的第 帧图像进行特征提取其中():表示连接运算符)第二部分为从第一部分 中提取的特征中进一步提取视觉和时序混合抽象特征本部分主要使用 架构进行特征分析 这个过程可以表示为如下函数:()()其中:表示一个时序特征和视觉特征混合提取的函数 它从第一部分的输出中提取包含时序特征和全局空间特征以及全局注意力特征在内的高级抽象特征)最后一部分为分类器 它依据前面提取的特征进行分类将前面两部分提取的特征集 映射到包含 个手势类别的概率分布集合 上 这个过程可以表示为如下函数:陕西理工大学学报(自然科学版)第 卷()()()其中:表示 个手势类别的 维向量 因此 且 .空间特征提取模块在第一部分我们先对输
8、入的每一帧原始图像进行视觉上的特征提取 在本部分我们选取轻量化 作为主干网络 由于其参数量少、计算量少、收敛速度快、计算精度高等特点在特征提取网络中取得成功 当前不少分割任务和分类任务都采用 来进行特征学习 实验表明 版本在 数据集上比 在精确度上提升.的同时延迟减少 版本在 数据集上保持相当的延迟的情况下比 提升了.的精确度 的高性能主要来源于其提出的神经结构搜索和通道注意力模块以及它的前两个版本、提出的深度可分离卷积、倒残差线性瓶颈块 另外在 中对上一版本提出的倒残差结构进行了重新设计将上一版本的 扩展层移到了池化层后面 这使得 层可以在 特征图上操作而不是 这样减少了延迟和计算时间并可以
9、将特征扩展到更高的维度以在预测阶段可以获取更加丰富的特征 先前版本的结构和重新设计的结构如图 所示图 和 最后阶段的比较.轻量化 为了实现更加高效的特征提取我们对基本模型 进行了重新设计来创建一个轻量级的 以达到在不丢失准确率的情况下对模型进行压缩来减少参数量和计算量 实验表明具有更多深度卷积的网络模型在特征提取上比具有更多的 卷积层的网络模型表现更加优异这表明应该更加重视空间特征信息而不是融合通道特征信息 因此为了提高精确度同时压缩模型大小引入了深度点深度卷积块()如图 所示图 深度点深度卷积块这些块由步长为 的 深度卷积组成用于对输入通道进行扩展并进行下采样 然后是一个 卷积层用于压缩通道
10、信息其后是另一个 深度可分离卷积 所有的卷积层后都紧跟一个 层和一个 激活层 另外在倒残差瓶颈块中扩展层的上采样操作是使用点卷积()来实现的点卷积的计算复杂度较高为了减少模型的计算量将倒残差瓶颈块中的上采样扩展层使用深度可分离卷积()而不是点卷积来实现所以对网络模型具有很好的压缩效果 下列公式证明了 和 之间的压缩比:()第 期 王丰平张云 融合 与时序 的动态手势识别 式中 表示特征图的大小 表示通道的数量 表示通道扩展因子 表示卷积核的大小 通常通道的数量要远高于卷积核的大小因此这里压缩比要大于 本文设计的轻量化 网络结构如图 所示图 轻量化 网络架构.激活函数 是一个激活函数可以减少过拟
11、合 函数由 函数变化而来与传统的 函数主要有两点不同:)函数是在 取负值时将函数值置 而 则是在 取负值时将函数赋予一个非零的很小的斜率这样做可以避免当梯度为零时带来的梯度消失现象)函数在 大于 时将函数赋予一个固定值为 的梯度而 则是在 时将函数赋予一个固定值为 的梯度同时在 大于 时将函数赋予一个固定值这样可以抑制最大值从而降低在嵌入式等低级设备中带来的精度损失问题 基于这样的设计使得 不仅计算量少同时还具有很好的泛化能力和鲁棒性 在 块的卷积操作后使用 函数而不是 在 数据集上进行实验在其他条件不变的情况下仅将原来的 激活函数替换成 激活函数实验结果表明在增加少量的计算量基础上将精度提高
12、了.个百分点并提高了模型的泛化能力和鲁棒性 激活函数可表示为 ()()图 激活函数式中()是一个常数用来保持当 时函数梯度在一个较小的量来防止梯度消失 激活函数的图像如图 所示.增加扩展层的卷积核数量倒瓶颈结构中的 卷积层可以将特征图提升到一个高维的空间来增强每个通道上的非线性变换 基于此本文将 中的倒瓶颈块里的扩展层的卷积核数量增加以此来更好地提取通道上的特征信息 同样在 数据集上进行实验在其他条件不变的情况下仅将原来的卷积核的数量提升到原来的.倍实验结果表明这个改变使得模型的准确率提升了.个百分点.时序 模块本文的第二部分由视觉()构成即函数 的实现为 在第一部分我们对时序 内的每一帧图像
13、输入到轻量化 特征提取网络中得到特征向量()再将这些特征向量作为一个 输入到 中然后加入时序嵌入后进行拼接融合得到总的特征向量()输入到 中进行全局注意力编码得到有关时序特征向量其结构如图 所示 首先将时序 内每一帧的图像经过第一部分的特征提取输出得到一个 这里即()再将每一个 经过 后结合时序嵌入()得到一维向量输入到 编码器中去 如图 所示展示了 编码器的结构在本文中 编码器共有 个相连接 每一个 编码器可被定义为如下公式:()()()其中()表示一个归一化层用以避免梯度消失()表示两个由 个节点组成的全连接层 陕西理工大学学报(自然科学版)第 卷相连其后是一个用以防止过拟合并提高网络稳定
14、性和鲁棒性的 层(.)和一个 激活层()表示一个多头注意力层它可以用以下公式定义:()()()()其中()()这里 为查询向量 是键向量 是值向量他们分别是输入到 维特征空间的独立线性映射 向量与 向量的转置进行点乘后得到相关矩阵然后再除以进行归一化处理 是对应特征尺寸 的尺度因子然后加上 激活函数再与矩阵 点乘 是融合操作是一个 维空间的线性投影图 时序嵌入的 模型 图 编码器.手势分类模块第三部分为一个分类器即函数 的实现为先将第二部分的输出经过一个全局平均池化层后输入到一个具有 个神经元的全连接层和一个具有 个神经元的全连接层然后是一个 层进行分类激活 从而可以得到一个 类手势上的概率分
15、布预测的手势为其中概率最高的类别 实验.实验环境本文实验环境为 位.桌面平台处理器为 显卡为 内存为 采用 和 深度学习框架 使用 优化算法对模型训练 学习率设置为.根据实验环境硬件条件将批训练大小设置为 统一对每个视频采样 帧图像作为输入并采用缩放、翻转、添加噪声等方式对数据进行增强训练 个 在本文的实验中我们选取了/、两个公开的动态手势识别数据集 其中 数据集包含以两种方式执行的 个手势序列:使用一根手指和整个手 每个手势由 名参与者以 种方式执行 次由此产生 个序列 手势图像用 相机以 帧/的速度进行捕获 数据集是一个多模态的手势识别数据集用于研究在真实驾驶环境下人与智能汽车之间的交互
16、数据集是使用 传感器采集的包含由 个实验人员实施的手势动作包含 个 图像和深度图像()构成的视频帧序列.实验评价标准为了提高模型的泛化能力和鲁棒性减少模型的过拟合在每个数据集上进行了 折交叉验证()最后计算 折交叉验证的均方误差()作为评价标准 其计算公式为()其中 ()为样本数量为真实数据 的预测值第 期 王丰平张云 融合 与时序 的动态手势识别 .实验结果表 本文方法与其他经典方法在/数据集上的比较方法精确度/.本文方法.表 本文方法与其他经典方法在 数据集上的比较方法精确度/.:.:.本文方法.本文对几种经典的方法进行了对比实验在数据集/和数据集 上的实验结果分别见表、表 实验结果表明本
17、文提出的方法在以视频序列帧数据的手势动作识别上较目前最先进的方法在精确度上有较好的表现具有更好的性能 其中在 数据集上本文提出的方法将识别精度较 提出的基于黎曼流行学习的方法从.提高到.提升了.个百分点在 数据集上将识别精度从.提高到.提升了.个百分点 在 大型数据集上将识别精度较之前最好的方法提高了.个百分点 特别是相对于传统的 结构和基于 模型的时序特征分析的模型架构有明显的性能提升 从表 的实验数据可以看出 方法的性能较 和:方法有明显提升其中最主要的原因是 方法在 数据集和 数据集上进行了与训练使得模型的适应性更强 本文借鉴了这一方法同样先在 数据集上进行预训练然后再迁移到本文使用的数
18、据集上 实验结果表明本文提出的基于时序特征分析的全局注意力 模型能高效地分析全局时序特征 证明了本文提出的方法具有很好的性能优越性为动态手势识别任务提供了一个新的思路.模型参数微调为了获取整个模型中的最优参数本文设计了几组实验来对模型中的一些参数设定不同的参数值来评估模型的识别能力 其中包含输入的视频序列帧数(表中为 其中 表示输入视频序列为 帧)、第一阶段的输出特征向量的长度(表中为 其中 表示第一个阶段输出的特征向量长度为 即第一阶段的输出特征向量 )实验结果见表 表明最终得到的最优化模型的参数为 表 模型参数微调实验精确度/精确度/精确度/精确度/.消融实验为了对比本文提出的轻量化 网络
19、模型对空间特征提取的能力和时序 模型对时序特征的提取能力在 数据集上设计了不同的消融实验分别为去除轻量化 模块和去除 模型的时序嵌入()完整地测得不同手势类别的识别率测得结果的见表 从结果上来看本文提出的轻量化 模块能够高效地学习到手势图中的空间特征信 陕西理工大学学报(自然科学版)第 卷息和表征信息它所学习特征对于手势分类有很大的贡献率 由于其主要由深度可分离卷积操作构成其最主要的学习特征为手势图像的空间局部特征如手的局部长度、角度等信息这些局部特征信息被证明对于学习手势的表征信息是非常重要的 从实验结果来看对于基于时序嵌入的 模型可以从视频帧序列中有效学习时序特征基于全局注意力机制可以学习
20、全局特征这些特征可以将模型的精确率提高.个百分点 证明这些特征对于手势识别任务性能有很大的提升表 本方法的消融实验结果手势类别精确度/本文方法手势类别精确度/本文方法.平均值.为了全面验证 模型的能力另外设计了几个消融实验进行对照得到的实验结果见表 分别为验证 对模型识别精度的影响、将第一阶段的输出特征向量随机打乱(表中为)以验证第一阶段输出的特征向量融合顺序对模型识别精度的影响、改变 模型中 编码器的层数(表中为 其中 表示 编码器的层数为)以此来验证 编码器层数对模型识别精度的影响 实验结果表明去掉 会导致模型的平均识别精度平均下降.个百分点证明了时序嵌入对于 模型提取时序特征信息的重要性
21、 另外视频空间特征向量序列的顺序对模型识别精度而言极其重要在对第一阶段的输出特征向量进行随机打乱后模型的平均识别精度平均下降.个百分点 这证明了时序特征信息对于动态手势识别任务的重要性 其次对于 模型而言 编码器模块的层数对于模型的平均识别精度也有影响当层数为 时模型识别能力较低对手势的时序特征信息编码不够 但是当 编码器模型层数叠加到一定值时模型的平均识别精度反而下降例如表中层数为 时模型平均识别精度较层数为 时下降.个百分点表 时序特征分析消融实验精确度/精确度/.注:表中第 列“”表示去除 模块“”表示保留 模块第 列“”表示不将特征向量随机打乱 “”表示将特征向量随机打乱 结论本文提出
22、了一种将卷积神经网络和 模型相结合的新的网络架构用于动态手势识别即基于轻量化 模型和时序嵌入的 模型 具体而言是先从轻量化 模型中学习手势局部空间特征和表征信息特征再将每一帧得到的特征作为一个 经过 后嵌入时序信息输入到 模型中学习时序特征信息和全局特征信息 在/数据集和 数据集上实验表明本文提出的方法对于动态手势识别任务的性能有很大的提升为动态手势识别任务提供了一种新的思路第 期 王丰平张云 融合 与时序 的动态手势识别 参 考 文 献 .:.:.():.:.():.刘璇恒邓宝松裴育等.穿戴式手势交互系统与识别算法研究.小型微型计算机系统():.:/:./:./:.缪永伟李佳颖刘家宗等.融合关节旋转特征和指尖距离特征的手势识别.计算机学报():.:/.().:/././:.:/.().:/././:./:.:.():./():.:./():././.().:/././:./.().:/././:.陕西理工大学学报(自然科学版)第 卷 ./:.?/:./:.责任编辑:谢 平 .:./.:(上接第 页):.:第 期 王丰平张云 融合 与时序 的动态手势识别