1、 年月第 卷第期计算机工程与设计 运动场景下的多目标人体姿态估计朱丽萍,唐亮,朱凯杰,李昊阳(中国石油大学(北京)信息科学与工程学院,北京 ;中国石油大学(北京)体育与人文艺术学院,北京 ;澳门大学 科技学院,澳门 )摘要:为提高群体活动场景下细粒度人体姿态估计的准确率,优化网路中人体识别及姿态估计算法,在现有研究的基础上,提出一种结合多尺度预测以及改进并行注意力模块的多目标人体姿态估计算法。在充分利用不同尺度特征信息的基础上,实现高质量的人体姿态估计;针对运动场景下多目标人体姿态数据集较少,提出一种数据集 。实验结果表明,该算法在公开基准数据集和自制数据集上分别达到了 和 ,验证了该算法在运
2、动场景下针对多目标的高效性。关键词:深度学习;运动场景;姿态估计;注意力机制;多目标;多尺度;细粒度人体识别中图法分类号:文献标识号:文章编号:():收稿日期:;修订日期:基金项目:国家重点研发计划基金项目();国家自然科学基金项目()作者简介:朱丽萍(),女,山东青岛人,博士,副教授,硕士生导师,研究方向为深度学习与计算机视觉;通讯作者:唐亮(),男,山东威海人,硕士,副教授,研究方向为体育教学与信息技术融合、体育教育训练学;朱凯杰(),男,甘肃庆阳人,硕士研究生,研究方向为深度学习与计算机视觉;李昊阳(),男,河北廊坊人,本科,研究方向为人工智能与大数据。:,(,(),;,(),;,):,
3、:;引言人体姿态估计是面向体育运动的智能分析任务中关键的一环,也是计算机视觉领域中一个研究热点。人体姿态估计旨在对人体各个姿态关键点进行位置估计,从而获得人体姿态。目前的人体姿态研究中采用注意力机制使网络捕获图像中的重要信息,从而来提高方法的准确率,然而单注意力机制在某些任务上会存在一定的局限。在串行注意力模块中,空间注意力加权与通道注意力加权的计算过程是有先后次序的,那么在其实现过程中,势必会出第 卷第期朱丽萍,唐亮,朱凯杰,等:运动场景下的多目标人体姿态估计现特征的扰动,具体表现在经过单次注意力加权后,特征图信息已经被更改,之后的操作是在该更改的基础上进行的,因此模块效果会变得不稳定,甚至
4、出现信息的混乱。本文以人体姿态为出发点,识别实际复杂运动场景中的人体并进行人体姿态估计,提出了一种结合多尺度预测和并行注意力模块的姿态估计网络。多尺度特征融合可以对不同大小的目标进行识别,使用通道注意力机制和空间注意力机制并行处理检测数据,消除传统串行注意力模块的特征扰动,克服其在人体姿态估计上的局限。实验结果表明,本算法能够有效提高多目标姿态估计的精度和速度,通过多尺度识别方法筛选高匹配度的人体候选框,结合改进的并行注意力模块在人数不定的场景中实现高质量人体姿态估计。相关工作随着人体姿态估计算法的不断发展,尤其在评估人体动作的准确性方面有了优秀的表现,使得人体姿态估计应用于体育行业成为了可能
5、。姿态估计算法按照姿态估计的人数可以分为两种,一种是单人姿态估计,一种是多人姿态估计。传统姿态估 计 方 法 更 多 的 是 考 虑 图 结 构,例 如 树 模型和随机森林模型,这两种模型已经被验证在人体姿态估计中较为有效。随着人工智能技术的发展,深度学习在物体与人脸识别方面展现了更为优秀的效果,在人体姿态估计任务中也不例外。在人体姿态估计领域,代表性的工作有 、基于 的模型和基于 的模型。对于单人姿态估计,这些方法只有在人被正确定位时才能表现良好,但是在多人体育运动中,基于单人的姿态估计就很难表现出很好的效果,这就诞生 了 多 人 姿态估计。多人姿态估计主要分为两类方法,一类是自顶向下,另外
6、一类是自底向上,这两类方法如图所示。自底向上的方法是基于关键点的方法,这类方法先检测关键点,然后将关键点进行连接。首先检测所有的身体部位,然后通过整体线性编程对这些部位进行标注和组合。首先 检测出图 像 中所有人 的 关 节(关 键点),然后将检出的关键点分配给每个对应的人,最后将关节点相连。虽然基于部位的方法表现出良好的性能,但由于只考虑小的局部区域,它们的身体部位检测器有时候会失效。为了解决这个问题,基于自顶向下的二阶段的网络框架出现了。这种网络框架使用强大的检测器,特别是,作为一个二阶段姿态估计网络,首先使用 作为人体检测器,再使用 网络预测出人体骨架节点,取得了良好的效果。本研究也遵循
7、二阶段网络框架:在行人检测方面,使用的是一种多尺度的目标检测网络,在姿态估计方面,使图多目标人体姿态估计的两类方法用基于并行多注意力的姿态估计算法。结合多尺度预测与并行注意力模块的多目标姿态估计网络 网络模型设计本文提出的姿态估计网络使用卷积神经网络抽取图片中特定的语义信息,进行基础的特征提取与表示,网络的输出为关键点的种类以及其在图片中的相对位置。本文是基于自顶向下的姿态估计方法,但目前常见的自顶向下方法,一般选用 系列模型,诸如 或 等。这些方法会先进行目标的定位与边界框回归实现初步的 提取,再而对筛选后的边界框进行高精度的人体姿态估计。这种方法虽然能够实现高精度的姿态估计,但是在追求高准
8、确率的同时也在一定程度上抑制了检测效率。因此,本文通过在不同尺度的特征图网格上生成候选框,从而实现对不同尺度人体的捕捉。此外,除了将主干网络更换为简化的跨阶段分层网络之外,还添加了优化的并行注意力模块以解决串行模块出现的特征扰动问题,使网络在完成基本检测任务的同时提高效率。网络的基本结构如图所示。并行注意力模块现有研究结果表明,注意力机制的引入通过增强静态 模型的表示能力,极大程度地提高了这些网络的性能。近年来,很多方法都在讨论将注意力机制应用到各个领域,领域内产生了众多的注意力机制论文研究,且均取得了较好的效果。目前在视觉领域中,应用最为广泛的注意力机制 为 自 注 意 力 机 制()以 及
9、 (),根据具体任务的需求,研究者大多会选取这两者之一作为自己方法的一部分。在本文中选择 的方法,也就是通道注意力与空间注意 力 融 合 的 方 法 进 行 研 究 与 模 型 实 现。但 是,与 实现的不同点在于,本文将通道注意力与空间注意力的支路并行拼接。对于原始的 来说,实现将输入特征图进行通道注意力加权之后再使用新的特征进行空间注意力加权从而得到最终输出特征,也就是串行拼接。这种串行的方法存在一个问题:经过通道注意力加权得到的新特征已经与原始特征的数据分布存在一定的差异,这种差异在一定程度上会影响后续空间注意力加权的特征表达,这种影响会根据任务和网络结构的改变发生变化。因此,计算机工程
10、与设计 年图网络基本架构为了更好应用原始特征,还对原始特征分别进行通道注意力与空间注意力的加权,并将加权结果作为模块的并行输出,施加到原始特征提取流上。此外,本文针对通道注意力与空间注意力的加权方式进行了改进,以增强特征表达和提高特征提取效率,我们将其称为 ()具体操作如图所示。的计算过程可被定义为 ()()()图 模块原始的通道注意力加权方法,仅使用经过 与 操作得到的二重特征进行处理,从而实现对不同通道的加权,但是这种方法并未充分利用到原始特征图的信息,其中大部分特征被忽略了。针对该问题,本文使用二次级联的空洞卷积池化操作进行特征压缩,每次空洞卷积都会在保留一定信息的基础上缩小特征图的尺度
11、,最后通过池化对特征图进行压缩,得到对不同通道的加权结果。此外,我们使用深度可分离卷积进行空间特征的提取,其中,逐通道卷积的每一个卷积核都负责一个通道,一个通道只被一个卷积核卷积,逐点卷积的运算可类比于卷积,它的卷积核维度等于上层通道数,因此逐点卷积会将上一步逐通道卷积的特征图在深度方向上进行加权组合,生成新的特征图。深度可分离卷积的方式可以大幅降低网络参数量。多尺度预测网络提出的方法首先对如图片或视频中的人体目标经进行检测,并对检测框内的人体进行姿态估计。但是对于包含多个人体目标的图像来说,人体目标的尺度不一,对小尺度的对象容易出现误检、漏检等问题。针对该问题,我们使用多尺度特征映射 的方法
12、,在基础特征提取流中获取不同尺度的特征图,并对每一个特征图都进行人体检测,从而准确地检测到尺度不同人体目标,因为在低层的特征图中,每一个特征点的感受野比较小,而在高层的特征图中,其特征点的感受野比较大,所以在不同的特征图上进行卷积,可以较好地解决多尺度检测的问题。网络主干采用跨阶段分层的方式,实现网络轻量化以及梯度分流。模块计算流程如下 ,(),(),()()()(),()其中,为每一个 的输入,并将其分为 与 两部分,经过 的操作将特征信息保留到网络后端,并通过设计的并行注意力模块进行特征加权。则直接与并行注意力模块的加权输出拼接,通过卷积聚合特征,得到多尺度输出。对于不同尺度输出的每个预测
13、框,都会 产生 长度为()的结果向量。其中,“”代表该预测框中“包含人体”以及“未包含人体”的概率;“”代表预测框纵向、横向的偏移量以及长度、宽度的放缩程度;“()”代表个人体骨架关节点的横向、纵向偏移量以及该点置信度。如图所示。第 卷第期朱丽萍,唐亮,朱凯杰,等:运动场景下的多目标人体姿态估计图输出向量表示 可以将特征图转为输出向量,其操作如图所示。首先将特征图进行复制处理保留原始特征,使用两类卷积核对特征图进行特征提取操作,第一类卷积核个数为,其中代表该尺度特征图所负责预测的候选框种类数量。第一类卷积核的输出大小不变,但是维度变为维,表示该特征图中各元素所负责的每一类预测框的前背景分类结果
14、与预测框偏移。同理,第二类卷积核个数为(),卷 积 过 后 特 征 图 大 小 不 变,但 是 维 度 变 为(),表示该特征图中各元素所负责的每一类预测框的骨架关键点位置信息与置信度。候选框的最终位置可由上述结果计算得到()()()()其中,、可以用来表示候选框偏移前的原始位置,、为网络计算得到的偏移量,、可以用来表示候选框偏移后的最终位置。图单尺度输出计算检测框按网络输出的前背景分类结果进行排序,然后保留得分最高的候选框,同时把与选定框重叠面积大于设定比例的其它候选框删除。此外,由于骨架关键点检测并不需要对候选框的回归位置有较为严格的要求,但需要检测框尽可能地包含被检测人体,因此使用 替代
15、原公式中的 即 ()()()其中,表示候选框与真实框中点的欧氏距离,表示候选框与真实框最小闭包区域的对角线距离。在 的基础上加上了一个惩罚项,用于最小化两个框的中心点距离。在与目标没有重叠区域时,也可以提供指导 作 用,由 于 在 中 加 入 了 距 离 概 念,使 得 得到的结果能够更加合理有效。此外,由于最终目标是实现人体姿态估计,为了更精确地获得每一个对象的骨架关键点位置,在使用 对候选框进行筛选时,对检测对象适当保留更多的候选框,并使用每一个关键点的置信度对所有候选框中的对应骨架点进行筛选,选择置信度最大的点作为最终结果。损失函数本章介绍模型训练过程中所需要的损失函数。损失函数由两部分
16、组成:人体检测损失与姿态估计损失。人体检测损失与目标检测损失类似,回归损失产生于候选框与真实框的位置差异,由 损失衡量 (,),(,?)()其中,表示前背景标记,表示候选框的位置参数,表示真实框的位置参数。此外,尽管网络并不需要对检测目标进行分类,但在损失的计算过程中,仍旧保留分类损失的部分,但该部分仅被用来区分前背景,因此使用 ,表示当前候选框是否为前景的标记,若为前景则 ,反之为。当然,由于候选框的数量是远远大于真实框的,并且由于多尺度的原因,这个数量被再次放大,会产生样本不均衡的问题。为了解决这个问题,本文采用 实现难样本挖掘。()被定义为 ()()()()()()其中,表示第个候选框被
17、预测为前景的置信度,为调制系数。引入 后的人体检测损失被定义为 (,)(,)(,)()受多尺度预测影响,会产生多个候选框,但为了最大程度保证网络的准确性,姿态估计损失仅计算正类样本中的骨架关节点预测值,(,)被定义为 (,),()计算机工程与设计 年综合考虑人体检测以及姿态估计的任务,网络实际训练过程中,会发现正样本的数量是远远不及负样本的,除了上述使用 解决样本失衡问题以外,本文根据实际实验效果调整图中的与的阈值,在训练和测试时,分别设定不同的阈值进行正负样本划分,保证训练过程中有足够的正样本可供训练。实验结果及分析 数据集介绍本文使用了 和自制数据集 ,人体姿态数据集是用于评估人体姿态估计
18、的最先进基准数据集,该数据集包括大约 张图像,其中包含超过 个带有注释身体关节的人,共 种人类活动。自测数据集 是我校体育学院历届运动会的照片和视频数据,对所有的照片按照标准姿态估计数据集的格式进行了标注,训练数据为 张图像,包含 个关节点,测试数据为 张图像,包含 个关键点,所有自测数据都是取自真实运动项目,所有的数据集格式见表。表数据集格式数据集名称关键点数量标注格式 ,实验环境及细节实验所用的硬件环境是两张 显存的 显 卡,服 务 器 的 系 统 环 境 是 ,网络模型使用 深度学习框架编写,开发工具使用的是 。在模型训练之前,我们对 数据集里的数据进行了随机缩放、旋转、翻转以增加训练数
19、据。在实验中,本文使用了 作为优化器进行训练,初始学习率设置为 ,每训练 个 ,学习率下降为原来的 倍,一共训练 个 (前 个 使用 数据集进行预训练,后 个 使用 数据集进行微调),使用 作为激活函数,批处理大小分别设置为、,当批处理大小为 时,达到了最好的实验结果。实验结果及分析本文采用了()作为评价方法,该方法会计算估计姿态和真实姿态之间的相似度,并从到之间进行打分,当分数大于 时,我们就认为这个运动员的姿态被正确估计,一共设置 个不同的 阈值,从 到 ,每隔 设置一个阈值,取这 个阈值的平均值作为最终的结果。本文分别取自顶向下的方法 、和自底向上的方法 与我们的网络进行对比,实验结果见
20、表和表。在标准数据集 上,我们的网络中在识别手腕、手肘、脚踝和膝盖等困难关节上达到了 ()的平均准确率,比之前的最好方法高出 ,总体实验高 出 。网 络 对 手 腕 的 最 终 精 确 度 达 到 ,对膝盖的精确度达到 。由于 上是真实场景,其包含的人员较多,且背景较为杂乱,所以导致模型效果有所下降,相较于 数据集,下降 了,下 降 了 ,下 降 了 ,而我们仅下降了 ,说明我们的模型较为鲁棒。实验结果表明,我们的网络可以有效预测多人图像中的姿态,对其中涉及体育运动如跑步、篮球、排球和足球的部分实验结果进行了可视化,实验效果如图所示。可见我们的方法能够更好地捕捉各种尺度的人体,并在此基础上进行
21、高质量人体姿态估计。表实验结果()方法头肩手肘手腕臀部膝盖脚踝总体 表实验结果()方法头肩手肘手腕臀部膝盖脚踝总体 由于本任务中使用了多尺度特征并进行复用,不同深度的网络特征图在每一个模块内变化不敏感,注意力模块的输入将包含更大的信息量。串行注意力模块会首先对输入特征进行空间注意力加权,再进行通道注意力加权,但是两次加权的基准并不相同,对于包含更大信息量的特征图而言会极大程度改变原始数据分布从而产生特征扰动,影响最终的实验效果。消融实验结果见表,所提出的并行注意力模块()比串行注意力模块()在本实验中高出 ,比标准网络高出 ,验证了并行注意力模块的有效性。此外,受制于实验数据集的影响,多尺度数
22、量的选择也是决定模型性能的重要因素。实验中,多尺度模块我们选取了、和这个尺度,并对这个尺度分别做实验,其中相对于单尺度,当尺度第 卷第期朱丽萍,唐亮,朱凯杰,等:运动场景下的多目标人体姿态估计图实验结果可视化展示(自制数据集 )为时,提高了 ,当尺度为和时,处理效率大大降低,但效果没有提升,综合考虑本文选择尺度作为最终实现方案。表消融实验结果()单尺度多尺度()多尺度()多尺度()结束语本文提出了一种结合多尺度目标预测与改进并行注意力模块的多目标人体姿态估计算法,并在运动场景得到实际应用。本文所提出的多尺度预测网络有效地解决了细粒度目标漏检的问题,同时优化的并行注意力模块解决了消除传统串行注意力模块的特征扰动,克服其在人体姿态估计上的局限。在 公 开数据集 和 自 制 数 据 集 上,均达到了很好的效果。该算法在室内外场景下均有较好的适用性。今后将使用多模态建模的方法针对光照条件不足、照片清晰度较低等情况进行研究。参考文献:,():()刘志鹏利用深度卷积神经网络的体育教学训练错误动作检测 三明学院学报,():,:()李坤,侯庆基于注意力机 制 的 轻 量 型 人 体 姿 态 估计 计 算机应用,:,:,:,:,():,:,:,:,计算机工程与设计 年 ,:,:,:,:,():,:,:,:,:,:,:,:,:,:,:,:,:,:,:,():,: