基于轻量级姿态估计的跳绳检测计数算法.pdf

资源描述

1、基于轻量级姿态估计的跳绳检测计数算法陈泽海1,2,吴君钦1,林俊宇21(江西理工大学信息工程学院,赣州341000)2(广东佛山联创工程研究生院,佛山528311)通信作者:林俊宇,E-mail:摘要:针对人体姿态估计算法可实施性低以及基于姿态估计的跳绳计数精度不高的问题,提出了一种基于轻量级人体姿态估计网络的跳绳计数算法.该算法首先输入跳绳视频,接着利用帧间差分法提取关键帧图像并送入人体姿态估计网络进行关节点检测;同时为了解决轻量级网络检测精度不高的问题,提出优化的 LitePose 检测模型,采用自适应感知解码方法对模型的解码部分进行优化从而减少量化误差;然后采用卡尔曼滤波对坐标数据进行平

2、滑降噪,以减小坐标抖动误差;最终通过关键点坐标变化判断跳绳计数.实验结果表明,在相同图像分辨率和环境配置下,本文提出的算法使用优化的 LitePose-S 网络模型,不仅未增加模型参数量和运算复杂度,同时网络检测精度提高了 0.7%,且优于其他对比网络,而且本算法在跳绳计数时的平均误差率最低可达 1.00%,可以利用人体姿态估计的结果有效地判断人体起跳和落地情况,最终得出计数结果.关键词:人工智能;姿态估计;姿态关节点;帧间差分法;卡尔曼滤波引用格式:陈泽海,吴君钦,林俊宇.基于轻量级姿态估计的跳绳检测计数算法.计算机系统应用,2023,32(12):152160.http:/www.c-s-

3、 Rope Detection and Counting Algorithm Based on Lightweight Pose EstimationCHENZe-Hai1,2,WUJun-Qin1,LINJun-Yu21(SchoolofInformationEngineering,JiangxiUniversityofScienceandTechnology,Ganzhou341000,China)2(GuangdongFoshanLianchuangGraduateofEngineering,Foshan528311,China)Abstract:Toaddressthelowfeasi

4、bilityofhumanposeestimationalgorithmsandlowaccuracyofjumpropecountingbasedonposeestimation,thisstudyproposesajumpropecountingalgorithmbasedonalightweighthumanposeestimationnetwork.Thealgorithmfirstinputsajumpropevideo,thenextractskeyframeimagesbyinter-framedifferencemethod,andfeedsthemintothehumanpo

5、seestimationnetworkforkeyjointpointdetection.Toimprovethedetectionaccuracyofthelightweightnetwork,thestudybuildsanoptimizedLitePosedetectionmodel,whichemploysadaptiveperceptiondecodingtooptimizethedecodingpartinthemodelandreducequantizationerrors.Furthermore,aKalmanfilterisadoptedtosmoothanddenoiset

6、hecoordinatedata,reducingcoordinatejittererrors.Finally,jumpropecountingisdeterminedbasedonthechangesinkey-pointcoordinates.Experimentalresultsdemonstratethat,inthesameimageresolutionandenvironmentalconditions,theproposedalgorithmemployingtheoptimizedLitePose-Snetworkmodeldoesnotincreasetheparameter

7、sizeandcomputationalcomplexityofthemodelbutimprovesnetworkdetectionaccuracyby0.7%comparedwithothercomparisonnetworks.Meanwhile,theaverageerrorrateofthisalgorithminjumpropecountingcanreachaminimumof1.00%.Thealgorithmeffectivelydeterminesthetakeoffandlandingofthehumanbodybytheresultsofhumanposeestimat

8、ionandyieldscountingresults.Key words:artificialintelligence;poseestimation;posejointpoint;inter-framedifferencemethod;Kalmanfilter计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(12):152160doi:10.15888/ki.csa.009308http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然

9、科学基金应急管理项目(61741109)收稿时间:2023-05-15;修改时间:2023-06-14;采用时间:2023-06-28;csa 在线出版时间:2023-09-15CNKI 网络首发时间:2023-09-18152软件技术算法SoftwareTechniqueAlgorithm1引言近年来,人体姿态估计作为计算机视觉领域中一项基础而具有挑战性的任务受到了广泛关注,并在人体动作识别、行为分析和人机交互等任务中得到了广泛应用.该技术的主要目标是定位人体骨骼关键点,如肘部、腕部等,以实现对人体姿势和动作的准确推测.人体姿态估计技术在多个领域取得了出色的效果1,在基于视觉的人体姿态估计方

10、面,其具有低成本、便携等优势,为智能健身提供了一种全新的交互方式2,3,并且通过将人体姿态估计技术与深度学习算法相结合,并利用简单便携的设备,如智能手机、智能手环等,实现跳绳计数任务等应用.这种结合使得人们可以更加方便地进行健身锻炼,同时享受到姿势估计技术带来的精准监控和反馈.早期基于卷积神经网络(CNN)的姿态估计直接从图像中预测关节点位置.然而,这种方法很难获得精确的坐标且鲁棒性较差,为了解决这个问题,DeepPose4采用深度神经网络从图像中回归关键点的坐标,虽然一定程度改善了精度问题,但是网络的收敛速度非常缓慢,预测的坐标还是不够准确.为了改进精度和速度,Tompson 等人5提出了使

11、用热力图来表示关节点的信息,热力图中的数值大小反映了该位置是关节点的概率大小,通过寻找热力图中最大值的坐标从而确定关节点的位置,这种使用热力图表示关节点位置的方法极大地推动了基于 CNN 的人体姿态估计方法的发展.由于可以通过卷积操作直接生成热力图,因此该方法在提高准确性的同时也提升了计算效率.Newell 等人提出多次上采样和下采样堆叠而成的 Hourglass 模块6,使网络能够在不同的尺度上进行多次特征提取和融合,从而获得更加准确和鲁棒的关键点估计结果.2019 年Sun 等人提出的 HRNet7更是在人体姿态估计任务中取得了 SOTA 级的表现,他提出一种基于多分辨率子网络并行融合的人

12、体姿态估计方法,通过保持高分辨率特征来提高准确性.HigherHRNet8在基于 HRNet的多分辨率网络上通过增加更高分辨率的特征金字塔结构,引入了更丰富的多尺度特征信息,以获得更准确、更精细的姿态估计结果.同时它还利用强化的前项和后项空间转换器来提升特征的表达能力和姿态估计的鲁棒性,在保持高效率的同时,实现了更准确、更稳健的人体姿态估计.但是由于算力和内存限制,移动设备和嵌入式平台不适合部署大型网络9,因此,目前的人体姿态估计网络难以得到广泛应用.Neff 等人在 HRNet 基础上提出了 EfficientHRNet10,通过采用轻量级网络设计和优化的特征融合策略实现了在计算效率和准确性

13、上的平衡,使得它在保持高分辨率特征的同时,减少了模型的参数量和计算复杂度,使得姿态估计更加高效而精确.Zhang 等人11构建了一个轻量化的沙漏网络,利用快速姿态蒸馏模型学习策略,能够更有效地训练轻量化人体姿态估计网络.而人体姿态估计关键点检测的方法大致分为两类:一类是以 HRNet 为代表的自顶而下的网络框架,另外一类是以 OpenPose12为代表的自底而上的网络框架.其中第 1 类一般都是先进行物体检测,将图像中每个人的人体矩形框识别并进行裁剪,最后在此区域内进行单人的人体关键点检测,因为只在人体矩形框内进行单人检测,所以去除了人体之外的干扰,其准确率是目前姿态估计所有框架中最高的,但是

14、要先检测人体再进行关键点检测,所以在多人人体关键点检测下,其检测效率也会随之下降.自底而上的算法则是直接先将图像中所有人体的关键点全部检测出来,再通过关节点之间的关联进行拼接最后得到人体姿态,该算法的优势在于它的检测效率和实时性比较高,但是易受非人体因素干扰,所以其精度相对较低.但是大多数方法需要使用完整的骨架模型或较复杂的网络结构,限制了它们在移动设备上的应用,其低误差率、高实时性同算法的可实施性不可兼得.而跳绳作为一种常见的运动方式且与人体姿态信息相关联,传统的跳绳计数方法主要依靠人眼手动计数,并且容易出现误差.为了解决这个问题,越来越多的研究者开始尝试采用基于模型的计数方法,这些方法主要

15、是通过使用运动捕捉设备,如惯性测量单元(IMU)和深度相机或者额外的传感器和复杂的硬件1315,来获取用户的行动信息,并通过算法进行计数.然而这些设备通常比较笨重,难以携带,且价格较高.因此,如何降低计数方法的设备依赖性,提高其可行性和普及性,成为一个研究难点.针对以上这些问题本文提出了一种跳绳计数算法,采用了一个端到端、自底而上方法的多人轻量级人体姿态估计网络来提取人体关键点坐标,并且对网络的解码方法进行了优化,采用了一种自适应感知解码方法,降低了热图最大激活点映射回原图坐标时导致的2023年第32卷第12期http:/www.c-s-计算机系统应用SoftwareTechniq

16、ueAlgorithm软件技术算法153量化误差,然后用卡尔曼滤波将人体姿态估计网络预测的关键点坐标进行平滑滤波后,最后再通过计算关节点的运动变化来进行跳绳计数.实现在手机、嵌入式开发板等边缘计算设备上能够快速准确地完成跳绳计数任务,同时为人体姿态估计算法进行应用落地提供一个参考方向.2基于人体姿态估计的跳绳计数算法 2.1 算法流程本文提出的基于人体姿态估计的跳绳计数算法的实现流程如图 1 所示,主要由提取关键帧、关键点检测、数据处理和判断计数 4 个部分构成.首先,输入跳绳视频并进行帧间差分法,提取关键帧图像;接下来,利用优化的人体姿态估计模型进行关节点检测;然后,通过卡尔曼滤波将人体姿态

17、估计模型得到的预测估计作为观测值进行修正,以获得状态变量(关节点坐标)的最优估计;最后,通过关键点的坐标变化进行判断计数,从而最终得到计数结果.视频计数结果是否完成检测判断计数符合条件计数+1帧间差分法否否是是关键帧人体姿态估计模型进行人体关节点检测卡尔曼滤波图 1算法流程图 2.2 提取关键帧帧间差分法16,17是一种通过在视频图像序列中相邻两帧进行差分运算来获取运动目标轮廓的方法.该方法具有运行速度快、动态环境自适应性强以及对场景光线变化不敏感等特点.本文利用该方法提取跳绳运动中人体关节点变化的关键帧图像.但由于跳绳动作较快,本文采用了三帧差分法.具体实现为:首先使用 OpenCV 库函数

18、读取视频,并将读取到的视频帧图像从 BGR 格式转换为 LUV 格式;然后将连续 3 帧中每个像素点的灰度值进行差值运算,并将得到的差值进行累加,得到 3 帧图像的差分强度,根据像素总数计算平均帧间差分强度;接下来对序列进行卷积平滑运算,平滑后的极值即对应着视频关键帧.虽然本文采用的是三帧差分法,但仍能较好地提取出跳绳动作的关键帧.2.3 人体关键点检测2.3.1人体关键点检测模型自顶而下的算法虽然精度高但其实时性低且计算量都普遍偏大难以部署到边缘设备上,所以本文选用的是基于自底而上的轻量级人体姿态估计网络 LitePose18作为基础架构并在其解码部分进行优化.LitePose 是现有即精确

19、、网络结构简单、算力要求不高且能够在边缘端部署的多人实时姿态估计的高效架构设计.LitePose 在 HigherHRNet 的基础上重新设计出了一个高效的单分支结构,其结构如图 2 所示,它采用了改进的 MobileNetV219作为主干网络提取特征,使用了步长为 7 的大卷积核,在只增加了很小的计算量的情况下,增强了尺度变化的能力,同时为了保持高分辨率特征,将原有的上采样替换成了反卷积20,不仅消除了高分辨率分支中的冗余细化,还能以单分支的形式进行尺度感知的多分辨率融合.检测出所有的关键点之后再使用关联嵌入的方法进行分组最后得到完整的人体姿态图.Conv33(s=2)+Conv332244

20、48112MobileNetV2Stage1MobileNetV2Stage2MobileNetV2MobileNetV2DeconvDeconvDeconvOutput1Output2+68101056282856112224Stage3Stage4图 2LitePose-S 网络结构图计算机系统应用http:/www.c-s-2023年第32卷第12期154软件技术算法SoftwareTechniqueAlgorithm2.3.2解码过程目前主流的人体姿态估计网络都是采用的基于热图的回归方法,本文使用的 LitePose 也是基于热图回归的方式.模型先将人体的每个关节坐标变成以

21、其坐标为中心的二维高斯分布的关节热图,再送入网络中进行监督,这就是坐标编码,但是为了降低计算量通常都是先进行下采样形成低分辨率热图;在热图预测之后同样也需要将分辨率恢复并且将热图转换成原始坐标,最终预测被认为是具有最大激活的位置,称这一过程为坐标解码.在预测生成的低分辨率热图上找到最大激活点再映射回原图得到关键点坐标这一解码过程中会存在量化误差,对于这种误差,现有的人体姿态估计都是采用 Hourglass 中的方法对最大激活点在解码之前进行后处理,也就是将预测的坐标,由最大激活位置向第 2 大激活位置的方向,移动 0.25 个像素然后再上采样恢复成原图分辨率得到坐标.这种手工设计偏移补偿解码方

22、法预测出来的最大激活位置并不是原始图像中关节点的准确位置,只是一个粗略大概的位置,这种方法虽然能够手工的将误差进行补偿,但是还是不能够使预测热图中的关键点解码成更加精确的原始坐标位置.所以本文使用了一种自适应感知的解码方法去代替原先手工补偿的解码方法,通过热图自己的分布结构来自适应预测出它最大激活点的位置,从而使模型在解码过程中得到更准确的定位.2.3.3自适应感知解码因为热图的生成通常都是通过二维高斯核生成的,但是发现模型预测的热图并不是严格遵守高斯分布的,会出现多峰的情况,会对解码方法造成负面影响,因此在进行解码之前,要先将热图进行平滑预处理.首先利用与训练数据具有相同变化的高斯核 K 来

23、平滑多峰带来的影响,具体操作如下:p=K p(1)p其中,表示预测的热图,表示卷积运算.pp同时为了保证和原始热图具有相同的分辨率,还需通过式(2)对进行缩放,使其最大激活点等于.p=pmin(p)max(p)min(p)max(p)(2)平滑过后的热图就严格遵从与高斯分布,因此预测的热图与真实热图相同,其热图可以表示为:G=1(2)|12exp(12(x)T1(x)(3)x其中,表示预测热图中的一个像素位置,则是预测的最大激活点对应的高斯均值,表示为两个方向上的协方差的对角矩阵,其表示如下:=2002(4)H为了方便计算根据对数似然优化的原则,将式(3)进行对数变化变成二次形式,此时其表示

24、为:H(x;,)=ln(G)=ln(2)12ln(|)12(x)T1(x)(5)解码的最终目的就是为了从热图中获得最大激活位置,也就是这个分布中极值点的位置,所以在极值点处必定满足其一阶导数为 0,所以可以得到式(6):D(x)|x=HTx?x=1(x)|x=0(6)hH()再利用泰勒定理去将预测热图中最大激活点的泰勒级数进行展开去近似:H()=H(h)+D(h)(h)+12(h)TD(h)(h)(7)D(h)h其中,是在极值点处的二阶导,由式(6)可以得到其结果为:D(h)=D(x)?x=h=1(8)h最后通过式(5)式(8)可以得到通过预测热图的最大激活点来近似得到的真正最大激活点位

25、置,结果为:=h(D(h)1D(h)(9)得到极大值点的位置就可以通过式(10)进行还原得到预测的最终原始空间下的关节点坐标,其表示如下:p=p(10)其中,为热图下采样的倍率.这种通过泰勒级数结合最大激活点的一阶偏导和二阶偏导来联合定位真正极值点位置的方法,不仅能够自适应探索热图分布的统计信息,从而去推断潜在的极值点位置,比之前手工往第 2 大激活点位置偏移0.25 个像素点要更具有理论上的说服力,而且这种解2023年第32卷第12期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法155码方式只需要计算每个预测热图最大激活

26、位置的一阶偏导和二阶偏导,并不会增加计算成本.2.4 卡尔曼滤波卡尔曼滤波是通过观测信息和该数据的状态转移以及观测模型对状态进行滤波和预测,它的优点在于其计算量小,只需要建立数据和噪声对应的状态空间模型,就可以通过上个时刻的状态来对当前时刻的状态进行最优估计.模型在检测连续帧时由于人体关节点检测模型受外界噪声和其本身性能限制等一系列因素可能会出现检测人物未出现明显变化但是预测的关节点坐标却出现较大浮动的现象.同时算法是根据模型预测的关节点坐标的周期性变化来进行计数,所以为了使模型预测出来的关键点坐标更加精准,本文采用了卡尔曼滤波21对模型检测出来的坐标进行一个平滑降噪,减少噪声的干扰,缩小坐标

27、波动的阈值,来降低坐标抖动误差并且过滤掉跳绳运动中人体关键点的一些极端异常值.2.5 判断计数优化后的人体姿态估计模型可以更加准确地获取人体关节点的图像位置数据,预测出 17 个关节点的骨骼拓扑(如图 3 所示).结合关节点数据信息和人体跳绳运动中产生的关节点坐标随着人体起跳、落地不断呈现类似于正弦函数一样的周期性波动变化,本文构建了跳绳计数算法.具体来说,在人体跳绳时,其重心在竖直方向上一定会随着运动而发生明显变化,因此本文选取了 5、6、12、11 这 4 个关节点纵坐标的中值作为跳绳计数的关键点;每完成一次跳绳运动,其关键点纵坐标一定会满足先上升后下降的周期性变化,因此只需对当前关键帧的

28、关键点纵坐标与上一关键帧的关键点纵坐标进行对比判断,如果符合条件,则进行计数.具体判断流程如图 4 所示.123450678910111213141516图 3COCO 数据集人体关键点拓扑人体姿态关节点数据当前帧人体关键点纵坐标 Yt,上一帧人体关键点纵坐标 Yt1,起跳标志位 flag,计数位 countcount+1,flag 取反满足或者YtYt1flag=trueYtYt1flag=false否完成全部检测跳绳次数=count/2否是是图 4跳绳判断计数流程框图3实验结果与分析 3.1 实验环境与配置3.1.1实验数据本文模型优化实验的数据集为 COCO 数据集,跳绳计数实验则采用

29、50 个不同场景下以及跳绳速率不同的跳绳视频进行正确率测试,6 个室内外不同环境背景的跳绳视频进行误差率测试.其中 COCO 数据集在计算机视觉领域中运用比较广泛,本文采用的 COCO2017进行在不受控制的条件下对多人的关节点进行定位,其中训练集包括了 118287 张图片,验证集中包含了5000 张图片,都是进行了 17 个人体关节点标注的人体实例.所以本文将训练集(train2017)来对网络进行训练,在验证集(val2017)上对模型进行评估,并且与其他模型进行了比较.3.1.2评估标准其中在模型优化实验的验证中,均采用人体关键点相似度(objectkeypointsimilarity

30、,OKS)来计算模型预测的人体关节点的坐标与真实值(标签值)坐标之间的误差,再通过设置不同的阈值来确定预测关节点的置信度.其计算公式如下:OKS=iexpd2i2s2k2i(vi 0)i(vi 0)(11)idivis其中,为关节点的序号;为预测关节点坐标与其对应标注坐标的欧氏距离;为该关节点是否可见;为目计算机系统应用http:/www.c-s-2023年第32卷第12期156软件技术算法SoftwareTechniqueAlgorithmki0,1标尺寸;是通过对数据集进行标准差计算得到的每个关节点的相关控制衰减常数.模型预测的 OKS 均处于范围内,当它结果为 1 时说明该点

31、是个完美预测关节点;结果为 0 时表示预测点与标注点误差非常大.3.1.3模型训练以及实验细节实验均在 Ubuntu20.04 操作系统、i9-10940X3.3GHz 的 CPU、以及一个 NVIDIA308010GBGPU组成的服务器上完成.采用的是 PyTorch1.8.1深度学习框架.训练使用的是 ADAM 优化器,对模型的训练总共 500 个周期,批次大小为 40,初始学习率为 0.001,在第 350 和 480 个 Epoch 分别对其更新至 0.0001 和0.00001.模型采用均方差来计算关节点预测损失和关节点关联嵌入损失去监督网络.其总损失计算公式如下:L=preLpre

32、+Lcls(12)preLpreLcls其中,和分别为关节点预测的权重系数和损失,为关节点嵌入损失,其计算方法如下:Lcls=pushLpush_loss+pullLpull_loss(13)pushpullLpush_lossLpull_losspreprepull其中,和为权重系数,为关节点之间的拉力损失,为关节点之间的推力损失.在训练过程中值设为 1.0,和值为 0.001 和0.001.模型训练过程中的损失函数如图 5 所示.最后在预测热图转换成原始坐标的时候采用自适应感知解码方法替换掉原先热图最大激活点向第 2 大激活点偏移1/4 的手工补偿方法进行解码.Ta在跳绳计数实验中,我们对

33、个视频中跳绳的真正次数进行了标注,实验通过跳绳计数算法对这些视频进行计数并与真实次数进行比对,本文将算法计数TcPt=Tc/TaPf=|MN|M结果 N 与真实结果 M 误差小于等于记为预测正例,反之记为预测失败,通过公式计算准确率以及公式计算误差率,误差率越小,算法性能越准确,越可靠.000.0010.0020.003100200300EpochValue400500图 5训练损失收敛曲线 3.2 关键帧提取实验为了加快跳绳计数算法检测效率,本文利用三帧差分法进行关键帧提取.卷积平滑窗口大小设置为 25,如果窗口过大,会导致差分图像中部分信息被掩盖,容易造成局部运动感知不明显,而窗口过小又

34、无法抑分图像中的噪声达到抑制静态背景的效果.经过实验发现,卷积平滑窗口当为 25 的时候效果最佳,而此时平滑之后的极值所对应的帧便是关键帧.得到关键帧之后并且对帧图像进行一定剪裁和缩放使其大小为448448 的图像送入人体姿态估计模型中进行关节点检测.这样不仅可以避免花费大量时间从头到尾的检测全部视频帧,同时还可以减少连续帧之间由于人体姿态估计模型性能导致的抖动误差.其跳绳运动中部分关键帧序列入图 6 所示.图 6部分关键帧序列 3.3 模型优化实验结果本节在 COCO 验证集上将改良后的模型与其他模型进行对比实验来验证模型的准确性和可实施性,其实验结果如表 1 所示.由表可知,LitePos

35、e 模型与其他先进的自底而上的人体姿态估计模型相比,在包含更少的参数量和运算复杂度更低的基础上仍然取得了比较好的性能,如对于 PersonLab 和 Hourglass 以及 Higher-HRNet 这类网络层数较深的复杂网络,LitePose-M 仍然具有比较大的优势,虽然在精度上有略微下降,但是大幅度降低了计算量和参数量,只牺牲一点精度就极大地增加了算法落地的可实施性,相较于轻量级网络如 OpenPose,LitePose-S 在模型参数量和运算复杂度上分别降低了 34.1%和 44.4%,同时平均检测精度mAP 值也提升了 32%.对于更为先进的 EfficientHRNet-2023

36、年第32卷第12期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法157H-2 模型,也同样在模型参数量和运算复杂度分别降低了 67.5%和 36.7%的基础上 mAP 值提高了 7.4%.所以由此可以表明 LitePose 高效的单分支结构能够更好地满足部署到计算力较低的边缘设备上的这一需求.表 1COCOval2017 中模型对比结果ModelInputsizeParams(M)MACs(G)mAP(%)PersonLab1401140168.7405.566.5Hourglass512512277.8206.966.9

37、HigherHRNet-W4864064063.8155.169.9LitePose-M4484483.537.8559.9LightweightOpenPose3683684.19.042.8EfficientHRNet-H-24484488.37.952.9LitePose-S4484482.75.056.8Ours4484482.75.057.2EfficientHRNet-H-43843842.82.235.7LitePose-XS2562561.71.240.6Ours2562561.71.241.2当同时在 LitePose 模型解码过程中使用自适应感知解码,不仅使 LitePos

38、e-S 的精度提高了 0.7%,对于输入更低分辨率的 XS 模型平均精度也提高了 1.5%,而且其模型复杂度并未出现明显变化.同时为了检测网络模型的可实施性本文在 NVIDIAJetsonNano 上面测试了 3 类网络的延时,结果如图 7 所示.可以看出本文优化后的模型在提升了性能的同时其延时几乎没有太大变化.这些结果足以表明,自适应感知的解码方法确实能够在解码过程中保持计算量以及参数量不发生明显变化的前提下通过计算高斯分布热图的一、二阶偏导来自适应感知最大激活位置,从而减少热图解码过程中坐标因为分辨率不同而导致的量化误差,而优化的 LitePose 模型也同样在具有低参数量和低计算量的前提

39、下,拥有较于其它模型更优的检测精度,能够更好地部署到计算力不强的边缘设备上,因此本文算法采用改良的 LitePose-S 模型来进行人体关键点检测.3.4 跳绳计数实验结果本文在互联网上收集了 40 个多种场景下的跳绳视频和 10 个一分钟速跳比赛的跳绳视频来对卡尔曼滤波的影响进行了消融实验以及对本文算法的性能进行一个评估,实验结果如表 2 所示.当不存在比赛级快速跳绳视频时,且误差为 0 的时候增加卡尔曼滤波使算法的正确率提高了 30 个百分点,并且随着误差范围的增大,增加了卡尔曼滤波的算法正确率也同样比原始算法要高出很多,特别是在误差为 5 的时候加了卡尔曼滤波的算法正确率高达 95%比原

40、始算法提高了27.5 个百分点,同时本节将其中一个视频关键点(5、6、11、12 四点中值)Y 值随时间的变化以及卡尔曼滤波之后的结果进行了可视化得到图 8,由图可以看出在经过卡尔曼滤波之后,关键点坐标整体的浮动阈值变小了,方差变小了,其预测的坐标就更稳定,由于模型性能导致的关键点坐标波动范围也会缩小,并且通过滤波可以滤除一些模型预测错误的异常值坐标,从而减小误差,所以说明通过卡尔曼滤波进行平滑降噪、过滤极端异常值对跳绳计数是有效的.20406080100120140160180Latency on NVIDIA Jetson Nano(ms)60(97,56.8)(101,57.2)(171

41、,52.9)EfficientHRNetLitePoseOurs(50,35.7)(28,41.2)(22,40.6)555045403530mAP(%)图 7模型可实时性对比图表 2卡尔曼滤波前后算法正确率对比结果算法模型误差范围视频总数Tc预测正例正确率P(%)LitePose-S040717.51402152.55402767.55502754.0Ours0401947.51403177.55403895.05503978.0031532032533033534050Data100150200250FPS关键点纵坐标Kalman_data图 8卡尔曼滤波前后的关键点坐标变化对比图在计数实

42、验中我们发现加入 10 个一分钟速跳比赛视频后,无论采用原始算法还是本文算法,正确率都计算机系统应用http:/www.c-s-2023年第32卷第12期158软件技术算法SoftwareTechniqueAlgorithm有一定程度的下降.这是因为一分钟速跳比赛的运动员在跳绳时,为了达到更快的速度,会尽可能让身体不发生大幅度跳跃,导致人体关键点坐标变化非常小,极大程度增大了关键点坐标的抖动.同时,受关键点检测模型性能影响,预测的坐标精度并不高,因此通过坐标变化计数这种快速跳绳比赛会产生较大误差.同时为了检测算法的性能,本文在不同环境下进行了实验,包括室内和室外、亮度高和低以及背景

43、复杂等情况.实验结果如表 3 所示,在较亮的室内环境下,算法表现出完美的检测结果,误差率为 0,但在亮度较低或背景比较复杂(多人场景)的情况下,会出现一些误差.然而在室内平均误差仍然较低,仅为 1.00%.在室外环境下,由于受背景噪声的干扰人体关键点检测的精度受到影响,因此误差相对于室内有所增加.特别是在有多人的复杂背景下,误差率可达 4%,但室外平均误差仍仅为 2.67%,图 9 展示了 6 种场景下模型关节点检测的可视化结果,发现在复杂情况下会存在漏检或者多检,同时在亮度较低的场景下也会存在部分关节点检测不准确的情况.但是实验结果显示,本文算法无论在室内还是室外的环境下,都表现出较好的性能

44、,误差率非常低.特别是在室内环境下的检测中,平均误差率仅为 1%,因此本文提出的基于改良轻量级人体姿态估计网络的跳绳计数算法是可行的.表 3不同场景下本文算法误差率的检测结果视频类型真实次数M预测次数N误差率(%)平均误差率(%)室内11001000.001.00室内2100991.00室内31001022.00室外1100991.002.67室外2100973.00室外31001044.00(a)室内 1(b)室内 2(c)室内 3(d)室外 1(e)室外 2(f)室外 3图 9不同场景下部分可视化结果4结论与展望为了进一步推进轻量级人体姿态估计在边缘设备上的应用,本文针对 AI 跳绳领域准

45、确性不高的问题提出了一种基于轻量级人体姿态估计网络的跳绳计数算法.通过对高效的轻量级人体姿态估计网络 LitePose的解码方法进行改进,使用了基于自适应感知解码方法的方案,该方法利用了自身热图分布信息来推断最大激活点位置,替代了传统手工补偿解码方法.在不增加模型复杂度的情况下,进一步提高了算法的检测精度,并利用人体姿态数据构建跳绳计数算法,能够在低计算量、低成本的边缘设备上实现了快速部署.实验结果表明,改进后的姿态估计模型无论是模型复杂度还是精度均优于其他自底而上的模型,并且通过该模型构建的计数算法误差非常低,能够通过在线视频快速准确地为人体跳绳进行计数,其具有一定的落地应用价值,比如健身和

46、运动监测上通过计算和监测跳绳的次数,可以实时评估运动质量、消耗的热量和达成的目标;又或者运动教育和培训领域、通过该技术来监控学生或运动员的动作,提供反馈和改进建议;再或者可以与虚拟现实(VR)或增强现实(AR)结合,创建与跳绳相关的互动游戏或应用程序,人们可以在家中或健身中心使用这些应用程序进行有趣的跳绳训练,并与其他用户进行竞争和交流.经过可视化分析分析可以看出,本文算法存在的一定问题:一是在光线分布不均匀、背景偏暗或者包含多人场景的时候,会出现关键点检测模型检测效果不理想的情况,导致计数出现误差;二是在一分钟快速跳绳比赛上面,由于人体动作幅度太小,导致无法进行精确计数.但是本文算法仍有改进

47、空间,如何提高关键点检测精度,以及进行多人实时检测将是下一阶段的2023年第32卷第12期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法159主要研究方向.参考文献刘圣杰,何宁,王程,等.2D 人体姿态估计研究进展.中国计算机用户协会网络应用分会 2021 年第 25 届网络新技术与应用年会论文集.北京:北京联合大学北京市信息服务工程重点实验室,2021.255258.1李睿敏.基于视觉数据的人体动作精细分类及评估方法研究博士学位论文.西安:中国科学院大学(中国科学院西安光学精密机械研究所),2020.2Chen YC,

48、Tian YL,He MY.Monocular human poseestimation:A survey of deep learning-based methods.Computer Vision and Image Understanding,2020,192:102897.doi:10.1016/j.cviu.2019.1028973ToshevA,SzegedyC.DeepPose:Humanposeestimationviadeep neural networks.Proceedings of the 2014 IEEEConference on Computer Vision a

49、nd Pattern Recognition.Columbus:IEEE,2014.16531660.4Tompson J,Jain A,LeCun Y,et al.Joint training of aconvolutionalnetworkandagraphicalmodelforhumanposeestimation.Proceedingsofthe27thInternationalConferenceonNeuralInformationProcessingSystems.Montreal:MITPress,2014.17991807.5NewellA,YangKY,DengJ.Sta

50、ckedhourglassnetworksforhuman pose estimation.Proceedings of the 14th EuropeanConference on Computer Vision.Amsterdam:Springer,2016.483499.6Sun K,Xiao B,Liu D,et al.Deep high-resolutionrepresentationlearningforhumanposeestimation.Proceedingsofthe2019IEEE/CVFConferenceonComputerVisionandPatternRecogn

展开阅读全文