1、第 44 卷 第 4 期2023 年 4 月 激光杂志LASER JOURNALVol.44,No.4April,2023http /收稿日期:2022-10-13基金项目:河北省自然科学基金(No.F2017209120)、唐山市沉浸式虚拟环境三维仿真基础创新团队(No.18130221A)作者简介:谷学静(1972-),女,教授,研究生导师,主要研究方向:虚拟现实、人机交互通讯作者:曹习禹(1996-),男,硕士研究生,主要研究方向:人体姿态估计、人机交互。E-mail:1162513274 引入注意力机制的高分辨率人体姿态估计谷学静1,2,曹习禹1,21华北理工大学电气工程学院,河北 唐
2、山 063210;2唐山市数字媒体工程技术研究中心,河北 唐山 063000摘 要:为提升人体姿态估计的准确率,提出了将 SKNet(Selective Kernel Networks)视觉注意力机制与高分辨率网络 HRNet(High-Resolution Network)相结合的方法。在高分辨率网络的第一阶段,使用 SKNet 中的选择性卷积核替代瓶颈残差模块中的 33 卷积核,使神经元根据输入信息的不同尺度自适应调整感受野的大小。在 MPII 数据集上的实验表明,相较于 HRNet-W32 和 HRNet-W48,引入注意力机制的高分辨率人体姿态估计网络在不增加参数量和计算量的情况下,在
3、通道数 C=32 和通道数 C=48 时的平均准确率分别提高了 0.7%和0.5%,同时在人的手腕、髋部、膝盖和脚踝处的准确率有较大提升。关键词:人体姿态估计;注意力机制;高分辨率网络;选择性卷积核中图分类号:TN911 文献标识码:A doi:10.14016/ki.jgzz.2023.04.086High resolution human pose estimation introducing attention mechanismGU Xuejing1,2,CAO Xiyu1,21School of Electrical Engineering,North China Universit
4、y of Science and Technology,Tangshan 063210,China;2Tangshan Digital Media Engineering Technology Research Center,Tangshan 063000,ChinaAbstract:In order to improve the accuracy of human pose estimation,a method combining SKNet(Selective Ker-nel Networks)visual attention mechanism and high-resolution
5、network HRNet(High-Resolution Network)is pro-posed.In the first stage of the high-resolution network,the selective kernel in SKNet is used to replace the 3 3 con-volution kernel in the bottleneck residual module,so that the neurons can adaptively adjust the size of the receptive field according to t
6、he different scales of the input information.Experiments on the MPII dataset show that,compared with HRNet-W32 and HRNet-W48,the high-resolution human pose estimation network with the introduction of the attention mechanism does not increase the amount of parameters and GFLOPs,and the number of chan
7、nels C=32 and channel number C=48,the average accuracy is improved by 0.7%and 0.5%,respectively,and the accuracy of hu-man wrist,hip,knee and ankle is greatly improved.Key words:human pose estimation;attention mechanism;high-resolution network;selective kernel1 引言 人体姿态估计是计算机视觉中的重要任务1,目的是检测人体关键点的位置并重
8、构人体肢干2。基于人体关键点的研究在多个领域得到了广泛的应用3,例如动作识别、行为分析和人机交互4。传统方法难以应对视角不同、外观不同5的情况。而基于深度学习的方法可以对二维图像中的人体提取出更为精确和稳定的特征。随着卷积神经网络的发展,Toshev 等人提出的DeepPose6将卷积神经网络引入人体姿态估计领域中,但它仅依靠坐标回归的方法检测关键点,使得效果较差。Xiao 等人提出的 Simple Baselines7前半部分采用 ResNet8网络进行特征提取,后半部分则采用转置卷积恢复分辨率,但是由于其网络整体采用了先http /降低分辨率再恢复分辨的结构,未保持高分辨率特征图支路,导致
9、生成的热图质量不高。与 Simple Base-lines 不同,Sun 等人提出的高分辨率网络 HRNet9在网络中保持特征图分辨率的同时,不同层的级联网络在不同分辨率下对图像提取特征,通过不同层间特征融合来获取更多信息,但传统卷积将神经元的感受野设计成相同大小,HRNet 在传统卷积的基础上进行设计,其准确率有待提高。因此,选取 HRNet 为基本框架,并在 HRNet 的第一阶段中添加注意力机制,使网络可以自适应调整感受野的大小,实验证明在不提高模型参数量和计算量的情况下提升了准确率。2 相关工作2.1 高分辨率网络 HRNet高分辨率网络(High-Resolution Network
10、,HRNet)是在 2019 年提出的人体姿态估计新型网络结构。HRNet 总共分为四个阶段,第一阶段由一个高分辨率子网组成,第二、第三和第四阶段由多分辨率模块组成,在第二、第三阶段和第四阶段的起始处添加一个分辨率为第一阶段的12、14、18的并联分支网络,同时并联分支网络的通道数变为第二阶段最高分辨率起始处特征图通道数的 2 倍、4 倍、8 倍。图 1 中以 3 个分辨率表征的情况下介绍不同分辨率的特征图进行特征融合过程。从高分辨率到低分辨率进行 33 卷积操作,从低分辨率到高分辨率先进行 11 的卷积操作,再进行最近邻上采样操作,相同分辨率的情况下不进行操作,最后将得到的特征图相加作为后续
11、的输入。图 1 不同分辨率特征图的特征融合2.2 注意力机制受到人类视觉系统的启发,注意力机制被广泛应用在各种深度学习任务中,其目的是从众多信息中筛选出对任务目标更加重要的信息10。由 Hu 等人提出的 SENet(Squeeze-and-Excitation Network)11属于通道注意力机制,通过挤压和激励操作,使得不同通道特征的重要程度被模型自动学习。由 Woo 等人提出的 CBAM12(Convolu-tional Block Attention Mod-ule)注意力机制不仅汇集了通道域的注意力信息,也汇集了空间域的注意力信息。由 Li 等人提出的 SK-Net13是对 SE-N
12、et 的改进,它是基于卷积核的注意力机制,构建了一种可以自适应选择卷积核大小的网络结构。文中选取 SKNet 注意力机制,其引入了选择性卷积核(Selective Kernel,SK)来聚合多个卷积核的信息,其结构如图 2 所示。它主要由三个部分组成:Split,Fuse 和 Select。图 2 选择性卷积核示意图Split 部分的目的是生成具有不同卷积核大小的多个路径,对应神经元的不同感受野大小。对于给定的特征图 XRHWC,进行大小为 33 和 55 的卷积操作,受到 ResNeXt14的启发,在这里使用分组卷积操作,分别记作?F:X?URHWC和F:XURHWC,其中?F 和F 操作也
13、包括批归一化和 ReLu 激活函数。?U 和U 分别是两个操作分别得到的两个特征图。Fuse 部分的目的是聚合不同路径的信息,使这些路径携带不同尺度的信息传递到下一层的神经元中。通过特征元素相加的方式融合多个路径的结果,如公式(1)所示:U=?U+U(1)Fgp为全局平均池化操作,Ffc是先降维再升维的两层全连接层。输出的两个矩阵 a 和 b,矩阵 b 为冗余矩阵,在图 4 中两个分支的情况下 b=1-a。通过使用全局平均池化生成全局信息 sRC,s 的第 c 个元素的计算如公式(2)所示:sc=Fgp(Uc)=1H WHi=1Wj=1Uc(i,j)(2)此外创建一个紧凑特征 zRd1,使用一
14、个全连接层实现,通过降低维度的方法来提高效率,如公式(3)所示:78谷学静,等:引入注意力机制的高分辨率人体姿态估计http /z=Ffc(s)=(B(Ws)(3)d=max(C/r,L)(4)其中,是 ReLu 激活函数,B 代表批归一化,W 代表全连接层且 WRdC,公式(4)表示 d 对模型效率的影响,采用缩降率 r 控制其值,L 表示 d 的最小值。Select 部分将 a、b 两个矩阵与 Split 部分得到的特征图进行通道间的相乘再进行求和操作得到特征图 V。注意力权重 ac、bc的生成方法如公式(5):ac =eAc zeAc z+eBc z,bc =eBc zeAc z+eBc
15、 z(5)其中,A、BRCd,AcR1d表示 A 的第 c 行,ac是 a 的第 c 个元素,对于 B 同理。最终的特征图 V 是通过各种卷积核上的注意力权重得到的,如公式(6)所示:Vc=ac?Uc+bcUc,ac+bc=1(6)其中,V=V1,V2,VC,VcRHW。2.3 残差模块的改进结合选择性卷积核(Selective Kernel,SK)改进的瓶颈残差模块如图 3 所示。设输入的特征图 Y,经过一个大小为 11 的卷积,并经过批归一化与 ReLu 激活函数后,得到选择性卷积核的输入特征 X。在选择性卷积核中,设置分组卷积参数 G=32,缩降率 r=16。经过选择性卷积核、批归一化和
16、 ReLu 激活函数操作后得到特征 X。再经过一个 11 的卷积和批归一化操作得到特征 Y,最后将特征 Y与输入的特征 Y相加后经过 ReLu 激活函数操作得到输出的特征 Y。2.4 改进后的 HRNet 网络结构基于 HRNet 网络进行结构设计,如图 4 所示。设置输入图像的分辨率为 256256,经过两次大小为 33,步长为 2,填充为 1 的卷积操作后,将图像的大小缩小至原来的14,即大小为 6464 的特征图,作为网络第一阶段的输入。在网络的第一阶段,使用 4 个改进后的瓶颈残差模块。第二阶段由 2 个分辨率的子网构成,分辨率为 6464 和 3232,第三阶段由 3 个分辨率的子网
17、构成,分辨率为 6464、3232 和 1616,第四阶段由 4 个分辨率的子网构成,分辨率为 6464、3232、1616 和 88。第二、第三和第四阶段均由 4 个 BasicBlock 残差模块对特征图进行特征提取。不同分辨率间的特征图进行卷积下采样和最近邻上采样的方式进行特征融合。本文中第二、第三和第四阶段的个数为 1、4、3 个。在第四阶段结束后,在最高分辨率处使用一个大小为 11,步长为 1,填充为 0 的卷积生成热图。改进后的 HRNet 网络结构如图 4所示。图 3 改进后的瓶颈残差模块图 4 改进后的 HRNet 网络结构3 实验结果与分析3.1 实验配置实验环境为 Ubun
18、tu 18.04.5 LTS 操作系统,使用Python3.8 作 为 编 程 语 言,深 度 学 习 框 架 为 Py-torch1.7.0,CPU 为 Intel(R)Xeon(R)Gold 5320,频率 2.20 GHz,内 存 32 GB,GPU 为 NVIDIA RTX A4000,显存 16 GB。88谷学静,等:引入注意力机制的高分辨率人体姿态估计http /3.2 数据集及评价指标在 MPII 数据集上进行实验,MPII 数据集是从YouTube 视频中提取出来的,共有 25 000 张左右的图像,包含 40 000 个不同的人体实例。数据集共标注了16 个人体关键点。本文使
19、用 PCKh(Head-Normalized Probability of Correct Keypoint)评价模型在 MPII 数据集上的表现。预测的关键点坐标与真实关键点坐标如果小于 l 则认为预测结果正确,其中 是一个常数,l 是真实头部包围框对角线长度的 60%。PCKh 0.5 表示=0.5时,PCKh 的得分。3.3 实验参数设置实验前的参数设置如下:设置损失函数为均方误差,优化器为 Adam。批训练数量设置为 32,网络共训练 230 轮。初始学习速率为 10-3,在 170 轮和 200 轮时学习速率分别下降为 10-4和 10-5。3.4 实验验证分析对比了改进前后的高分辨
20、率网络以及 Simple Baselines 在 MPII 校验集的实验结果。如表 1 所示。表 1 中 HRNet-W32 和 HRNet-W48 为 HRNet 网络的两种情况,分别对应网络中第二阶段最高分辨率起始处特征图的通道数 C=32 和 C=48。实验中将 Simple Baselines 分为三种情况:SimpleBaseline-50、Simple-Baseline-101 和 SimpleBaseline-152,分别对应 Simple Baselines 前半部分的三种不同的骨干网络:ResNet-50、ResNet-101 和 ResNet-152,尾号“50”、“101
21、”和“152”代表 ResNet 的网络层数。由于网络模型没有在 ImageNet 数据集上进行预训练,因此,表 1 中的模型均在不加载预训练模型的前提下进行性能比较。文献15指出,在人体姿态估计中,相较于头部附近的关键点,腰部和腿部上的关键点更难以检测。本方法在通道数 C=32 时,相较于 HRNet-W32,平均准确率提高了 0.8%,并且在一些不容易检测的人体关键点,例如人的手腕、髋部、膝盖和脚踝,准确率分别提高了 0.9%、1.7%、0.8%和 0.8%,同时相较于SimpleBaseline-50、SimpleBaseline-101 和 SimpleBase-line-152 三种
22、方法,平均准确率分别提升了 2.2%、1.6%和 1.0%,在手腕、髋部、膝盖和脚踝处的准确率也有较大提升。本方法在 C=48 时,与 HRNet-W32相比,平均准确率提高了 1.2%,在手腕、髋部和脚踝处的准确率分别提高了 1.5%、1.7%和 2.1%,与 Sim-pleBaseline-50、SimpleBaseline-101 和 SimpleBaseline-152 相比,平均准确率提高了 2.6%、2.0%和 1.4%,同时与 HRNet-W48 相比,本方法在膝盖和脚踝处的准确率有较大的提升,分别提高了 1.1%、1.0%,平均准确率提高了 0.5%。表 1 不同方法在 MPI
23、I 校验集上的实验结果(PCKh 0.5)单位:%MethodsHeadShoulderElbowWristHipKneeAnkleMeanSimpleBaseline-5096.394.687.581.487.282.377.887.3SimpleBaseline-10196.694.688.181.687.583.779.487.9SimpleBaseline-15296.795.288.983.088.183.979.588.5HRNet-W3297.095.389.384.186.884.780.788.7Ours(C=32)97.295.689.885.088.585.581.589
24、.5HRNet-W4897.295.389.985.588.185.081.889.4Ours(C=48)97.295.790.185.688.586.182.889.9表 2 不同方法的参数量(#Params)和计算量(GFLOPs)比较Methods#ParamsGFLOPsMeanSimpleBaseline-5034.0M12.087.3SimpleBaseline-10153.0M16.587.9SimpleBaseline-15268.6M21.088.5HRNet-W3228.5M9.588.7Ours(C=32)28.5M9.089.5HRNet-W4863.6M19.589.
25、4Ours(C=48)63.5M19.089.9在模型参数量方面,在 C=32 的情况下,改进后的方法在参数量上与 HRNet-W32 相近,相较于 Sim-pleBaseline-50、SimpleBaseline-101 和 SimpleBaseline-152 三种方法,参数量分别下降了 16.2%、46.2%和58.5%。在模型计算量方面,相比 HRNet-W32,改进后的方法下降了 0.5GFLOPs,相较于 SimpleBaseline-50、SimpleBaseline-101 和 SimpleBaseline-152 下降了25%、45.5%和 57.1%。在 C=48 时,特
26、征图通道数的增加提高了准确率,也使模型参数量与计算量增加,但相较于 HRNet-W48,改进后的方法在 C=48 时参数量下降了 0.1 M,模型计算量下降了 0.5GFLOPs。由此可见,改进后的方法在不增加模型参数量和计算量的情况下仍然提高了人体姿态估计的准确率。98谷学静,等:引入注意力机制的高分辨率人体姿态估计http /3.5 可视化结果分析图 5 展示了改进后的 HRNet 人体姿态估计方法(C=32)在 MPII 数据集上的可视化结果,图 5 中红色的点表示人体关键点的位置,蓝色的线是人体关键点之间的连线。可视化结果表明,改进后的 HRNet 人体姿态估计在不同背景、不同拍摄角度
27、和人体关键点遮挡的情况下均有较好的表现。图 5 改进后的 HRNet(C=32)在 MPII 数据集上的可视化结果4 总结人体姿态估计已经成为当前计算机视觉中重要的研究领域。以 HRNet 为主干网络,同时结合卷积核的注意力机制 SKNet,使用选择性卷积核替代瓶颈残差模块中的 33 卷积核,并将改进后的瓶颈残差模块应用于 HRNet 网络的第一阶段,使神经元根据输入信息的不同尺度自适应的调整感受野。在 MPII 数据集上的实验表明,改进后的模型在不提升计算量和参数量的情况下,相比 HRNet 和其他人体姿态估计网络提升了准确率。未来的人体姿态估计研究中,在保证参数量和计算量不显著增加的前提下
28、提升准确率将是研究的重点。参考文献1 罗梦诗,徐杨,叶星鑫.基于轻量型高分辨率网络的被遮挡人体姿态估计J.武汉大学学报(理学版),2021,67(05):403-410.2 卢健,杨腾飞,赵博,等.基于深度学习的人体姿态估计方法综述J.激光与光电子学进展,2021,58(24):69-88.3 渠涵冰,贾振堂.轻量级高分辨率人体姿态估计研究J/OL.激光与光电子学进展:1-152022-03-07.4 张越,黄友锐,刘鹏坤.引入注意力机制的多分辨率人体姿态估计研究J.计算机工程与应用,2021,57(8):126-132.5 刘勇,李杰,张建林,等.基于深度学习的二维人体姿态估计研究进展J.计
29、算机工程,2021,47(3):1-16.6 Toshev A,Szegedy C.Deeppose:Human pose estimation via deep neural networksC/Proceedings of the IEEE conference on computer vision and pattern recognition.2014:1653-1660.7 Xiao B,Wu H,Wei Y.Simple baselines for human pose estimation and trackingC/Proceedings of the European con
30、ference on computer vision(ECCV).2018:466-481.8 He K,Zhang X,Ren S,et al.Deep residual learning for image recognitionC/Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.9 Sun K,Xiao B,Liu D,et al.Deep high-resolution repre-sentation learning for human pose es
31、timationC/Proceed-ings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:5693-5703.10 张宸嘉,朱磊,俞璐.卷积神经网络中的注意力机制综述J.计算机工程与应用,2021,57(20):64-72.11 Hu J,Shen L,Sun G.Squeeze-and-excitation networksC/Proceedings of the IEEE conference on computer vi-sion and pattern recognition.20
32、18:7132-7141.12 Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attention moduleC/Proceedings of the European confer-ence on computer vision(ECCV).2018:3-19.13 Li X,Wang W,Hu X,et al.Selective kernel networksC/Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition.2019:510-519.14 Xie S,Girshick R,Dollr P,et al.Aggregated residual transformations for deep neural networksC/Proceedings of the IEEE conference on computer vision and pattern rec-ognition.2017:1492-1500.15 李坤,侯庆.基于注意力机制的轻量型人体姿态估计J/OL.计算机应用:1-92022-03-07.09谷学静,等:引入注意力机制的高分辨率人体姿态估计