基于YOLOPose的人体姿态估计轻量级网络.pdf

资源描述

1、第卷第期年月沈阳理工大学学报收稿日期:基金项目:辽宁省自然科学基金指导计划项目()作者简介:王红霞()女教授博士研究方向为人工智能与云计算、物联网与网络技术文章编号:()基于的人体姿态估计轻量级网络王红霞李枝峻顾鹏(沈阳理工大学信息科学与工程学院沈阳)摘要:为解决人体姿态估计模型在提升预测精度时参数量和计算量增多导致模型运行效率低下的问题在模型基础上设计出一种轻量级人体姿态估计网络选择轻量级网络重新构建骨干网络保持特征丰富性同时加快特征提取速度调整特征融合层通道数并添加注意力机制进行跨通道交互实现模型轻量化与准确度的平衡引用损失函数降低几何因素的惩罚增强

2、模型的鲁棒性和泛化能力实验结果显示在数据集上改进后模型对比原始模型在保持一定准确度的情况下模型参数量和计算量分别降低.和.有效降低了模型运算复杂度关键词:人体姿态估计注意力机制中图分类号:.文献标志码:./.():.:人体姿态估计是计算机视觉领域中对图片中人体关键点进行定位在视频监控、智能驾驶等领域有着重要作用随着神经网络的迅猛发展基于深度学习的多人姿态估计网络通常分为由下至上和由上至下两类年等提出了一种由下至上的网络该网络在网络末端添加了一个高效反卷积模块并采用了多分辨率训练以及热图聚合策略从而有效地解决了小人物关键定位不准确的问题年等提出了解耦关键点回归()网络通过

3、多个并行分支结构对每个关键点独立进行特征提取和回归实现了关键点之间的解耦同年等对网络进行改进并提出了网络该网络将多分辨率并行设计以及局部窗口自注意力引入并在前馈神经网络中添加卷积操作有效实现了断开连接的图像窗口之间的信息交换此外等提出了一种名为的模型该模型将变换神经网络引入人体姿态估计能够捕获人体各部位的全局空间依赖关系提高了模型识别准确度上述人体姿态估计网络虽提升了关键点定位准确度但同时模型参数量或计算量也随之增加致使模型运行效率低下无法有效作用于实时性设备因此本文重点研究如何使模型在具有较高关键点定位准确度的前提下有效减少模型参数量和计算量模型改进是一种无热度图端到端单

4、阶段的联合检测方法与自上而下方法相比该模型不需要通过目标检测算法以及单人姿态估计网络进行关键点定位也不同于基于热度图的自下而上方法其关键点后处理与多个前向传播被取消该模型在一次前向传播中联合检测出多人边框以及相应人体关键点每个人体边框都对应一个人体姿态从而形成单人关键点的固有分组因此本文选择模型并进行如下改进)选择轻量级网络作为骨干网络加快特征提取速度)使用损失函数评估网络边框损失)添加高效通道注意力机制保证网络识别准确度.改进网络总体架构本文对原始模型具体做出如下改进为实现特征提取网络轻量化本文删除了原始模型骨干网络最后一个模块将删除了最后一层池化以及三个二维卷积的轻量

5、级网络作为新的骨干网络保留了原始模型中特征提取网络的空间金字塔池化()层随后将不同尺度输出特征经过上采样输入到特征融合层中为进一步减少模型参数量本文将特征融合层的卷积与模块通道数由、分别对应调整为、同时为保持识别准确度在特征金字塔()结构的上采样以及金字塔注意力()结构的卷积模块之前添加了注意力机制最后为更好评估模型性能本文使用损失函数替换原有边框损失函数其改进后总体网络架构如图所示.骨干网络改进原始模型使用骨干网络其首先会通过对输入图片进行切片操作其次使用个卷积及模块对输入特征进行不同尺度特征提取其中模块由个卷积模块与个残差块组成模块将输入特征映射为两部

6、分并通过跨阶段层次使用通道拼接操作进行合并最后对输入特征进行一次卷积后分别经过、以及的池化并将不同池化输出特征与卷积输出特征进行通道拼接综上可知骨干网络主要由、和模块构成带来了较大计算量特征提取速度较慢因此本文选择轻量级网络替换原有骨干网络使得模型轻量化的同时保证网络的特征提取能力有与两个版本本文将作为新的骨干网络其具体原理如下首先网络将模块作为基本单元进行神经网络搜索使得不同模块具有不同的宏观结构并使用算法对结构进行微调减小了扩充层与每层的大小第期王红霞等:基于的人体姿态估计轻量级网络图改进后总体网络架构图.图的单元.模块结构如图所示其次网络加入

7、了注意力机制结构如图所示图中、分别为输入特征、卷积操作的结果特征、通道赋权操作的结果特征、分别代表输入特征宽、高与通道数、则表示卷积操作之后的特征宽、高与通道数图中为一系列卷积操作()表示全局平均池化操作()是指非线性变换操作()代表通道赋权操作注意力机制首先对输入特征进行卷积与全局平均池化操作然后将尺寸为()的向量输入激活函数分别为与的两个全连接层最后与输入特征进行相乘操作使得特征图在通道数不变的情况下每个通道具备不同的权重并让其值保持在区间图注意力模块.最后基于函数重新设计出瓶颈残差激活函数函数与函数分别为()()()()()()并使用函数取代结构原有函数消除

8、指数运算对模型运算速度的影响函数和函数分别为()()()()().特征融合网络改进随着神经网络的层次加深提取到的特征语义信息越加丰富但特征位置信息也会逐渐丢失采取与来解决此问题首先将输入特征图送入结构经过卷积和上采样操作随后与骨干网络不同尺度输出特征进行融合并送入模块反复迭代使其深层特征图包含更强的位置信息最后结构通过下采样加强特征图语义信息并融合两个特征使不同尺度特征图充分保留了语义与位置信息在原有特征融合结构基础上加深了一层但增强特征融合能力的同时模型计算量和参数量也随之增多因此本文对特征融合层卷积通道数做出调整并添加注意力机制保证模型的识别精度注意力机沈阳

9、理工大学学报第卷制是一种改进的网络其在基础上提出了无降维局部交叉信道交互策略结构如图所示图中为自适应一维卷积核大小表示激活函数图注意力模块.将原有中全连接层替换成一维卷积在避免维度缩减的同时捕获部分通道信息减少了模型参数具体原理如下首先对输入特征进行全局平均池化其次通过自适应大小为的一维卷积及激活函数得到通道权重并与输入特征进行通道相乘操作得到加权后的特征图决定值自适应大小函数形式为 ()()()式中:为自适应一维卷积核大小和决定了与的比例值设置为值为表示取奇数操作.损失函数替换损失包括边框、关键点位置以及置信度损失其总损失公式为()()式中

10、:为对象分割区域平方根分别代表真实边框横纵坐标表示尺度的第个锚框、分别代表总损失、边框损失、关键点位置损失以及关键点置信度损失、表示不同损失权重默认值为.边框损失采取损失函数评估边框损失损失函数公式形式为 ()()式中:分别代表预测及真实边框坐标是预测与真实框中心点欧式距离为包含预测和真实框的最小框对角线长度表示预测框与真实框交并比为权重函数为长宽比相似性度量.关键点位置以及置信度损失人体关键点标签为预测结果为其中为标签及预测关键点序号分别代表第个关键点横轴、纵轴坐标为第个关键点标签可见性标志表示未标记表示标记被遮挡表示标记未遮挡为第个关键点的预测置信度

11、关键点损失包括位置损失以及置信度损失基于热度图的自底向上人体姿态估计网络使用的损失函数未考虑目标尺度与关键点类型对损失的影响无法有效评估关键点损失而关键点相似度()损失预测关键点和真实关键点的接近程度是一个与损失类似的相似性度量尺度不变且不会造成梯度消失更适用于估计关键点损失损失值介于和之间计算公式为 ()式中:表示第个关键点表示第个真实与预测关键点欧式距离是指第个关键点权重置信度损失是基于可见性标志进行训练的可见性标志大于的关键点标签置信度记为反之为其计算公式为()()式中表示二分类交叉熵损失函数.损失数据集中低质量图片会加重损失函数对锚框中心点距离以及纵横比的惩

12、罚从而降低模型的泛化能力针对此问题本文删除了原有边框损失函数并引入新的函数评估边框损失损失函数计算公式为()()式中:为调节因子值越大代表模型在低质量图片上的聚焦度更高为单调聚焦系数表示单调聚焦系数为非零自然数为归一化因子表示基于距离度量构建出的具有两层第期王红霞等:基于的人体姿态估计轻量级网络注意力机制的损失函数函数能够在值较大时降低对几何距离的惩罚公式为()式中:为交并比损失函数的作用是放大普通质量锚框的损失函数是基于损失函数的交叉熵单调聚焦机制所构建的单调聚焦系数与损失函数所提出的函数不仅继承了损失函数的优点且引入了归一化因子均值解决了损失函数在训练过程

13、中因单调聚焦系数减小而导致后期收敛速度慢的问题从而能够更好地评估边框损失实验与分析.实验数据和环境本文所有实验均基于表环境运行采用公共数据集该数据集存在严重的人体遮挡以及复杂背景是多人姿态识别领域最具挑战性的数据集之一包含张图片标注人体姿态实例个训练前使用、等方式进行数据增强设置初始学习率为.预热学习率为.批次大小为训练轮数为采用平均准确度、参数量及运算量对模型性能进行评价表实验环境名称相关配置操作系统.内存 ()软件环境.加速库.消融实验为比较不同方法对模型性能的影响进行消融实验所有实验输入图片尺寸均为实验参数与环境保持一致实验结果见表表消融实验结果对比实验序列

14、/参数量/.首先由表中实验和实验的对比结果可知在采用轻量级骨干网络并减少特征融合层通道数的情况下模型的准确度小幅下降但模型参数量和计算量分别下降了.和.其次实验和实验的结果表明添加注意力机制以及损失函数后模型识别准确度变化不大但并未引起参数量和计算量增多从实验的结果看在实验基础上单独加入注意力机制能够使预测准确度提升.实验的结果显示与加入注意力机制相比引入损失对轻量化模型识别准确度提升尤为明显其准确度上升了.最后将注意力机制与损失函数同时加入轻量化模型结果如实验所示模型预测准确度相比实验和有了更大的提高消融实验数据表明优化之后的模型在保持较高准确度的同时参

15、数量和计算量均有明显降低模型运行效率得到了有效提升.对比实验本文在数据集上对沈阳理工大学学报第卷和本文提出的模型进行了测试并与、模型进行了比较其中、为自上而下的方法而、采用由下至上的方法对比结果见表实验结果表明相比目前主流的姿态估计模型本文提出的模型不仅在和分别高.和.而且参数量和计算量分别减少.和.与模型相比本文模型的预测精度有所下降但网络模型参数量和计算量分别减少.和.同时对比模型本文模型在预测精度上减少.但在上获得了.的精度增长参数量和计算量降低.与.此外虽然自上而下的模型在上比本文模型更具竞争力但本文模型在上仅下降.且参数量和计

16、算量降低了.和.算法运算效率更高最后本文对比原始模型在精度下降.、降低.的情况下参数量和计算量分别减少了.和.综上可得本文提出的模型对比原始模型性价比更高且在保持一定准确度的情况下模型参数量和计算量大幅低于目前主流的自下而上和自上而下方法有效降低了模型参数量和运算复杂度表不同算法结果对比模型序列检测模型/参数量/.效果展示为验证改进后模型性能本文对预测结果进行了可视化图和图分别是部分图片标签及预测结果两组图片分别包含单人、双人以及多人且存在人体遮挡、部位缺失等特点从图中可见单人标签的个关键点能预测出来且构成了一副完整的人体骨骼边框置信度达.其次虽然图双人图片存在人

17、体遮挡但改进后的模型也能够比较准确地预测出遮挡关键点边框置信度分别为.和.图第三张图片背景为街道且存在人群拥挤关键点遮挡人体部位缺失等特点预测结果如图第三张图片所示改进后模型不仅预测出小女孩的关键点与身后被遮挡男子的关键点且对于缺失人体部分模型也识别出存在部位关键点并进行了连接通过可视化分析可知改进后模型在大幅降低参数量和计算量后对多人姿态估计依然有着较好的识别效果图不同场景标签图.图不同场景预测结果图.第期王红霞等:基于的人体姿态估计轻量级网络结论针对目前人体姿态估计方法为提升模型准确度导致模型深度加深从而使模型参数量与计算量增多、模型运行效率低下的问题给出了一系列的改进方

18、案本文使用将骨干网络轻量化调整通道数并引入高效注意力机制同时采用了损失函数评估模型损失实验表明对比原始模型以及其他多人姿态估计方法本文模型参数量和计算量明显减少同时保证了一定的模型识别准确度具备较强的泛化性和鲁棒性更易作用于实时性设备参考文献():.:/().:./().:.:/.:.:/./.:/().:.:/().:.张上陈益方王申涛等.基于的改进舰船目标检测算法/.电光与控制:.:/././.:.:/./.()./.:.:/().:.赵宏冯宇博.一种基于的交通标志检测研究/.计算机工程:././././.:./././.().:/.:.:/./.:.:/.:.:/./.(责任编辑:和晓军)沈阳理工大学学报第卷

展开阅读全文