ImageVerifierCode 换一换
格式:PDF , 页数:9 ,大小:3.97MB ,
资源ID:2341200      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2341200.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于深度学习的交互笔关键点估计研究.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于深度学习的交互笔关键点估计研究.pdf

1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于深度学习的交互笔关键点估计研究朱兴帅1,2,叶彬1,2,姚康1,2,丁上上1,2,徐道亮1,2,付威威1,2(1.中国科学技术大学 生物医学工程学院(苏州),江苏 苏州 215000;2.中国科学院苏州生物医学工程技术研究所,江苏 苏州 215000)摘要:虚拟现实技术应用领域广泛,但现有交互方式不能满足使用者精细化操作的需求。通过交互笔可实现三维空间的精确输入,提升生产力效率。设计基于单目 RGB 图片的两阶段交互笔关键点估计模型 PKPD-Net。通过CBAM-SHN 网络得到二维关键点信息,利

2、用笔的二维姿态特征进一步回归出关键点三维位置信息。该模型使用CBAM 模块改进融合方式、基于 Offset的关键点亚像素定位、辅助手部关键点预测等方法,实现高精度的笔上关键点三维估计,为通过交互笔进行精细化操作提供准确的位置信息。在大规模数据集上进行实验和验证,结果表明,相较于 Minimal-hand与 HOPE-Net模型,该模型预测关键点的 mean_EPE 分别降低 0.882和 0.710 mm,PSF4分别提升 31.38和 32.31个百分点。最后,为探索产业级应用,结合 PKPD-Net进行应用开发,通过时序关联实现操作轨迹的复原。关键词:虚拟现实;精细操作;深度学习;关键点估

3、计;特征融合开放科学(资源服务)标志码(OSID):中文引用格式:朱兴帅,叶彬,姚康,等.基于深度学习的交互笔关键点估计研究 J.计算机工程,2023,49(10):22-30.英文引用格式:ZHU X S,YE B,YAO K,et al.Research on key point estimation of interactive pen based on deep learning J.Computer Engineering,2023,49(10):22-30.Research on Key Point Estimation of Interactive Pen Based on De

4、ep LearningZHU Xingshuai1,2,YE Bin1,2,YAO Kang1,2,DING Shangshang1,2,XU Daoliang1,2,FU Weiwei1,2(1.School of Biomedical Engineering(Suzhou),University of Science and Technology of China,Suzhou 215000,Jiangsu,China;2.Suzhou Institute of Biomedical Engineering and Technology,Chinese Academy of Science

5、s,Suzhou 215000,Jiangsu,China)【Abstract】Virtual Reality(VR)is widely used in various fields.However,the need for refined operations can not be met when using existing interaction methods.Using an interactive pen can achieve an accurate input of 3D space and enhance productivity efficiency.Thus,this

6、study proposes a two-stage key point estimation algorithm of interactive pen based on a single RGB picture,PKPD-Net.In particular,the 2D key points are first estimated using the Convolutional Block Attention Module-Stacked Hourglass Network(CBAM-SHN).Then,the location information of 3D key points is

7、 calculated based on the 2D posture characteristics.This model proposes an improved fusion method based on the CBAM modules,sub-pixel positioning of key points based on Offset,and auxiliary estimation through the key points of supplementary hands.As a result,it achieves a highly precise estimation o

8、f the 3D key points.This provides accurate location information for refined operations through interactive pens.The model training and testing are performed on numerous datasets.The PKPD-Net achieves a mean End Point Error(mean EPE)of the key points that is lower by 0.882 and 0.710 mm,compared to th

9、at obtained using Minimal-hand and HOPE-Net models,respectively.Moreover,the Percentage of Success Frame with less than 4 mm(PSF4)of key points achieved using the proposed model is higher by 31.38 and 32.31 percentage points,respectively.Thus,the method proposed in this study proves to be more advan

10、ced and effective than the existing methods.Finally,to explore the product applications,PKPD-Net is used to recover the operating trajectory through a time-sequential association.【Key words】Virtual Reality(VR);refined operation;deep learning;key point estimation;feature fusionDOI:10.19678/j.issn.100

11、0-3428.0066469基金项目:中国科学院青年创新促进会项目(E1290301)。作者简介:朱兴帅(1997),男,硕士研究生,主研方向为计算机视觉、图像处理;叶 彬、姚 康、丁上上,硕士研究生;徐道亮,博士研究生;付威威(通信作者),研究员、博士研究生。收稿日期:2022-12-08 修回日期:2023-02-02 Email:热点与综述文章编号:1000-3428(2023)10-0022-09 文献标志码:A 中图分类号:TP3910概述目前,低成本消费级虚拟现实(Virtual Reality,VR)产品将 VR 技术迅速推向市场,并且在医疗、制造、军事等各行业获得深度开发与应用

12、1,但现有的手套和手柄 5 mm 左右的定位精度无法满足人们在VR 中对微小动作和精细化交互的要求。在进行诸如书写、绘画、注释等交互任务时,转动手腕利用交互笔就能够提供更细致的输入,并不需要操作手柄那样大幅摆动手臂。在二维平面内,Wacom 等品牌的触控笔已经能够实现亚毫米级的定位,但由于缺乏广泛平面的灵活性且不支持空中技术,从而将其操作范围限定在了纸面框定的二维平面内。利用交互笔实现三维空间的精细交互,可以提供更高维度的操作空间,帮助外化思维2,因此具有良好的应用场景。但目前技术实现上依然存在着难度,其中能否精确定位笔的 3D 空间位置信息是通过交互笔进行虚拟精细化交互的重要基础。当前,较为

13、成熟的SteamVR 定位方案采用基站与定位器配合追踪,不仅造价昂贵,而且随着使用时间加长,结构易磨损,导致定位精度下降。传统的光学定位方案容易受遮挡情况和环境亮度的影响,通常需要多相机支持。近年来,深度学习迅速发展,并在目标检测3-4、语义分割5-6等领域取得了丰硕的成果。利用深度学习识别定位笔的 3D 关键点相比上述定位方式具有上限高、成本低、适用性强等优点。利用深度学习进行三维关键点估计主要有 2 种方式:基于端到端的三维关键点估计和基于两阶段的三维关键点估计。人体关键点检测、手部关键点检测与笔关键点检测本质上是相通的,即解算各关键点因目标的外部自由度或内部自由度而多变的状态空间,三者之

14、间可以相互迁移应用7。由于与笔关键点检测相关的工作较少,因此本文着重介绍人体、手部关键点检测以及手部-物体联合关键点检测的研究进展。在基于端到端的三维关键点估计方法中,网络通过原始图像直接回归出三维姿态。在相关研究中:WANG 等8将人体三维关键点表示为 2.5D 中心点 和 关 键 点 偏 移,较 好 地 预 测 了 深 度 信 息;PAVLAKOS 等9沿用二维关键点估计的热图思想,使用三维的体积热图来表示人体关键点,利用端到端的全卷积网络回归三维关键点;SUN 等10在三维热图回归人体三维坐标点时,利用积分回归方法代替原来的取最大值操作,避免了一定的量化误差;ZHAN 等11通过规范化坐

15、标系空间的三维光线估计人体三维姿态,减轻了相机固有参数变化带来的影响;CHEN 等12通过基于多任务学习的方式同时估计手的三维姿态与形状;LIU 等13使用 Transformer和联合学习框架从 RGB 图片中联合预测手部-物体姿态。基于端到端的方法虽然可以直接从二维图像中得出三维坐标,但模型泛化性不强,在实际应用中预测效果不稳定。在基于两阶段的三维关键点估计方法中,网络先通过二维关键点估计方法从原始图像中估计出二维关键点或二维热图,再由这些二维姿态特征进一步回归三维关键点。在相关研究中:MARTINEZ等14将使用二维关键点坐标标注的数据集作为网络输入,通过全连接网络直接回归人体三维关键点

16、坐标;LI等15利用三维姿态的二维重投影选择最佳的人体三维关键点;CHEN 等16先预测人体的二维关键点坐标,再通过最近邻匹配方法找到最优的三维表示;ZIMMERMANN 等17使用基于检测的网络生成 2D 热图并预测二维手部关键点坐标,然后通过基于回归的网络回归出三维关键点;MUELLER 等18使用残差网络预测手部二维关键点和三维关键点,并 通 过 3D 到 2D 的 重 投 影 技 术 进 行 优 化;ZHOU等19利用热图表示和积分训练预测三维关键点;DOOSTI等20使用轻量级网络估计手部和物体顶点的二维坐标,再通过图卷积网络将二维坐标转化为三维。两阶段方法是建立在二维关键点估计的基

17、础上对三维关键点进行回归的,当前二维关键点估计研究发展成熟,能够提供蕴含三维信息的精确二维姿态特征,更利于三维关键点的高精度估计。本文提出基于单目 RGB 图片的两阶段交互笔关键点估计网络 PKPD-Net,用于识别定位笔上的3D 关键点。在笔的二维关键点估计阶段,通过使用CBAM 模块改进融合方式,基于 Offset 偏移量定位关键点亚像素,并利用辅助手部关键点预测方式约束笔的位置,从而优化网络提取的语义信息,减少精度丢失,提升二维关键点估计的准确度。二维关键点估计网络 CBAM-SHN 编码生成关键点热图,其本质为每个像素点作为预测关键点的概率图。将经Offset偏移后的热图与上阶段提取的

18、特征图级联作为三维关键点估计网络的输入,突出关键点准确位置信息并排除冗余信息的干扰,经网络特征提取后,回归出更精确的笔关键点三维空间坐标。1本文方法1.1总体网络PKPD-Net 第一阶段以堆叠沙漏网络(Stacked Hourglass Network,SHN)为骨架网络,通过 CBAM注意力机制改进沙漏模块融合方式,解决网络在编码-解码过程中丢失网络浅层定位信息的问题。采用基于 Offset 偏移量的关键点亚像素定位方式,在一定程度上解决二维关键点编码-解码时随着图片尺寸缩放产生的精度丢失问题。同时,采用辅助手部关键点预测的方式约束笔的空间位置,提取更准确的笔二维关键点信息。输入图片经 C

19、BAM-SHN网 络 产 生 编 码 关 键 点 热 图(Heat Maps)和 偏 移 图(Offset Maps),热图中每个像素点的值代表该点属第 49卷 第 10期朱兴帅,叶彬,姚康,等:基于深度学习的交互笔关键点估计研究0概述目前,低成本消费级虚拟现实(Virtual Reality,VR)产品将 VR 技术迅速推向市场,并且在医疗、制造、军事等各行业获得深度开发与应用1,但现有的手套和手柄 5 mm 左右的定位精度无法满足人们在VR 中对微小动作和精细化交互的要求。在进行诸如书写、绘画、注释等交互任务时,转动手腕利用交互笔就能够提供更细致的输入,并不需要操作手柄那样大幅摆动手臂。在

20、二维平面内,Wacom 等品牌的触控笔已经能够实现亚毫米级的定位,但由于缺乏广泛平面的灵活性且不支持空中技术,从而将其操作范围限定在了纸面框定的二维平面内。利用交互笔实现三维空间的精细交互,可以提供更高维度的操作空间,帮助外化思维2,因此具有良好的应用场景。但目前技术实现上依然存在着难度,其中能否精确定位笔的 3D 空间位置信息是通过交互笔进行虚拟精细化交互的重要基础。当前,较为成熟的SteamVR 定位方案采用基站与定位器配合追踪,不仅造价昂贵,而且随着使用时间加长,结构易磨损,导致定位精度下降。传统的光学定位方案容易受遮挡情况和环境亮度的影响,通常需要多相机支持。近年来,深度学习迅速发展,

21、并在目标检测3-4、语义分割5-6等领域取得了丰硕的成果。利用深度学习识别定位笔的 3D 关键点相比上述定位方式具有上限高、成本低、适用性强等优点。利用深度学习进行三维关键点估计主要有 2 种方式:基于端到端的三维关键点估计和基于两阶段的三维关键点估计。人体关键点检测、手部关键点检测与笔关键点检测本质上是相通的,即解算各关键点因目标的外部自由度或内部自由度而多变的状态空间,三者之间可以相互迁移应用7。由于与笔关键点检测相关的工作较少,因此本文着重介绍人体、手部关键点检测以及手部-物体联合关键点检测的研究进展。在基于端到端的三维关键点估计方法中,网络通过原始图像直接回归出三维姿态。在相关研究中:

22、WANG 等8将人体三维关键点表示为 2.5D 中心点 和 关 键 点 偏 移,较 好 地 预 测 了 深 度 信 息;PAVLAKOS 等9沿用二维关键点估计的热图思想,使用三维的体积热图来表示人体关键点,利用端到端的全卷积网络回归三维关键点;SUN 等10在三维热图回归人体三维坐标点时,利用积分回归方法代替原来的取最大值操作,避免了一定的量化误差;ZHAN 等11通过规范化坐标系空间的三维光线估计人体三维姿态,减轻了相机固有参数变化带来的影响;CHEN 等12通过基于多任务学习的方式同时估计手的三维姿态与形状;LIU 等13使用 Transformer和联合学习框架从 RGB 图片中联合预

23、测手部-物体姿态。基于端到端的方法虽然可以直接从二维图像中得出三维坐标,但模型泛化性不强,在实际应用中预测效果不稳定。在基于两阶段的三维关键点估计方法中,网络先通过二维关键点估计方法从原始图像中估计出二维关键点或二维热图,再由这些二维姿态特征进一步回归三维关键点。在相关研究中:MARTINEZ等14将使用二维关键点坐标标注的数据集作为网络输入,通过全连接网络直接回归人体三维关键点坐标;LI等15利用三维姿态的二维重投影选择最佳的人体三维关键点;CHEN 等16先预测人体的二维关键点坐标,再通过最近邻匹配方法找到最优的三维表示;ZIMMERMANN 等17使用基于检测的网络生成 2D 热图并预测

24、二维手部关键点坐标,然后通过基于回归的网络回归出三维关键点;MUELLER 等18使用残差网络预测手部二维关键点和三维关键点,并 通 过 3D 到 2D 的 重 投 影 技 术 进 行 优 化;ZHOU等19利用热图表示和积分训练预测三维关键点;DOOSTI等20使用轻量级网络估计手部和物体顶点的二维坐标,再通过图卷积网络将二维坐标转化为三维。两阶段方法是建立在二维关键点估计的基础上对三维关键点进行回归的,当前二维关键点估计研究发展成熟,能够提供蕴含三维信息的精确二维姿态特征,更利于三维关键点的高精度估计。本文提出基于单目 RGB 图片的两阶段交互笔关键点估计网络 PKPD-Net,用于识别定

25、位笔上的3D 关键点。在笔的二维关键点估计阶段,通过使用CBAM 模块改进融合方式,基于 Offset 偏移量定位关键点亚像素,并利用辅助手部关键点预测方式约束笔的位置,从而优化网络提取的语义信息,减少精度丢失,提升二维关键点估计的准确度。二维关键点估计网络 CBAM-SHN 编码生成关键点热图,其本质为每个像素点作为预测关键点的概率图。将经Offset偏移后的热图与上阶段提取的特征图级联作为三维关键点估计网络的输入,突出关键点准确位置信息并排除冗余信息的干扰,经网络特征提取后,回归出更精确的笔关键点三维空间坐标。1本文方法1.1总体网络PKPD-Net 第一阶段以堆叠沙漏网络(Stacked

26、 Hourglass Network,SHN)为骨架网络,通过 CBAM注意力机制改进沙漏模块融合方式,解决网络在编码-解码过程中丢失网络浅层定位信息的问题。采用基于 Offset 偏移量的关键点亚像素定位方式,在一定程度上解决二维关键点编码-解码时随着图片尺寸缩放产生的精度丢失问题。同时,采用辅助手部关键点预测的方式约束笔的空间位置,提取更准确的笔二维关键点信息。输入图片经 CBAM-SHN网 络 产 生 编 码 关 键 点 热 图(Heat Maps)和 偏 移 图(Offset Maps),热图中每个像素点的值代表该点属232023年 10月 15日Computer Engineerin

27、g 计算机工程于对应类别关键点的概率,每个类别关键点对应一个热图,将热图中响应值最大的像素点作为对应类别关键点的位置。偏移图表示距离对应类别关键点一定范围内的像素点与对应类别关键点之间的位置关系。PKPD-Net 第二阶段将上阶段提取到的特征图与经 Offset偏移后的热图级联,减少冗余信息干扰,同时提供更准确的关键点姿态信息,经多层卷积层在二维姿态特征中挖掘出有用的三维信息生成定位图(Location Maps)。定位图中的每个像素点都可以很好地反映出该点作为对应类型关键点的位置关系。通过查询 CBAM-SHN 解码出的二维关键点在定位图对应位置处的映射,即可得到最终的三维关键点信息。PKP

28、D-Net整体网络结构如图 1 所示(彩色效果见 计算机工程 官网 HTML版,下同)。1.2基于 Offset偏移量的亚像素定位及辅助手部关键点定位在进行关键点估计时,首先需要将关键点坐标编码成关键点的概率图,在回归结果时将关键点的概率图解码成输入图像的空间坐标。传统的关键点解码过程一般选取概率的最大激活点的坐标作为预测关键点坐标,但在编码过程中,下采样操作会带来一定的量化误差,最终导致得到的关键点坐标不够准确,影响网络性能。由于关键点概率 图 通 常 在 概 率 的 最 大 激 活 点 附 近 存 在 多 个 峰值,因此应从最大激活点到第二大激活点方向对估计结果进行经验补偿。上述 2 种方

29、式虽然在一定程度上减少了量化误差,但在图片尺寸缩放过程中依然存在较为严重的精度丢失现象。因此,本文采用基于 Offset 偏移量的关键点亚像素定位方式,如图 2 所示。CBAM-SHN 网络同时输出预测关键点热图H=h1h2hK和 预 测 关 键 点 位 置 偏 移 图O=o1o2oK,两者共同决定最终预测关键点坐标。图 1PKPD-Net网络结构Fig.1PKPD-Net network structure图 2基于 Offset偏移量的关键点亚像素定位Fig.2Sub-pixel positioning of key point based on Offset24第 49卷 第 10期朱兴

30、帅,叶彬,姚康,等:基于深度学习的交互笔关键点估计研究其中:oK=(oKxoKy)为网络学习到的编码过程中产生的量化误差;hK为关键点K对应热图。取热图最大响应处记为点p,则oKx(p)为关键点K在点p处的x方向位置偏移,oKy(p)为关键点K在点p处的y方向位置偏移。最终解码关键点坐标如式(1)所示:PK2D=(argmax hK+oK)(1)其中:为分辨率缩放因子。当手持物体交互操作时,手的姿态可以极大地限制所持物体的姿态,同时物体姿态也会限制手的姿态,手和物体的语义存在一定关联。因此,在手持交互笔进行精细操作时,手部姿态和笔的姿态会相互限制,两者存在一定的位置关系。在网络估计笔上关键点的

31、同时引入手部关键点辅助,为网络预测结果添加运动学约束,能够更精准地估计出笔上关键点的空间位置。1.3二维关键点估计1.3.1 堆叠沙漏网络SHN 是由 NEWELL 等21提出的用于姿态估计的神经网络。网络由多个堆叠起来的如图 3所示的沙漏模块组成,沙漏模块由类似 Inception22的残差块(Residual Block)23组成。SHN 可以提取融合多尺度及上下文信息的特征,与其他姿态估计方法相比,可以更好地预测物体位置信息。1.3.2 CBAM 注意力模块CBAM24是一种能够对特征图像特定区域局部 对 焦 的 注 意 力 模 块。对 于 任 意 一 个 给 定 特 征图,CBAM 利

32、用通道注意力和空间注意力在通道和空间 2 个独立维度上对特征图进行权重分配,然后将权重乘以输入特征映射,具体流程如图 4 所示,最终使网络加强对感兴趣区域的关注,并且抑制无用信息。1.3.3 CBAM-SHNSHN 模块的主路进行编码,获得尺寸逐渐缩小的特征图,逐步提取图像的高阶特征。在模块后半部分,逐步进行上采样,获得高阶高分辨率特征图。此外,SHN网络的跳级路进行特征图通道数调整,再将跳级路的输出和主路中对应尺寸的特征图进行特征融合。但是在特征融合时,很容易将与关键点预测无关的特征传入,造成冗余或者丢失与关键点定位相关的信息,影响最终的关键点定位精度。为解决无效特征融合并且增加网络对关键点

33、定位信息的关 注,本 文 引 入 CBAM 模 块 改 进 融 合 方 式,提 出CBAM-SHN 二维关键点估计网络,对不同特征进行重要程度取舍,并学习特征的融合权重,提高关键点的定位精度。CBAM-SHN网络结构如图 5所示。图 3Hourglass Module网络结构Fig.3Hourglass Module network structure图 4CBAM 网络结构Fig.4CBAM network structure252023年 10月 15日Computer Engineering 计算机工程1.4三维关键点估计三维关键点估计任务的核心在于如何从缺失深度信息的二维图像或者深度图

34、中估计深度信息。关键点的热图突出了关键点的位置信息,忽略了其他无关信息,关键点的特征图提取了图像特征,排除了冗余信息的干扰。因此,将第一阶段 CBAM-SHN 网络提取到的二维关键点特征图和经过 Offset偏移后的热图级联作为第二阶段网络的输入更为合理。三维关键点估计网络提取二维姿态特征中有用的三维信息预测生成定位图(Location Maps),其中每个像素值均编码了相应的关键点位置信息,定位图尺寸与热图相同。依据二维关键点估计阶段解码出的关键点K像素坐标(xKyK),在定位图中查找到K点对应像素点位置处的值作为深度方向映射,并通过相机内参计算得出最终的XK、YK,存为PK3D=(XKYK

35、ZK)。三维估计网络结构如图6所示。2损失函数和评价指标2.1损失函数均方误差(Mean Square Error,MSE)是预测值与目标值之间的差值平方之和。MSE函数常被用在回归问题中评估模型的损失,在关键点估计的基线方法中也使用该函数作为损失函数。MSE函数的计算公式如式(2)所示:MMSE=i=1n()fi-fi2n(2)其中:n为回归点个数;fi为第i个点的预测值;fi为第i个点的目标值。整体损失函数如式(3)所示:L=1Lheat+2L2D+L3DLheat=LMSE(HgHp)L2D=1Lhand+2LpenL3D=LMSE(Pgpen3DPppen3D)Lhand=LMSE(P

36、ghand2DPphand2D)Lpen=LMSE(Pgpen2DPppen2D)(3)其中:Lheat为二维热图的损失函数;L2D为二维关键点的损失函数;L3D为三维关键点的损失函数;1、2分别为前 2种损失函数的权重;Hg为热图标签;Hp为预测热图;Pghand2D、Pgpen2D分别为手和笔的二维真实坐标;Pphand2D、Pppen2D分别为手和笔的二维估计坐标;Pgpen3D为笔的三维真实坐标;Pppen3D为笔的三维估计坐标;LMSE为 MSE损失函数。本文将1和2设置为 0.1,以使二维误差(像素)和三维误差(mm)处于相似的范围内,将1设置为0.2、2设置为 1,对手和笔设置不

37、同的权重,达到手部关键点辅助估计的目的。2.2关键点评价指标二 维 关 键 点 评 价 指 标 为 平 均 终 点 误 差 均 值(mean End Point Error,mean EPE),单位为像素。该评价指标是计算测试集数据中所有关键点的预测坐标与真实坐标之间的平均欧几里得距离,可以反映模型对二维关键点的检测精准度,指标值越小,则关键点的二维预测精准度越高。二维关键点 mean EPE计算公式如式(4)所示:M2Dmean EPE=1ni=1n1Nj=1N(xpij-xgij)2+(ypij-ygij)2(4)其中:n为关键点个数;N为测试集总数;xpij、ypij为第i个点在第j张图

38、中的二维预测值;xgij、ygij为第i个点在第j张图中的二维真实值。三维关键点评价指标与 二 维 关 键 点 相 同,同 样 为 mean EPE,但 单 位 为mm,该评价指标可以反映模型对三维关键点的检测精准度,指标值越小,则关键点的三维预测精准度越高。三维关键点 mean EPE计算公式如式(5)所示:M3Dmean EPE=1ni=1n1Nj=1N(Xpij-Xgij)2+(Ypij-Ygij)2+(Zpij-Zgij)2(5)其中:n为关键点个数;N为测试集总数;Xpij、Ypij、Zpij为第i个点在第j张图中的三维预测值;Xgij、Ygij、Zgij为第i个点在第j张图中的三维

39、真实值。成功帧表示为单帧测试图像的所有关键点中估计值与真实值的三维距离误差的最大值小于设定阈值的测试帧。成图 5CBAM-SHN网络结构Fig.5CBAM-SHN network structure图 6三维关键点估计网络结构Fig.63D key point estimation network structure26第 49卷 第 10期朱兴帅,叶彬,姚康,等:基于深度学习的交互笔关键点估计研究功帧占比(Percentage of Success Frame,PSF)是计算测试集数据中成功帧总帧数占测试帧总帧数的比例,如 PSF4 是指阈值为 4 mm 时的成功帧比例。PSF 能更好地反映

40、出网络在设定阈值范围内检测关键点的综合精准程度,指标值越大,则关键点的整体三维预测效果越好。PSF计算公式如式(6)所示:t=max(Xp0-Xg0)2+(Yp0-Yg0)2+(Zp0-Zg0)2 (Xp1-Xg1)2+(Yp1-Yg1)2+(Zp1-Zg1)2)(Xpn-Xgn)2+(Ypn-Ygn)2+(Zpn-Zgn)2f(t)=1t0tPPSD=f(t)N(6)其中:n为关键点个数;Xpi、Ypi和Zpi为第i个点的三维估计值;Xgi、Ygi和Zgi为第i个点的三维真实值;为设定阈值;N为测试集总数。3实验及分析3.1实验数据集与实验设置实验通过双目相机采集多视角下的手持笔双目RGB图

41、片,通过 Labelme标注软件手动标注出每张图片中 23个关键点的二维像素坐标,再利用双目立体视觉的方法25计算出每个关键点的三维坐标。将双目相机的右视图作为数据集图片完成关键点的三维标注,其中训练集1 833张,测试集430张,共计2 263张RGB图片。23个关键点标注规则如图7所示。在 训 练 模 型 时,将 输 入 图 像 Resize 为 256256像素,同时使用平移、旋转、翻转、色彩转换等数据扩增技术,进一步增加数据多样性和数据总量。本文实验使用 Adam26优化器优化,初始学习率为 0.001,beta_1为 0.9,beta_2为 0.999。损失函数采用 MSE函数,训练

42、周期 epoch为 100,每批次送入网络的训练样本Batch_Size为16。实验环境如表1所示。3.2实验结果为了评估本文方法的先进性和有效性,实验对比了本文方法与其他先进关键点估计网络的精度、参数量与推理速度,实验结果如表 2所示。从表 2可以看出,本文方法对比文献 27 方法 mean EPE 降低了0.882 mm,PSF4 提升了 31.38 个百分点,对比文献 20 方法 mean EPE降低了 0.710 mm,PSF4提升了 32.31个百分点,在精度方面显著提高。本文方法在 mean EPE和 PSF4指标大幅提升的前提下,模型参数量与推理时间相较于 2个对比方法有一定增加

43、,但帧率依旧可以保持在 30帧/s以上,保证了精确输入轨迹的连续性,充分证明了本文方法的可行性。为了进一步研究本文方法估计的关键点精度范围,对 mean EPE进行分级。如表 3所示,将测试样本的 mean EPE 划分为 7 类,在 1.54.0 mm 范围内以0.5 mm 为间隔划分为 5 类,小于 1.5 mm 单独划分为一类,大于 4.0 mm 单独划分为一类。从表 3 可以看出:模型估计的关键点距离误差在 2.53.0 mm 区间的成功帧占比最多,为 22.56%;模型估计的关键点距离误差在小于等于 3.0 mm 的成功帧占比超过半数,为 54.64%;模型估计的关键点距离误差小于等

44、于4.0 mm 的累计成功帧占比为 85.80%。由此可见,本文方法在精度和鲁棒性上较为出色。图 723个关键点标注规则Fig.723 key points marking rules表 1实验软硬件配置 Table 1Software and hardware configuration of the experiment软硬件环境操作系统CPU内存/GBGPU显存/GB实验平台配置参数Windows 10 家庭版Intel CoreTM i5-10400F16NVIDIA GeForce RTX 306012Python 3.7.11+PyTorch 1.7.1表 2不同方法对比 Tabl

45、e 2Comparison of different methods方法Minimal-hand27HOPE-Net20本文方法参数量/1071.572.393.29mean EPE/mm3.3673.1952.485PSF4/%54.4253.4985.80GPU时间/s0.0250.0170.032272023年 10月 15日Computer Engineering 计算机工程利用本文方法和HOPE-Net20进行关键点估计的定性可视化结果如图 8所示,其中,图 8(a)、图 8(d)、图 8(g)分别是网络输入图片,图 8(b)、图 8(c)分别是本文方法和 HOPE-Net针对图 8

46、(a)的可视化估计结果,图8(e)、图8(f)分别是本文方法和 HOPE-Net针对图 8(d)的可视化估计结果,图 8(h)、图 8(i)分别是本文方法和 HOPE-Net针对图 8(g)的可视化估计结果。从图8可以看出,与 HOPE-Net方法相比,本文方法能够较为准确地估计出笔尖和笔尾的位置,定性可视化估计效果较优。3.3消融实验本文模型以堆叠沙漏网络作为基础网络进行改进,为了验证提出模型中每个关键模块的先进性和有效性,进行消融实验,实验结果如表 4所示,其中,“”表示模型包含这一模块。从表 4可以看出,与基础网络 SHN 对比,添加 CBAM 模块使 mean EPE 降低 0.887

47、 mm,添 加 Offset 方 法 使 mean EPE 降 低0.571 mm,使用辅助 21 个手部关键点估计的方法使mean EPE 降低 0.919 mm,将上述 3 个模块全部添加使 mean EPE 降低 1.723 mm。这是因为 CBAM 模块优化了融合的特征信息,基于 Offset 偏移量的关键点亚像素定位减少了量化误差,辅助手部关键点为笔的位置提供了约束,每个模块使二维关键点和三维关键点估计精度均得到提升。上述实验结果证明了每个改进模块的先进性和有效性。为探究网络关键超参数 SHN 数量对模型性能的影响,在不同 SHN 数量下进行实验,实验结果如表 5所示。从表 5可以看

48、出,在 SHN 数量由 1增加至2 后,网络 mean EPE 减少了 0.196 mm,PSF4 增加了 16.27个百分点。之后随着沙漏网络数量的增加,模型参数量在增加的同时,mean EPE 基本不再减图 8可视化估计结果对比Fig.8Comparison of visual estimation results表 4消融实验结果 Table 4Result of ablation experiment方法SHN本文方法CBAMOffset辅助手部21个关键点二维关键点mean EPE/像素2.2192.0302.1122.0091.828三维关键点mean EPE/mm4.2083.3

49、213.6373.2892.485表 3不同阈值的成功帧占比 Table 3PSF with different thresholdsmean EPE/mm0.01.51.52.02.02.52.53.03.03.53.54.04.0图片数量/张22417597765861对应阈值 PSF/%5.129.5317.4422.5617.6713.4914.19累计对应阈值PSF/%5.1214.6432.0854.6472.3185.80100.0028第 49卷 第 10期朱兴帅,叶彬,姚康,等:基于深度学习的交互笔关键点估计研究少,但 PSF4出现下降趋势,模型综合精准度下降,鲁棒性变差。3

50、.4书写实验对 PKPD-Net网络估计关键点进行应用开发,实现交互笔精细交互的有益探索。如图 9 所示,相机摆放在书写区域斜上方,利用白炽灯增加环境亮度,改善拍摄图片质量。通过相机采集使用者书写时的画面,将采集到的 1 9201 080像素的 RGB图片作为网络数据输入,利用 PKPD-Net 定位笔上关键点的三维空间坐标。随后将模型预测的笔尖三维坐标点根据时序依次连接,经贝塞尔曲线拟合实现定性可视化呈现。人手在桌面绘制矩形,复原的轨迹如图 9(d)所示;人手在桌面绘制曲线,复原的轨迹如图 9(e)所示;人手在空中按照由内向外由高到低绘制螺旋线,复原的轨迹如图 9(f)所示。图中可视化线段越

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服