1、收稿日期:2023-01-13摇 摇 摇 摇 摇 摇 修回日期:2023-05-16基金项目:黑龙江省教育科学“十四五冶规划重点课题(GJB1421114);黑龙江省自然科学基金项目(LH2020F003);黑龙江省高等教育教学改革重点委托项目(SJGZ20200037)作者简介:高维东(1995-),男,硕士生,研究方向为物体 6D 姿态估计;通信作者:林摇 琳(1982-),女,硕士,讲师,研究方向为增强现实与教育信息技术;刘贤梅(1968-),女,硕士,教授,硕导,研究方向为虚拟现实与媒体信息处理;赵摇娅(1980-),女,博士,副教授,研究方向为虚拟现实与媒体信息处理。基于特征融合和注
2、意力机制的物体 6D 姿态估计算法高维东,林摇 琳,刘贤梅,赵摇 娅(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)摘摇 要:针对物体 6D 姿态估计易受目标物体的弱纹理和小体积特性、复杂背景、遮挡的影响,提出一种结合特征融合和注意力机制的物体 6D 姿态估计算法。首先,在 RGB 图像特征提取网络的首个卷积块中加入卷积注意力模块,提升弱纹理小物体的区域显著度;其次,在基于编解码结构的 RGB 图像特征提取网络中引入基于卷积注意力模块的跳跃连接,有效地将编码阶段的颜色、纹理等细节外观特征融合到解码阶段的姿态语义特征中,弥补姿态语义特征缺乏细节外观特征的问题;然后,使用通道注意
3、力模块改进池化金字塔模块,增强目标物体可见区域与遮挡区域的联系,提升遮挡鲁棒性;最后,使用卷积注意力模块重构解码阶段输出的姿态语义特征,增强相似表面特征的区分度,从而降低外观相似物体对物体 6D姿态估计的干扰。实验结果表明,该算法在 Occlusion LINEMOD 数据集和 LINEMOD 数据集上 ADD(-S)指标分别达到73.4%和 99.8%,与 FFB6D 相比,分别提升 7.8 百分点和 0.1 百分点,验证了该算法的可行性。关键词:物体 6D 姿态估计;深度学习;特征融合;注意力机制;跳跃连接中图分类号:TP391.4摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇
4、摇 摇 文章编号:1673-629X(2023)12-0092-09doi:10.3969/j.issn.1673-629X.2023.12.013Object 6D Pose Estimation Algorithm Based on Feature Fusion andAttention MechanismGAO Wei-dong,LIN Lin,LIU Xian-mei,ZHAO Ya(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)Abstr
5、act:Object 6D pose estimation is easily affected by the weak texture and small volume characteristics of the target object,complexbackground,and occlusion.To solve the above problems,an object 6D pose estimation algorithm combining feature fusion and attentionmechanism is proposed.First of all,the C
6、onvolutional Block Attention Module is added to the first convolution module of the RGBimage feature extraction network to improve the regional saliency of small objects with weak texture.Secondly,the skip connection basedon Convolutional Block Attention Module is introduced into the RGB image featu
7、re extraction network based on the encoder-decoderstructure,which effectively fuses the detailed appearance features containing color,texture and others in the coding stage into the posesemantic features in the decoding stage to make up for the lack of detailed appearance features in the pose semant
8、ic features.Then,theChannel Attention Module is used to improve the Pyramid Pooling Module to enhance the connection between the visible area of thetarget object and the occluded area,and improve the occlusion robustness.Finally,the Convolutional Block Attention Module is used toreconstruct the feat
9、ures in the decoding stage rich in pose semantic information,so as to enhance the discrimination of similar surfacefeatures,thus reducing the interference of similar appearance objects on object 6D pose estimation.The experimental results show that theADD(-S)index of the algorithm on Occlusion LINEM
10、OD dataset and LINEMOD dataset reaches 73.4%and 99.8%respectively,which are 7.8 percentage points and 0.1 percentage points higher than that of FFB6D respectively,verifying the feasibility of the algo鄄rithm.Key words:object 6D pose estimation;deep learning;feature fusion;attention mechanism;skip con
11、nection第 33 卷摇 第 12 期2023 年 12 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.12Dec.摇 20230摇 引摇 言基于视觉的物体 6D 姿态估计从图像中检测目标物体,并估计其相对相机的位置姿态和旋转姿态,是视觉三维感知的核心问题之一,主要应用于增强现实、自动驾驶和智能机器人抓取等领域。真实场景的复杂背景、目标物体的弱纹理和小体积特性、物体间的相互遮挡,均给物体 6D 姿态估计带来巨大挑战。基于深度学习的物体 6
12、D 姿态估计根据输入的不同分为基于 RGB 图像的物体 6D 姿态估计和基于RGBD 图像的物体 6D 姿态估计,后者利用深度信息的几何特征消除物体比例歧义和区分相似物体,在精度上有显著优势。由于 RGB 图像和 D 图像属于不同模态,因此如何充分利用两种不同模态数据进行物体6D 姿态估计是一个值得研究的问题。根据 RGB 图像和 D 图像使用方式的不同,基于RGBD 图像的物体 6D 姿态估计分为级联的方法和融合的方法。早期工作多采用级联设计发挥 RGB 图像与 D 图像的优势。PoseCNN1和 SSD-6D2先使用CNN 从 RGB 图像提取姿态语义特征,预测物体初始姿态,再对 D 图像
13、使用迭代最近点算法(IterativeClosest Point,ICP)完成姿态优化。然而,ICP 优化姿态比较耗时,无法满足对实时性有需求的应用,同时,D 图像中的几何特征未得到充分使用。融合的方法将具有互补特性的 RGB 图像和 D 图像融合,姿态特征的语义信息表达能力更强,物体 6D 姿态估计精度更高、遮挡鲁棒性更强。根据融合阶段的不同,分为输入融合、输出融合和过程融合。摇 摇 输入融合将 RGB 图像与 D 图像进行简单地拼接操作,组成四通道图像后送入到 CNN 中同时提取外观特征和几何特征,具有充分利用数据的原始信息和计算量 要 求 低 的 优 点。iPose(instance-a
14、ware poseestimation)3使用 RGBD 图像编解码网络将物体像素映射到三维物体表面,计算物体 6D 姿态。然而由于两种数据的异构性,因此仅使用一个主干网络很难同时有效提取目标物体的外观特征和几何特征,并且,基于 D 图像的 CNN 特征提取存在“投影分解冶问题。在D 图像中,物理世界投影的三维结构通过一维的深度值及图像的二维像素坐标保持,CNN 中调整大小、翻转和池化等操作会破坏深度值和二维像素坐标的联系,影响物体几何特征的提取。点云的几何特征较 D 图像更加丰富,所以输出融合和过程融合中均先将 D 图像转换为点云,再使用两个独立的主干网络分别提取 RGB 图像的外观特征和点
15、云的几何特征。输出融合将两个主干网络的决策输出融合,再预测物体姿态,是一种模块化、灵活性高的方法。Dense鄄Fusion4、基于特征融合的 6D 目标位姿估计算法5和PVN3D6等先分别提取密集的外观特征和几何特征,然后将两种特征拼接融合,最后进行姿态估计。由于卷积运算的感受野有限,上述输出融合的算法难以编码目标物体区域的长程依赖关系,导致姿态语义特征缺乏目标物体的全局特征信息。基于位置依赖的密集融合的 6D 位姿估计方法7通过编码像素间的位置关系构建目标物体的长程依赖关系,增强算法辨识遮挡物的能力。但是输出融合忽略了中间层不同特征的互补作用,如相似外观的不同物体可以通过几何特征分辨,因物体
16、表面反射引起的深度缺失可以通过外观特征补充。过程融合在整个特征提取过程中进行融合,姿态特征 的 语 义 信 息 表 达 能 力 强。FFB6D(Full FlowBidirectional Fusion Network for 6D Pose Estimation)8在 RGB 图像和点云特征提取网络之间构建双向融合模块作为两个网络的通信桥梁,实现外观特征与几何特征的过程融合。然而 FFB6D 仍存在以下问题:(1)RGB 图像特征提取网络的首个卷积块仅负责通道调整,未抑制复杂背景;(2)FFB6D 的 RGB 图像特征提取网络分支为编解码结构,输出的姿态语义特征缺乏目标物体的细节外观特征;(
17、3)上下文信息存储了目标物体可见区域与遮挡区域的联系,FFB6D 使用池化金字塔模块(Pyramid Pooling Module,PPM)9同等程度地增添全局上下文信息和区域上下文信息,然而由于目标物体的大小不同、遮挡情况不同,因此这些上下文信息的重要程度也应是不同的;(4)解码器将编码器学到的低分辨率的姿态语义特征上采样至像素空间,FFB6D 易将表面相似的物体误判为目标物体。这都导致了复杂背景下弱纹理小物体 6D 姿态估计精度较低和遮挡场景下算法鲁棒性差。针对上述问题,该文在 FFB6D 基础上,提出了一种基于特征融合和注意力机制的物体 6D 姿态估计算法,主要工作如下:(1)在 RGB
18、 图像特征提取网络的首个卷积块中添加卷积注意力模块(ConvolutionalBlock Attention Module,CBAM)10,抑制复杂背景,增强目标物体区域的显著度;(2)使用跳跃连接将编码阶段的细节外观特征拼接融合到解码阶段的姿态语义特征,考虑到浅层特征中存在一定的干扰特征,在跳跃连接中使用 CBAM 过滤干扰特征,增强颜色、纹理等细节外观特征;(3)在 PPM 的末端拼接通道注意力模块(Channel Attention Module,CAM)10,自适应地学习不同区域和不同尺度上下文信息的重要程度,提升遮挡鲁棒性;(4)在 RGB 图像特征提取网络的末端添加 CBAM,从通
19、道域和空间域分别增强相似表面特征的区分度,从而降低相似物体对物体 6D 姿态估计的39摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 高维东等:基于特征融合和注意力机制的物体 6D 姿态估计算法干扰。1摇基于特征融合和注意力机制的物体 6D姿态估计算法基于特征融合和注意力机制的物体 6D 姿态估计架构图如图 1 所示,分别输入 RGB 图像和 D 图像,主干网络由 RGB 图像特征提取网络和点云特征提取网络并联而成,双向融合模块实现外观特征与几何特征的交互融合,将提取的密集姿态特征输入到 3D 关键点检测模块和语义分割模块,回归每一个点到 3D 关键点的偏移,并为 3D 关键点投票,确
20、定 3D 关键点,最后使用最小二乘拟合算法计算物体 6D 姿态。图 1摇 基于特征融合和注意力机制的物体 6D 姿态估计网络架构摇 摇 相较 FFB6D 网络,文中算法在负责通道调整的的卷积块后添加 CBAM,实现复杂背景过滤和目标物体区域显著度增强;在 RGB 图像特征提取网络上构建基于 CBAM 的跳跃连接,充分利用姿态语义特征的同时最大限度地保留目标物体的颜色、纹理等细节外观特征;在 PPM 后添加 CAM,通过对每个通道的特征进行权重分配来学习不同通道间特征的相关性,加强重要特征上下文信息的权重;在 RGB 图像特征提取网络的末端添加 CBAM,进一步增大相似表面特征的区分度。1.1摇
21、 基于 CBAM 的复杂背景过滤模块CBAM 是一种轻量级的混合注意力模块,由 CAM和空间注意力模块(Spatial Attention Module,SAM)串联而成,在通道域和空间域专注于物体 6D 姿态估计任务相关特征,如图 2“Convolutional Block AttentionModule冶部分所示。对于输入特征图(F 沂 RC伊H伊W),其中 C,H,W 分别为特征图的通道数、高和宽,首先对特征图进行空间域的全局最大池化和全局均值池化,将池化后的结果送入到共享权重的 MLP(Multi-LayerPerception),相 加 MLP 得 到 的 两 个 结 果 后 再 经
22、 过Sigmoid 激活函数得到通道注意力权重(Mc),最后将F 与 Mc相乘,获得通道注意力调整后的特征图(F);对 F进行通道域的全局最大池化和全局均值池化,拼接池化生成的两个特征图,再经过卷积和 Sigmoid,获得空间注意力权重(Ms),最后将 F与 Ms相乘,获得空间注意力调整后的特征图(F)。通道注意力和空间注意力计算过程如公式(1)和(2)。Mc=滓(MLP(AvgPool(F)+MLP(MaxPool(F)(1)Ms=滓(f7伊7AvgPool(F);MaxPool(F)(2)其中,MLP 为共享权重的多层感知机,滓 为 Sigmoid 激活函数,f 为卷积操作,“;冶表示串行
23、联结。考虑到 FFB6D 的点云特征提取网络的预处理层为全连接层,无法使用 CBAM 抑制复杂背景,因此该文仅在 RGB 图像特征提取网络添加基于 CBAM 的复杂背景过滤模块,其具体流程如图 2 所示。首先使用Conv 调整输入图像的尺寸和通道数,使其可传入到基于 ResNet34 的编码器,再使用 CBAM 抑制干扰特征,增强目标物体区域的显著度。1.2摇 基于 CBAM 的跳跃连接跳跃连接是一种常用于弥补编解码结构细节特征缺失的技术,如点云分割网络(RandLA-Net11)。该网络通过跳跃连接将线、角、面等细节几何特征拼接到深层语义特征,使其具备高判别性。FFB6D 的点云特征提取网络
24、分支由 RandLA-Net 主干部分构成。然49摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷而,FFB6D 的 RGB 图像特征提取网络分支并未采用跳跃连接,因此其输出的特征缺乏目标物体的细节外观特征。图 2摇 基于 CBAM 的复杂背景过滤模块摇 摇 该文使用类激活映射可视化 FFB6D 特征层,如图3 所示。图 3(a)框内为目标物体 driller,分析图 3(b)至图 3(d)可知,除目标物体所在区域,其他区域仍存在高亮。这表明 RGB 图像编码
25、器输出的特征仍存在干扰特征,因此若直接在 FFB6D 的 RGB 图像特征提取网络分支上构建跳跃连接,引入目标物体细节外观特征的同时,干扰特征也被引入。图 3摇 FFB6D 的 RGB 图像特征提取网络分支的特征映射图摇 摇 受启发于上述观察分析,该文提出了基于 CBAM的跳跃连接,首先将编码阶段输出的特征传入到CBAM,在 CBAM 抑制干扰特征后,跳跃连接再将处理后的特征传入到解码阶段,与解码阶段输出的特征进行拼接融合,实现空间信息补充、细节外观特征与姿态语义特征的融合。1.3摇 基于 CAM 的 PPM上下文信息存储了目标物体可见区域与遮挡区域的联系,针对性地增添上下文信息可更好地保留目
26、标物体姿态特征。基于 CAM 的 PPM 具体流程如图 4 所示。左侧模块为 PPM,该结构先将特征图划分为 1伊1,2伊2,3伊3,6伊6的子区域,然后分别在子区域内全局平均池化,从而获得不同尺度和不同区域的上下文信息,再使用 1伊1 卷积对四个池化后的特征图进行降维,然后将四个结果分别上采样至原始特征图的尺寸,最后与原始特征图进行拼接。然而由于目标物体的大小不同、遮挡情况不同,PPM 这种同等程度地增添不同尺度和不同区域上下文信息的方式难以针对性地应对遮挡问题。图4 右侧模块为 CAM,CAM 是 CBAM 的通道注意力模块,通过全局最大池化和全局平均池化获取 PPM 输出特征图的判别性特
27、征和全局上下文特征,以此选取并增强含有重要区域上下文信息的特征通道,从而针对性地解决遮挡问题,使得算法更好地摒弃遮挡区域的干扰特征,保留目标物体姿态语义特征,提升遮挡鲁棒性。图 4摇 基于 CAM 的 PPM1.4摇 基于 CBAM 的特征增强模块基于 CBAM 的跳跃连接将编码器每一阶段的细节外观特征传送到解码器,实现外观细节特征与姿态语义特征的融合。然而当复杂背景或遮挡物和目标物体表面相似时,由于 CBAM 的特征分辨能力有限,基于 CBAM 的跳跃连接易将外观相似的背景或遮挡物59摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 高维东等:基于特征融合和注意力机制的物体 6D 姿态
28、估计算法的细节外观特征误判为目标物体特征,将其传送至解码器特征层,从而导致背景或遮挡物误判为目标物体。该文在 RGB 图 像 特 征 提 取 网 络 的 末 端 添 加CBAM,在深层姿态语义特征充分融合细节外观特征后,CBAM 结合深层语义特征的判别性,辨别外观相似的干扰特征,实现相似表面干扰特征的抑制,从而提升物体姿态估计精度。1.5摇 损失函数文中算法的目标是训练一个 3D 关键点检测模块,用于预测点到 3D 关键点的偏移,以及一个语义分割模块和中心点投票模块,用于实例级的语义分割。因此,该文使用一个多任务损失函数实现网络的学习,第一部分是关键点损失(Lkeypoint),第二部分是语义
29、分割损失(Lsemantic),第三部分是中心点损失(Lcenter),整体的损失函数为 L。Lkeypoint=1N移Ni=1移Mj=1椰 ofji-ofj*i椰I(3)其中,ofji是真实的偏移,ofj*i是预测的偏移,M 是关键点的数量,N 是点的总数,若点 I 属于实例,则取值为1,反之,则取为 0。Lsemantic=-(1-qi)酌log(qi)qi=cil(4)其中,酌 是注意力参数,用于控制容易分类和难分类样本的权重,ci是预测的第 i 个点属于目标物体类别的置信度,l 是真实类别的 one-hot 表达。Lcenter=1N移Ni=1椰驻xi-驻x*i椰I(5)其中,驻x*i
30、是真实的偏移,驻xi是预测的偏移,N 是点的总数,若点属于实例,则 I 取值为 1,反之,则取为 0。Lmulti-task=姿1Lkeypoint+姿2Lsemantic+姿3Lcenter(6)其中,姿1,姿2,姿3为平衡参数。2摇 实验及结果分析2.1摇 物体 6D 姿态数据集LINEMOD 数据集12由 13 类大小不同的家居用品组成,包括 ape,duck 和 benchvise 等,每个家居用品图像集包含约 1 400 张实拍图像。每张实拍图像均包含物体特性、环境等方面的影响因素,如弱纹理的目标物体、复杂背景等,但不包含遮挡。大多数工作中,LINEMOD 数据集中 15%的图像作为
31、训练集,其余85%作为测试集。Occlusion LINEMOD 数据集13以 LINEMOD 数据集的 benchvise 图像集为基础,补充标注了含遮挡的ape,can,cat,driller,duck,eggbox,glue,holepuncher 等 8类目 标 物 体 的 6D 姿 态,共 1 214 张,用 于 弥 补LINEMOD 数据集缺乏目标物体被遮挡情况图像的问题。Occlusion LINEMOD 数据集用于测试在 LINEMOD数据集上训练的模型,检验模型面对遮挡时的性能。由于仅使用 LINEMOD 数据集 15%的实拍图像难以训练一个精度高、遮挡鲁棒性强的模型。因此,
32、该文使用 PVN3D 的图像合成策略扩容 LINEMOD 数据集,分别合成 70 000 张无遮挡单目标物体图像和 10 000张含 遮 挡 单 目 标 物 体 图 像,两 部 分 合 成 图 像 及LINEMOD 数据集 15%的实拍图像共同构成训练集。为检验模型性能,该文使用 LINEMOD 数据集的 85%实拍图像检验模型在复杂背景中的性能和 OcclusionLINEMOD 数据集的全部实拍图像检验模型在遮挡场景中的性能。2.2摇 评价指标该文分别使用 ADD(-S)(average distance to the3D(symmetric)model)1和 FPS(Frames Per
33、 Second)对文中算法的精度和速度进行评价。ADD(-S)是一种三维空间度量标准,其中 ADD针对非旋转对称的物体,ADD-S 针对旋转对称物体,计算通过预测姿态和真值姿态转换的模型顶点之间的平均距离,当距离小于阈值时,姿态估计正确。最常用的阈值为模型直径的 10%,记作 ADD(-S)-0.1d。平均距离计算公式如式(7)和式(8)。驻ADD=1n移x沂N椰(Rx+T)-(R夷x+T夷)椰(7)其中,N 表示三维模型上点的集合,n 表示点的个数,x 表示三维模型的点,R 表示旋转姿态真值,T 表示位置姿态真值,R夷表示旋转姿态预测值,T夷表示平移姿态预测值。驻ADD-S=1n移x1沂Nm
34、inx2沂N椰(Rx+T)-(R夷x+T夷)椰(8)其中,x1和 x2表示最接近点对。ADD(-S)精度计算公式如式(9)。ADD(-S)=NumpreNumGT伊 100%(9)其中,Numpre表示正确姿态估计的数量,NumGT表示测试集图像的数量。FPS 是一种算法推理速度度量标准,指物体 6D 姿态估计算法每秒处理图像的帧数。2.3摇 实验设置实验使用基于 NVIDIA GTX 2080Ti GPU 的服务器,深度学习框架为 PyTorch 1.6,编程语言为 python3.6。关键点方面,使用 SIFT 算法检测物体的 2D 关键点,然后将其提升至 3D 空间,最后使用最远点采样算
35、69摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷法选择 3D 关键点的前 8 个为物体关键点7。在模型训练过程中,初始学习率设置为 0.000 01,batchsize 设置为 2,epoch 设置为 25,酌 设置为 2,姿1,姿3设置为1,姿2设置为2,使用 Adam 优化器,采用循环学习率更新策略(Cyclical Learning Rates,CyclicLR)。2.4摇 实验结果分析2.4.1摇 复杂背景中弱纹理物体 6D 姿态估计为验证算法在复
36、杂背景下的优越性,以 ADD(-S)-0.1d 为指标,将文中算法与物体 6D 姿态估计领域中的不同算法进行对比,包括 DeepIM(Deep IterativeMatching for 6D Pose Estimation)14,PVNet(Pixel-wiseVotingNetwork)15,CDPN(Coordinates-basedDisentangled Pose Network)16,DPOD(6D Pose ObjectDetector and Refiner)17,DenseFusion4,文献 18,G2L-Net(Global to Local Network)19,PVN
37、3D6和FFB6D8。表 1 为对比结果。分析表1 发现,文中算法平均 ADD(-S)为 99.8%,相较 FFB6D,平均精度提高了0.1 百分点,其中弱纹理小物体 ape 和 duck 的 ADD-0.1d 分别提高了0.5百分点和 0.1 百分点,验证该算法可提升弱纹理小物体在复杂背景中的 6D 姿态估计精度。表 1摇 在 LINEMOD 数据集上各算法对比摇%输入DeepIMPVNetCDPNDPOPDenseFusion文献18G2L-NetPVN3DFFB6D文中RGBRGBRGBRGBRGBDRGBDRGBDRGBDRGBDRGBDape77.043.664.487.792.39
38、3.796.897.398.498.9benchvise97.599.997.898.593.297.396.199.7100100.0camera93.586.991.796.194.498.798.299.699.9100.0can96.595.595.999.793.197.498.099.599.8100.0cat82.179.383.894.796.598.299.299.899.999.9driller95.096.496.298.887.093.899.899.3100100.0duck77.752.666.886.392.395.897.798.298.498.5eggbox9
39、7.199.299.799.999.899.8100.099.8100.0100.0glue99.495.799.696.8100.099.0100.0100.0100.0100.0holepuncher52.882.085.886.992.194.999.099.999.8100.0iron98.398.997.910097.098.399.399.799.999.9lamp97.599.397.996.895.398.199.599.899.999.9phone87.792.490.894.792.897.698.999.599.799.8MEAN88.686.389.995.294.39
40、7.298.799.499.799.8FPS5253333161623513122.4.2摇 推理速度分析由表1 可知,文中算法的推理速度为12 FPS,其中数据前向传播 65 ms,姿态计算 18 ms,满足智能机械人抓取和增强现实等应用实时性的基本需求。对比表 1 中基于不同输入的算法推理速度,除DeepIM 算法外,其余基于 RGB 图像的物体 6D 姿态估计算法的推理速度普遍快于基于 RGBD 图像的算法,这是由于基于 RGB 图像的算法仅需从 RGB 图像提取姿态特征,因此推理速度较快。DeepIM 推理速度较慢的原因是,在预测目标物体初始 6D 姿态后,算法再迭代优化目标物体 6D
41、 姿态,这极大增加了算法每帧图像的处理时间。分析基于 RGBD 图像的物体 6D 姿态估计算法的推理速度。(1)DenseFusion 和文献18 的网络结构相似,均先借助一个语义分割网络分割出目标物体区域,然后分别从 RGB 图像和点云的目标物体区域中提取外观特征和几何特征,最后融合两种模态的特征,因此二者推理速度一致;(2)G2L-Net 放弃使用推理速度较慢的语义分割网络,使用推理速度快的目标检测网络 YOLO v3 标注目标物体区域,在定位目标物体点云时,使用 3D 球形范围搜索替代较慢的矩形范围搜索,因此其推理速度得到提升;(3)上述三种算法的点云特征提取网络分支的输入为目标物体区域
42、的点云,而 PVN3D 输入的点云为整个场景的点云,因此推理速度较慢;(4)FFB6D 将 PVN3D 的点云提取网络替换为更加轻量级的 RandLA-Net,推理速度得到提升;(5)文中算法基于 FFB6D,添加注意力机制和特征融合模块,速度略有下降。2.4.3摇 遮挡场景中弱纹理物体 6D 姿态估计为验证算法在遮挡场景中的优越性,以 ADD(-S)-0.1d 为指标,将文中算法与物体 6D 姿态估计领域中的不同算法进行对比,包括文献20,HybridPose21,79摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 高维东等:基于特征融合和注意力机制的物体 6D 姿态估计算法文献22
43、,PVN3D6和 FFB6D8。表 2 为对比结果。分析 表 2 发 现,文 中 算 法 平 均 ADD(-S)为73.4%,相较 FFB6D,平均精度提高了 7.8 百分点,达到了最高精度,且多种弱纹理物体精度均有提升,其中ape,cat,duck 等弱纹理小物体的 ADD-0.1d 分别提升8 百分点、9 百分点和 11.5 百分点,验证该算法较好地缓解了遮挡对弱纹理小物体精度的损害。表 2摇 在 Occlusion LINEMOD 数据集上各算法对比摇%文献20HybridPose文献22PVN3DFFB6D文中ape19.220.921.033.947.255.2can65.175.3
44、79.988.685.291.9cat18.924.923.539.145.754.7driller69.070.274.278.481.488.3duck25.327.931.141.953.965.4glue51.453.844.568.160.168.8holepuncher45.654.253.874.785.989.2MEAN42.146.746.360.765.673.4摇 摇在 Occlusion LINEMOD 数据集上,分析了遮挡与精度的关系,如图 5 所示。相较 FFB6D,在不同遮挡情况,文中算法的物体 6D 姿态估计精度均有提升,尤其在 20%到 30%遮挡区间,文中算
45、法展现了良好的遮挡鲁棒性,图5也直观地反映了文中算法遮挡鲁棒性的提升。图 5摇 遮挡与精度关系2.5摇 消融实验为验证基于 CBAM 的复杂背景过滤模块、基于CBAM 的跳跃连接、基于 CAM 的 PPM 及基于 CBAM的特征增强模块对实验结果的影响,设计了消融实验,逐步消除四个模块与 FFB6D 进行对比,根据模块添加数量由多到少分别命名为模型 1 模型 4。实验在LINEMOD 数据集和 Occlusion LINEMOD 数据集上进行验证。消融结果见表 3。从表 3 可以发现,在 Occlusion LINEMOD 数据集上,模型 1(文中模型)的平均精度为 73.34%,相较FFB6
46、D 提升了 7.71 百分点,表现出较优的遮挡鲁棒性,验证了该文对算法遮挡鲁棒性差的原因分析,也证明了所提出措施的可行性。值得注意的是,基于CBAM 的跳跃连接、基于 CAM 的 PPM 和基于 CBAM的特征增强模块效果显著,具体分析如下。表 3摇 消融实验结果摇%基于 CBAM 的跳跃连接基于 CBAM 的复杂背景过滤基于 CAM 的 PPM基于 CBAM 的特征增强LINEMODOcclusionLINEMOD姨姨姨姨99.7673.34姨姨姨99.7270.32姨姨99.7066.54姨99.7066.5199.6765.63摇 摇(1)基于 CBAM 的跳跃连接对复杂背景中弱纹理物体
47、 6D 姿态估计精度提升贡献较大,在 LINEMOD 数据集上,模型 4 相较 FFB6D 提升了 0.03 百分点。究其原因,FFB6D 网络采用编解码结构,编码阶段使用卷积网络进行连续多次下采样,使得模型丢失大量颜色、纹理等细节特征,而解码阶段仅对深层姿态语义特征进行上采样,导致解码阶段的特征几乎不含细节特征。然而,目标物体处于不同的 6D 姿态时,其所呈现外观也有所不同,因此在姿态语义特征中引入颜色、纹理等细节特征可指导算法更好地估计目标物体 6D姿态。(2)基于 CAM 的 PPM 对算法的遮挡鲁棒性贡献最大,在 Occlusion LINEMOD 数据集上,模型 2 相较模型 3 提
48、升了 3.78 百分点。基于 CAM 的 PPM 根据目标物体的大小和遮挡情况,自动获取每个特征通道的重要程度,加强含有重要区域上下文信息的特征通道的权重,使算法更好地应对多变的遮挡情况。(3)基于 CBAM 的特征增强模块对复杂背景中弱纹理 物 体 6D 姿 态 估 计 精 度 提 升 贡 献 最 大,在LINEMOD 数据集上,模型 1(文中模型)相较模型 2 提升了 0.04 百分点;对遮挡场景中物体 6D 姿态估计贡献较大,在 Occlusion LINEMOD 数据集上,模型1(文中89摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发
49、展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷模型)相较模型 2 提升了 3.02 百分点。受限于 CBAM的特征分辨能力,基于 CBAM 的跳跃连接将表面外观相似的干扰特征误判为目标物体特征并将其与深层语义特征融合,因此,进一步抑制复杂背景和遮挡物的干扰特征是有必要的。基于 CBAM 的特征增强模块添加在 RGB 图像特征提取网络末端,结合深层姿态语义特征,从通道域和空间域分辨并抑制相似外观的干扰特征,从而提升物体 6D 姿态估计精度。实验使用类激活映射分别在 FFB6D、基于特征融合和注意力机制的物体 6D 姿态估计网络的第一层、第五层和第九层进行特
50、征可视化,如图 6、图 7 和图 8所示。图 6摇 第一层特征映射图图 7摇 第五层特征映射图图 8摇 第九层特征映射图结合图 6 发现,图 6(b)相较图 6(a)特征图更清晰,混影减少,这说明基于 CBAM 的复杂背景过滤模块可实现复杂背景的过滤与目标物体区域的增强。结合图 7 发现,图 7(a)特征图虽保留了较多特征,但噪音较多,图 7(b)特征图的噪音几乎都被去除,这说明基于 CAM 的 PPM 有助于保留姿态语义特征。结合图8 发现,图 8(a)特征图在目标物体区域和遮挡区域均存在高亮凸起,图 8(b)特征图仅在目标物体区域存在高亮凸起,这说明基于 CBAM 的特征增强模块可抑制外观