收藏 分销(赏)

基于三维点云的物体6D位姿估计方法.pdf

上传人:自信****多点 文档编号:639552 上传时间:2024-01-22 格式:PDF 页数:5 大小:3.02MB
下载 相关 举报
基于三维点云的物体6D位姿估计方法.pdf_第1页
第1页 / 共5页
基于三维点云的物体6D位姿估计方法.pdf_第2页
第2页 / 共5页
基于三维点云的物体6D位姿估计方法.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 微机应用 1引言物体 6D 位姿估计的目标是获得相机坐标系下目标物体的三自由度平移和三自由度旋转坐标。传统的方法仅通过分析 RGB 二维图像来完成位姿估计任务,通常使用人工特征(匀andcraft 云eatures)来建立输入图像与标准图像之间的关系,从而获得物体的位姿信息。近年来,随着 Kinect 等 RGB-D 相机的日益普及,许多位姿估计方法开始使用三维点云信息完成物体的位姿估计。随着深度学习逐渐成为计算机视觉领域的热点问题,越来越多的位姿估计方法也开始使用深度学习提高位姿估计结果的准确性。为掌握这一领域研究的现状和趋势,本研究对基于三维点云输入的物体 6D 位姿估计方法进行了总结和

2、讨论,对以三维点云为输入的物体 6D 位姿估计方法进行总结与分析。对近年来 CVPR、WACV、ICCV 等计算机视觉顶级会议及刊物中有关物体位姿估计的方法进行分析,介绍基于三维点云输入的基于三维点云的物体 6D 位姿估计方法*张子昂1,李宏胜1,任飞2,王勇3,张涛2(1.南京工程学院自动化学院,南京 211167;2.南京智慧交通信息股份有限公司智能网联工程技术研究中心,南京 210000;3.榆林学院信息工程学院,陕西 榆林 719000)摘要:物体 6D 位姿估计近年来在计算机视觉及其他领域有着广泛的应用。为了掌握目前基于三维点云的物体 6D 位姿估计方法研究现状和趋势,对传统和基于深

3、度学习的物体 6D 位姿估计的有代表性的方法进行汇总和分析。从基于三维模板、基于对应关系、基于投票三个种类的方法入手,详细介绍物体 6D 位姿估计方法的实现方式和优缺点,同时对其他最新的位姿估计方法作简要介绍。通过对基于三维点云输入的物体 6D 位姿估计方法的使用场景的总结,剖析了现存的问题,也提出了对未来发展方向的展望。关键词:6 自由度位姿估计;三维点云;深度学习;计算机视觉DOI:10.3969/j.issn.1002-2279.2023.04.012中图分类号:TP391.4文献标识码:A文章编号:1002-2279(2023)04-0042-056D 韵bject Pose Esti

4、mation Method Based on 3D Point CloudZHANG Ziang1,LI Hongsheng1,REN Fei2,WANG Yong3,ZHANG Tao2(1.School of Automation,Nanjing Institute of Technology,Nanjing 211167,China;2.Intelligent Networking EngineeringTechnology Research Center,Nanjing Intelligent Transportation Information Co.,Ltd.,Nanjing 21

5、0000,China;3.SchoolofInformationEngineering,YulinUniversity,YulinShaanxi,719000,China)Abstract:6D object pose estimation has been widely used in computer vision and other fields inrecent years.In order to grasp the current research status and trend of 3D point cloud-based 6D objectpose estimation me

6、thods,the traditional and representative methods of 6D object pose estimation based ondeep learning are summarized and analyzed.Starting with three kinds of methods based on 3D template,correspondence and voting,the realization methods,advantages and disadvantages of the 6D object poseestimation met

7、hod are introduced in detail,and other latest pose estimation methods are brieflyintroduced.By summarizing the application scenarios of the method for estimating the 6D object posebased on the input of 3D point clouds,the existing problems are analyzed,and the future developmentdirection is also put

8、 forward.Key words:6DoF pose estimation;3D point cloud;Deep learning;Computer vision基金项目:南京工程学院大学生科技创新基金项目(TB202317028);陕西省科技厅项目(2021SF-511);中国陕西省榆林高新区科技局项目(CXY-2021-37);中国陕西省榆林市科技局项目(CXY-2020-002-04)作者简介:张子昂(1998),男,江苏省徐州市人,硕士研究生,主研方向:计算机视觉,人工智能。通讯作者:李宏胜(1966),男,江苏省南京市人,博士,教授,主研方向:人工智能,机器人控制。收稿日期:2

9、023-04-24*微处理机MICROPROCESSORS第 4 期2023 年 8 月No.4Aug.,20234 期物体 6D 位姿估计最近的研究成果。将基于三维点云输入的物体 6D 位姿估计方法按传统和基于深度学习的方法分别分为三类:基于三维模板、基于对应关系、基于投票。在每类方法的具体分析中给出各文献研究中的关联性与区别性。同时对其他最新的位姿估计方法作简要介绍,总结物体位姿估计面临的挑战和未来发展趋势。2基于三维点云输入的传统方法2.1基于三维模板方法基于三维模板的物体 6D 位姿估计方法典型流程图如图 1 所示。首先针对不同的图像采集设备将其三维输入转换为点云并进行图像分割,然后通

10、过与目标对象的完整点云模板比较,寻找出与完整点云最匹配的 6D 变换。因其自身的特点,基于三维模板的 6D 位姿也可以视为部分点云的配准问题。4PCS 算法1是一种被广泛使用的点云粗配准方法。它基于 RANSAC 思想,在源点云与待配准点云中寻找对应的两组点,进而计算出源点云与待配准点云之间的变换矩阵。在源点云 孕 中选择共面不共线的四个点作为 4 点基 粤,示意图如图 2 所示,且有如下公式:由此二式计算可得 r1及 r2。因为 r1及 r2的仿射不变性,在待配准点云 Q 中的 r1与 r2均可推出,可根据求解 Q 中可能的交点 e1与 e2找到与点基 A 对应的 4 点基,所有对应的 4

11、点基构成 4 点集。4PCS根据上述方法找到待配准点云 Q 中所有与 4 点基 A对应的 4 点集 U=U1,U2,.,Un,由每个 4 点集 Ui及其对应的 4 点基 A 计算出相应的变换矩阵 Ti,将源点云按照所得变换矩阵 Ti进行变换,找到变换后一致性 4 点集个数最多的变换矩阵。一直重复上述步骤直到找到最优变换矩阵,实现点云配准。4PCS算法利用穷举法搜寻最优解,虽然具有较好的鲁棒性,但其计算时间会随着点数的增加而不断增加,因此只对数据量小的点云数据有较好的适配性。Super4PCS2在 4PCS 算法的基础上通过以待配准点云中任一点 qi为球心,将所得的 r1、r2作为直径构造球域,

12、在直径依着 范围内搜索对应点对,以减少搜索范围,同时引入待匹配点对间的夹角 琢 将待匹配点云中不满足该夹角的候选 4 点集去除,进一步提高了算法的效率。ICP3作为常用的精配准算法,其基本原理基于最小二乘法的最优匹配。对于源点云 载=x1,x2,.,xNx和目标点云 P=p1,p2,.,pNp,其中 xi和 pi表示点云坐标,Nx和 Np表示点云的数量,R 为旋转矩阵,T 为平移矢量,由此,ICP 算法的误差函数如下式:进行配准前先设置迭代次数阈值、最终误差阈值与单次误差阈值。对源点云中的每一个点在待配准点云中找到误差函数值最小的点作为对应点,并求解对应的空间变换矩阵。根据公式(3)推得本次迭

13、代的配准误差。当配准最终误差小于最终误差阈值且单次迭代误差小于单次误差阈值或超过迭代阈值数时,迭代终止,然后根据相关数据计算最终的变化矩阵。ICP 算法的优势在于不断迭代得到最终的变化矩阵实现点云配准,但对源点云与待配准点云的初始位置要求较高。如果两点云初始位置较远,ICP算法容易陷入局部最优而得出错误的配准结果。2.2基于对应关系方法基于对应关系的物体 6D 位姿估计方法是在观察到的输入数据和现有的完整 3D 物体模型之间找到对应关系。输入为三维点云时,需要找到观察到的部分点云和完整 3D 模型之间的 3D 点对应关系,从而恢复 6D 物体姿态。在处理深度图像时,可以使用 3D 描述符进行匹

14、配,流程如图 3 所示。传统的 3D 局部形状描述符有聚类视点特征直方图 CVFH(Clustered ViewpointFeature Histogram)4和 SHOT(Signature of Histogramof Orientation)5等。图 1基于三维模板的物体 6D 位姿估计方法(1)1/raeab(2)2/rcecd图 24 点基示意图(3)211(,)pNiip ifxpNR TRT三维输入点云分割目标对象完整点云穷举出与完整点云匹配的位姿选取最佳的6D位姿abcde张子昂等:基于三维点云的物体 6D 位姿估计方法窑43窑微处理机2023 年CVFH 是受到视点特征直方图

15、(VFH)较好的计算效率和识别性能所启发而提出的描述符,在 VFH的基础上针对物体具有遮挡的情况下识别效果较差的缺点进行改进。CVFH 是利用局部特征的鲁棒性和单视角的视点特征来计算得到的全局描述符,其被定义为。其中 a、渍、兹、茁 是VFH 中的全局 FPFH 部分和视点部分,SDC 是CVFH 中的形状分布量,其计算如下式:其中 pc是所有点的中心点。SHOT 是一种基于局部特征的描述符。它结合了特征编码和直方图统计的思想,在特征点处建立局部坐标系,将邻域点的空间位置信息和几何特征信息结合起来描述特征点。对于点云中的查询点 p,建立半径为 r 的球型邻域,设定 pk为邻域中的点,p赞为邻域

16、内所有点的质心;dk为邻域内点到p赞的距离,则邻域的协方差矩阵可由下式表示:由协方差矩阵可求得特征值与特征向量。将特征值从大到小排列,其对应的特征向量即为 X、Y、Z坐标轴。在球形邻域内按经线划分为 8 个部分,按纬线和径向方向分为两个部分,形成 32 个子空间。在每个子空间内计算 p 的法向量与 pk的夹角余弦值 cos(兹k)从而确定局部参考系的 Z 轴。将横轴上的区间-1,1分为 11 等分,通过计算并统计 cos(兹k)形成 11 维直方图。将 32 个子空间的直方图汇总形成352 维的直方图,经过归一化处理后最终得到 SHOT特征描述符。上述传统的 3D 描述符可用于查找部分三维点云

17、与完整点云之间的对应关系,以获得 6D 姿态。但在实际应用中,该类描述符对目标对象的几何特征有一定的要求,在几何特征不丰富的物体上应用效果较差。2.3基于投票方法在基于投票的位姿估计方法中,每个像素或每个点都对位姿估计的结果做出贡献。这一方法可分为间接投票与直接投票。间接投票是对特征点进行投票,以便于实现 3D 对应;直接投票是直接对具体的 6D 位姿进行投票以确定物体 6D 位姿。在间接投票方法中,PVN3D6将根据二维关键点来判断物体位姿的 PVNet 推广到三维关键点中,流程如图 4 所示。从 RGB-D 输入中通过三个模块分别预测关键点、语义标签和中心偏移,然后使用聚类算法区分具有相同

18、语义标签的不同实例,利用霍夫投票来确定物体的三维关键点,用最小二乘法来拟合位姿参数。在直接投票方法中,如果把被投票物体位姿看做相应的模板,则可把此类方法视为对模板进行投票。文献7提出点对特征 PPF(Point Pair Features),从深度图像中估计物体的 6D 姿态。假设物体所处环境和物体模型都可表示为一个有限有向点集合,每个有向点都有一个法线。在离线阶段,先在环境中选取一组参考点,使其他点都与参考点配对以创建点对特征。这些特征与全局模型描述中包含的模型特征相匹配,在此过程中同时还可获取一组潜在的对应关系,每一个潜在的对应关系都对位姿进行投票。因为点对特征的获取不需要物体的表面纹理信

19、息,所以 PPF 对低纹理物体的位姿估计具有优势。3加入深度学习的估计方法3.1基于三维模板的改进方法近年来深度学习被越来越多应用在基于三维模板的物体位姿估计方法中。这些方法使用一对点云,从 3D 深度学习网络中提取并判别有代表性的特征,然后回归出这对点云之间的 6D 变换关系。文献8开创性地提出了 PointNet,将深度学习直接用于三维点云数据和点云全局特征的提取上。它提出用对称函数解决点的无序性问题,同时设计出能进行分类和分割任务的网络结构。但 PointNet提取的点云特征缺乏局部信息,并不适用于位姿估图 3基于对应关系的 6D 物体位姿估计流程(4)2c2c()SDCmax()iip

20、ppp(5)T()()()()kkkkkdrkdrrdpppprdC三维输入3D描述符寻找对应3D点关系物体6D位姿图 4PVN3D 物体位姿估计方法窑44窑4 期图 5DenseFusion 位姿估计方法计任务。基于此,文献9提出 PointNetLK,将 PointNet看做一个可学习的成像函数,同时剔除了 PointNet 结构中的 T-net,使得点云特征中的旋转特性可以被提取。此方法通过修改后的经典图像对齐算法 LK 图像算法进行点云配准,完成物体的 6D 位姿估计。PointNetLK 相比 ICP 和其他变种算法在准确率、初始化鲁棒性以及计算效率方面都具有显著优势。3.2基于对应

21、关系的改进方法文献10提出 3DMatch 算法,使用基于 3D 体素的深度学习网络来匹配 3D 特征点,使点云中的点都能够用体素块在 3DMatch 网络中表示。其所采用的孪生神经网络构架包含正负两个样本的输入:正样本是匹配点能够完成匹配的体素块;负样本是匹配点不能完成匹配的体素块。每个样本上都带有表明匹配是否成功的标签。通过重建 RGB-D 输入构建大量用于网络输入的正负标签,导入具有一层池化层的孪生神经网络中,通过网络训练生成 512 维的描述符。通过随机采样在等待对应的两片点云中获得采样点集合,为所有采样点生成特征描述符,再利用 KD-Tree 和 RANSAC 寻找采样点对应的点对,

22、得到最优旋转平移矩阵,实现物体 6D 位姿估计。为了实现更好的位姿估计性能,深度学习也被用在除 3D 描述符之外的领域。文献11提出了一种新的 6D 位姿估计方法,它由一个端到端的可微体系结构组成,以紧密耦合的方式不断对姿态和对应关系进行迭代,通过新增加一个可微层来进行姿态的细化,允许动态地去除异常值来提高精度。该方法建立在为光流(optical flow)即图像稠密关联开发的 RAFT 架构上,通过估计输入图像与已知 3D 图像的一组渲染图像的流来求解对应的位姿关系。在每次迭代中,不仅更新流,还更新对象姿态。流更新和姿态更新是紧密耦合的:流更新取决于当前姿态,而姿态更新取决于流。3.3基于投

23、票的改进方法DenseFusion12用两个阶段来进行位姿估计:第一阶段进行语义分割,提取深度信息和彩色信息。对于每个分割过的对象,将各个 mask 对应的点云以及经过裁剪的图像输入到第二阶段;第二阶段处理分割得到的结果并进行位姿估计。该方法具体由四个部分构成:淤 一个用于处理颜色信息和将图像裁剪中像素映射到颜色特征嵌入中的全卷积网络;于 一个基于 PointNet 的网络,将三维点云中的点处理为几何特征嵌入;盂 一个融合两种特征嵌入并基于无监督置信评分输出物体 6D位姿的像素级融合网络;榆 一种以授课式学习方式来训练网络并不断完善位姿估计结果的自我迭代完善方法。具体的流程图如图 5 所示。每

24、个特征嵌入都通过投票选出物体的 6D 位姿。DenseFusion 利用稠密融合网络提取的稠密特征来进行位姿估计,同时通过集成的端到端迭代位姿细化步骤来进一步细化位姿估计结果。4其他估计方法4.1基于关键点的方法文献13提出的多视图 6D 物体位姿估计方法统一在一个物体 SLAM 框架中。该框架联合估计物体和相机姿态,同时考虑检测到的物体的对称性,并利用网络的不确定性估计来增强系统的鲁棒性。它包含两个通道,分别处理对称物体与不对称物体。在第一个通道中,从 3D 场景中跟踪不对称物体以估计相机位姿;在第二个通道中,对称物体上被估计出的 3D 关键点作为先验知识被输入到当前相机视角中,帮助预测在

25、3D 场景下物体上对应的关键点。此物体 SLAM 框架被分为两个部分,前段使用上述关键点网络进行跟踪,后段进行全局优化以优化目标和相机的姿态估计。4.2面向未针对训练物体的位姿估计方法文献14提出 OVE6D 模型,采用级联方式推断物体的 6D 姿态。该模型使用大量的合成 3D 对象进行训练,将 6D 姿态分解为视点以及围绕相机光轴的平面内旋转和平移;同时提出了一个基于深度的视点编码器,将视点捕获到特征向量中。在位姿估计时利用视点编码来确定相机视点,然后基于所获得图像分割图像裁剪各个mask对应的点云CNNPointNet图像中每个像素点映射到颜色特征空间点云中每个点映射到几何特征空间融合颜色

26、与几何特征空间特征点输出6D位姿估计以循环学习的方式训练神经网络迭代地优化位姿估计结果张子昂等:基于三维点云的物体 6D 位姿估计方法窑45窑微处理机2023 年的视点估计剩余的姿态分量。通过三个具有挑战性的真实世界基准数据集评估表明,该方法在不进行任何参数优化的前提下可以很好的推广到此前未针对训练过的物体。4.3类别级物体位姿估计方法文献15提出的 DualPoseNet 是基于姿态一致性学习的双姿态网络类别级 6D 位姿估计方法。对于观测到的 RGB-D 场景,首先使用像 MaskRCNN这样的图像实例分割模型进行对象的分割。在分割过程中会生成一对(载,孕),其中 P 表示区域内的观察点,

27、X 表示对应的 RGB 值。DualPoseNet 将(载,孕)送到姿态编码器中学习位姿敏感特征表示 f,然后用显式位姿编码器进行位姿的预测。隐式姿态编码器与显式位姿编码器同时工作,可以改进显式位姿编码器的位姿预测结果,同时可以实现姿态一致性的精细学习,进一步提高估计的精度。5结束语基于对应关系方法适于具有丰富的纹理或几何细节的目标;细节较弱时,则宜于使用基于三维模板的方法;而当对象被部分遮挡时,基于投票的方法较为适用。基于三维点云输入的位姿估计方法已取得了很大进步,但还有很大的发展空间。类别级物体6D 位姿估计是未来研究的一个方向,需进一步对物体 6D 位姿估计方法的泛化性进行研究。参考文献

28、:1AIGER D,MITRA N J,COHEN-OR D,et al.4-points con-gruent sets for robust pairwise surface registrationJ.A悦酝Transactions on Graphics,2008,27(3):85 1-10.2MELLADO N,AIGER D,MITRA N J.Super 4PCS:fast glo-bal pointcloud registration via smart indexingJ.ComputerGraphics Forum,2015,33(5):205-215.3BESL P J,

29、MCKAY N D.A method for registration of 3-DshapesJ.IEEE Transactions on Pattern Analysis and Ma-chine Intelligence,1992,14(2):239-256.4ALDOMA A,VINCZE M,BLODOW N,et al.CAD-modelrecognition and 6DoF pose estimation using 3D cuesC/2011 IEEE International Conference on Computer VisionWorkshops(ICCV Work

30、shops),November 6-13,2011,Bar-celona,Spain.IEEE,2011:585-592.5SALTI S,TOMBARI F,STEFANO L D.SHOT:unique sig-natures of histograms for surface and texture descriptionJ.Computer Vision and Image Understanding,2014,125:251-264.6HE Yisheng,SUN Wei,HUANG Haibin,et al.PVN3D:adeep point-wise 3D keypoints v

31、oting network for 6DoF poseestimationC/Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition(CVPR),June 14-19,2020,Seattle,WA,USA.IEEE,2020:11629-11638.7DROST B,ILIC S.3Dobjectdetectionandlocalization usingmultimodal point pair featuresC/2012 Second InternationalConference

32、 on 3D Imaging,Modeling,Processing,Visuali-zation&Transmission,October 13-15,2012,Zurich,Swi-tzerland.IEEE,2012:9-16.8QI C R,SU Hao,MO Kaichun,et al.PointNet:deep lear-ning on point sets for 3D classification and segmentationC/Proceedings of the IEEE Conference on Computer Visionand Pattern Recognit

33、ion(CVPR),2017,July 21-26,2017,Honolulu,HI,USA.IEEE,2017:652-660.9AOKI Yasuhiro,GOFORTH H,SRIVATSAN R A,et al.PointNetLK:robust&efficient point cloud registration usingPointNetC/Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition(CVPR),June 16-20,2019,Long Beach,CA,USA.I

34、EEE,2019:7156-7165.10ZENG A,SONG Shuran,NIESSNER M,et al.3DMatch:learning local geometric descriptors from RGB-D recons-tructionsC/Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition(CVPR),July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1802-1811.11LIPSON L,TEED Z,GOYAL A,et al.

35、Coupled iterativerefinement for 6D multi-object pose estimationC/Proce-edings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR),June 19-24,2022,NewOrleans,LA,USA.IEEE,2022:728-6737.12WANG Chen,XU Danfei,ZHU Yuke,et al.DenseFusion:6D object pose estimation by iterative dense

36、fusionC/Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR),June 16-20,2019,Long Beach,CA,USA.IEEE,2019:3343-3352.13MERRILL N,GUO Yuliang,ZUO Xingxing,et al.Symme-try and uncertainty-aware object SLAM for 6DOF objectpose estimationC/Proceedings of the IEEE/CVF Conf

37、er-ence on Computer Vision and Pattern Recognition(CVPR),June 19-24,2022,New Orleans,LA,USA.IEEE,2022:14901-14910.14CAI Dingding,HEIKKIL粤 J,RAHTU E.OVE6D:ObjectViewpoint Encoding for depth-based 6D object pose esti-mationC/2022 IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR),June

38、 18-24,2022,NewOrleans,LA,USA.IEEE,2022:6793-6803.15LIN Jiehong,WEI Zewei,LI Zhihao,et al.DualPoseNet:category-level 6D object pose and size estimation usingdual pose network with refined learning of pose consistencyC/2021IEEE/CVF International Conference on ComputerVision(ICCV),October 10-17,2021,Montreal,QC,Canada.IEEE,2021:3540-3549.窑46窑

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服