收藏 分销(赏)

基于LK光流与实例分割的联合动态一致性vSLAM算法.pdf

上传人:自信****多点 文档编号:1952977 上传时间:2024-05-12 格式:PDF 页数:7 大小:2.37MB
下载 相关 举报
基于LK光流与实例分割的联合动态一致性vSLAM算法.pdf_第1页
第1页 / 共7页
基于LK光流与实例分割的联合动态一致性vSLAM算法.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、现代电子技术Modern Electronics Technique2023年10月1日第46卷第19期Oct.2023Vol.46 No.19基于LK光流与实例分割的联合动态一致性vSLAM算法刘 强,袁 杰,匡本发(新疆大学 电气工程学院,新疆 乌鲁木齐 830017)摘 要:随着机器人的工作环境趋向于非结构环境变化,对视觉SLAM技术提出了更高的要求,既需要视觉SLAM能够在静态环境中对机器人精确地估计相机位姿,又需要视觉 SLAM能够适应动态环境。针对上述问题,提出一种光流与实例分割相结合的视觉 SLAM算法。首先对当前帧图像进行特征提取与实例分割,在特征提取完成后对其进行稀疏光流;然

2、后根据实例分割结果与先验语义信息对物体赋予运动初值,并计算非动态物体的光流位移增量、动态物体光流位移增量和潜在动态物体光流位移增量;其次利用光流信息与实例分割掩码进行联合动态一致性检查,并剔除运动物体上提取的特征点;最后利用静态特征估计机器人位姿。用 TUM 数据集测试该算法,结果显示该算法在低动态环境下绝对轨迹误差较 ORBSLAM2能够减少 52.04%,在高动态环境下绝对轨迹误差较 ORBSLAM2能够减少 98.11%。在真实环境下对该算法进行评估,实验结果表明,该算法对物体的运动状态有精准的判定,这有助于提高算法的定位精度。关键词:视觉SLAM;YOLOv7;深度学习;LK光流;动态

3、特征剔除;非结构环境;机器视觉;语义信息中图分类号:TN911.134;TP242 文献标识码:A 文章编号:1004373X(2023)19003407Joint dynamic consistency vSLAM algorithm based on LK optical flow and instance segmentationLIU Qiang,YUAN Jie,KUANG Benfa(School of Electrical Engineering,Xinjiang University,Urumqi 830017,China)Abstract:As the working env

4、ironment of robots tends to the change of unstructured environment,higher requirements are expected for visual SLAM(simultaneous localization and mapping)technology,which requires not only that the visual SLAM can accurately estimate the camera position and pose of robots in static environment,but a

5、lso that the visual SLAM can adapt to dynamic environment.In view of the above,a visual SLAM algorithm combining optical flow and instance segmentation is proposed.The feature extraction and instance segmentation are implemented for the current frame image.After the feature extraction is completed,s

6、parse optical flow is performed.Then,the objects are given the initial value of motion probability according to the results of instance segmentation and the prior semantic information,and the optical flow displacement increments of nondynamic objects,dynamic objects and potential dynamic objects are

7、 calculated.The optical flow information and the instance segmentation mask are used to check the dynamic consistency jointly,and the feature points extracted from the moving objects are removed.Finally,the robot position and pose are estimated by static features.The proposed algorithm is tested wit

8、h the data set TUM.The results show that the absolute trajectory errors of the algorithm can be reduced by 52.04%in comparison with ORBSLAM2 in low dynamic environment,and by 98.11%in comparison with ORBSLAM2 in high dynamic environment.The algorithm is evaluated in real environment.The experimental

9、 results show that the algorithm can determine the motion state of the object accurately,which is helpful to the improvement of its localization accuracy.Keywords:visual SLAM;YOLOv7;deep learning;LK optical flow;dynamic feature elimination;unstructured environment;machine vision;semantic information

10、DOI:10.16652/j.issn.1004373x.2023.19.007引用格式:刘强,袁杰,匡本发.基于LK光流与实例分割的联合动态一致性vSLAM算法J.现代电子技术,2023,46(19):3440.收稿日期:20230314 修回日期:20230403基金项目:国家自然科学基金项目(62263031);新疆维吾尔自治区自然科学基金项目(2022D01C53)3434第19期0 引 言近年来,机器人受到广泛的关注,投入到越来越多的场景中使用,这对同步定位与建图(SLAM)技术提出了新的挑战13。SLAM按照传感器的不同,可以分为基于激光雷达的激光SLAM和基于相机的视觉SLAM。

11、视觉 SLAM 因其传感器能提供的信息丰富而获得了较多的关注,因此众多的学者提出了许多优秀的 SLAM 方案,如:MonoSLAM4、PTAM5、ORBSLAM6、DTAM7和DSO8等。这些算法能在静态环境取得不错的效果,而机器人的工作环境趋向于非结构环境,因此,视觉 SLAM 需要能处理场景中的动态物体。目前,针对动态物体的方法分为三类,分别为基于光流、几何以及深度学习。文献9通过计算光流的运动度量的方法来获取可能的移动物体。文献10检测动态特征采用的是对极几何与 FVB(Flow Vector Bound)约束结合的方法。随着深度学习的快速发展,与深度学习结合的方法也迎来了巨大的飞跃。文

12、献1112通过先验语义信息对动态特征进行剔除。文献13提出了基于SegNet14的 DSSLAM 算法。文献15提出了基于 Mask RCNN16的 DynaSLAM 算法。文献17提出了基于目标检测和语义分割的RDTSSLAM。基于深度学习的方法中,在高动态场景中可以有效地剔除动态物体,但其对低动态场景直接利用先验语义信息剔除动态特征反而降低了算法的定位能力。针对上述问题,本文提出了一种结合实例分割与光流的视觉 SLAM算法,能够对图像中的动态物体与潜在动态物体进行运动状态精准判定,然后再剔除从动态物体处提取的特征点,最后利用静态特征点进行相机位姿估计。1 算法框架图 1为本文算法的系统框架

13、。系统输入为 RGBD图像序列,实例分割线程对 RGB 图像进行分割获取掩码信息;跟踪线程收到 RGB图像后,先对其提取 ORB18特征,在等待实例分割掩码的时候对其进行稀疏光流处理,然后结合实例分割掩码与先验语义信息对光流信息进行处理得到非动态物体、动态物体和潜在动态物体的光流位移增量,再结合光流信息与实例分割掩码进行联合动态一致性检查并剔除动态特征,最后利用静态特征估计机器人位姿;局部建图线程对地图点进行实时更新;回环检测线程对相机轨迹检测回环,并进行全局优化。图1 本文算法系统框图1.1 LK光流光流是一种描述像素随时间在图像之间运动的方法,按照计算像素的多少分为了稀疏光流和稠密光流。稀

14、疏光流中最具代表的是 LucasKanada光流19,稠密光流中最具代表的是 HornSchunck 光流20。稀疏光流因计算像素较少,具有良好的实时性。本文算法中仅需要计算部分像素,故采用LK光流。在 LK光流中,假设同一个空间点被不同位姿下的相机观测到的灰度值固定不变,根据假设有:IxIy uv=-It(1)式中:Ix、Iy、It为该空间点灰度值在x、y、t方向上的偏导;u、v为该空间点对应像素点光流在x、y方向上的运动。LK 光流存在的另一个假设是:某一像素和附近小邻域内像素运动一致。假设小邻域内有n个像素点,可建立n个约束方程,为:Ix1Iy1Ix2Iy2IxnIyn uv=-It1I

15、t2Itn(2)式(2)为超定线性方程,通过最小二乘对其求解,得到像素点光流运动信息u、v。利用像素点光流的运行信刘 强,等:基于LK光流与实例分割的联合动态一致性vSLAM算法35现代电子技术2023年第46卷息,可以确定其在下一图像中出现的位置,即为光流匹配点。为了让 LK光流具有更强的鲁棒性,引入图像金字塔提取多层次的光流信息。1.2 YOLOv7实例分割本文中采用YOLOv721实例分割网络来获取像素级语义分割掩码。YOLOv7是一种新的体系结构,并且使用了相应的模型缩放方法,该方法提高了参数的利用率和计算效率。YOLOv7 在准确性和速度方面都具有优越的性能。YOLOv7网络模型如图

16、2所示,由输入(Input)、主干网络(Backbone)、头部网络(Head)3 个主要模块构成。输入模块的功能是将输入的图像调整为固定的尺寸大小,使其满足主干网络的输入尺寸要求。CBS卷积层、EELAN 卷 积 层 和 MPConv 卷 积 层 组 成 了 主 干 网 络。MPConv 卷积层是在 CBS 卷积层上加入了最大池化层(Maxpool),构成上下两个分支,最终利用Concat操作对两个特征提取分支进行融合,从而提升了主干网络提取特征的能力。图2 YOLOv7网络模型EELAN卷积层是高效层聚合网络,可以在保持原始梯度路径不变的状态下,提升网络的学习能力,同时也可以引导计算块学习

17、更多样化的特征。头部网络先通过采用SPP金字塔结构,提高头部网络的多尺寸输入适应能力;再使用聚合特征金字塔网络结构,使得底层信息可以自底层向上传递到高层,融合了不同层次的特征;最后生成实例分割掩码。YOLOv7的损失函数由定位损失、置信度损失和分类损失三部分构成,前者采用CIoU损失,后两者采用BCELoss二值交叉熵损失。1.3 联合动态一致性检查实例分割线程为跟踪线程提供了实例分割掩码,通过掩码信息,将出现在相机视野中的物体分为 3大类,分别为:静态物体、动态物体和潜在动态物体。其中潜在动态物体主要是指椅子和书等较大可能处于被运动状态的物体。首先计算得出光流运动信息中的非动态物体(潜在动态

18、物体与静态物体总称)的平均位移增量S0,再计算每个潜在动态物体以及动态物体的位移增量,分别为S1i、S2j。利用实例分割掩码信息对 3 类物体初始运动概率赋初值:P1=0P2=0.5P3=1(3)式中:P1、P2、P3分别为静态物体、潜在动态物体和动态物体的初始运动概率。再计算出Smax与Smin作为位移增量判定上下界:Smax=1.2 S0(4)Smin=0.8 S0(5)本文算法中有一个基本假设:静态物体的状态一直为静止,故其联合运动概率为:P1n=0(6)结合动态物体和潜在动态物体光流位移增量,按照公式(7)、公式(8)计算联合运动概率:P2i=P2+0.3,S1i SmaxP2,S1i

19、 Smax(7)P3j=P3,S2j Smax(8)最后将P2i 0.75的潜在动态物体作为运动状态进行剔除,将P3j 0.75的动态物体作为静止状态进行保留。将保留的特征用于相机运动估计。本文算法不是直接剔除先验动态物体上提取的特征,而是通过上述公式计算先验语义信息与 LK光流信息的联合运动概率,结合了语义信息与光流信息后,物体的运动判定更加准确。特别是,当 RGB 图像中先验动态物体占据较大部分比例时,语义 SLAM若直接剔除未运动的人时,会导致估计的相机轨迹与真实轨迹之间的误差过大。2 实验结果与分析本节将从定位准确度和真实场景两个方面对本文算法进行验证。此外,还将本文提出的算法与其他先

20、进的 SLAM 算法在 TUM22中 RGBD 数据集上进行实验对比。由于实验需要,将选取 TUM 中 fr3数据集中的 4个高 动 态 场 景 和 4 个 低 动 态 场 景。绝 对 轨 迹 误 差(Absolute Trajectory Error,ATE)是相机位姿真实值与估计值的差值,本文将选择 ATE 作为定位准确度评价指标。本文所用的实验平台为联想 Y9000P笔记本电脑,CPU 为 11th Gen Intel CoreTM i711800H,RAM 为双通道16 GB,GPU为RTX 3060 Laptop,显存6 GB。运行系统 为 Ubuntu 18.04,实 例 分 割

21、环 境 为 CUDA 11.3,PyTorch 1.8,Python 3.8。36第19期2.1 定位准确度为了验证本文算法对运动物体处提取的特征点剔除后对定位性能的提升,将本文算法的 ATE 与 ORBSLAM2进行对比,如表 1所示。从表中数据可以看出,本文算法在 4个低动态数据集中相对提升率最高可达52.04%;在 4 个高动态数据集中提升率最高达到了98.11%,最低达到了93.35%;在数据集s_x中,本文算法的 ATE 较 ORBSLAM2 的 ATE 要大,经分析在 s_x 数据集中,剔除运动的特征点后的特征点数量较少,导致改进后的定位精度反而比ORBSLAM2要低。将本文算法的

22、 ATE 与仅使用 YOLOv7 删除先验动态物体处提取的特征点的ATE相对比,如表2所示。从表2中数据可以得出,LK光流与YOLOv7实例分割结合的方法与仅使用 YOLOv7 实例分割的方法相对比,在4个低动态数据集中,LK光流与 YOLOv7实例分割结合的方法的相对提升率均为正值;在 4 个高动态数据集中,两 个 为 正 值 两 个 为 负 值;相 对 提 升 率 最 小 为-49.7%,经分析,w_r数据集中因相机旋转导致光流精度受限,因此最终的定位精度反而较仅使用 YOLOv7实例分割的方法小。表1 本文算法与ORBSLAM2算法的绝对轨迹误差对比数据集s_hs_rs_ss_xw_hw

23、_rw_sw_xORBSLAM2平均值/m0.017 90.017 30.007 60.008 10.431 90.781 60.3420.647 6均方根/m0.022 00.023 20.008 60.009 30.497 60.921 70.375 30.756 8标准差/m0.012 70.015 30.004 10.004 60.244 30.488 20.152 60.390 3本文算法平均值/m0.012 50.014 90.005 10.010 10.019 90.037 20.007 40.012 9均方根/m0.013 90.019 10.005 90.011 50.022

24、 90.049 40.008 30.014 9标准差/m0.006 10.012 00.003 00.005 50.011 40.032 50.003 80.007 4相对提升率/%平均值29.9413.9732.78-13.5895.4095.2497.8498.01均方根36.6317.6930.83-16.1395.3994.6497.7898.04标准差52.0421.7925.63-21.7495.3293.3597.5098.11表2 本文算法与仅使用YOLOv7剔除动态特征方法的绝对轨迹误差对比 数据集s_hs_rs_ss_xw_hw_rw_sw_xYOLOv7平均值/m0.01

25、4 60.018 00.005 20.010 10.022 10.030 80.007 30.013 3均方根/m0.016 30.023 10.006 00.011 40.025 80.037 70.007 90.015 4标准差/m0.007 30.014 60.003 10.0140.013 30.021 70.003 20.007 7LK光流+YOLOv7平均值/m0.012 50.014 90.005 10.009 20.019 90.037 20.007 40.012 9均方根/m0.013 90.019 10.005 90.010 80.022 90.049 40.008 30.

26、014 9标准差/m0.006 10.012 00.003 00.005 60.011 40.032 50.003 80.007 4相对提升率/%平均值14.1017.321.758.9110.14-20.89-1.323.11均方根14.4717.330.855.2611.16-31.07-5.373.54标准差16.5618.041.6560.0013.97-49.70-19.344.04结合表 1和表 2数据不难得出,本文算法在低动态数据集中的定位效果要比仅利用 YOLOv7 实例分割剔除动态特征的定位效果好,在高动态数据集中的定位效果也有不弱于仅利用YOLOv7实例分割剔除动态特征的方

27、法。图3为ORBSLAM2、YOLOv7与LK光流+YOLOv7估计的相机运动轨迹对比图。图中实线为相机的真实轨迹,点线为算法估计的轨迹,从图中可以看出,本文算法在s_h、s_r、w_h数据集中估计的相机轨迹更加贴合真实估计,估计轨迹与真实轨迹的误差更小,直观地体现了本文算法的先进性。将本文算法的 ATE 与其他优秀的语义 SLAM 相对比,如DSSLAM、DynaSLAM,结果如表3所示。在 4 个低动态数据集中,本文算法有 5 个最优,且ORBSLAM2有 2个最优,其他优秀算法仅 1个最优;在4个高动态数据集中,本文算法有 4个最优。本文算法在低动态数据集中的表现优于其他算法,在高动态数

28、据集中也有不弱于其他算法的表现,充分验证了本文算法的优越性。刘 强,等:基于LK光流与实例分割的联合动态一致性vSLAM算法37现代电子技术2023年第46卷2.2 真实场景为了评估本文算法在真实场景中的性能,使用Kinect v2深度相机对实验室的日常场景进行图像信息提取,并输入本文算法,对算法运行中的特征提取、实例分割、光流运行信息、动态特征剔除进行可视化展示,如图 4所示。从图 4第一列图像可以看出,当人坐在椅子上处于低动态时,本文算法认定其为静止状态,不剔除其上特征点;图中第二列,当人从座位中起身时被认定为动态状态,剔除其上特征点;图中第三列和第四列,人处于行走时,本文算法认定人处于运

29、动状态,剔除其上特征点。综合图4可以得出,本文算法可以精准地对运动特征进行剔除。图3 本文算法与ORBSLAM2的跟踪轨迹对比 表3 本文算法与经典SLAM算法的绝对轨迹误差对比 m数据集s_hs_rs_ss_xw_hw_rw_sw_xORBSLAM2均方根0.022 00.023 20.008 60.009 30.497 60.921 70.375 30.756 8标准差0.012 70.015 30.004 10.004 60.244 30.488 20.152 60.390 3DynaSLAM均方根0.018 50.040 40.006 70.013 80.026 10.032 50.0

30、06 40.015 6标准差0.009 00.030 20.002 80.005 60.012 30.019 40.003 10.007 9DSSLAM均方根0.015 60.021 40.006 50.010 40.030 30.444 20.008 10.024 7标准差0.007 00.014 80.003 30.005 40.015 90.235 00.006 70.016 1YOLOv7均方根0.016 30.023 10.006 00.011 40.025 80.037 70.007 90.015 4标准差0.007 30.014 60.003 10.014 00.013 30.0

31、21 70.003 20.007 7LK光流+YOLOv7均方根0.013 90.019 10.005 90.010 80.022 90.049 40.008 30.014 9标准差0.006 10.012 00.003 00.005 60.011 40.032 50.003 80.007 438第19期3 结 语本文将物体分为 3类:静态物体、动态物体和潜在动态物体,通过 YOLOv7 实例分割掩码与先验信息,对其运动概率赋予初值,然后将 YOLOv7实例分割与光流运动信息相结合,分别计算每一个动态物体和潜在动态物体光流位移增量,根据位移增量判定其是否运动,最终对运动物体上提取的特征点进行剔

32、除。本文算法能很好地判定物体的运动状态,不像其他语义 SLAM,直接对先验动态物体进行剔除,忽略了余留的静态特征太少,导致算法定位精度降低。在 TUM RGBD 数据集中对本文算法进行验证,实验结果表明:本文算法在低动态数据集中定位效果优于其他算法,在高动态数据集中也处于一流的水平。本文算法在真实场景中的运行过程展示了对于动态物体的运动状态判别精准,能有效地帮助提高算法的定位能力。在未来的工作中,将探索以物体作为地标的语义SLAM。注:本文通讯作者为袁杰。参考文献1 王柯赛,姚锡凡,黄宇,等.动态环境下的视觉SLAM研究评述J.机器人,2021,43(6):715732.2 朱博,高翔,赵燕喃

33、.机器人室内语义建图中的场所感知方法综述J.自动化学报,2017,43(4):493508.3 王朋,郝伟龙,倪翠,等.视觉 SLAM方法综述J/OL.北京航空航 天 大 学 学 报:1920221010.DOI:10.13700/j.bh.10015965.2022.0376.4 DAVISON A J,REID I D,MOLTON N D,et al.MonoSLAM:Realtime single camera SLAM J.IEEE transactions on pattern analysis and machine intelligence,2007,29(6):1052106

34、7.5 KLEIN G,MURRAY D W.Parallel tracking and mapping for 图4 真实场景验证刘 强,等:基于LK光流与实例分割的联合动态一致性vSLAM算法39现代电子技术2023年第46卷small AR workspaces C/2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality.New York:IEEE,2007:225234.6 MUR ARTAL R,MONTIEL J M M,TARDOS J D.ORB SLAM:a versatile

35、and accurate monocular SLAM system J.IEEE transactions on robotics,2015,31(5):11471163.7 NEWCOMBE R A,LOVEGROVE S,DAVISON A J.DTAM:Dense tracking and mapping in realtime C/2011 International Conference on Computer Vision.New York:IEEE,2011:23202327.8 ENGEL J,KOLTUN V,CREMERS D.Direct sparse odometry

36、 J.IEEE transactions on pattern analysis and machine intelligence,2018,40(3):611625.9 KLAPPSTEIN J,VAUDREY T,RABE C,et al.Moving object segmentation using optical flow and depth information M/WADA T,HUANG F,LIN S.Lecture notes in computer science.Berlin,Germany:Springer,2009:611623.10 KUNDU A,KRISHN

37、A K M,SIVASWAMY J.Moving object detection by multi view geometric techniques from a single camera mounted robot C/IEEE/RSJ International Conference on Intelligent Robots and Systems.New York:IEEE,2009:43064312.11 GUO Y M,LIU Y,OERLEMANS A,et al.Deep learning for visual understanding:A review J.Neuro

38、computing,2016,187:2748.12 SEVAK J S,KAPADIA A D,CHAVDA J B,et al.Survey on semantic image segmentation techniques C/2017 International Conference on Intelligent Sustainable Systems(ICISS).New York:IEEE,2017:306313.13 YU C,LIU Z X,LIU X J,et al.DSSLAM:A semantic visual SLAM towards dynamic environme

39、nts C/IEEE/RSJ International Conference on Intelligent Robots and Systems.New York:IEEE,2018:11681174.14 BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:A deep convolutional encoderdecoder architecture for image segmentation J.IEEE transactions on pattern analysis and machine intelligence,2017,39(12):24

40、812495.15 BESCOS B,FCIL J M,CIVERA J,et al.DynaSLAM:Tracking,mapping,and inpainting in dynamic scenes J.IEEE robotics and automation letters,2018,3(4):40764083.16 HE K,GKIOXARI G,DOLLR P,et al.Mask RCNN C/Proceedings of the IEEE International Conference on Computer Vision.New York:IEEE,2017:29612969

41、.17 徐春波,闫娟,杨慧斌,等.基于目标检测和语义分割的视觉SLAM 算 法 J/OL.计 算 机 工 程:1 92022 10 18.DOI:10.19678/j.issn.10003428.0065522.18 RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:An efficient alternative to SIFT or SURF C/2011 International Conference on Computer Vision.New York:IEEE,2011:25642571.19 LUCAS B D,KANADE T.An iterati

42、ve image registration technique with an application to stereo vision C/7th International Joint Conference on Artificial Intelligence.S.l:William Kaufmann,1981:674679.20 HORN B K P,SCHUNCK B G.Determining optical flow J.Artificial intelligence,1981,17(13):185203.21 WANG C Y,BOCHKOVSKIY A,LIAO H Y M.Y

43、OLOv7:Trainable bagoffreebies sets new stateoftheart for realtime object detectors EB/OL.(20220702)20221026.https:/arxiv.org/pdf/2207.02696v1.pdf.22 STURM J,ENGELHARD N,ENDRES F,et al.A benchmark for the evaluation of RGBD SLAM systems C/2012 IEEE/RSJ International Conference on Intelligent Robots and Systems.New York:IEEE,2012:573580.作者简介:刘 强(1994),男,硕士研究生,研究方向为视觉SLAM。袁 杰(1975),男,教授,博士生导师,研究方向为人工智能与模式识别。匡本发(1996),男,硕士研究生,研究方向为视觉SLAM。40

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服