顾及动态物体感知的增强型视觉SLAM系统.pdf

资源描述

1、第 55 卷第 5 期2023 年 10 月Vol.55 No.5Oct.2023南京航空航天大学学报Journal of Nanjing University of Aeronautics&Astronautics顾及动态物体感知的增强型视觉 SLAM 系统李佳1，李明磊1，魏大洲2，吴伯春2，郭文骏2（1.南京航空航天大学电子信息工程学院，南京 211106；2.中国航空无线电电子研究所，上海 200233）摘要：传统的同步定位与制图（Simultaneous localization and mapping，SLAM）系统在复杂环境下工作时，无法分辨环境中的物体是否存在

2、运动状态，图像中运动的物体可能导致特征关联错误，引起定位的不准确和地图构建的偏差。为了提高 SLAM 系统在动态环境下的鲁棒性和可靠性，本文提出了一种顾及动态物体感知的增强型视觉 SLAM 系统。首先，使用深度学习网络对每一帧图像的动态物体进行初始检测，然后使用多视图几何方法更加精细地判断目标检测无法确定的动态物体区域。通过剔除属于动态物体上的特征跟踪点，提高系统的鲁棒性。本文方法在公共数据集 TUM 和 KITTI上进行了测试，结果表明在动态场景中定位结果的准确度有了明显提升，尤其在高动态序列中相对于原始算法的精度提升在 92%以上。与其他顾及动态场景的 SLAM 系统相比，本文方法在保持精

3、度优势的同时，提高了运行结果的稳定性和时间效率。关键词：同步定位与制图；动态环境；目标检测；多视图几何中图分类号：TP242 文献标志码：A 文章编号：10052615（2023）05078909Enhanced Visual SLAM System Considering Dynamic ObjectsLI Jia1，LI Minglei1，WEI Dazhou2，WU Bochun2，GUO Wenjun2（1.College of Electronic and Information Engineering，Nanjing University of Aeronautics&Astron

4、autics，Nanjing 211106，China；2.China Institute of Aeronautical Radio Electronics，Shanghai 200233，China）Abstract:When working in complex scenarios，traditional simultaneous localization and mapping（SLAM）systems cannot distinguish whether the visible objects are moving.Moving objects in the images may l

5、ead to wrong feature association，resulting in the inaccuracy of positioning and the deviation of mapping.To improve the robustness and reliability of the SLAM system in dynamic scenarios，an enhanced visual SLAM system with dynamic object perception is proposed in this paper.Firstly，the object detect

6、or is used to initially detect the dynamic objects in each image，and then the multi-view geometry method is further used to extract the dynamic regions that cannot be determined by the object detection.The robustness of the system is improved by eliminating feature points belonging to dynamic object

7、s.The proposed method is tested in public datasets TUM and KITTI.The results show that the localization accuracy of the proposed method in dynamic scenes has been significantly improved，especially in high dynamic sequences.Compared with the original algorithm，the accuracy is improved by more than 92

8、%.Compared with other SLAM systems in dynamic scenarios，the proposed method not only maintains the accuracy advantage，but also improves the stability of running results and time efficiency.Key words:simultaneous localization and mapping；dynamic environment；object detection；multi-view geometryDOI：10.

9、16356/j.10052615.2023.05.005基金项目：国家自然科学基金（42271343）；核工业北京地质研究院国家级重点实验室基金（6142A010403）。收稿日期：20221030；修订日期：20230103通信作者：李明磊，男，副教授，Email：minglei_。引用格式：李佳，李明磊，魏大洲，等.顾及动态物体感知的增强型视觉 SLAM 系统 J.南京航空航天大学学报，2023，55（5）：789797.LI Jia，LI Minglei，WEI Dazhou，et al.An enhanced visual SLAM system considering dynamic

10、 objectsJ.Journal of Nanjing University of Aeronautics&Astronautics，2023，55（5）：789797.第 55 卷南京航空航天大学学报同步定位与制图（Simultaneous localization and mapping，SLAM）技术是很多机器人应用的前提条件，它为路径规划、无碰撞导航和环境感知等任务提供支持。与激光雷达传感器相比，视觉传感器能够获取图像的纹理信息，可以拓展其他基于视觉的研究。视觉 SLAM 的框架通常包括图像信息读取、视觉里程计、后端优化、回环检测与建图。其中，视觉里程计

11、作为 SLAM 系统的前端，能够通过传感器读取的图像信息来估计相机运动，其实现方法根据处理技术的不同可以分为直接法和特征点法两类12。直接法基于灰度不变假设，使用每帧图像的全部像素信息，通过最小化光度误差来优化相机的位置姿态，对于图像的灰度值变化比较敏感。特征点法需要对图像进行特征的提取与匹配，通过匹配的特征构建并最小化重投影误差来优化相机的位置姿态，其相关研究的积累比较丰富，系统性能相对稳定。对于大部分传统视觉 SLAM 系统35，无论是直接法还是特征点法，均是以基于场景为静态且主要变化由相机运动造成的假设为前提。然而在实际环境中，动态物体的存在不可避免，例如运动的行人和车辆。从动态物体中提

12、取的特征跟踪点会增加系统不确定性，降低对相机位置姿态估计的精度，甚至导致定位的失败。一些系统68会在特征匹配时采用随机抽样一致（Random sample consensus，RANSAC）算法9去除错误的匹配点对，提高在动态环境下的鲁棒性。但是这种方法具有随机性，无法从根本上针对性地剔除位于动态物体中的特征点。因此，对动态物体的感知和处理成为提高视觉 SLAM 系统的定位与制图精度的重要突破方向。由于相机自身的运动会给动态物体的检测带来很大的挑战，因此使用单一的方法不能完整地分割出动态区域，而由于检测方法的不同，能够检测出动态物体的类型会略有不同。本文提出一种基于深度学习和几何约束的算法来处

13、理视觉 SLAM 过程中的动态物体，能够适用于 RGBD、双目和单目等多种类型的影像数据。其中，深度学习方法将动态物体根据语义知识定义为车辆和人这类具有自主移动能力的潜在运动对象，而几何约束方法将不满足几何约束的点集标记为动态，检测的是场景中真实运动的动态物体。基于 ORBSLAM28系统框架，添加一个前端的处理模块来实现动态物体的感知检测。在特征跟踪步骤中，基于区域掩膜剔除属于动态物体部分的特征跟踪点，从而提高特征关联的可靠性，使系统拥有更准确的输出。1 相关研究1.1SLAM近十几年来，视觉 SLAM 取得了快速的发展，它因为成本低、体积小等优点受到很多研究人员的关注。Davison 等5

14、提出了 MonoSLAM 来实现通过单目相机进行实时定位与建图的目标，是较早期的一种视觉 SLAM 系统。随后，Klein 等6提出的PTAM（Parallel tracking and mapping）创造性地将整个系统划分为两个线程：跟踪和建图，成为一个参考基准。Engel等10提出的 LSDSLAM 将直接法应用到了半稠密的单目 SLAM 中，可以构建大规模、一致的环境地图。同时，Forster 等1112提出了一种将直接法和特征点法结合的视觉里程计（Semidirect monocular visual odometry，SVO）。除此之外，直接稀疏里程计（Direct sparse

15、odometry，DSO）13、单目视觉惯性状态估计器（Visual inertial navigation systemmonocular，VINSmono）14等框架也都使用了直接法。虽然直接法在跟踪和匹配方面能够节省计算资源，但其稳定性仍有待提高。基于特征点提取与匹配的方法能够保证在SLAM 跟踪中位姿估计的准确性，Leutenegger等15提出的基于双目相机和惯性导航系统的 OKVIS 和 MurArtal 等78提出的 ORBSLAM 和ORBSLAM2 都是基于特征跟踪的经典 SLAM系统。ORBSLAM2 的框架采纳了多线程机制，使用

16、了 ORB（Oriented FAST and rotated BRIEF）16特征点和 3个主要的并行线程，使系统能够在大场景、大回环下长时间运行，从而保证了相机轨迹与地图的全局一致性。ORBSLAM2 具有良好的定位与建图性能，但在处理动态环境问题方面仍然有许多不足，其稳定性会随着动态物体在影像中的增加而显著下降，甚至直接引起定位失败。1.2动态环境下的 SLAM目前研究人员对于提升视觉 SLAM 在动态环境下的性能所采取的解决思路是基本一致的，即在前端视觉里程计之前，使用某种方法检测图像中的动态物体并进行筛除，然后仅使用环境中的静态特征关联点来参与计算17。得益于深度学习技术的发展，如今

17、一些检测器已经能够很好地识别图像中一些特定的动态物体（如汽车、行人和动物等）。Zhong 等18开发的 DetectSLAM 在 ORBSLAM2的基础上结合目标检测网络 SSDNET 对关键帧中的动态物体进行检测，将特征点属于动态物体的概率称为运动概率。通过特征匹配点和周围区域的点来更新普通帧中的特征点的运动概率，从而标790第 5 期李佳，等：顾及动态物体感知的增强型视觉 SLAM 系统记出所有帧中特征点的运动情况。不过，通过深度学习的方法剔除动态目标往往会受其训练数据集的约束，因此也有一些方法是联合深度学习和几何约束一起进行检测19。Yu 等20开发的 DSSLAM 将语义分割网络Seg

18、Net 设置为一个独立的线程，对于前后两帧图像通过极线几何方法联合语义分割结果检测动态特征点，然而文中仅将人设置为要分割的动态物体，并且网络的分割效果还有很大的提升空间。Bescos等21开发的 DynaSLAM 使用 Mask RCNN网络进行语义分割识别出先验的动态物体，结合多视图几何方法增强动态范围感知能力。Li等22开发的 DPSLAM 将语义分割网络和极线几何方法的检测结果转换为观测概率，基于贝叶斯定理对特征点的移动概率进行更新，然后剔除移动概率较高的特征点。除了使用深度学习和几何约束的方法，还可以采用光流法对动态区域进行检测。艾青林等23提出了一种在室内环境中检测动态物体的 RGB

19、D SLAM 算法，通过单应变换来补偿由相机运动带来的背景变化，使用双向的光流法对运动的前景物体进行判断，最后根据几何连通性与深度图像聚类结果对动态物体进行分割。现有的 DynaSLAM21和 DPSLAM22等系统主要使用两阶段检测网络模型提取像素级的目标分割来筛除动态物体，对动态物体的像素分割精度很高，避免了一阶段检测网络提取的包围框会损失大量有效静态场景像素区域的情况。然而，两阶段网络模型的计算复杂度更高，并且对于边界区域一般需要使用膨胀算法进行处理，使得每一次分割的边缘都具有了不确定性。本文的思想是利用一阶段的目标检测网络提高计算的时效性，同时通过多视图几何的方法，减少矩形包围框带来的

20、静态场景特征区域的损失。2 算法设计2.1系统框架设计本文的算法在 ORBSLAM2 的框架基础上结合深度学习和几何约束的方法来提高系统在动态环境下的鲁棒性，同时考虑了单目、双目以及RGBD 相机 3 种情况，系统的总体框架如图 1所示。由图 1可以看出，对于使用单目和双目相机的情况，系统通过 YOLOv5 网络将人和车辆视作潜在的运动物体进行检测，利用剩余的静态区域进行后续的地图更新与全局优化。对于使用 RGBD 相机的情况，由于 RGBD 相机能够直接采集图像中每一个像素点的深度信息，系统利用提取的深度信息增加了一个基于深度变化的多视图几

21、何方法21 的运动一致性判断模块，该模块针对目标检测遗漏的区域以及先验知识无法确认但可能被移动的静态物体（例如被人拿起的书）进行判断。本文将考虑了 YOLOv5网络和多视图几何综合判别的方法简称为 YGSLAM 算法。2.2基于 YOLOv5的动态物体检测目前，一阶段目标检测网络的检测精度和检测速度已经具有良好的实时应用优势24，常见的模型有 YOLO 系列和 SSD。与早期的 YOLO 相比，SSD 采用了和 Faster RCNN 相似的先验框概念，并删除了 bounding box proposal以及后续的重采样步骤，检测结果更精确，检测速度也相近。但是SSD 的先验框需要人工设置参数

22、，导致调试过程依赖经验。YOLOv5 采用了自动锚框计算，可以在不同训练集中自适应地计算出最佳的锚框值，它图 1 本文方法的框图Fig.1 Diagram of the proposed method791第 55 卷南京航空航天大学学报在 YOLOv425算法上做了进一步的改进，增加了Focus 等模块，在保证模型识别精度的同时，进一步提高了运算速度，并且模型的权重相对 YOLOv4 而言更小。YOLOv5 一共有 4 个版本，分别为YOLOv5x、YOLOv5l、YOLOv5m和YOLOv5s。本文采用网络深度和特征图宽度均最小的网络 Y

23、OLOv5s 作为动态物体检测的基准网络。首先，利用 YOLOv5 的语义知识检测先验的动态物体，将检测网络输出的检测框分为高动态和低动态两类。高动态框内检测的是能够自主移动的物体，即人与车辆，低动态框内检测的是不会自主移动的物体，例如椅子、书本等。由于使用的是矩形包围框的形式来框选检测的目标，因此低动态框与高动态框相互之间会存在相交区域，需要设计一套处理机制分别分析各个部分的像素类型。根据矩形框的相对位置关系，本文将位于高动态框内、低动态框外的区域，划分为动态区域，认为其中提取的特征点具有高不可靠性，故将其去除；将位于高动态框和低动态框相交的区域，划分为待定区域，其中特征

24、点的动态特性需要等候做进一步判断；将其余没有产生检测框的区域划分为静态区域，该区域内检测到的跟踪匹配的特征点被视为是可靠性较高的特征关联。如图 2所示，其中红色区域表示动态区域，黄色区域表示待定区域。可以看出，由于检测框的特性，黄色区域不仅包含低动态对象，也包含高动态对象的局部，三幅图中的黄色区域都包含了人的部分身体。本文使用的 YOLOv5目标检测网络的模型是通过在 COCO 数据集26上预先训练得到参数，能够确定有限类别的目标对象。由于训练样本有限，在复杂情况下使用目标检测网络检测动态区域有可能会出现漏检和错检的情况，如图 3 所示。图 3（a）表示人移动椅子的情况，由于使用先验的语义知识

25、将椅子判断为了低动态类，故目标检测对于此时移动的椅子无法进行有效地判断；图 3（b）表示检测框在整幅图像占比过大的情况，由于目标检测网络的结果无法做到像素级语义分割网络那样精确，因此在相机旋转角度过大或者要检测的目标动态物体离相机距离过近时，得到的动态区域占整幅图像的比例会过大，此时如果将其中的特征点全部去除会出现特征匹配过少导致的相机跟踪失败的情况；图 3（c）表示目标检测网络漏检的情况，当输入图像比较模糊或者旋转角度过大时可能会出现检测失败的情况。对于上述场景，本文采用几何约束的方法进行联合检测。2.3基于多视图几何方法的动态物体检测对于划分的待定区域以及目标检测网络的错检和漏检情况，使用

26、多视图几何方法从像素级层面进行进一步的判断。首先，对于输入的每一帧图像，通过目标检测网络确定动态区域后，使用位于静态区域的特征点进行轻量级的相机跟踪，得到当前帧的一个估计位姿。选择跟踪的地图点超过 50个并且和上一关键图 2 目标检测网络确定区域Fig.2 Object detector determines the region图 3 目标检测无法满足的情况Fig.3 Situations of object detection not to met792第 5 期李佳，等：顾及动态物体感知的增强型视觉 SLAM 系统帧的地图点重叠度小于 90%的帧作为关键帧，这样做的目的是为了使插入的关键

27、帧之间保持一定距离，减少信息的冗余。计算当前帧与每个关键帧之间的旋转和距离来衡量重叠度，令 d作为两帧之间的重叠度，计算公式为d=0.7ttmax+0.3rrmax（1）r=eKFeCF2（2）t=tKFtCF2（3）式中：eKF和eCF分别为关键帧和当前帧位姿的欧拉角；tKF和tCF分别为关键帧和当前帧位姿的平移向量；r为两帧之间位姿的欧拉角的模长；t为两帧之间平移的距离；tmax和rmax分别为所有t和r中的最大值。选择与其重叠度最高的至多 5个关键帧，根据三角测量原理，将其中的二维像素特征点x=u，v，1 T转换到世界坐标系中得到三维地图点M=X，Y，Z，1 T，简化的计算方程表示为 X

28、YZ1=ZT-1cwK-1uv1（4）式中：Tcw为从世界坐标系到相机坐标系的变换矩阵；K为相机的内参矩阵。利用轻量级相机跟踪得到的当前帧位姿，将世界坐标系下的地图点投影到当前帧中，得到特征点x和投影深度Zproj。计算特征点x与x对应的地图点之间的夹角，即视差角=180arccos(M-tKF)(M-tCF)M-tKF2M-tKF2（5）如果这个角度大于 30，那么该点可能存在被遮挡的情况，此时将其划分到动态区域。此外，将关键帧的特征点投影到当前帧中得到的投影深度Zproj与在当前帧的深度图中直接获得的深度Z进行比较，如果差值超过了某个阈值，也认为该特征点落在了动态区域中。在当前帧的深度图中

29、，利用获得的动态像素点进行区域增长，得到动态区域的像素级掩膜。图 4给出了示例图像，其中第 2行图像用黑色像素展示了利用上述方法得到的掩膜区域。可以看到，针对2.2 节中提到的目标检测网络不能满足的情况，多视图几何方法都能给出补充的检测结果。但是由于本方法依赖于 RGBD 相机提供的深度信息，对于超出深度量程的物体，RGBD 相机并不能提供准确的测量结果，这就导致多视图几何方法不能检测出距离相机过远的动态物体。同时，为了提高计算的准确度，对动态物体的每一次判断都至少需要 5帧关键帧参与，这会给结果带来一定的滞后性。而目标检测网络直接对单帧图像进行检测，不受深度信息的限制，不依赖已有的关键帧，可

30、以和多视图几何方法实现互补，达到更加精确的检测效果。3 实验与分析实验分别采用 TUM 数据集27和 KITTI 数据集28来评价系统的综合能力。本文实验环节采用文献 21 的设置，系统对于每个测试图像序列都运行了 10 次。所有实验均在 Intel CoreTM i5114000F CPU、12核主频2.60 GHz、内存16.0 GB配置的 Windows操作系统的台式机上完成。实验中使用文献 27 提出的绝对轨迹误差（Absolute trajectory error，ATE）来评估算法在定位上的性能。图 4 基于多视图几何方法得到的像素级掩膜Fig.4 Mask(blac

31、k pixels)obtained by multiview geometry method793第 55 卷南京航空航天大学学报为更好地反映系统的鲁棒性和稳定性，采用均方根误差（Root mean square error，RMSE）作为评价指标。3.1TUM 数据集RGBD TUM 数据集27由 Microsoft Kinect 传感器在不同室内场景下以 30 Hz 频率记录的 39 个序列组成，每个序列包括 RGB图像、深度图像和使用高精度光学捕捉系统获得的标准轨迹。在名为sitting的低动态序列中，有两个人坐在桌子前一边说话一边做手势。在名为 walking 的高动

32、态序列中，有两个人同时在背景和前景中持续行走，这对于标准的 SLAM 系统具有挑战性。对于 sitting（s）和 walking（w）这 2种类型的序列，有xyz、rpy、半球面、静止这 4 种类型的相机运动，例如，xyz表示相机沿着x、y、z三个轴的方向运动。表 1展示了本文算法在 TUM 数据集上进行消融实验的结果。其中，算法 YOLOv5SLAM 表示在 SLAM 系统中只使用 YOLOv5对动态目标进行检测；算法 GeoSLAM 表示在 SLAM 系统中只使用多视图几何方法对动态区域进行检测；算法YGSLAM 表示联合了 YOLOv5 和多视图几何的方法识别动态区域的增强型系统。从表

33、 1 可以看出，在大多数序列中，使用改进算法 YGSLAM 系统是最精确的。与只使用深度学习的 YOLOv5SLAM 相比，增加了几何约束检测的改进算法对动态对象的检测更加细化。同时，由于弥补了目标检测网络的局限性，其在 10 次运行中的结果也更加稳定。与原始的 ORBSLAM2 系统相比较，在高动态的 walking 序列中，改进算法 YGSLAM 对于原系统定位准确度的提升在 92%以上；在低动态的sitting 序列中，人的运动幅度小，进行筛除操作后留下的特征点距离相机较远，因此 YGSLAM 的结果与原始 ORBSLAM2 系统的结果接近。图 5直观地展

34、示了改进算法 YGSLAM 与ORBSLAM2的序列轨迹与真值的差距。表 1 改进算法进行消融实验的 ATETable 1 ATE of ablation experiment with proposed method图像序列w_半球面/mw_xyz/mw_rpy/mw_静止/ms_半球面/ms_xyz/mORBSLAM280.3510.4590.6620.0900.0200.009YOLOv5SLAM0.0200.0130.0400.0080.0160.010GeoSLAM0.0350.3120.2510.0090.0180.009YGSLAM0.0180.0130.0320.0

35、070.0170.010准确度提升/%94.8797.1795.1792.2215.00-11.1图 5 TUM 数据集序列轨迹Fig.5 Trajectories of sequences from TUM dataset794第 5 期李佳，等：顾及动态物体感知的增强型视觉 SLAM 系统为验证算法的先进性，实验内容将本文所提的YGSLAM 算法与目前先进的动态环境系统 DynaSLAM 进行了比较。表 2 给出了 YGSLAM 和DynaSLAM 在 TUM 数据集上的运行 10次结果中的中值、最小值与最大值。可以看出，改进算法除了在 walking静止的序列中的运行

36、结果比 DynaSLAM 的运行结果略差，在其他序列中的运行结果都具有优势。DynaSLAM 使用 MaskRCNN和膨胀算法会增加物体边缘的检测结果的不确定性，从 10次结果的最大值、中值和最小值的比较得出，本文 YGSLAM 在大部分序列中的不确定性更小，结果更稳定。表 3 给出了 YGSLAM 与 DSSLAM、DetectSLAM、DPSLAM 和 RGBD SLAM 这几种目前先进的算法的运行结果比较，其中“-”表示计算失败情况。可以看出，YGSLAM 的定位精度要优于其他方法。3.2KITTI数据集KITTI数据集28包含了在城市和高速公路环境中行驶的汽车记录的双目视频序列

37、，可以用来评估 SLAM 系统在户外动态环境下的定位性能。表 4 展示了本文提出的 YGSLAM 算法在 11 个序列中运行的结果，与 ORBSLAM2 和 DynaSLAM的运行结果进行了对比，使用文献 27 中提出的ATE 和文献29提出的相对平移误差（Relative pose error，RPE）与相对旋转误差（Relative translation and rotation errors，RRE）进行性能评估。表 5给出了单目影像下的结果比较。表 2 基于 RGBD数据的 YGSLAM 和 DynaSLAM 的 ATETable 2 ATE of YGSLAM and DynaSL

38、AM based on RGBD datam图像序列w_半球面w_xyzw_rpyw_静止s_半球面s_xyzDynaSLAM21中值0.0250.0150.0350.0060.0170.015最小值0.0240.0140.0320.0060.0160.013最大值0.0310.0160.0380.0080.0200.015本文 YGSLAM中值0.0180.0130.0320.0070.0170.010最小值0.0180.0130.0280.0070.0150.010最大值0.0210.0140.0370.0090.0200.011表 3 基于 RGBD数据的 DSSLAM、DetectSL

39、AM、DPSLAM、RGBD SLAM 和本文 YGSLAM 的 ATETable 3 ATE of DSSLAM，DetectSLAM，DPSLAM，RGBD SLAM and YGSLAM based on RGBD datam图像序列w_半球面w_xyzw_rpyw_静止s_半球面s_xyzDSSLAM200.025 80.024 70.444 20.008 1-DetectSLAM180.051 40.024 10.295 9-0.023 10.020 1DPSLAM220.025 40.014 10.035 60.007 90.018 2-RGBD SLAM230.031 60.01

40、7 10.194 40.009 10.015 20.012 3本文 YGSLAM0.018 00.013 00.032 00.007 00.017 00.010 0表 4 基于双目数据的 ORBSLAM2、DynaSLAM 与 YGSLAM 的 RPE、RRE和 ATETable 4 RPE,RRE and ATE of ORBSLAM2,DynaSLAM and YGSLAM based on stereo data图像序列KITTI 00KITTI 01KITTI 02KITTI 03KITTI 04KITTI 05KITTI 06KITTI 07KITTI 08KITTI 09KITTI

41、 10ORBSLAM28RPE/%0.701.390.760.710.480.400.510.501.050.870.60RRE/（）100 m-1）0.250.210.230.180.130.160.150.280.320.270.27ATE/m1.310.45.70.60.20.80.80.53.63.21.0DynaSLAM21RPE/%0.741.570.800.690.450.400.500.521.050.930.67RRE/（）100 m-1）0.260.220.240.180.090.160.170.290.320.290.32ATE/m1.49.46.70.60.20.80.

42、80.53.51.61.2本文 YGSLAMRPE/%0.711.490.750.700.420.410.450.481.070.900.59RRE/（）100 m-1）0.250.230.230.180.110.160.190.260.320.260.21ATE/m1.310.555.90.60.20.80.70.53.73.151.1795第 55 卷南京航空航天大学学报改进算法在单目和双目影像下的运行结果较为类似。可以看到对于某些序列，如 KITTI 04，其中所有出现的车辆都在移动，因此使用改进算法的 SLAM 系统在其中的运行轨迹精度得到了提高。但在大部分序列中，出

43、现的车辆大都停放在路边，处于静止状态，这会增加动态判别模块对动态区域的误判率，使提取的特征点数量减少，所以运行结果的绝对轨迹误差更大。不过，由于去除了具有移动潜力的对象，由静态环境的特征点生成的地图能够长期重复使用，这使得回环检测和重定位算法更加稳健。3.3运行时间分析根据官方给出的数据，目前 YOLOv5s模型30对一帧图像的处理时间最快可以达到 0.009 s，而Mask RCNN31的处理时间为 0.195 s。在本文实验所使用的运行环境下实际运行时，YOLOv5s 模型处理一帧图像的平均时间为 0.068 s，而 Mask RCNN 的平均处理时间为 0.95 s，ORBSLAM2对一

44、帧图像进行跟踪的平均时间为 0.027 s，而本文的增强型 YGSLAM 每一帧的处理时间为 0.139 s。其中由于几何约束中使用的区域增长算法是一种迭代的方法，其时间开销较大。在低动态序列中，由于运动幅度小，YGSLAM 使用几何约束方法的迭代次数会减少，计算时间会显著回升。尽管相比于 ORBSLAM2 计算效率有所下降，但相比于DynaSLAM 等使用了两阶段检测网络的系统而言，YGSLAM 可以保持较好的实时性。4 结论本文提出了一个在传统多线程框架上进行增强型的视觉 SLAM 系统，联合深度学习与几何约束的方法检测图像中的动态区域，剔除不稳定的特征跟踪点，使 S

45、LAM 系统能够在动态环境中对单目、双目和 RGBD影像数据具有更好的鲁棒性。本系统提高了相机跟踪的精度，并创建一个基于静态环境的可重复使用的场景地图。实验结果表明，与其他方法相比，本文方法在多数情况下都达到了良好的精度表现，运行结果也更加稳定，减少了由于动态对象检测给系统带来的不确定性。由于系统使用了深度学习的方法检测运动对象，当发生检测到的潜在动态物体并未进行运动的情况，例如静止的汽车，则会减少跟踪的特征点的数量，影响跟踪结果。因此，未来的研究工作将增加针对SLAM 系统视频流中的动态物体运动模型估计以及运动参数计算的内容，进一步优化 SLAM 系统的鲁棒性。参考文献：1丁文东，徐德，刘希

46、龙，等.移动机器人视觉里程计综述 J.自动化学报，2018，44（3）：385-400.DING Wendong，XU De，LIU Xilong，et al.Review on visual odometry for mobile robots J.Acta Automatica Sinica，2018，44（3）：385-400.2邹雄，肖长诗，文元桥，等.基于特征点法和直接法 VSLAM 的研究J.计算机应用研究，2020，37（5）：1281-1291.ZOU Xiong，XIAO Changshi，WEN Yuanqiao，et al.Research of feat

47、ure-based and direct methods VSLAMJ.Application Research of Computers，2020，37（5）：1281-1291.3WHELAN T，LEUTENEGGER S，SALAS-MORENO R，et al.ElasticFusion：Dense SLAM without a pose graph C/Proceedings of the 11th Conference on RoboticsScience and Systems.Cambridge，USA：MIT Press，2015.4KERL C，STURM J，CREME

48、RS D.Dense visual SLAM for RGB-D cameras C/Proceedings of the 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems.New York，USA：IEEE，2013：2100-2106.5DAVISON A J，REID I D，MOLTON N D，et al.MonoSLAM：Real-time single camera SLAM J.IEEE Transactions on Pattern Analysis and Machine Int

49、elligence，2007，29（6）：1052-1067.6KLEIN G，MURRAY D.Parallel tracking and mapping for small AR workspaces C/Proceedings of the 6th IEEE and ACM International Symposium on Mixed and Augmented Reality.New York，USA：IEEE，2007：225-234.7MUR-ARTAL R，MONTIEL J M M，TARDOS J D.ORB-SLAM：A versatile and accurate m

50、onocular SLAM system J.IEEE Transactions on Robotics，2015，31（5）：1147-1163.表 5 基于单目数据的 ORBSLAM2、DynaSLAM 与YGSLAM 的 ATE Table 5 ATE of ORBSLAM2,DynaSLAM and YGSLAM based on monocular datam图像序列KITTI 00KITTI 02KITTI 03KITTI 04KITTI 05KITTI 06KITTI 07KITTI 08KITTI 09KITTI 10ORBSLAM285.3321.281.511.

展开阅读全文