1、89现 代 工 程 科 技Modern Engineering Technology第 3 卷第 4 期2024 年 2 月Vol.3 No.4Feb.2024基于 SLAM 中视觉与 IMU 传感器融合方法综述王新域上海应用技术大学理学院,上海 201418摘 要:同步定位与建图(Simultaneous Localization And Mapping,SLAM)技术已经成为移动机器人领域重要的导航方式,视觉传感器由于便宜的价格和丰富的图像信息,让视觉同步定位与建图(Visual Simultaneous Localization And Mapping,V-SLAM)技术受到研究者广泛关
2、注。为提升 V-SLAM 的综合性能,多种传感器信息融合的 V-SLAM得到了快速发展。归纳并整理几何变换法的 V-SLAM 中各关键环节,详细阐述了 SLAM 中视觉与 IMU 传感器融合方法,对松融合与紧拟合两种主流方法进行论述,并对一些具有代表性的传统视觉惯性融合的 SLAM 方案进行讨论分析。最后,总结了视觉惯性融合的 SLAM 方案的关键问题和未来的发展方向。关键词:导航方式;V-SLAM;视觉惯性融合中图分类号:TP242 文献标识码:AOverview of Visual and IMU Sensor Fusion Methods in SLAMWang XinyuCollege
3、 of Sciences,Shanghai Institute of Technology,Shanghai 201418Abstract:Simultaneous Localization and Mapping(SLAM)has become an important navigation method in the field of mobile robotics.Visual sensors,due to their low cost and rich image information,have attracted extensive attention in Visual SLAM
4、(V-SLAM)research.To improve the overall performance of V-SLAM,V-SLAM with sensor fusion of multiple sensors has been rapidly developed.This article summarizes and organizes the key components of geometric transformation-based V-SLAM,and provides a detailed explanation of the fusion methods between v
5、isual and IMU sensors in SLAM.It discusses the two mainstream methods of loosely-coupled and tightly-coupled fusion,and analyzes some representative traditional visual-inertial fusion SLAM solutions.Finally,the article summarizes the key issues and future development directions of visual-inertial fu
6、sion SLAM solutions.Keywords:navigation method;V-SLAM;visual-inertial fusion作者简介:王新域(1995),男,上海应用技术大学理学院硕士研究生,研究方向为视觉 SLAM。各类移动机器人已经从科幻世界走进了人们的日常生活,与移动机器人相关的理论研究得到了研究者的热烈关注。移动机器人对其自身状态的准确估计(位置与姿态)是实现路径规划和自动避让等上层任务的基础,其定位方法可以分为绝对定位与相对定位两种1。绝对定位方法有全球定位系统(Global Positioning System,GPS),其具有稳定性好、可靠性高等优点。
7、但绝对定位方法在应用场景中有限制,例如移动机器人使用GPS定位需要卫星信号,机器人在地下或隧道中无法收到卫星信号,无法进行定位工作。近二十多年来,科学家与工程师发现可以通过相机在场景中连续拍摄的图像信息,依据图像处理、多视图几何、最优化理论等技术可以复现出相机在空间中的运动轨迹,同时构建出相机在三维空间中的位置2,然后进行相应的坐标变化就可以得到移动机器在空间中的相对位姿。此方法叫视觉定位,属于相对定位。视觉里程计(Visual Odometry,VO)和视觉同步定位与建图(Visual Simultaneous Localization And Mapping,V-SLAM)是视觉定位的两种
8、手段。V-SLAM的关注点主要是在构建全局地图,并且通过回环检测实现载具在空间中的闭环,构建出精确的地图和位置测量。VO的关注点在于构建出相机运动的轨迹,着眼于快速的姿态跟踪,不必创建地图。VO可以作为V-SLAM工作中的一个部分,因为在构建精确地图的过程中,势必会计算每个时刻传感器的相对位姿,进而才能计算出周围环境点云模型。V-SLAM与VO是目前机器人导航、计算机视觉等领域的研究热点3,其允许单个机器人仅通过视觉传感器(如单目相机、双目相机、深度相机、鱼眼相机或事件相机)或多个机器人通过视觉传感器进行信息交互4,在未知的领域对自身进行定位导航工作。目前已经被902024 年 2 月第 3
9、卷第 4 期现 代 工 程 科 技90广泛应用在虚拟现实(Virtual Reality,VR)、增强现实5(Augmented Reality,AR)、场景三维重建、自动驾驶等领域。视觉传感器的优点是信息丰富、准确,以及传感器价格便宜等,其缺点是采集频率低,对图像要求高。而惯性传感器(Inertial Measurement Unit,IMU)采集频率高,对外部环境没有过多的要求。但IMU进行位姿解算时,由于积分作用会造成每次测量值的误差进行累计,达不到令人满意的效果。由于视觉传感器与惯性传感器有着良好的互补性,视觉与IMU传感器进行融合的定位算法即视觉惯性里程计(Visual-Inerti
10、al Odometry,VIO)得到研究者的重视,具有巨大的研究价值。VIO的理论与实践都比较复杂,主要原因是需要建立IMU惯性导航运动学模型,且要将视觉传感器和IMU进行数据融合。VIO不需要依赖外部设备,如GPS或基站,可以在室内和遮挡环境下实现定位和导航。这使得VIO在无GPS信号或GPS信号不可靠的环境中具有优势。并且VIO算法通常能够在实时性要求较高的应用中快速提供定位和导航结果。相比于其他传感器,视觉和惯性传感器的数据处理速度较快,可以满足实时性要求,所以VIO在许多强实时领域都有广泛的应用,如在无人机导航中,VIO起到关键作用。通过将相机和IMU安装在无人机上,VIO可以实时估计
11、无人机的位置和姿态,从而具有精确的自主导航和避障能力。这对无人机的航拍、巡航和搜索救援等任务非常重要。再如VIO在AR中也有广泛的应用。通过将相机和IMU集成到AR设备中,VIO可以实时估计设备的位置和姿态,从而对虚拟物体进行准确投影和交互。这对于AR游戏、虚拟导航和虚拟试衣等应用非常有用。并且在自动驾驶领域,VIO也可以应用于智能车辆的定位和导航。通过将相机和IMU安装在车辆上,VIO可以实时估计车辆的位置、速度和姿态,从而具有精确的自主导航和避障能力。这对于自动驾驶和智能交通系统的发展具有重要意义。本文以视觉与惯性两种传感器融合方式作为切入角度,对目前SLAM技术的发展进行综述研究。1 视
12、觉SLAM关键环节在基于多视图几何方法的V-SLAM系统中,前端阶段主要通过多视图匹配与位姿解算来进行相机运动轨迹的跟踪。回环检测阶段通过检测图像特征相似情况进行载体是否产生回环的判断。在后端优化部分通过图优化、捆绑约束等方法进行跟踪轨迹的优化,最后在建图环节依据不同需求来进行地图构建。1.1 前端技术前端技术主要是处于SLAM过程前端轨迹跟踪的部分,又被称为里程计。较为狭义的V-SLAM前端主要是跟踪有序图像上的相同图像点,然后依据多视图几何知识来进行相机位姿解算。总的来说,目前视觉前端主要分为特征点法与直接法。特征点法是V-SLAM前端里程计中常用的方法之一。它通过提取图像中的特征点,如角
13、点、边缘等,来进行位姿估计和运动跟踪。这些特征点具有良好的可区分性和稳定性,可以在不同帧之间进行匹配,从而计算出机器人的位姿变化。特征点法的优点是对光照变化和部分遮挡具有一定的鲁棒性,适用于室内和室外环境。直接法是另一种常用的V-SLAM前端里程计方法。它直接利用图像的亮度信息,通过最小化图像亮度误差来估计相机的位姿变化。与特征点法不同,直接法不需要提取和匹配特征点,而是直接使用图像中的所有像素信息。直接法的优点是可以利用更多的图像信息,对纹理较少或光照变化较大的场景具有一定的优势。无论是特征点法还是直接法,V-SLAM前端里程计都需要解决一些挑战。例如,特征点法需要选择合适的特征点,并进行特
14、征匹配和跟踪,这对计算资源和算法效率提出了要求。而直接法需要解决光度一致性问题,即在不同光照条件下保持图像亮度的一致性。1.2 后端优化技术后端优化可分为滤波器和非线性优化两类,滤波器方法是一种递归的优化方法,其中最常用的是扩展卡尔曼滤波器(Extended Kalman Filter,EKF)和粒子滤波器(Particle Filter,PF)。这些方法通过使用状态估计的概率分布来更新机器人的状态和地图。滤波器方法具有较低的计算复杂度和较好的实时性能,但对于非线性问题可能存在线性化误差,导致估计结果不准确。非线性优化方法是一种迭代的优化方法,其中最常用的是最小二乘法(LS)和非线性最小二乘法
15、(NLS)。这些方法通过最小化观测残差的平方和来优化机器人的轨迹和地图。非线性优化方法能够处理非线性问题,并且可以获得更准确的估计结果。然而,非线性优化方法通常需要更多的计算资源,并且对初始估计值敏感。91王新域:基于 SLAM 中视觉与 IMU 传感器融合方法综述应用科技在视觉SLAM后端优化中,滤波器方法和非线性优化方法通常结合使用,以充分利用它们各自的优势。滤波器方法可以用于实时估计机器人的状态和地图,并给非线性优化方法提供初始估计值;非线性优化方法可以进一步优化估计结果,提高精度。总之,视觉SLAM后端优化可分为滤波器和非线性优化两类方法。在实际应用中,这两种方法通常结合使用,实现充分
16、利用各自的优势。1.3 回环检测技术回环检测技术是一种重要的方法,用于解决视觉里程计的累积误差问题。视觉里程计通过分析相邻帧之间的图像特征,估计出相机的运动轨迹与位姿。然而,由于图像特征的噪声、运动模糊和环境变化等因素的影响,视觉里程计在长时间运行时会产生累积误差。回环检测技术的基本思想是通过建立当前帧与之前某一帧的位姿约束关系来检测是否存在回环,即相机回到了之前经过的位置。当检测到回环时,可以通过优化算法来调整之前帧的位姿,从而消除累积误差。回环检测技术的难点就是如何判断当前位姿的场景是否在之前到达过。回环检测不准确容易出现假阳性或假阴性问题。目前主要方法有词袋法与基于机器学习的方法。通过回
17、环检测技术,V-SLAM系统可以在长时间运行中减小累积误差,提高定位和建图的精度和鲁棒性。这对于许多应用领域,如自主导航、AR和机器人等都具有重要意义。1.4 地图构建技术在视觉SLAM中,地图构建模块根据构建的地图类型的不同而有所区别。下面将介绍3种常见的地图类型:稀疏点云地图、稠密点云地图和特征点地图。稀疏点云地图是一种由少量离散的三维点云表示的地图。在构建过程中,SLAM系统会根据相机观测到的特征点位置来估计这些点的三维位置,并将其作为地图的一部分。由于只有少量的点被用于地图构建,稀疏点云地图具有较低的存储需求和计算复杂度。然而,由于信息量较少,稀疏点云地图可能无法提供精确的环境表示。稠
18、密点云地图是一种由大量密集的三维点云表示的地图。在构建过程中,SLAM系统会利用多个相机帧之间的视差信息来重建场景的三维结构,并将其表示为稠密的点云地图。相比于稀疏点云地图,稠密点云地图能够提供更精确的环境表示,但同时也需要更多的计算资源和存储空间。特征点地图是一种由图像中的特征点表示的地图。在构建过程中,SLAM系统会提取图像中的特征点,并根据这些特征点的位置和描述子来构建地图。特征点地图具有较低的存储需求和计算复杂度,同时能够提供对环境的有效表示。然而,由于特征点的选择和匹配可能存在误差,特征点地图可能会受到视角变化和遮挡等因素的影响。不同类型的地图构建模块在视觉SLAM中具有各自的特点和
19、适用场景。选择合适的地图类型取决于具体的应用需求和计算资源限制。2 视觉惯性SLAM关键技术发展分析尽管纯视觉SLAM具有许多优点,但也存在缺点。视觉传感器所呈现的缺点如下:对光照变化敏感。纯视觉SLAM对光照变化非常敏感。由于光照条件的改变,相机图像的亮度、对比度和颜色分布等特征会发生变化,这可能导致定位和地图构建的不准确性;需要大量计算资源。纯视觉SLAM需要进行特征提取、特征匹配、姿态估计等计算步骤。这些计算步骤需要大量的计算资源,尤其是在实时应用中,对计算性能有较高的要求;缺乏尺度信息。纯视觉SLAM只利用相机图像进行定位和地图构建,缺乏绝对尺度信息。这意味着纯视觉SLAM无法准确地估
20、计场景的实际尺寸和距离,只能提供相对尺度的定位和地图;对动态物体处理困难。纯视觉SLAM在处理动态物体时存在困难。由于动态物体的出现,相机图像中的特征点会发生变化,导致定位和地图构建的不准确性。此外,动态物体的运动可能干扰相机的视觉观测,进一步影响SLAM的性能。而纯视觉SLAM对于快速运动和快速变化的场景也不够稳定。当相机或场景发生快速运动时,可能会模糊或失去图像中的特征点,导致定位和建图的不准确。为了克服这些缺点,人们将IMU与视觉SLAM相结合。IMU可以测量加速度和角速度等惯性信息,提供相机在空间中的运动状态。通过将IMU的测量数据与相机图像进行融合,可以提高SLAM系统的鲁棒性和稳定
21、性。2.1 视觉-惯性松耦合SLAM视觉图像与惯性数据的松耦合模式在早期理论探索阶段有着广泛的应用。这种模式是一种融合视觉图像和惯性数据的方法,旨在提高感知和定位的精度和鲁棒922024 年 2 月第 3 卷第 4 期现 代 工 程 科 技92性。苏黎世联邦理工学院提出了一种名为Single sensor fusion的松耦合模式,该模式通过将视觉图像和惯性数据进行融合,实现了单一传感器的多模态感知。这种模式的独特之处在于能够充分利用视觉图像和惯性数据的互补性,从而提供更准确、可靠的感知和定位结果。在Single sensor fusion模式中,视觉图像和惯性数据被视为两个独立的传感器,分别
22、采集环境信息和运动信息。通过将它们进行松耦合融合,可以克服各自的局限性,提高感知和定位的性能。视觉图像能够提供丰富的环境信息,如物体的形状、颜色和纹理等,但在快速运动或低光照条件下可能存在模糊或失真的问题。而惯性数据则能够提供准确的运动信息,如加速度和角速度等,但对环境信息的感知能力有限。将它们进行融合,可以充分利用它们的优势,提高感知和定位的精度和鲁棒性。视觉图像与惯性数据的松耦合模式在早期理论探索阶段应用较多,这是因为该模式需要充分考虑传感器的特性、数据融合算法的设计和实现等方面的问题。随着技术的不断进步和应用的深入,该模式在实际应用中也得到了广泛推广和应用。但值得注意的是,由于松耦合一般
23、是用视觉测量信息来修正惯性测量,进而引入了视觉测量误差。2.2 视觉-惯性紧耦合SLAM视觉-惯性紧耦合通过更紧密地联系视觉特征与惯性传感器的量测数据,提供了更准确的鲁棒定位与地图构建结果。它的基本思想是将视觉和惯性数据进行联合优化,通过最小化视觉和惯性测量之间的误差来估计机器人的运动和环境的结构。紧耦合SLAM方案通常能够在实时性要求较高的应用中使用。由于视觉和惯性数据的融合是同时进行的,可以有效减少数据处理的延迟,从而实现实时的机器人定位和地图构建。紧耦合SLAM方案可以通过视觉和惯性数据的互补性来提高系统的鲁棒性。当其中一个传感器出现故障或者在某些环境下无法提供准确的数据时,另一个传感器
24、可以提供补充信息,从而保证系统的稳定性和可靠性。Stefan Leutenegger等人于2013年提出的紧耦合视觉惯性里程计算法(Robust Visual Inertial Odometry,ROV-IO),它通过将视觉和惯性测量数据进行联合优化,实现了高精度的定位和运动估计。MSCKF(Multi-State Con-straint Kalman Filter)是由Li et al.于2013年提出的一种多状态约束卡尔曼滤波器。它通过将视觉和惯性数据与约束条件进行联合优化,实现了高精度的视觉惯性融合定位。OKVIS(Open Keyframe-based Visual-Inertial
25、SLAM)是由Stefan Leutenegger等人于2015年提出的一种基于关键帧的视觉惯性SLAM算法。它利用关键帧的信息进行优化,实现了高效的定位和地图构建。香港科技大学于2019年提出了VINS系统实现了多传感器的姿态融合。在2020年萨拉戈萨大学Montiel等人提出了ORB-SL-MA3,其是一个包含单目相机、双目相机、鱼眼相机、深度相机的惯性视觉SLAM系统,其采用ORB特征点,并且结合惯性信息,实现了毫米级定位。目前,传统的视觉惯性SLAM方案通常采用紧耦合方式,将多种信息进行融合。在前端部分,常使用特征点法或KLT光流法来提取特征点或计算光流,以获取相机的运动信息。而在优化
26、理论方面,非线性优化是主要方法。在构建地图方面,主要有两种类型:点云地图和轨迹地图。由于视觉惯性组合的方式能够有效解决单目视觉无法恢复尺度的问题,因此单目和双目视觉惯性组合模式都得到了广泛的研究。3 结语本文以视觉与惯性传感器融入SLAM为主题,综述了视觉SLAM相关技术环节,并对惯性与视觉融合方法、发展、应用进行了梳理与分析,在传统的视觉惯性SLAM方案中,通常采用紧耦合方式将多种信息进行融合。在前端部分,常使用特征点法或KLT光流法来提取特征点或计算光流,以获取相机的运动信息。而在优化理论方面,非线性优化是主要方法。在构建地图方面,主要有两种类型:点云地图和轨迹地图。参考文献1 ZHAO
27、YILIN.Vehicle location and navigation systemsM.United States:Artech House Publishers,1997.2 MORAVEC H P.Obstacle avoidance and navigation in the real world by a seeing robot roverR.STANFORD UNIV CA DEPT OF COMPUTER SCIENCE,ADA092604,1980.3 CADENA C,CARLONE L,CARRILLO H,et al.Past,present,and future of simultaneous localization and mapping:toward the robust-perception ageJ.EEE Transactions on Robotics,2016,32(6):1309-1332.4 史殿习,杨卓越,金松昌,等.面向数据共享的多无人机协同SLAM方法J.计算机学报,2021,44(5):983-998.5 于雅楠,卫红,陈静.基于局部熵的SLAM视觉里程计优化算法J.自动化学报,2021,47(6):1460-1466.