收藏 分销(赏)

移动机器人视觉SLAM回环检测现状研究_赵燕成.pdf

上传人:自信****多点 文档编号:465453 上传时间:2023-10-12 格式:PDF 页数:11 大小:846.22KB
下载 相关 举报
移动机器人视觉SLAM回环检测现状研究_赵燕成.pdf_第1页
第1页 / 共11页
移动机器人视觉SLAM回环检测现状研究_赵燕成.pdf_第2页
第2页 / 共11页
移动机器人视觉SLAM回环检测现状研究_赵燕成.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 无线电工程 第 53 卷 第 1 期129doi:103969/jissn10033106202301017引用格式:赵燕成,房桐,杜保帅,等移动机器人视觉 SLAM 回环检测现状研究 J 无线电工程,2023,53(1):129139 ZHAOYancheng,FANG Tong,DU Baoshuai,et al esearch on Loop Closure Detection of Mobile obot Visual SLAMJ adioEngineering,2023,53(1):129139移动机器人视觉 SLAM 回环检测现状研究赵燕成,房桐,杜保帅,赵景波(青岛

2、理工大学 信息与控制工程学院,山东 青岛 266520)摘要:同步定位与建图(Simultaneous Localization and Mapping,SLAM)是移动机器人实现自主定位与导航的关键技术,已成为该领域研究的热点。视觉 SLAM 是指相机作为仅有的外部传感器,进行同步定位与建图的技术,随着计算机视觉的迅速发展,视觉 SLAM 因为信息量大、成本低廉、适用范围广和可提取语义信息等优点受到广泛关注,而回环检测(Loop Closure Detection,LCD)作为其重要的一个环节,受到学者的广泛研究。对视觉 SLAM 系统进行简单概述,对 LCD的原理、传统的 LCD 算法分类

3、和主流的 LCD 算法进行总结归纳,介绍了 LCD 的性能评估标准,对 LCD 当前面临的挑战及未来前景进行展望。关键词:同步定位与建图;回环检测;词袋模型;深度学习;性能评估中图分类号:TP39文献标志码:A开放科学(资源服务)标识码(OSID):文 章 编 号:10033106(2023)01012911esearch on Loop Closure Detection of Mobile obot Visual SLAMZHAO Yancheng,FANG Tong,DU Baoshuai,ZHAO Jingbo(School of Information and Control Eng

4、ineering,Qingdao University of Technology,Qingdao 266520,China)Abstract:Simultaneous Localization and Mapping(SLAM)is a key technology for mobile robots to achieve autonomouslocalization and navigation,and has become a research hotspot in this field Visual SLAM refers to the technology that the came

5、ra,asthe only the external sensor,performs simultaneous localization and mapping With the rapid development of computer vision,visualSLAM has been widely concerned because of its large amount of information,low cost,wide scope of application and semanticinformation extraction As an important link,th

6、e Loop Closure Detection(LCD)is widely concerned by scholars A brief overview ofvisual SLAM system is given,the principle of LCD,classification of traditional LCD algorithms and mainstream LCD algorithms aresummarized,the performance evaluation criteria of LCD is introduced,and the current challenge

7、s and future prospects of LCD arepresentedKeywords:SLAM;LCD;bag-of-words model;deep learning;performance evaluation收稿日期:20220928基金项目:国家自然科学基金(51475251);山东省自然科学基金(Z2013FM014);青岛市民生计划(22-3-7-xdny-18-nsh)FoundationItem:NationalNaturalScienceFoundationofChina(51475251);Shandong Provincial Natural Scienc

8、e Foundation of China(Z2013FM014);Qingdao Peoples Livelihood Planning(22-3-7-xdny-18-nsh)0引言随着人工智能技术的快速进步与发展,移动机器人在日常生活和工业生产等方面发挥了重要作用,其应用领域众多,包括自动驾驶、物流配送、卫生清洁和生物医疗等。同步定位与建图(Simul-taneous Localization and Mapping,SLAM)技术是移动机器人实现应用的前提条件,它在机器人进入陌生的未知环境后,使用各类传感器感知外界环境并构建地图,同时确定自身所处的位置。得益于计算机视觉的发展,以高清相机

9、作为传感器的视觉 SLAM 领域取得了很多成果。经过科研人员的长期研究,视觉 SLAM 已经形成了一套完整的算法框架,包括传感器数据、前端视觉里程计、回环检测(Loop Closure Detection,LCD)、后端(非线性)优化和建图1。在移动机器人的实际工作中,系测控遥感与导航定位1302023 adio Engineering Vol.53 No.1统保持较长的时间和大范围的工作后容易产生累积误差,而 LCD 的目的就是消除此类误差。LCD一方面能够估计运动轨迹在长时间运行下的正确性,另一方面通过数据关联进行重新定位,确保移动机器人完成相关任务。因此,LCD 对整个视觉SLAM 系统

10、鲁棒性和定位精度的提升有着重要作用。本文首先根据不同分类方式对现有的 LCD 方式进行阐述,对当前较为主流的传统 LCD 方法进行了总结。其次,针对当前基于深度学习的 LCD方法进行了归纳。最后,结合移动机器人的实际应用对 LCD 技术当前面临的挑战及未来前景进行了展望。1LCD 基本问题对于视觉 SLAM 问题,姿态的估计是一个递归过程。也就是说,当前帧的姿态是根据前一帧的姿势计算得出,因此在前一帧中虽然建立了系统姿势约束,但是每次推算的姿态都可能存在误差,如果位姿误差持续出现,就会导致累积误差,将很大程度上降低机器人长时间运行下估算结果的稳定性和可靠性,从而导致无法成功构建全局一致且准确度

11、高的轨迹和地图。经典视觉 SLAM 系统框架如图 1所示。图 1经典视觉 SLAM 系统框架Fig1Classical visual SLAM system frameworkLCD 又称为闭环检测,是指移动机器人识别曾到达某场景,使得地图闭环的能力。基本流程是通过对比图像之间的关键帧进行相似度计算,进而判断是否经过同一个地方或“回到了原点”。LCD 问题的实质是通过关联当前数据和历史数据,利用视觉算法识别是否到达过某个地点,运用地图回环的性质,对当前的位置进行修正,消除漂移,在地图构建中起到减少累积误差的作用。2传统 LCD 算法分类经过不断深入研究,越来越多的 LCD 方法被提出并得到应用

12、。传统的 LCD 算法主要分为 2 种:基于几何信息的 LCD 算法和基于外观信息的 LCD 算法。基于几何信息的 LCD 算法是通过不断判断移动机器人当前所处位置是否在之前到过某个位置附近,进而进行 LCD,这种检测方法虽然原理简单、容易实现,但由于无法消除累积误差,在复杂的大回环场景中,往往无法正确发现是否到达历史位置附近这一事实,导致 LCD 失效2。基于外观信息的 LCD算法关键是计算图像间的相似性,通过传感器获取图像信息,利用计算机视觉相关算法判断不同时间的场景相似性,进而确定 LCD 关系,此类算法在不同的场景下都得到了较好的回环效果,是目前传统LCD 的主流算法。根据数据关联方式

13、的不同可以将基于外观信息的 LCD 方法分为 基于地图和地图(Map-to-Map)、基于图像和地图(Image-to-Map)和基于图像和图像(Image-to-Image)的 3 种匹配方法3。(1)Map-to-Map该方法通过将全局的环境地图分成各个小单元的子地图,寻找各子地图之间的相似关系来判断是否完成 LCD。Clemente 等4 提出了一种基于单目相机的子地图间 LCD 方法,该方法使用分层地图方法和 EKF-SLAM 技术构建独立的局部地图,通过不同视觉场景下子地图彼此的相似度和特征向量之间的相对距离计算出存在的最大公共特征集,进而完成LCD 的工作。但此方法在进行子地图的匹

14、配过程中要提取大量数据,不断重复迭代计算,随着环境地图信息的不断丰富,会出现匹配精度不高和实时性差等问题,所以不适合用在大规模的图像环境中。(2)Image-to-Map为解决子地图匹配无法满足在大规模图像下的LCD 要求,提出基于图像和地图间的匹配方法,该方法通过寻找最新图像和地图特征之间的关系,实现特征匹配。Williams 等5 利用重定位系统,使用三点位姿算法和随机采样一致性算法对移动机器人的位姿进行计算,然后使用随机蕨类分类器检测地图特征潜在的对应关系完成系统的 LCD。该方法提高了检测的快速性和实时性,但需要存储大量的环境信息,对内存空间要求较高,在实际使用过程中存在一定的局限性。

15、(3)Image-to-Image当前主流的 LCD 方法都是基于图像与图像间的匹配完成的,该方法通过寻找当前图像和以前图像的对应关系来实现。因此,LCD 的核心问题变成了图像间的相似度计算问题,其中视觉词袋模型(BoVW)是目前常见的方法。对 3 种不同的 LCD 算法进行了对比,如表 1 所示。测控遥感与导航定位2023 年 无线电工程 第 53 卷 第 1 期131表 13 种 LCD 方法对比Tab1Comparison of three LCD methods名称优点缺点场景Map-to-Map发现共同特征直接对齐适用于高阶信息匹配精度差实时性低不适合大规模环境地图中Image-to

16、-Map匹配精度高在线训练地图特征外观需要良好的度量地图信息采集量大,占用内存在大规模环境地图中存在局限性Image-to-Image实时性高匹配精度高不需要度量地图需要训练大量视觉词汇无法使用几何信息适应于大规模环境地图中3特征描述子分类在传统的方法中,主要依赖人工设计的特征来描述图像。人工特征又分为局部特征和全局特征,局部特征主要有 SIFT,SUF,OB 等算法,全局特征主要有 GIST,BIEF 等算法。局部特征描述是指以提取的特征点为中心生成的图像局部描述。最早 Lowe6 提出了 SIFT 特征提取算法,该算法的尺度空间由高斯卷积核建立,因此对提取的特征点在尺度、旋转和光照等方面具

17、有良好的不变性,是一种鲁棒性较强的特征描述子,但其特征点提取复杂,因此存在运算量大、运算效率低下的问题,不利于 SLAM 系统的实时构建。随后,为提高运算效率,Bay 等7 提出了 SUF 算法,ublee等8 提出了 OB 算法。其中,SUF 算法在 SIFT 的基础上优化了特征点的提取、尺度空间的构建和图像描述方式,通过牺牲一部分性能来提高效率。OB 算法则融合了 FAST 特征检测算法和 BIEF向量创建算法,既保证了缩放不变性和旋转不变性,又提高了算法效率。图像的全局特征描述以场景为中心,Oliva 等9 提出的 GIST 算法是目前使用最广泛的全局特征描述方法,通过 Gabor 滤波

18、器在不同的频率和角度上提取图像信息进行特征描述,对场景的检索不需要对图像进行分割和局部特征的提取。考虑到局部特征描述子也可以聚合全局特征描述子,Galvez-Lpez等10 提出了 BIEF 算法,该算法首先对图像进行下采样,然后围绕图像中心进行特征匹配,适用于一些大规模场景的视觉 SLAM 系统。但是这些依赖人工设计的特征描述通常都是基于某些特定场景提出的,有一个共同问题是受外界环境(如光照、天气)变化影响较大,在室外复杂场景下 LCD 的准确率和实时性往往表现不佳。4主流 LCD 算法41基于视觉词袋模型的 LCD 算法随着计算机视觉的发展,基于外观信息的 LCD算法成为早期的主流算法,B

19、oVW 是其中最常见的算法。Baeza-Yates 等11 首次提出词袋(BoW)模型,并应用于文本检索领域。Sivic 等12 首次将BoW 模型引入到计算机视觉领域,提出了一种面向对象和场景搜索方法,核心是将文本转换成向量的方式,实现图像间的匹配。BoVW 通常包括以下步骤13:提取图像特征:使用提取算法,从图像中提取特征描述;构造视觉词典:对训练图像的特征进行聚类分析生成视觉单词,所有的视觉单词组成视觉词典;视觉单词直方图:计算词典中各个单词在该图像中显示的次数,生成视觉单词直方图,用该直方图表示图像信息。BoVW 因其检测效率高、检索准确率高,已经广泛应用到了视觉 SLAM 系统的 L

20、CD 中。BoVW 流程如图 2 所示。图 2BoVW 流程Fig2Flow chart of BoVW当前,K-Means 聚类是生成视觉词典的主要算法,在无监督学习中得到广泛使用。K-Means 聚类算法流程14 如图 3 所示。测控遥感与导航定位1322023 adio Engineering Vol.53 No.1图 3K-Means 聚类算法流程Fig3Flow chart of K-Means clustering algorithmK-Means 算法简单、聚类效果好,但也存在一定的局限性,比如容易受聚类数量、异常点影响,对于高维的数据聚类以及聚类收敛效率等实际效果不好。在此基础

21、上,许多研究人员提出了不少改进方法。最早在 1973 年,Dunn 等15 提出了模糊 K-Means聚类算法,在此算法中数据点可以同时属于多个聚类,对于服从正态分布的数据聚类效果较好。Nistr等16 在此基础上提出了词汇树的概念,该方法建立在局部区域提取描述子的基础上,其描述子在词汇树中被分层量化,通过树形结构将描述子存储到词汇树中,不仅加快了特征匹配的速度,还在具有背景杂波和遮挡情况下具有较强的鲁棒性。Galvez-Lpez 等17 基于词汇树结构,使用从 FAST+BIEF特征获得的词袋进行视觉位置识别,首次构建了一个离散化二进制描述空间的词汇树,检索词汇利用分层结构变得更加快捷,实验

22、证明,此种方法比传统方法速度快一个数量级。Philbin 等18 提出了近似K-Means 聚类算法(AKM),主要思想是引入了一种基于随机树的新量化方法,同时添加了高效的空间验证,对词汇袋模型返回的结果重新排序,持续提高了聚类收敛的速度和数据的搜索质量,并成功运用到大规模的对象检索系统中。Gu 等19 提出了快速近似 K-Means 聚类算法(FAKM),利用对聚类中心分类的思想,将样本较少的聚类中心过滤掉,通过提取的数据中稳定且集中的聚类中心减少了迭代过程和迭代的计算量,从而提升了算法的运算速度并细化了聚类结果,通过实验证明,此方法在聚类时间、检索时间和检索精度的鲁棒性方面优于 K-Mea

23、ns 和AKM 算法。Newman 等20 首次把 BoW 模型用于视觉 SLAM系统的 LCD 中,使用视觉显著性的概念来集中选择合适的(仿射不变的)图像特征描述子并将其存储在数据库中,通过用新拍摄的图像与数据库比较,利用返回的对比结果判断是否发生回环,达到 LCD 的目的。为提高 BoW 模型的普适性和解决匹配准确度的问题,Schindler 等21 对视觉词典构造中图像特征的选择进行了优化,通过对特征描述子的信息量化,同时运用信息增益做特征选择,将区分性好的特征挑选出来并构造词典,使该方法的检索、匹配效果有了明显提高。Angeli 等22 提出了一种在线方法,可以使用局部形状和颜色信息检

24、测图像何时来自已经感知的场景,对 BoW 模型增加增量条件,同时利用贝叶斯滤波模型来估算回环的概率,极大提高了LCD 的实时性和准确性。Cummins 等23 基于视觉词汇间的关系提出了 FAB-MAP 算法,该算法在BoW 模型和贝叶斯模型的基础上采用 Chow Liu 树结构近似描述词汇间的相关性,使用 FAST 算子提取图像特征构造视觉词典,通过不同环境下特征向量的相似度计算来判断是否发生了回环。Mur-Ar-tal24 等提出的 OB-SLAM2 算法借助 BoW 模型通过追踪线程、局部建图线程和 LCD 线程得到了较强的重定位和 LCD 能力,对旋转、尺度和光照改变具有出色的不变性,

25、对图像特征的提取和匹配拥有很好的实时性和准确性,是目前使用最为广泛的SLAM 系统。Labbe 等25 提出了扩展 TAB-Map 的算法,该方法采用贝叶斯估计来实时更新各个场景出现回环的概率,并仅使用概率较大的场景参与LCD,极大地缩短了 LCD 的时间,提高了 LCD 的实时性,适用于处理大规模和长期的在线操作。最近几年,也不断有新的基于 BoW 模型的算法被提出。Garcia 等26 提出了一种新颖的 iBoW-LCD算法,该算法利用基于二进制描述子的增量词袋方案来检索先前看到的相似图像,避免了传统 BoW 模型通常需要的词汇训练阶段。此外,将 iBoW-LCD建立在动态岛的概念之上,可

26、以及时对相似的图像分类,从而减少了系统的运算时间。Tsintotas 等27 则提出了一种高效的 Bag of Tracked Words(BoTW)检测算法,该算法通过特征跟踪在线生成少量视觉词汇对走过的轨迹进行编码,构建新的“追踪词测控遥感与导航定位2023 年 无线电工程 第 53 卷 第 1 期133袋”。通过邻近投票方案来查询数据库,并为所有访问过的位置分配概率分数,生成的分数利用贝叶斯过滤器进行处理,以估计机器人在地图上的位置状态,该算法保持了高运行频率和高召回率以实现完美的精度。Papapetros 等28 提出了一种基于视觉跟踪特征的 LCD 方法,并结合信号峰值跟踪滤波进行回

27、环识别。该方法首先提取局部的二进制特征,同时通过连续帧在线生成视觉词汇,形成一个增量的视觉词汇包,通过峰值的跟踪滤波技术使每张图像仅用少量的视觉局部特征,从而大大缩小了视觉词汇量,提高了相似度计算效率。为了减少外界光照变化对传统 LCD 算法的影响,刘凌云等29 结合可在线增删视觉词的词袋模型,提出了一种适用于光照易变场景下的 LCD 方法。该算法根据 Shannon30 提出的图像熵度量初始图像的局部特征信息,利用基于曝光区域的自适应直方图均衡化对图像进行预处理,使图像恢复更多的细节信息。实验证明,在室外光照易变的环境中,该算法既确保了实时性,又增强和提升了系统的鲁棒性和召回率。基于 BoW

28、 模型和其改进算法已成功运用在不同场景下移动机器人的 LCD 模块中,并取得良好的效果。但在大规模场景中,随着图像数据的急速增长,怎样提升算法的准确率和运算效率仍是未来要思考的问题。42基于深度学习的 LCD 算法近几年,随着深度学习技术在图像识别、计算机视觉和移动机器人等领域的不断发展,为 SLAM 系统中的 LCD 模块提供了新的解决思路。早在2006 年,由 Hinton 等31 真正意义上首次提出了深度学习技术,提出了一种基于深度信任网络的无监督学习算法,采用逐层预训练的方法来优化神经网络模型。深度学习是一类模式分析方法的总称,其典型模型包括卷积神经网络(Convolutional N

29、eural Network,CNN)、堆 栈 自 编 码 网 络(Stacked AutoencoderNetwork,SAEN)和深度置信网络(Deep Belief Net-work,DBN)。其中,CNN 和无监督的自动编码器是目前运用最多的方法,也是当前 2 个主要的研究方向。基于 CNN 的 LCD 方法通过卷积层提取场景中的深层次特征,相比于传统的人工设计特征,该算法拥有强健的信息提取能力和更有效的特征表示,因此使用 CNN 的 LCD 方法具有更好的准确率。基于CNN 的 LCD 流程如图 4 所示。图 4基于 CNN 的 LCD 流程Fig4LCD flow chart bas

30、ed on CNNCNN 最早应用于图像分类和图像检索的任务中,并取得了令人鼓舞的成绩。Krizhevsky 等32 在2012 年提出了 AlexNet 模型,该模型大大提高了图像的分类速度和准确率,并在同年的 ImageNet 竞赛中取得了冠军。Chen 等33 在 2014 年首次提出了基于 CNN 模型的位置识别技术,在公开数据集上的实验表明,该方法利用模型提取特征信息,显著提升了图像匹配的召回率,优于大多数传统基于人工设计特征的方法。Hou 等34 则利用 AlexNet 模型对图像进行特征提取,使用卷积网络的中间层作为图像描述符,运用二范数来进行回环相似度的判断。与传统人工特征描述

31、符相比,实验证明,在光照没有显著改变的环境下,基于 CNN 的图像特征匹配和传统人工特征匹配能力接近;当光照变化显著时,基于CNN 的图像特征匹配的表现优于传统人工特征;基于 CNN 的特征描述具有更高的鲁棒性,同时提取速度比传统人工特征方法更快。为了优化复杂场景中算法鲁棒性的问题,Sunderhauf 等35 提出了一种基于 CNN 的地标识别方法,使用 CNN 的预训练模型,通过 Edge Boxes 识别系统和图像中的地标区域来描述场景信息,然后采用 CNN 对提取的特征进行精准匹配。实验证明,该方法显著提高了在视角、光照等条件变化和部分遮挡情况下系统的鲁棒性。基于CNN 的 地 标 识

32、 别 流 程 如 图 5 所 示。同 年,Sunderhauf 等36 在 AlexNet 模型的基础上,探讨了CNN 各层特征在不断变化的环境中用于位置识别任务的可行性,分析了 CNN 层次结构中不同层在不同数据集上的性能,证明了 CNN 中间层,尤其是第测控遥感与导航定位1342023 adio Engineering Vol.53 No.13 个卷积层对大范围的外观变化更具有鲁棒性,而高层第一个全连接层对视角变化更具有鲁棒性,即使在面对复杂的条件变化时也能实现可靠的图像匹配。但由于上述深度网络过于复杂,往往无法满足LCD 的实时性,因此 Hou 等37 提出了一种 Bag ofConvN

33、et 的匹配方法,该算法基于 BoW 模型并利用ConvNet 提取的图像特征构建视觉 BoW,通过局部敏感哈希算法38 对视觉 BoW 进行降维,使用基于哈希的投票方案确定图像之间的最佳匹配,从而提高了图像匹配的效率,加快了实现 LCD 的速度。图 5基于 CNN 的地标识别流程Fig5Flow chart of landmark recognition based on CNN2014 年,牛津大学计算机视觉研究组提出了一种新的 VGGNet 模型39,该模型继承了 AlexNet 的结构特点,同时降低了计算量,增加了网络深度,这些优点使其泛化性能更好,因此能够很好地适应于分类和定位的任务

34、中,其中 VGG16 和是 VGG19 是目前最常用的配置。Tolias 等40 采用 AlexNet 和VGG16 作为特征提取器,提出了一种-MAC 算法,该算法通过构建密集的特征向量,可以对多个图像区域进行编码,同时扩展了积分图像以处理卷积层激活的最大池化,从而使系统能够有效地定位匹配对象,因此显著改进了现有的基于 CNN 的识别通道。Chen 等41 通过深入研究 CNN 的内部结构,提出了新的基于 CNN 的图像特征,该方法使用在 Ima-geNet 上预训练的 VGG16 网络,并使用卷积层进行区域识别,通过识别显著区域并直接从卷积层激活区域表征进行位置识别。实验证明,在复杂环境和

35、光照易变的情况下,该方法具有优越的召回率和鲁棒性。随着图像数据的不断增加,为改善 LCD 的准确率和实时性,张学典等42 提出了基于 VGG16 模型的快速LCD 算法,该算法采用 VGG16 模型提取场景中的全局特征描述符,通过自适应粒子滤波来改善运算时间。实验表明,该算法与同类算法相比大大提高了运算效率,同时在相同准确率下提高了召回率,并有效克服了计算时间不断增长的问题。同样,余宇等43 提出了一种结合 VGG19 网络和局部敏感哈希算法的快速检测方法。该算法首先通过 VGG19 网络对图像特征进行整体提取并构建对应的特征向量矩阵,然后利用级联的余弦距离哈希函数对构造的特征向量矩阵进行降维

36、聚类。实验表明,该算法极大地改善了 LCD 的准确率并提高了运算时间,更好地满足 SLAM 系统对减少误差和实时性的要求。深度学习 CNN 应用于移动机器人的 LCD 模块中属于有监督学习,在学习时会需要人工来进行数据的标注,在复杂大环境下无法满足实时性的要求。与有监督的学习相比较,无监督的学习采用自主学习的方式,免除了需要人工标注数据的工作,降低了原始输入数据的位数,提高了图像特征提取的效率,成为深度学习领域的一个新里程碑。Gao 等44 首次提出了一种基于深度神经网络的无监督学习方式。该算法利用堆叠式降噪自动编码器(SDA)提取图像特征,通过自主学习的无监督方式训练数据网络,将数据进行相似

37、性计算并组建相似矩阵。实验证明,相比传统的词袋模型,该算法在复杂的场景下能够取得较高的精度,但在关键帧匹配方面存在耗时严重的问题,仍无法满足系统实时性的要求。为了解决上述问题,Merrill 等45 在自动编码器的架构上提出了一种新的无监督深度神经网络算法,该算法利用定向梯度直方图(HOG)提供的几何信息和光照不变性,运用编码器重建 HOG 描述符,其训练模型直接从原始图像中提取特征,且不需要标记特定环境的训练,在外观环境显著变化下仍具有较强的鲁棒性,但也存在对相似的物体区分能力弱和定位精度低的问题。张云洲等46 提出了基于无监督的栈式卷积自动编码器(CAE)算法,CAE 是基于CNN 的自动

38、编码器,利用卷积网络将信号进行编码并尝试重构输入的网络模型,其更加注重局部特征的学习。该算法通过训练将维度较高的原图像降到测控遥感与导航定位2023 年 无线电工程 第 53 卷 第 1 期135较低的维度,然后采用训练好的 CAE 和已优化的特征进行场景的相似性判断。实验证明,相比词袋模型和其他深度学习模型,该算法在移动机器人的LCD 模块取得了更好的准确性和鲁棒性。在 2014 年,Goodfellow 等47 提出了基于博弈论的生成对抗网络(GAN),其作为新的无监督的深度学习模型受到广泛关注,并应用于视觉 SLAM 系统的 LCD 中,GAN 的基本模型如图 6 所示。在此基础上,Sh

39、in 等48 提出了基于 GAN 的 LCD 算法,该算法运用面向位置的数据集训练生成对抗模型,从模型判别器的高维空间中提取局部的特征描述符,获得了较好的实践效果,但该方法因要提取较高维度的特征描述符,所以会占用大量的存储空间,因此对机器人系统要求较高。受上述方法的启发,杨慧等49 利用生成对抗思想,提出了一种基于二进制的GAN。该算法利用距离传播损失函数和二值化表示熵损失函数来提取无监督的高区分度和低维度的二进制特征描述符,利用 BoVW 模型将提取的局部特征融合为全局特征用于 LCD。实验证明,相比 SIFT等传统特征提取方法,该算法在室外环境拥有更优越的鲁棒性和实时性,同时运用二进制特征

40、描述符也能够节省大量的存储空间和计算资源。图 6GAN 的基本模型Fig6Basic model of GAN在实际问题中,移动机器人往往是运动的,处在一个不断变化的复杂场景中,容易受到动态物体的干扰,导致系统 LCD 的准确率和召回率大大降低。依赖深度学习技术,越来越多的学者将语义信息融入到了视觉 SLAM 算法中,通过增加语义信息可以有效提高移动机器人在动态物体干扰下 LCD 的准确率和实时性。目前,语义信息主要通过目标检测和语义分割 2 种方式获取,其中目标检测主要获取场景中的稀疏信息,语义分割则主要获取场景中的稠密信息。Gawel 等50 提出了一种多视图语义全局定位算法,该算法引入基

41、于随机游走的图描述符,将具有语义目标信息的关键帧用新的语义拓扑图表示,利用语义分割的图像处理成全局定位的完整流程。此次实验结果表明了将语义图形表示用于大规模机器人全局定位任务的潜力。Hu 等51 提出了一种融合语义信息的 LCD 方法,该算法将用于图像目标检测的 Faster-CNN 模型应用于 BoVW,实现基于 BoVW 的语义相似度和特征点相似度的融合,利用语义信息解决 BoVW 不匹配的问题。实验证明,该方法在动态场景中获得了较好的 LCD 效果。郑冰清等52 提出了新的融合语义信息应用于视觉SLAM 语义地图构建和 LCD 的方法。该算法采用YOLOv3 网络对图像的关键帧进行语义标

42、记,然后采用条件随机场算法将标记的语义信息和场景分割的聚类信息融合来构建语义地图,其中 LCD 是通过标记的关键帧语义信息对 BoVW 进行改造,进而提高动态场景下系统的定位精度。Yuan 等53 提出了一种基于语义视觉几何信息的 LCD 算法(SVG-Loop),为了减少动态特征的干扰,首先将视觉特征与语义标签连接起来构建语义词袋模型。其次,为了提高不同场景下的检测鲁棒性,通过对语义地图的几何关系进行编码,设计了语义地标向量模型。最后,通过语义、视觉 2 个模块的融合计算来整合几何信息。实验证明,通过更高层次的图像信息和多信息融合可以提高地点识别的鲁棒性,在光照多变、天气多变和动态干扰的复杂

43、环境中具有更好的优势。与传统 BoW 模型算法相比,基于深度学习的算法摆脱了人工设计的特征,能够提取更深层次的图像特征,使系统的泛化能力也更强。尤其加入语义信息后,构建的语义地图信息更加丰富,在面对光照、动态干扰等复杂环境中拥有更好的适应性。从不同方面对 2 大类的 LCD 算法进行比较,如表 2 所示。表 2LCD 算法对比Tab2Comparison of LCD algorithms名称基于词袋模型的SLAM 算法基于深度学习的SLAM 算法数据规模小大信息利用率低高泛化能力弱强鲁棒性弱强物理意义直观意义鲜明缺乏直观意义应用场景静态,强纹理、外界环境不变静态或动态、低纹理、无外界环境限制

44、5LCD 性能评估在 LCD 中,其性能指标的评价主要有:准确率-召回率曲线(Precision-ecall Curve)和时间性能2 类。测控遥感与导航定位1362023 adio Engineering Vol.53 No.151准确率-召回率曲线在现实生活中,通过眼睛和大脑能够以较高的准确率判断“环境中 2 张图像是否为相同的场景或者二者之间存在的相似性”,而移动机器人 LCD 的重点同样是为了在面对不同图像得到和人类一样的判断。根据机器人系统程序预测的结果,可以将其分为 4 种情况,如表 3 所示。表 3LCD 结果分类Tab3Classification of LCD results

45、算法/事实回环非回环回环真阳性(TP)假阳性(FP)非回环假阴性(FN)真阴性(TN)其中,假阳性又称作感知偏差,如图 7 所示,2 幅图片看起来相似,但并不是同一个地方;假阴性又称作感知变异,如图 8 所示,2 幅图片是同一个地方,但并不相似。(a)假阳性示例 a(b)假阳性示例 b图 7假阳性示例对比Fig7Comparison of FP examples(a)假阴性示例 a(b)假阴性示例 b图 8假阴性示例对比Fig8Comparison of FN examples为更加直观地看出 LCD 的效果,通常采用准确率(Precision)和召回率(ecall)2 个指标。准确率表示检测

46、到是回环的结果里面有多少是真的回环,召回率表示所有实际的回环中能检测出多少个回环。Precision=TPTP+FP,(1)ecall=TPTP+FN。(2)一个优秀的算法应同时拥有较高的准确率和召回率,但在实际问题中,双方往往是一对矛盾,即当一方结果增大时,另一方会随之下降,二者无法同时满足。因此,准确率-召回率曲线(P 曲线)则是评价检测算法好坏的综合性能指标。3 种不同的 LCD算法 P 曲线如图 9 所示。图 9P 曲线Fig9P curve通过对比验证了基于 Image-to-Image 匹配算法的优越性。由于假阳性的回环会对后端的位姿图产生影响,而准确率的下降会造成整个地图的失效,

47、所以在 SLAM 系统里一般要求准确率高些,而召回率相比宽松一些。52时间性能在移动机器人的实际应用中,实时性也是衡量LCD 的一个重要指标。随着机器人在大规模环境下长时间工作,需要保存的观测的图像和数据信息不断增多,一般会导致系统的运算效率变得越来越慢,而这个问题和 LCD 算法、机器人硬件设备、数据集都有一定的关系。部分 LCD 算法在不同数据集下的时间性能如表 4 所示。从表 4 可以看出,在时间性能方面基于深度学习的几种算法明显优于传统的检测算法。表 4部分 LCD 算法的时间性能Tab4Time performance of partial LCD algorithm单位:s数据集算

48、法SUFSIFTBoVWAlexNetSDACity Centre197106055100480051New College201119056300470052测控遥感与导航定位2023 年 无线电工程 第 53 卷 第 1 期1376LCD 面临的挑战及未来展望61面临的挑战传统基于 BoW 模型的 LCD 算法虽仍是目前主流的算法,但也逐渐暴露出一些缺点和局限性,主要体现在:BoVW 完全依赖外观信息,需要提前利用大量数据构建视觉词典,训练时间长,在大规模场景下较为耗时;在图像特征点过少、低纹理或无纹理环境中,容易导致 LCD 失败;在室外环境中受到角度、光照、天气和动态目标变化等的影响,

49、容易导致移动机器人定位精确度降低;过于依赖人工的干预,基于人工特征的图像特征提取能力有限,在准确率和召回率方面很难有质的提升。随着计算机视觉和深度学习发展,相比传统模型,利用深度学习技术的 LCD 算法在一定程度上提高了检测的鲁棒性和准确率。但同样面临诸多挑战:深度学习提取的特征信息缺少直观的意义,其CNN 的预训练需要大量人工标记,训练结果非常依赖数据库的质量;在动态场景中,因为存在动态物体在不同场景中穿梭的情况,所以容易在不同场景再次检测到相同目标或者在相同场景却检测不到同一目标,进而造成误判或漏判;在复杂自然环境中,容易受到光照、季节或恶劣天气的影响造成感知混叠,如何处理好感知混叠问题是

50、一个重大挑战。62未来展望(1)基于深度学习技术近几年,随着深度学习技术的发展,LCD 也得到了广泛的发展,虽然发展时间较短,但在移动机器人面对低纹理、动态干扰的复杂场景中表现出了较强的鲁棒性。深度学习技术可提取更深层次的信息,这些信息融合语义分割能够变成更高水平的语义特征,不仅增强了对外观变化和视角变化的适应能力,而且简化了地图描述,节省了系统的存储空间54。同时加入语义信息可以辅助机器人系统更好地理解动态场景,以满足复杂场景的需求。鉴于深度学习在特征提取等方面的优越性,基于深度学习和结合语义信息的 LCD 算法拥有广阔的发展前景。(2)多描述子融合由于单一描述子无法准确获取场景中的图像信息

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服