1、信息通信融合深度学习和结构特征的视觉定位方法新12.3,毛宇新,李锁(1.沈阳理工大学机械工程学院,辽宁沈阳110 159;2.中国科学院沈阳计算技术研究所,辽宁沈阳110 16 8;3.东北大学软件学院,辽宁沈阳110 16 9)摘要:为实现复杂场景下移动机器人视觉定位和建图,解决传统方法误差累积及鲁棒性差的问题,提出了融合深度学习和结构特征的视觉定位方法。首先,引入注意力机制改进深度学习网络,提取场景语义信息,剔除动态特征对定位及建图的干扰;其次,结合场景中的特征点、特征线和特征面信息,综合考虑空间的几何结构信息,实现复杂场景下的结构化特征融合;然后,计算多特征融合的视觉词袋模型,提升非线
2、性优化和闭环检测的准确性;最后,提出静态关键帧策略,通过特征匹配实现位姿跟踪,建立无重影的八叉树场景地图,实现机器人自主定位和导航。数据集和真实场景实验表明:改进方法提升了复杂场景下,移动机器人视觉定位的准确性和鲁棒性。关键词:视觉定位;深度学习;目标检测;注意力机制中图分类号:TP242Visual Localization Method of Structural Features Fused with Deep Learning(1.School of Mechanical Engineering,Shenyang Ligong University,Shenyang 110159,Ch
3、ina;2.Shenyang Institute of Computing Technology,Chinese Academy of Sciences,Shenyang 110168,China;3.School of Software,Northeastern University,Shenyang 110169,China)Abstract:In order to realize mobile robot visual localization and mapping in complex scenes and solve the problems of cumu-lative erro
4、r and poor robustness of traditional methods,a visual localization method combining deep learning and structural fea-tures is proposed.Firstly,the attention mechanism is introduced to improve the deep learning network,extract scene semanticinformation,and eliminate the interference of dynamic featur
5、es on localization and mapping.Secondly,the information of pointfeature,line feature and surface feature in the scene are combined,and the geometric structure information of the space is com-prehensively considered to realize the structural feature fusion in complex scenes.Then,the multi-feature fus
6、ion visual bag ofwords model is calculated to improve the accuracy of nonlinear optimization and loop closure detection.Finally,a statickeyframe strategy is proposed to realize pose tracking through feature matching,establish an octree map without ghosting,andrealize autonomous localization and navi
7、gation of the robot.TUM dataset and real scene experiments show that the improvedmethod improves the accuracy and robustness of mobile robot visual localization in complex scenes.Key words:visual localization;deep learning;object detection;attention mechanism1引言同时定位与地图构建(Simultaneous Localization an
8、d Ma-pping,SLA M)是没有场景先验信息的情况下,移动机器人利用搭载的传感器,实现自主定位及建图。由于传感器体积小、成本低和信息丰富等优点,视觉SLAM成为常用的视觉定位方法,广泛应用于无人驾驶、家居服务,增强现实及智能制造等领域。传统视觉定位方法大多依赖静态场景这一假设,不适用弱纹理及动态物体等复杂场景,容易出现运动漂移、累积误差,运动模糊和地图重影等问题3。视觉定位方法主要包含半直接法、直接法和特征点法。直接法基于灰度不变的假设,最小化测量误差估计相机位姿。直接法对相机内参和光照变化敏感,且计算量大,不适用于光照变化场景。特征点法对追踪的特征点数目有要求,容易特征缺失或跟踪失败
9、,不适用于弱纹理及动态物体等复杂场景。随着视觉定位方法的广泛应用,其准确性和鲁棒性问题呕待解决,对此,学者们进行收稿日期:2 0 2 3-0 3-0 6基金项目:辽宁省教育厅面上青年人才项目(LJKZ0258);2 0 2 2 年辽宁省科技厅博士科研启动基金计划项目(2 0 2 2-BS-187)。作者简介:仇新(198 7-),女,辽宁锦州人,博士,副教授,主要研究方向:智能机器人;毛宇新(1998-),男,山西大同人,硕士研究生,主要研究方向:模式识别;李锁(197 9-),男,辽宁锦州人,博士,副教授,主要研究方向:机器人控制技术、嵌入式系统。842023年第0 5期(总第2 45期)文
10、献标识码:A文章编号:2 0 9 6-9 7 59(2 0 2 3)0 5-0 0 8 4-0 4ZHANG Xin23,MAO Yuxin,LI Suo了广泛研究。2015年提出的经典ORB-SLAM方法,采用特征点匹配,实现顿间估计和数据关联,不适用于弱纹理场景。Ma等人采用平面信息与定位系统相融合,优化特征实现运动位姿5。Zhao等人采用光流法与目标检测网络相结合,通过剔除动态特征,建立室内语义地图,光流法计算量大,无法满足系统的实时性需求6 。Yu等人采用SegNet网络7 实现场景的语义分割8 ,结合光流信息对运动物体进行一致性测试。Bescos等人采用MaskR-CNN进行语义分割
11、,去除行人干扰,构建静态场景地图。顾恺琦等人融合半直接定位和在线光度标定法,解决了光照变化条件下系统敏感的问题,但未对动态及复杂场景进行研究。本文提出了融合深度学习和结构特征约束的视觉定位方法。首先,改进深度学习网络提取语义信息,分割动态和静态场景,剔除动态物体的干扰,提升视觉定位的准确性;其次,综合特征点、特征线和特征面信息,充分考虑空间的几何结构信息,实现复杂场景下的结构化特征融合;然后,计算特征融合的视觉词Changjiang Information&Communications袋模型,提升非线性优化和闭环检测的准确性;最后,采用静态关键顿策略,建立无重影的八又树场景地图,实现机器人自主
12、定位和导航。2基础理论2.1视觉定位系统1986年Smith等人提出了同时定位与地图构建(SimultaneousLocalizationandMapping,SLA M)系统,以相机为主要传感器的视觉SLAM系统框架如图1所示,分为传感器数据采集、SLAM前端、SLAM后端,闭环检测和建图。SLAM前端包含特征提取、特征匹配及运动估计。SLAM后端采用滤波法或图优化实现非线性优化。闭环检测判断机器人是否经过之前走过的地方。前端传感器数据视觉里程计闭环检测图1SLAM系统框架2.2深度学习随着深度学习的迅速发展,目标检测广泛应用于机器人和计算机视觉等领域,主要分为基于候选区域和回归分析两类目标
13、检测方法。基于候选区的方法,包含区域卷积神经网络(R-CNN)、快速区域卷积神经网络(FastR-CNN),以及更快速区域卷积神经网络(FasterR-CNN)。该目标检测方法检测准确性高,但训练及识别实时性差。YOLO(Yo u O n l y Lo o kOnce,YOLO)是经典的基于回归分析的目标检测方法,训练及识别实时性好,准确性较差。3本文视觉定位系统框架3.1融合改进YOLOv5的特征跟踪方法2020年提出的YOLOv5通过数据增强优化了网络结构,提升了检测速度,但位置识别能力较差。YOLOv5依据卷积核和特征提取模块的数量,分为5s、5m,51和5x四种训练模型,选择模型简单的
14、YOLOv5s作为检测网络模型,其结构包含输入端、基准网络,Neck网络和输出端。引入注意力机制改进基准网络CSPDarknet53,提高YOLOv5的准确性和实时性。网络结构如图2 所示,在空间金字塔池化层(SpatialPyramidPooling,SPP)13前,加入注意力Transformer层,输入Neck网络。改进方法有效提取全局特征信息,通过对空间信息进行特征编码,避免空间细节信息丢失,消除动态物体遮挡和小物体的干扰,提升特征跟踪及位置识别的准确性。输入NeckM络仇新等:融合深度学习和结构特征的视觉定位方法空间点P转换为相机点P,根据相机成像模型,得到像素坐标投影点Puv,计算
15、匹配点Pa和投影点Pu之间的距离作为重投影误差。ep=Puv-Pu=r(Tew Pw)-ul(1)特征点的约束为:fp(x,u)=Il/(Tew x)-llzp其中,lxlz=xT-1x表示马氏距离,Z表示协方差矩阵。(2)特征线的误差采用重投影误差计算线上两点到直线的距离,设1为匹配直线,l为重投影直线,直线两端点分别为X。和X,投影点分别为X和X,投影距离分别为d.和ds。特征线的误差模型为:后端建图非线性优化(2)d(Xs,l)2+12et=d(Xe,l)其中,l=(1,l2,l3)T。特征线的约束为:f(,u)=la(Luw.,KTewLw.)(3)特征面的误差根据曼哈顿世界模型,假设
16、三个主方向相互正交,考虑特征面的平行和垂直结构,直观体现建筑物几何结构。任意平面元。和元b,n a 和nb分别为其法向量。平行关系的约束为:fi(Ta,Tb)=Ilnanbl-1llz垂直关系的约束为:fi(na,Tb)=lnanpllzl(4)多特征融合的误差最小化目标函数估计位姿:Tew=argTewmin(H,(f)+ZH(f)+ZH(fi)+ZHI(f)其中,H,和Hi为Huber核函数,采用列文伯格-马夸尔特方法求解相机位姿。弱纹理及动态物体等复杂场景下,移动机器人定位准确性低,建图容易出现重影。对视觉SLAM系统前端进行改进,增加深度学习分支,如图3所示。通过传感器获取场景视觉信息
17、;采用深度学习网络模型,剔除场景动态语义信息,分割动态和静态场景;提取结构化场景的点、线、面特征;利用多特征结构约束,实现特征匹配和位姿估计。神经网络输出物体的语义信息(3)+12(4)(5)(6)(7)Conv图2 融合注意力机制的YOLOv5网络3.2融合结构特征的视觉SLAM前端视觉SLAM前端又称视觉里程计,包含直接法和特征点法。在稀疏纹理或动态物体等复杂场景下,直接法对光照变化敏感,特征点法无法提取充足特征,容易跟踪失败。本文提取场景中的结构特征,融合点特征、线特征和平面特征的几何约束,最小化特征约束函数,实现SLAM前端运动估计。(1)特征点的误差85ConvCSPCSPTrans
18、formerSSPRGBD相机获得的图像图3融合深度学习的SLAM系统前端特征点、特征线、特征面提取特征匹配位姿估计别除动态物体上特征点、线、面只对静态物体上特征点、线、面Changjiang Information&Communications3.3多特征融合的SLAM后端优化闭环检测是移动机器人SLAM的重要部分,为消除大场景下的漂移及累积误差,采用点线面融合的词袋模型构建单词向量,计算相似性得分实现闭环检测。图像的相似度得分为:AVBS(VA,VB)=1-2livAl1vBll其中,VA和VB为词袋向量,s(VAVB)为向量vA和V的相似度。由于式(8)不适用于相似场景的闭环检测,故对相
19、似度评分进行如下改进:(9)s(vt,vt-At)式(9)中,s(v,V-a)为当前帧与前一帧的相似度,s(v,V)为当前顿与任意帧的相似度。3.4静态关键顿策略由于动态目标容易引发运动模糊,传统关键策略构建的地图容易出现重影。采用体素滤波器去除观测噪声和离群点,目标检测方法剔除动态目标,识别静态场景关键顿。由于传统点云地图存储空间大,且不能直接实现导航。八叉树只仇新等:融合深度学习和结构特征的视觉定位方法存储有效的叶子节点,可以直接表示地图是否被占用,降低存储成本,故采用八叉树构建地图。4实验结果与分析实验平台为turtlebot机器人,搭载RGB-D深度相机;Ubuntu18.04系统、3
20、2 GB内存、2.6 GHz主频,CPU为i7-9750H1(8)及显卡Nvidia RTX2060。4.1数据集实验TUM数据集由慕尼黑工业大学采集,是常用的SLAM测试数据集4。评价指标为绝对轨迹误差(Absolute TrajectoryError,ATE)和相对位姿误差(Relative Pose Error,RPE)。与经典的ORB-SLAM2进行对比,验证方法的有效性。ATE为真实轨迹与估计轨迹间的误差,其中:x为真实位姿,为估计位姿。errOTATE=RPE为真实位姿与估计位姿前的误差,其中:8 i,为真实位姿为估计位姿。errorRPE=一)2(10)(11)-1.8-20-2
21、.2-2.6ground truthcstimateddifferenceground truthestimateddifterence-2.02.5E-3.0ground truthestimateddiference-24-2.62.8-3.0-3.2-2.0222.4-2.6-2.8-1.75-1.50(a)fr3_walking_halfsphere 系列1.21.00.60.20.0O.10-0.080.06O.040.020.00(a)fr3_walking_halfsphere 系列-3.04.0-324.5-5.0-15-1.0-1.25-1.001015timetsl1015
22、timetsl-0.5*ml0.75-0.50-0.250.000.25xIml2520200.005groundtruthestimateddrference303525301015U0.50.00.1750.1500.125a.1000.0750.0500.0250.000-14ground truthostimated-2.6difference-2.72.8-2.9-3.02.52.0-12-1.0(b)fr3_walking_rpy 系列图4绝对轨迹误差对比图101205time Isl05(b)fr3_walking_rpy 系列图5相对位姿误差对比图-1010-0.6xIml-0
23、.6tml15timets0.4-04252025-0230302.0-2.6-2.8-3.03.211.21.00.8RUODRISUREO.40.20.00.080.07W0.06C0.050.040.030.020.01D-15-1.2-1.0(c)fr3_walking_xyz 系列10timetsi1015timelsl(c)fr3_walking_xyz 系列-1.0 xtml08xIml15-0.5-0.62020groundtruthestimatedstference0.4W252586Changjiang Information&Communications图4为绝对轨迹误
24、差对比图,第一行为ORB-SLAM2绝对轨迹结果,第二行为本文方法绝对轨迹结果。相比ORB-SLAM2,本文方法轨迹估计误差较小,轨迹估计结果更准确。图5 为相对位姿对比图,第一行为ORB-SLAM2相对位姿实验结果,第二行为本文方法的相对位姿实验结果。图5 表示相对位姿随时间的变化,相比ORB-SLAM2,本文方法相对位姿估计准确性较高。实验场景包含了动态和静态序列,对实验结果进行定量分析,表1为绝对轨迹误差,表2 为相对位姿误差。在静态场景中,由于ORB-SLAM2采用RANSAC剔除外点,轨迹跟踪结果较好,与本文方法差异不大。由于动态场景中稳定特征点较少,ORB-SLAM2容易跟踪失败或
25、误差较大,绝对轨迹和相对位姿误差较大。本文方法结合了多特征结构约束,绝对轨迹和相对位姿误差较小。表1绝对轨迹误差对比(单位:厘米)序列ORB-SLAM2fr3_walking_xyz78.17fr3_walking_halfsphere68.18fr3_walking_rpy79.53fr3_sitting_xyz1.87fr3_sitting_halfsphere2.72fr3_ sitting _rpy3.09表2 相对位姿误差(平移部分)对比(单位:厘米)序列本文方法fr3_walking_xyz47.38fr3_walking_halfsphere27.99fr3_walking_rp
26、y34.93fr3_sitting_xyz1.36fr3_siting_halfsphere4.07fr3_ sitting _rpy3.084.2实验室场景实验验证实验平台为turtlebot机器人,搭载RGB-D深度相机,控制机器人分别在学校实验室和走廊场景运行。相机传感器采集到实验室场景,场景内有动态行人,纹理稀疏且光线较差。实现动态场景八叉树建图,如图6 和图7 所示。图6 基于ORB-SLAM2的八叉树建图图7 本文方法的八叉树地图图6 中传统ORB-SLAM2方法构建的稠密地图容易出现重影,破坏地图几何结构,试验台结构发生畸变。动态物体会降低SLAM位姿估计的准确性,图7 中由于使
27、用静态关键顿策略,剔除场景动态目标,建立了无重影的场景地图,提升了地图构建的准确性。本文方法运动估计及建图的准确性和鲁棒性好。87仇新等:融合深度学习和结构特征的视觉定位方法5结语本文提出了融合深度学习和结构特征的视觉定位方法,提高了复杂场景下定位和建图的准确性与鲁棒性。采用融合注意力机制的YOLOv5网络,提取场景语义信息;综合了特征点、特征线和特征面的结构约束,充分提取了空间场景特征,优化相机位姿;通过多特征视觉词袋模型,实现非线性优化和闭环检测;采用静态关键帧策略建立场景八叉树地图。实验验证了方法的有效性,相比ORB-SLAM2方法,绝对轨迹及相对位姿误差较小,地图无重影且适用于导航避障
28、,提升了视觉定位及建图的准确性,且鲁棒性好。参考文献:1支奕琛,谷玉海,龚志力,等.机器人二维码目标点识别与SLAM地图标记研究 .机床与液压,2 0 2 2,5 0(15):2 0-2 4.2艾青林,王威,刘刚江.室内动态环境下基于网格分割与双地图耦合的RGB-DSLAM算法 J.机器人,2 0 2 2,44(4):431-442.本文方法3 SSun Y X,Liu M,Meng M Q H.Improving RGB-D SLAM1.57in dynamic environments:A motion removal approachJ.3.143.361.482.221.71ORB-S
29、LAM21.742.253.641.332.353.06Robotics and Autonomous Systems,2017,89:110-122.4 Campos C,Elvira R,Rodr?guezJ,et al.ORB-SLAM3:An accurateopen-source library for visual,visual-inertial and multi-map SLAM.IEEE Transactions on Robotics,2021,37(6):1874-1890.5 Ma L,Kerl C,Stickler J,et al.CPA-SLAM:Consisten
30、t plane-model alignment for direct RGB-D SLAMC/2016 IEEEInternational Conference on Robotics and Automation(ICRA).Stockholm,Sweden:IEEE,2016:1285-1291.6 Zhao Xiong,Zuo Tao,Hu Xinyu.OFM-SLAM:A VisualSemantic SLAM for Dynamic Indoor Environments J.Mathematical Problems in Engineering,2021,12(6):45-56.
31、7 Badrinarayanan V,Kendall A,Cipolla R.SegNet:A deepconvolutional encoder-decoder architecture for image seg-mentation J.IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39(12):2481-24958Yu C,Liu Z X,Liu X J,et al.DS-SLAM:A semantic visualSLAM towards dynamic environmentsCJ/IEEE/RS
32、J Intermational Conference on Intelligent Robots and Systems.Piscataway,USA:IEEE,2018:1168-1174.9 He K M,Zhang X Y,Ren S Q,et al.Deep residual learning forimage recognition C/IEEE Conference on Computer Visionand Pattern Recognition.Piscataway,USA:IEEE,2016:770-778.10 Bescos B,Facil J M,Civera J,et
33、al.DynaSLAM:Tracking,mapping,and inpainting in dynamic scenesJ.IEEE Robo-tics and Automation Letters,2018,3(4):4076-4083.11顾恺琦,刘晓平,王刚,黎星华.基于在线光度标定的半直接视觉SLAM算法 J.机器人,2 0 2 2,44(6):6 7 2-6 8 1.12 Bochkovskiy A,Wang C Y,Liao H.YOLOv4:Optimal Speedand Accuracy of Object DetectionJ.2020,45(2):69-75.13 Wa
34、dhwa Laisha,Mukherjee Snehasis.Learnable spatio temporalfeature pyramid for prediction of future optical flow in videosJ.Machine Vision and Applications,2020,32(1):298-311.14 Sturm J,Engelhard N,Endres F,et al.A benchmark for the evalu-ation ofRGB-D SLAM systemsC/IEEE International Conference on Intelligent Robots and Systems.Algarve,Portugal:IEEE,2012:573-580.