基于路径规划特点的语义目标导航方法.pdf

资源描述

1、DOI:10.11992/tis.202309001网络出版地址:https:/ 计算机软件新技术全国重点实验室,江苏南京 210023;2.卡迪夫大学计算机科学与信息学院,英国威尔士卡迪夫 CF10 3XQ）摘要：为了解决语义目标导航任务中存在的探索效率低、深度不精准等问题，本文构建了一个解决语义目标导航任务的框架，在语义地图构建模块中引入了深度图边缘处理以及地图纠错机制；在探索模块中引入了覆盖范围最大化算法；在路径规划模块中引入了替代点机制。本文在一个 3D 仿真环境下进行了实验。实验结果表明，本文提出的解决方案明显提升了语义目标导航任务的性能。此外，本文所提方法成功应用到了四足机

2、器人上，从而验证了其在现实场景下的泛化性。关键词：人工智能；视觉导航；语义目标导航；语义感知；语义探索；路径规划；机器学习；语义地图中图分类号：TP399 文献标志码：A 文章编号：16734785(2024)01021711中文引用格式：高宇,霍静,李文斌,等.基于路径规划特点的语义目标导航方法 J.智能系统学报,2024,19(1):217227.英文引用格式：GAO Yu,HUO Jing,LI Wenbin,et al.Object goal navigation based on path planning characteristicsJ.CAAItransactions on i

3、ntelligent systems,2024,19(1):217227.Object goal navigation based on path planning characteristicsGAO Yu1，HUO Jing1，LI Wenbin1，WU Jing2，LAI Yukun2，GAO Yang1(1.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,China;2.School of Computer Sci-ence and Informatics,Card

4、iff University,Cardiff CF10 3XQ,England)Abstract:To solve the problems of low exploration efficiency and imprecise depth in object goal navigation,this articleconstructs a framework to solve object goal navigation.Depth map edge processing and map error correction mechan-isms were introduced in the

5、semantic map construction module;a coverage maximization algorithm was introduced inthe exploration module;alternative point mechanisms was introduced in the path planning module.This article conduc-ted experiments in a 3D simulation environment.The experimental results show that the new solution pr

6、oposed in thisarticle significantly improves the performance of object goal navigation.In addition,the method proposed in this articlewas successfully applied to quadruped robots,thereby verifying its generalization in real-world scenarios.Keywords:artificial intelligence;visual navigation;object go

7、al navigation;semantic perception;semantic exploration;path planning;machine learning;semantic map 语义目标导航任务1要求一个装有红绿蓝深度（RGB-depth，RGBD）相机的机器人（智能体）在未知地图环境中自主探索以找到特定类别的物体，其对安防、智能巡检具有重要意义。智能体为完成语义目标导航任务所需要的能力可概括为场景建图、去哪里和如何去 3 类。场景建图是指针对传感器观测数据的记忆和整合能力，除显式构建地图外也有使用循环神经网络2等方法；去哪里是指分析目标类别物体最有可能出现位置的能力，以实

8、现高效率探索；如何去是指路径规划和轨迹跟踪能力，以找到快速抵达目标位置的可行控制动作序列。去哪里是语义目标导航区别于其他导航任务的鲜明特点。解决语义目标导航任务需要搭建涉及众多组件的复杂系统，每个组件的设定都会对最终性能产生很大影响，导致对现有方法的对比分析和对收稿日期：20230901.网络出版日期：20240103.基金项目：科技部 2030 新一代人工智能项目（2021ZD0113303）；国家自然科学基金项目（62276128，62192783，62106100）；江苏省重点研发项目（BE2022077）.通信作者：霍静.E-mail：.第 19 卷第 1 期智能系统学报Vol.19

9、No.12024 年 1 月CAAI Transactions on Intelligent SystemsJan.2024智能系统学报编辑部版权所有改进之处的探索极为困难。为此，本文创建了一个解决语义目标导航任务的标准框架，并针对测试中发现的深度不精准、语义分割效果差、探索效率低、路径规划没有考虑任务特点等问题提出了新的解决方案从而进一步提升了性能。具体来说：1)针对探索效率低问题，在探索模块中引入了基于路径规划特点的覆盖最大化算法；2)针对深度不精准和语义分割效果差问题，在语义建图模块中引入了深度图边缘处理与地图纠错机制；3)针对路径规划没有考虑语义目标导航任务特点的问题，引入了替代点机制

10、和障碍物概率地图。使用提出的框架在一个逼真的交互式 3D 室内语义数据集（habitat-matterport 3D semantics data-set，HM3DSem）3-4下进行了实验。实验结果显示，本文提出的 3 个改进明显提高了语义目标导航任务的性能指标。本文所提框架成功应用到了四足机器人上，从而验证了该框架对现实世界具有泛化性。1 语义目标导航相关工作 1.1 语义 SLAM同时定位与地图构建（simultaneous localiza-tion and mapping，SLAM）算法根据传感器数据来源的不同可以分为激光 SLAM57和视觉 SLAM811。激光 SLAM 根据激光

11、测距结果直接构造障碍物地图，视觉 SLAM 则寻找图片上的关键特征点并通过多个视角来确定相机位姿。SLAM 解决方案一般都集中在寻找像素级别的特征点，即在单幅图像中提取特征点然后在多幅图像中对特征点进行匹配。这与人类通过判断物体在眼睛中的移动来进行定位极为不同，因为人类定位针对整个物体而 SLAM 解决方案针对特征点。为此可以引申出使用语义信息来帮助寻找多幅图像中的关联或为 SLAM 的回环检测等引入更多信息，语义信息为 SLAM 提供了更多判断相机移动的条件从而更好地定位。语义信息的引入也使得 SLAM不仅能够构建点云地图、障碍物地图，而且可以构建一个有语义标签的地图，从而为下游任务提供了更

12、广阔的空间。语义目标导航任务主要用到语义 SLAM 提供的带有语义标签的地图。有了带有语义信息的二维地图或者三维地图，智能体能够更加结构化地去分析不同类别物体的分布关系，更好地去理解场景从而推理出目标类别物体在地图中各个位置的出现概率。对目标类别物体出现位置的推理是语义目标导航任务的核心。但是现有方法没有针对语义目标导航中存在的深度不精准和语义分割效果差问题进行优化，这导致连续多帧的语义建图出现较大误差而无法完成语义导航任务。本文为此引入了深度图边缘处理及语义点云地图和二维地图纠错机制。1.2 经典导航方法导航能力是无人车、无人机、无人船等众多移动机器人所需要的基本能力之一。经典导航方法通常在

13、 SLAM 构建的地图上使用包括全局和局部路径规划在内的路径规划模块产生路径，然后使用控制算法对路径规划模块生成的路径进行跟踪和实际行进。路径规划的经典算法有很多，如迪克斯特拉算法（Dijkstra algorithm）、A 星搜索算法（A*search algorithm，A*）12、概率路线图算法（probabilistic road maps，PRM）13、快速探索随机树算法（rapidly exploring random trees，RRT）14、人工势场法（artificial potential fields，APF）15等。Dijkstra 算法是基于图结构的能够保证最优解的路

14、径规划算法，但处理大地图时效率低下；AS-tar 算法在 Dijkstra 算法的基础上引入衡量任何一个位置到目标位置距离的启发式函数从而使得探索方向具有一定的目的性；PRM 算法对地图进行稀疏采样从而将栅格地图转换为由少量采样点和可达边组成的图结构，然后在图结构中再使用AStar 等算法寻找路径；RRT 和 PRM 同是基于随机采样的规划算法，基本思想是从一个点出发向外探索扩展；与前面几种算法不同的是，APF 更适用于动态环境和局部路径规划。但是现有算法都没有针对语义目标导航任务特点进行改进从而导致路径规划模块的失败率较高，为此本文引入了替代点机制以提高路径规划算法对语义目标导航任务的鲁棒性

15、。1.3 基于学习的导航方法经典导航算法所使用的基于网格的地图表示在精度和内存需求上具有天然的矛盾，在动态环境中实时重新规划路径也需要大量计算。此外，经典导航框架中从 SLAM 到路径规划，计算误差会逐渐积累。为此，有研究将深度强化学习等引入导航中，从而得到了基于学习的导航方法16。大多数研究均使用深度 Q 网络17、异步优势演员评论家算法18、近端策略优化算法19、深度确定性策略梯度算法20等通用强化学习算法，但它们在状态设计、奖励函数设计、强化学习的使用方式等方面做了很多改进。状态设计涵盖了起点、目标点、障碍物位置等关键信息，与测试环境息息相关。若只考虑导航的核心任务（如避障和到第 19

16、卷智能系统学报218 达目标点），奖励会非常稀疏从而导致强化学习难以训练；所以多数研究引入了手工设计的中间奖励函数，包括碰撞、与最近障碍物的距离变化、与目标点的距离变化、时间步惩罚等。如何在导航中使用强化学习是基于学习的方法的核心问题，本文将使用方式分为 3 种。第 1 种是在导航中直接使用深度强化学习21，即将完整的导航过程描述为马尔科夫过程，以传感器的观测数据作为状态，直接学习到路径或控制动作序列的映射；这种方法不再需要 SLAM、全局地图等，但在复杂环境中容易落入局部陷阱。第 2 种是与经典导航技术相结合22，如先使用 PRM 对地图进行稀疏化，再在局部使用深度强化学习进行路径规划。第

17、3 种是分层深度强化学习，即将路径规划划分为静态避障、动态避障、趋向目标点等不同层次上的子任务，这主要是考虑到环境复杂度与状态空间巨大。但现有算法面对语义目标导航任务均存在探索效率低的问题，为此本文提出了基于路径规划特点的覆盖范围最大化算法。2 基于路径规划特点的解决方案 2.1 语义目标导航任务定义在语义目标导航任务中，智能体以随机的位置和方向被初始化在一个未知地图环境中，其目标是找到特定类别的物体，如床、厕所等。智能体需要依靠提供的 RGBD 相机、深度相机、位置信息（GPS）和罗盘等传感器实现导航，也就是说视觉观察包括第一人称的 RGB 图和深度图。动作空间是离散的，由行进、左转、右转、

18、停止共4 个动作组成，行进意味着向前移动 0.25 m，左转和右转的幅度为 30。当智能体认为它已经接近目标对象时，需要采取“停止”操作；如果智能体采取“停止”操作且停止时与目标物体的距离小于阈值 1 m，则认为该回合是导航成功的。可见成功需要同时满足发出“停止”操作和与目标物体足够近 2 个条件。2.2 基于语义建图的探索框架本文构建了基于语义建图的探索框架，将探索模块、语义 SLAM 模块、路径规划模块等进行解耦合，为不同模块下不同算法的性能对比及模块之间的重要性对比提供了方便公平的对比框架。语义 SLAM 模块使用 GPS、罗盘、RGBD 图像等传感器数据构建语义、障碍物等地图；探索模块

19、根据构建好的地图预测目标类别物体最有可能出现的位置从而得到长期目标；路径规划模块依据障碍物地图、智能体位置和长期目标规划出一条可行路径；轨迹跟踪模块依据路径等输出下一步智能体需要采取的动作。本文针对探索效率低问题，引入了基于路径规划特点的覆盖范围最大化算法；针对深度不精准和语义分割效果差问题，引入了深度图边缘处理及语义点云地图和二维地图纠错机制；针对没有考虑语义目标导航任务特点的问题，在路径规划模块中引入了替代点机制和障碍物概率地图。下面将详细介绍各个模块及对应改进。2.3 基于路径规划特点的探索算法探索模块负责选取路径规划模块的目标点，该目标点称为长期目标。长期目标的选择通常依据 2 点：1

20、)到达长期目标所需经过区域多为未知以尽可能扩大探索面积；2)长期目标附近很可能存在目标类别物体以尽快完成任务。以往工作2326中长期目标点的选择通常使用强化学习来完成。以面向目标的语义探索算法（goal ori-ented semantic exploration，SemExp）23为例，其将障碍物地图、语义地图作为状态输入，将与目标类别距离变化和探索面积变化的加权和作为奖励函数，将近端策略优化（proximal policy optimiza-tion，PPO）19作为策略网络进行强化学习训练。本文通过实验发现该方法存在探索效率低问题，结果如表 1 所示，数据集描述以及成功率、带有路径长度加

21、权的成功率（success weighted bypath length，SPL）等指标说明详见第 3.2 节。使用SemExp 论文公布的训练好的网络参数的成功率为 25.8%，SPL 为 12.8%；随机初始化的网络参数成功率为 25.3%，SPL 为 11.6%。二者指标接近，说明强化学习训练对探索效率的提高帮助有限。将强化学习状态输入的语义地图全部置零，成功率甚至达到了 26.4%，SPL 为 12.2%。这更加突出了探索效率低的问题。表 1 SemExp 不同设置在 HM3DSem 数据集下的指标对比 Table 1 Comparison in different settings

22、of SemExpunder HM3DSem test dataset%模型设置成功率SPL论文公布的网络参数25.812.8随机初始化网络参数25.311.6语义地图全部置零26.412.2 为此，本文提出了基于路径规划特点的覆盖范围最大化算法。该算法将长期目标设置在地图的边界处：psubgoal=x+2K2cos,y+2K2sin219高宇，等：基于路径规划特点的语义目标导航方法第 1 期 psubgoal(x,y,)K式中：为长期目标，为当前智能体的位置和朝向，为地图尺寸。未探索区域被设置为无障碍物，路径规划会设计出一条涵盖无障碍物和未探索区域的路线并在行进中不断更新地图。当前路径在更新

23、后地图中不再可通行时，会重新规划路线。使用替代点的覆盖范围最大化算法：输入仿真器 env，强制更新步数 LMAX，局部规划器 LPF，目标检测 OD；1)lstep=0，haveseen=false，subgoal=(0,0)2)obs=env.reset()3)While not env.done:4)lstep+=15)If lstepLMAX or LPF(subgoal)失败:6)按 2.3 节公式计算 subgoal7)lstep=08)If not haveseen:9)goal=OD(obs)10)If goal is not None:11)按 2.5 节根据 goal 计算

24、subgoal12)haveseen=true13)action=LPF(subgoal)14)obs=env.step(action)智能体不会再去访问已经探索过且没有其他支路的区域，因为这些区域不可能再涵盖到达目标点的路线。也就是说，智能体进入死胡同后会自动改变朝向从而发现其他未探索区域。这避免了在某个房间反复探索或是在 2 点间反复来回等低探索效率行为。本文设计的探索模块利用路径重新规划的特点使智能体覆盖范围最大化，从而提高了语义目标导航任务的探索效率。2.4 边缘处理与地图纠错语义 SLAM 模块负责地图构建，包括点云地图、障碍物地图、已探索区域地图和语义地图，具体描述如表 2 所示。

25、点云地图通过对 RGBD 图像使用主动神经 SLAM（active neural SLAM，ANS）27方法得到。语义地图在语义目标导航任务中起着重要作用，语义地图是探索模块的主要输入。语义地图的质量直接决定了下游模块的性能。以往语义目标导航研究所使用的语义地图建立方法一般是先对 RGB 图像进行语义分割得到分割图，根据深度图像得到三维点云，然后根据分割图和深度图像的对应关系为每一个点标注一个语义标签，最后对得到的带有语义信息的三维点云在垂直维度上进行求和得到二维语义地图。使用每一帧的 RGB图像和深度图像都能得到一幅二维语义地图。不同时间下得到的二维语义地图根据当时智能体的 GPS 和罗盘信

26、息被拼接起来，这样就构建出了供下游模块使用的保存了全部所见帧信息的二维语义地图。表 2 语义建图模块所建地图含义描述Table 2 Description of maps created by semantic map-ping module 名称大小说明点云地图4MM表示点云数量，每个点均用XYZ坐标和一个语义标签表示障碍物图960960每个点代表0.05 m宽的正方形区域；取值01的实数，表示有障碍物的概率；未观测区域视为无障碍物已探索区域图960960每个点代表0.05 m宽的正方形区域；0表示未探索，1表示已探索语义地图960960每个点代表0.05 m宽的正方形区域；取值015的整数

27、，表示15个语义类别和其他类别深度不精准和语义分割效果差为上述语义地图构建方法造成了严重问题。RGB 图像语义分割的些许差错可能会导致该帧生成的二维语义地图存在巨大错误，更严重的是二维语义地图错误会随着帧数增多而积累，最终导致拼接而成的二维语义地图出现严重偏差甚至失效。造成 RGB 图像语义分割些许差错会导致二维语义地图产生巨大错误的根本来源是物体实例边缘处深度值的不精准。一方面，语义分割容易在物体实例边缘处的像素点上出错，将部分属于其他物体的像素点标注为该物体实例；另一方面，物体边缘的深度值会发生跳变，在二维图像中相邻的 2 个点在实际的三维空间中可能相距很远。图 1 给出了一组深度图像、

28、RGB 图像及对RGB 图像进行语义分割，其中语义分割算法实际使用的是掩膜区域卷积神经网络（mask region-based convolutional neural network，Mask R-CNN）28实例分割算法。深度图像的像素值表示与相机的远近，椅子和桌子后面的大片同像素区域超过了相机的最大测量距离；分割图给出了椅子和桌子的语义信息。上段提到的物体实例边缘处的 2 个不利方面均在该组图中得到体现。以椅子腿为例，一方面，因为 RGB图像的噪声和实例分割算法的性能限制，部分属于地面、桌子等的像素点被划分为椅子腿，这些像素点将进入椅子所对应的语义地图层；另一方面，椅子与后方墙壁虽然第

29、19 卷智能系统学报220 在 RGB 图像和深度图像上像素点相邻，但其在三维空间中实际距离相差很远。这导致如果将部分墙壁像素点标注为椅子的语义信息，那么三维点云地图中与椅子相离很远的部分墙壁也将会被标注为椅子，而智能体到达该部分墙壁时会认为已找到椅子而采取停止动作。可见，在物体实例边缘处对深度图像和分割图进行处理是非常必要且重要的，但以往语义目标导航研究没有针对这一点进行优化。图 1 一组深度图像、RGB 图像与对应的部分分割图Fig.1 Depth image,RGB image,and corresponding par-tial segmentation image 为此，本文针对上述

30、问题提出了 3 种基于形态学的方法以改进语义 SLAM 模块建图的质量。这 3 种方法分别应用于语义 SLAM 模块的 3 个步骤中，所以可以同时应用。551)对语义分割得到的分割图进行腐蚀。具体地，使用的全 1 卷积核对分割图进行卷积，分割图上像素值表示语义概率，如果一个像素点为概率 1 的特定语义点且位于语义物体内部，则经过卷积操作后的该点数值为 25。同时考虑语义点位置和概率，保留卷积后数值大于 23.5 的点作为最终分割图中的特定语义区域，用公式表示为MSemNew=(15MSem)23.5MSemNewMSem1555式中：表示处理后的分割图，表示原始分割图，表示的全 1 矩阵，表示

31、卷积运算。可见这会缩小分割图中语义物体的面积从而减少语义分割在物体边缘处出错的概率，但不会影响语义目标导航任务的性能，因为解决语义目标导航任务只需要知道有一个特定语义物体在该区域而无需知道物体的摆放细节。这也有助于去除语义分割模型输出的异常孤立点。2)对语义三维点云地图进行滤波，去除那些距同类语义物体距离远大于平均距离的语义点，从而确保去除掉由物体边缘深度值跳变导致的部分线段状点云，因为物体边缘形成的错误点云与其主体点云的距离很大。具体地，使用 K 维树（K-dimensional tree，KD Tree）来计算每个语义点周围 0.1 m 范围内相同语义点的数量，若数量大于 5 则保留该点，

32、否则舍弃：MPcdNew=p MPcd:pMPcdI(dis(p,p)5MPcdNewMPcddislabelI式中：表示处理后的点云，表示原始点云，是 2 点之间的距离函数，是点对应的语义标签函数，是指示函数。3)对拼接而成的语义二维地图进行开运算。腐蚀操作类似于对分割图的处理，会去除掉地图中的孤立点，而膨胀操作恢复物体实例本来的尺寸并填充由于体素化而缺失的部分语义点。二维语义地图开运算保证了供下游模块使用的语义地图质量以及与原地图之间物体尺寸的匹配。2.5 语义目标替代点以往语义目标导航研究中使用的路径规划算法可分为 2 类：1)基于几何的经典路径规划算法，如 Sethian 等29所使用

33、的快速行进算法（fastmarching method，FMM）；2)基于学习的路径规划算法，如 Wijmans 等30所使用的去中心化分布式近端策略优化算法（decentralized distributed prox-imal policy optimization，DDPPO）。这些框架使用的均是标准路径规划算法，没有将语义目标导航的任务特点考虑进去。为此，本文以语义目标导航的任务特点为驱动对路径规划模块作了以下几点设计。语义目标导航任务的一个显著特点是其长期目标（也即路径规划的终点）可能设置在障碍物上。这是合理的。如床在智能体所构建的障碍物地图中属于无法通过的障碍物，当语义目标类别设置

34、为床时，标准的路径规划算法无法规划出一条无障碍路径，因为终点处于障碍物的包围之中。以往语义目标导航框架没有显式地考虑这一问题，而是简单地把所有目标语义点作为路径规划终点。这种方法能够解决同一语义物体被作为障碍物的问题，但对于被其他障碍物所包围的语义目标而言是无效的。如放置在桌子上的盆栽和嵌入墙壁的电视，二维障碍物地图中盆栽被桌子围绕，电视被墙壁围绕，导致从机器人当前位置无法规划出到任意一个语义目标点的路径。为解决该问题，本文提出了将语义目标附近可通行点作为替代点的方法，即将位于语义目标点周围且能够从智能体当前位置规划出一条路径的点作为长期目标。该方法解决了语义目标被障碍物包围而无法规划路径的问

35、题。求解替代点存在从最近替代点看不到目标物体的问题。以放置在桌子上的盆栽为例，按照寻221高宇，等：基于路径规划特点的语义目标导航方法第 1 期找替代点的思路，替代点将被设置在桌子的 4 条边上，若桌子靠墙，则有一条边将被设置在墙的另一侧即另一间房间（因为无法从障碍物地图中判断从另一间房间是否能够看到盆栽）。这就导致长期目标有可能被设置在另一间房间而造成任务失败。本文使用下述方法来寻找替代点以规避该问题：将发现语义目标物体时的智能体位置与随机一个语义目标点进行连线，将连线上最靠近语义目标点的无障碍物点作为长期目标：subgoal=argminpLine(curpos,goal)ANDp is

36、 freedis(p,goal)subgoalcurposgoal式中：表示语义目标替代点求解后的长期目标，表示智能体发现语义目标时的位置，表示发现的语义目标点位置。智能体在发现语义目标物体时的位置肯定能够看到语义目标，所以二者连线是智能体能够完全观察的区域，能为其后路径规划提供更多图像，并且从当前位置到连线上点的可通行概率更大。99除了引入语义目标驱动的替代点机制，本文还将更适用于实际的障碍物地图表示方法带入了语义目标导航框架中。以往的语义目标导航研究使用非 0 即 1 的障碍物地图表示方式，这种表示方式可能导致智能体在空旷处选择贴近障碍物的路径而这些路径实际无法通行，也可能导致在狭窄处穿越

37、密集障碍物时路径规划失灵。以往的语义目标导航研究也没有考虑智能体的尺寸问题，只是把智能体作为一个质点。按照质点规划出来的路径往往难以通行。以往工作一般是构建所谓的碰撞传感器23,27,3134以记录实际不可通行的区域来解决智能体尺寸问题，但该方法在现实中是不可行的。为此，本文将障碍物概率地图引入到了语义目标导航任务中。本文使用的全 1 矩阵作为卷积核对二维障碍物地图进行卷积，卷积后地图中每个大于 0 的像素点均当作障碍物像素点，从而得到障碍物概率地图。这样不仅将智能体尺寸引入到了障碍物地图中，也显式地表示了障碍物的密集程度。数值较大的区域表示位于障碍物中心无法通行，数值较小的区域由于深度图像的

38、误差则有可能可以通行。这就给了路径规划模块更大的选择空间，同时也可以去除掉不符合实际的所谓“碰撞传感器”。图 2 给出了 2 种地图表示形式的可视化效果。右图表示概率地图，每处障碍物的中心区域数值较大不可能通行，边缘区域数值较小则有可能通行。智能体在无法找到全部数值为 0 的路径时则会考虑数值较小的那些点。图 2 障碍物地图处理示例Fig.2 Example of obstacle map processing 最后，轨迹跟踪模块依据规划出的路径计算智能体下一步需要采取的动作。因为该任务中行进、左转、右转的幅度都是固定的，所以只需要将智能体转向下一个路径中间点并朝其前进即可。3 实验设计与结果

39、分析 3.1 数据集与仿真器本文使用 HM3DSem(habitat-matterport 3D se-mantics dataset)数据集。HM3DSem 是迄今为止最大的三维真实世界和室内空间数据集，具有密集的语义注释。它包含 142 646 个对象实例注释，216 个 3D 空间及这些空间中的 3 100 个房间。场景使用 142 646 个原始对象名称进行注释并被映射到 40 个 Matterport 类别中。每个场景平均包含106 个类别和 661 件物品。图 3 给出了 HM3DSem某个场景的预览图。图 3 HM3DSem 某个 3D 空间的预览Fig.3 Preview im

40、age of one 3D space in HM3DSem 本文选用 Habitat35-36作为仿真器。Habitat 仿真器会加载 HM3Dsem 数据集及语义目标导航任务数据集（包括对智能体初始化位姿、语义目标类别等的定义），提供了数据集和用户代码的交互接口（如对传感器数据的访问、对智能体运动的控制、返回任务的执行结果等）。在本文的实验环境中，智能体能够获得的信息有 RGBD 相机拍摄的第 1 人称 RGB 图像和深度图像、跟踪相机位置的里程计信息；智能体的动作空间为前进第 19 卷智能系统学报222 0.25 m、左转 30、右转 30、停止。3.2 评价指标及基准算法本文使用成功率

41、（success rate，SR）、带有路径长度加权的成功率（success weighted by pathlength，SPL）、发出停止动作时与目标的距离（dis-tance to goal，DTG）3 个评价指标。指标定义为mSR=1NNi=1SimSPL=1NNi=1Silimax(pi,li)mDTG=1NNi=1diNSiiliipiidii式中：表示回合数量，表示第回合是否成功，表示第回合能够完成任务的最短路径长度，表示第回合实际采取路径的长度，表示第回合发出停止动作时智能体与语义目标的距离。可见，SR 和 SPL 越大越好，DTG 越小越好。SPL 综合考虑了成功率和

42、效率。按照 Anderson 等1的建议，本文将 SPL 作为主要指标，SR 和 DTG 作为辅助指标。为了评估模型效果，本文选取了前沿探索（frontier-based exploration，FrontierExp）37、DDPPO30、SemExp23、对人类经验进行模仿学习的算法（HabitatWeb）38共 4 种基准模型作为对比。下面是对基准模型的简要介绍。FrontierExp 选择离自身位置最近且可通行的frontier（即未访问区域和已访问区域的交界）作为长期目标。DDPPO 不进行建图，使用 PPO 直接学习传感器数据到控制动作的策略。DDPPO 在 PPO 基础上实现了一

43、种大规模强化学习训练框架。本文使用 DDPPO 提供的模型参数进行测试，其使用64 块 Tesla V100 GPU 进行了 3 d 训练，消耗了 25 亿帧样本。可见，DDPPO 所需要的训练样本、训练时间和硬件资源都是巨大的。SemExp 由语义建图模块、强化学习长期策略选择和基于强化学习长期策略选择和基于快速行进法（fast marching method，FMM）的局部路径规划算法组成。本文所提系统框架正是对 SemExp各个模块进行了解耦，依据测试中发现的问题进行了相应改进。HabitatWeb 收集了大量人类完成语义目标导航任务的示例并使用行为克隆对人类示例进行模仿学习。3.3 与

44、基准算法比较图 4 以实验示意图的形式给出了本文所提的系统框架。本文在 HM3DSem 测试数据集下进行测试。HM3DSem 测试集共有 2 000 个测试回合，每回合任务必须在 500 步内完成。语义目标类别有椅子、床、植物、马桶、电视、沙发共6类。表3给出了本文所提框架与上述基准算法在 HM3DSem 测试集下 6 个类别及平均的实验结果。仿真器:接收机器人动作并返回 GPS、罗盘、RGBD 等信息动作(行进、左转等)路径规划模块覆盖范围最大化探索替代点机制长期目标探索模块局部地图语义 SLAM 模块边缘处理地图纠错实例分割GPS、罗盘RGBD 图像智能体位置输入输出系统模块图 4 语义

45、目标导航系统框架Fig.4 Object goal navigation system framework diagram 223高宇，等：基于路径规划特点的语义目标导航方法第 1 期从表 3 可以看出，在使用 SPL 指标的测评中，本文所提框架取得了优于其他所有模型的效果（0.236），比其他最好的 HabitatWeb（0.193）高出0.043，提高了 22.3%。在椅子、植物、马桶、电视、沙发这 5 个类上本文所提框架的 SPL 指标均最高，仅床类下 HabitatWeb 的 SPL 指标高于本文所提框架。这说明本文所提框架着实提高了语义目标导航任务的性能。在总体成功率方面，Habi

46、tat-Web（0.491）高于本文所提框架（0.441）；本文框架在植物、马桶、电视这 3 个类上成功率最高，Hab-itatWeb 在椅子、床、沙发这 3 个类上成功率最高。高成功率低 SPL 说明 HabitatWeb 未能兼顾好成功率和效率，在提高成功率的同时极大地牺牲了效率。因为目标导航任务所涉及的场景复杂多变，人类示例很难穷尽所有情况，这导致 Habit-atWeb 进行模仿学习时会遇到无法处理的状态而在同一片区域反复游荡，导致 HabitatWeb 完成任务的路径长度极度增加。而本文框架提出了基于路径规划特点的覆盖范围最大化算法，避免了在同一片区域反复探索或是在 2 点间反复来回

47、等低效率行为，使得智能体覆盖范围最大化，从而提高了语义目标导航任务的探索效率，使得本文所提框架成功率在低于 HabitatWeb 的同时 SPL 指标却高于它。从以上分析可以看出，从兼顾成功率和效率的 SPL 指标来看，本文框架超过了以往的各个方法；从成功率来看，本文框架超过了 Frontier-Exp、DDPPO、SemExp，略低于 HabitatWeb。不过HabitatWeb 需要大量的人类示例，耗费大量的时间和资金。本文框架无需昂贵的数据收集过程和巨大的训练时间。从表 3 还可以看到，几乎所有方法在椅子、床、沙发、马桶这 4 个类上的表现优于在植物、电视这 2 个类上的表现。如 DD

48、PPO 在椅子类上SPL 有 0.198，而在植物类上 SPL 只有 0.006；Hab-itatWeb 在床类上 SPL 有 0.255，而在电视类上只有 0.078。本文分析认为造成这种巨大差异来源于不同类别的实例分割效果差异。为了验证该想法，本文在 HM3DSem 测试数据集中随机采样了7 万张图片（其中包含 17.7 万个实例）并制作了实例分割数据集（如图 5 所示），使用 Mask R-CNN算法对其进行了测试，测试结果如表 4 所示。从表 4 中可以看出，植物和电视的边界框平均精度指标（bounding box average precision，bbox AP）分别为 12.10

49、和 7.94，远低于其他物体类别。语义信息的不准确限制了植物和电视类的语义目标导航性能。另外，虽然本文框架在植物和电视类上的表现不如其他类别，但本文框架不同类别之间的差距低于其他算法。这说明本文框架对语义信息的容错率更高，更适合应用到复杂的现实任务中去。表 3 HM3DSem 测试数据集下语义目标导航结果Table 3 Object goal navigation results under HM3DSemtest dataset 类别方法FrontierExpDDPPOSemExpHabitatWeb本文方法椅子SPL0.1720.1980.2230.2570.306SR0.2870.38

50、30.4210.6090.542DTG3.4852.4312.6591.6312.222床SPL0.1590.1980.0970.2550.222SR0.2820.3550.1800.6480.422DTG6.3005.5095.6103.6855.752植物SPL0.1070.0060.0760.0660.121SR0.1790.0230.1790.2260.240DTG6.5538.2968.4517.9877.544马桶SPL0.1550.0840.1010.1090.194SR0.3170.1980.2340.3110.406DTG5.3906.2415.4865.8644.942电视

展开阅读全文