1、投稿网址:2023 年 第23 卷 第24 期2023,23(24):10394-08科 学 技 术 与 工 程Science Technology and EngineeringISSN 16711815CN 114688/T收稿日期:2022-11-06修订日期:2023-05-31基金项目:国家自然科学基金(51775388)第一作者:匡军(1998),男,汉族,湖北武汉人,硕士研究生。研究方向:智能驾驶。E-mail:1648673593 。通信作者:燕怒(1970),男,汉族,湖北荆州人,博士,教授。研究方向:机械动力学。E-mail:yannu 。引用格式:匡军,朱盈盈,万仁卓,等
2、.多功能移动机器人分层路径规划研究J.科学技术与工程,2023,23(24):10394-10401.Kuang Jun,Zhu Yingying,Wan Renzhuo,et al.Layered motion planning of multifunctional mobile robotJ.Science Technology and Engi-neering,2023,23(24):10394-10401.多功能移动机器人分层路径规划研究匡军1,朱盈盈1,万仁卓2,韩冬桂1,燕怒1(1.武汉纺织大学机械工程与自动化学院,武汉 430200;2.武汉纺织大学电子与电气工程学院,武汉 43
3、0200;)摘 要 现有移动机器人规划算法生成轨迹目标单一,无法满足多样化的任务需求,为此,提出一种多指标维度反馈的路径规划策略。基于强化学习在线决策机制,寻求多条抵达目标的无碰撞路径;进而根据路径性能特征建立价值评估体系,动态更新机器人运动节点间的动作代价值,并且在不同权重配比下进行了仿真测试。结果表明:该算法能根据需求针对性提高全局路径相关性能,并结合全局路径信息,反馈控制局部运动决策,从而使得移动机器人能够在相同环境中解算出不同满足期望的运动决策。关键词 路径规划;移动机器人;强化学习;多维度中图法分类号 TP242;文献标志码 ALayered Motion Planning of M
4、ultifunctional Mobile RobotKUANG Jun1,ZHU Ying-ying1,WAN Ren-zhuo2,HAN Dong-gui1,YAN Nu1(1.School of Mechanical Engineering and Automation,Wuhan Textile University,Wuhan 430200,China;2.School of Electronic and Electrical Engineering,Wuhan Textile University,Wuhan 430200,China)Abstract Aiming at the
5、single trajectory target generated by the existing planning algorithm,which cannot meet the diversified taskrequirements of mobile robots,a motion planning strategy for multi-dimensional information feedback was proposed.Based on the rein-forcement learning online decision-making mechanism,multiple
6、collision-free paths to reach the goal were sought.According to the pathperformance characteristics,a value evaluation system was established to dynamically update the generation value between the nodes of therobot motion state.Simulation tests were carried out under different weight ratios.The resu
7、lts show that the proposed algorithm can im-prove the performance of global path correlation according to requirements and control local path decisions in combination with global pathinformation feedback,so that mobile robots can solve different motion decisions that meet expectations in the same en
8、vironment.Keywords path planning;mobile robot;reinforcement learning;multi-dimensional 近年来,随着机器人技术的发展,移动机器人在各领域得到了广泛的应用1。路径规划是移动机器人实现自主运动的关键技术,也是机器人运动研究人员必须解决的问题之一2-3。但随着机器人应用场景日趋复杂,考虑单一目标生成最优路径的传统规划算法,已无法使移动机器人适应多元化的任务场景4。Sung 等5基于强化学习算法,以移动机器人在多种传统算法作用下生成路径作为输出,搭建神经网络,使移动机器人在未知环境中有所参考,做出相应的运动决策。Le
9、i 等6根据机器人当前环境和下一步决策,构造奖惩机制来动态更新运动节点间的动作代价值,使其在动态环境中找寻目标有自己的优势。杨桂华等7、Luo 等8提出分布式智能仿生蚁群算法,通过全局路径信息更新节点间动作代价值的方式,使移动机器人趋于做出全局路径更优的运动决策。在此基础上,文献 9-10 提出了MAX-MINant 系统(MMAS),限制了信息素允许值的上下界,使得生成路径平滑。然而,强化学习的在线学习机制的盲目性,导致全局路径性能难以保证,而蚁群算法以路径长度单指标计算信息素的方式又较为局限,使得机器人难以求解出满足多样任务需求的全局路径11。为此,结合强化学习算法在线决策能力和蚁群算法全
10、局信息素反馈机制,通过设置不同指标评估权重,从长度、总转动角度、附近障碍个数等多维度评估全局路径集合的方式,解决现有规划算法普适性不强的问题。最后根据任务场景需投稿网址:求,筛选出满足规划要求的最优路径,使机器人能在不同的任务场景下,有较好的适应能力。该规划方法为机器人全局路径规划问题提供了新的解决方向。1 运动规划策略路径规划是指在特定区域内找到一条从初始点到指定目标点的轨迹。通常该区域会包含多个障碍物,使得机器人在找寻目标中有多条轨迹选择,因此路径规划的关键是使机器人自主求解的轨迹满足任务的需求。为了较好地评估路径规划算法的优劣,通常研究对象为运动状态离散化的移动机器人,并且实验场景为栅格
11、地图,网格结构如图 1所示,规定机器人只能从前、后、左、右、左前、左后、右前、右后 8 个方位全向移动,通过数字索引的方式,选择 1 8 节点中其一,进行下一节点位姿变更,并且不能出现越格行为。移动机器人根据当前节点间的动作代价值,以相应的规划方式进入下一节点。路径规划算法的本质是通过不同的更新代价值的方式,以达到不同的规划效果。介绍一种新的代价值更新方式,并对该方法的性能进行数学分析。该方法由两层规划器组成,具体如下。第一层规划器基于强化学习算法,通过移动机器人当前节点和下一节点状态构造奖惩函数,在线更新节点间动作代价值。由于强化学习存在盲目性,本规划器根据地图复杂程度设置多次路径找寻任务,
12、得到多条全局路径集合,并且每次搜寻后,清空节点间的动作代价值,防止路径间形成干扰。第二层规划器根据机器人全局路径需求和自身结构特征建立价值评估模型,多指标评估第一层规划器生成的全局路径集合,得到路径对应的评估1 8 为节点图 1 网格结构地图Fig.1 Map of the network structure值,从而反馈更新节点间动作代价值,并赋予不同的指标权重,生成与指标权重对应的路径,最后根据任务需求,筛选出最优的全局路径。流程如图 2所示。图 2 运动规划流程图Fig.2 Movement planning flowchart1.1 第一层规划器在此层规划器中设置避障程序,模型如图3 所
13、示,机器人根据不同环境变更运动决策,以出现障碍为例,对比机器人在两种环境中不同的运动路径,图 3(a)图 3(d)表示机器人两种路径下该运动节点状态和周边环境。图 3 中,机器人位姿由绿色圆圈表示,初始点用蓝色方块标记,随着方块颜色由深入浅,表示距离初始点位距离越远,并且可通过机器人周边颜色状态分辨机器人当前位姿的周边环境,以决策下一运动节点。当面对状态 2 中,地图出现由黑色方块表示的障碍时,原有选择进入节点1 的动作代价值,将由惩罚函数变更,并根据更新后的代价值重新进行选择,使得机器人由运动决策 1 变更至运动决策2,达到规避避障的效果。593012023,23(24)匡军,等:多功能移动
14、机器人分层路径规划研究投稿网址:图 3 避障算法模型Fig.3 Obstacle avoidance algorithm model 在机器人运动场景中,网格中每个节点与相邻8 个节点以离散、拓扑的结构连接,建立强化学习模型,机器人位姿状态由 Q(s,a)表示,其中,s 为机器人所处的节点位置,a 为当前节点与相邻 8 个动作节点,由 8 个对应动作代价值组成的列表,如式(1)所示。a=a1a2a3a4a5a6a7a8(1)机器人在线运动决策过程中,代价值 a 会根据下一节点状态反馈更新,更新公式为Q(st,at)=Lreward-Q(st,at)(2)式(2)中:L 为学习率;reward为
15、更新奖励;t 为当前状态时刻;st为 t 时刻下节点位置;at为该时刻下此节点位置与相邻节点间的代价值。根据相应运动下一节点状态,reward将得到不同的奖励赋值,赋值规则可表示为reward=1,p=gdQst+1,argmax(at+1),p g-1,p=o(3)式(3)中:p 为机器人当前位置;o 为障碍物位置;g为目标位置;此时 Q 函数寻找下一状态节点最大的动作代价值;d 为奖励衰变比例,随着迭代次数的增加,获得的奖励值降低。1.2 第二层规划器全局路径通常由节点个数(number of nodes,NS)、路径长度(path length,PL)、总转弯角度(turn-ing an
16、gle,TA,单位:rad)、转动次数(number of rota-tions,NT)和附近障碍物总个数(number of obstacles,NO)5 种指标评判,其中机器人运动转弯角度和附近图 4 运动角度和障碍个数计算方式Fig.4 Calculation method of movementangles and obstacles障碍物个数计算方式如图 4 所示。图4 中,移动机器人从 t-1 时刻移动到 t+1 时刻。上一时刻机器人状态、当前时刻机器人状态和下一时刻机器人状态分别用 st-1、st和 st+1表示。对应时间 t 的转弯角为 t,索引节点周围 8 个方向方格中障碍物
17、个数用以统计附近障碍物总个数,如 st、st+1附近障碍物个数为2,状态 st-1附近障碍物个数为1。以此建立评估模型,如图 5 所示。图 5 中,W1、W2、W3为指标权重,并且保证权重和为 1。将对第一层规划器生成的路径集合中每条路径进行评估,根据机器人移动任务需求,对 5 种评估指标 NS、PL、TA、NT、NO在路径集合中的排名,赋予相应的奖励值,奖励值由 10、8、6、4 共4 个等级组69301科 学 技 术 与 工 程Science Technology and Engineering2023,23(24)投稿网址:图 5 路径价值评估模型Fig.5 Path value ass
18、essment model成。例如,机器人任务需求趋向于寻找最短路径时,则该路径,在 PL指标路径长度排名越小,赋予奖励值越大。为了减少计算量,NS与 PL因素对全局路径质量影响程度类似,统一由权重 W1控制,NT与TA由权重 W2控制,NO影响相差较大,单独用 W3控制。路径评估值计算公式为EV=W1(RNS+K1RPL)+W2RNO+W3(RNT+K2RTA)(4)式(4)中:RNS、RPL、RNO、RNT、RTA为对应评估指标的奖励值大小;K1、K2为比例积分,通常设置为 1。R 为奖励得分,奖励机制为R=10,Rank1(0 25%)8,Rank2(25%50%)6,Rank3(50%
19、75%)4,Rank4(75%100%)(5)式(5)中:Ranki(i=1,2,3,4)为该路径在第一层全局路径集合中此指标的排名,指标数据从小到大排名。根据机器人功能需求设置相应的得分赋值,如当需要移动机器人在路径较短的情况下抵达目标时,可将奖励得分赋值为排名越小得分越高。不同的赋值对机器人运动决策影响不同,导致生成全局路径效果不同。传统的蚁群算法以路径真实数据计算信息素浓度,而本评估模型通过排名机制,可以保证信息素浓度在一定数值跨度区域内,以提高路径评估效率并降低计算量。根据所有路径评估值,反馈更新节点间代价值,更新规则为Q(st,at)=Ni=1EViN(6)式(6)中:N 为此节点做
20、出该运动决策的路径总数;i为路径集合中单条路径的索引;EVi为对应 i 路径的价值评估值。由贪心取法选择代价值最大的决策方式进入下一节点,直至到达目标状态完成路径搜寻。进而设置不同的指标权重,得到随权重变化的路径集合,筛选满足任务条件的全局最优路径,赋予机器人指令执行运动决策。2 多功能需求的路径规划应用为使移动机器人实现不同功能,经常要求机器人做出不同的路径规划。通过仿真设置地图场景,着重探讨此规划方法在人为需求下,如何控制全局路径评估指标权重从而得到相应的路径。仿真环境如下:Windows10 64 位;AMD Ryzen 5 3600 6-CoreProcessor;主频 3.60 GH
21、z;运行内存 16 GB;仿真软件:PyCharm。2.1 地图环境的搭建目前路径规划算法地图环境通常为栅格网络地图,为保证算法路径生成可视性,地图环境网格设置为 10 10 个方格组成,单格尺寸大小为 20 20,并由左到右作为 x 轴,从下至上作为 y 轴进行标号,形成栅格地图。如图 6 所示,机器人无法移动到黑色状态节点,设置起始点为(2,9),终止目标点为(10,1)。黑色方格表示障碍图 6 仿真地图Fig.6 Simulation map2.2 指标权重对于生成路径的影响主要探讨路径评估指标权重对于生成全局路径的影响,分别介绍 PL、TA和 NO3 个指标权重发生变化时生成的路径,并
22、且为了避免偶然性,每个权重数据取重复 10 次实验的平均值,依据功能需求,设计 3 组实验场景。2.2.1 场景一第 1 组实验场景希望移动机器人能够寻求路径较短情况下达到目标点完成物品运输任务12。依793012023,23(24)匡军,等:多功能移动机器人分层路径规划研究投稿网址:据第二层规划器计算方式,PL指标排名和 TA指标排名越小得分越高,且不发生碰撞的情况下靠近障碍物抵达目标,则 NO指标排名越大得分越高。赋予指标不同的奖励得分如表 1 所示。将 PL指标权重 W1递增,NO指标权重 W2与 TA指标权重 W3递减的方式进行实验分析。由此得到路径长度随 W1变化曲线如图 7 所示。
23、表 1 场景一奖励得分 R 设置Table 1 Scenario one Setting reward score R指标排名Rank1Rank2Rank3Rank4NS10864PL10864NT10864TA10864NO46810图 7 路径长度变化曲线Fig.7 Path of length change curve从图 7 中可以看出,第一段 PL指标权重由0 增加到 0.08 时,获得路径长度反而增加。结合权重分析发现,在此阶段 W1过小,W2和 W3占主导影响因素,在其权重减小的情况下,机器人趋于做出总转动角度较大和远离障碍物的路径决策。相反在 W1从 0.08 增加到 0.23
24、 时,PL指标占主要影响因素,使得机器人运动决策偏向于寻找长度较短的路径。同样在 W1到达 0.23 后,PL指标数据达到阈值,继续增加权重难以造成影响,而 W2和 W3继续降低,导致机器人回归到第一种状态模式。由图 7 可知,当 W1为 0.23 得到最短路径,其长度为 249.7。将此时权重反馈更新节点间代价值,机器人得到如图 8所示的最佳全局路径。2.2.2 场景二第 2 组实验场景希望机器人能得到经过较多节点且覆盖到与障碍物较近的节点,抵达目标完成搜寻任务13。依据第二层规划器计算方式,PL指标排名和 TA指标排名越大得分越高,并且需要靠近障碍物,则 NO指标排名越大得分越高,赋予指标
25、不同的奖励得分如表 2 所示。将 TA指标权重 W3递增,PL指标权重 W1与 NO指标权重 W3递减进行实验分析。由此得到总转动角度随 W3变化曲线如图 9 所示。绿色圆圈为机器人的起始点;黑色区域为机器人不可达的障碍;黄色区域为机器人的终止点;箭头表示机器人处于地图节点时做出的运动决策方向,形成最终算法生成的全局路径图 8 场景一算法生成路径图Fig.8 Scenario one algorithm generates the path map表 2 场景二奖励得分 R 设置Table 2 Scenario two Setting reward score R指标排名Rank1Rank2R
26、ank3Rank4NS46810PL46810NT46810TA46810NO46810图 9 总转动角度变化曲线Fig.9 Total turning angles change curve89301科 学 技 术 与 工 程Science Technology and Engineering2023,23(24)投稿网址: 较前一组实验中,这组实验中随着 W3递增,机器人获得全局路径总转弯角度整体呈增加的趋势,但值得注意的是,图 7 中有 3 个阶段,随着权重增加,获得全局路径总转弯角度变化并不大,分析在此阶段,W3增加与 W1和 W2减小在对局部运动决策时影响相互平衡,但随着 W3增加到
27、 0.08 和 0.25关键节点时,出现较大跨越,此权重分配,使得机器人更倾向于寻找长度较长,转动较多的路径。由图9 可知,权重为 0.22 时,有总转弯角度最大的全局路径,其总转弯角度为 26.703 rad。计算可得机器人巡查节点覆盖率达到 65.71%。同样将权重反馈更新节点间代价值,机器人得到如图 10 所示的全局路径。绿色圆圈为机器人的起始点;黑色区域为机器人不可达的障碍;黄色区域为机器人的终止点;箭头表示机器人处于地图节点时做出的运动决策方向,形成最终算法生成的全局路径图 10 场景二算法生成路径图Fig.10 Scenario two algorithm generates th
28、e path map2.2.3 场景三第 3 组实验场景希望机器人距离障碍物较远且路径较小的情况下,抵达目标点完成有效避障且追寻目标任务14。依据第二层规划器计算方式,PL指标排名和 TA指标排名越小得分越高,且需要远离障碍物,则 NO指标排名越小得分越高,赋予指标不同的奖励得分如表 3 所示。将 NO指标权重 W2递增,PL指标权重 W1与 TA指标权重 W3递减进行实验分析。由此得到附近障碍物个数随 W2变化曲线如图 11 所示。由图 11 中趋势可以确定在 W2递增的情况下,机器人更容易寻找到远离障碍物的全局路径,并且在个数上反馈较为明显,受到 W1和 W3影响较小。并且图 1 中可以得
29、出在 NO指标权重设置为 0.04时,机器人寻求路径障碍物较多且靠近障碍物,在权重为 0.29 时达到最低值,与附近障碍物总个数(69)最少。将权重反馈更新节点间的代价值,获得全局路径如图 12 所示。表 3 场景三奖励得分 R 设置Table 3 Scenario three setting reward score R指标排名Rank1Rank2Rank3Rank4NS10864PL10864NT10864TA10864NO10864图 11 与附近障碍物总个数变化曲线Fig.11 Total number of obstacles nearby change curve绿色圆圈为机器人的
30、起始点;黑色区域为机器人不可达的障碍;黄色区域为机器人的终止点;箭头表示机器人处于地图节点时做出的运动决策方向,形成最终算法生成的全局路径图 12 场景三算法生成路径图Fig.12 Scenario three algorithm generates the path map993012023,23(24)匡军,等:多功能移动机器人分层路径规划研究投稿网址:3 算法对比实验为了验证所提规划方法与其他算法相比的有效性和优越性,参考文献15的复杂静态地图环境,对比不同规划算法的结果,包括平均神经动力学模型(PMNDM)和模糊势场法。地图场景设置为30 30 个方格组成,单格尺寸小为 20 20 的
31、离散映射。为保证算法对比的公正性,设置与参考文献15相同的任务目标:机器人从(2,2)开始,寻找处于(28,28)的目标点,实验结果如图 13 所示。为了更多角度的对比本规划算法在控制权重和奖励得分下得到不同反馈路径,从而实现不同功能的规划,针对性选择了两种不同评估模型,将得到的路径参与比较分析。所提规划方法机器人寻求最短路径时得到全局路径和 PMNDM 算法结果相似,值得注意的是机器人在(10,1)时,本规划器决策是继续向右移动,此处运动决策受 PL指标影响较低于 NO指标影响,但有趣的是本规划器也能经过由两边障碍物组成窄道,在此处机器人决策路径长度 PL指标更具有优势。同样,在寻求距离障碍
32、物更远的路径时,往往会产生较大的总转弯角度,和模糊势场法生成更多转弯路径有些相似。为了更清楚地了解算法生成路径的性能,测量 NS、PL、NT、TA和 NO指标的数值,如表 4 所示。特别地,PMNDM 在此场景中规划了具有最少节点(42)、最小长度(927.7)的路径。本文规划器图 13 复杂地图中轨迹比较Fig.13 Track comparison in complex maps表 4 复杂地图路径指标数据Table 4 Path metric data in complex map算法NSPLNTTA/radNOPMNDM42927.71318.064120模糊势场511 165.728
33、44.71566最短路径47986.3911.781121远离障碍501 137.41520.42025获得最短路径节点个数(47)与路径长度(986.3)与PMNDM 模型相差不大,但在总转弯角度上降低(34.7%)。模糊势场路径长度(1 165.7)和总转弯角度(44.715 rad)方面规划不好,障碍物对其影响较大,导致模糊势场无法寻找到地图右侧由障碍物形成的夹道,但在与附近障碍物个数(66)较少,使得生成路径安全性得到提升。与本文规划器中寻求远离障碍物的路径相似,在与附近障碍物个数指标权重的影响下使得机器人得到长度较大(1 137.4)路径,但规划出与附近障碍物个数(25)大幅度降低(
34、62.1%)的高质量路径,并且在总转弯角度和总转弯次数上明显少于模糊势场法规划的路径。4 结论为解决传统路径规划算法生成轨迹单一性的问题,提出了一种多维度指标计算信息素,反馈更新机器人运动节点间代价值的规划策略,得出如下结论。(1)基于强化学习算法,动态搜寻在静态障碍物环境下多条抵达目标的路径。(2)根据全局路径需求和机器人自身结构特征,建立路径价值评估体系,来计算信息素的方式,相较于传统蚁群算法,提高了评估效率和降低了计算量。(3)动态更新指标权重和奖励得分机制,使移动机器人在不同的任务场景下,能做出相应的运动决策,从而满足不同功能需求。(4)对比了相关主流算法,本规划方法能针对性提高路径性
35、能。参考文献1 王军,杨云霄,李莉.基于改进深度强化学习的移动机器人路径规划J.电子测量技术,2021,44(22):19-24.Wang Jun,Yang Yunxiao,Li Li.Mobile robot path planning basedon improved deep reinforcement learningJ.Electronic Measure-ment Technology,2021,44(22):19-24.2 郑亮,孙龙龙,陈双.一种改进工业自动导引车路径规划算法J.科学技术与工程,2021,21(16):6758-6763.Zheng Liang,Sun Long
36、long,Chen Shuang.An improved industrialautomated guided vehicle path planning algorithm J.ScienceTechnology and Engineering,2021,21(16):6758-6763.00401科 学 技 术 与 工 程Science Technology and Engineering2023,23(24)投稿网址:3 石志刚,梅松,邵毅帆,等.基于人工势场法的移动机器人路径规划研究现状与展望J.中国农机化学报,2021,42(12):182-188.Shi Zhigang,Mei S
37、ong,Shao Yifan,et al.Research status andprospect of path planing for mobile robots based on artificial poten-tial field methodJ.Journal of Chinese Agricultural Mechaniza-tion,2021,42(12):182-188.4 黄志敏.基于蚁群算法的多路径规划研究D.广州:华南理工大学,2021.Huang Zhimin.Study on multipath planning based on ant colony algo-ri
38、thmD.Guangzhou:South China University of Technology,2021.5 Sung I,Choi B,Nielsen P.On the training of a neural network foronline path planning with offline path planning algorithmsJ.In-ternational Journal of Information Management,2021,57:102142.6 Lei X,Zhang Z,Dong P.Dynamic path planning of unknow
39、n envi-ronment based on deep reinforcement learningJ.Journal of Ro-botics,2018,2018:1-10.7 杨桂华,符士宾,刘志毅,等.基于改进蚁群算法的室内移动机器人路径规划 J.科学技术与工程,2019,19(19):175-179.Yang Guihua,Fu Shibin,Liu Zhiyi,et al.Path planning of indoormobile robot based on improved ant colony algorithmJ.ScienceTechnology and Engineer
40、ing,2019,19(19):175-179.8 Luo Q,Wang H,Zheng Y,et al.Research on path planning ofmobile robot based on improved ant colony algorithmJ.NeuralComputing and Applications,2020,32(6):1555-1566.9 Fatemidokht H,Kuchaki Rafsanjani M.F-Ant:an effective routingprotocol for ant colony optimization based on fuz
41、zy logic in vehicularad hoc networksJ.Neural Computing and Applications,2018,29(11):1127-1137.10 Oshaba A S,Ali E S,Abd Elazim S M.Speed control of SRMsupplied by photovoltaic system via ant colony optimization algo-rithmJ.Neural Computing and Applications,2017,28(2):365-374.11 Wang H,Wang Z,Yu L,et
42、 al.Ant colony optimization with im-proved potential field heuristic for robot path planningC/2018 37thChineseControlConference(CCC).Wuhan:IEEE,2018:5317-5321.12 林钰滨,陈浩杰,肖建勇,等.基于嵌入式路径规划的智能运输机器人J.机电工程技术,2022,51(7):130-133.Lin Yubin,Chen Haojie,Xiao Jianyong,et al.Intelligent trans-portation robot bas
43、ed on embedded path planningJ.Mechanical&Electrical Engineering Technology,2022,51(7):130-133.13 黄月琴,罗兵,邓辅秦,等.智能扫地机器人的全覆盖路径规划J.五邑大学学报(自然科学版),2021,35(2):51-58.Huang Yueqin,Luo Bing,Deng Fuqin,et al.Complete coveragepath planning for intelligent sweeping robotJ.Journal of WuyiUniversity(Natural Scienc
44、e Edition),2021,35(2):51-58.14 李文彪.基于深度强化学习的工业机器人避障路径规划方法J.制造业自动化,2022,44(1):127-130.Li Wenbiao.Obstacle avoidance path planning method for industri-al robots based on deep reinforcement learningJ.ManufacturingAutomation,2022,44(1):127-130.15 Chen Y,Liang J,Wang Y,et al.Autonomous mobile robot pathplanning in unknown dynamic environments using neural dynamicsJ.Soft Computing,2020,24(18):13979-13995.104012023,23(24)匡军,等:多功能移动机器人分层路径规划研究