多智能体强化学习在直升机机场调度中的应用.pdf

资源描述

1、陆航部队每个飞行日有几十架直升机参与飞行训练，在战时还要求上百架直升机在极短时间内从机库牵引到停机坪完成紧急升空任务。这就要求塔台指挥中心必须高效地进行直升机地面调度，保证直升机牵引过程中不发生路径冲突，并且快速到达指定位置。然而随着直升机数量的增加，在机场面积及调度时间受限情况下，直升机地面快速调度变得越来越困难。解决这一难题的有效方法是：采用机场调度仿真环境和多智能体路径规划算法来模拟和解决直升机高效调度问题。直升机机场调度可以看作是经典的多智能体路径规划（multi-agent path finding，MAPF）问题，MAPF在实际场景中有许多应用，如大型仓库管理1-2、数字游戏3、火

2、车调度4、多机器人系统5等，更多实际应用可参考文献6。近年来，越来越多的团队对MAPF展开研究7-10，南加州大学的李娇阳团队在2020年的NeurlPS Flatland挑战赛（一种火车调度大赛）11获得第一名，经典的MAPF算法能同时对 3 000辆火车进行调度，MAPF取得了突破性进展。经典MAPF方法由一个中央控制器为所有智能体规划路径，它的前提假设是中央规划器掌握了所有智能体的起始位置、目标位置和障碍物位置等多智能体强化学习在直升机机场调度中的应用刘志飞，董强，赖俊，陈希亮陆军工程大学指挥控制工程学院，南京 210007摘要：快速高效的直升机机场调度是现代直升机机场调度系统面临的主

3、要挑战。设计了一个直升机机场调度试验平台，使用二维网格环境，供多种算法进行快速试验。机场调度试验平台根据机场实际地形进行地图编辑，提供了传统的集中式规划算法和基于多智能体强化学习算法来进行快速高效的模拟调度实验。实验表明，基于多智能体强化学习方法的可扩展性和实时规划效果较好。试验平台为进一步研究机场调度提供了良好的起点，对未来多智能体路径规划问题应用于实际场景将会产生有益影响。关键词：机场调度；试验平台；多智能体路径规划；强化学习文献标志码：A中图分类号：TP181doi：10.3778/j.issn.1002-8331.2205-0370Multi-Agent Reinforcement L

4、earning in HelicopterAirport DispatchingLIU Zhifei,DONG Qiang,LAI Jun,CHEN XiliangCollege of Command and Control Engineering,Army Engineering University,Nanjing 210007,ChinaAbstract：Fast and efficient helicopter airport dispatching is the main challenge faced by modern helicopter airportdispatching

5、system.Helicopter airport dispatching can be regarded as a classical multi-agent path finding problem.A heli-copter airport dispatching test platform is designed,which uses a two-dimensional grid environment for rapid test of vari-ous algorithms.The airport dispatching test platform edits the map ac

6、cording to the actual terrain of the airport,and pro-vides the traditional centralized planning algorithm and the algorithm based on multi-agent reinforcement learning to carryout fast and efficient simulation dispatching experiments.In order to explore the potential of multi-agent reinforcementlear

7、ning in airport scheduling,a large number of experiments are carried out,and the applicability and characteristics ofdifferent types of algorithms are compared and analyzed.The experimental results show that the reinforcement learningmethod based on multi-agent has good scalability and real-time pla

8、nning effect.The test platform provides a good startingpoint for further research on airport scheduling,and will have a beneficial impact on the application of multi-agent pathfinding in practical scenarios in the future.Key words：airport dispatching;test platform;multi-agent path finding;reinforcem

9、ent learning基金项目：国家自然科学基金（61806221）。作者简介：刘志飞（1985），男，硕士研究生，研究领域为智能化指挥控制，E-mail：；董强（1965），男，副教授，研究领域为指挥信息系统工程集成应用；赖俊（1979），男，副教授，研究领域为人工智能、计算机仿真；陈希亮（1985），男，博士，副教授，研究领域为深度强化学习、指挥信息系统工程。收稿日期：2022-05-18修回日期：2022-08-15文章编号：1002-8331（2023）16-0285-10Computer Engineering and Applications计算机工程与应用285Computer

10、 Engineering and Applications计算机工程与应用2023，59（16）信息。当智能体规划好的路径被中断时，就会出现路径重新规划问题。现实世界中，交通事故、医疗紧急情况或车辆故障是需要重新规划路径的例子。在动态复杂环境中，多智能体的路径重新规划是对经典MAPF的一大挑战。最近，分散式执行的多智能体强化学习（multi-agentreinforcement learning，MARL）方法用于解决MAPF问题表现出较大的潜力，每个智能体根据局部观察做出决策，能够有效解决路径重新规划问题。本文工作包括两方面：一是设计了一个机场调度试验平台；二是集成了经典的MAPF算法和基于

11、MARL的MAPF算法。机场调度试验平台通过选择直升机在地面的移动路线来规划路径，当遇到移动的直升机故障或者空中飞机迫降需要占用滑行跑道等特殊情况时，就产生了直升机重新调度问题。为了提高实时规划的速度和质量，以网格世界环境12为基础，设计了模拟机场的二维网格环境，可以接入经典MAPF算法和基于MARL的MAPF算法，并且根据不同机场地形来编辑地图，模拟真实的情况。机场调度试验平台是用网格表示的2D环境，在2D网格环境中，多个直升机之间通过协调合作来避免碰撞并到达停机坪（目标位置），并且最小化移动时间。用强化学习来描述这个问题为不同起始位置的智能体通过协调与合作到达不同的目标位置并最大化全局回报

12、。本文的主要贡献是：一是设计了直升机机场调度试验平台，以模拟直升机机场调度环境。二是集成了不同类型的MAPF算法。三是进行了大量的实验，对比分析了各种算法的适用性和特点。1多智能体路径规划定义关于MAPF问题有许多不同的定义和假设，以经典MAPF问题为例，对MAPF问题进行阐述。k个智能体的经典MAPF问题13被定义为一个元组()G,s,t。其中G=()V,E是一个无向图，无向图中的节点vV是智能体可以占据的位置，边()n,n E表示智能体从节点n移动到n的连线。k代表MAPF问题中智能体的数量，即智能体a1,a2,ak,s是初始位置的集合，每个智能体都有一个起始位置sis,t是目标位置的集合

13、，每个智能体都有一个目标位置tit。在经典MAPF问题中，时间被离散为时间步长。在每个时间步长中，每个智能体可以执行一个动作，一般有五种类型的动作，分别是向上、向下、向左、向右和等待。一个单智能体的路径规划是从起始位置到目标位置一系列动作的集合=()a1,a2,an,k个智能体的路径规划问题就是k条路径的集合=1,2,k。其中第i个智能体对应路径i。2背景2.1A*搜索算法A*搜索算法14是启发式搜索算法的代表，它是Dijikstra算法的扩展形式。A*算法通常用来解决最短路径问题。为了完整起见，先介绍简要背景。A*是最佳搜索算法，维护两个顶点列表：开放列表和关闭列表。最初将开始节点放入开放列

14、表中，在每次迭代中，在开放列表中搜索相邻节点，并把起始节点放入关闭列表中。对于每个新生成的开放列表中的节点，A*算法计算以下几个值：g()n是从源节点到n节点的最短路径代价值。parent()n是该节点的前一个节点。h()n是n节点到目标节点的启发式路径代价估计值。假设h*()n是n节点到目标节点的完美启发式估计，如果已知每个节点h*()n，就可以选择从源节点到目标节点的最短路径。A*算法选择扩展开放列表里具有最小g()n+h()n节点。2.2多智能体强化学习强化学习（reinforcement learning，RL）是一项通过不断试错来学习的技术。智能体根据当前策略不断与环境进行交互，获取

15、环境下一到达状态和该动作奖励，并更新自己的策略，目标是最大化累积奖励。2.2.1马尔可夫决策过程如果环境满足马尔可夫性质，即系统的下一时刻的状态仅由当前时刻的状态决定，不依赖以往任何状态，如式（1）所示。P()st+1|st,st-1,s0=P()st+1|st（1）其中，st表示时间步t时的状态；P表示状态转移函数。强化学习可以建模为一个马尔可夫决策过程（Markovdecision process，MDP）15。MDP可以用()S,A,R,来表示。其中S表示状态空间()stS,A表示动作空间，R表示奖励空间()rtR,表示状态转移矩阵(SS=)Pst+1=s|st=s,表示折扣因子，用于表

16、示及时奖励对未来奖励的影响程度。在RL中，有两个重要的概念：状态价值函数和动作价值函数。状态价值函数：衡量智能体所处状态的好坏，用式（2）表示。V()s=aA()a|sr()s,a+sS()s|s,a V()s（2）动作价值函数：衡量智能体采取特定动作的好坏，用式（3）表示。Q()s,a=r()s,a+sS()s|s,aaA()a|s Q()s,a（3）其中，V()s表示从状态出发，使用策略所带来的累积奖赏；()a|s为状态s下选择动作a的概率，这里必2862023，59（16）有aA()a|s=1;r()s,a表示及时奖励；表示折扣因子，0,1;s为s下一时刻状态；Q()s,a表示“状态-动

17、作”上的累积奖赏。2.2.2部分可观测马尔可夫决策过程一个完全合作的MARL任务可以用分布式部分可观测马尔可夫决策过程（decentralized partially observableMarkov decision process，Dec-POMDP）16来描述。Dec-POMDP可由元组G=()n,S,U,P,r,Z,O,表示。其中n表示智能体的数量；sS表示状态；uaU表示智能体的动作；uaUUn表示智能体的联合动作集合；P()s|s,u:SUS0,1表示状态s下采取联合动作u转移到s状态的转移概率；r()s,u:SUR表示奖励函数；zZ表示每个智能体的观察值由O()s,a:SAZ来描

18、述；()0,1表示折扣因子。2.3基于MARL的MAPF研究进展近年来，经典的MAPF算法已经能够解决大部分路径规划问题。然而这些问题的前提假设都是中央规划器掌握完整的地图信息和所有智能体位置等信息，这就需要收集地图信息和所有智能体的信息以规划最优路径，导致消耗大量的计算资源。随着技术的发展，去中心化的方法越来越流行，智能体在与环境交互过程中，通过和一定距离范围内的其他智能体协调来规划路径，泛化性较好，可以扩展到大规模智能体的环境。最近的文献17对国内外关于MAPF的主要研究成果进行系统整理和分类，将MAPF算法分为集中式规划算法和分散式执行算法，比较了MAPF各种算法特点和适用性。文献18提

19、出一个“Flatland”的铁路网络2D网格环境，允许多种算法进行实验，促进了经典方法和强化学习方法的创新。文献19考虑了部分可观察的单智能体情况，并应用 DQN（deep Q-network）20算法来解决 MAPF 问题。文献21考虑了多智能体情况，引入集中式的MAPF算法生成专家数据，将模仿学习和强化学习相结合，并尝试引入各种启发式方法来解决多智能体交互的问题。文献22提出一种请求应答机制 DCC（decisioncausal communication），智能体选择对自己策略能够产生改变的邻居智能体进行通信。文献23将通信与深度Q学习相结合，为MAPF提供了一种新的基于RL的方法DHC

20、（distributed，heuristic and communication），其中智能体通过图卷积网络实现通信。文献24采用无模型的在线Q学习算法，多个智能体重复“探索-学习-利用”过程，积累历史经验评估动作策略并优化决策，完成未知环境下的多智能体路径规划任务。文献25提出一种混合策略方法，将MAPF问题分解为两个子任务：到达目标和避免冲突。文献26提出 G2RL（globallyguided reinforcement learning）算法。该算法改进了经典算法中对动态障碍规划效率不高的缺陷。文献27将知识编译与RL相结合，所得到的算法在样本复杂性和解决方案质量方面都显著优于原始算法

21、。文献28采用多步前进树搜索方法来进行有效的决策。文献29提出一种分层强化学习及人工势场的多智能体路径规划算法，利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上，提高算法的性能。文献30提出基于惯性权重的集群优化算法，有效解决传统路径规划算法收敛精度不高、容易陷入局部最优的问题。3机场调度试验平台机场调度试验平台是一个 MAPF 算法验证的框架。图1显示了一个简易试验平台环境的可视化，其中直升机图标代表起始位置不同的智能体，停机坪图标表示对应直升机要到达的目标位置，模拟的是停机坪位置。灰色方格表示障碍物，模拟的是机场的加油车和机库

22、等路面障碍。中间空白区域模仿的是机场跑道和直升机可以通过的位置。下面将详细介绍简易试验平台的概念和实现细节。3.1环境简易试验平台环境是一个任意大小的二维网格。其中每一个网格都有一个位置，由坐标(x,y)表示，x0,w,y0,h,w是网格的宽度，h是网格的高度。每个网格都可以容纳一个智能体。每个智能体都位于网格之中，其方向值d0,4，0表示原地不动，1表示向上，2表示向右，3表示向下，4表示向左。智能体可以静止不动或者向相邻的4个方向网格移动。简易试验平台将时间模拟为离散时间步，智能体以恒定的时间步长执行每个动作。3.2环境动力学简易试验平台环境由整数位置(x,y)的正方形网格组成。每个位置可

23、以是空的、障碍物或者智能体。智能体和其他智能体以及障碍物不能同时占据相同位置。在每个时间步，智能体可以选择 5 个动作中的一个动作。当智能体同时占据一个位置时，则发生冲突。智能体有四种冲突类型，如图2所示31。HelicopterParking apronObstacle图1机场调度试验平台环境Fig.1Airport dispatching platform environment刘志飞，等：多智能体强化学习在直升机机场调度中的应用287Computer Engineering and Applications计算机工程与应用2023，59（16）当智能体的下一步移动位置与障碍物在同一个位置

24、时，也产生了冲突。当智能体发生冲突时，智能体在原来位置静止不动。智能体初始位置在地图的底端随机分配位置，智能体的目标位置在地图的顶端随机分配位置，障碍物在空余位置以一定的密度随机分配。为了验证算法的可扩展性，障碍物可以设置为不同的密度。3.3动作空间在简易试验平台中，智能体的动作空间被离散为5个动作，分别为静止和上下左右，如图3所示。3.4观察空间智能体的观察空间是以智能体为中心，周围一定视野范围（field of view，FOV）内信息组成观察空间。观察空间由不同通道的观察空间特征组成，如图4所示。图4中，红色方框由4个通道组成，自上而下分别为通道1、通道2、通道3和通道4，通道1表示智能

25、体位置，通道2表示障碍物位置，通道3表示智能体目标位置，通道4表示附近其他智能体位置。智能体目标位置也可能不在FOV内，图中黑色箭头表示智能体指向其目标位置。当每个通道的尺寸大小与整个环境尺寸相同时，智能体可以观察到整个地图信息。3.5奖励函数智能体的奖励函数由局部奖励和全局奖励混合组成。奖励有以下几种，如表1所示。步骤奖励（step reward，SR）：为了鼓励智能体快速到达目标位置，每个时间步都给予负奖励。智能体碰撞奖励（agent collision reward，AC）：当智能体之间互相碰撞时，给予负奖励。障碍物碰撞奖励（obstacle collision reward，OC）：智

26、能体碰到障碍物时，给予负奖励。目标到达奖励（goal reached reward，GR）：智能体达到目标，给予较多的正奖励。完成回合奖励（finish episode reward，FE）：当所有智能体都到达目标时的全局奖励。每个智能体的奖励为：Ri=SR+agentcollisionsAC+obstaclecollisionsOC+FE+GR3.6试验平台特点试验平台具有以下特点：（1）智能体的数量规模大。对于一般直升机机场，直升机数量从几十架到几百架不等，随着直升机数量的增多，对这些直升机同时进行地面调度是一个很有挑战的问题。（2）环境的部分可观察性。为了扩展到更大规模的12yxOOOO

27、yxyxyx1241231212yxOOOOyxyxyx12412312（a）边冲突（b）顶点冲突（c）覆盖冲突（d）循环冲突12yxOOOOyxyxyx1241231212yxOOOOyxyxyx12412312图2冲突类型Fig.2Conflict typeyOx01234图3动作空间Fig.3Action spaceEnvironmentobstaclesMy goalNearby agentsObstacleAgentGoalMy position图4观察空间Fig.4Observation space奖励类型步数奖励（SR）智能体碰撞奖励（AC）障碍物碰撞奖励（OC）到达目标奖励（G

28、R）完成回合奖励（FE）奖励-0.4-0.4-0.021.02.0表1奖励函数Table 1Reward functions2882023，59（16）地图环境，要求智能体的观察是一定距离的视野。这对集中式规划方法有较大的约束，因为集中式规划方法要求掌握完美的地图信息来对所有的智能体规划无碰撞路径。（3）简易试验平台直接解决了现实的MAPF问题。机场调度属于大规模智能体合作协调的MAPF问题，简易试验平台提供了可编辑的接口，研究者可以接入自己的算法和更改环境，因此可以扩展到车间调度、仓储物流和城市无人驾驶等多智能体协作的路径规划问题。4试验平台算法经典的集中式规划算法是目前最常用的也是效率最高

29、的算法，这种算法的特点是在解决智能体密度小以及障碍物密度低的MAPF问题时速度快。基于多智能体深度强化学习的分布式执行算法在实时解决路径重新规划问题上展示了较大的潜力，缺点是训练时间较长。MAPF算法对比如表2所示。在经典的集中式规划算法中最常用的是基于搜索的ODM*算法32。在MARL算法中，独立强化学习算法和集中式训练分布式执行算法是最为典型的两类算法。试验平台提供了三种具有代表性的基准算法，分别是经典的基于搜索的ODM*算法、独立强化学习的IPPO算法33和集中式训练分布式执行的MAAC算法34。4.1集中式规划算法MAPF集中式规划算法的前提假设是中央规划器掌握了全局信息，即所有智能体

30、的起始位置、目标位置和障碍物位置信息等。MAPF集中式规划算法可分为基于搜索算法和基于规约算法两大类。其中基于搜索算法又分为三类：基于A*算法、基于冲突搜索算法和代价增长树搜索算法。本文选择最经典也是最常用的ODM*算法作为集中式规划算法代表，ODM*算法是A*算法的改进版本，它的特点是规划速度快，但返回的是次优解，随着智能体数量增加。ODM*算法性能也迅速下降。ODM*算法应用在机场调度试验平台见算法1所示。算法1ODM*算法应用在机场调度试验平台程序ODM*（初始位置，目标位置）1.forvVdo2.v.gMAXCOST3.v.fNone4.v.back_set 5.v.collision

31、_set 6.v.parentNone7.Open 8.vs初始位置“所有智能体的组合开始位置”9.vs.f010.Open.add(vs)11.While not Open.empty（）do12.vkopen.get（）13.ifvk.position=END_POSITION then“使用每个顶点的父节点属性来重新构造每个智能体的路径”14.return：Solution15.forvnEXPAND(vk)do“确定冲突智能体的集合，中间节点没有碰撞”16.Collisions=GET_COLLISIONS(vn)17.ifvnis standard_node then18.vn.ba

32、ck_set vn.back_setvk19.vn.collision_set vn.collision_setcollissions20.BACKPROP（vk,vn.collision_set，Open）“无效的节点不会添加到Open列表中”21.if collisions=Avk.g+MOVE_COSTvn.g then22.vn.g vk.g+MOVE_COST(vk,vn)23.vn.f vn.g+HEURISTIC(vn)24.vn.parent vk25.Open.add(vn)26.return：No Solution FoundM*算法也像A*一样搜索k-agent搜索空间。

33、为了改进分支因子，M*动态地改变搜索空间的分支因子。最初，每当扩展一个节点时，它只生成一个节点，该节点对应于所有单个智能体最优路径，这将在k个智能体搜索空间中生成k条路径。由于智能体沿着各自的最优路径移动，可能会生成一个节点来表示一对智能体i和j之间的冲突。如果发生这种情况，智能体i和j将会加入到冲突集合中，然后重新展开搜索。在搜索重启时，智能体i和j会执行朴素的A*搜索。一般情况下，M*中的一个节点存储冲突集，冲突集是一组智能体，它将为这些智能体生成所有动作组合。对于不在冲突集中的智能体，M*只考虑单个智能体最优路径上的动作。M*与算子分解（operator decomposition，OD

34、）相似，它限制了某些节点的分支因子。M*与独立检测（independencedetection，ID）也有一些相似之处，因为它试图识别哪些智能体可以单独求解。然而，M*、OD和ID可以一起使用，M*可以通过ID来寻找冲突元智能体的最优解，M*可以用带有OD的A*来搜索k-agent搜索空间，而不是简单的A*，后者被称为ODM*。算法分类经典的集中式规划算法基于 MARL的分布式执行算法优点中央规划器对所有智能体进行规划，对于固定环境和小规模智能体环境，规划速度快，规划质量高每个智能体根据当前观察来独立执行动作，能够较好地扩展到大规模环境中，能够实时处理路径重新规划问题缺点当智能体数量增大和环境

35、更加动态复杂时，受到搜索空间大小限制，重新规划比较耗时，可扩展性差在静态小规模环境中的规划速度和效率比集中式规划算法低，学习时间长表2MAPF算法对比分析Table 2Comparison of MAPF algorithms刘志飞，等：多智能体强化学习在直升机机场调度中的应用289Computer Engineering and Applications计算机工程与应用2023，59（16）4.2独立学习的多智能体强化学习算法从单智能体强化学习到多智能体强化学习面临的挑战之一是可扩展性。在多智能体的情况下，多智能体的联合动作将导致动作空间随着智能体数量增加而呈现指数级增长。为了有效解决状态动

36、作空间维度爆炸的问题，使用独立学习的强化学习算法。独立学习是最简单的MARL算法，将单智能体RL应用于多智能体系统。每个智能体独立学习，只考虑自己的动作，把其他智能体看成环境的一部分，独立执行自己的动作。独立学习最大的优势是能够以分散的方式执行和学习。分散执行使得这种方法特别适合大规模环境，其中智能体的观察空间由FOV组成，其观察空间如图4所示。本文选择了最有代表性的独立PPO（IPPO）算法，因为IPPO算法只需要很少的超参数调整。近端策略优化算法（proximal policy optimizationalgorithms，PPO）35是一种新的用于强化学习的策略梯度方法，该方法通过与环境

37、交互采样数据和使用随机梯度上升的方法来优化智能体目标函数之间交替。标准的策略梯度方法对每个数据样本执行一次梯度更新，而PPO提出了一个新的目标函数，支持多个时期的小批量更新。PPO具有置信域策略优化（TRPO）的一些优点，但PPO实现起来更简单通用，并且具有更好的样本复杂性。独立PPO（IPPO）算法是PPO算法的一种变体，IPPO算法将n个智能体的MARL问题分解成n个分散的单智能体问题，其中其他智能体都被视为环境的一部分，并且学习策略只以本地观察为条件。虽然IPPO算法并不能保证理论收敛，可能导致学习的不稳定性和陷于局部最优策略，但是在星际争霸等环境中，IPPO算法可以和最先进的联合学习方

38、法一样好。IPPO训练过程概述见算法2所示。算法2 IPPO算法应用在机场调度试验平台输入：k（运行回合数），N（并行运行环境实例数），T（时间步长），M（每次更新使用的批量大小），N_Iterations(训练迭代次数)，（剪辑参数）程序：TRAIN PPO(K,N,T,M,N_Iterations,)初始化D=（初始化一个空的经验重放缓冲区），NEnviroments（创建N个随机环境实例）（参数化的策略）1.for Iteration 1 toNdo“从N个并行环境中收集经验”2.for Env 1 toNdo3.在时间步长为T的Env中执行策略。4.计算每个时间步的优势At5.DD()

39、st,at,At,st+1“添加观察和动作选择到经验重放区”6.UPDATE(,D,M,K)“对数据执行小批量梯度上升，收集在D中”Function UPDATE(,D,M,K)1._newcopy()2.for Epoch 1 toKdo3.for MinibatchMDdo4.ActionProbabilities_OLD=M.ActionProbabilities5.ActionProbabilities_NEW=_new（M.observations）6.rt=CALCULATE_rt（ActionProbabilities_OLD，ActionProbability）7.LCLIP(

40、)=CALCULATE_JCLIP(rt,M.Advantages)8.Update_newwith Adam optimizer9.=_new10.return4.3集中式训练分布式执行的多智能体强化学习算法单智能体RL扩展到MARL面临的两大挑战：环境非平稳性和信度分配问题。环境非平稳性：在多智能体系统中，有多个智能体同时和环境交互学习。从单个智能体的角度来看，其他智能体是环境的一部分，由于每个智能体都在学习和优化自己的策略，使得环境动态变化。当智能体的策略改变时，其他智能体也改变自己的策略来适应环境，因此最优策略是时刻变化的。由于以上原因，在多智能体环境中使用单智能体算法通常没有收敛保证

41、。利用集中的评论家网络可以解决非平稳问题。信度分配问题：在单智能体RL中，智能体只有采取了许多动作后才能获得稀疏的回报，这使得很难了解哪些动作是有助于任务完成的。在多智能体环境中，环境动态和奖励是联合行动的结果，智能体很难区分收到的奖励是自己的动作结果还是其他智能体动作的结果。信度分配在完全合作环境中是更为突出的问题。为了解决以上两种问题，采用集中式训练分布式执行方法。通过在训练期间使用额外的信息，例如所有智能体的动作和局部观察，能解决MARL的非平稳性和信用分配问题。额外信息仅在集中训练期间使用，一旦单个智能体完成集中训练，就可以只依靠局部观察来分散地执行动作。集中式训练分散式执行适用于许多

42、需要分散执行但仍能以集中方式进行训练的情况，因此被广泛使用。集中式训练分散式执行还可以用于解决复杂的MARL问题。这种方法很大的一个缺点是不能扩展到智能体规模较大的环境。在某些情况下，依靠集中训练的方法需要访问全局状态空间，这也限制了这种算法在大型环境的可扩展性。本文选择注意力机制的行动评论家多智能体强化学习（actor-attention-critic for multi-agent reinforcementlearning，MAAC）算法，MAAC的注意力机制能够在复杂的多智能体环境中实现更有效学习，不仅适用于共享奖励的合作环境，也适用于个性化奖励环境。该算法对智能体的动作空间没有提前假

43、设，也适合部分可观察环2902023，59（16）境，因此比较灵活，可以解决大多数的 MARL 问题。MAAC算法使用集中计算的评论家共享一个注意机制，该机制在每个时间步为每个智能体选择相关信息。通过利用注意力机制，可以实现更好的伸缩性。在许多现实环境中，智能体应该注意其他哪些智能体是有益的，哪些智能体是不需要注意的。例如足球比赛中，足球后卫只需要注意附近进攻球员以及持球队员，而不需要注意对方的守门员和对方的后卫球员。MAAC的主要思想是通过选择地关注来自其他智能体的信息来学习一个有注意力机制的评论家。图5显示了MAAC算法的主要组成部分和流程。图中计算Qi(o,a)与第i个智能体的注意力，每

44、个智能体对其观察和行动进行编码，将其发送到中央注意力机制，并接受其他智能体编码的加权和（每一个都由矩阵V转换而成）。5实验本文对独立学习算法IPPO、采用集中式训练分散式执行MAAC算法和传统的集中式规划算法ODM*算法进行实验，评估两种类型强化学习方法在解决MAPF问题上的表现，最后与经典的ODM*算法进行比较。在小型地图环境中进行了测试，环境如图6所示。智能体之间的碰撞次数、智能体到达目标的成功率和所用时间步数是衡量算法好坏的重要标准。智能体到达目标的成功率越大，表明学习的策略越成功。智能体之间的碰撞次数越少，表明智能体之间学习避免碰撞的策略越成功。智能体到达目标的时间步越少，表明智能体路

45、径规划质量越好。实验分别对不同算法在不同智能体数量、不同障碍物密度的环境中进行了对比分析。地图尺寸为7，智能体数量分别为 4、8和 16，障碍物密度分别为 0.1、0.2和0.3。其中障碍物密度设置依据是根据障碍物面积在整个地图面积的比例，比如障碍物密度为0.1时，表示障碍物之和的面积占比整个地图面积的10%。当障碍物密度越大时，表示障碍物越多，智能体到达目标位置的阻碍越多，智能体之间需要更多的协调合作。图7是一个高障碍物密度下，智能体需要协调合作的例子，其中红色直升机先到达上方白色网格来避让绿色直升机，或者绿色直升机先到达上方白色网格来避让红色直升机，最后两架直升机到达自己对应颜色的停机坪位

46、置。实验结果如图8图20所示。MLPMLPunique to each agentshared among agentsConcatenate Headsper AgentAttentionHeadDot ProductSoftmaxScaled DotProductQi(o,a)oi,aieieNxixNxieixieiejWqWkV图5MAAC算法的主要组成部分和流程Fig.5Main components and flowchart of MAAC algorithmAgentGoalObstacle图6智能体数量为4的77的地图Fig.677 environment with 4 ag

47、ents图7智能体的协调合作Fig.7Coordination and cooperation of agents5001 000 1 500 2 000 2 500 3 000Iterations1.00.80.60.40.20Success rateobj_density=0.1obj_density=0.2obj_density=0.3图8IPPO算法在不同障碍物密度的成功率（agents=4）Fig.8Success rate of IPPO algorithm with differentobstacle density（agents=4）5001 000 1 500 2 000 2

48、 500 3 000Iterations50454035302520150Time stepsobj_density=0.1obj_density=0.2obj_density=0.3图9IPPO算法在不同障碍物密度的时间步长（agents=4）Fig.9Time steps of IPPO algorithm with differentobstacle density（agents=4）刘志飞，等：多智能体强化学习在直升机机场调度中的应用291Computer Engineering and Applications计算机工程与应用2023，59（16）5001 0001 500 2 00

49、0 2 500 3 000Iterations0.300.250.200.150.100.050Success rateobj_density=0.1obj_density=0.2obj_density=0.3图10IPPO算法不同障碍物密度的成功率（agents=16）Fig.10Success rate of IPPO algorithm with differentobstacle density（agents=16）5001 0001 500 2 000 2 500 3 000Iterations120100806040200Collisionsobj_density=0.1obj_density=0.2obj_density=0.3图11IPPO算法在不同障碍物密度的碰撞次数（agents=16）Fig.11Collision times of IPPO algorithm with differentobstacle density（agents=16）5001 000 1 500 2 000 2 500 3 000Iterations1.00.80.60.40.20Success rateagents=4agents=8agents=16图12IPPO算法在不同智能体数量时的成功率Fig.12Success rate of IPPO algori

展开阅读全文