基于改进MADDPG的UAV轨迹和计算卸载联合优化算法.pdf

资源描述

1、基于改进 MADDPG 的 UAV 轨迹和计算卸载联合优化算法苏维亚1,徐飞1,王森21(西安工业大学计算机科学与工程学院,西安710021)2(西安工业大学兵器科学与技术学院,西安710021)通信作者:徐飞,E-mail:摘要:在地震、台风、洪水、泥石流等造成严重破坏的灾区,无人机(unmannedaerialvehicle,UAV)可以作为空中边缘服务器为地面移动终端提供服务,由于单无人机有限的计算和存储能力,难以实时满足复杂的计算密集型任务.本文首先研究了一个多无人机辅助移动边缘计算模型,并构建了数学模型;然后建立部分可观察马尔可夫决策过程,提出了基于复合优先经验回放采样方法的 MAD

2、DPG 算法(compositeprioritymulti-agentdeepdeterministicpolicygradient,CoP-MADDPG)对无人机的时延能耗以及飞行轨迹进行联合优化;最后,仿真实验结果表明,本文所提出算法的总奖励收敛速度和收敛值均优于其他基准算法,且可为 90%左右的地面移动终端提供服务,证明了本文算法的有效性与实用性.关键词:移动边缘计算;多智能体;联合优化;深度强化学习;部分可观察马尔可夫决策过程;计算卸载引用格式:苏维亚,徐飞,王森.基于改进 MADDPG 的 UAV 轨迹和计算卸载联合优化算法.计算机系统应用,2023,32(11):203211.ht

3、tp:/www.c-s- Optimization Algorithm for UAV Trajectory and Computational Offloading Based onImproved MADDPGSUWei-Ya1,XUFei1,WANGSen21(SchoolofComputerScienceandEngineering,XianTechnologicalUniversity,Xian710021,China)2(SchoolofOrdnanceScienceandTechnology,XianTechnologicalUniversity,Xian710021,China

4、)Abstract:Unmannedaerialvehicles(UAVs)canactasairedgeserverstoprovideservicesforgroundmobileterminalsindisasterareaswhereearthquakes,typhoons,floods,andmudslideshavecausedseveredamage.However,itisdifficulttocompletecomplexcomputationallyintensivetasksinrealtimeduetothelimitedcomputationandstoragecap

5、acityofasingleUAV.Inthisstudy,amulti-UAV-assistedmobileedgecomputingmodelisfirstinvestigatedandamathematicalmodelisbuilt.ThenapartiallyobservableMarkovdecisionprocessisestablishedandanimprovedmulti-agentdeepdeterministicpolicygradient(MADDPG)algorithmbasedonthecompositepriorityexperientialreplaysamp

6、lingmethod(CoP-MADDPG)isproposedtojointlyoptimizetimedelay,energyconsumption,andflighttrajectoryofUAVs.Finally,thesimulationexperimentalresultsshowthattheproposedalgorithmoutperformsotherbenchmarkalgorithmsintermsoftotalrewardconvergencespeedandconvergencevalue,andcanprovideservicesforabout90%ofgrou

7、ndmobileterminals,provingtheeffectivenessandpracticalityoftheproposedalgorithm.Key words:mobileedgecomputing;multi-agent;jointoptimization;deepreinforcementlearning;partiallyobservableMarkovdecisionprocess;computationaloffloading计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,202

8、3,32(11):203211doi:10.15888/ki.csa.009277http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:航天高可信嵌入式软件工程技术实验室基金;西安市碑林区科技计划(GX2137)收稿时间:2023-04-08;修改时间:2023-05-11;采用时间:2023-05-23;csa 在线出版时间:2023-07-21CNKI 网络首发时间:2023-07-21SoftwareTechniqueAlgorithm软件技术算法2031引言智能体是环境中的实体,可以执行对环境产生影响的行为.多智能体系统是多个智能体组

9、成的集合,其目标是将大而复杂的系统建设成小而彼此互相通信协调的易于管理的系统1.多智能体系统具有自主性、分布性、协调性,并具有自组织能力、学习能力和推理能力,较单智能体而言具有很强的鲁棒性和可靠性2.多智能体系统广泛应用于自动驾驶3、智能电网优化调度4,5、网络数据传输路由优化6、多无人系统协同任务7,8等领域中.深度强化学习的兴起解决了由于计算设备性能的提高而产生的海量数据问题,强化学习中的智能体通过与环境进行交互得到相应的奖励值,进一步获得最优策略,但在多个智能体环境中,每个智能体为了自身的利益,不断学习优化自身策略,从而导致每个智能体在训练过程中的状态空间不断变化,无法找出最优策略9.在

10、以上问题的基础上,许多研究人员开始将深度强化学习(deepreinforcementlearning,DRL)与多智能体系统结合起来,多智能体深度强化学习(multi-agentDRL)方法应运而生,OpenAIFive、AlphaStar、“绝悟”等游戏AI都能够达到甚至超越人类顶尖玩家的水平,为MADRL在无人控制系统、智能决策等诸多领域的应用前景提供了广阔想象空间10.基于以上研究,提出了基于 CoP-MADDPG 算法的多无人机辅助移动边缘计算系统,本文主要贡献如下.(1)构建了一个由多架无人机组成的移动边缘计算系统模型.采用三维动力学模型为在三维空间中随机移动的无人机和地面移动终端进

11、行建模.无人机与地面移动终端之间的信道模型为莱斯信道.(2)使用部分可观察马尔可夫决策过程对系统模型进行建模,并提出了 CoP-MADDPG 算法实现无人机飞行轨迹和任务卸载的联合优化.考虑到传统的数据抽取方式容易导致训练效率低,收敛速度慢,故在抽样过程中使用了复合优先级,复合优先级由基于立即回报的优先级和基于 TD-error 的优先级组成.(3)构建了一个面向多无人机的飞行轨迹和任务卸载联合优化的仿真实验.不同参数下的仿真实验表明,当 Actor 网络和 Critic 网络的学习率均为 0.01,折扣因子为 0.95 时总奖励可以在最短时间内收敛到最大值.不同算法下的仿真实验表明,本文算法

12、的总奖励收敛速度和收敛值均优于其他基准算法;在地理公平性方面,本文算法可以较为均匀的覆盖整个区域,且为90%左右的地面移动终端提供服务.2相关工作Jiang 等人11提出了一种基于 MADRL 的协同优化策略,以解决 5G 超密集异构网络中的计算卸载和资源分配问题.Wu 等人12提出了一个基于排队理论的时延和能耗联合约束优化模型,并使用 MADRL 获得动态和随机多用户卸载环境中的最优卸载策略.Seid等人13提出了一种基于 MADRL 的方法,以最大限度地降低整体网络计算成本,同时确保物联网网络中物联网设备或 UE 的服务质量(QoS)要求.Zhou 等人14提出了一个分层的多智能体深度强化

13、学习(H-MADRL)框架来解决混合计算卸载问题,高级代理驻留在 AP 中并优化波束成形策略,低级用户代理学习并调整个人的卸载策略.Seid 等人15提出了一个区块链和 MADRL集成框架,用于在多无人机辅助物联网网络中与 EH进行计算卸载.Xue 等人16考虑了 UE 卸载成本和 MEC服务器的定价,提出了一种 MADRL 算法,通过联合优化功率控制、资源分配和 UE 关联来最小化系统能耗,从而在保证系统性能的前提下,有效提高无人机的整体收益.Li 等人17研究了一种空间/空中辅助边缘计算网络架构,提出了一种基于 MADRL 的方案,以获得考虑动态计算请求和随机时变信道条件的最优任务卸载策略

14、,同时确保服务质量要求.Cheng 等人18使用MASAC 算法对无人机辅助和能量约束智能边缘网络下的联合任务和能量卸载问题进行了研究.Zhao 等人19考虑无人机距离、碰撞和通信等因素,构建了复杂环境下多无人机协同任务分配模型,并提出了一种求解该模型的 MASAC 算法.Dai 等人20在多智能体系统中引入了联邦学习框架,通过无人机之间共享用户的非私有数据,生成相应的全局模型,从而生成无人机网络的全局最优决策.3网络模型 3.1 系统模型OMKTt如图 1 所示,本文在环境中部署了个障碍物、个地面移动终端和架搭载 MEC 服务器的无人机,无人机的整个飞行周期被分为个时隙,设定无人机和地面

15、移动终端的位置在每一时隙均不发生变化,且无人机只在悬停时处理由地面移动终端卸载的部分任计算机系统应用http:/www.c-s-2023年第32卷第11期204软件技术算法SoftwareTechniqueAlgorithmposkt=xkt,ykt,zktt 1,2,3,Tk 1,2,3,Kposm=xm,ymm 1,2,3,Mposo=xo,yo,zoo 1,2,3,OkfkmfmRkttk务.表示时隙第架无人机的位置,表示地面移动终端的位置,表示障碍物的位置,无人机的 CPU 频率用表示,地面移动终端的 CPU 频率用表示,表示时隙无人机的覆盖范围,可以根据波束宽度进

16、行计算.地面移动终端无人机通信链路图 1系统模型传统的概率 Los 信道模型往往不能适应农村、城市及森林等复杂环境21.故本文引入了莱斯衰弱信道模型2224.无人机与地面移动终端之间的信道增益可以表示为:hk=kgk(1)k=0(dk)00dkk0gk其中,是大尺度平均信道功率增益,是参考距离为 1m 时的信道增益,是地面移动终端与无人机之间的距离,是路径损耗指数.表示小尺度衰减系数,可以定义为:gk=RFkRFk+1g+1RFk+1e g(2)k=arcsin(zkdk)(3)RFk=A1eA2kge gRFkA1A2kk其中,对应可视距链路分量,对应散射分量,表示莱斯因子,是由环境决定的

17、常数,表示无人机与地面移动终端之间的仰角.k无人机最大传输速率可以定义为:rk=Blog21+|hk|2pupk2(4)Bpupkk其中,为无人机接收处的噪声功率,为信噪比差值,表示信道带宽,为无人机的上行链路传输功率.3.2 计算模型o(t)DkttmCtTofft+Tupt由于地面移动终端有限的计算能力,无法处理计算密集型任务,故需要将部分任务卸载到无人机进行处理,表示任务的卸载比率,表示时隙地面移动终端产生的总任务量,表示处理单位字节所需的CPU 周期数,通过式(5)式(7)可以计算出时隙的本地执行时延和卸载计算时延,其中卸载计算时延为传输时延和计算时延的累加和,即.Tloca

18、lt=(1o(t)DktCfm(5)Tupt=o(t)Dktrk(6)Tofft=o(t)DktCfk(7)Eupt+Eofft能耗与无人机和地面移动终端的芯片结构有关,可以通过式(8)式(10)进行计算,其中卸载能耗为传输能耗和计算能耗的累加和,即.Elocalt=lkl(fm)3(8)Eupt=pupkTupt(9)Eofft=oko(fk)3(10)loklko其中,分别是取决于地面移动终端芯片结构和无人机芯片结构的系数.和为有效开关系数,取决于地面移动终端的芯片结构和无人机的芯片结构.3.3 无人机运动模型kt+1无人机需要在避开障碍物的同时为地面移动终端提供服务,故本文使用了三维动力

19、学模型为无人机进行建模.无人机的位置由飞行速度、角度和时延决定,角度包括与 XOY 面的夹角和与 Z 轴的夹角,时延包括无人机的飞行时延和处理上传任务的时延.由式(11)式(13)可以计算出无人机在时隙的位置:xkt+1=xkt+distanceflycossin(11)ykt+1=ykt+distanceflysinsin(12)zkt+1=zkt+distanceflycos(13)Zdistancefly=vmax(tfly+tdelay)其中,是无人机飞行过程中与 XOY 面的夹角,是无人机飞行过程中与轴的夹角,2023年第32卷第11期http:/www.c-s-计算机系

20、统应用SoftwareTechniqueAlgorithm软件技术算法205vweightvmaxvweighttdelay,表示无人机的最大飞行速度,表示无人机的速度分量,表示无人机处理上传任务的时延.3.4 问题描述本文采用了一种联合优化的策略,将任务卸载比率、无人机飞行轨迹和无人机覆盖率 3 个方面作为优化目标,旨在寻找一种平衡的解决方案,使得整个系统的性能得到最优提升.具体而言,任务卸载比率的优化旨在保证整个系统任务处理的高效性和负载均衡性,无人机飞行轨迹的优化则能够最小化整个时间段内的最大处理时延和能耗,并确保无人机之间不会发生碰撞,无人机覆盖率的优化则能够最大化地面移动终端的服

21、务范围和服务质量,使得整个网络系统的性能得到最大化提升.本文的优化问题可以表示为:mincollisionkot,rkt,covTt=1Kk=1maxEkt+Tkt(14)s.t.0 rkt 1(14a)cov 0,1(14b)poskt=(xkt,ykt,zkt)|xkt 0,L,ykt 0,W,zkt 0,H(14c)0 Task(t)sum_Task(14d)0 Rkt Rmax(14e)0 vk vmax(14f)collisionkottkocollisionkot=1collisionkot=0rktcovsum_TasktkRktRmaxkvkvmax其中,式(14)中的表示在

22、时隙无人机和障碍物之间是否存在障碍,若存在则,否则.式(14a)表示计算任务卸载比率的取值范围.式(14b)表示无人机覆盖率的取值范围.式(14c)表示无人机的移动范围.式(14d)表示剩余任务量的范围,表示总任务量.式(14e)表示时隙无人机的覆盖范围应小于等于无人机的最大覆盖范围.式(14f)表示无人机在飞行过程中的速度不能超过无人机的最大飞行速度.4CoP-MADDPG 算法 4.1 MADDPG 算法DDPG 算法在单智能体领域得到了广泛的应用,将其进行扩展便得到了多智能体领域的 MADDPG 算法25,如图 2 所示,该算法引入了其他智能体的动作作为额外信息以获得 Q 值函

23、数.MADDPG 算法在集中训练过程中不需要知道环境的动力学模型以及特殊的通信需求,每个智能体根据其他智能体的行为评估当前动作的价值.分散执行是指当每个智能体都训练充分后,每个 Actor 网络就可以自己根据状态采取合适的动作,此时是不需要其他智能体的状态或者动作的.1NQ1QNoaoaExecutionTraining.1N图 2MADDPG 算法框架传统强化学习算法在学习和应用时都必须使用相同的数据信息,而 MADDPG 算法允许在学习时使用一些额外的信息,即全局信息,但是在应用决策的时候只使用局部信息.因此,该算法不仅可以用于合作环境,也可以用于竞争环境.MADDPG 算法在保证精度的基

24、础上,能够解决因多智能体输出的动作维度太大而导致的算法收敛问题26,但传统的 MADDPG 算法从经验回放缓冲区中随机抽取数据,而不考虑数据质量,导致训练效果差,收敛速度慢,容易陷入局部最优.因此,本文使用复合优先级抽样方法对 MADDPG 算法进行了改进,从而对任务卸载比率、无人机飞行轨迹和无人机覆盖率进行联合优化.4.2 构建 POMDPstate=poskt,poso,posm,taskmt,blockkt,elekt taskktmtblockkttkblockkt=1blockkt=0 elekttk本文的联合状态空间可以表示为,表示地面移动终端在时隙产生的任务量.表示在时隙无人机

25、与地面移动终端之间是否存在遮挡,若存在遮挡,则,否则.表示时隙无人机的电量.a=Rkt,vk,k,k,offloading kkkoffloading本文的联合动作空间可以表示为,和表示无人机的飞行角度,表示卸载比率.奖励函数会影响神经网络的收敛情况,故它的设置是非常重要的,本文的奖励函数设置为时延能耗、无人机覆盖率、碰撞因子和边界因子的加权和,由于时延和能耗不是一个数量级,故需要对其进行归一化,无人机覆盖不同的区域应得到正向奖励鼓励对区域的计算机系统应用http:/www.c-s-2023年第32卷第11期206软件技术算法SoftwareTechniqueAlgorit

26、hm探索,碰撞因子与无人机和障碍物之间的距离有关,边界因子可以避免无人机飞出边界.4.3 CoP-MADDPG 算法经验回放机制随机重复地抽取过去的经验以提高神经网络的稳定性,但未考虑到数据的质量,导致训练效率低,收敛速度慢,故本文在抽样过程中使用了复合优先级,其中,复合优先级包括基于立即回报的优先级和基于 TD-error 的优先级.复合优先经验回放采样方法的具体步骤如下所示.(1)使用 Q 值计算 TD-error.rtt(2)利用式(15)分别定义基于立即汇报的优先级和基于 TD-error 的优先级,表示经验的立即汇报,表示一个正常数,表示 TD-error:Yi=rt+;Yf=|t|

27、+(15)rankirankf=0(3)把经验池中的经验分别按步骤(2)中得到的优先级从大到小进行排列得到序列和,通过式(16)计算出每个经验的复合优先级,表示算法使用优先级的程度,当时表示均匀采样.uk=ranki+rankf2;Yk=(1uk)(16)Pk=YknYnn(4)定义采样经验的概率,其中表示经验的数量.算法 1.MADDPG 算法DSN输入:使用参数随机初始化 Actor 和 Critic 网络;初始化经验池,最小取样数量,回合数.输出:奖励值.Nforepisode=1:dos初始化初始状态Tfort=1:doiai=i(oi)+Nta=(a1,aN)s对于每个智能体,选择

28、动作并执行动作得到奖励值和下一时刻状态并计算 TD-error;(s,a,r,s,yi,yf)DYiYfrankirankfukYkYkPk将经验存储到经验池,首先将经验按优先级和从大到小进行排序,得到和,其次对经验做复合平均排序得到并计算经验的复合优先级,最后通过计算经验采样概率;iforagent=1:MdoDS从经验池中根据经验采样概率抽取个样本进行训练;设置:yj=rij+Qi(sj,a1,aN)|ak=k(ojk)使用 Loss 值更新 Critic 网络:L(i)=1sj(yjQi(sj,aj1,ajN)2使用梯度下降方法更新 Actor 网络:iJ1sjii(oji)ai

29、Qi(sj,aj1,aji,ajN)|ai=i(oji)endfor更新目标网络:QQ+(1)Q+(1);endforendfor5仿真实验在进行仿真实验时,通过比较不同学习率和折扣因子下的平均奖励值可以获得最佳学习率和折扣因子,通过与基准算法进行对比,验证了本文算法的可用性和先进性.本文的基准算法为:MADDPG、MAA3C、MAPPO、MAAC.5.1 参数设置在模拟过程中,使用的编程语言是 Python3.8 和TensorFlow2.5.使用了一台配备 Intel 酷睿i7-1165G7CPU 的 PC,最高频率 2.80GHz.本文环境参数设置如表 1 所示.表 1参数设置参数意义默

30、认值K无人机数量5个O障碍物数量3个M地面移动终端数量200个Robs障碍物半径42,32,36mT飞行周期18mintfly无人机飞行时间1stdelay无人机悬停时间7sRmax无人机最大覆盖范围30mvmax无人机最大飞行速度21m/sB带宽1MHzlos视距链路下的噪声功率1013mWNlos非视距链路下的噪声功率1011mWfkk无人机的计算频率1.2GHzr影响因子1027CCPU周期数1000pupk上行链路的传输功率0.1Wg距离为1m时的信道增益50dBelek0无人机k的初始电量500kJm无人机质量9.65kg 5.2 仿真结果5.2.1无人机分布示意图二维坐标系中黑色

31、实心小圆表示地面移动终端,深灰色实心圆表示障碍物,浅灰色实心圆表示无人机的覆盖范围,5 种不同的线条分别表示 5 架无人机的飞行轨迹.不同算法下的无人机飞行轨迹如图 3 所示.图 3(a)是基于本文算法的无人机飞行轨迹,可以看出无人机2023年第32卷第11期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法207能够完全避开障碍物和避免无人机之间的碰撞,5 架无人机在飞行过程中轨迹分布较为均匀,基本实现了区域全覆盖,通过深灰色实心圆中黑色实心圆的个数可以看出,无人机在飞行过程中为 90%左右的地面移动终端提供了服务,实现了服

32、务用户公平性,提高了服务效率.图 3(b)是基于 MADDPG 算法的无人机飞行轨迹,可以看出无人机能够完全避开障碍物和避免无人机之间的碰撞,但为了避免碰撞,大多数无人机陷入了局部最优,只在一块较小的区域内移动,导致该算法不能很好地覆盖整个区域,从图中可以看出,4 架无人机覆盖的总面积仅占整体区域的 1/4 左右,且几乎一半的地面移动终端不能得到服务.图 3(c)是基于 MAPPO算法的无人机飞行轨迹,可以看出无人机可以较好地为地面移动终端提供服务且能够在飞行过程中避免无人机之间发生碰撞,但无法完全避开障碍物,该算法解决了 MADDPG 算法陷入局部最优的问题,稳定性相较于 MADDPG 也得

33、到了提升,但最终训练效果较差.图 3(d)是基于 MAA3C 算法的无人机飞行轨迹,可以看出无人机基本实现了地理公平性和服务用户公平性,但由于 A3C 算法未使用经验回放机制,导致采样速度变慢,训练十分不稳定,因此,无人机在飞行过程中不能避免任何一种情况的碰撞.图 3(e)是基于 MAAC 算法的无人机飞行轨迹,从图中可以看出除了无人机之间发生了碰撞之外,还未能避免无人机与障碍物之间的碰撞,在训练过程中无人机无法很好地对环境进行探索,导致无人机分布较为集中,且单架无人机覆盖区域较小,因此,无法全面覆盖整个区域且只为一半左右的地面移动终端提供了服务.0050100150200250300无人机

34、1无人机 2无人机 3无人机 4无人机 5100 x(m)y(m)y(m)y(m)y(m)y(m)x(m)x(m)x(m)x(m)(a)CoP-MADDPG(b)MADDPG 算法(d)MAA3C 算法(e)MAAC 算法(c)MAPPO 算法2003000050100150200250300无人机 1无人机 2无人机 3无人机 4无人机 51002003000050100150200250300无人机 1无人机 2无人机 3无人机 4无人机 51002003000050100150200250300无人机 1无人机 2无人机 3无人机 4无人机 51002003000050100150200

35、250300无人机 1无人机 2无人机 3无人机 4无人机 5100200300图 3无人机飞行轨迹示意图5.2.2基于不同学习率的奖励曲线图目标函数是否收敛以及何时收敛由学习率控制,图 4 是不同学习率下的奖励曲线图,其中 LA 表示 Actor网络学习率,LC 表示 Critic 网络学习率.从图中可以看出,当 Actor 网络的学习率和 Critic 网络的学习率均为0.0001 时,奖励值在80 附近震荡,无法收敛.当 Actor网络的学习率和 Critic 网络的学习率均为 0.001 时,奖励值在 2000 回合左右开始收敛,最终收敛到30 左右.当 Actor 网络的学习率和 C

36、ritic 网络的学习率均为0.01 时,奖励值在 1000 回合附近开始收敛,最终收敛到10 附近.通过对图 4 的分析,可以得出结论:当 Actor网络的学习率和 Critic 网络的学习率均为 0.01 时,可以获得较好的收敛速度和收敛值.5.2.3基于不同折扣因子的平均奖励曲线图折扣因子用来调节未来奖励对当前奖励值的影响,它的选取原则是:在算法能够收敛的前提下尽可能计算机系统应用http:/www.c-s-2023年第32卷第11期208软件技术算法SoftwareTechniqueAlgorithm=0.3=0.6=0.8=0.95=0.95的大.图 5 是不同折扣因子

37、下的奖励曲线图,当时,奖励值在80 左右震荡不收敛,当时,奖励值在 2000 回合左右收敛,最终收敛到50 左右,当时,奖励值在 1800 回合左右开始收敛,最终收敛到40 左右,当时,奖励值在 1000 回合左右开始收敛,最终收敛到10 左右.通过分析不同折扣因子下奖励值的收敛速度和收敛值,可以得出结论:当时的收敛速度是最快的,收敛值是最高的.020017515012510075502502 0004 000回合(个)总奖励6 000LA=0.001,LC=0.001LA=0.01,LC=0.01LA=0.0001,LC=0.00018 00010 000图 4基于不同学习率的奖励值0120

38、1008060402002 0004 000回合(个)总奖励6 000=0.6=0.95=0.8=0.38 00010 000图 5基于不同折扣因子的奖励值5.2.4本文算法与基准算法平均奖励和概率对比图图 6 是本文算法与基准算法的奖励值对比,从图中可以看出 5 种算法均有收敛趋势,MAA3C 和 MAAC算法收敛速度慢,收敛幅度小,MAPPO,MADDPG算法和本文算法相比,3 个算法都在 1000 回合左右收敛,但是本文算法的收敛值略高于其他两个算法且收敛幅度较大.通过对图 6 中数据的分析比较,验证了本文算法的可用性与有效性.图 7 是本文算法与基准算法的无人机覆盖率对比图,从图中可以

39、看出 MAAC 算法在训练过程中无人机覆盖率从 55%左右增加到了 60%左右.MAA3C 算法在训练过程中无人机覆盖率从 50%左右增加到了 65%左右.MADDPG 算法在训练过程中无人机覆盖率从58%增加到 85%左右.MAPPO 算法在训练过程中无人机覆盖率从 62%增加到 85%左右.本文算法在训练过程中无人机覆盖率从 60%左右增加到了 90%左右,并最终在 90%左右震荡收敛.通过对图 7 进行分析,可以得出结论:本文算法在训练过程中无人机可为 90%左右的地面终端提供服务,基本实现了地理公平性.01201401008060402002 0004 000回合(个)总奖励6 000

40、MADDPG 算法MAPPO 算法CoP-MADDPG 算法MAAC 算法MAA3C 算法8 00010 000图 6基于不同算法的奖励值060507080902 0004 000回合(个)无人机覆盖率(%)6 0008 00010 000MADDPG 算法MAPPO 算法CoP-MADDPG 算法MAAC 算法MAA3C 算法图 7无人机覆盖率5.2.5性能分析地面移动终端和障碍物的数量在实际场景中可能并不固定.因此,本文算法必须适应真实场景的复杂性和可变性.图 8 比较了 5 种算法在不同移动终端数量下的性能.图 8 中显示,延迟和能耗与移动终端数量成正比,这是因为数据的传输速度和无人机的

41、处理速度都会随着地面终端数量的增加而下降.图 9 比较了 5种算法在不同障碍物数量下的性能.图 9 中折线呈现下降趋势,因为随着障碍物的增加,无人机为了更好地避开所有障碍物,其机动性会随之下降,因此,能耗和时延也会减少.通过图 9 中数据趋势可以看出:本文所提出的算法使得无人机在飞行过程中使用了最少的时2023年第32卷第11期http:/www.c-s-计算机系统应用SoftwareTechniqueAlgorithm软件技术算法209延和能耗,验证了本文算法的有效性.MAAC 算法具有最高的延迟和能耗,因为 AC 算法存在空间复杂度高,构建时间长的问题.在延时和能耗方面;MAA

42、3C 算法优于 MAAC 算法,A3C 算法中未使用较大存储空间存储历史经验,大大加速了采样速度,但训练十分不稳定,网络难以收敛;MAPPO 算法和 MADDPG 算法性能相近且优于 MAA3C 算法,DDPG 算法探索环境的方式太过复杂,且简单地从经验池中抽取数据的方法导致训练较慢且不稳定,PPO 算法在稳定性方面得到了提升,但算法的时间复杂度较大,因此,这两种算法均会导致较高的延时和能耗.本文算法在 MADDPG 算法的基础上使用复合优先级的方法从经验池中抽取数据,以获得更加有用的经验,使得训练速度和稳定性得到了一定的提升,因此,本文算法和所有基准算法相比,具有最低的延迟和能耗.10010

43、0150200250300350400150200250300移动用户数量(个)总时延(s)350400450500MADDPG 算法MAPPO 算法CoP-MADDPG 算法MAAC 算法MAA3C 算法100150175200225250275300325350150200250300移动用户数量(个)总能耗(W)350400450500MADDPG 算法MAPPO 算法CoP-MADDPG 算法MAAC 算法MAA3C 算法(a)总时延(b)总能耗图 8基于不同数量地面移动终端的性能分析6总结本文针对灾区场景建立了多无人机辅助的移动边缘计算系统模型.地面移动终端将部分任务卸载到对应的无人

44、机进行处理,配备 MEC 服务器的无人机在避免碰撞的情况下,使用最小的时延和能耗为所有地面移动终端提供服务.本文采用部分可观察马尔可夫决策过程对系统模型进行建模,并采用 CoP-MADDPG算法求解目标问题的最优解,考虑到经验池的状态,本文在抽样过程中使用了复合优先级,其中,复合优先级包括基于立即回报的优先级和基于 TD-error 的优先级.仿真结果表明,本文算法的奖励值和无人机覆盖率均优于其他基准算法,在进行飞行轨迹和任务卸载联合优化时具有更好的性能.21001502002503003456障碍物数量(个)总能耗(W)MADDPG 算法MAPPO 算法CoP-MADDPG 算法MAAC 算

45、法MAA3C 算法2100501502002503456障碍物数量(个)(a)总时延(b)总能耗总时延(s)MADDPG 算法MAPPO 算法CoP-MADDPG 算法MAAC 算法MAA3C 算法图 9基于不同数量障碍物的性能分析参考文献王闯,沈苏彬.一种基于多智能体的分布式深度神经网络算法.计算机技术与发展,2021,31(12):4549,77.1林萌龙,陈涛,任棒棒,等.基于多智能体深度强化学习的体系任务分配方法.指挥与控制学报,2023,9(1):93102.2Kiran BR,Sobh I,Talpaert V,et al.Deep reinforcementlearningfor

46、autonomousdriving:Asurvey.IEEETransactions on Intelligent Transportation Systems,2022,23(6):49094926.doi:10.1109/TITS.2021.30546253Ye YJ,Tang Y,Wang HY,et al.A scalable privacy-preservingmulti-agentdeepreinforcementlearningapproachforlarge-scalepeer-to-peertransactiveenergytrading.IEEE4计算机系统应用

47、http:/www.c-s-2023年第32卷第11期210软件技术算法SoftwareTechniqueAlgorithmTransactionsonSmartGrid,2021,12(6):51855200.doi:10.1109/TSG.2021.3103917Zhang Y,Yang QY,An D,et al.Multistep multiagentreinforcementlearningforoptimalenergyschedulestrategyof charging stations in smart grid.IEEE Transactions onCybernetics

48、,2023,53(7):42924305.doi:10.1109/TCYB.2022.31650745YouXY,LiXJ,XuYD,et al.Towardpacketroutingwithfully distributed multiagent deep reinforcement learning.IEEE Transactions on Systems,Man,and Cybernetics:Systems,2022,52(2):855868.doi:10.1109/TSMC.2020.30128326Sacco A,Esposito F,Marchetto G,et al.Susta

49、inable taskoffloadinginUAVnetworksviamulti-agentreinforcementlearning.IEEETransactionsonVehicularTechnology,2021,70(5):50035015.doi:10.1109/TVT.2021.30743047ZhangJD,YangQM,ShiGQ,et al.UAVcooperativeaircombatmaneuverdecisionbasedonmulti-agentreinforcementlearning.JournalofSystemsEngineeringandElectro

50、nics,2021,32(6):14211438.doi:10.23919/JSEE.2021.0001218厉子凡.基于多智能体值分解深度强化学习的多智能体协作算法研究硕士学位论文.合肥:合肥工业大学,2021.9李盛祥.基于强化学习的多智能体协同关键技术及应用研究博士学位论文.郑州:战略支援部队信息工程大学,2021.10Jiang YY,Mao YX,Wu GX,et al.A collaborativeoptimizationstrategyforcomputingoffloadingandresourceallocationbasedonmulti-agentdeepreinfo

展开阅读全文