收藏 分销(赏)

基于多智能体深度强化学习的无人机动态预部署策略.pdf

上传人:自信****多点 文档编号:326287 上传时间:2023-08-15 格式:PDF 页数:9 大小:1.79MB
下载 相关 举报
基于多智能体深度强化学习的无人机动态预部署策略.pdf_第1页
第1页 / 共9页
基于多智能体深度强化学习的无人机动态预部署策略.pdf_第2页
第2页 / 共9页
基于多智能体深度强化学习的无人机动态预部署策略.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于多智能体深度强化学习的无人机动态预部署策略唐 伦 李质萱 蒲 昊*汪智平 陈前斌(重庆邮电大学通信与信息工程学院 重庆 400065)摘 要:针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出

2、一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。关键词:无人机通信;动态部署;部分可观测马尔科夫博弈;多智能体深度强化学习中图分类号:TN929.5文献标识码:A文章编号:1009-5896(2023)06-2007-09DOI:10.11999/JEIT220513A Dynamic Pre-Deployment Strategy of UAVs Based onMulti-Agent

3、 Deep Reinforcement LearningTANG Lun LI Zhixuan PU Hao WANG Zhiping CHEN Qianbin(School of Communication and Information Engineering,Chongqing University of Posts andTelecommunications,Chongqing 400065,China)Abstract:Its challenging to use traditional optimization algorithms to solve the long-term d

4、ynamic deploymentproblem of Unmanned Aerial Vehicles(UAVs)due to their high complexity and difficulty in matching dynamicenvironment.Aiming at solving these shortcomings,a dynamic pre-deployment strategy of UAV based onMulti-Agent Deep Reinforcement Learning(MADRL)is proposed.Firstly,a deep spatio-t

5、emporal networkmodel is used to predict the expected rate demand of users in the coverage area to capture the dynamicenvironment information.The concept of users satisfaction is defined to describe the fairness of users.Anoptimization problem is modeled with the goal of maximizing the long-term over

6、all users satisfaction,minimizing the mobile and radio energy consumption of the UAVs.Secondly,the problem above is transformedinto a Partially Observable Markov Game(POMG)process.An H-MADDPG algorithm based on MADRL isproposed to solve the optimal decision of trajectory design,user association and

7、power allocation.The H-MADDPG algorithm uses a hybrid network structure to extract the features of multi-modal inputs,and adoptsa centralized training-distributed execution mechanism to realize efficient training and decision execution.Finally,the effectiveness of the algorithm is verified by simula

8、tion experiments.Key words:Unmanned Aerial Vehicle(UAV)communication;Dynamic deployment;Partially ObservableMarkov Game(POMG);Multi-Agent Deep Reinforcement Learning(MADRL)收稿日期:2022-04-22;改回日期:2022-06-01;网络出版:2022-06-22*通信作者:蒲昊基金项目:国家自然科学基金(62071078),重庆市教委科学技术研究项目(KJZD-M201800601),川渝联合实施重点研发项目(2021Y

9、FQ0053)Foundation Items:The National Natural Science Foundation of China(62071078),The Science and Technology Research Program ofChongqing Municipal Education Commission(KJZD-M201800601),Sichuan and Chongqing Key R&D Projects(2021YFQ0053)第45卷第6期电 子 与 信 息 学 报Vol.45No.62023年6月Journal of Electronics&In

10、formation TechnologyJun.20231 引言近年来,集成无线通信功能的无人机(Un-manned Aerial Vehicle,UAV)设备作为第6代移动通信(the 6th Generation,6G)中空天地一体化关键技术的重要一环,引起了广泛的关注1,2。得益于UAV较高的可操作性和随着技术迭代而不断提升的承载能力,其能够充当为地面用户和设备提供网络接入服务的空中基站,为用户提供按需的服务,进一步完善无线网络的覆盖。现有一些研究针对UAV系统的联合轨迹设计和功率分配优化,采用块坐标下降、连续凸逼近等基于优化的传统算法求解38。然而问题的非凸性导致上述算法复杂度过高且丧

11、失一定精度。此外,当环境发生变化时,还会要求重新计算优化过程。针对上述缺陷,一些研究采用单智能体深度强化学习(Single-Agent Deep Reinforcement Learning,SADRL)以实现智能的UAV部署决策,在UAV的轨迹设计、无线资源分配和覆盖优化等方面取得不错效果9,10。然而基于SADRL的学习架构需要有集中式的管理器来在每一个决策时刻收集全局状态信息,增加了UAV集群信令开销;另一方面,单智能体网络结构复杂度随着场景中用户设备的增加而显著上升,训练效率较低。此外,先前的研究大多以最大化吞吐量为目标,或是保证用户的某一假定信噪比阈值,无法捕捉用户时变的速率需求,丧

12、失了公平性。针对以上问题,本文提出一种基于多智能体深度强化学习(Multi-Agent DRL,MADRL)的UAV动态预部署策略,通过预测地区内用户的速率需求,使用一种MADRL算法优化UAV的轨迹设计、功率分配和用户关联,以长时间尺度内的最大化用户公平性和最小化能耗。具体来说:(1)利用一种深度时空网络模型A-ConvLSTM(Convolutional Long and Short Term Memorywith Attention mechanism)预测地区内用户的流量与人数的时空分布,进而预测用户的速率需求,以此刻画环境的动态变化特性;基于该预测结果,提出用户满意度的概念,以刻画用

13、户的预测接入速率和既得接入速率之间的差异及公平性,以最大化长期用户满意度并最小化长期移动和发射能耗为目标建立问题模型,综合优化UAV的轨迹设计、功率分配和用户关联;(2)将上述优化问题转化成一个部分可观测马尔科夫博弈过程(Partially Observable MarkovGame,POMG),提出一种混合-多智能体深度确定性策略梯度(Hybrid Multi-Agent Deep DeterministicPolicy Gradient,H-MADDPG)算法求解。该算法针对多模态的输入采用卷积神经网络(ConvolutionalNeural Network,CNN)和全连接神经网络(Fu

14、llyConnected Neural Network,FCNN)混合的结构,更好地实现对输入的特征提取,采用集中式训练-分布式执行的机制以高效地实现网络训练和决策执行。最后,仿真结果证明了所提算法的收敛性和有效性。2 系统模型 2.1 用户预期速率需求预测已有研究证明蜂窝流量与用户的分布具有高度非线性和空间相关性11,12。因此,在部署UAV之前,运营商需要对流量时空分布作出精准的预测,以满足用户时空分布不均的需求,避免网络拥塞,同时减少UAV的能耗等开销,提高经济效益。M=1,2,.,MT=1,2,.,T考虑集合为的UAV集群覆盖于区域A上空,采用频分多址的接入方式并使用波束成形技术为区域

15、A中的用户提供下行接入的服务。由于UAV部署属于序贯决策问题,用表示时隙集合。为实现对用户预期速率的预测,将区域A离散地划分成WL的大小相等的兴趣区域(Area of Interest,AoI),并将时隙内位于同一AoI内的所有基站流量之和作为该AoI的流量值,所有UAV关联用户数之和作为该AoI的用户数。区域A于t时隙的流量矩阵可表示为XTr(t)=XTr1,1(t)XTr1,2(t).XTr1,L(t)XTr2,1(t)XTr2,2(t).XTr2,L(t).XTrW,1(t)XTrW,2(t).XTrW,L(t)(1)XTrw,l(t)XU(t)XUw,l(t)XTr(t)XU(t)其中

16、,表示t时隙位于(w,l)的AoI流量值。类似地,定义用户分布矩阵,用表示t时隙位于(w,l)的AoI用户数。流量与用户分布的预测实质是从过去D个时隙的数据中,找到下一时隙t概率最大的流量与用户数矩阵生成,,可表述为XTr(t)=argmaxXTr(t)p(XTr(t)|XTr(tD),XTr(tD+1),.,XTr(t 1)(2)XU(t)=argmaxXU(t)p(XU(t)|XU(t D),XU(tD+1),.,XU(t 1)(3)在我们先前的研究中13,为了捕捉流量与用户分布的时空相关性,提出了一种融合注意力机制的2008电 子 与 信 息 学 报第 45 卷N=1,2,.,NRn(t

17、)=XTrn(t)/tXUn(t)卷积长短期记忆网络模型A-ConvLSTM。该种深度时空网络模型通过自动分配不同时间步的隐藏层权重,来完成式(2)、式(3)中过去D个时刻到下一时刻t的流量与用户分布矩阵的映射,由此可以得到每个AoI用户预期速率需求。通过真实蜂窝流量数据验证,A-ConvLSTM在流量预测方面具有较好的性能,其网络结构总结于文献13中。设AoI集合为,N=LW,则AoI n内用户预期速率需求为,t为时隙长度。2.2 UAV动态部署问题建模wm(t)=xm(t),ym(t),hxn,yn,0(xm(t)xn)2+(ym(t)yn)2+h2Lmn(t)dB20lg(4fcdmn(

18、t)/c)+mnmnLoSmn N(LoS,2LoS)LoS2LoSNLoSmn N(NLoS,2NLoS)简便起见,设UAV位于固定高度h,用表示时隙t的UAV m的地理位置。UAV m与为地理位置为的AoI n之间的距离dm n(t)为,两 者 之 间 的 路 径 损 耗为。其中fc为载波频率,c为光速,是自由空间传播的额外损失:当UAV m与AoI n之间为视距传播环境(Line of Sight,LoS)时,和是正态分布的均值和方差,下同;当其之间为非视距传播环境(NoneLine of Sight,NLoS)时,。UAV m与AoI n之间存在LoS链路的概率为pLoSmn(t)=(

19、1+aexp(b180mn(t)a)1(4)mn(t)=arcsin(h/dmn(t)其中,a,b是环境常量,为AoI n对UAV m的仰角。UAV m与AoI n的平均下行链路损耗为Lmn(t)=pLoSmn(t)LLoSmn(t)+(1 pLoSmn(t)LNLoSmn(t)(5)Bm(t)=B/nCm(t)XUn(t)Cm(t)设UAV m为其所有关联AoI下的用户平均分配总带宽B,则其每个关联用户分得的带宽为,其中为UAV m关联AoI集合。根据香农公式,UAV m为AoI n提供的下行速率为Rn(t)=Bm(t)log2(1+Pmn(t)G10Lmn(t)/10N0Bm(t)(6)其

20、中,G为收发天线增益,N0为噪声功率谱密度,Pmn(t)为UAV m发射功率。在任意时隙,UAV m通过改变自身悬停位置wm(t)以改善链路质量,选取不同的关联AoI并分配功率,以满足时变的用户预期速率需求。用二进制关联指示变量umn(t)表示UAV与AoI的关联情况:umn(t)=1表示UAV m与AoI n内所有用户关m(t)0,2联;反之,umn(t)=0则不关联。UAV m在时隙t和t+1之间的飞行距离用dm(t)表示,飞行方位用表示。定义AoI n的用户满意度:Vn(t)=XUn(t)(Rn(t)Rn(t)2(7)以刻画用户预期速率与既得速率之间的差别,当用户所得速率越接近预期速率,

21、满意程度越高。若假定UAV为用户提供大于某一固定阈值的速率而追求最大化吞吐量,忽略用户的不同需求,则对于需求较高的用户来说丧失了公平性,而对于需求较低的用户来说造成了资源浪费。因此,本文首先考虑UAV部署目标为最大化总体用户满意度。由于UAV的载荷有限,其移动和发射能耗不能忽略。综上,本文考虑通过优化UAV集群的轨迹、用户关联和功率分配,实现最大化总体用户满意度和最小化移动及发射能耗的加权多目标,该优化问题可以表述为maxPmn(t),umn(t),dm(t),m(t)Tt=1Mm=1Nn=1Vn(t)dm(t)umn(t)XUnPmn(t)(8)s.t.式(2),式(3)umn(t)0,1,

22、m M,n N,t T(8a)Mm=1umn(t)1,n N,t T(8b)0 dm(t)dmax,m M,t T(8c)(xm1(t)xm2(t)2+(ym1(t)ym2(t)2 d2min,m1,m2 M,m1=m2(8d)wm(t)A,m M,t T(8e)Nn=1umn(t)XUn(t)Pmn(t)Pmax,m M,t T(8f)其中,,和 分别总体用户满意度权重系数、UAV单位移动功耗权重系数和发射功耗权重系数。约束条件(8b)表示了任意AoI最多只与一架UAV关联,保证了UAV之间的覆盖区域不重叠;条件式(8c)表示UAV的机动性约束,即时隙间移动距离不得超过最大距离dmax;条件

23、式(8d)考虑了UAV的碰撞问题,为避免碰撞,任意两架UAV之间的距离不得超过最小安全距离dmin;条件式(8e)表示UAV地理位置不得超过区域A;条件(8f)表示UAV为关联AoI内提供的发射功率之和不得超过其最大功率Pmax;通过利用网络A-ConvLSTM去保证条件式(2)和式(3),使UAV能够提前了解环境信息的改变,在流量热点事件发生之前做出最优决策,到达预部署的目的。第6期唐 伦等:基于多智能体深度强化学习的无人机动态预部署策略20093 部分可观测马尔科夫博弈建模由于问题式(8)优化变量涉及连续和整数变量,属于非凸的混合整数非线性规划问题,加之条件式(2)、式(3)是动态改变的,

24、使用传统优化算法难以求解,故将其转化为一个POMG过程,进而利用相关MADRL算法求解。在一个存在多个智能体的POMG环境中,由于智能体之间存在着竞争兼合作的关系,每个智能体的决策都会受到其他智能体的联合动作的影响。由于交互的受限性,每个智能体无法观测到其余智能体的状态,只能观测到部分环境状态,因而在每一个决策时隙,其根据自身观测的状态,学习最优策略以做出最大化长期回报的动作。S,O,A,P,R,SO=om(t)|m Mom(t)A=a1(t)a2(t).aM(t)am(t)a-m(t)P=p(s(t+1)|s(t),am(t),am(t)am(t)am(t)s(t)s(t+1)R=rm(s(

25、t),m)|m Mrm(s(t),m)mm:om(t)am(t)om(t)am(t)一个POMG可用一个与之匹配的多元组来描述。其中集合 代表所有智能体可能所处的状态;代表智能体自身观察的状态组成的集合,表示智能体m的观测态;代表智能体的联合动作集合,表示智能体m的动作,另用表示除m之外的智能体的联合动作;为状态转移概率集合,表示智能体采取联合动作后状态由跳变至的概率;表示智能体奖励集合,为智能体m的即时奖励,表示奖励折扣因子,表示智能体m的随机策略函数,有。在决策时隙t,智能体m基于自身的观测态执行动作,以此最大化自己长期奖励的期望值:RWm(m)=Es(t+1)p(s(t+1)|s(t),

26、am(t),am(t)Tt=1trm(s(t),m),s(t),s(t+1)S,am(t)am(t)A(9)ms(t)其中,表示其余智能体的联合策略函数。在该过程中,所有智能体基于观测状态做出动作,并获得相应奖励,系统随以转移概率跳变至下一个状态,以此不断重复这个过程。经过有限的步骤之后,当在任意状态下,式(10)均被满足时,可以实现纳什均衡(Nash Equilibrium,NE)状态14。RWm(m)RWm(m)(10)m其中,表示m的最优策略函数。为了获得更加稳定的策略并契合POMG的周期性,在训练时,每一回合(episode)中所有智能体选择一个随机的子策略,并从环境中获得累积奖励;在

27、回合结束后重置环境状态。如此训练若干个回合,通过整合不同子策略,以达到提升策略稳定性、提高策略泛化能力的目的。在本文所研究的UAV通信场景下,将每个UAV视作单个智能体,在每个决策时隙基于自己的观测状态并决定飞行距离和方位、AoI关联、功率分配以最大化自己长期折扣奖励。具体的POMG多元组定义如下。Zn(t)=Vn(t),XUn(t)首先定义二元组表示AoIn的状态,该二元组描述了AoI包含的信息,包括速率需求与用户数,UAV需要知道这些信息以作出决策。O=om(t)|m MZ=Z1(t),Z2(t),.,ZN(t)om(t)=wm(t),Z(1)观测状态。对于UAVm在t时隙的观测状态om(

28、t)定义为自身的位置wm(t)和所有的AoI状态集合,则有。Ss(t)=w1(t),w2(t),.,wM(t),Z(2)全局状态。全局状态应该囊括所有UAV的观测状态信息,包括所有UAV的地理位置和所有的AoI状态,则定义t时隙全局状态为。A=a1(t)a2(t).aM(t)am(t)=dm(t),m(t),um1(t),um2(t),.,umN(t),Pm1(t),Pm2(t),.,PmN(t)(3)动作。定义UAV m在t时隙的动作为,包括飞行方位、距离、关联指示变量和功率分配。需要注意,若umn(t)=1,则Pmn(t)为某一小于等于Pmax的连续值;若umn(t)=0,则Pmn(t)=

29、0。R=rm(s(t),m)|m MXUTol(t)=Nn=1XUn(t)rm(t)(4)奖励。用表示区域A所有用户数之和。简记UAV m在时隙t的即时奖励为,将其定义为rm(t)=Nn=1(umn(t)Vn(t)dm(t)umn(t)XUn(t)Pmn(t)1(XUTol(t)Mm=1Nn=1umn(t)XUn(t)2Nn=1Mm=1,m=m(umn(t)umn(t)1)3(11)Nn=1(umn(t)Vn(t)dm(t)umn(t)XUn(t)Pmn(t)123XUTol(t)Mm=1Nn=1umn(t)XUn(t)即时奖励由4部分构成,首先是,该部分是式(8)目标函数的直接体现。为保证式

30、(8)限制条件的成立,引入了3种惩罚项,分别表示对区域A的覆盖惩罚(总关联用户数越少惩罚越高)、UAV重叠区域惩罚(重复关联的用户数越多惩罚越高)、飞离区域A的惩罚,分别用惩罚系数,加权。其中表示未被覆2010电 子 与 信 息 学 报第 45 卷Nn=1Mm=1,m=m(umn(t)umn(t)1)盖区域用户数总和;表示所有UAV之间的重复关联的用户数。4 H-MADDPG算法若每个UAV互相之间不进行信息的交互,独立且贪婪地选取使自己奖励期望最大化的动作,则整个过程将难以收敛,环境状态的转移将面临不稳定的问题。因此,本文提出一种具有混合网络结构的MADRL算法,即H-MADDPG,求解上述

31、POMG过程。为表示简便,以下变量及公式省略时间t。mam=m(om)m在H-MADDPG中,每个UAV都视作一个执行深度确定性策略梯度(Deep Deterministic PolicyGradient,DDPG)算法的智能体,具有执行者网络和评判者网络。智能体m根据自身观测状态om做出决策,其执行者网络是其策略函数的近似,输出表示为;同时为避免仅根据自身观测状态贪婪地完成决策而导致环境转换不平稳,智能体m需要评判者网络去评估全局动作-价值函数Q(s,am,a-m)。4.1 网络结构设计mom=wm,ZXTr(t)XU(t)执行者网络的输入为,包含UAV自身位置和所有AoI状态。由于利用A-

32、ConvL-STM网络预测得到的,是具有空间相关性的2维张量,类似地可以计算得到用户满意度矩阵V(t)=V1,1(t)V1,2(t).V1,L(t)V2,1(t)V2,2(t).V2,L(t).VW,1(t)VW,2(t).VW,L(t)XU(t)Z(t)=V(t),XU(t)RLW2其中,Vw,l(t)表示坐标为(w,l)的AoI用户满意度。将V(t)和在新的维度拼接(concatenate)为3维张量并将其表示为,mam=dm,m,um,Pm R2N+2um=um1,um2,.,umN RNPm=Pm1,Pm2,.,PmN RNm则的输入可以表示成3维张量Z(t)和向量wm(t)组合。由于

33、输入的多模态性,需要根据具体的数据维度对网络结构进行设计:考虑到Z(t)的前两维度的空间相关性(第3维度可视作类似图像数据的通道维度),首先利用CNN中的若干层卷积层(conv)和池化层(pooling)对其进行特征提取,之后将得到的特征向量与wm(t)拼接成新的向量输入至若干层FCNN,最后通过离散化和归一化的处理以满足混合决策变量的约束,得到动作向量。其中,分别为关联指示向量和功率分配向量。网络激活函数采用ReLU函数。整个结构如图1所示。mG=w1,w2,.,wM R2MA=a1,a2,.,aM R2(N+2)Mm相比直接将om以向量的形式输入网络,将om表示为3维张量和向量的组合并分别

34、用CNN和FCNN的结构进行特征提取的方式不仅保留了原始数据的空间相关性和信息量,而且得益于参数共享的卷积方式,降低了网络所需参数个数和网络过拟合的概率。与执行者网络类似地,可将评判者网络输入分为3个部分:Z(t),UAV位置向量、联合动作向量。将Z(t)通过CNN网络得到特征向量,并将其与G,A拼接输入FCNN,最终得到全局Q值。结构如图2所示。4.2 算法流程(1)评判者网络训练s,am,am,s,om,om,rmisomH-MADDPG中,智能体m利用了经验回放池和双网络两种技巧。智能体m的经验回放池具有若干样本。训练样本i可以用元组表示,其中 和分别表示由s,om跳转而来的下一全局状态

35、和观测状态。在经验回放池累计一定数量的样本之后,选择数量大小为I的样本为一个批次(mini-batch),参与一次训练。图 1 执行者网络结构第6期唐 伦等:基于多智能体深度强化学习的无人机动态预部署策略2011mmyi=rm+Qm(s,am,am)iQm(s,am,am)imam=m(om)imLm(m)双网络即执行者和评判者均具有一个在线网络和目标网络,通过解耦选择与计算,来达到消除过度估计的目的。用和分别表示智能体m的目标评判者网络和目标执行者网络。定义样本i的估计 Q 值,其 中是网络的输出,是网络根据样本i下一观测状态输出的动作。定义损失函数为所有样本实际Q值和估计Q值的均方误差,即

36、有Lm(m)=1IIi=1(Qm(s,am,am)i yi)2(12)Lm(m)m为使估计Q值更接近实际Q值,采用批次梯度下降法以最小化的方式更新,有m m Lm(m)(13)其中 是学习率。(2)执行者网络训练mRWm(m)m执行者网络训练目的是输出使奖励期望式(9)最大化的动作,因此朝着奖励期望梯度上升的方向更新的参数。根据策略梯度定理15可得RWm(m)1IIiamQ(s,am,am)im(om)i(14)mRWm(m)采用梯度上升法训练以最大化,有m m+RWm(m)(15)mm目标执行者网络参数和目标评判者网络参数采用软更新的方式,即定期向在线网络复制部分参数,这样能使目标网络的参数

37、变化较小,保持训练的稳定,有m m+(1 )m(16)m m+(1 )m(17)其中,是软更新系数。当所有智能体参与训练时,需要同时执行联合动作以完成全局状态的跳变。综上,H-MADDPG的训练流程如算法1所示。(3)集中式训练-分布式执行单个UAV作为智能体,其评判者网络需要收算法1H-MADDP算法XTr(t)XU(t)t T输入:,(),最大回合数E,最大时间步长T,I,最大代数(epoch)Kmmmm输出:,1 随机初始化所有智能体的在线/目标评判者网络、在线/目标执行者网络2 for episode=1E:3 初始化全局状态s和所有智能体经验回放池4 for t=1T:5 所有智能体

38、基于观测状态执行动作s6 全局状态由s跳变至,所有智能体得到相应奖励,并将样本存储至经验回放池7 if 经验回放池已满:8 for m=1M:9 for epoch=1K:10 循环采样I个样本直至所有样本参与训练mm11 每次采样根据式(12)和式(13)更新,根据 式(14)和式(15)更新12 end for13 end for14 清空经验回放池s s15 mm16 根据式(16)、式(17)更新和17 end for18 end for 图 2 评判者网络结构2012电 子 与 信 息 学 报第 45 卷集全局信息,此外,训练过程需要大量的计算开销,而UAV算力不足,因此考虑存在一个

39、边缘服务器集中式训练所有UAV的网络并将用户预测速率发送至UAV集群13,以减少UAV对全局信息的频繁交互。完成训练后,每个UAV只需从边缘服务器下载好执行者网络,接收边缘服务器对区域的用户预测速率信息,基于该信息独立地实现部署决策,该过程称为分布式执行过程。5 仿真结果及分析 5.1 仿真参数设置LoS=1.6LoS=8.41NLoS=23NLoS=33.78umn(t)XUnPmn(t)首先对仿真各项参数进行说明。仿真软件环境基于python3.6和tensorflow 1.14。路径损耗参数,,式(4)视距链路参数a=9.6,b=0.216。式(8)中,用户下行链路速率单位采用Mbit/

40、s,移动距离dm(t)单位采用m,同时消除Vn(t),dm(t),发射功率之和3部分的量纲,以便对其进行加权求和。将其余各项仿真参数总结于表1中。5.2 算法收敛性能分析学习率会对强化学习收敛性能产生直接影响,首先分析不同学习率下的H-MADDPG算法的收敛性能。图3给出了学习率 分别为1103,1104,1105情况下H-MADDPG算法的平滑训练奖励随着训练轮次增加的变化情况。3种学习率下的平滑奖励分别在300400轮、500600轮、700800轮时上升停滞。更大的学习率会导致更差的收敛性,使平滑奖励的波动更加明显。综合考虑训练奖励的收敛性和训练速度,学习率=1104是一个合适的选择,因

41、此下文所有实验的学习率均采用该数值。为对比混合网络结构的增益,提出了另一种对比算法MADDPG,该种算法中的执行者和评判者网络输入结构均采用单一的FCNN,其输入张量采用将H-MADDPG输入张量重塑为向量的方式。两种方式的网络结构对比总结于表2中。同时对比了单智能体算法DDPG,该算法假设有一个集中式的控制器对所有UAV进行集中式动态部署,能够基于全局观测信息作出决策,执行动作是所有UAV的联合动作,其网络结构采用与H-MADDPG相同的CNN+FCNN的混合网络结构。3种算法的平滑训练奖励情况总结于图4中。从图4可以看出,多智能体算法的训练效率相对较低,这是因为UAV之间无法共享观测结果,

42、而单智能体能够利用全局信息,因此其能够做到更快的收敛。此外,多智能体算法稳定性低于单智能体算法,这种现象源于动作的探索和不可避免的随机非平稳性17。然而,所提算法带来的整体训练奖励接近于单智能体算法,表明即使UAV没有共享自身观测状态,仍然能够合作做出最好的决策,以更少的信息交互来实现共同目标。得益于混合的网络结构,H-MADDPG的收敛效率和稳定性均优于MADDPG,这是因为CNN网络以共享参数的形式简化了网络结构,提升了收敛效率;同时卷积方式对数据的空间相关性捕捉能力更强,获得了更高的训练奖励。5.3 算法系统性能分析之后对比了H-MADDPG算法和先前研究中的基于优化的节能部署(Ener

43、gy Efficient Deploy-ment,EED)算法的性能13。为了体现目标函数中权重系数对目标增益(式(8)目标函数数值)的影响,设置了几种不同的权重组合如表3所示。需要说明,EED算法只能求解的单个时隙的用户满意度、UAV最小发射功率和最佳位置,无法求得连续时隙的移动能耗。因此采用如下做法:在得到每个时隙的最佳UAV位置后,计算连续两个时隙间的位置差值,以计算连续时隙内的移动能耗累计。图5展示了两种算法的累计目标增益随着时隙增加的变化情况,表明随着系数 的减小、的增加,H-MADDPG逐渐超过EED算法,获得了更低的累计目标增益。这是因为EED算法使UAV提供刚好用户满足的接入速

44、率需求,有较高的用户满意度;但其关注单个时隙的最佳位置,在计算连续时隙累计的移动能耗时,难以获得最优解。所以随着目标函数对用户总体满意度关注更少,对移动能耗表 1 仿真参数设置仿真参数数值仿真参数数值载波频率fc5 GHz环境常量a/b9.6/0.2天线增益G10 dB 权重系数/101/103/101总带宽B10 MHz123惩罚系数/102/101/102噪声功率谱密度N0174 dBm/HzUAV数量M3LoSLoSNLoSNLoS/1.6/8.41/23/33.78Pmax/dmax/dmin30 W/1000 m/100 m区域长度L/宽度W10(200 m)/10(200 m)训练

45、参数E/T/K/I/1000/200/100/5/0.1第6期唐 伦等:基于多智能体深度强化学习的无人机动态预部署策略2013关注更多,H-MADDPG表现更佳。下文实验中采用H-MADDPG3的权重组合。图6和图7给出了两种算法在连续时隙内的UAV累计发射功耗和累计路径长度。前者说明两种算法在计算UAV发射功率上性能接近,后者说明EED算法求的每一时隙内的最佳位置在长时间尺度内并非最优解,而H-MADDPG算法把握了时隙间UAV位置耦合性,做出了更短距离的路径规划策略,进而降低了移动能耗。综合来看,H-MAD-DPG算法能在满足用户不均匀的需求之下,更能兼顾优化发射功耗和移动能耗。6 结束语

46、本文提出了一种基于MADRL的UAV动态预部表 2 H-MADDPG与MADDPG网络结构对比H-MADDPG结构参数 MADDPG结构参数执行者网络卷积层132个33卷积核无池化层122 平均池化卷积层216个33卷积核池化层222 平均池化全连接层1256个神经元512个神经元全连接层2128个神经元256个神经元全连接层3无50个神经元评判者网络卷积层132个33卷积核无池化层122 平均池化卷积层216个33卷积核池化层222 平均池化全连接层1512个神经元1024个神经元全连接层2256个神经元512个神经元全连接层3128个神经元200个神经元全连接层3无20个神经元表 3 算法

47、对应权重系数总体用户满意度权重系数UAV单位移动功耗权重系数H-MADDPG111011103H-MADDPG20.91011.05103H-MADDPG30.71011.1103EED11011103 图 3 不同学习率下的算法训练对比 图 4 算法收敛对比 图 5 算法性能对比 图 6 累计发射功耗对比 图 7 累计路径长度对比2014电 子 与 信 息 学 报第 45 卷署策略。首先用深度时空网络模型预测用户速率需求,基于该需求提出用户满意度以刻画服务公平性,以最大化用户满意度和最小化UAV移动与发射能耗建立优化模型,并转化为POMG过程。之后提出了具有混合网络结构的H-MADDPG算法

48、求解POMG的最佳决策,并采用集中式训练-分布式执行机制实现网络训练和UAV决策执行。最后的仿真结果表明所提算法具有较好的收敛性,并能获得较好的目标增益。参 考 文 献SAAD W,BENNIS M,and CHEN Mingzhe.A vision of 6Gwireless systems:Applications,trends,technologies,andopen research problemsJ.IEEE Network,2020,34(3):134142.doi:10.1109/MNET.001.1900287.1陈新颖,盛敏,李博,等.面向6G的无人机通信综述J.电子与信息

49、学报,2022,44(3):781789.doi:10.11999/JEIT210789.CHEN Xinying,SHENG Min,LI Bo,et al.Survey onunmanned aerial vehicle communications for 6GJ.Journalof Electronics&Information Technology,2022,44(3):781789.doi:10.11999/JEIT210789.2WANG Qian,CHEN Zhi,LI Hang,et al.Joint power andtrajectory design for physic

50、al-layer secrecy in the UAV-aided mobile relaying systemJ.IEEE Access,2018,6:6284962855.doi:10.1109/ACCESS.2018.2877210.3ZHANG Guangchi,WU Qingqing,CUI Miao,et al.Securing UAV communications via joint trajectory andpower controlJ.IEEE Transactions on WirelessCommunications,2019,18(2):13761389.doi:10

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 医学/化学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服