收藏 分销(赏)

基于边缘计算的无人机通感融合网络波束成形与资源优化.pdf

上传人:自信****多点 文档编号:2108731 上传时间:2024-05-16 格式:PDF 页数:10 大小:3.38MB
下载 相关 举报
基于边缘计算的无人机通感融合网络波束成形与资源优化.pdf_第1页
第1页 / 共10页
基于边缘计算的无人机通感融合网络波束成形与资源优化.pdf_第2页
第2页 / 共10页
基于边缘计算的无人机通感融合网络波束成形与资源优化.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 9 月 Journal on Communications September 2023 第 44 卷第 9 期 通 信 学 报 Vol.44 No.9基于边缘计算的无人机通感融合网络波束成形与资源优化 李斌1,彭思聪1,费泽松2(1.南京信息工程大学计算机学院,江苏 南京 210044;2.北京理工大学信息与电子学院,北京 100081)摘 要:为了解决传统通信感知融合网络模式对地面基础设施的依赖,针对复杂场景下通感融合网络系统功耗较大、信号阻塞、覆盖盲区等问题,提出了一种无人机搭载边缘计算服务器与雷达收发器辅助通感融合网络。首先,在满足用户传输功率、雷达估计信息率、任务卸载比

2、例限制的条件下,通过联合优化无人机雷达波束成形、计算资源分配问题、任务卸载量划分、终端用户发射功率和无人机飞行轨迹,建立系统总能耗最小化问题;其次,将该非凸优化问题重新构建为一个马尔可夫决策过程,使用深度强化学习中的近端策略优化算法实现系统的优化决策。仿真结果表明,所提算法训练速度较快,能够在保证应用的感知与计算时延需求的同时有效降低系统能耗。关键词:感知通信计算融合网络;无人机;深度强化学习;资源分配与优化 中图分类号:TN92 文献标志码:A DOI:10.11959/j.issn.1000436x.2023172 Beamforming and resource optimization

3、 in UAV integrated sensing and communication network with edge computing LI Bin1,PENG Sicong1,FEI Zesong2 1.School of Computer Science,Nanjing University of Information Science and Technology,Nanjing 210044,China 2.School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,

4、China Abstract:To address the dependence of traditional integrated sensing and communication network mode on ground in-frastructure,the unmanned aerial vehicle(UAV)with edge computing server and radar transceiver was proposed to solve the problems of high-power consumption,signal blocking,and covera

5、ge blind spots in complex scenarios.Firstly,under the conditions of satisfying the users transmission power,radar estimation information rate and task offloading propor-tion limit,the system energy consumption was minimized by jointly optimizing UAV radar beamforming,computing re-source allocation,t

6、ask offloading,user transmission power,and UAV flight trajectory.Secondly,the non-convex optimi-zation problem was reformulated as a Markov decision process,and the proximal policy optimization method based deep reinforcement learning was used to achieve the optimal solution.Simulation results show

7、that the proposed algorithm has a faster training speed and can reduce the system energy consumption effectively while satisfying the sensing and compu-ting delay requirements.Keywords:integrated sensing-communication-computation network,UAV,deep reinforcement learning,resource alloca-tion and optim

8、ization 收稿日期:20230425;修回日期:20230717 通信作者:费泽松, 基金项目:国家重点研发计划基金资助项目(No.2021YFB2900200);国家自然科学基金资助项目(No.62101277);江苏省自然科学基金资助项目(No.BK20200822)Foundation Items:The National Key Research and Development Program of China(No.2021YFB2900200),The National NaturalScience Foundation of China(No.62101277),The N

9、atural Science Foundation of Jiangsu Province(No.BK20200822)第 9 期 李斌等:基于边缘计算的无人机通感融合网络波束成形与资源优化 229 0 引言 下一代无线通信的网络节点被设想为超越单一通信维度,以一种综合的方式执行多种功能,如高精度、多目标环境感知和低时延计算1。由于无线感知在硬件设施和信号处理方面与无线通信技术有着惊人的相似之处,将无线通信与无线感知相结合,可为网络提供并发的通信和感知功能。为此,通信感知一体化(ISAC,integrated sensing and communication)的研究备受关注,通过在感知和通信

10、系统之间共享频谱资源和无线基础设施,可以实现资源的高效利用,同时保证感知与通信功能之间的互通、互惠、互利2。随着无线设备类型逐渐异质化、应用形态日趋丰富化、网络数据越来越巨量化,将所有数据卸载到云端势必导致严重的网络拥堵和过高的服务时延。移动边缘计算(MEC,mobile edge computing)作为一种新兴范式,将云计算的功能扩展到网络边缘,实现业务的就近服务,已成为缓解核心网络拥堵、提高用户服务质量的备选方案3。在上述背景下,将 ISAC 网络架构与 MEC 架构有机结合,在网络节点实现感知与通信功能的同时,系统设备也实现数据边缘处理的过程,未来网络节点朝着感知通信计算融合(ISCC

11、,integrated sensing,communication and computation)网络架构的方向发展4-6。目前,有关 ISCC 的工作主要集中在地面网络。然而,地面网络存在许多固有的局限性,如地面周围障碍物和散射物造成的信号阻塞,可用基础设施有限导致信号覆盖不完整,从而导致服务性能严重下降,甚至无法使用7。为有效提高感知、通信和计算的服务质量,凭借无人机(UAV,unmanned aerial vehicle)的高机动性与灵活性,将其部署为空中移动基站和雷达感知器已被视为一种克服地面ISCC 系统局限性的候补方案8。1)关于 UAV 辅助 MEC 的研究。为了应对复杂环境下

12、固定基站存在的局限性,文献9提出了一种UAV 中继辅助 MEC 网络方案,通过联合优化 UAV波束成形、计算资源频率、飞行轨迹、发射功率和用户计算资源分配,以最小化系统能耗。文献10考虑了多 UAV 环境下用户安全通信与安全计算性能,以最大限度地提高系统的平均计算能力。文献11将 UAV 辅助 MEC 的问题分解为区域划分优化问题和轨迹优化问题,从而减少 UAV 传输能耗和悬停能耗之和。文献12考虑了多 UAV 场景下数据卸载策略以及任务时隙划分问题,其目的是最小化每个时隙的系统能耗。文献13在优化 UAV 飞行轨迹的同时,联合优化了 UAV 与用户之间上行链路和下行链路的通信资源,最大限度地

13、为用户提供卸载机会。2)关于 ISCC 的研究。关于 MEC 辅助 ISAC的研究着重于资源调度和波束成形,通过有效的资源调度和波束成形设计,可以优化无线资源、保障通信链路质量,并提高计算任务的处理效率。该方法有助于加快感知数据采集速度,增强通信链路的可靠性,以及降低计算任务的时延与能耗,进而改善网络的整体性能。文献14提出了一种智能反射面辅助 ISCC 网络的节能设计方案,采用迭代算法对计算资源和通信资源进行联合优化。综合考虑总体性能最大化和发射功率最小化多目标问题,文献15分别提出了 2 种联合波束成形算法。在此基础上,文献16提出一个多目标优化问题,联合优化通信资源和计算资源分配的同时,

14、设计多终端下雷达波束成形,实现计算能耗最小化。文献17以系统最大吞吐量为目标,在满足异构资源需求的同时解决ISCC 无线资源调度问题。尽管上述工作对 MEC 辅助 ISAC 网络进行了深刻的研究,但关于 UAV 辅助ISCC 网络的资源调度和智能管理方面的研究鲜有关注。本文研究UAV辅助ISAC网络波束成形和资源优化问题,UAV 作为空中平台,在执行感知与通信的同时,对感知任务进行进一步分析和计算处理。本文工作目标是在保证 UAV 感知、通信和计算服务质量的同时,通过联合优化 UAV 飞行轨迹、波束成形以及计算效率来最小化系统能耗。本文主要工作如下。1)将 UAV 引入 ISAC 网络中,其中

15、,UAV 与多个地面用户通信,并在执行通信任务期间进行感知服务。此外,UAV 边缘服务器对感知任务进行计算处理。在该网络中,联合优化波束成形、用户与UAV 计算资源分配、飞行轨迹、任务卸载量,建立系统能耗最小化优化问题。2)提出一种基于近端策略优化(PPO,proximal policy optimization)算法的深度强化学习(DRL,deep reinforcement learning)方法,在满足雷达信息估计率、计算卸载时延以及资源分配约束条件下,通过 DRL 训练框架,求得该优化问题的解。通过230 通 信 学 报 第 44 卷 实验仿真结果验证本文算法在动态环境下所实现的性能。

16、1 系统模型及问题描述 UAV 辅助 ISCC 网络模型如图 1 所示。该网络由一架有M 根天线的 UAV 和 K 个单天线地面用户组成。其中,UAV 配有计算和存储资源以及雷达感知装置,在实现通信服务和目标感知的同时,为实时处理感知任务提供计算服务18。图 1 UAV 辅助 ISCC 网络模型 假设任务周期为T,将其离散成N个足够短的时隙,每个时隙的持续时间为nTN=,使 UAV 与用户的相对位置在单位时隙内保持近似不变,而在相邻时隙内则有所不同。为了便于表述和分析,定义用户与时隙的集合分别为1,kK?K和1,nN?N。本文采用三维笛卡儿坐标系,其中,用户k的位置固定在(,0)kkxy,(,

17、)kkkxy=q表示用户k的水平坐标,(,)x n y n H表示 UAV 在第n个时隙的坐标,(,)nx n y n=q表示 UAV 的水平坐标,H 表示 UAV 的固定飞行高度。相邻时隙内 UAV 的位移变化与飞行速度 nv和加速度 na有关,因此 UAV 的位移变化应满足 211 2nnnnnn+=+qqva (1)2max1 nnnv+qq(2)其中,maxv是 UAV 最大飞行速度。1.1 通信模型 考虑到现实环境中发射信号会受到建筑、树木等障碍物的影响,用户k和 UAV 之间的信道模型遵循瑞利衰减19,可表示为 01 11kkkkndnnn=+hhh?(3)其中,22 kkd nn

18、H=+qq表示在时隙n用户k与 UAV 的距离,2 表示路径损耗指数,0表示参考距离01 md=处的信道功率增益,表示莱斯因子,knh表示视线线路(LoS,line-of-sight)信道分量,kn?h表示非视距信道分量且服从均值为零、协 方 差 为 单 位 矩 阵 的 复 高 斯 分 布,即()0,kMn?CNhI。考虑 UAV 天线采用均匀线性阵列,则用户k到 UAV 的 LoS 分量为 Hj2cos(,)j2(1)cos(,)(,)1,e,ekkkkddnMnnn=qqqqha qq?(4)其中,(,)kna qq表示指向用户的转向矢量,和d分别表示载波波长和相邻两根天线之间的距离,(,

19、)kn qq表示用户k和 UAV 之间的角度。在时隙n中,UAV 接收信号 nx包括用户传输信号off nx和雷达感知信号rad nx,即 offrad nnnn=+xxxn(5)其中,1 MnCn为独立同分布的高斯随机噪声,其均值为零,方差为2。为了处理雷达感知信号rad nx,UAV 根据目标的先验知识生成一个对目标预测的雷达发射信号rad ns,UAV 信号接收机从接收的信号中减去rad ns,以减轻雷达信号引起的不必要的干扰,即目标被抑制的雷达返回信号 rn?s20。对雷达发射信号进行抑制后,UAV 接收到的雷达感知信号rad nx可表示为 rad rrrnnnn=?xHws(6)其中

20、,1 MrnCw表示雷达感知信号的波束成形矢量,M MrnCH表示雷达的目标响应矩阵。对于用户传输信号off nx,在单位时隙内,用户k向 UAV 发送的传输信号 knx可表示为 kkkknp nn s n=xh (7)其中,ks n表示时隙n中用户k的传输信号,kp n为用户k在时隙n的传输功率。因此,UAV 在时隙n接收到的用户传输信号off nx可表示为 第 9 期 李斌等:基于边缘计算的无人机通感融合网络波束成形与资源优化 231 off11 KKkkkkkknnp nn s n=xxh(8)UAV 接收到用户传输信号后,采用波束成形矢量 knw从接收信号中恢复用户k的信号。则恢复的用

21、户k的信号 knx为 HHH kkkkkkkrrrnnnp nnn s nnnnn=+xwxwhwHws?HH1,Kjkjjkjj kp nnn s nnn=+whwn(9)根据文献17,rn?s的方差为222rB,是雷达波形功率谱密度常数,2r表示预测雷达回波的方差,B 表示 UAV 信道带宽。因此用户k在第n个时隙传输信号的信噪比为 =kkknng nn(10)其中,kg n和 kn n分别表示在第n个时隙用户k的信号功率和噪声功率,其可分别表示为 2H kkkkg np nnn=wh(11)21,22222 Kjkjkkjjkrkkrrp nnnnnBnn nnn=+=whwwwHw(1

22、2)故用户k在第n个时隙的卸载速率为 ()lb 1kknR nB=+(13)1.2 感知模型 本文采用雷达信息估计率来衡量雷达的感知性能21。由于雷达照射在目标上的照度可视为目标被动地传递其参数信息。因此,可以将雷达估计信息率视为雷达与目标之间的互信息,即接收到的回波信号提供的关于目标参数的信息量。目标参数与接收回波之间的互信息越大,UAV 可以从目标处收集到的信息越多。利用串行干扰消除法将通信信号从观测波形中去除,从而得到无通信干扰的雷达回波信号。因此,UAV 在第n个时隙接收到的被抑制雷达回波信号的信噪比 rn可表示为 2222H2H rrrrBnnnnnn=cHwcc(14)其中,1 M

23、nCc表示线性有限脉冲响应滤波器。因此,在第n个时隙雷达信息估计率rad Rn为 ()rad lb 12 2rRnBn=+(15)其中,为雷达脉冲时长,为雷达占空比因子。1.3 计算模型 在第n个时隙开始时,用户k生成一个任务(,)kkkknL n C n T n=。kL n为生成的计算任务数据量,kC n为在用户k上处理每比特数据的周期数。为了简化分析,任务必须在一个时隙内完成。本文采取部分卸载策略,即根据卸载比例 kn将每个计算任务分成两部分,(1)kkn L n的数据量在本地计算,剩余 kkn L n数据卸载到UAV 进行计算。因此,在第n个时隙内,用户k的本地计算时延为 loc(1)k

24、kkkkn L n C ntnf n=(16)其中,kf n表示用户k在第n个时隙的计算频率。用户k将任务卸载到 UAV 的传输时延为 tr kkkkn L ntnR n=(17)UAV 执行用户k卸载的任务时所需要的计算时延可表示为 ee kkkkkn L n C nt nfn=(18)其中,e kfn为 UAV 在第n个时隙的处理速率。由于计算结果的数据量通常很小,相对于传输过程中的数据时延而言,计算结果的传输时延可以忽略不计。因此,为简化问题并提高系统的实时性,本文假设 UAV 返回结果的传输是即时完成的,以便更好地研究和优化UAV辅助ISCC网络的其他关键问题。综上,根据式(16)式(

25、18),在每个时隙内执行用户k生成的任务所需要的最大时延为 locetr max,kkkkt ntn t ntn=+(19)在每个时隙内,用户k的能耗 kE n包括本地计算能耗loc kEn和数据卸载能耗tr kEn,即 loctr kkkE nEnEn=+(20)其中,用户k的本地计算能耗loc kEn和数据卸载能耗tr kEn可分别表示为 loc21 (1)kkkkkEnfnn L n C n=(21)232 通 信 学 报 第 44 卷 tr kkkkkn L nEnp nR n=(22)同理,用户在每个时隙根据卸载比例将任务卸载至 UAV 上。UAV 对用户k卸载的任务进行的计算能耗e

26、 kE n可表示为 ()2ee2 kkkkkE nfnn L n C n=(23)其中,1和2分别为用户和 UAV 有效电容系数。在时隙n中,UAV 的飞行功率为 2fly12tip1242222003003 1 1421 2npnPUnnPvvdgAn=+vvvv(24)其中,1P为 UAV 叶片旋转功率,2P为 UAV 悬停功率,tipU为叶片尖端速度,0v为 UAV 悬停平均转子速度,0、A、0d和g分别表示空气密度、转子盘面积、机身阻力比和转子稳定度。因此,UAV 的飞行能耗 Eflyn可表示为 flyfly nEnpn=(25)根据式(23)和式(25),UAV 在每个时隙内的能耗U

27、 En为 eUfly1 KkkEnEnE n=+(26)1.4 问题建立 本文通过联合优化任务卸载比例,kn?,kn KN、UAV 计算资源分配e,ekfnf?,kn KN、UAV 飞行轨迹 ,nn?Nqq、用户计算资源分配,Kkf nkn f?KN和波束成形,knkn?KNWw,旨在最小化整个周期T 内的系统总能耗。故优化问题如式(27)所示 1U2,11emaxemax1maxmin s.t.C1:0 1,C2:0,C3:,C4:0,elNKknkkkeKkekkkEnE nnknfnfknfnfknf nfkn=+q W ffKNKNKNKN minradradmaxmaxmax2max

28、C5:,C6:,C7:0,C8:,C9:,C10:1,kkkktt nT nknRnRnp nPknnannvnq nq nvn +avKNNKNNNN(27)其中,1和2为权重因子,121+=;maxef和maxkf分别为 UAV 和用户的最大计算频率资源;minradR为最小雷达估计信息率;maxkP为用户最大传输功率;maxa为UAV 最大加速度;maxv为UAV 最大飞行速度。约束条件C1表示每个用户在时隙内的任务卸载比例,约束条件C2和C3分别限制 UAV 和用户的计算频率资源,约束条件C4表示UAV 计算资源分配,约束条件C5为任务时延约束,约束条件C6为 UAV 雷达感知约束,约

29、束条件C7限制了用户k的传输功率,约束条件C8C10限制了UAV 的飞行轨迹。由于目标函数的非凸性、场景动态性和任务多样性,传统的离线优化方法难以对其求解22-23。为了实现在线实时决策,本文采用 DRL 方法求解该问题。DRL 是一种自适应机器学习方法,它能够与环境进行交互、学习,最终得到一个可以部署在用户上的策略模型,从而根据当前状态进行实时决策,进而得到问题的满意解。2 优化问题求解 本节将式(27)表述成马尔可夫决策过程(MDP,Markov decision process)问题21,并通过 DRL 方法从训练环境中学习最优策略来解决 ISCC 中的能耗最小化问题。2.1 MDP 模

30、型 在本文场景中,UAV 不需要任何关于环境的先验信息,只能从环境状态中获取因果信息,因此本文模型中转移概率未知,可建模为无模型、无转移概率的马尔可夫决策过程21。在 MDP 中,智能体与动态环境不断交互以优化自身策略。例如,在时间步长n,环境处于某一状态ns,智能体执行动作na,环境以一定的概率转移到任一可行的后继状态1ns+中,智能体接收到奖励nr,随后n增加 1。智能体通过观察状态1ns+与奖励nr来调整自身策略,从而使积累奖励最大化。在此过程中,状态空间、动作空间和奖励函数是 3 个关键要素。第 9 期 李斌等:基于边缘计算的无人机通感融合网络波束成形与资源优化 233 1)状态空间

31、为了综合考虑ISCC中设备任务与UAV资源之间的特性,本文定义在时间步长n的状态空间ns可表示为 ,nsnnnn=qvLC(28)其中,nq表示当前UAV 的水平坐标,nv表示UAV的速度,1 ,kL nL nL n=?和1,nC n=C?kC n分别为用户任务数据量和任务所需的 CPU资源。2)动作空间 智能体根据状态空间ns输出动作na,并将动作映射为任务卸载比、UAV 资源分配、UAV 飞行轨迹和波束成形的优化变量。因此,该动作可以表示为 ,neanf nnn=wa(29)同时,为了最大限度地减少用户计算能量,本文根据动态电压频率调节技术,通过式(30)设置并估计 CPU 频率 max1

32、 min,kkkkkf nfL n C nt n=(30)3)奖励函数 智能体根据观察到的状态执行动作,并从环境中获得奖励,为了长期实现式(27)中的优化目标,并考虑约束条件的满足程度,本文设计了与系统能耗相似的奖励函数。奖励包含系统的能量消耗与违反时延约束和感知约束的惩罚,同时 UAV 的边界惩罚也考虑其中。因此本文设计的奖励函数nr为 radWT1U21 KnknnnkrEnE nPP P=+(31)其中,感知约束惩罚radnP和边界惩罚WnP为线性惩罚函数,时延约束惩罚TnP为指数惩罚函数,其可分别表示为 minradradminradrad=1+nRPRR(32)Wmax11 clip

33、(,0,)nPq nq nXv=+(33)()T1,1 2exp nkkkk Kkkk KkPP t n T n T nKt nT nKT n+=(34)其中,clip()为梯度裁剪函数,radR为平均信息估计率,+为向上取整。2.2 基于 PPO 的 DRL 训练框架 由于上述状态空间和动作空间都是连续的,本文采用 PPO 算法实现系统能耗的最小化。该算法不仅考虑新动作策略,还兼顾旧动作策略,通过设置一个新的目标函数,将动作值稳定在近端区间,从而使新的动作策略可以参照旧策略进行更新,同时具有动态决策的优势,可以快速决定模型优化方向,进而在实现系统能耗最小化的同时提高算法效率。基于 PPO 的

34、 DRL 训练框架如图 2 所示。图 2 基于 PPO 的 DRL 训练框架 PPO 算法采用动作评价(AC,actor-critic)结构,其中包含动作网络和评价网络,动作网络分为新旧 2 个部分,分别对应参数和old,评价网络参数为。动作网络根据状态ns输出动作na,并与环境交互;评价网络根据状态信息计算状态价值()nVs,可表示为 ,0()(|)nnlnsan ln llVsas+=ER(35)其中,为折扣因子,E表示期望值,()R表示关于状态和动作的奖励函数。为了评估动作na的性能,算法引入优势函数()nA s,即 234 通 信 学 报 第 44 卷 10()()()()lnnnnl

35、A srV sV s+=+(36)为保障策略更新的稳定性,式(36)采用广义优势估计(GAE,general advantage estimation)的形式,其中,01为 GAE 因子。随后,计算动作网络和评价网络 的目标函数,其可分别表示为 oldoldactor(|)()min(),(|)(|)clip,1,1()(|)nnnnnnnnnnasLA sasasA sas=+E (37)2critic1()()()nnLVsVs+=(38)其中,()和old()分别表示新、旧策略函数,为截断参数。为降低训练难度,在动作函数方面,本文引入具有剪切概率比的目标函数。用来决定新旧策略之间的差异。

36、最后根据式(37)和式(38)计算目标网络的梯度,通过梯度下降法对参数和进行更新,完成一轮迭代。算法 1 给出了基于 PPO 算法的 DRL训练算法伪代码。算法 1 基于 PPO 的 DRL 训练算法 输入 最大训练集Mel,每一个训练集的长度Ell,学习率,GAE 因子,截断参数,评价网络参数 输出 动作网络参数 1)初始化:评价网络参数,动作网络参数 2)for Me=1,ml?do 3)初始化:用户位置(,)kkxy,UAV 初始坐标0q,用户任务k,飞行高度H 4)for El=1,nl?do 5)从环境中获取状态ns 6)智能体根据状态ns做出决策,选择动作na 7)根据动作na计算

37、下一状态1ns+8)根据式(31)计算奖励nr 9)存储经验1(,)nnnns a r s+10)end for 11)for El=1,nl?do 12)根据式(36)计算()nA s 13)end for 14)根据式(37)和式(38)更新动作网络参数和评价网络参数 15)更新old 16)清理经验数据 17)end for 2.3 计算复杂度分析 本文方案中,算法 1 的复杂度以一次迭代中乘法计算次数来衡量24。在 DRL 框架中,智能体首先将观测到的状态值发送至多层感知器(MLP,multi-layer perceptron),MLP 由一个输入层、一个输出层和若干个隐藏层组成。每一

38、隐藏层的复杂度可表示为()11jjjjUUU U+,其中jU为第j层隐藏层神经元数量。由于输入层和输出层的乘法运算次数远少于隐藏层,可忽略其对复杂度的影响。因此,J层 MLP 的复杂度为()1112JjjjjjUUU U+=+。本文采用的动作网络和评价网络均由一个 MLP 组成。结合上述分析,可 以 得 到 算 法1的 总 复 杂 度 为()1Me El112JjjjjjllUUU U+=+。3 仿真结果与分析 3.1 参数设置 本节提供数据仿真以验证本文提出的基于PPO算法的UAV辅助ISCC网络对系统总能耗的影响,采用 Py-Torch 框架搭建仿真环境并分析所提方案的性能。考虑一个面积为

39、500 m 500 m的地面正方形区域,用户随机分布在该区域内,设置 UAV飞行高度为200 m。任务数据大小均匀分布在max0.5MB,L,其中,maxL默认为1.5MB,单位比特平均计算次数 500,1500 cycles/bitkC n,任务周期200sT=,时隙持续时间1sn=。若非特别说明,用户与 UAV 通信信道带宽设置为10 MHzB=,噪声功率2 和2r为65dBm,参考距离01md=处信道功率增益0为30 dB,莱斯因子4=,雷达波形功率谱密度常数、雷达脉冲时长 和雷达占空比因子分别为212、52 10s和0.01。同时,本文设置最小雷达估计信息率min3rad10 dBR=

40、,CPU有效电容系数12=2710,用户最大传输功率max0.5 WkP=,用户最大计算频率max1GHzkf=,第 9 期 李斌等:基于边缘计算的无人机通感融合网络波束成形与资源优化 235 UAV 最大计算频率max10 GHzef=。此外,在与无人机飞行相关的参数设置中,其最大飞行速度和加速 度 分 别 为20 m/s和25 m/s,叶 片 旋 转 功 率179.07 WP=,悬停功率279.07 WP=,叶片尖端速度tip120 m/sU=,悬停平均转子速度03.6 m/sv=,转子盘面积20.5030 mA=和转子稳定度0.05g=。PPO 算法相关的训练参数如表 1 所示。表 1

41、PPO 训练参数 参数 数值 最大训练集Mel/episode 300 每一个训练集的长度Ell/step 200 学习率 0.0005 折扣因子 0.98 截断参数 0.2 GAE 因子 0.95 隐藏层大小 64 和 128 优化器 Adam 为了验证基于 PPO 算法的性能,本文将其与以下基准算法进行比较。1)优势动作评论(A2C,advantage actor critic)算法。A2C 算法是一种将优势函数引入 AC 结构中的同策略算法,A2C 算法用优势函数代替评价网络中的原始回报,作为衡量所选动作与所有动作平均值好坏的指标。2)深度确定性策略梯度(DDPG,deep deter-

42、ministic policy gradient)算法。DDPG 算法为异策略 DRL 算法,该算法直接输出动作向量而不是概率分布,这需要一个较大的重放缓冲区来学习动作价值函数。3.2 仿真评估 设置用户数量10K=,UAV 天线数4M=,PPO 算法的收敛性如图 3 所示,从图 3 可以看出,随着训练步数的增加,所提方案的奖励也逐渐上升,强化学习智能体可以显著提升每一训练步奖励值,这证实了 PPO 算法在计算卸载方面的有效性。使用 Py-Torch 收集训练 60 000 步的结果,每个结果为一个回合内的奖励值之和,随着训练步数的增加,智能体在通信、感知和计算方面的策略逐渐优化,收敛性曲线的

43、振荡有明显渐弱的趋势,最终算法能获得较为稳定的奖励值。为了验证学习率对算法收敛性的影响,本文还比较了不同学习率下奖励值的收敛曲线。从图3可以看出,当学习率为48 10时,奖励值曲线在 3 000 步左右实现收敛;当学习率为58 10时,曲线在 10 000 步左右收敛;当学习率分别为45 10和42 10时,曲线收敛性介于两者之间。虽然不同的学习率对收敛性有一定影响,但当 4 条曲线均达到收敛后,可以看到所得到的奖励值相差不大且处于较为稳定的区间内,由此说明,学习率对本文 PPO 算法的收敛速度具有一定影响,但对于性能的影响较小。图 3 PPO 算法的收敛性 不同算法的奖励收敛性比较如图 4

44、所示。从图 4可以看出,本文所提 PPO 算法比 A2C算法和 DDPG算法收敛更快,总体上获得了更高的奖励。另一方面,从图 4 中可以观察到,DDPG 算法在早期很难提高奖励,其训练过程相对于基于策略网络的 PPO算法和 A2C 算法更加曲折。这是因为 DDPG 算法使用确定性动作输出而不是分布式的动作输出,这限制了其在动作空间的探索能力,导致其收敛困难且复杂。图 4 不同算法的奖励收敛性比较 236 通 信 学 报 第 44 卷 图 5 比较了不同算法或卸载策略在不同用户数量下的系统加权能耗变化情况。整体而言,本文所提 PPO 算法在 ISCC 网络中表现最好,而DDPG 算法在系统加权能

45、耗方面与基于策略网络的算法差距较大,尤其当用户数量增加、趋于密集时,采用 DDPG 算法执行整个周期的 ISCC任务所需能耗是基于 PPO 算法的近 2 倍。此外,与所提算法相比,无论是采用任务全部卸载策略还是用户随机卸载策略,产生的加权能耗都高于本文采用卸载因子进行部分卸载决策的加权能耗,这证明在联合优化中考虑卸载因子可以在减少系统能耗方面获得更好的性能。此外,从图 5 可以看出,相邻用户数量之间的加权能耗也有增大的趋势。这是因为当越来越多的用户接入网络时,用户之间的信号干扰增加,传输速率降低,进而提高传输成本,从而使用户卸载至 UAV的任务量减少,本地计算任务量增加,用户需要更多的计算资源

46、来处理任务,导致系统能耗不断增加。图 5 不同用户数量下的系统加权能耗变化情况 不同的用户数量下 UAV 飞行轨迹的变化情况如图 6 所示。从图 6 可以看出,UAV 能够选择用户较多的区域,并且能够根据用户的分布情况自适应地更新其位置。同时,这也意味着奖励可以引导 UAV 找到用户分布相对公平的区域,然后采取悬停或缓慢移动的策略以节省飞行能耗。相较于文献8中简单地控制方向和速度,本文 UAV 飞行轨迹相对平滑,适用于 UAV 的实际运动,这体现了本文算法在 UAV 飞行轨迹设计中的有效性。图 6 不同用户数量下 UAV 飞行轨迹的变化情况 4 结束语 本文研究了无人机辅助通感算融合网络波束成

47、形和资源优化问题。为了最小化系统总能耗,本文联合优化波束成形、任务卸载比、用户和无人机计算资源分配和无人机飞行轨迹,并提出了一种基于 PPO 的资源分配与策略优化算法。仿真结果表明,训练得到的智能体能以较低的复杂度生成资源分配与策略优化。同时,与基准算法相比,本文算法能显著降低系统能耗。未来的工作将考虑用户移动环境下 ISCC 网络资源分配与优化决策问题。参考文献:1 LETAIEF K B,SHI Y M,LU J M,et al.Edge artificial intelligence for 6G:vision,enabling technologies,and applications

48、J.IEEE Journal on Selected Areas in Communications,2021,40(1):5-36.2 ZHOU Y,LIU L,WANG L,et al.Service-aware 6G:an intelligent and open network based on the convergence of communication,computing and cachingJ.Digital Communications and Networks,2020,6(3):253-260.3 LIU Y Q,PENG M G,SHOU G C,et al.Tow

49、ard edge intelligence:multiaccess edge computing for 5G and Internet of thingsJ.IEEE In-ternet of Things Journal,2020,7(8):6722-6747.4 CHENG K J,FANG X M,WANG X B.Optimized resource allocation and time partitioning for integrated communication,sensing,and edge computing networkJ.Computer Communicati

50、ons,2022,194:240-249.5 WANG Z L,MU X D,LIU Y W,et al.NOMA-aided joint communi-cation,sensing,and multi-tier computing systemsJ.IEEE Journal on Selected Areas in Communications,2023,41(3):574-588.第 9 期 李斌等:基于边缘计算的无人机通感融合网络波束成形与资源优化 237 李斌(1987),男,山东济宁人,博士,南京信息工程大学副教授、硕士生导师,主要研究方向为无人机通信、移动边缘计算等。彭思聪(20

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服