基于多智能体强化学习的多无人机边缘计算任务卸载.pdf

资源描述

1、书书书年无线电工程第卷第期：引用格式：李斌基于多智能体强化学习的多无人机边缘计算任务卸载无线电工程，（）：，（）：基于多智能体强化学习的多无人机边缘计算任务卸载李斌，（南京信息工程大学计算机学院，江苏南京；南京信息工程大学江苏省大气环境与装备技术协同创新中心，江苏南京）摘要：研究了一种多无人机辅助移动边缘计算（，）任务卸载方案，通过联合优化任务划分、卸载关联、无人机轨迹和资源分配，实现系统能耗最小化。由于计算任务生成的随机性和用户移动的不可预测性，该问题不仅是一个非凸整数规划问题，更是一个需要实时决策、长期考虑的目标优化问题，传统离线算法难以求解。提出一种基于多智能体强

2、化学习（，）的任务卸载方法，采用集中式训练分布式执行架构，根据网络状态的观测做出实时决策。将问题建模为马尔科夫决策模型，基于多智能体近端策略优化算法进行训练，通过不断学习以优化自身策略。针对网络，使用分布改进其策略分布的采样，以适应有界的混合动作空间，引入注意力机制以提升状态值函数的拟合性能，加速算法收敛。仿真结果表明，相比基准方案，所提方法收敛速度提升了，用户与无人机的加权能耗降低了。关键词：移动边缘计算；无人机通信；任务卸载；多智能体深度强化学习中图分类号：文献标志码：开放科学（资源服务）标识码（）：文章编号：（），（，；（），）：（），（），：；收稿日期：基金项目：国家自然科学

3、基金（）；江苏省自然科学基金（）：（）；（）专家视点引言移动边缘计算（，）技术能有效缓解资源受限设备执行密集型应用的压力，可提高网络的应用体验。在临时部署通信服务的偏远地区或聚集活动热点地区等通信条件较差的场景，地面固定式通信设施难以提供较好的服务。利用无人机（）高机动性、易部署和立体式增强覆盖等优势，将与相融合可以提供泛在的接入服务和高质量的计算服务。如今，辅助网络成为了学术界和工业界的研究热点，然而各类参数及用户服务需求时刻发生着变化。深度强化学习（，）作为人工智能的一种新兴技术，通过与环境不断交互学习、积累经验，从而寻求最优策略。相较于离线求解及迭代算法，采用经过训

4、练的策略能实时地求解系统的能耗与时延等优化问题。为了适应动态变化的网络状态与环境，结合方法能够实时进行决策的优势，研究人员提出了一系列高效的资源管控优化算法。针对两层网络架构，文献结合深度网络（，）与深度确定性策略梯度（，），设计了一种训练框架，以优化轨迹与虚拟机配置，进而有效地降低系统时延。文献利用智能反射面的通信辅助能力，使用与双深度网络（，）协同优化网络资源以提高边缘计算的能效。为提升移动用户群组的服务体验，文献通过聚类算法设计动态部署，并采用方法优化服务关联，从而降低了系统能耗。文献考虑了多任务调度问题，根据信道状态、任务请求等信息以最小化加权信息年龄，设计了一种基于近端策略优化（，

5、）的算法。然而，、和等单智能体算法不能很好地应对当网络规模较大时所带来的状态空间及动作空间维数过高的问题。在实际场景中，多个移动用户（，）和多个边缘服务器通常部署在不同的位置，易于利用分布式算法进行训练与决策。同时，多智能体强化学习（，）方法能较好地适应的分布式结构。相比于单智能体，能够减小状态空间与动作空间，并可高效地做出决策。鉴于此，文献面向多边缘计算，利用方法较好地解决了负载均衡问题。文献利用多智能体确定性深度策略梯度（，）方法实时优化多轨迹，最大化计算服务的公平性。文献面向多网络中的隐私问题，利用多智能体联邦学习进行分布式训练，达到了与接近的效果。虽然上述工作应用了的分布式结构，但尚未

6、充分利用不同设备的功能，缺乏多类型设备、异构智能体协作优化服务的研究。同时，上述工作存在服务质量不稳定、算法训练速度慢和轨迹曲折难以实现等问题。基于此，本文考虑到任务分布式卸载的特点，采用多智能体近端策略优化（，）方法，并在算法引入了分布以及注意力机制以提升算法的性能，加快算法的收敛速度，从而有效降低服务的开销。本文的主要工作有如下三方面：研究了多架辅助的系统模型，综合考虑的移动性、任务生成的随机性和多之间的安全距离，建立了和的加权能耗最小化问题。该问题具有高动态特征，对优化实时性和规模扩展性提出了更高的要求。设计了一种异构方法，通过构建含有种智能体的系统，基于算法训练和协同完成卸载决策与资源

7、分配。该分布式决策方法能分解较大的环境状态与动作空间，并将决策能力下沉到各类设备，提高算法的可扩展性。在网络输出层使用分布以提高动作的探索效率和采样性能，并向网络中引入注意力机制以提高方法的值函数拟合性能。提出了基于的能耗最小化任务卸载方法（，），该方法具有较快的收敛性，且系统性能优于基准方法。系统模型及问题描述本文考虑一种多辅助的系统模型，如图所示。在该系统中，需要将产生的计算任务卸载到边缘服务器进行计算。此系统模型有个地面控制中心，架搭载边缘服务器的为个提供任务卸载服务。为便于表达和分析，定义的集合为，集合为，。此外，地面控制中心需要借助收集通信链路信道信息、的服务需专家视点年无线电工

8、程第卷第期求等系统状态，进而对边缘网络进行即时管控。假设的飞行周期为，将其等分为个时隙且时隙长度足够小，记时隙集合为，。采用时间离散的方法来表示和的三维轨迹坐标，即的位置为，为飞行高度，的位置为，。在每个时隙内位移的变化与飞行的加速度与速度有关，且之间需保持安全距离避免碰撞，因此其位移与位置须满足以下约束：，：，：，：，（）式中：为的最大加速度，为最大飞行速度，为之间的最小安全距离。图系统模型假设初始随机分布，且按照模型随机移动。在时隙内，的速度大小和移动的方向角度可表示为：（）槡，（）（）槡，（）式中：和为的平均速度大小和平均方向角度，、为前一时隙的影响程度大小，和分别遵循均值

9、及方差为（，）和（，）的分布。由此，的坐标更新如下：（），（）（）。（）计算模型在时隙开始时，每个产生一个计算任务（，），并且需在内完成计算，其中为计算任务量，为处理单位比特数据所需的周期数。本文采用部分卸载模式，则数据量大小为（）的任务在本地计算，数据量大小为的任务在边缘服务器计算，其中为任务划分系数。记，为的卸载决策因子，若，表示任务在本地计算，表示将任务卸载到进行计算，满足下述约束：，：，。（）本地计算：为了充分利用有限的计算资源并最小化能耗开销，本地计算将采用动态电压频率缩放技术以给出计算频率。在最大计算频率限制下，本地计算频率可表示为：（），（）式中：为的最大计算频率。进而可以得到

10、本地计算时延为（），而本地计算需满足的时延约束为：，。（）边缘计算：可以将自身计算任务卸载至所关联边缘服务器进行处理，具体过程如下：首先，需要分配通信信道的带宽资源以接收来自的任务数据。考虑到大尺度衰落和小尺度衰落，则在时隙内和之间的信道增益可表示为：，槇，（）式中：为单位距离的信道功率增益，槇，为瑞利衰落信道系数，服从均值为、方差为的复高斯分布。为避免多个在卸载计算任务过程中相互之间的通信干扰，本文采用频分多址技术。记，为时隙内分配给的带宽比例，则和之间的任务卸载速率可表示为：，()，（）式中：为网络总带宽，为的发射功率，为信道的噪声功率。则的任务卸载速率为，。带宽分配变量需满足如下约束：，

11、。（）当请求将任务卸载至之后，需分配其计算资源，完成任务的处理。记可用的计算频率为，在时隙内为分配的计算资源为，。由此，其满足约束：专家视点：，。（）因此，到的任务卸载时延为，边缘端的计算时延可以表示为，。由于计算出的结果数据量通常较小，且下行链路通常具有较高的传输速率，因此计算结果的回传时延可以忽略。于是，边缘端任务计算时延需要满足的约束为：，。（）综上所述，的任务计算时延需满足的约束可以表示为：，。（）式中：，为带宽分配系数，为带宽，为噪声功率。能耗模型定义和服务器上的有效电容系数为，则的计算能耗和传输能耗分别为：（），（）。（）由上述分析可知，在时隙内，的总能耗为：。（）根据文献，在

12、时隙内的飞行能耗可表示为：()槡()，（）式中：为悬停状态下型阻功率，为悬停状态下的诱导功率，为悬停下的平均旋翼诱导速度，为机身阻力比，为总叶片面积与叶片扫过面积之比，为空气密度，为叶片扫过的面积。的计算能耗为：（，）。（）优化问题描述在计算任务卸载过程中，由于能耗相比于总能耗较小，因此考虑和能耗的加权和用以反映和之间的能耗相对重要性。本文的目标是联合优化与的关联因子，任务划分系数，带宽分配变量，计算资源分配，飞行轨迹，并在任务时延的约束下，最小化所有和加权能耗开销。具体优化问题建模如下：，()：，：，：，：，：，：，：，：，：，：，：，：，：?，?，()?（），（）专家视点年无线电工程

13、第卷第期式中：、为能耗权重因子，?（）为指示函数，当条件（）为真时值为，否则值为；约束条件表示的飞行轨迹，约束条件表示卸载关联因子取值，约束条件表示每个至多选择一个卸载，约束条件表示带宽资源与计算资源分配限制，约束条件为任务的时延约束，约束条件限制了任务划分系数的范围，约束条件限制了划分给的资源，保证了资源分配的有效性，避免不进行任务卸载的用户空占计算资源。由于的随机移动性、卸载关联的离散性以及非凸约束，上述问题不仅仅是一个多变量耦合的非凸组合优化问题，更是一个需要实时决策的优化问题。作为一种自适应的机器学习方法，可以从环境中不断采样学习，并训练得到能部署在设备上的深度策略模型，

14、从而根据当前状态，做出符合长期效益的实时决策，因此适应于所研究的任务卸载场景。基于的优化问题求解模型问题（）需要联合优化多个以及多个的决策信息，并且以及在服务过程上存在协作关系，在计算和通信资源上存在竞争关系。考虑到该问题具有分布式特征，可将其建模为由多个智能体构成的模型。根据决策变量与目标函数的相关性以及部署位置的差异，将作为一种智能体，将分解为种智能体：资源分配智能体与轨迹优化智能体，因此所提出的模型共有种智能体参与。令智能体集合为，状态空间为，动作空间为。具体而言，在时间步，智能体可以从全局环境状态（）（），中获得当前观测（），采取动作（），然后获得奖励（），环境转移到新的状态（）。的

15、基础要素表述如下：智能体：的基本要素包括观测（）、动作（）和奖励（），具体如下：观测：可获得自身的位置信息，生成任务信息。考虑到隐私限制，通常无法直接获取其他的状态信息。作为服务提供者，的状态信息（例如，位置信息，上一时隙服务的用户数目，）对可以开放访问。令一个时间步对应一个时隙，因此，在时间步，的观测为：（），。（）动作：的决策涉及卸载关联和任务划分系数，每个需要选择关联的，决定其任务划分系数。因此智能体的动作由下式给出：（），。（）奖励：从协作性角度，的能耗负担需要为所有关联的所知。从针对性角度，需要考虑每个自身能耗开销对总加权能耗的贡献，以及自身不满足时延要求的惩罚。因此，每个的奖励应该

16、综合考虑本身和所关联的能耗，每个的奖励由下式给出：（），（，），（）式中：为所关联的。不满足时延要求时的惩罚函数为：（，）（，）（，），（）式中：为惩罚系数。资源分配智能体：每个需要在给出卸载关联因子及卸载量后做出决策。因此，其基本要素表述如下观测：可以观测自身位置、所有的位置以及所关联的任务信息。对于未与之关联的，观察到的任务信息置为。定义为集合中的补集，因此可以得到资源分配智能体的观测如下：（），。（）动作：收到请求后，需要根据用户任务请求、位置等信息分配带宽和计算资源。因此，资源分配智能体的动作为：（），。（）奖励：接收的计算任务后，从环境中获得奖励。作为服务提供者，每个的奖励需要考

17、虑自身开销和所服务的的能耗，在未满足用户时延需求时需要给出一定的惩罚，可以设计得到奖励函数如下：专家视点（），（，），（）式中：表示所关联的集合。轨迹优化智能体：已经获取了有价值的状态信息，轨迹优化智能体与资源分配智能体可以共享观测，即（）（）。其动作与奖励如下：动作：轨迹优化智能体需要给出的移动状态，通过水平加速度变量控制轨迹变化，其动作为：（）。（）奖励：为获得优化效果更好的轨迹，可通过设计更加具有反馈意义的奖励函数，进而提高动作与目标函数的相关性。当无人机尝试飞出服务范围时，需要给出一定惩罚，因此该种智能体的奖励可设置为：（），（），（）式中：，表示与在时隙的水平距离。上式反映了各个与

18、所服务的当前移动平均距离的最大值，以尽可能兼顾到所服务的，并促使共同协作，且试图飞出宽度为的正方形服务区域时给出的惩罚函数为：（）（，），（）式中：为惩罚系数。假设当智能体输出的动作会导致飞出边界或发生碰撞时，该动作无效，将会保持在当前位置。基于的任务卸载算法与基于值的方法不同，是一种基于策略的方法，每个智能体由网络、网络和经验缓存区组成，能通过作为策略的网络直接输出动作得到决策变量，因此和可以将预训练的网络部署到本地，并行地进行分布式决策。采用集中式训练分布式执行（，）训练框架，对于每种智能体而言，网络用于拟合全局状态价值函数以评估环境状态，根据智能体的局部观测输出动作，得到决策。具体流程如

19、下：首先，智能体将观察到的（）输入到网络，进而获取到（）和（），并将经验存储到缓冲区中。在训练过程中，智能体反复与环境交互，从而采样得到一批经验（），（），（），（），。在一个回合（）结束后，利用收集到的经验，地面控制中心进行集中式训练，以优化智能体的和网络。在每次更新中，网络和网络分别根据经验数据计算策略和全局状态值函数的损失值，用于更新网络参数。智能体的网络损失函数通过下式计算：（）（）（）（）（）（），（）（）（）（），()（）（），（）式中：和分别表示旧策略和当前策略，（）表示观测为（）时的动作熵，在训练阶段增加探索性以避免陷入局部最优；是平衡探索与利用的超参数。为权衡策略梯度的偏差与

20、方差，对（）使用广义优势估计（，），计算如下：（）?（）（）（）（），（）式中：为折扣因子，为的参数，（）?（）为目标状态价值。定义（）为智能体的网络所拟合的状态价值，其损失由下式给出：（）（）（），（）式中：为网络的参数。因此，网络和网络分别根据式（）和式（）更新。训练框架本文所提出的训练框架如图所示，和根据其智能体的网络所给出的动作执行任务卸载，与地面控制中心同步收集状态、动作等经验组成部分以及系统状态。随后，地面控制中心通过各智能体的观测获得全局环境状态，计算奖励值，将经验存入智能体的缓冲区，并获得预测值。在更新网络和网络后，网络的参数被下载到和。专家视点年无线电工程第卷第期

21、图算法训练框架为了充分挖掘的性能，并加速其收敛，本文在训练中引入了分布和注意力机制，具体方式如下：基于分布策略的网络：场景中的决策变量通常是连续且有界的，因此智能体输出的动作应尽可能满足此条件。由于分布无界，通过强制截断输出动作的越界值将会导致边界效应，将不可避免地引入策略梯度的估计偏差。为了缓解分布策略的边界效应影响，本文在策略网络的输出层使用分布替换分布。概率分布密度由下式给出：（，）（）（）（）（），（）式中：（）为函数，和为分布的参数。式（）有界，可以减小截断分布带来的策略梯度估计误差，因此适合对有界动作进行采样。具有注意力机制的网络：对于简单全连接层的网络而言，大量的状态输入会导

22、致所需的模型复杂度快速升高，从而导致网络的收敛缓慢或者难以收敛，对网络的动作造成消极影响。本文在网络的多层感知器（，）之前引入了多头注意力单元，以提高模型训练的收敛性能。对于同种类型智能体的网络，首先接受所有智能体的观测向量，将每种智能体的观测向量分别通过和的状态编码器，获得特征值。然后将所有智能体的特征值作为、输入其多头注意力单元，以获得各注意力值，具体计算如下：，槡()，（），（）式中：是另一个智能体的特征值，是的方差。矩阵将变换为键（），矩阵将变换为值（），矩阵将变换为查询（）。将和（）输入到末端的以获得所拟合的状态值（）。基于上述讨论，本文建立了的训练框架，其算法实现过程如算法所示。算

23、法基于训练框架的联合优化算法输入：最大回合数，回合长度，更新次数，折扣因子，截断因子，参数输出：训练后各智能体的网络与网络初始化各类神经网络模型参数，设置，构建训练环境；，智能体从环境中获得观测（），；执行动作（），；资源分配智能体和轨迹优化智能体从环境中获得观测（），（），；地面控制中心收集系统状态与经验信息，评估奖励（），；将经验（）（），（），（），（），放入地面控制中心经验缓存区中；重置训练环境；专家视点；，根据式（）更新网络参数根据式（）更新网络参数；仿真结果与分析本节首先对实验平台及实验参数进行简单说明，然后验证了所提算法的收敛性。在此基础上，针对不同的网络资源状况与场景进行

24、了详细的性能实验与评估，并与基线算法进行了对比分析。参数设置本实验的仿真环境使用与进行编写。本实验中设置的默认用户数量为，无人机数量为，总带宽为，任务量大小，单位比特平均计算量大小，时延约束，权重因子设置为，。对于所提算法，各种智能体的策略共享网络参数，使用计算优势函数；考虑到奖励值有界，不使用值归一化方法。其余实验参数与算法参数结合文献，进行设置，如表所示。表相关参数设置环境参数取值环境参数取值周期长度电容系数每个周期的时隙数平均移动速度（）服务区域大小传输功率最大飞行速度（）最大计算频率最大加速度（）信道噪声功率飞行高度惩罚系数、安全距离性能参数，可用计算资源性能参数

25、，为评价方法中各智能体奖励的收敛性，种基准算法描述如下：该方法为不使用分布注意力机制改进方法的原始算法，其奖励函数、动作和状态空间与所提算法相同。（）：该方法与都是目前较为主流和可靠的算法。它由双网络与双网络构成，其中网络的输出即为动作值，之后加以一定探索噪声，用于拟合动作值函数。数值分析本文对比了智能体和资源分配智能体如图和图所示。从图可以看出，对于智能体，所提方法于步左右收敛，收敛速度最快；方法于步左右收敛，而方法收敛最慢，过程较为曲折，且所提算法获得的奖励最高，次之，最低。由此可以推断出，注意力机制能使在评价状态时关注更利于自身卸载的，加速了算法的收敛性。此外，探索策略的不足导致其收敛较

26、慢或局部最优收敛。从图可以观察到，所提算法在初期探索阶段前步的奖励上升速度略快，在步出现收敛，最后得到的奖励在左右。此外，可以看出在资源分配智能体的训练上，所提方法与方法训练速度仍然高于。由此可见，基于的方法探索环境的效率更高，且分布能依据自身特性进一步提升探索学习这一过程的速度与性能。图智能体奖励值收敛性专家视点年无线电工程第卷第期图资源分配智能体奖励值收敛性图展示了的飞行轨迹情况。可以观察到，当起点随机分布在区域内时，能够保持在用户密集区提供服务，通过快速移动以尽可能顾及到更多的用户，当所服务用户在某一区域内时，通过盘旋以保持速率。为此，采用加速度作为决策变量能使轨迹

27、平滑，更能应用于实际场景，轨迹优化智能体学习到了一定的相互协作能力，通过部署到各个区域在空间上分配计算资源，提高的服务质量。图飞行轨迹情况图对比了种算法在不同任务量大小下的性能。任务量大小从增大至时，所提方法的平均加权能耗最低，在，随机算法最高，在。相比于和，所提算法用户平均加权能耗分别降低了和，相对于随机算法降低了以上。由此可见，搜索到的策略优于。这验证了分布与注意力机制的使用能够提升算法搜索到的策略质量，从而进一步提升的服务质量。图不同任务量下算法性能对比结束语本文提出了一种的无人机辅助任务卸载方法，以降低移动用户与无人机的总能耗，提高边缘计算网络的可靠性。特别地，利用方

28、法解决了集中式执行的算法不适于应对分布式、具有连续变量和离散变量的混合动作空间的难点，提出了针对不同智能体的特性进行奖励值设计，并将分布与注意力机制引入方法以提升探索能力与收敛性能。进行了仿真实验，将与其他基准方法进行了对比，并分析了所提方法的性能。实验结果表明，方法能够有效降低移动用户与无人机的加权能耗，验证了本文方法的有效性。未来工作将考虑多无人机协作与地面基站相结合的多层次边缘计算网络，设计无人机的飞行轨迹和协同计算卸载策略，以取得更好的系统性能。?参考文献，：，（）：李斌，徐天成终端直通辅助的移动边缘计算任务动态卸载方案无线电工程，（）：邝祝芳，陈清林，李林峰，等基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法计算机学报，（）：专家视点，：，（）：，：，（）：李斌，刘文帅，费泽松面向空天地异构网络的边缘计算部分任务卸载策略电子与信息学报，（）：，（）：，（）：，（）：，（）：，（）：，（）：，（）：，：，（）：，（）：，（）：，（）：，（）：，（）：，：，：，（）：，（）：作者简介李斌男，（），博士，教授。主要研究方向：无人机通信、边缘计算等。专家视点

展开阅读全文