移动边缘计算中智能服务编排和算网资源分配联合优化方法.pdf

资源描述

1、2023 年 7 月 Journal on Communications July 2023 第 44 卷第 7 期通信学报 Vol.44 No.7移动边缘计算中智能服务编排和算网资源分配联合优化方法李云1,2，高倩1，姚枝秀1，夏士超2，梁吉申1,3（1.重庆邮电大学通信与信息工程学院，重庆 400065；2.重庆邮电大学软件工程学院，重庆 400065；3.陆军工程大学通信士官学校，重庆 400035）摘要：为了解决边缘网络环境中由于业务差异化、网络环境高度动态化以及算网资源部署去中心化造成的网络服务缓存和算网资源分配效率低等问题，研究并建立了一种去中心化的移动边缘计算服务编排

2、和计算卸载模型；并在算力、存储、带宽等多维资源约束下，以最小化任务处理时延为目标，将服务缓存和算网资源分配联合优化问题抽象为部分可观测马尔可夫决策过程；考虑到服务请求时间依赖性及其与服务缓存间的耦合关系，引入长短时记忆网络来捕获时间相关的网络状态信息，进而提出基于循环多智能体深度强化学习的分布式服务编排和资源分配算法以自主决策服务缓存和算网资源分配策略。仿真结果表明，所提算法在缓存命中率、任务处理时延等方面具有显著的性能提升。关键词：边缘智能；多智能体；资源分配；计算卸载；服务编排中图分类号：TN92 文献标志码：A DOI:10.11959/j.issn.1000436x.2023125

3、Joint optimization method of intelligent service arrangement and computing-networking resource allocation for MEC LI Yun1,2,GAO Qian1,YAO Zhixiu1,XIA Shichao2,LIANG Jishen1,3 1.School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,C

4、hina 2.School of Software Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China 3.Communication NCO Academy,Army Engineering University of PLA,Chongqing 400035,China Abstract:To solve the problems of low efficiency of network service caching and computing-networking

5、 resource allo-cation caused by tasks differentiation,highly dynamic network environment,and decentralized computing-networking resource deployment in edge networks,a decentralized service arrangement and computing offloading model for mobile edge computing was investigated and established.Consideri

6、ng the multidimensional resource constraints,e.g.,computing power,storage,and bandwidth,with the objective of minimizing task processing latency,the joint optimization of service caching and computing-networking resource allocation was abstracted as a partially observable Markov decision process.Con

7、-sidering the temporal dependency of service request and its coupling relationship with service caching,a long short-term memo-ry network was introduced to capture time-related network state information.Then,based on recurrent multi-agent deep rein-forcement learning,a distributed service arrangemen

8、t and resource allocation algorithm was proposed to autonomously decide service caching and computing-networking resource allocation strategies.Simulation results demonstrate that significant per-formance improvements in terms of cache hit rate and task processing latency achieved by the proposed al

9、gorithm.Keywords:edge intelligence,multi agent,resource allocation,computing offloading,service arrangement 收稿日期：20230227；修回日期：20230512 通信作者：夏士超，基金项目：国家自然科学基金资助项目（No.62071077,No.62221005）；中国博士后科学基金资助项目（No.2023MD734137）；重庆市自然科学基金资助项目（No.2022NSCQ-LZX0191）Foundation Items:The National Natural Science

10、Foundation of China(No.62071077,No.62221005),China Postdoctoral ScienceFoundation(No.2023MD734137),The Natural Science Foundation of Chongqing(No.2022NSCQ-LZX0191)52 通信学报第 44 卷 0 引言随着物联网的迅猛发展和智能移动终端的爆炸式增长，以大数据和智能化为特点的新型应用（如在线游戏、虚拟/增强现实、远程医疗等）不断涌现。受限于移动设备有限的体积、算力、存储和电池容量等，移动终端在处理时延敏感型和计算密集型业务时，通

11、常存在时延高、能耗高等问题1。为了实现网络边缘的超大容量、超低时延、超高带宽和超低能耗处理愿景，移动边缘计算（MEC,mobile edge computing）作为一种先进的计算范式被提出并迅速得到广泛研究2-3。移动边缘计算通过将传统云中心的算力、存储等资源下沉到网络边缘，并驱动用户将计算任务卸载到网络边缘进行处理，以获得高性能的计算服务体验4-5。MEC 中算网资源分配是影响用户时延和能耗的关键因素。在 MEC 任务卸载和资源分配研究方面，文献6针对蜂窝端到端（D2D,device to device）MEC 系统中的计算卸载和资源分配问题，设计了一种联合任务管理架构，并提出了一种启发式

12、算法实现了任务执行成本的最小化。文献7针对多用户MEC 场景，以最小化任务的处理成本为目标，联合优化服务缓存、计算卸载和资源分配，提出了基于半定松弛和交替优化的近似算法。文献8基于马尔可夫博弈理论建立了任务卸载和资源分配的联合优化问题，并提出了一种分布式的任务卸载算法以获得最优任务卸载和资源分配策略。类似地，文献9研究了无人机辅助的 MEC 卸载问题，联合优化了缓存、卸载、资源分配和无人机放置，保证了网络设备和无人机时延需求。然而，上述文献大都采用传统的优化方法对任务卸载和资源分配问题进行求解，不仅难以在多项式时间复杂度内获得最优的问题策略，而且通常存在“维数灾难”等问题，性能无法得到保证10

13、。此外，传统的优化方法通常需要精确的网络模型，使模型扩展性差，无法适应动态变化的MEC系统环境。深度强化学习（DRL,deep reinforcement learning）结合了深度学习的感知能力和强化学习的决策能力，可以有效处理网络环境高度动态场景下的决策问题。文献11针对蜂窝车联网通信，设计了 DRL 增强的传输模式选择和资源分配方法，以满足车辆的低时延和高可靠性需求。文献12针对 MEC 车载网络中计算密集型和时延敏感型应用的计算和传输资源分配问题，设计了基于深度确定性策略梯度（DDPG,deep deterministic policy gradient）的资源分配方法，实现了对 M

14、EC算力资源和发射功率的自适应管理。文献13研究了 MEC 车载网络中频谱、计算和存储资源的联合分配问题，并利用 DDPG 和分层学习实现资源的快速分配，以满足车辆应用的高服务质量要求。文献14研究了 MEC 系统中动态缓存、计算卸载和资源分配问题，提出了一种分布式 DDPG 的智能动态调度策略，以实现系统长期平均成本最小化。上述文献采用集中式策略学习算法，对 MEC中的时延、能耗等优化问题展开研究。然而，海量设备接入使集中式策略学习方案的复杂度急剧上升、计算成本增加、计算效率降低，在处理高复杂和大规模问题时性能较差。因此，在未来网络结构日益密集异构化、网络环境高度动态化和资源部署去中心化的边

15、缘网络中，如何设计实现更加动态灵活的分布式计算卸载和资源分配策略具有重要研究意义。服务缓存是影响用户时延的另一关键因素。文献15研究了 MEC 系统中服务缓存放置和计算卸载的联合优化问题，设计了一种低复杂度的交替最小化方法来交替更新缓存放置和卸载策略。文献16研究了边云协作服务缓存和请求卸载问题，建立了两阶段优化框架以最大化基站的总收益。文献17针对单 MEC 场景下的服务缓存和任务卸载问题，建立了不完全信息的两阶段动态博弈模型，提出了一种低复杂度的统一定价算法来优化定价和服务缓存决策。然而，上述文献忽略了用户业务请求的时间依赖性对服务缓存的影响。同时，MEC 服务器倾向于缓存与处理用户任务相

16、关的服务，使业务请求和服务缓存间相互耦合。因此，如何利用业务请求的时间依赖性及其与服务缓存间的耦合关系，设计实现更加合理的服务缓存策略，是当前研究中亟待解决的问题。针对上述问题，本文研究了去中心化 MEC 场景中的任务卸载和算网资源分配问题，以最小化任务处理时延为目标，建立了服务缓存和算网资源分配联合优化模型，并提出了一种分布式服务编排和资源分配（DSRA,distributed service ar-rangement and resource allocation）算法。本文的主要贡献如下。1)针对去中心化的 MEC 场景，考虑到用户差异化的需求以及动态时变的网络环境等因素，本文第 7 期

17、李云等：移动边缘计算中智能服务编排和算网资源分配联合优化方法 53 建立了一种去中心化的 MEC 卸载模型。2)以最小化任务处理时延为目标，在多维资源（计算、存储和带宽）约束下，建立了一个分布式的服务缓存和算网资源分配联合优化问题。3)将优化问题抽象为部分可观测的马尔可夫决策过程（POMDP,partially observable Markov decision process），提出了一种基于循环多智能体深度强化学习的分布式服务编排和资源分配算法以自主决策服务缓存和算网资源分配策略。同时，考虑到用户业务请求的时间依赖性及其与服务缓存间的耦合关系，使用长短期记忆（LSTM,long sho

18、rt-term memory）网络来捕获时间相关的网络状态信息，使智能体通过学习这些状态信息更好地理解未来的状态，做出更优的决策。1 系统模型系统模型如图 1 所示。考虑一种典型的 MEC系统，包含M 个基站（BS,base station），每个 BS配置了具有一定计算和存储资源的 MEC 服务器，定义集合1,2,M；在 BSm(m)下有mN个移动设备（MD,mobile device），定义为集合1,2,mmN。系统在离散的时隙中运行，定义时间集合1,2,T。对于BS m下的MDmi(mmi)，时隙t(t)产生的计算密集型任务定义为,(),(),)mmmmmimimimimi

19、mdDtCtXF。其中，,()mimDt表示任务的数据量大小，单位为bit；,()mimCt表示任务执行的最大容忍时延；,mimX表示处理单位比特任务所需要的CPU周期数；,mimF表示处理任务所需的服务类型。则BSm下所有用户产生的任务为1,2,(,)mmmmNmdddd。图 1 系统模型 1.1 服务缓存模型本文中服务是指运行各类型任务（如游戏、虚拟/增强现实）所需的特定程序或数据，在任一时隙，只有缓存了相应服务的MEC服务器才能为MD的卸载任务提供计算服务7。假设网络中总共有K种不同类型的服务，定义服务类型集合为1,2,K，令,()0,1k mat 表示在时

20、隙t，BSm中服务k的缓存指示函数，若,()1k mat 则在BSm中缓存服务k，否则BSm将不会缓存服务k。进一步，在时隙t，BSm的服务缓存决策可表示为1,()(),(),()mmk mK mtatatata。受限于MEC服务器的存储空间，缓存的服务所占据存储空间不能超过MEC服务器的存储容量。定义MECm的存储空间的大小为mR，则有 ,1(),Kk mkmkat lRmt(1)其中，kl 表示处理该任务的服务所占用的存储空间的大小。1.2 服务指派模型若 BSm缓存了处理 MDmi 任务所需服务类型,mimF，则该任务可由 BSm 处理；否则，任务只能在设备本地或卸载到其他服务器进行处

21、理。因此，对于任一 MDmi，其生成的任务有以下 4 种处理方式：1)本地计算；2)卸载到关联基站 BSm 进行处理；3)通过关联基站将卸载的任务转发到其他 BS进行处理；4)卸载到云中心进行处理。令,()(),(),(),()mmmmmimimimimimtttttb表示在时隙t MDmi 的任务卸载策略。其中，,()0,1mimt表示 MDmi 的本地任务处理策略，,()1mimt 表示任务可在本地处理。类似地，,()0,1mimt表示任务卸载到关联基站进行处理的策略，,()0,1mimt表示任务卸载到邻近基站进行处理的策略，,(

22、)0,1mimt表示任务卸载到云中心进行处理的策略，满足,()()()()1mmmmimimimimtttt。根据上述分析，时隙t基站m 下所有用户的任务卸载策略为1,2,(),(),()mmmmNmtttbbbb。1)任务在本地处理当任务在本地进行处理时，即,()1mimt，令,mimf表示 MDmi 的本地 CPU 频率，则任务在本地的处理时间可表示为 54 通信学报第 44 卷 ,l,()()mmmmimimimimDt XTtf(2)2)任务卸载到关联基站进行处理若MDmi的关联基站BSm缓存了服务k，则MDmi的任务可以通过无线链路卸载到BSm处理，即,()1mimt。根

23、据香农公式，从MDmi到BSm的上行链路的传输速率为 ,2()()log 1()mmmmimimimimmPGrtt Bt(3)其中，mB表示BSm的带宽；,()mimt表示BSm在时隙t分配给MDmi的频谱资源分配系数，满足,0()1mimt；,()mimmt B为BSm分配给MDmi的带宽，则BS m频谱资源分配策略可以表示为1,()(),()mmmNmttt；,mimP表示MDmi的发送功率；,mimG表示MDmi与BSm间的信道增益，2()t表示时隙t下的加性白高斯噪声功率。则任务的传输时延为 ,u,()()()mmmimimimDtTtrt(4)BSm处理任务的时间为 ,p,()()

24、()mmmmimimimimmDt XTtt f(5)其中，mf表示BSm的CPU频率；,()mimt表示BSm关于MDmi资源分配系数，满足,0()1mimt；,()mimmt f表示BSm分配给MDmi的CPU频率，则BS m的算力资源分配策略可以表示为1,()(),()mmmNmttt。任务处理结果通常比上传的数据小得多，因此本文忽略结果返回时延18。由上述分析可知，MDmi的任务卸载到关联基站BSm进行处理的时延为 sup,()()()mmmimimimTtTtTt(6)3)任务迁移到附近基站进行处理若MDmi的关联基站BSm上没有缓存服务k，但其附近的基站

25、BSn（1,2,nM且nm）缓存了服务k，则MDmi的任务可以由关联基站BSm进行转发，卸载到附近基站BSn进行处理19，即,()1mimt。t时隙，任务从关联基站转发到附近基站的传输速率为 ,tr2()log 1()mm nmmP Grtt(7)其中，m为基站m转发任务时的带宽，mP为基站m的传输功率，,m nG为基站m与基站n间的信道增益，则任务由关联基站进行转发的时间为 ,trtr()()()mimmmDtTtrt(8)由式(5)可知，基站n处理任务的时间为,p,()()()mmnmimimininnDt XTtt f。若附近基站n没有缓存服务k，则进一步将任务卸载到云中心进行处理20-

26、21。因此，任务转发到基站n的计算卸载时延为 futr,()()()nmi nimmTtTtTt pc,()()(1()()nk ni,nk nnat Ttat Tt(9)其中，c()nTt为基站n将任务转发到云中心的数据传输时延。4)卸载到云中心若MDmi的关联基站BSm没有缓存处理该任务所需服务，则任务也可由关联基站BSm转发到云中心进行处理，即,()1mimt。云中心具有丰富的计算资源和存储资源，本文忽略云中心的任务处理时间和结果传回时间。MDmi的任务通过关联基站BSm转发到云中心的计算卸载时间为 ,cc()()()mimmmDtTtr t(10)其中，c()mr t为BS m到云中

27、心的回程链路传输速率，该速率通常被认为是常数，可以通过实际测量获得7,20。任务卸载到云中心时，任务完成时延为 cuc,()()()mmimimmTtTtTt(11)综上所述，在时隙t，MDmi的任务处理时延可表示为 l,up,utrp,c,uc,(),()1()()()1()()()()()(1()(),()1()()mmmmmmnmmmimimimimimimmk ni,nimk nnimimmTttTtTttTtTtat TtTtat TttTtTt，,()1mimt(12)第 7 期李云等：移动边缘计算中智能服务编排和算网资源分配联合优化方法 55 1.3 问题描述由于服务器的资源

28、（如计算、频谱和存储空间）有限，同时，任务卸载和资源分配相互耦合，本文以最小化任务的长期处理时延为目标，建立了服务缓存和算网资源分配的联合优化问题。联合优化问题建模如下 ,(),(),(),()1111 1min ()mmNTMimtttttmiTtT Mab(13)s.t.,()()mmimimTtCt(13-1),()()()()1mmmmimimimimtttt (13-2),1()()0,1Kk mkmk mkat lRat，(13-3),1()1 0()1mmmNimimitt，(13-4),1()1 0()1mmmNimimitt，(13-5)1,1,miNmM，(13-6)其中，

29、1()(),()Mtttaaa表示基站服务缓存策略，1()(),()Mtttbbb表示任务卸载策略，1()(),()Mttt表示频谱资源分配策略，1()(),()Mttt表示基站算力资源分配策略。约束式(13-1)表示任务的处理时延不能超过最大容忍时延，约束式(13-2)表示任一MD仅能选择一种任务处理方式，约束式(13-3)表示缓存的服务不能超过BS的存储容量，约束式(13-4)表示分配的频谱资源总和应不大于基站带宽，约束式(13-5)表示分配的算力资源总和应不大于基站计算资源。2 基于多智能体深度强化学习的问题求解边缘网络环境中，算网资源部署去中心化、网络环境高度动态化以及网络结构日益密

30、集化等特点使集中式的管理方式不能很好地应对高度动态的去中心化MEC环境，需要设计出更加动态灵活的分布式计算卸载和资源分配策略。此外，在优化问题式(13)中，根据式(13-1)式(13-5)可知，基站的服务缓存和计算卸载策略只与其当前的状态有关，而与过去的状态无关，是一个典型的马尔可夫决策问题。为了实现更加高效的服务缓存和计算卸载，减少基站间频繁的信息交互，本文中基站被认为仅能观测到不完全的无线信道状态和邻居基站信息（如邻居基站位置信息等）。为此，本文将优化问题式(13)进一步抽象为POMDP。鉴于此，本文设计了一种基于多智能体深度强化学习的分布式智能服务编排和算网资源分配算法，由基站作为智能体

31、来学习任务卸载策略、服务缓存策略以及算网资源分配策略。由于任务卸载和资源分配决策与服务缓存决策不在同一时间维度进行，因此，本文在2个时间维度上优化上述问题，即在快时间尺度上进行计算卸载和资源分配决策，在慢时间尺度上进行服务缓存决策。同时，考虑到用户业务请求的时间依赖性及其与服务缓存间的耦合关系，引入LSTM网络来提取时间相关的网络状态信息，智能体通过学习这些状态信息，可以更好地理解未来的环境状态，从而做出更优的决策。2.1 问题转化本节将优化问题式(13)抽象为POMDP，由基站充当智能体，并定义元组,，其中，表示全局的状态空间，12,M 表示智能体的观测空间集合，1,M=表示全局的动作空间

32、集合，1,M=表示奖励集合，时隙t的环境为全局状态()s t，m 表示智能体m的观测空间集合，m 表示智能体m的动作空间集合，m 表示智能体m的奖励集合。在时隙t，智能体m根据本地观测()mmot ，采取策略:mmm，选择对应的动作()mmat ，从而获得相应的奖励()mmr t 。2.1.1 环境状态在时隙t，智能体可以接收到其覆盖范围内移动设备的详细任务信息，包括任务的数据量大小、任务处理的最大容忍时延、处理单位比特任务所需要的CPU周期数以及所需服务类型。定义环境状态为 1212121(),MMMs tfffBd ddP PP212,MMBBG GG 其中，1,mmmNmPPP为BSm

33、下所有用户的发送功率集合，1,2,mmmmNmGGGG为BSm下所有用户与BSm间的信道增益集合。时隙t，智能体m的观测状态()mmot 定义为 1,2,1,2,1,2,1,2,()(),(),(),(),(),(),mmmmmmmNmmmNmmmNmmmNmmmotDt DtDtCt CtCtXXXFFFfB(14)56 通信学报第 44 卷 2.1.2 动作空间智能体m根据观察到的环境状态()mot和当前的策略m，从动作空间选择相应的动作。时隙t，智能体m的动作()mmat 定义为 1,2,1,2,1,2,1,2,1,2,1,2,1,2,()(),(),(),(),(),(),(

34、),(),(),(),(),(),(),(),(),(),(),(),(),(),()mmmmmmmmmNmmmNmmmNmmmNmmmNmmmNmmmK matat atattttttttttttttttat atat(15)将二进制变量,()k mat、,()mimt、,()mimt、,()mimt和,()mimt松弛为实值变量,()0,1mimat、,()0,1mimt、,()0,1mimt、,()0,1mimt和,()0,1mimt。若,()0.5k mat，则BSm中缓存服务k，否则BSm将不会缓存服务k。对于,()mimt、,()mimt、,()mimt和,()mimt，任务将选择

35、其中最大值对应的卸载模式进行计算卸载。根据动作空间的定义和()mat中每个元素的取值范围，可知动作空间m 是个连续的集合。2.1.3 奖励函数奖励函数衡量智能体在给定状态下采取某一动作所带来的效果。在训练过程中，智能体在1t 时隙采取了某一动作，对应的奖励将会在t时隙返回给智能体。根据所获得的奖励，智能体会更新其策略来获得最优的结果。由于奖励导致每个智能体达到其最优策略，且策略直接决定对应MEC服务器的算网资源分配策略、计算卸载策略和服务缓存策略，因此奖励函数应根据原始优化问题进行设计。本文中奖励包含三部分：第一部分是任务处理时间的奖励；第二部分是任务处理时延满足时延约束的奖励，即1,()(

36、)()mmmimimYtH CtTt；第三部分是缓存不超过边缘服务器存储容量限制的奖励，即2,1()()()Kmmk mk mkUtH Rat lt。其中，()H 为Heaviside阶跃函数，1和2为权重系数。优化目标是最小化任务的长期处理时延和最大化长期回报，所以智能体m的累计奖励为 ,1111 1()()()()mmNTMmimmmtmir tTtY tUtT M (16)2.2 DSRA 算法本节展示如何在集中式学习和分布式执行的框架内使用多智能体深度强化学习方法来解决上述问题。DSRA框架如图2所示。DSRA由环境和M个智能体组成，每个智能体进行集中训练和分散执行。采用集中式学习来

37、训练critic网络和actor网络，critic网络在训练时需要使用其他智能体的状态信息。分布式执行时，actor网络只需知道局部信息。即每个智能体在训练过程中会利用全局状态和动作来估计其他智能体的策略，并根据其他智能体的估计策略来调整局部策略，以达到全局最优。考虑到用户业务请求的时间依赖性及其与服务缓存间图 2 DSRA 框架第 7 期李云等：移动边缘计算中智能服务编排和算网资源分配联合优化方法 57 的耦合关系，本文将LSTM网络加入actor网络和critic网络中。LSTM是一种循环神经网络，可以提取时间相关的网络状态信息。智能体通过学习这些状态信息，可以更好地理解未来的状态，做

38、出更优的决策。同时，由于服务缓存决策和卸载决策、算网资源分配决策不在同一时间尺度上进行，因此，本文将在2个时间尺度上进行求解。具体地，在慢时间尺度上，根据当前观测状态()mot做出缓存动作c()mat；在快时间尺度上，根据当前观测状态()mot和缓存动作c()mat做出卸载和资源分配动作o()mat。缓存动作c()mat在一段时间内保持不变，并作为卸载和资源分配决策的额外观测状态参与训练。令a,1()mht和c,1()mht分别表示时隙t服务缓存决策网络中actor网络和critic网络时间相关的网络状态信息，a,2()mht和c,2()mht分别表示卸载和资源分配决策网络中actor网络和c

39、ritic网络时间相关的网络状态信息，并利用来自经验回放存储器1D和2D中的经验来迭代更新DSRA算法。智能体m的经验回放存储器1D和2D分别包含一组经验元组1ccaca,1,1,1S(),(),(),(),(),()(),mmmmSmmmDo t a t r t ottht ht httc,1S()mhtt和2ca(),(),(),(),(+1),mmmmmDot at at r t otacac,1,2,2,2(),(),(+1),(+1)mmmmht ht htht。其中，()mot表示时隙t智能体m的观测状态；c()mat表示时隙t智能体m基于当前观测()mot

40、所采取的缓存动作；o()mat表示时隙t智能体m基于当前观测()mot和缓存动作c()mat所采取的卸载和资源分配动作；c()mr t表示时隙t智能体m采取动作c()mat后获得的奖励；()mr t表示时隙t智能体m采取动作o()mat后获得的奖励；S()mott表示智能体m在时隙Stt的状态，St表示慢时间尺度的时间间隔；(1)mot表示智能体m在时隙1t 的状态；aS,1()mhtt表示时隙Stt，actor网络时间相关的网络状态信息；a,1(1)mht 表示时隙1t，actor网络时间相关的网络状态信息；cS,2()mhtt表示时隙Stt，critic网络时间相关的网络状态信息；2c,(

41、1)mht 表示时隙1t，critic网络时间相关的网络状态信息。在集中训练阶段，每个critic网络可以使用其他智能体的观测()mot和动作()mat，则与服务缓存决策相关的Q函数可表示为 112cc1,1c(),(),(),(),(),()mMMmQo t o tohta tatt(17)卸载和资源分配决策相关的Q函数可表示为 2c121coo1,c2(),(),(),(),(),(),(),()mMMMmQo t o tot a tat a tatth(18)Q函数从全局的角度来评估actor网络的动作，并且指导actor网络选择更优的动作。在训练时，critic网络通过最小化损失函数来

42、更新网络参数，损失函数定义为 111c112ccc1122,1,(),()()()()(),;(,)mmmmMMmmLQooaato ttttttahy(19)222112cooc2212,2,(),()()()()();()cmmmMMmmmMLQooaat at o ttttttahy (20)其中，1c11S2SS()(),()mmmMottottttyorQ，cS,c1S1,;()()mmmathttt，212(1,)mmmyQo tr c2ca2,2(1),(1)(1)(1)(1,;),Mmmmmo tottttaah，表示折扣因子，1()mQ表示智能体m的服务缓存决策网络在时隙1t

43、的期望累计回报，2()mQ表示智能体m的卸载与资源分配网络在时隙1t 的期望累计回报。同时，actor网络基于critic网络计算得到的集中Q函数和它自身的观测信息来更新网络参数，并输出动作a。actor网络参数通过最大化策略梯度来更新，即 111c11()ccccc12,1(),(),(),(),()()mmmmmmmmatMmmJotQa t a tsahtattt1a,1 (),()mmmmot ht(21)222o222ccc,212()oooco12ca,2()(),(),(),(),(),(),(),()()(),(),()mmmmmmmmmMammmtMmmmJo tQs t

44、a t a tata t a tat hta to t a t ht，(22)分散执行阶段，时隙t，每个智能体的actor网络根据本地的观测状态()mot、当前时间相关的网络58 通信学报第 44 卷状态信息a()mht及其自身策略:mmmm选择动作，则服务缓存动作为 1ca1()(),()mmmmmoatt ht，(23)卸载和资源分配动作为 2ooa,2()(),(),()mmmmmmatt at hto(24)为了使智能体能够进行更充分的探索，在训练过程中会加入随机噪声tN。目标网络的参数通过软更新的方式进行更新，即 1a1a1(1)mmmmm (25)1c1c1(1)mmmm

45、m (26)2a2a2(1)mmmmm (27)2c2c2(1)mmmmm (28)其中，am和cm为目标网络的软更新率。DSRA算法的实现过程如算法1所示。算法 1 DSRA算法输入 episode数，训练步长，折扣因子，软更新率acmm和，actor网络和critic网络学习率，缓存动作c()mat 输出服务缓存动作c()mat，卸载与资源分配动作o()mat 初始化每个智能体的actor网络和critic网络的网络参数，经验回放存储器2D，随机噪声tN 1)for each episode do 2)收到初始状态()mot，并令()mr t=0；3)for stept=1,T do

46、 4)if t=1,St,S2t,S3t,then 5)从算法2获得服务缓存策略 else cc(1)()mmatat 6)end if 7)对于智能体m，基于卸载和资源分配策略om、缓存动作c()mat，选择动作2oca,2()(,)()()mmmmmmtaoatttthN；8)获得对应的奖励()r t和下一时刻状态(1)mot；9)把co(),(),(),(),(1),mmmmmot at at r t ot acac,2,2,2,2(),(),(1),(1)mmmmht ht htht存入经验回放存储器2D；10)()(1)mmotot;aa,2,2()(1)mmhtht；cc,2,

47、2()(1)mmhtht;11)for 智能体m=1 toM do 12)从2D中随机抽取S个样本 co(),(),(),(),(1),mmmmmot at at r t ot acac,2,2,2,2(),(),(1),(1)mmmmht ht htht 13)根据式(20)更新critic网络参数 14)根据式(22)更新actor网络参数 15)end for 16)通过软更新，更新智能体m的目标网络参数 2a2a2(1)mmmmm；2c2c2(1)mmmmm；17)end for 18)end for 慢时间尺度上的服务缓存算法如算法2所示。算法 2 慢时间尺度上的服务缓存算法输入

48、 episode数，训练步长，折扣因子，软更新率acmm和，actor网络和critic网络学习率输出缓存动作c()mat 初始化每个智能体的actor网络和critic网络的网络参数，经验回放存储器1D，随机噪声tN 1)for each episode do 2)收到初始状态()mot，并令()mr t=0 3)for stept=1,St,S2t,S3t,do 4)对于智能体m，基于当前缓存策略 cm，选择动作 1ca,1()(),()mmmmmtatot htN 5)获得对应的奖励c()mr t和下一状态 S()mott；6)把ccS(),(),(),(),mmmmot at r

49、 t ott aca,1,1,1S(),(),(),mmmht ht httc,1S()mhtt 存入经验回放存储器1D 7)aa,1,1S()()mmhthtt cc,1,1S()()mmhthtt 8)for 智能体m=1 toM do 9)从1D中随机抽取S个样本 caS,1(),(),(),(),(),mmmmmot at r t ottht 第 7 期李云等：移动边缘计算中智能服务编排和算网资源分配联合优化方法 59 cac,1,1S,1S(),(),()mmmht htthtt 10)根据式(19)更新critic网络参数 11)根据式(21)更新actor网络参数 12)end

50、 for 13)通过软更新，更新智能体m的目标网络参数 1a1a1(1)mmmmm 1c1c1(1)mmmmm 14)end for 15)end for 3 仿真与分析本节对DSRA算法性能进行仿真验证，本文中的对比算法如下。1)基于多智能体深度确定性策略梯度（MADDPG,multi agent deep deterministic policy gradient）的算网资源分配算法22。由基站充当智能体，智能体在训练过程中，不仅需要自身的观测和动作参与训练，还需要使用其他智能体的观测和动作进行训练。2)单智能体深度确定性策略梯度（SADDPG,single

展开阅读全文