面向大规模网络的服务功能链部署方法.pdf

资源描述

1、第 49卷第 8期2023年 8月Computer Engineering 计算机工程面向大规模网络的服务功能链部署方法张冠莹1，2，伊鹏2，李丹2，朱棣2，毛明2（1.郑州大学网络空间安全学院，郑州 450000；2.中国人民解放军战略支援部队信息工程大学信息技术研究所，郑州 450000）摘要：网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来，部署功能实例并编排为服务功能链(SFC)，从而实现网络服务。针对资源受限情况下大规模网络环境中的 SFC动态部署问题，提出一种基于多智能体的群策部署方法，该方法结合了集中式深度强化学习（DRL）和传统分布式方法的优点。将 SFC部署问题

2、建模为部分可见马尔可夫决策过程，每个节点部署一个 Actor-Critic智能体，仅通过观察本地节点信息即可得到全局训练策略，具有DRL的灵活性和自适应性。本地智能体控制交互过程，以解决集中式 DRL方法在大规模网络中控制复杂、响应速度慢等问题。基于多线程的思想，收集、整合每个节点的经验进行集中式训练，避免完全分布式训练过程中部分节点因请求流量少而导致训练不充分、策略不适用等问题。实验结果表明，该方法无须考虑网络规模而且不依赖特定场景，可以很好地适应现实中复杂多变的网络环境，在相对复杂的流量环境中，与 CDRL、GCASP方法相比，在多种流量模式下所提方法的部署成功率均提高了 20%以上，同时

3、能够降低部署成本。关键词：网络功能虚拟化；服务功能链；深度强化学习；部分可见马尔可夫决策过程；多智能体开放科学（资源服务）标志码（OSID）：源代码链接：https：/ J.计算机工程，2023，49（8）：122-129.英文引用格式：ZHANG G Y，YI P，LI D，et al.Service function chain deployment method for large-scale network J.Computer Engineering，2023，49（8）：122-129.Service Function Chain Deployment Method for Lar

4、ge-Scale NetworkZHANG Guanying1，2，YI Peng2，LI Dan2，ZHU Di2，MAO Ming2（1.School of Cyber Science and Engineering，Zhengzhou University，Zhengzhou 450000，China；2.Information Technology Institute，PLA Strategic Support Force Information Engineering University，Zhengzhou 450000，China）【Abstract】Network Functi

5、on Virtualization（NFV）decouples network functions from hardware intermediate boxes，deploys function instances and arranges them into Service Function Chains（SFC）to realize network services.A multi-agent based group strategy deployment method is proposed for the dynamic deployment of SFC in large-sca

6、le network environments with resource constraints.The proposed method combines the advantages of centralized Deep Reinforcement Learning（DRL）and traditional distributed methods.The SFC deployment problem is modeled as a Partially Observable Markov Decision Process（POMDP），with each node deploying an

7、Actor-Critic（AC）agent.The global training strategy can be obtained only by observing local node information，which has DRL flexibility and adaptability.The local agent controls the interaction process to solve complex control and slow response speed problems in large-scale networks using centralized

8、DRL methods.Based on the multithreading concept，this research aims to collect and integrate the experience of each node for centralized training，to avoid problems such as insufficient training and policy inapplicability caused by low request traffic in some nodes during the fully distributed trainin

9、g process.Experimental results demonstrate that while it adapts well to complex and everchanging environments in practice，it is not necessary for the proposed method to rely on specific scenarios or to consider network scale.In relatively complex traffic environments，compared with CDRL and GCASP met

10、hods，the proposed methods deployment success rate in multiple traffic modes increased by over 20%，while reducing deployment costs.【Key words】Network Function Virtualization（NFV）；Service Function Chain（SFC）；Deep Reinforcement Learning（DRL）；Partially Observable Markov Decision Process（POMDP）；multiple

11、agentDOI：10.19678/j.issn.1000-3428.0065169基金项目：国家重点研发计划（2022YFB2901304）；国家自然科学基金（62002382）；嵩山实验室项目（221100210900-03）。作者简介：张冠莹（1997），女，硕士研究生，主研方向为新型网络、深度学习；伊鹏，研究员；李丹，副研究员；朱棣，硕士研究生；毛明，博士研究生。收稿日期：2022-07-07 修回日期：2022-10-10 Email：zhang_移动互联与通信技术文章编号：1000-3428（2023）08-0122-08 文献标志码：A 中图分类号：TP391第 49卷

12、第 8期张冠莹，伊鹏，李丹，等：面向大规模网络的服务功能链部署方法0概述互联网为当今世界的通信发展建立了新的模式，网络服务也因此产生复杂多样的发展需求。运营商提供的复杂业务系统需要大量专用硬件基础设施来支撑1-2 ，而在实际应用中，使用这些专用硬件资源面临着巨大挑战，不仅维护和操作开销巨大3，而且无法快速灵活地提供服务4 。因此，在当前大规模网络环境下，网络功能虚拟化（Network Function Virtualization，NFV）5已成为 5G 和未来网络通信的革命性范式。通过解耦网络功能（Network Function，NF）和专用网络设备，NFV 使得

13、NF独立于硬件6，从而降低成本和运营支出。虚拟网络功能（Virtual Network Function，VNF）通常被排列成服务功能链（Service Function Chain，SFC），解决实际且具体的服务请求7。在整个网络中，每次完成服务请求响应需由多个组件来处理，每个组件可以在网络的任意节点上运行，并根据当前需求在线决定如何部署实例化组件8-9以及怎么安排请求流。为了满足复杂多样的网络需求，需要部署网络功能并响应服务请求，但是，网络节点处理能力和链路带宽资源有限，如何最小化资源消耗同时提高部署成功率是亟待解决的问题。SFC 部署问题已经得到广泛研究，但是当前的主要研究方案均存在一定

14、的局限性：现有方案主要集中在如何长期规划给定的服务请求，并通过组件实例的硬连接链处理服务请求，然而，预期资源需求与用户实际服务需求之间存在误差等问题导致实际效果往往偏离初始计划10；现有方案主要使用启发式算法，对场景和环境的依赖性强，方案可迁移性差11；现有模型大多依赖严格的先验信息，如完整的已知环境状态信息或请求信息，但是实际中对于实时传入的请求信息是无法预知的，基于定期观测获得的相应信息存在延迟。以上研究的局限性主要源自方案均建立在预设的条件上，无法处理现实中随机到达的请求流。为了克服上述局限性，近年来，基于人工智能的方案逐渐成为研究热点，较多方案采用

15、集中式深度强化学习（Deep Reinforcement Learning，DRL）方法，利用单个全局 DRL 智能体观察和控制整个网络。然而，在实际大规模网络中，集中式 DRL 方法可能无法满足实时变化、快速响应的资源需求，成功率也无法得到保证。因此，对神经网络进行分布式训练逐渐替代集中式 DRL 方案，但是其训练过程仍然存在缺陷，如在训练分布式神经网络的过程中，流量较少的智能体由于训练不充分而导致训练策略效果较差。本文提出一种集中式训练、分布式推理的多智能体方法 MAAC（Multi-Agent Actor-Critic），以解决服务功能链的部署调度问题。基于多线程的思想，在网络中的每个节

16、点均部署单独的 DRL 智能体，基于所有智能体的经验进行集中式训练，将训练得到的策略分发给每个分布式节点，节点在本地以一种快速且相对隔离的方式完成部署。每个智能体无需获得全局信息，仅关注本身以及直接邻居节点，并只对传入流的处理进行本地控制。与完全集中式控制方法不同，本文方法中环境和动作空间的大小与网络规模无关，只与网络连通程度相关。相较集中式DRL 方法和完全分布式、启发式方案，MAAC 方法的主要创新点为：用部分可见马尔可夫决策过程（Partially Observable Markov Decision Process，POMDP）描述状态和动作的动态转化过程；以 Actor-Critic

17、为基础，结合集中式 DRL 与传统分布式方法来完成集中式训练和分布式推理；在 Actor-Critic 的参数更新时应用自然梯度和克罗内克积。1相关工作近年来，VNF 部署问题已成为学术界的研究热点，众多解决方案相继被提出。文献 12 在边缘网络上通过整数线性规划（Integer Linear Program，ILP）方法解决 SFC 部署问题。文献 13 将该问题建模为混合整数规划（Mixed Integer Programming，MIP）模型并进一步使用禁忌搜索算法进行逼近。文献14利用分析队列和混合整数线性规划（Mixed Integ

18、er Linear Programming，MILP）模型优化资源利用率。然而，在大规模网络背景下，求解数学模型非常困难。文献 15 设计 2种启发式算法用于“单型 NFV”部署，验证了恒定近似比，同时提出一种最优贪婪部署算法用于树网络拓扑，其假设每个流都有固定的路径。文献 16 考虑动态流，将VNFs 的动态资源分配建模为马尔可夫决策过程（Markov Decision Process，MDP），利用贝叶斯学习预测未来资源的可靠性，设计一种启发式算法，其中，将 VNFs 放在一个结构简单的数据中心中。然而，在存在约束条件且目标不断变化的系统中，这些数学规划方法适配度较低，且启发式算法基于

19、特定场景制定，建立在特定模型和假设的基础上，如果假设场景发生改变，需要人工重新调整模型，过程耗时且准确率无法保证。以上方案存在求解困难、依赖性强、迁移性差等局限性，因此，基于人工智能的方案逐渐成为研究热点。随着强化学习（Reinforcement Learning，RL）的发展，文献 17-18 基于 Q-learning来完成 VNF部署，使用表格式 Q 学习，但是，Q 表的维度有限，因此，只能用来处理状态和动作离散的低维问题，不支持连续环境变化以及环境之间的泛化，从而限制了在实际中的适用性。随着 DRL 在各个领域取得的较大突破和进展，文献 19 采用深度 Q 网络（Deep Q-Netw

20、ork，DQN）方法，在保证精度的前提下降低 VNF 部署的资源消耗。在 DQN 中，深度神经网络用于近似 Q 函数，Q 函数用于评估策略程度，但是 DQN 存在 Q 值被高1232023年 8月 15日Computer Engineering 计算机工程估的情况。为解决该问题，文献7提出 DDQN（Double Deep Q-Network），其解耦动作选择和 Q 值评估，可以提高模型训练的稳定性，降低模型在训练过程中 Q 值被高估的概率。但是，上述方案需在每个时间步骤内选择最佳策略，对于快速到达的服务请求，无法保证服务质量（Quality of Service，QoS）

21、。为解决该问题，文献 20 提出一种集中式 DRL 方案，但是在与网络交互的过程中，该方案会依赖延迟的监控信息。以上集中式在线服务功能链部署方案普遍存在响应时间过长、请求可能被丢弃、无法保证成功率等问题。文献 21-24 所提方案在所有节点上都存储转发规则，运行时以分布式方式将这种规则应用于传入的请求流，通过这种方式可以避免伸缩性问题，其中，文献 24 所提方案相比其他方案所需的全局知识更少，速度也更快。然而，DRL智能体需要定期更新这些转发规则，同时方案对动态路由、链路容量、组件的伸缩性能等考虑不足，且使用的启发式算法和策略梯度算法可能出现训练不稳定等不足。本文 MAAC 方法同时考虑部署成

22、本和部署成功率，且集中式训练和完全分布式推理的组合架构在大规模网络环境下更加高效。本文相关变量符号解释如表 1所示。2系统模型和问题规划为了实现网络服务，需要对每个请求中的多个功能组件进行顺序部署，由于网络中链路、节点资源有限，如何在资源受限的情况下既保证 QoS 又提高服务请求成功率同时最小化资源消耗，是本文的主要研究问题。如图 1所示，流f1和f2几乎同时到达节点v1，其中，f1、f2需求组件均为Cs=c1c2。当f1到达节点v1时，节点有足够的空闲资源来处理c1，此时f1就在v1进行处理。如果f2和f1几乎同时达到，v1资源被占用，如果f2排队等待将影响服务性能，甚至可能超出最大允许时延

23、而不被响应。若v1决定将f2转给邻居节点v2，则可以提高网络服务性能。针对部署成功率和资源消耗联合优化问题，本文将物理网络拓扑建模为无向图G(VL)，参数V和L分别表示节点和链路的集合。参数vv V表示节点，vv L表示连接v和v这 2个节点的物理链路，Rv表示每个节点的可用资源。这里只考虑单一的资源类型（如计算资源 CPU），其可以扩展到多种资源类型。Rvv表示链路vv L的可用带宽资源，同时链路延迟dvv由节点v和v之间的距离决定。在入口节点处，由于用户有服务请求，因此短期内会有大量流到达。将每条服务请求表示为f=(sfvftfafdf)F，其中：sf表示请

24、求中的服务，每种服务s S需要实例化多个向量组件c Cs=c1cn，不同种类的服务可以共享组件c；vf表示请求到达节点，即入口节点；tf表示服务请求到达时间；af表示请求需要占用的带宽；df表示请求的周期时长。为了在一定时间内实现响应服务请求传入流f、部署服务s、实例化组件c，定义 2 个决策变量xcv(t)和ycv f(t)。二元决策变量xcv(t)表示在t时刻组件c是否实例化在节点v上：如果实例化在节点v上，xcv(t)取值为 1，占用节点资源为Rcnv；否则，xcv(t)取值为 0。变量ycv f(t)表示t时刻流f是否应用实例化在表 1符号解释 Table 1In

25、terpretation of symbols符号VLvvRvRvvdvvS,sCs,cnfsfvftfafdfxcv(t)ycv f(t)Rcnvdfcvzvvf(t)wv(t)wvv(t)davg表示含义节点v的集合链路vv的集合以节点v、v为端点的链路节点v的可用资源链路vv L的可用带宽资源链路vv的延迟S表示服务集合，s表示某种服务Cs表示组件集合，cn表示组件，Cs=c1cn服务请求或者流请求中的服务请求到达节点，即入口节点服务请求到达时间请求需要占用的带宽请求的周期时长在t时刻组件c是否实例化在节点v上在t时刻流f是否应用实例化在节点v上的组件cc 实例化在节点v上、xcv(t)

26、取值为 1 时占用的节点资源在节点 v上的处理时延在t时刻流f占用链路vv在t时刻节点剩余可用带宽的利用率在t时刻链路剩余可用带宽的利用率端到端时延图 1服务功能链示例Fig.1Example of service function chain124第 49卷第 8期张冠莹，伊鹏，李丹，等：面向大规模网络的服务功能链部署方法节点v上的组件c，在节点v上处理时延为dfcv。同时定义二元决策变量zvvf(t)表示t时刻流f是否占用链路vv。使用wv(t)表示t时刻节点剩余可用带宽的利用率，wvv(t)表示t时刻链路剩余可用带宽的利用率，wv(t)、wvv(t)取决于变量xcv(t)、ycv f(

27、t)和af、df。如果流f不能被处理或转发，如因为所选节点v或链路vv的资源已经被充分利用，或没有可用的请求组件c实例，则流f将被丢弃或重定向。本文的目标是通过设置xcv(t)、ycv f(t)和zvvf(t)变量的值，降低资源消耗同时确保服务成功率。目标oi是通过最小化实例组件数量来降低资源消耗，目标osucc是确保服务成功率，成功响应到达的服务请求，最大化成功率。目标oi和osucc的表达式分别如下：oi=v Vc Cxcv(t)|R|V01（1）osucc=FsuccFtotal（2）本文目标是联合优化服务成功率和资源消耗，如下：OF=1osucc-2oi（3）在Dt时间段内，带宽资源和

28、节点可用资源不能超过其本身的最大可用资源约束。如式（4）所示，使用当前链路条件时，当前链路剩余带宽应大于请求带宽，同时满足到达节点剩余资源大于实例化占用资源，如式（5）所示；当大量服务请求在短期内到达时，服务请求流较长时间内未被处理则持续占用资源，此时可能导致阻塞，大量服务请求等待无法得到处理。为此，限定每个流f的最大允许时延Df如式（6）所示，即最大允许时延不能超过多次链路传输时延和每个节点处理时延总和。f Ftafzvvf(t)Rvvwvv(t)（4）f FtRcnvycvf(t)Rvwv(t)（5）vv Ldvvzvvf(t)+v Vdfcvycvf(t)Df（6）3方法设计为联合优化

29、资源消耗和服务成功率，实现目标OF，本文使用一种结合集中式训练和分布式推理的DRL 方法进行在线部署，如图 2 所示，其中：v0是集中式控制节点，收集、整合所有分布式节点v1v10的部署反馈经验，进行集中式训练得到训练策略，然后将策略传递给每个分布式节点；v1v10节点基于部署策略对下一阶段到达的请求流进行部署，同时获得经验反馈给集中控制节点v0。网络拓扑结构、链路延迟以及每个节点的详细信息等环境状态需依赖节点间的交互来获取，而整个网络规模巨大，只可观测到部分状态。因此，本文将 VNF 的部署过程建模为 POMDP。网络中的每个节点部署单独的 DRL 智能体，获取本地节点信息，控制传入流。当流

30、到达节点v时，本地 DRL 智能体结合本地节点的使用信息，赋值决策变量xcv(t)、ycv f(t)和zvvf(t)，从而控制被请求的组件是在本地处理还是转发给其他节点处理。3.1部分可见马尔可夫决策过程将 VNF 的部署过程建模成 POMDP(SAPR)，其中，S为状态空间，A为动作空间，P为状态转移概率，R为奖励函数。1）状态空间S。状态空间定义节点的本地信息，S=wfwvwvvDvfXv，其中：wf01表示流完成进度，wf为 0 时表示流刚到达，从 01 代表流上组件逐渐完成遍历；wv01表示节点的剩余可用资源利用率；wvv01表示从节点出发的链路vv的链路剩余可用带宽利用率；Dvf表示

31、从当前节点到达出口节点的最短路径延迟，如果最短路径延迟和流已有延迟之和大于每个流允许的最大总延迟，则及时丢弃流，避免资源浪费；Xv表示请求的组件c实例在节点v及其邻居节点是否可用。2）动作空间 A。DRL 智能体在服务请求到达节点v时做出动作a，无向图单个节点的度最大值为Num，a的取值空间为01Num。服务请求在节点进行处理时，|v|表示节点v的度，如果a=0，表示服务请求在节点v处理，如果0 a|v|，表示服务请求在相邻节点进行处理，否则服务将被拒绝。图 2集中式训练和分布式推理Fig.2Centralized training and distributed reasoning12520

32、23年 8月 15日Computer Engineering 计算机工程3）奖励函数 R。当服务请求成功响应时，Reward+x；当服务请求没有成功响应时，Reward-x；如果服务请求成功响应并且在本地节点完成处理，则奖励Reward+1Lf，其中，Lf表示服务功能链的长度。为了使服务请求选择较短的服务路径，每次处理服务请求会给一个惩罚Reward-dlDG，其中，dl表示链路延迟，DG为网络标准化链路传播时延。若服务请求中断而导致没有完成，则对经过的每条路径给一个惩罚Reward-1DG。3.2DRL部署算法传统方法一般采取完全集中式的控制或完

33、全分布式的控制。完全集中式的控制方法需要巨大的状态空间和行动空间，进而需要更多的训练，不易收敛。完全分布式的控制方法在每个节点上都有 DRL智能体，这样虽然可以减少空间，但是部分节点因流量不足而导致训练不充分，策略效果不佳。如图 3所示，本文基于 MAAC 算法训练 DRL 智能体，将自然梯度和克罗内克积应用到 Actor-Critic的参数更新过程中。Actor-Critic算法结合了值函数和策略函数的优点，Actor 网络使用策略函数，Critic 网络使用值函数，相比传统策略梯度，Actor-Critic可以进行单步更新，更新速度较快，而且相对于值函数，该算法可以在连续动作空间上选择动作

34、。为了提升训练速度，MAAC 在 Actor-Critic 算法的基础上采用异步训练的思想，利用多个线程，每个线程建立智能体与环境的交互，对到达流在本地进行控制处理。每个智能体基于原始策略应对不同的流请求，不断更新本地Actor-Critic并独立进行部署优化。MAAC 算法描述如算法 1 所示，由集中离线训练（步骤 112）和分布式推理（步骤 1319）2 个部分组成。在该算法中，通过参数 batching训练 2个神经网络、V。首先随机初始化这 2个神经网络，在n个并行副本上进行训练，训练过程如图 4所示。当流到达节点时，智能体获取本地信息，得到当前状态和奖励值，并把经验值反馈给 batc

35、hing，基于动作决策给二元变量赋值。当 batching 为空时，训练、V，V评估状态和当前策略，使用时间差分进行更新训练。集合V估计值对进行训练，运用自然梯度，其中，通过克罗内克积简化更新参数，训练 Actor使长期回报最大化。在训练完成后，选择奖励值最高的智能体进行在线推理，将神经网络策略复制给网络中的每个节点。算法 1 MAAC服务功能链部署算法训练：1.初始化函数 Actor、Critic V以及 batching2.在 n个平行环境下进行并行训练3.重复：4.当t T时进行以下操作：5.如果请求f到达节点v：6.智能体获取环境中的信息S=wf，wv，wvv，Dv，f，Xv st，r

36、t7.(st-1，at-1，rt，st)batching8.()st at9.基于动作决策at确定xc，v(t)、yc，v，f(t)、zvv，f(t)10.如果 batching为空：11.时间差分更新训练V12.使用自然梯度更新训练，使长期回报最大化：Eiir()st+i，at+i推理：13.选择最优智能体策略(，V)14.将复制给每一个局部节点Vv15.当t T时进行以下操作：16.如果请求f到达节点v：17.S=wf，wv，wvv，Dv，f，Xv st，rt18.()st at19.基于动作决策at确定xc，v(t)、yc，v，f(t)、zvv，f(t)图 3MAAC算法结构Fig.3M

37、AAC algorithm structure图 4MAAC训练过程Fig.4MAAC training process126第 49卷第 8期张冠莹，伊鹏，李丹，等：面向大规模网络的服务功能链部署方法4实验验证 4.1实验环境与参数设置本文仿真采用 Abilene 网络拓扑，包含 11 个节点和 14 条链路25，动态流量从 SNDlib 中获取，使用轻量级模拟器 Coord-sim 构建仿真环境26。全部实验是在 Intel CoreTM i77700 CPU、32 GB DDR4 RAM和 GTX 1080Ti 显卡的计算机上进行，采用基于Python3.7 的

38、Tensorflow1.14 执行深度强化学习算法。为了确保智能体能够与网络实现交互，通过适配器实现 OpenAI Gym 接口，适配器获取网络环境状态。为了方便性能对比，假设链路延迟是基于节点之间的距离，每个 SFC 请求需要 3 个 VNF 实例进行处理。流量到达的时间步长|T|=20 000，每个网络的入口节点随机选择，不会随时间而变化。接收观测结果和采取行动的时间步长为100。对于 DRL 超参数：在实验场景中，首先并行k=10个 DRL 智能体直至收敛，然后选择经过训练的智能体进行推理；每个 Actor 和 Critic 使用 2256 全连接神经网络，tanh 作为

39、激活函数27，利用 RMSprop 优化器进行训练；折现率=0.99，初始学习率（Learning Rate，LR）=0.25。对于 MAAC 特有的参数：熵损失为 0.01；损失函数值为 0.25；Fisher系数为1.0；最大梯度为 0.5；Kullback-Leibler 为 0.001；缓冲区大小|B|=10 000；批量大小|b|=64。4.2对比方法集中式 DRL 控制方法依赖通过监控获取的全局信息，完全分布式启发式方法仅关注节点本身信息，对到达的请求仅能进行本地处理。为了验证本文 MAAC 方法的优势，选择如下 2 个关联性较强的方法进行对比：1）集中式

40、DRL（CDRL）方法，该方法通过定期监测来获得网络状态，更新节点转发规则20。2）完全分布式启发式方法 GCASP，其与 MAAC方法有相似之处，每个节点都可以观察和控制传输的服务功能请求24。4.3结果分析本文在基本场景下对 MAAC 方法进行评估，在这些场景中通过控制变量来考虑不同因素对服务功能请求部署的影响。图 5、图 6所示为不同流量模式下入口节点不断增多、负载增加（即流量越来越大）时服务功能请求的完成情况。图 5 表示最简单的流量模式，流每间隔 10 个时间步长到达入口节点。从图 5 可以看出：随着入口节点的增加，在负载增大以及链路容量等因素的限制下，服务功能请求完成的成功率会呈现

41、下降趋势；所有方法都可以通过 1个入口节点成功处理所有的流，对于 4个及以上的入口节点，MAAC 方法明显优于其他方法，成功率提高了 20%左右；CDRL 方法依赖于最短路径的处理方式，而 MAAC 方法通过协调部署可以明显优化服务请求的成功率，在此过程中，MAAC 将链路容量考虑在内，并在不同路径上平衡负载，从而降低失败率；GCASP 更倾向于沿着最短路径处理服务功能请求，而且必须重新动态规划路径，其存在性能瓶颈且难以平衡计算资源。图 6 所示为由马尔可夫调制泊松过程（Markov-Modulated Poisson Process，MMPP）模拟的接近真实的请求流量模式下 3 种

42、方法的成功率。图 6 结果与图 5 简单流量模式下的结果相似，MAAC 方法可以很好地适应这种流量模式，效果明显优于其他方法，在 4 个入口节点时其成功率提高了 25%左右。图 7 所示为节点资源能力和服务请求成功率之间的关系。从图 7可以看出，在总体趋势上，随着节点资源能力的提高，成功率显著提升，当节点资源能力提高到一定程度时，即有足够资源处理服务功能请求的情况下，成功率基本上可以达到 100%。但是，在现实中网络规模巨大，供给完全充足的资源是不现实的。图 5简单流量模式下的服务请求成功率Fig.5Service request success rate in simple traffic

43、mode图 6泊松流量模式下的服务请求成功率Fig.6Service request success rate in Poisson traffic mode1272023年 8月 15日Computer Engineering 计算机工程供应商需要降低成本，因此，资源消耗也是优化指标的一部分。图 8中优化目标为服务请求成功率和资源消耗的加权和，以OF=1osucc-2oi为目标函数是为了最大化成功率同时最小化资源消耗，而这2 个目标是存在冲突的，从图 7 可知，若要提高成功率，提高节点资源能力是可行的，但会增加资源消耗。在资源受限的情况下，成功率和资源消耗的权重分布情况如图 8 所示（考虑在

44、 Abilene 网络上有4个入口节点的 MMPP流量），其中，X轴表示成功率所占权重。当1=1时，以实例的低利用率、资源的高消耗为代价，此时优先考虑部署成功率这一因素。从图 8可以看出，随着成功率权重的增加，总的目标函数呈现增长趋势。随着成功率的提升，降低被丢弃的请求数量，可以减少服务功能多次重复请求造成的资源消耗，因此，提升成功率权重，总体目标函数也随之呈现上升趋势。如图9所示，与其他方法相比，MAAC对所有1值实现了更好的总效用，表明 MAAC 能够很好地完成SFC部署。5结束语针对资源受限情况下大规模网络的服务功能链部署问题，本文提出一种集中式 DRL 和分布式方案相结合的部署方法。

45、通过 POMDP 模型表示网络状态，在每个节点上部署智能体，智能体在节点本地与环境进行交互；基于多线程的思想，整合节点经验进行集中式训练。实验结果表明，相比完全集中式DRL 和传统分布式策略，该方法的部署成功率较高同时能够节省部署成本，在现实大规模网络环境下无须人工干预和专业知识，可以灵活地适应不同的流量场景。下一步考虑先提升预测精度后根据预测结果进行动态部署，从而优化部署过程，进一步提高部署成功率。参考文献 1 JALODIA N，HENNA S，DAVY A.Deep reinforcement learning for topology-aware VNF resource predic

46、tion in NFV environments C/Proceedings of IEEE Conference on Network Function Virtualization and Software Defined Networks.Washington D.C.，USA：IEEE Press，2020：1-5.2 SUN S L，KADOCH M，GONG L，et al.Integrating network function virtualization with SDR and SDN for 4G/5G networks J.IEEE Network，2015，29（3）

47、：54-59.3 ZHANG C，JOSHI H P，RILEY G F，et al.Towards a virtual network function research agenda：a systematic literature review of VNF design considerationsJ.Journal of Network and Computer Applications，2019，146：102417.4 ZHOU Y C，YU F R，CHEN J，et al.Resource allocation for information-centric virtualiz

48、ed heterogeneous networks with in-network caching and mobile edge computing J.IEEE Transactions on Vehicular Technology，2017，66（12）：11339-11351.5 JACOBSON A G，VISWANATHAN R，PRAKASH C，et al.OpenNF：enabling innovation in network function control EB/OL.2022-06-05.https：/pages.cs.wisc.edu/akella/papers/

49、opennf.pdf.6 LAGHRISSI A，TALEB T.A survey on the placement of virtual resources and virtual network functions J.IEEE Communications Surveys&Tutorials，2019，21（2）：1409-图 7节点资源能力和服务请求成功率的关系Fig.7The relationship between node resource capacity and service request success rate图 8不同成功率权重下的目标函数值Fig.8Objecti

50、ve function values under different success rate weights图 9不同方法的目标函数值趋势Fig.9Trend of objective function values of different methods128第 49卷第 8期张冠莹，伊鹏，李丹，等：面向大规模网络的服务功能链部署方法1434.7 PEI J N，HONG P L，PAN M，et al.Optimal VNF placement via deep reinforcement learning in SDN/NFV-enabled networksJ.IEEE Jour

展开阅读全文