基于深度强化学习的软件定义...全中台Qo_S实时优化算法_李元诚.pdf

资源描述

1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期通信学报 Vol.44 No.5基于深度强化学习的软件定义安全中台 QoS 实时优化算法李元诚，秦永泰（华北电力大学控制与计算机工程学院，北京 102206）摘要：针对软件定义安全场景中的服务质量（QoS）实时优化方案因安全防护手段与业务场景不匹配而导致的适用困难和性能下降的问题，提出了基于深度强化学习的软件定义安全中台 QoS 实时优化算法。首先，将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中；然后，通过深度强化学习结合云计算技术提高安全中台的实时匹配

2、和动态适应能力；最后，生成满足 QoS 目标的安全中台资源实时调度策略。实验结果表明，与现有实时算法相比，所提算法不但保证负载均衡，还提高了 18.7%的作业调度成功率以提高服务质量，降低了34.2%的平均响应时间，具有很好的稳健性，更适用于实时环境。关键词：软件定义安全；深度强化学习；安全中台；服务质量中图分类号：TP393 文献标志码：A DOI:10.11959/j.issn.1000436x.2023090 Deep reinforcement learning based algorithm for real-time QoS optimization of software-de

3、fined security middle platform LI Yuancheng,QIN Yongtai School of Control and Computer Engineering,North China Electric Power University,Beijing 102206,China Abstract:To overcome the problem that the real-time optimization of the quality of service(QoS)in software-defined security scenarios was hind

4、ered by the mismatch between security protection measures and business scenarios,which led to difficulties in application and performance degradation.,a novel algorithm based on deep reinforcement learning for optimizing QoS in software defined security middle platforms(SDSmp)in real-time was propos

5、ed.Firstly,the frag-mented security requirements and infrastructure were integrated into the SDSmp cloud model.Then by leveraging the power of deep reinforcement learning and cloud computing technology,the real-time matching and dynamic adaptation capabilities of the security middle platform were en

6、hanced.Finally,a real-time scheduling strategy for security middle platform resources that meet QoS goals was generated.Experimental results demonstrate that compared to existing real-time methods,the proposed algorithm not only ensures load balancing but also improves job success rate by 18.7%for h

7、igh QoS and reduces the average response time by 34.2%,and it is highly robust and better suited for real-time en-vironments than existing methods.Keywords:software defined security,deep reinforcement learning,security middle platform,quality of service 0 引言近年来，信息接入终端设备种类不断丰富。物联网、边缘计算、机器学习技术飞速发展，互联

8、网与人类生活日益密切，数据面临的风险更加复杂多元，安全业务的碎片化越来越严重。碎片化的安全需求与安全场景是网络安全所面临的巨大挑战之一1，碎片化难题也使安全防护手段与业务场景不匹配的矛盾日益凸显2，安全产品的服务质量（QoS,quality of service）和实时响应能力越收稿日期：20221101；修回日期：20230204 基金项目：国网江西信息通信公司基金资助项目（No.52183520007V）Foundation Item:The State Grid Jiangxi Information&Telecommunication Company Project(No.521835

9、20007V)182 通信学报第 44 卷来越受到重视。关键信息基础设施安全保护条例指出了关键信息基础设施所面临的安全挑战及重点防护要求，传统城墙式防守不足以应对安全挑战，需要构建以安全中台为核心的，积极、主动、弹性、快速响应的安全防御体系，实现从安全监测、全局态势、能力调度到编排响应的防护理念。受到软件定义安全、安全中台的启发，文献3构建了面向全场景的软件定义安全中台（SDSmp,software defined security middle platform）架构，如图 1 所示，目的是解决安全资源利用率低、复用难，安全需求与安全场景高度碎片化等问题。SDSmp为解决安全防护手

10、段与业务场景不匹配问题提供了有效着力点。图 1 软件定义安全中台架构软件定义安全中台架构通过网络功能虚拟化（NFV,network functions virtualization）技术和云计算技术实现基础设施平面的虚拟化3。安全中台1-2平面兼具数据中台和业务中台的优点，能够消灭数据孤岛、提高资源复用率、降低开发难度和成本等。解决安全防护手段与业务场景不匹配问题，关键在于控制平面的资源调度模块。控制平面资源调度模块根据安全应用平面传来的安全业务的特点，分析所需的计算能力，由南向应用程序接口（API,application programming inter-face）通过中台资源池将其分配

11、给可用的安全中台资源执行，物理上最终在基础设施平面执行。安全中台平面为了平衡资源复用率、负载均衡和用户的 QoS，需要采用恰当的调度策略，高效地利用中台资源池来提高 QoS。目前，安全中台资源调度的研究很少，特别是对于实时情况，考虑到人们对于 QoS 的要求越来越高，提高 QoS 对于拥有大量服务器、每天收到大量用户请求的产品来说至关重要4。为了解决上述问题，本文提出了一种基于深度强化学习（DRL,deep reinforcement learning）的软件定义安全中台 QoS 实时优化算法，提供了算法的详细设计和实现过程，并对不同类型作业负载场景的大量模拟实验进行了广泛的性能评估。本文主要

12、贡献如下。1)架构层面，提出面向碎片化安全需求和安全场景的 SDSmp 自动控制框架，实现对安全中台资源的在线实时调度和自动化控制。2)建模层面，通过建立软件定义安全中台 QoS 优化模型，结合云计算技术和深度强化学习算法，使控制平面的调度器能够根据经验在线学习如何合理地选择安全中台资源，从而提高服务质量，缩短响应时间，实现负载均衡。3)实现层面，搭建了软件定义安全中台实验环境，将所提基于深度强化学习的软件定义安全中台QoS 实时优化算法，在不同的工作负载模式下与现有实时作业调度算法进行比较。实验结果表明，所提算法在平均响应时间和作业调度成功率方面普遍优于现有实时算法。1 相关工作软件定义领

13、域的资源调度主流研究集中在软件定义安全（SDSec,software defined security）和软件定义网络（SDN,software defined network）。文献5提出了一种 SDSec 架构开放安全设备的方法，提出使用前向传播（BP）神经网络来预测安全任务的执行时间的安全资源调度算法。文献6提出了一种基于软件定义安全的资源调度机制，设计了南向 API，提出了安全资源抽象和负载均衡调度算法。文献7研究了云计算中软件定义网络的资源分配机制。文献8提出一种动态调度算法，以最大限度地提高每次切换过程中的安全性，同时考虑切换成本和时延。文献9提出了在云中基于软件定义安全架构的安全

14、解决方案，设计实现了虚拟安全设备管理器来管理资源池中多种虚拟安全设备。文献10在 SDN场景中针对参数与场景不匹配的问题，提出了基于第 5 期李元诚等：基于深度强化学习的软件定义安全中台 QoS 实时优化算法 183 DRL 的 QoS 优化算法。文献11针对 SDN 中转发验证机制，优化通信与计算开销的问题。上述文献都对 SDSec 和 SDN 进行了不同层面的资源调度算法研究，但是并没有针对碎片化的安全需求与安全场景，解决安全防护手段与业务场景不匹配问题。深度强化学习具有较高的准确性，已经解决了很多困难的决策问题12-14，例如，用于云计算中的价格优化15。DRL 具有深度神经网络（DN

15、N）的优势，适用于具有高维状态空间和低维行动空间的复杂控制问题16。该技术已经证明了它在决策方面的强大能力，仅需要提前很短时间训练模型，就可以解决各种优化问题17。文献4提出对于变化的负载和复杂的决策情况，基于 DRL 的算法能在云端作业调度中表现出良好的性能，此外，DRL 已被部分用于解决云计算的资源调度问题。上述研究都取得了良好的效果，但它们并不是专为软件定义安全设计的。此外，安全虚拟化技术仍处于初级阶段，该领域目前主流的资源调度算法是在保持最后期限约束的情况下，对批量作业进行调度，而所提算法融合 DRL、SDSmp、云计算、安全中台等技术，在解决安全防护手段与业务场景不匹配问题的基础上，

16、实现软件定义安全场景中的实时 QoS 优化。2 软件定义安全中台 QoS 优化架构为了解决安全防护手段与业务场景不匹配问题，本文从图 1 所示的 SDSmp 出发，设计了基于深度强化学习的软件定义安全中台 QoS 优化架构。如图 2 所示，优化架构由用户、安全应用平面、控制平面、安全中台平面、基础设施平面组成。控制平面的北向为安全应用平面，南向为安全中台平面。控制平面中对于调度起关键作用的是资源调度模块的 DRL 调度器，其他关键部分如应用管理模块、信息收集器包括资源监视器和作业监视器，用于收集中台资源池中的安全中台资源和前台作业信息。图 2 基于深度强化学习的软件定义安全中台 QoS 优化

17、架构软件定义控制平面与基础设施平面分离的关键在于控制平面对虚拟化的中台资源池中的资源统一调度，以及安全中台、大中台小前台的宗旨18。碎片化的安全需求与安全场景都对资源调度提出了更高的要求，不同的调度算法对软件定义安全中台性能影响巨大。软件定义安全场景中，安全中台的主旨是资源可复用、能力服务化。以一次网络安全防御为例，安全中台将能力抽象为逐条服务，服务由相应能力的安全中台资源提供，安全应用的请求先转化为对应的逐类安全业务；然后，不同的安全业务用作业请求的形式向中台资源池请求所有需要的服务。日常使用中，用户在安全应用平面通过使用终端安全产品，以连续作业请求的方式提交用户需求。控制平面通过对用户的

18、请求解析，分析作业请求，如资源利用率、计算能力、内存、所需的响应时间、QoS等。安全中台资源按中台结构封装成虚拟机（VM,virtual machine），是逻辑上的执行单位，物理上的实际执行单位是具体的基础设施层安全设备，基础设施平面通过 NFV 技术和云计算技术，按功能映射到不同的虚拟机集群，实现逻辑设备无关。当一个作业到达时，控制平面的 DRL 调度器会在中台资源池中寻找合适的封装好的安全中台资源虚拟机来分配作业，并执行请求的作业。因此，184 通信学报第 44 卷作业调度器是核心模块，它在特定的时间间隔内根据用户提交的 QoS 要求做出决策。对应 DRL 的运作机制中，作业调

19、度器采取将前台作业分配给特定的安全中台资源池中某一具体虚拟机的行动，根据这一行动，由环境提供奖励并更新状态，迭代实现调度器的智能学习。在这个过程中，资源和作业监视器负责管理作业队列的工作量和性能，以及作业的执行和分配。为了对优化问题进行建模，本文给出了负载和安全中台资源定义，以及作业调度机制，参数含义如表 1 所示。表 1 参数含义参数含义 idJ 安全业务前台作业的 ID atJ 安全业务前台作业到达时间 tJ 安全业务前台作业类型（计算或 I/O 密集型）lJ 安全业务前台作业长度（所需的指令、服务）qJ 安全业务前台作业 QoS 要求 rtJ 安全业务前台作业响应时间 etJ 安全业

20、务前台作业执行时间 wtJ 安全业务前台作业等待时间 idV安全中台资源（VM）的 ID tV安全中台资源（VM）类型（计算或 I/O 密集型）pV处理速度（每秒处理的指令、服务）pcomV 安全中台资源（VM）的计算处理速度 pioV 安全中台资源（VM）的读写处理速度 itV安全中台资源（VM）的空闲时间 R 奖励（体现 QoS、作业调度成功率、响应时间等）Suc 作业调度成功率（作业是否调度成功满足 QoS）2.1 负载定义不同的安全应用请求首先在安全应用平面完成了并行分类和细化，转化为安全业务，安全业务提交的请求是高度解耦、低相关性、细粒度的简单作业，在调度过程中被分配给同样细粒度的

21、安全中台资源，它们以提供服务的形式完成每个作业的执行，最后统一组装，提高了并行性，很大程度上避免了因为传统作业间逻辑依赖、前驱后继关系和资源抢占带来的问题。假设在实时场景中的作业是独立的，在执行过程中没有其他作业相互干扰。为了解决该场景中状态空间维度过大导致的 DRL 调度器待选择动作太多的问题，引入一个面向事件的决策机制，在前台作业到达控制平面后立即对作业进行实时分析。这些作业信息被用来训练作业调度机制。对于提出的模型，本文考虑了 2 种典型的作业类型，即计算密集型作业和 I/O密集型作业。前台安全业务传来的作业 i 建模为 idattlq,iiiiiiJJJJJJ(1)2.2 安全中台资源

22、定义在作业的调度运行中，由于前台用户提交的作业可能属于不同的类型，它们在不同类型的安全中台虚拟机上有不同的响应时间。与作业负载类似，考虑 2 种安全中台资源，即 I/O密集型虚拟机1VMt连接基础设施层的最终执行资源（如监控器），计算密集型虚拟机2VMt连接基础设施层的最终执行资源（如数据加密解密模块）。每个安全中台资源定义为 idtppcomio,jjjjjVV VVV(2)2.3 作业调度机制调度决策后，当一个作业被分配给一个特定的安全中台VM实例时，该作业首先进入一个等待队列ijL。在不失一般性的前提下，假设每个虚拟机实例在任何时候都只能独占式执行其等待队列中的一个作业。作业调度器是

23、核心组件，负责根据最终用户的要求将作业分配给合适的中台资源池中的资源。如果等待队列为空，被分配的作业会顺利通过队列到达虚拟机，并被立即执行；否则先进入等待状态。根据上述假设，作业的响应时间将由作业执行时间etiJ和作业等待时间wtiJ两部分组成，响应时间可以表示为 rtetwtiiiJJJ(3)作业执行时间会因为调度到不同的安全中台资源而不同，对于某个固定类型的前台作业，由于每个安全中台资源在实际运行中作业的各部分都是并行的，影响作业在中台资源上执行时间的主要因素是该作业类型对应的长度，其他类型的长度相较之下很短，并在运行过程中不会产生实际的影响。因此，作业执行时间定义为 llcomioetp

24、pcomio,maxiijjiJJJVV(4)其中，lcomiJ是作业所需计算长度，lioiJ是作业所需第 5 期李元诚等：基于深度强化学习的软件定义安全中台 QoS 实时优化算法 185 I/O长度，pcomjV是安全中台资源计算处理速度，piojV是安全中台资源读写处理速度。可以看到，对应长度的作业类型是主要影响因素，但是作业有可能会被调度到合适或者不同类型的中台资源，类似于木桶效应。如果作业类型与资源类型匹配，安全中台资源对应类型的性能好，则作业执行时间短；如果不匹配，由于中台资源对应类型性能差，作业执行时间会长得多。另外，作业等待时间会影响资源调度，等待时间定义如下 wtet00,=

25、0,iinijnLJJ其他(5)如果等待队列为空，作业立即执行，否则需要先等待，等待时间是所有已到达的作业执行时间的累加。当前台作业iJ被调度到资源jV，并完成处理后，安全中台资源的空闲时间更新如下 itwtatetjiiiVJJJ(6)其中，atiJ是作业到达时间 2.4 QoS 感知的调度成功条件安全中台资源以服务的形式为软件定义安全中台赋能，满足 QoS 要求意味着安全中台资源成功给请求服务的安全业务提供安全防护能力。软件定义安全中台允许终端用户在提交前台作业请求时指定 QoS 的需求，安全业务往往有着严格的最晚响应时间的要求，实时环境中更是如此。实时响应要求高的云计算领域广泛采用作业

26、调度成功率指标来衡量实时环境中的 QoS，文献4,19明确给出式(7)所示的成功率。rtqrtq1,0,SuciiijiiJJJJ(7)文献15,20-22也指出响应时间低于 QoS 要求即认为此次调度成功。与其他研究保持一致，前台作业的 QoS 要求定义为qiJ，代表前台作业可接受的最大响应时间，超过此期限可能会导致安全业务失效。安全业务传来的每个前台作业都有一个执行期限（预期）。如果安全中台资源的执行结果能够在最后期限内返回，则本次调度执行成功，QoS 要求得到满足；否则，本次调度执行失败。3 算法设计为了解决目前主流的防护方案因为安全防护手段与业务场景的碎片化和不匹配导致适用困难和性能

27、下降的问题，如传统的控制论调度算法和基于启发式的调度算法均难以适用，本文提出基于深度强化学习的软件定义安全中台 QoS 实时优化算法。以自动化实时 QoS 感知的方式提高安全业务作业调度成功率，生成满足 QoS 要求的安全中台资源实时调度策略。安全中台平面还能使基础设施平面具有更高的负载均衡和更低的成本。此外，模型的训练阶段离线进行，运行决策阶段在线进行，既不占用安全中台资源，也能更好地适应多变的安全场景。深度 Q 学习（DQN,deep q-learning）是一种无模型的强化学习（RL）12算法，代理几乎不需要人为输入先验的知识。强化学习模型包括环境、代理、行动、状态、奖励，奖励函数为:Q

28、 SAR，目的是预测最大化奖励的行动，奖励函数是回报函数Return的基础。代理通过试错互动做出决定，每执行一个行动后，环境会移动到下一个新的状态1t。同时，代理将获得奖励t，实验重放机制是连续的4。回报函数表示为 0ReturnntttR(8)其中，是一个加权未来奖励的系数，用来指导模型更侧重于当下还是未来可能的奖励；Return是从开始到结束所有R的加权累加。训练最常用的损失是均方误差（MSE）损失，可表示为|211min(max(,)(,)QQiiBtAtttiRQSAQS A(9)其中，B是迷你经验池规模，评估网络参数Q在计算MSE损失时是固定的；itR是在状态tS下采取行动获得的奖励

29、；是折扣系数，(0,1。代理利用DNN产生的奖励回馈环境，在具体的状态上做决策，所有状态行动对相关。如图3所示，软件定义安全中台控制平面中，代理根据前台到达的安全业务需求的类型和奖励函数的权值W1W4，采取智能的调度决策将不同类型的作业分配给中台资源池中类型最合适的封装的中台虚拟化资源，代理获得复合奖励，DNN更新参数，中台资源池更新状态。186 通信学报第 44 卷图 3 基于深度强化学习的软件定义安全中台 QoS 实时优化算法架构在安全中台环境中，传入作业负载的属性和类型是无法预测的。对于这样的场景，基于RL的模型表现出色，因为它们仅需要极少人为输入的先验经验，如状态转移和其他

30、系统信息。在每次决策迭代中，RL代理观察当前的环境状态，然后使用DNN来估计所有中台资源池中可用的中台资源的Q值，从而产生自我训练的数据，提高未来的决策能力。根据智能体生成的策略(|)AS，代理将选择一个中台资源池中的实例来执行作业并获得奖励。由于状态空间很大，训练DNN的时间也可能很长。为了避免这种情况，本文算法使用面向事件的决策机制。当新的作业到达时，代理将做出在线决策。所有作业都遵循先来先服务的规则。作业到达后，所需的行动是在软件定义安全中台资源池中分配该作业。得益于在线决策机制，同样减少了可选行动的数量。所提算法分为决策阶段和训练阶段。决策阶段。DRL算法采用DQN技术，将作业分配给适

31、当的安全中台资源VM实例。根据特定的要求做决策，代理获得相应的奖励。代理检查更新当前的环境状态做出下一个可能的决定。以下是强化学习模型的重要组成部分。动作空间A是代理在特定环境中可以采取的所有行动的集合23。动作空间可以表示为所有中台资源池中的安全中台资源虚拟机实例总数的集合，包含的行动为将前台安全业务分配给安全中台资源池，长度可以表示为所有可用安全中台资源的数量4。每个虚拟机都有自己的队列来容纳传入的作业请求。对传入的作业请求没有长度限制。12VMVMiittttAA A(10)其中，1VMt和2VMt指不同类型的安全中台资源，给不同类型的前台作业提供安全服务，例如，设置1VMt为计算密集型

32、安全中台资源，2VMt为I/O密集型安全中台资源。动作itA为作业i选择合适类型的某一个具体的安全中台资源，因为选择有限所以维度通常不高。状态空间S是一个由代理可以根据行动更新的所有状态组成的集合，这些行动会产生有限的状态空间23。对于软件定义安全中台，一个新的前台安全业务提交的作业i在时间t到达，此刻的状态空间可以用安全资源的总状态和作业的当前状态描述。jobVMttSSSSS(11)其中，VMS是作业i在时间t到达时的所有安全中台资源的状态，jobS是当前需要被调度作业的状态，tS是当前所有待调度作业的状态与此时安全中台资源状态的集合。然而，由于在不同时间有无数种选择的可能，状态空间维度通

33、常很高，本文采用面向事件的决策机制解决此问题。行动选择和状态转移。本文模型考虑当前状态和DNN网络Q值中预测的未来状态采取行动。训练初，模型在安全中台资源虚拟机上用概率随机分配作业；随着算法的学习，不断变化。代理随机分配作业，用贪婪的策略探索几种可能性。这里将选择最高的预测Q值。随着作业的分配，状态将从tS转移到1tS。奖励函数itR。在当前状态tS下采取行动后，系统更新到状态1tS，并从环境中获得奖励itR。每次迭代中，环境都会给予奖励。奖励正负取决于行动的情况，代理能通过行动获得不同的奖励，奖励函数引导代理为作业调度框架的目标做出智能决策。在本文模型中，作业调度的高QoS是主要优化目标，使

34、作业调度成功率最大化。此外，对于满足QoS要求的每个作业，响应时间越短，服务质量就越好。基于此，定义一个作业的奖励如下 rtlrtqrtqp,0,iiijtiiiiRJJJJ VJJ(12)其中，rtiJ是作业响应时间，qiJ是QoS要求，liJ是作业长度，pjV是中台资源执行速度，当且仅当作业的响应时间低于QoS要求时，此次调度满足QoS要求，调度成功，否则失败。研究重点是软件定义第 5 期李元诚等：基于深度强化学习的软件定义安全中台 QoS 实时优化算法 187 安全领域中，QoS实时安全中台资源调度策略，解决因安全防护手段与业务场景不匹配造成适用困难和性能下降的问题。训练阶段。为了从经

35、验中学习，DRL将当前状态、行动、奖励和下一状态的过渡值存储在容量为N的重放存储器中。DNN的参数将在Q-learning更新时使用S进行更新，为避免时间复杂度过大设置决策集U，且U1。经验重放机制从随机样本中学习，减少数据相关性，减少的方差。使用目标网络生成Q值，采用目标网络和评估网络消除DNN的分歧和振荡，目标网络和评价网络结构相同，但参数不同14。训练的复杂性分析和开销与其他领域的深度学习应用一样，所提算法的训练过程是离线进行的，这样可以最大限度地节省成本，避免占用宝贵的安全中台资源。模型被训练出来以后，就可以进行实时调度，后续正常运行中不需要再次离线训练。具体来说，模型的隐藏层使用了2

36、0个神经元，当模型不大时，开销接近于0，而调度时间总小于10 ms，这实际上是可以忽略的。算法 1 基于DRL算法的训练过程输入初始值，学习率f，开始学习时间，迷你经验池S，重放时间输出最大Return最小损失()L的生成调度策略(|)AS 1)随机初始化行动价值评价网络(,|)QS AQ和行动者(|)S，权值为Q和 2)初始化目标网络(|),QS AQ和，权值为Q和 3)初始化容量为N的记忆重放 4)for每份在t时间到达的新作业ido 5)确定当前状态tS 6)for episode0,1,doM 7)以概率随机选择一个行动iA；否则argma)(|x,AQitAQ S A 8）根

37、据行动iA调度作业i，并将前台作业i添加到中台资源等待队列ijL中 9)计算动作iA获得的奖励函数tR 10)在下一个决策时刻1it状态更新到1tS 11)把转移参数111(,)itttS ARS存储到 12)ifit并且0 modif 13)if0 modi 14)重置QQ 15)end if 16)从N随机抽取样本S 17)forS中的每次转移111(,)itttS ARS 18)计算 1|targetmax(,)AQtttQRSA 19)通过最小化损失函数更新评价网络21()targ()et,ttitQLQBS A 20)通过梯度下降更新策略,()()tiQLSQAL

38、21)end for 22)逐渐减少直到下限 23)end if 24)end for 25)end for 4 仿真评估本节通过一系列实验来评估提出的基于深度强化学习的软件定义安全中台QoS实时优化算法性能，并与常见的5种在线作业调度算法进行比较。首先，对实验进行了合理的设置和必要的简化，保证实验顺利进行并具有说服力。然后，说明了建议的模型和对比算法中的参数，对5种对照算法、各个参数说明介绍，设置3种不同的工作负载模式来模拟真实情况，进行充分的仿真实验验证本文算法能适应不同类型的环境。为了进一步展示算法性能，本节还进行了更长时间窗口的实验。实验硬件软件配置为Python3、TensorFl

39、ow，使用2.7 GHz英特尔酷睿i5处理器和16 GB RAM的机器。4.1 实验设置 4.1.1 实验模拟环境考虑安全中台平面上已经被池化虚拟化的中台资源池，对于控制平面的资源池管理模块，显示为统一调用的不同类型不同性能的API。为了简化实验，将中台资源池的安全中台资源VM设置为计算密集型和I/O密集型，应用平面通过应用管理模块传入控制平面的作业是连续的计算密集型和I/O密集型。控制平面将北向的应用平面传来的作业调度到安全中台平面执行。安全业务作业如果被调度到同种类型的安全中台资源，则执行速度快；如果执188 通信学报第 44 卷行不同种类的作业类型，则执行速度慢。安全中台资源

40、VM平均处理能力如表2所示。表 2 安全中台资源 VM 平均处理能力安全中台资源计算型作业 I/O 型作业平均值/MIPS 标准差/MIPS 平均值/MIPS 标准差/MIPS 计算密集型资源 1 000 100 500 50 I/O 密集型资源 500 50 1 000 100 实验中，默认情况下，作业长度由平均值100 MIPS和标准差20 MIPS的正态分布生成，MIPS表示百万条指令每秒。每个作业的QoS要求（即可接受的最大响应时间）在250 ms和350 ms之间均匀随机生成。新到达作业类型在计算密集型和I/O密集型之间均匀地随机选择。作业到达率和作业类型的概率分布每5 s为

41、一个周期更新。对于每个模拟工作负载模式，实验都随机生成20个安全中台资源虚拟机实例，并追踪每个安全资源从开始运行到结束的整个过程，一共持续300 s。4.1.2 模型参数基于深度强化学习的软件定义安全中台QoS实时优化算法使用前馈神经网络构建底层DNN，该网络的全连接隐藏层具有20个神经元，设置记忆重放N=1 000的容量，迷你经验池S=40。采用AdamOptimizer算法对评价网络参数进行更新，学习速率为0.01。每50个决策集从评估网络克隆一次参数给目标网络。在记忆重放中累积了足够的过渡样本后，DNN开始进行训练。设置=500，f=0.1，=0.9，每轮学习迭代中从0.9降低到0.0

42、02。4.1.3 对比算法和评价指标为了评估提出的基于深度强化学习的软件定义安全中台QoS实时优化算法（后文简称DQN）性能，把它与5种常见算法进行对比，分别为随机调度算法、循环调度算法、最早调度算法、最佳拟合调度算法24和合理的调度算法25。常见的控制论调度算法中，随机调度算法（后文简称random）是一种非常简单的算法，它为每个作业选择一个随机的VM实例。循环调度算法（后文简称round-robin）主要侧重于如何公平地将作业调度到VM实例。因此，VM实例按循环顺序选择以执行传入作业。最早调度算法（后文简称earliest）是一种先来先服务的策略，其中新到达的作业调度到最早的空闲VM实例

43、。最佳拟合调度算法24（后文简称suitable）是一种贪心算法，尽量做出对于当下来说最好的选择。与最早调度算法相比，最佳拟合调度算法考虑2个因素，即时间因素以及所选VM实例的类型是否与新到达作业的类型匹配。该算法总是通过寻找局部最优解而不是整体最优解，将作业分配给类型适合的VM实例，来减少执行时间。也就是说，最佳拟合调度算法将新到达的作业分配给类型合适的所有VM实例中最先空闲的资源。合理的调度算法（后文简称sensibleR）25是一种自适应的启发式算法，它使用基于预期QoS的随机路由策略，即平均作业响应时间。作业分配到概率较高的VM实例，该实例在一段时间内平均响应时间较低。合理的调度算法需

44、要2个参数，即持续观察时间D和折扣系数a。本节实验设置D=5 s，a=0.7。此外，用3个不同的指标来评估每种算法的性能。第一个指标是作业调度成功率，用来衡量有多少作业被成功处理，直观体现QoS，当且仅当一个作业的响应时间低于预先定义的QoS要求时，此次调度满足QoS要求，调度成功。第二个指标是平均响应时间，用于衡量处理每个作业的平均响应时间。第三个指标是负载均衡率，用于衡量安全中台资源的利用率。一般来说负载均衡率越低，调度算法性能越好。换句话说，为了处理相同强度作业，高效的调度方法在调度过程中使用更少的资源，最终表现出较低的负载均衡率。4.1.4 工作负载模式设置3种不同的工作负载模式，工

45、作负载的作业到达率按照规律随机生成，3种模拟实验环境工作负载模式生成的参数如表3所示。作业类型概率分布和作业到达数量始终随着时间而变化。表 3 负载模式生成的参数负载模式到达率平均值标准差对应现实场景随机 0,100%53.53%29.51%随机使用低频 20%,40%30.07%6.36%低频使用高频 60%,80%70.32%5.57%高频使用 4.2 性能评估本文进行了更长时间窗口的实验，结果如表4所示，统计除了前40 s外长达2小时的实验结果。第 5 期李元诚等：基于深度强化学习的软件定义安全中台 QoS 实时优化算法 189 去除前40 s的原因是排除离线训练阶段对

46、实时调度、正式运行造成的干扰。与现有方法相比，所提算法在短暂的学习适应后，在各种不同的工作负载模式下都能通过QoS感知的方式把前台作业合理地调度给安全中台资源，以提高性能，具体来说既保证了服务质量和负载均衡，还提高了18.7%的作业调度成功率，同时降低了34.2%的平均响应时间。表 4 工作负载模式实验结果负载模式算法平均响应时间/s 作业调度成功率负载均衡率随机 random 0.807 51.3%75.4%round-robin 0.426 72.1%76.1%earliest 0.412 74.4%76.7%DQN 0.203 95.7%65.5%suitable 0.2

47、55 82.7%64.1%sensibleR 1.108 43.8%75.7%低频 random 0.237 99.5%29.8%round-robin 0.163 99.9%29.7%earliest 0.158 99.9%27.4%DQN 0.115 99.9%26.8%suitable 0.057 99.9%23.8%sensibleR 0.254 98.4%33.7%高频 random 11.637 11.4%98.4%round-robin 10.362 12.6%97.7%earliest 3.527 13.8%91.4%DQN 0.357 93.7%76.2%suitable 0

48、.658 70.3%73.8%sensibleR 11.246 12.2%98.1%4.2.1 随机工作负载模式本节采用大幅度波动的随机工作负载模式来测试模型的性能，实验结果如图4图6所示。如图5和图6所示，初始化的所有负载队列都为空，最初5 s涌入了大量的作业，所有方法表现不好但能正常运作；520 s，请求作业到达率较低，为每秒8%35%，所有方法均表现良好；25125 s，由于作业量突增并且保持在极高频状态，等待队列压力过大，出现了堵塞的情况，所有方法均受到影响；125300 s，作业不会持续高频输入，作业队列不再严重堵塞，中台调度有序进行，suitable和DQN效果最好。图 4 随机

49、工作负载模式作业到达率图 5 随机工作负载模式平均响应时间图 6 随机工作负载模式作业调度成功率总体来看，50 s之前，所提算法处在积极的训练阶段，与其他算法性能接近；50 s左右，可以看到DQN逐渐完成了训练，适应了该工作负载模式，并和其他算法拉开了差距；之后无论是高频还是低频模式，均效果最佳，优于suitable。如表4中随机负载模式所示，DQN取得了最低的平均响应时间、略次于suitable的负载均衡率和最高的作业调度成功率。suitable表现次之，random和sensibleR表现相对较差。4.2.2 低频工作负载模式为了测试算法在安全中台大多数日常低频静息使用场景中的性能

50、，本节实验设置了低频工作负载模式，实验结果如图7图9所示。结合表4190 通信学报第 44 卷中低频负载模式，低频状态下几种算法均表现良好，平均响应时间普遍较低，均拥有较高的作业调度成功率和较低的负载均衡率，suitable算法取得最低的平均响应时间，表现最好。如图8所示，最初40 s训练阶段后，DQN平均响应时间逐渐超过除了suitable以外的其他算法，接着贴近于表现最优的suitable平稳运行。如图9所示，在低频模式下仅sensibleR的作业调度成功率有些波动，所有算法总体表现良好。图 7 低频工作负载模式作业到达率图 8 低频工作负载模式平均响应时间图 9 低频工作负

展开阅读全文