基于深度强化学习的雾计算容器整合.pdf

资源描述

1、基于深度强化学习的雾计算容器整合党伟超,王珏(太原科技大学经济与管理学院,太原030024)通信作者:王珏,E-mail:S摘要:在雾计算系统架构基础上,针对数据中心高能耗、应用任务负载的随机动态性以及用户对应用的低时延要求,提出一种基于 A2C(advantageactor-critic)算法的以最小化能源消耗和平均响应时间为目标的容器整合方法,利用检查点/恢复技术实时迁移容器,实现资源整合.构建从数据中心系统状态到容器整合的端到端决策模型,提出自适应多目标奖励函数,利用基于梯度的反向传播算法加快决策模型的收敛速度.基于真实任务负载数据集的仿真实验结果表明,该方法能够在保证服务质量的同时有效

2、降低能耗.关键词:雾计算;资源调度;深度强化学习;容器技术;建模与仿真引用格式:党伟超,王珏.基于深度强化学习的雾计算容器整合.计算机系统应用,2023,32(8):303311.http:/www.c-s- Consolidation Based on Deep Reinforcement Learning in Fog Computing EnvironmentDANGWei-Chao,WANGJue(EconomicsandManagementAcademy,TaiyuanUniversityofScienceandTechnology,Taiyuan030024,China)Abstr

3、act:Inviewofthehighenergyconsumptionofdatacenters,therandomdynamicsofapplicationtaskload,andthelowlatencyrequirementsofusersforapplications,onthebasisofthefogcomputingsystemarchitecture,acontainerintegrationmethodbasedonadvantageactor-critic(A2C)algorithmisproposedtominimizeenergyconsumptionandavera

4、geresponsetime.Themethodusescheckpoint/recoverytechnologytomigratecontainersinrealtimetoachieveresourceintegration.Anend-to-enddecisionmodelfromdatacentersystemstatetocontainerintegrationisconstructed,andanadaptivemulti-objectiverewardfunctionisproposed.Thegradient-basedbackpropagationalgorithmisuse

5、dtoacceleratetheconvergencespeedofthedecisionmodel.Simulationresultsbasedonrealtaskloaddatasetsshowthattheproposedmethodcaneffectivelyreduceenergyconsumptionwhileensuringservicequality.Key words:fogcomputing;resourcescheduling;deepreinforcementlearning;containertechnology;modelingandsimulation随着云计算、

6、无线传感器技术等新一代信息技术的快速发展,基于物联网支持的大数据应用遍及工业、医学、军事、教育及城市管理等各个领域1.例如,无人驾驶技术通过传感器融合技术、人工智能、定位系统、自动控制系统等的协同工作,实现汽车的自动驾驶.当无人驾驶汽车行驶时,需要在高速动态下对周围环境做出迅速反应,所以动态任务的响应时间是一个极其重要的指标2.由于传统的云计算难以满足地理上分散分布的物联网设备对数据处理低时延、高带宽和实时决策的高需求,雾计算应运而生,通过将计算和存储能力配置在网络边缘对时延敏感型任务进行及时的处理,从而减少网络数据传输量并降低时延,云雾层的协同计算为超高密度的信息接入提供了便捷3.作为雾计算

7、核心基础设施,近年来我国数据中心规模计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(8):303311doi:10.15888/ki.csa.009189http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:太原科技大学博士科研启动基金(20202063);太原科技大学研究生教育创新项目(SY2022063)收稿时间:2023-01-19;修改时间:2023-02-23;采用时间:2023-03-08;csa 在线出版时间:2023-06-

8、09CNKI 网络首发时间:2023-06-09ResearchandDevelopment研究开发303随着海量数据的产生而不断扩大,2019 年全国数据中心行业耗电总量约为 600 亿700 亿千瓦时,预计 2030年总能源消耗量将在 2019 年基础上翻一番4,数据中心成为能源消耗和碳排放大户.而数据中心的资源利用率低是造成数据中心高能耗的主要原因之一,据统计数据显示处于空闲状态的主机要消耗其能耗峰值的 70%,大多数活动主机的平均 CPU 利用率仅为 10%50%5.因此,通过合理的资源调度提高数据中心的资源利用率并满足用户的低时延需求对于数据中心节能、推进可持续发展有着重要意义.应用

9、任务可以通过容器技术和容器自动编排工具实现资源虚拟化和服务自动化部署6.容器和虚拟机都是虚拟化技术,与虚拟机相比,容器更加轻量便于在不同操作平台上快速部署.我们将应用任务实例化为 Docker容器,部署到云雾计算节点上,利用检查点/恢复技术7实时迁移容器来调整容器与物理主机之间的映射关系.如何合理地调度容器,充分利用雾计算资源,本质是一个资源分配调度问题.针对此问题目前已有一些相关研究.Beloglazov 等8将虚拟机整合问题分解为主机过载检测、主机欠载检测、虚拟机选择和虚拟机放置4 个子问题,并提出了多种自适应启发式虚拟机整合算法,验证了其在数据中心节能和保证用户服务质量方面的优越性.这类

10、启发式算法简单高效,但是相对静态,不适用于任务负载动态波动的环境.为解决这个问题,Han 等9将虚拟机的动态资源管理问题转化为求解大规模 Markov 决策过程,以最小化数据中心能耗为目标,促进了虚拟机迁移决策的准确性.然而,这类基于状态模型的调度决策方法很难对实际的云计算系统建立精确的状态模型,并且随着云计算系统规模的扩大,将导致状态空间爆炸.Liu 等10针对任务到达、环境状态及奖励的不确定性,提出了悲观-乐观在线调度方法(pessimistic-optimisticonlinedispatch,POND),利用上限置信区间算法来最大化估计累计奖励,基于虚拟机队列悲观地跟踪约束违反,应用最

11、大权重方法进行虚拟机调度,使系统达到最大化奖励和避免违反约束之间的平衡.在雾计算框架基础上,戴志明等11为提高智能工厂的数据处理效率和资源使用率,提出改进的遗传算法(GA)对智能工厂中容器应用进行调度分配,将资源分配问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程,进而寻求最优解.韩奎奎等12针对雾环境下用户的高服务质量需求,使用神经网络模型来近似目标值,并利用改进的遗传算法进行最优任务调度决策,为资源调度方法提供了新的借鉴.但遗传算法等进化方法属于无梯度优化方法13,通常需要更长的时间来收敛.此外还有一些研究针对雾计算网络的其他性能进行优化,如任务完成率、公平性和信息安全等1

12、416.因此,目前仍缺少一种在不稳定环境中快速适应,同时兼顾低能耗和低响应时间的资源调度方法.基于以上研究,为了对雾计算资源调度进行准确、可扩展的建模,同时加快模型的收敛速度,本文在雾计算基础架构上,提出了一种基于深度强化学习的容器整合方法(containerconsolidationbasedondeepreinforcementlearning,DR-CI).该方法利用神经网络近似器以数据中心基础设施能耗和平均响应时间最小化为目标进行精确建模,基于 A2C 算法构建了从系统资源状态到容器迁移策略的端到端决策模型,提出自适应多目标奖励函数,智能体通过与环境的实时交互、学习产生最优的调度策略,

13、利用基于梯度的反向传播算法加快决策模型的收敛速度,从而获得能耗和响应时间的最优性能.得益于强化学习本身的自主学习能力,DR-CI 还能支持不同场景下的目标优化.1问题描述与建模 1.1 雾系统架构本文考虑一个标准的分布式异构的雾计算环境,如图 1 所示,它主要由雾计算资源层、雾资源管理层和物联网层组成.雾计算资源层由云子层和雾子层的计算节点组成,云子层具有丰富的计算资源能够处理和存储大量数据,但距离终端用户远,通信延迟较高;雾子层的主机更接近终端用户,与雾代理和网关设备的通信延迟低,但计算资源较少,本文考虑不同层之间的主机通信延迟,忽略同一层的主机之间的通信延迟.雾计算资源层由雾资源管理层控制

14、,雾资源管理层由数据库、智能体、资源监测服务和容器编排服务等模块组成.智能体接受来自物联网层网关设备的任务请求,根据优化目标周期性地做出容器整合决策,将时延敏感、计算量小的任务根据调度决策分配到雾层进行处理,将时延不敏感、计算量大的任务根据调度决策分配到云层进行处理.计算机系统应用http:/www.c-s-2023年第32卷第8期304研究开发ResearchandDevelopment雾计算资源层云子层雾子层DB资源监测服务智能体容器编排服务雾代理网关设备物联网设备雾资源管理层物联网层图 1雾系统架构 1.2 动态任务负载模型=300 sItIt1LtWt1ItNtAtAt=N

15、tWt1At1Lt用户在任意时刻产生任务请求,且任务对 CPU、RAM、网络带宽和时延的需求随着终端设备的移动性而不断发生变化.将一天 24h 以为一个调度间隔划分为 288 个连续调度间隔,第 t 个调度间隔用表示.动态任务负载模型如图 2 所示,在调度间隔结束时,完成的任务集记为,等待队列的任务记为.在调度间隔,生成的新任务记为,活动任务集(主机上执行的任务)记为,由新任务,前一调度间隔的等待任务和剩余活动任务组成,表示为.完成的任务 Lt新任务 Nt 和等待任务 Wt1调度间隔 It1调度间隔 It活动任务 At1活动任务 AtNtWt1At1Ltt(time)图 2动态任务负载模型 1

16、.3 问题描述H=h0,h1,hN1IthiU(hti)C(hti)At=at0,at1,atjatjU(atj)在数据中心,任务运行在容器实例上,所有容器部署在主机上.任务执行后,销毁它所对应的容器实例,释放资源.数据中心的主机是异构的,假设在基础设施层共有 N 台主机,主机集合表示为,主机的计算资源特征由主机的类型决定,包括 CPU、RAM、磁盘和网络带宽等.在任意调度间隔,主机的资源利用表示为,最大容量记为;假设活动任务数量的上限为 M,活动任务集合表示为.活动任务的资源利用表示为.statet actiontactiont调度器定义为系统状态到调度决策之间的映射模型:.调度决策包含新任

17、务的主机U(atj)+U(hti)C(hi)actiontrewardt分配和活动任务的迁移决策.在第一个调度区间,由于没有等待任务、剩余活动任务和完成任务,所以模型只对新任务进行分配决策.同时,调度决策需满足约束条件,即当目标主机最大容量可以容纳预定的任务时,才执行调度决策,将已执行的调度决策记为.调度器的性能通过奖励函数来量化,因此寻找最优调度决策的过程即最大化奖励函数过程,如式(1)所示:statetmaxtrewardt actiont(1)1.4 能耗模型Ithi研究表明,主机的电能消耗主要集中在 CPU 上,且主机的功率与其 CPU 利用率呈线性关系17.在任意调度间隔,主机的

18、CPU 利用率可表示为资源利用与资源最大容量的比值,如式(2)所示:UR(hti)=U(hti)/C(hi)(2)主机的实时功率情况可根据其 CPU 利用率进行线性表示,如式(3)所示:P(hti)=Pidlehi+(PmaxhiPidlehi)UR(hti)(3)PidlehiPmaxhiIthi Hhi 0,1其中,和分别为主机在 CPU 利用率为 0 和 100%时的功率.因此在调度间隔,数据中心基础设施层的总能耗可表示为所有活动主机的能耗之和,如式(4)所示.由于雾节点和云节点能源供应源的异构性,给主机乘以一个系数,表示雾节点和云节点的能源消耗.TECHt=hiHhit+tPhi(t)

19、dt(4)1.5 时延模型C=c0,c1,cihciItLt+1在执行某个任务的过程中使用到的所有容器应用定义为集合,完成任务的时延包括任务对应容器的总执行时间和总迁移时间(容器被放置在目标主机上)两部分.容器的属性包括创建时间startTime、销毁时间 destroyTime、IPS、RAM、磁盘带宽和所在主机等.在调度间隔,所有完成任务的总执行时间表示为所对应容器的执行时间之和,如式(5)所示:TETLt+1t=ajLt+1ciC(destroyTimestartTime)(5)若容器分配到不同的节点,则要进行迁移,迁移时2023年第32卷第8期http:/www.c-s-计算机系

20、统应用ResearchandDevelopment研究开发305Ity(i)ciy(i)=1BWhcilatencyhcilatencyhcici间包括云雾节点间的通信延迟和传输容器的时间两部分.忽略同一层(云子层或雾子层)上主机之间的通信延迟,只考虑不同层之间主机的通信延迟.容器传输的时间基于网络带宽和容器 RAM 大小.在调度间隔,所有完成任务的总迁移时间表示为所对应容器的迁移时间之和,如式(6)所示.其中为 0 或 1 的变量,如果容器进行迁移,则,否则为 0;指容器所在主机的带宽,和分别指容器迁移前后所在主机的通信延迟.TMTLt+1t=ajLt+1ciCy(i)(BWhci

21、RAMci+|latencyhcilatencyhci|)(6)It因此在调度间隔,完成任务的总时延为总执行时间与总迁移时间之和,如式(7)所示:TRTLt+1t=TETLt+1t+TMTLt+1t(7)2基于 A2C 算法的容器整合决策模型 2.1 模型整体架构DR-CI 方法中容器整合决策模型的基本架构如图 3所示.该方法基于 A2C 算法进行模型优化,智能体包括演员(actor)和评论家(critic)这 2 部分.演员根据数据中心资源状态和动态负载需求产生动作策略,评论家根据当前环境状态计算状态价值,容器编排服务模块执行演员做出的动作策略后,数据中心计算此次容器迁移所导致的服务质量等性

22、能变化所对应的奖励,评论家根据状态价值和奖励估算出动作状态价值,若动作状态价值大于状态价值,则说明该动作策略是积极的;若动作状态价值小于状态价值,则说明该动作策略是消极的.其中,状态价值指从当前状态开始到结束的期望奖赏;动作状态价值指在当前状态容器编排服务模块执行演员给出的容器整合动作后,能耗和响应时间等指标变化所对应的期望累积折扣奖赏;我们将动作状态价值与状态价值的差称为优势(advantage).评论家通过计算优势评估演员决策的良好程度,随着演员与评论家两个模型的不断交互,他们各自的角色变得越来越好,决策模型更加准确statetactiont离线训练阶段,假定当前时刻为 t.资源检测服务检

23、测到环境状态,演员策略网络根据当前环境状态产生容器迁移决策,评论家计算当前状态价值V(st)rewardtstatet+1statet+1rewardtstatetactiontQ(st,at)A(st,at)=Q(st,at)V(st)0A(st,at)0,容器编排服务完成容器迁移后,系统计算此次容器迁移所导致的服务质量等性能变化所对应的奖赏值,并转换为下一时刻状态.评论家中值网络根据和计算出在迁移策略下的动作状态价值.若优势函数,则说明该动作是积极的,若优势函数,则说明该动作是消极,进而优化调整策略网络.雾计算资源层雾计算节点云计算节点HostHostC CCC CCC CCC CC雾资源

24、管理层资源检测服务容器编排服务奖励智能体评论家优势演员动作状态状态值动态负载及 SLA 请求图 3容器整合决策模型架构 2.2 模型输入Itstatet(Ht)(At)It1(actiont1)statet=(Ht),(At),(actiont1)(Ht)U(hti)|i,hti Ht(At)U(atj)|j,atj AtIt1(actiont1)statet=(Ht),(At),(actiont1)在各调度间隔,容器整合决策模型的输入是雾计算环境的系统状态,它包括数据中心主机的资源利用情况、容器的资源需求情况以及在前一间隔容器所在主机的分布情况,表示为一个二维的特征矩阵.其中,主机的资源利用

25、情况为一个 NF 的特征矩阵,包括主机 CPU 利用率、RAM、带宽和磁盘读写速率等特征,F 指主机特征数量;容器的资源需求情况为一个 MF的特征矩阵,包括任务对 CPU、RAM、带宽等的需求,F指容器特征数量;在前一间隔容器所在主机分布情况表示为一个 MN 的分布矩阵.综上,系统状态表示为一个 NF+MF+MN 二维的特征矩阵.2.3 模型输出It在各调度间隔,容器整合决策模型根据系统环境计算机系统应用http:/www.c-s-2023年第32卷第8期306研究开发ResearchandDevelopmentstatetAt状态为活动任务做出调度决策,任务对应的主机优先级列表如

26、式(8)所示:actiont=h0h1hia0a1.ajh00h10hi0h01h11hi1.h0jh1jhij,aj At,hi H(8)hijajhiIt1其中,表示活动任务对应主机的优先级,令优先级最高的主机为该任务对应的目标主机.若容器在前一调度间隔所在主机的编号与调度策略所给出的编号相同,则无需迁移;否则,要进行迁移.2.4 奖励函数rewardtrewardt为降低雾数据中心的能耗并满足用户的低时延要求,在学习模型中,奖励函数主要从能耗和响应时间 2 个方面来量化,便于定义,将各项指标规范化为 0,1.It1)平均能源消耗(averageenergyconsumption,AEC

27、).在任意调度间隔,基础设施层所有工作状态的雾节点和云节点的平均能源消耗(容器任务完成后,每个节点会立即进入休眠状态),根据能耗模型可表示为式(9):AECHt=hiHhit+tPhi(t)dthiHhiPmaxhi()(9)hi 0,1PmaxhihiItPmaxhiPmaxhi其中,由于雾节点和云节点能源供应源的异构性,系数用来区分表示雾节点和云节点,为主机在调度间隔的最大功率,以最大功率为标准对总能耗进行归一化.ItLt+12)平均响应时间(averageresponsetime,ART).在任意调度间隔所有完成任务的平均响应时间,根据时延模型可得平均响应时间式(10),按最大响应时

28、间对其进行归一化.ARTLt+1t=ajLt+1ResponseTime(aj)|Lt+1|maxtmaxajLt+1ResponseTime(aj)(10)Itrewardt在任意调度间隔,奖励函数为平均能源消耗和平均响应时间指标的加权函数,如式(11)所示,平均能源消耗和平均响应时间越小,则奖励越多.rewardt=(AECt1+ARTt1),0+=1(11)3基于策略梯度学习的随机动态调度 3.1 神经网络结构(a|s;)v(s;)利用神经网络的优势对目标函数进行精确建模,并使用基于梯度的方法使其快速收敛.神经网络分为公共网络、策略网络(演员)和价值网络(评论家)这 3 部分,均由标准的

29、前馈神经网络组成,如图 4 所示.网络的输入为一个大小为 NF+MF+MN的二维状态特征向量(见第 2.2 节),输入首先被平整化,经过公共网络 2 个全连接层 fc1、fc2 充分提取特征后,传给演员和评论家网络.演员策略网络为 2 层全连接神经网络,用于进一步增强演员策略网络的表达能力.由于容器和主机的上限均为 50,fc4 层的输出被重塑为一个二维的 5050 向量,以此保证模型产生的调度决策能使容器映射到有效主机上.便于计算,在第2 维度上对其应用 Softmax 函数进行归一化,让所有值都在 0,1,且每一行中所有值的和为 1.评论家价值网络通过 2 层全连接层,输出是一个常数,表示

30、价值函数.神经网络训练过程中,折扣因子=1,学习率 1=2=0.0001,优化器选择 AdamW.神经网络结构及参数如表 1 所示.flatten2 6001281282562 50064fc11111111fc2fc3fc5fc6fc45050actionvalue评论家 v(s;)演员 (a|s;)Reshape+Softmax图 4DR-CI 网络结构表 1神经网络结构及参数网络类型网络名称输入节点输出节点激活函数公共网络fc12600128Softplusfc2128128Softplus策略网络fc3128256Softplusfc42562500Softmax价值网络fc51286

31、4tanhfc6641Sigmoid 3.2 学习策略特征向量从输入层到演员、评论家的输出,属于一个神经网络的前向传播;然后通过基于梯度的反向2023年第32卷第8期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发307传播来更新网络参数,演员、评论家网络的参数训练过程如下.v(s;)Loss()V(st;)V(st+1;)2/2t V(st;)V(st+1;)V(st;)v(st;)tstatrtst+1t+1V(st+1;)rt+v(st+1;)v(s;)1)价值网络通过最小化损失函数来更新网络参数,其中,定义为时序差分误差.为价值

32、网络在时刻对状态价值函数的估计;给定当前状态,智能体执行动作后,环境会给出奖励并转换为新的状态,利用蒙特卡洛近似得到时刻状态价值函数的时序差分目标函数为.通过最小化损失函数来优化价值网络,如式(12)所示:Loss()=tv(st;)1tv(st;)(12)(a|s;)A(st,at)=Q(st,at)V(st)Q(st,at)J()=Q(st,at)V(st)ln(at|st;)atst+1rtst+1rt2)策略网络通过优势函数来评判其策略的优劣,为动作价值函数.其策略梯度表示为.当智能体执行动作之后,环境给出新的状态的的奖励;利用和对状态动作价值函数做蒙特卡洛近似可得式(13):J

33、()rt+v(st+1;)V(st;ln(at|st;)=tln(at|st;)(13)因此,策略网络参数更新过程如式(14)所示:2tln(at|st;)(14)3.3 离线训练算法伪代码本文通过 A2C 算法来完成容器整合决策模型的训练.训练算法的伪代码如算法 1 所示.算法开始阶段,初始化演员和评论家网络;初始化一个缓冲池,用于存放当前状态、动作、下一时刻状态及奖赏;初始化累计折扣因子(steps13).ss(Ht)(At)It1(actiont1)ststactiontst+1本文采用时序差分的学习方法来训练决策模型.每个回合(steps420),首先随机产生容器负载和分配决策,得到

34、环境初始状态.每个回合都包含 T 步处理,表示环境从状态出发,每个回合历经 T 次与智能体的交互(steps619).每个阶段,首先根据数据中心主机的资源利用情况、容器的资源需求情况以及在前一间隔容器所在主机的分布情况得到环境的当前状态.演员的策略网络 g 根据状态产生动作(step9).执行动作后,产生环境下一调度间隔的状态(steps10,11).计算单步奖赏,并将相关结果存储到缓冲池中(steps12,13).然后,每次从缓冲池中随机抽取 K 条记录,利用时序差分方法计算下一时刻的状态价值,通过最小化损失函数训练评论家网络(steps1417).演员网络通过最大化优势函数更新参数(s

35、tep18).网络参数更新后继续执行下一回合.算法 1.DR-CI 容器调度决策模型训练算法(a|s;)v(s;)step1.随机初始化策略网络和价值网络;statrtst+1step2.初始化一个重放缓冲池 R,用于存放、和;12step3.初始化累计折扣因子、和;step4.forepisode=1to Kdoactionstep5.随机产生任务负载和容器到主机的分配决策;step6.fort=1toTdost(At),(Ht),(actiont1)step7.;actiont(st|)step8.策略网络产生调度决策;V(st;)v(st;)step9.价值网络产生状态价值;t+1ste

36、p10.按高斯分布产生时刻的任务负载;st+1(At+1),(Ht+1),(actiont)step11.;rt(TECt+ARTt)step12.计算奖励;(st,at,rt,st+1)step13.在 R 中存储;step14.从 R 中随机采样 K 个样本;V(st+1;)rt+v(st+1;)step15.计算;Loss()12V(st;)V(st+1;)2step16.计算;1tv(st;)step17.;2tln(at|st;)step18.;step19.endforstep20.endfor4性能评估 4.1 实验参数=0.5=1通过在 PyCharm 平台上进行仿真实验与基线

37、方法进行比较.设定雾计算基础设施层共有 50 台主机,云、雾节点数量比为 8:2,基于以往的一些研究经验设定雾节点的延迟时间为 3ms,云节点的响应时间为 76ms.此外,由于云雾环境是异质的,雾主机和云主机的计算能力有很大的差异,主机 CPU、RAM 以及 SPEC 基准下的平均耗电量参数如表 2 所示.模型离线训练过程中,设定奖励函数中权重,折扣率,自适应学习率从 0.0001 开始,使用 AdamW 优化器,防止优化循环卡在局部优化区.4.2 数据集工作负载数据集由运行在 BitBrain 分布式数据中心的 1750 台虚拟机的资源利用指标的真实痕迹组成.该数据集由每个时间戳(相隔 5m

38、in)的工作负载信息组成,包括请求的 CPU 内核数量、CPU 利用率、请求的 RAM 与网络(接收/传输)带宽等特征.基于用户需求的随机性和物联网设备的移动性,任务的计算量和计算机系统应用http:/www.c-s-2023年第32卷第8期308研究开发ResearchandDevelopmentItNt带宽需求随时间变化.本文考虑一个动态任务生成模型,在每个区间开始,新任务集的大小遵循高斯分N(n,2n)(n,2n)=(5,1.5)N(t,2t)(t,2t)=(20,3)布,每个任务的需求长度为,.表 2实验设置中主机参数节点类型服务器核数 MIPSRAM(GB)不同CPU百

39、分比的规格功率(W)010%20%30%40%50%60%70%80%90%100%雾层计算节点HitachiHA800021800824.3 30.4 33.7 36.6 39.6 42.2 45.6 51.8 55.760.863.2DEPORaceX340H420001683.2 88.2 94.3101107112117120124128131云层计算节点DellPowerEdgeR8203220004810496788218237268307358414446DellPowerEdgeC6320642660641071492258964770580292410711229 4.3 评

40、估指标评估指标除前文提出的总能源消耗 TEC、平均能源消耗 AEC 和平均响应时间 ART(见第 2.4 节)外还包括服务水平目标违反率(fractionofservicelevelobjectviolation,SLOV).(T)服务水平目标违反率 SLOV 定义如式(15)所示.其中是以 DR-CI 方法为基线的第 95 百分位响应时间.SLOVt=TLt+1(ResponseTime(T)(T)TLt+1(T)t|Lt+1|(15)4.4 实验分析为验证本文提出的基于深度强化学习的 DR-CI 方法的有效性,将其与局部回归-最小迁移时间方法(localregression-minimum

41、migrationtime,LR-MMT)、中位数绝对偏差-最大关联方法(medianabsolutedeviation-maximumcorrelation,MAD-MC)、悲观-乐观在线整合方法 POND 和基于遗传算法的整合方法 GA 进行比较研究.从图 5 可以看出,在容器整合决策模型离线训练过程中,平均损失函数不断下降,并且在第 800 次迭代开始稳定收敛,趋近于 0,意味着雾计算中心的性能在不断提高.图 6 和图 7 分别为 100 个时间间隔内在 50 个物理节点的总能源消耗和平均能源消耗情况.如图 6 所示,DR-CI 方法的总能耗最小,约为 0.64kWh,POND算法次之,

42、约为 0.68kWh.从图 7 可以看出,基线方法中 POND 方法的平均间隔能耗最少,约为 0.1829kWh,LR-MMT 方法的平均间隔能耗最好,约为 0.1981kWh;DR-CI 方法平均间隔能耗约 0.1597kWh,比 POND低 12.7%,比 LR-MMT 低 19.4%.这是因为 DR-CI 方法整体调度更能充分利用计算资源且更稳定.00255075100125150175200250500750EpochsAverage loss1 0001 2501 500图 5DR-CI 模型训练0.90.80.70.6DR-CIGAPOND LR-MMT MAD-MCTEC(kWh

43、)图 6总能源消耗图 8 和图 9 分别为 100 个时间间隔内在 50 个物理节点的平均响应时间和服务水平目标违反率情况.这里响应时间是指从物联网传感器创建任务到网关接收响应的时间,从图 8 可以看出,在基线方法中,MAD-MC 方法的平均响应时间最低,为 54.88s,POND 的平均响应时间最高,达到 83.82s,DR-CI 方法平均响应时间为 50.76s,比 MAD-MC 方法低 7.5%,比 POND方法低 39.44%.又因为响应时间是服务质量的关键指标,所以如图 9 所示,在基线算法中,MAD-MC 方法的平均响应时间最低,其服务水平目标违反率也是基线2023年第32卷第8期

44、http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发309中最低的为 6%,DR-CI 的 SLOV 为 4.7%,要优于其他基线算法.0.350.300.250.200.150.10DR-CIGAPOND LR-MMT MAD-MCAEC(kWh)图 7平均能耗消耗160140120100804060DR-CIGAPOND LR-MMT MAD-MCART(s)图 8平均响应时间0.120.100.080.060.040.020DR-CIGAPOND LR-MMT MAD-MCSLOV图 9服务水平目标违反率图 10 和图 11 分别为

45、100 个时间间隔内完成任务数和各种容器整合方法的决策时长.如图 10 所示,DR-CI 方法和 MAD-MC 在特定时间内完成任务数最多.从图 11 可以看出,基线方法中 LR-MMT 方法由于要进行大量数据拟合的原因,其决策时间相比其他方法约高出一个数量级,POND 和 LR-MMT 方法决策时间最短,分别为 0.29s、0.44s;DR-CI 方法次之,决策时间约为 33s.这是因为 DR-CI 方法的决策模型网络结构产生了更多的计算开销.4003002001000DR-CIGAPOND LR-MMT MAD-MCNCT图 10完成任务数4030204010DR-CIGAPOND LR-

46、MMT MAD-MCST(s)图 11决策时间5结论本文针对雾环境任务负载不稳定性、数据中心高能耗以及用户低时延需求等问题提出了一种基于深度强化学习的容器整合方法 DR-CI,构建了直接从系统状态到容器整合的决策模型,避免了容器整合复杂的中间过程,增强了使用的灵活性.基于真实负载数据进行仿真实验,实验结果表明 DR-CI 方法能够在降低能耗的同时保证系统服务质量.未来工作中,本文计划在真实的雾环境中实现这个模型,结合实际的任务负载特征来优化容器调度决策模型.参考文献段妍婷,胡斌,余良,等.物联网环境下环卫组织变革研究1计算机系统应用http:/www.c-s-2023年第32卷第8

47、期310研究开发ResearchandDevelopment以深圳智慧环卫建设为例.管理世界,2021,37(8):207224.doi:10.19744/ki.11-1235/f.2021.0117陈晨.云计算、雾计算和边缘计算在智慧交通中的应用.数字通信世界,2019,(9):211.doi:10.3969/J.ISSN.1672-7274.2019.09.1742王凌,吴楚格,范文慧.边缘计算资源分配与任务调度优化综述.系统仿真学报,2021,33(3):509520.doi:10.16182/j.issn1004731x.joss.20-05843郭丰,吴越,王娟.中国数据中心可再生能

48、源应用发展报告(2020).北京:中国电子学会,2020.4Liu XC,Wang C,Zhou BB,et al.Priority-basedconsolidation of parallel workloads in the cloud.IEEETransactions on Parallel and Distributed Systems,2013,24(9):18741883.doi:10.1109/TPDS.2012.2625AmaralM,PoloJ,CarreraD,et al.Performanceevaluationofmicroservicesarchitecturesus

49、ingcontainers.Proceedingsof the 14th IEEE International Symposium on NetworkComputing and Applications.Cambridge:IEEE,2015.2734.6罗艺,江凌云.移动边缘计算环境下容器实时迁移方法.通信技术,2022,55(5):599604.doi:10.3969/j.issn.1002-0802.2022.05.0087BeloglazovA,AbawajyJ,BuyyaR.Energy-awareresourceallocationheuristicsforefficientma

50、nagementofdatacentersforCloudcomputing.FutureGenerationComputerSystems,2012,28(5):755768.doi:10.1016/j.future.2011.04.0178HanZH,TanHS,WangR,et al.Energy-efficientdynamicvirtual machine management in data centers.IEEE/ACM9TransactionsonNetworking,2019,27(1):344360.doi:10.1109/TNET.2019.2891787Liu X,L

展开阅读全文