云数据中心时延优化的数据放置方法.pdf

资源描述

1、2 0 2 4年1期2 0 1 2 0 2 4年第4 6卷第1期云数据中心时延优化的数据放置方法施怡然卢胜黄峰基金项目:马鞍山学院校级重点科研基金项目:云环境下资源优化的数据布局算法研究(Q S 2 0 2 2 0 0 4)作者简介:施怡然(1 9 9 4-),硕士,助教,研究方向为智能交通、云计算,E-m a i l:s y r 9 4 0 1 0 11 6 3.c o m(通信作者)。(马鞍山学院安徽马鞍山2 4 3 1 0 0)摘要针对云数据中心数据获取效率低和服务器资源浪费问题,为优化云平台的数据访问和资源利用,文中提出了一种时延优化的云数据中心数据放置(L O P)方

2、法。文中首先分析了云平台的性能,建立了云平台的资源利用和数据获取时间模型。然后基于非支配排序算法N S G A-实现了全局最优的数据放置策略,对数据资源进行合理部署,有效利用服务器的资源,提高了数据获取的效率。最后通过C l o u d S i m仿真平台,对提出的数据放置方法进行了仿真和对比实验。实验结果表明,L O P方法能明显提高云服务器的资源利用率,缩短任务的数据获取时间。关键词:云数据中心;数据放置;数据获取时间;N S G A-中图分类号 T P 3 0 8D a t aP l a c e m e n tM e t h o df o rD e l a yO p t i m i z

3、a t i o n i nC l o u dD a t aC e n t e r sS H IY i r a n,L US h e n ga n dHUAN GF e n g(M aa n s h a nU n i v e r s i t y,M aa n s h a n,A n h u i 2 4 3 1 0 0,C h i n a)A b s t r a c t A i m i n ga t t h ep r o b l e m s o f l o wd a t a a c q u i s i t i o ne f f i c i e n c ya n dw a s t e o f s e

4、 r v e r r e s o u r c e s i nc l o u dd a t a c e n t e r s,i no r d e rt oo p t i m i z et h ed a t aa c c e s sa n dr e s o u r c eu t i l i z a t i o no fc l o u dp l a t f o r m s,t h i sp a p e rp r o p o s e sat i m e-d e l a y-o p t i m i z e dc l o u dd a t ap l a c e m e n t(L O P)m e t h

5、o d.F i r s t l y,t h ep e r f o r m a n c eo f t h e c l o u dp l a t f o r mi s a n a l y z e d,a n d t h e r e s o u r c eu t i l i z a-t i o na n dd a t a a c q u i s i t i o n t i m em o d e l o f t h e c l o u dp l a t f o r ma r e e s t a b l i s h e d.T h e n,t h eg l o b a l o p t i m a l d

6、 a t ap l a c e m e n t s t r a t e-g y i s r e a l i z e db a s e do n t h en o n-d o m i n a n t s o r t i n ga l g o r i t h mN S G A-,w h i c h r e a s o n a b l yd e p l o y s d a t a r e s o u r c e s,e f f e c t i v e l yu t i l i z e ss e r v e r r e s o u r c e s,a n d i m p r o v e s t h e

7、e f f i c i e n c yo fd a t aa c q u i s i t i o n.F i n a l l y,t h ep r o p o s e dd a t ap l a c e m e n tm e t h o d i ss i m u l a t e da n dc o m p a r e dw i t h t h eC l o u d S i ms i m u l a t i o np l a t f o r m.T h e e x p e r i m e n t a l r e s u l t s s h o wt h a t t h eL O Pm e t h

8、 o dc a ns i g n i f i c a n t l y i m p r o v e t h er e s o u r c eu t i l i z a t i o no fC l o u da saS e r v i c ea n ds h o r t e nt h ed a t aa c q u i s i t i o nt i m eo f t h e t a s k.K e y w o r d s C l o u dd a t ac e n t e r,D a t ap l a c e m e n t,D a t aa c q u i s i t i o nt i m e,

9、N S G A-0 引言近年来,社会数据资源量呈指数级增长,传统的信息系统难以应对海量的数据分析任务。分析任务需采集、分析和处理各种数据,以满足用户服务质量需求。然而,由于终端设备的硬件限制,大批量的任务和数据需要在远程的云数据中心进行处理1-2。与终端设备相比,云数据中心有丰富的物理资源(如存储资源、计算资源和通信资源),为任务部署和数据存储提供了弹性和按需支配的资源。1 系统模型本文基于F a t-T r e e网络拓扑结构构建了云平台资源模型,并建立数据放置的延迟目标问题。1.1 云平台资源模型本文针对一个为存储资料而提供弹性资源的面向大数据的云平台。假设当前云平台中共有N个数据集需要被

10、放置在服务器上,用集合的形式将这些数据集表示为R=r1,r2,rN。目前,有M个任务到达了云平台需要被执行,同样用集合将这些任务集表示为T=t1,t2,tM。一个任务可能需要访问多个数据集来执行,而一个数据集也可能被多个任务访问。因为整个云平台中共有p个p o d,所以共有p3/4个服务器可以供这些任务集和数据集使用。基于此,设W为服务器的总数量,W=p3/4,则云平台中的服务器就可以用集合PM=p m1,p m2,p mW 来表示。因此,用集合A=a1,a2,aN 来表示每个数据集的放置策略,且每个放置策略anPM(1nN)。同时,用集合B=b1,b2,bM 来表示每个任务集的放置位置,且每

11、个放置位置bmPM(1mM)。因此,本文将根据已知的任务放置策略B来求解数据集的放置策略A。1.2 数据获取模型在云平台中,任务集和数据集都由放置在服务器上的2 0 2 2 0 2 4年1期虚拟机托管,数据和任务所需要的资源以及服务器的容量,均可以虚拟机实例的数量来表示。设cw为第w个服务器p mw的容量,而n代表数据集rn对资源的需求量。任务需要通过获取服务器上的数据来完成执行3。因此,云平台的数据放置策略需要考虑任务获取数据的时间。设hm,n为判断任务集tm是否需要访问数据集rn的标识,如式(1)所示:hm,n=1,tm需要访问rn0,其他情况(1)设fm,n为任务tm在一段执行周期R内访

12、问数据rn的访问频次,则在一段执行周期内的总访问频次Q就可以通过式(2)得到:Q=Mm=1Nn=1hm,nfm,n(2)在F a t-T r e e拓扑结构中,数据传输中发生的交换次数与数据和任务间的分布情况相关。设E S(p m)为服务器连接的边缘交换机,P o d(p m)表示该边缘交换机所处的p o d,则数据传输中的交换次数就可以分为4种情况。(1)任务tm和数据rn部署在相同的服务器上,即an=bm。(2)tm与rn部署在不同的服务器上,但它们所在的服务器连接在相同的边缘交换机上,即anbm,E S(an)=E S(bm)。(3)tm与dn部署的服务器所连的边缘交换机不一样,但同属一

13、个p o d,即E S(an)E S(bm),P o d(an)=P o d(bm)。(4)tm与rn部署的服务器所连的边缘计算机不属于同一个p o d,即P o d(an)P o d(bm)。基于上述分析,tm获取一次rn所需要的时间tm,n(X)如式(3)所示:tm,n(X)=0,an=bm2nbP Ehm,n,anbm,E S(an)=E S(bm)2nbP E+2nbE Ahm,n,E S(an)E S(bm),P o d(an)=P o d(bm)2nbP E+2nbE A+2nbA Chm,n,P o d(an)P o d(bm)(3)其中,n表示rn的数据量,bP E表示服务器到

14、边缘交换机的带宽,bE A表示边缘交换机到聚合交换机的带宽,而bA C则表示聚合交换机到核心交换机的带宽。In,w(X)是判断数据rn是否放置在p mw的标识,如式(4)所示:In,w(X)=1,如果w=an0,其他情况(4)云平台的平均数据获取时间T(X)如式(5)所示:T(X)=1QNn=1Mm=1tm,n(X)fm,nn(5)1.3 面向云平台的目标问题建立为解决云平台的数据放置问题,本文在已知任务放置策略的基础上,为降低数据获取时间而对数据进行了放置策略优化。经过上述分析,多目标问题可按照式(6)-式(8)来表示:m i nT(X)(6)s.t.an=1,2

15、,W(7)Nn=1nIn,m(X)cw(8)2 数据放置策略本文提出了一种时延优化的数据放置策略。与其他数据放置策略使用的算法相比,N S G A-在云平台中得到了广泛的应用,因为它能准确、及时地找到可行解中的最优解,并将其应用于数据放置策略的搜索4。首先,对数据的放置策略进行编码,给出优化问题的适应性函数。接着,采用快速非支配排序和比较算法进行精英选择。最后,采用传统遗传算法的交叉和变异运算来更新下一代种群。基于遗传算法,可以考虑如下的编码方法。每条染色体代表数据资源的放置策略,对于每一条染色体,如果不满足公式(7)和公式(8)中的策略约束,则直接舍弃该策略染色体。种群中有效染色体的个数为S

16、,每一代的染色体数为G。对S个染色体进行交叉变异操作,生成2G-S个染色体,当前的染色体数为2G。使用N S G A-来进行下一代的选择。(1)S t e p 1-非支配划分。基于有效染色体策略,计算相应的数据获取时延。根据适应值进行非支配性选择,将2G个染色体划分为若干非支配性层。(2)S t e p 2-初始选择。从最高非支配层开始,每次随机选择一个染色体进入下一代,直至选出G个染色体。记最后非支配层为第l层,如果l层的所有染色体均被选择进入下一代,则选择操作结束,否则进行优化选择。(3)S t e p 3-优化选择。记l层共有m个染色体被选择,首先除去这m个染色体。利用这2G个策略对应的

17、适应值来计算极值。对于每个适应值,需要基于极值实施归一化操作。之后,基于参考点将染色体关联,根据关联的参考点的个数,对第l非支配层的染色体进行划分。从最高层开始随机选择染色体,直至选出m个染色体5。对于每一次迭代执行交叉、变异和基于N S G A-的选择操作,直至迭代完成。3 实验评估本文通过一组复杂的模拟和实验来评估所提出的L O P方法的性能。首先,介绍了实验的参数设置及对比方法。然后,评估了不同数据规模、资源使用情况、数据获取时间等对对比方法和本文方法的影响。3.1 实验配置在模拟中,使用6个不同规模的数据集进行实验,数据集的规模设置为2 0 0,4 0 0,6 0 0,8 0 0,1

18、0 0 0和1 2 0 0。为衡量L O P的性能指标,这里采用了3种广泛使用的数据放置方法进行对比。移动信息2 0 2 4年1期2 0 3 (1)B a s e l i n e。数据集根据服务器的顺序排列,当前一个服务器已满时,剩余的数据集将放置在下一服务器上。重复该过程,直到放置完所有数据集。(2)F i r s tF i tD e c r e a s i n g l y(F F D)。数据集首先根据数据集请求按降序排序,然后将排序后的数据集放在服务器上。如果当前服务器的剩余资源不足以满足数据集的资源需求,则将数据集放置在具有足够资源的服务器上。重复该过程,直到放置完所有数据集。(3)B

19、e s tF i tD e c r e a s i n g l y(B F D)。数据集和服务器首先根据资源请求和空间按降序排序,然后将已排序的数据集放置在已排序的服务器上。如果服务器的剩余资源不满足数据集的资源需求,则数据集将根据最佳原则放置在有足够资源的服务器上。重复该过程,直到放置完所有数据集。3.2 实验结果评估与分析本节详细分析了B a s e l i n e,F F D,B F D,L O P在相同实验环境下的表现,相应结果如图1、图2所示。图1 不同数据集规模下的服务器占用数量对比图2 不同数据集规模下的数据获取时间对比(1)资源使用比较。通过数据放置方法将所有数据集放置在服务器

20、上之后,即可实现虚拟机实例的占用。图1显示了B a s e l i n e,F F D,B F D,L O P在不同数据集规模下的云平台服务器占用情况。资源使用是根据使用的服务器数量和每个服务器中使用的虚拟机实例来计算的。使用的服务器越少,虚拟机实例占用越多,资源使用率就越高。从图1可以看出,本文方法(L O P)始终保持着较低的服务器占用数量。换言之,与其他数据放置方法相比,L O P减少了未占用虚拟机实例的数量,减少了资源浪费。(2)数据获取时间比较。图2为B a s e l i n e,F F D,B F D,L O P在不同数据集规模下的数据获取时间比较。为实现资源使用和数据获取时间之

21、间的平衡,数据集可能会放置在远离任务的服务器上。从图2可以看出,L O P的数据获取时间在小规模数据集中的效果并不明显,但随着数据规模的增加,其性能最多可以提升2 0%左右。4 结语当前,海量的数据信息存储对云平台的资源分配、云平台内部的数据放置提出了巨大的挑战。本文首先分析了云平台中的资源利用和数据获取时间模型,提出了时延优化的最小化问题。接着采用改进的非支配排序算法N S G A-,有效缩短了任务的数据获取时间。最后通过实验评估和比较分析,验证了所提方法的有效性。参考文献1L I NB,Z HU F,Z HANGJ,e ta l.At i m e-d r i v e nd a t ap l

22、 a c e-m e n t s t r a t e g y f o r a s c i e n t i f i cw o r k f l o wc o m b i n i n ge d g e c o m-p u t i n ga n dc l o u dc o m p u t i n gJ.I E E E T r a n s a c t i o n so nI n-d u s t r i a l I n f o r m a t i c s,2 0 1 9,1 5(7):4 2 5 4-4 2 6 5.2QUX,X I AOP,HUAN GL.I m p r o v i n gt h ee

23、n e r g ye f f i c i e n c ya n dp e r f o r m a n c eo fd a t a-i n t e n s i v ew o r k f l o w si nv i r t u a l i z e dc l o u d sJ.T h eJ o u r n a lo fS u p e r c o m p u t i n g,2 0 1 8,7 4(7):2 9 3 5-2 9 5 5.3J I AOL,L IJ,DU W,e ta l.M u l t i-O b j e c t i v eD a t aP l a c e m e n tf o rM

24、u l t i-C l o u dS o c i a l l yAw a r es e r v i c e sCI n t e r n a t i o n a lC o n f e r e n c eo nC o m p u t e rC o mm u n i c a t i o n s.2 0 1 4:2 8-3 6.4张鹏,王桂玲,徐学辉.云计算环境下适于工作流的数据放置方法J.计算机研究与发展,2 0 1 3,5 0(3):6 3 6-6 4 7.5李学俊,吴洋,刘晓,等.混合云中面向数据中心的工作流数据放置方法J.软件学报,2 0 1 6,2 7(7):1 8 6 1-1 8 7 5.移动信息

展开阅读全文