基于深度强化学习的个性化任务处理方法.pdf

资源描述

1、收稿日期:基金项目:国家自然科学基金面上项目();长春市科技发展计划重点研发计划项目(Z Y );吉林省第四批青年科技托举人才项目(Q T );吉林省科技发展计划重点研发项目(G X);吉林省发展和改革委员会产业技术研究与开发专项基金资助项目(C );吉林省高等教育教学改革研究项目(J L J Y );吉林省教育科学“十四五”规划课题(GH );长春工程学院博士创新团队科研启动基金作者简介:朱亚飞(),男,汉族,江苏淮安人,长春工业大学硕士研究生,主要从事移动云计算方向研究,E m a i l:z y f e i c o m 通信作者:赵佳(),男,汉族,吉林长春人,长春工程学院教授,博士,主

2、要从事大数据分析、人工智能技术应用、区块链等方向研究,E m a i l:z h a o j i a c c i t e d u c n 第卷第期长春工业大学学报 V o l N o 年月 J o u r n a l o fC h a n g c h u nU n i v e r s i t yo fT e c h n o l o g y A p r D O I:/j c n k i c n /t 基于深度强化学习的个性化任务处理方法朱亚飞,胡明,丁言,赵佳(长春工业大学计算机科学与工程学院,吉林长春 ;长春工程学院人工智能技术研究院,吉林长春 )摘要:为实现移动

3、云计算背景下多端个性化任务处理的目标,首先通过P C A等预处理方法萃取数据特征信息实现数据域分类.再通过深度强化学习方法结合多端模型的返回特征完成云计算中心个性化任务处理(P T P)方法模型的训练.实验及仿真结果表明,该方法不仅实现了个性化任务处理的目标,而且可以提高模型收敛速度,降低算法复杂度.关键词:移动云计算;深度学习;强化学习;大数据分析中图分类号:T P 文献标志码:A文章编号:()P e r s o n a l i z e d t a s kp r o c e s s i n gm e t h o db a s e do nd e e pr e i n f o r c e m

4、e n t l e a r n i n gZ HUY a f e i,HU M i n g,D I N GY a n,Z HAOJ i a(S c h o o l o fC o m p u t e rS c i e n c e&E n g i n e e r i n g,C h a n g c h u nU n i v e r s i t yo fT e c h n o l o g y,C h a n g c h u n ,C h i n a;A r t i f i c i a l I n t e l l i g e n c eT e c h n o l o g yR e s e a r c

5、hI n s t i t u t e,C h a n g c h u nI n s t i t u t eo fE n g i n e e r i n g,C h a n g c h u n ,C h i n a)A b s t r a c t:I no r d e r t oa c h i e v et h eg o a lo fm u l t i t e r m i n a lp e r s o n a l i z e dt a s kp r o c e s s i n gi nt h ec o n t e x to fm o b i l ec l o u dc o m p u t i n

6、 g,f i r s t l y,d a t ad o m a i nc l a s s i f i c a t i o ni sa c h i e v e db ye x t r a c t i n gd a t af e a t u r ei n f o r m a t i o nt h r o u g h p r e p r o c e s s i n g m e t h o d ss u c h a s P C AT h e n c o m p l e t et h et r a i n i n g o ft h ep e r s o n a l i z e dt a s kp r o

7、 c e s s i n g(P T P)m e t h o d m o d e lo fc l o u dc o m p u t i n gc e n t e rt h r o u g ht h ed e e pr e i n f o r c e m e n t l e a r n i n gm e t h o dc o m b i n e dw i t ht h er e t u r nc h a r a c t e r i s t i c so f t h em u l t i t e r m i n a lm o d e l E x p e r i m e n t a l a n ds

8、 i m u l a t i o nr e s u l t ss h o wt h a t t h i sm e t h o dn o to n l ya c h i e v e s t h eg o a l o fp e r s o n a l i z e dt a s kp r o c e s s i n g,b u t a l s o i m p r o v e s t h ec o n v e r g e n c es p e e do f t h em o d e l a n dr e d u c e s t h ec o m p l e x i t yo ft h ea l g o

9、 r i t h mK e yw o r d s:m o b i l ec l o u dc o m p u t i n g;d e e p l y l e a r n i n g;s t r e n g t h e nl e a r n i n g;b i gd a t aa n a l y s i s 引言随着深度学习技术的不断发展,使得传统机器学习算法的设计以及实现受到了极大的启发.利用传统机器学习方案与深度学习模型的组合优化能够为领域内问题的解决以及性能的提升做出贡献.将深度学习的数据特征感知能力与强化学习的决策能力相结合,可以得到更加智能的数据处理方法 .通过神经网络获得对未来状

10、态的预测,并结合强化学习的决策能力获得目标值.常见的用于解决增强学习在智能体与环境进行交互,从而得到最优解决方法的算法有Q L、D QN、D D P G、T R P O等,其中D QN凭借其通用性,算法设计时通过经验池解决了相关性及非静态分布问题的优点而被广泛使用 .但是传统D QN算法也有不足之处,其不能用于解决连续性控制问题,且模型收敛速度较慢,各类别样本数据之间的差异会影响模型的结果,同一模型针对不同数据类别处理时不能以目标类别的基准准确率进行再训练过程.为了探索使用组合价值函数的方式对强化学习可能产生的影响,文献在确定性动态假设的情况下,证明了在熵正则化强化学习中可以实现最优价值函数

11、的组合,并验证了其结果可能对强化学习设置的影响.文献引入一种新的离线策略算法,通过限制动作空间和批量约束策略使得深度强化学习算法可以学习与当前策略不相关的数据集合,并尽最大可能使得处理结果接近于当前策略.文献研究了分布式强化学习算法,他们提出使用分解统计估量并统计回报分布的框架和使用衰减时间表,根据学习分布计算探索奖励的方式进行研究.为了得到优化后的深度强化学习方法在算法模型中的效果,文献提出使用F P O方法寻找环境变量分布中预期最优的策略,通过使用贝叶斯优化的方式解决因环境变量的转化对模型效果产生的抑制作用.针对移动云计算环境下多端任务处理问题,文中提出一种基于深度强化学习的个性化任

12、务处理方法,分为数据预分类阶段和个性化任务处理阶段.)数据预分类阶段.我们所提出的模型是初次运行,其对应的数据处理模块应分为两种情况:其一,基础模型未初始化阶段,针对输入的数据不进行数据的预处理,通过适当放弃模型精度的手段来保证得到的基准模型具备更高的普适性;其二,在基准模型构建完成时,对将要分发的数据做分类处理以提高各个端设备模型的处理精度.)个性化任务处理阶段.利用深度强化学习算法对处理的数据完成进一步的拟合以提高模型的准确率,将各个端设备的模型在数据中心完成特征数据的提取融合,提高基准模型的准确率.实验结果表明,P T P方法能够实现目标数据的特征提取,准确进行分类,将其正确分发给各个端

13、设备,实现基准模型的优化迭代过程,完成个性化任务处理的目标.数据预处理模型针对样本数据集D采用主成分分析法进行处理,通过数据矩阵Z X在高维度向低维度映射的过程中得到输入数据矩阵所保留的最大信息量,以此得到数据所处分类信息.P C A预处理得到预处理数据矩阵在N维映射的具体过程为C o vZ X,N()ni(Z XiZ X)(NiN)n.()然后计算出协方差矩阵的特征值所对应的特征向量,C,()其中,有N个,且每一个i对应都有一个i,同时这些会按降序进行排序,最终取出前k个所对应的特征向量,由此我们能够得到一组特征组,(),(),(k,k),其中特征向量,k 组成特征向量矩阵V,然后,我们将原

14、始特征(xi,xi,xin)T经过此特征组投影之后得到新特征(yi,yi,yin)T,其计算公式为Yp TZ X.()通过对输入数据进行预处理,从而得到数据所处分类的主要特征信息,为后续将其定向分配到处理特定类别的移动设备奠定基础.个性化任务处理方法的基本思想移动云计算环境下,云数据中心与移动云计算中心的数据交互以及个性化任务处理的问题可以形式化为:云数据中心T与移动设备R组成计长春工业大学学报第卷算域Dn,其中DnDT,DR,DRin,式中:i由移动设备的数量决定,ni.云数据中心提供算法模型M所需训练数据PP,P,P i,式中:i基础模型的原始数据.云数据中心将算法模型M

15、m,m,mk下发给各个移动设备,其中k由移动端使用的数量决定;云计算中心将处理后的数据分发到各个设备,各移动端使用算法模型进行应用的过程中会产生临时数据Pil,其中i代表当前移动设备,l代表该移动设备产生的数据量,因此对应移动设备的影响数据可以假设为PPi,Pi,Pil.在移动端设备脱离云数据中心的情况下,各个移动设备使用自身更新数据Pil完成算法模型mi的更新;在移动端设备能够联系到云数据中心的情况下,云数据中心T对各个设备返回的数据P进行处理,得到更新后的数据PP,P,P,式中:数据清洗后获得的数据总量.我们使用更新后的数据P完成算法模型M的更新,进而将M下发给各个移动设备再次使用.随着处

16、理数据与模型的下发以及应用数据上传这一过程的完成,便实现了P T P的一次迭代过程.同时在云数据中心收到一个待处理任务Q,该类任务共有w个类别,QCw,Cw,Cw,式中:C每个类别的概率;Cw需要分析的待处理任务最有可能所处类别的概率.这一过程是从系统架构的角度对移动云计算技术的一次重新定义,它并非像传统的移动云计算技术那样,云数据中心不具备算法模型计算功能,且不能对不同类型的任务做定向分派处理,它是从计算机体系结构的角度出发,对移动云计算环境和智能计算的一次高效扩展.移动云计算背景下的P T P方法)数据预处理,通过对原始特征向量的计算得到对应特征组的特征值矩阵.)提取特征分量进行特征聚合,

17、完成初始化定向分配操作,初始化模型的训练及基准模型的下发.)模型个性化处理马尔科夫过程的抽象,完成状态值、奖励值、经验回放池及状态转移方程的计算.可将其处理过程抽象为一个马尔科夫决策过程,其核心为P Dt|DtP Dt|D,D,Dt.()为了评判当前状态的优劣程度,我们还需引入奖励参数R来表示某一时刻t下的状态:MRt Rt kkRtk.()在每一个子马尔科夫过程中想要求解出价值函数的值,可以使用矩阵的形式表示不同状态下反馈度的大小.qs,a()EkkRtk|Sts,AtaERt vSt()|Sts,Ata.()结合上式马尔科夫的状态价值函数方程,为了得到模型个性化任务处理过程中的最优策略,可

18、以使用价值迭代的方式求解最优解,则基于贝尔曼方程的最优价值迭代方程可以表示为vk s()m a xaE rvk s()|s,am a xas,rp(s,r|s,a)r vk(s).()重复),通过两个结构相同但参数不同的神经网络得到所有状态表的预测,实现模型个性化任务处理的数据特征提取.由于输入的是高维数据,想要模拟从输入到输出的所有过程,可以引入深度神经网络来近似求取所有的值,则由上述公式推导可得Qs,a()Ts,a()X(l a y)xX(l a y )y(x y m xs,a()q y).()在算法模型开始训练时,深度神经网络生成A值与S G D算法同时进行工作,针对神经网络生成的数据

19、并非独立同分布的,所以,我们并不能立刻使用,而是需要先将其存储在经验池中,通过随机取样的方式打乱生成数据之间的相关性.第期朱亚飞,等:基于深度强化学习的个性化任务处理方法同时,为了避免生成数据标签的神经网络与进行值计算的神经网络相同而引起模型震荡与发散的风险,需要构建一个独立于计算网络的全新的神经网络,由此可得iLii()Es,a();srm a xaAs,a,;i()()iQ(s,a,;i).()各移动端返回数据,模型信息完成模型特征的提取,模型迭代后再次下发各设备.)重复),可得个性化任务处理模型的局部自更新以及模型整体优化,实现移动云计算背景下的个性化任务处理的参数指标性能提升.实验实验

20、描述硬件英特尔双核C P U(GH Z),G主存,T硬盘,移动设备G o o g l en e x u s台及其他辅助硬件设备.软件使用W i n d o w s操作系统,基于p y t h o n的t e n s o r f l o w框架进行训练,使用M a t l a bR a进行仿真训练.实验内容经过优化后的模型对处理该领域下特定类别的数据起着重要作用,为了测试提出方法的性能,通过以下两个方面对模型进行评估:)不同样本类别未分配到指定移动端处理;)个性化任务处理性能分析.结果及分析在这组实验中,旨在验证不同样本类别在未分配到处理对应任务的移动端时,模型准确率的变化情况.实验中为

21、了对照样本数据经过P T P方法处理后正确分配与否的差异情况,在样本类别数量增加的过程中,同时进行正确定向分配任务数据至对应移动端和任务类别错误分配的对照实验.由于数据域类别的错位分配存在多种情况,所以对获得的准确度进行取平均操作,只观察实验结果的变化趋势,而忽略它们在数据细节上的表现.然后通过各组实验结果与P T P方法进行比对,获得相同领域内不同类别的数据错位分配的性能变化情况.样本类别错误分布占比如图所示.从图可以发现,在样本类别数量为的情况下,移动端获得样本数据后,由于该数据类别域与移动云计算中心处理数据模型不同,初始阶段样本处理性能较差,但是随着系统运行时间的增加,移动云计算中心获得

22、该样本数据的特征,由于个性化任务处理模型的特性,该类别数据可以被移动端处理,模型的性能有明显提升.显然,由于样本类别数量为和的情况下,在分配移动端的过程中存在更多的分配情况,P T P的性能提升符合样本类别量为时的趋势,但是所花费的时间随着样本量的增加而增加.在数据样本类别数量超过实验所设置的移动云计算中心的数量时,P T P的性能依旧呈现上升的趋势,但是在上升期间波动性较大.由于对照组的方法是正确处理样本数据的,所以其模型性能始终高于数据类别处理错位的情况,但在处理的类别量超过实验设置的上限时,个性化任务处理方法由于其整体基准模型也具备个性化任务处理的特性,再次下发的基准模型是充分拟合各类别

23、数据特征的最大公约数,以损失部分性能为代价,提高处理该样本输入数据的能力.根据这组实验结果,提出的个性化任务处理方法在处理数据类别错位时,由于P T P设计的特性,具有较好的实验效果.图样本类别错误分布占比数据错误分发的模型准确率见表.表数据错误分发的模型准确率运行时间占比个类别个类别个类别个类别P T P 长春工业大学学报第卷在此实验方案中,对P T P中算法基准模型整体迭代前后的性能进行比较,模拟所提框架模型在移动云计算环境下的表现.对基准模型是否下发及各移动端与模型整体性能随着时间的变化情况进行分析.迭代后模型性能比较如图所示.图迭代后模型性能比较从图可以发现,移动端设

24、备在没有基准模型时接收到数据会从头开始算法模型的训练过程,随着时间的增加,各移动端在处理对应数据时随着局部性能的优化,处理的效果有较大提升,但模型的整体性能提升略低于其他两种情况.在各移动云计算中心得到下发的基准模型后,各移动设备进行数据处理的起始准确率高于第一种情况.由于方案二中云计算中心没有对各个局部算法所提交模型进行整合,导致基准模型迭代过程没有完成,所以在方案三中的过程完成后,该方案中的整体性能低于方案三.同时,观察实验结果可以发现,在基准模型完成更新过程再次下发的一段时间内,各移动设备的性能低于同时期其他方案的性能,随着时间的变化逐渐超过其他方案,这符合我们所设计的个性化任务处理方法

25、完成迭代后移动端数据处理部分的更新使用情况.结语提出一种基于移动云计算环境下系统框架级的个性化任务处理方法.该方法利用深度强化学习的思想,将针对目标数据的定向差异性处理思想与移动云计算环境相结合,实现基于数据特征和任务分配的高效处理,从而实现移动云计算中心对特定领域数据的针对性处理,进而达成所提方法中个性化任务处理模型的局部优化目标,最终实现所提模型的整体迭代过程.实验结果表明,P T P有较好的数据处理性能,能够在有限数据的情况下实现自身模型优化的目标,并且各移动云计算中心在处理目标数据时有较好的准确性.未来的研究方向包括将该方法迁移至多云计算中心与多移动云计算中心的场景下,实现移动云计算环

26、境下根据所需计算性能各计算中心的动第期朱亚飞,等:基于深度强化学习的个性化任务处理方法态组合过程,以及进一步优化所提框架模型,降低其训练用时、耗电量和模型迁移的困难程度.参考文献:S h a n eB e r g s m a,T i m o t h yZ e y l,A r i kS e n d e r o v i c h,e t a l G e n e r a t i n gc o m p l e x,r e a l i s t i c c l o u dw o r k l o a d su s i n gr e c u r r e n tn e u r a ln e t w o r k s

27、C/P r o c e e d i n g so f t h eA CMS I GO P S t hS y m p o s i u mo nO p e r a t i n gS y s t e m sP r i n c i p l e s :B i b i k a rS,V i k a l oH,W a n gZ,e ta l F e d e r a t e dd y n a m i cs p a r s et r a i n i n g:C o m p u t i n gl e s s,c o mm u n i c a t i n g l e s s,y e t l e a r n i n

28、gb e t t e rC/P r o c e e d i n g so ft h eAA IC o n f e r e n c eo nA r t i f i c i a l I n t e l l i g e n c e ,():B l a k eB o r d e l o n,A b d u l k a d i rC a n a t a r,C e n g i zP e h l e v a n S p e c t r u m d e p e n d e n tl e a r n i n gc u r v e si nk e r n e lr e g r e s s i o na n dw

29、 i d en e u r a ln e t w o r k sC/I n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n eL e a r n i n g :H a n s h e n gC h e n,P i c h a o W a n g,F a n W a n g,e ta l E p r o p n p:G e n e r a l i z e de n d t o e n dp r o b a b i l i s t i cp e r s p e c t i v e n p o i n t s f o rm o n o

30、c u l a ro b j e c tp o s ee s t i m a t i o nC/P r o c e e d i n g so ft h eI E E E/C V FC o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n :H a n t i n g C h e n,T i a n y u G u o,C h a n g X u,e ta l L e a r n i n gs t u d e n tn e t w o r k si nt h ew i l dC/

31、P r o c e e d i n g so ft h eI E E E/C V F C o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n :V i n a y K o t h a p a l l y,W e iX i a,S h a h r a m G h o r b a n i,e t a l S k i p c o n v n e t:S k i pc o n v o l u t i o n a ln e u r a ln e t w o r kf o rs p e

32、e c hd e r e v e r b e r a t i o nu s i n go p t i m a l l ys m o o t h e ds p e c t r a lm a p p i n gJ a r X i vp r e p r i n t a r X i v:,Y i h u iF e n g,Z h iL i u,Y u n j i a nZ h a o,e ta l S c a l i n gl a r g ep r o d u c t i o nc l u s t e r sw i t hp a r t i t i o n e ds y n c h r o n i z

33、 a t i o nC/U S E N I X A n n u a lT e c h n i c a lC o n f e r e n c e(U S E N I XA T C):A l e xL a m b,D iH e,A n i r u d hG o y a l,e ta l T r a n s f o r m e r sw i t hc o m p e t i t i v ee n s e m b l e so f i n d e p e n d e n tm e c h a n i s m sJ a r X i vp r e p r i n ta r X i v:,Z eL i,Q

34、i a nC h e n g,K e nH s i e h,e t a l G a n d a l f:A ni n t e l l i g e n t,E n d T o E n da n a l y t i c ss e r v i c ef o rs a f ed e p l o y m e n ti nL a r g e S c a l ec l o u di n f r a s t r u c t u r eC/t h U S E N I X S y m p o s i u m o n N e t w o r k e dS y s t e m sD e s i g na n dI m

35、 p l e m e n t a t i o n(N S D I):L i a n gZ h a o,W e iL i,R u i h a nB a o,e ta l L o n g t e r m,s h o r t t e r ma n ds u d d e ne v e n t:T r a d i n gv o l u m em o v e m e n t p r e d i c t i o nw i t hg r a p h b a s e dm u l t i v i e w m o d e l i n gJ a r X i v p r e p r i n ta r X i v:,K

36、 a m a lK N d o u s s e,D o u g l a sE c k,S e r g e yL e v i n e,e t a l E m e r g e n ts o c i a l l e a r n i n gv i am u l t i a g e n tr e i n f o r c e m e n t l e a r n i n gC/I n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a r n i n g :V a nN i e k e r kB,J a m e sS,E a r l e

37、A,e t a l C o m p o s i n gv a l u e f u n c t i o n s i nr e i n f o r c e m e n t l e a r n i n gC/I n t e r n a t i o n a lC o n f e r e n c e o nM a c h i n eL e a r n i n g PM L R :F u j i m o t oS,M e g e rD,P r e c u pD O f f p o l i c yd e e pr e i n f o r c e m e n t l e a r n i n g w i t h

38、 o u te x p l o r a t i o nC/I n t e r n a t i o n a l C o n f e r e n c e o n M a c h i n e L e a r n i n g PML R :B o r i s l a vM a v r i n,H e n g s h u a iY a o,L i n g l o n gK o n g,e ta l D i s t r i b u t i o n a l r e i n f o r c e m e n t l e a r n i n g f o r e f f i c i e n t e x p l o

39、r a t i o nC/I n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a r n i n g :S u p r a t i k P a u l,M i c h a e l A O s b o r n e,S h i m o nW h i t e s o n F i n g e r p r i n t p o l i c yo p t i m i s a t i o n f o r r o b u s tr e i n f o r c e m e n tl e a r n i n gC/I n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n e L e a r n i n g :张跃,赵佳,胡明集成学习思想预拟合分类算法J长春工业大学学报,():长春工业大学学报第卷

展开阅读全文