ImageVerifierCode 换一换
格式:PDF , 页数:6 ,大小:941.24KB ,
资源ID:327693      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/327693.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于深度强化学习的个性化任务处理方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于深度强化学习的个性化任务处理方法.pdf

1、收稿日期:基金项目:国家自然科学基金面上项目();长春市科技发展计划重点研发计划项目(Z Y );吉林省第四批青年科技托举人才项目(Q T );吉林省科技发展计划重点研发项目(G X);吉林省发展和改革委员会产业技术研究与开发专项基金资助项目(C );吉林省高等教育教学改革研究项目(J L J Y );吉林省教育科学“十四五”规划课题(GH );长春工程学院博士创新团队科研启动基金作者简介:朱亚飞(),男,汉族,江苏淮安人,长春工业大学硕士研究生,主要从事移动云计算方向研究,E m a i l:z y f e i c o m 通信作者:赵佳(),男,汉族,吉林长春人,长春工程学院教授,博士,主

2、要从事大数据分析、人工智能技术应用、区块链等方向研究,E m a i l:z h a o j i a c c i t e d u c n 第 卷 第期 长 春 工 业 大 学 学 报 V o l N o 年 月 J o u r n a l o fC h a n g c h u nU n i v e r s i t yo fT e c h n o l o g y A p r D O I:/j c n k i c n /t 基于深度强化学习的个性化任务处理方法朱亚飞,胡明,丁言,赵佳(长春工业大学 计算机科学与工程学院,吉林 长春 ;长春工程学院 人工智能技术研究院,吉林 长春 )摘要:为实现移动

3、云计算背景下多端个性化任务处理的目标,首先通过P C A等预处理方法萃取数据特征信息实现数据域分类.再通过深度强化学习方法结合多端模型的返回特征完成云计算中心个性化任务处理(P T P)方法模型的训练.实验及仿真结果表明,该方法不仅实现了个性化任务处理的目标,而且可以提高模型收敛速度,降低算法复杂度.关键词:移动云计算;深度学习;强化学习;大数据分析中图分类号:T P 文献标志码:A文章编号:()P e r s o n a l i z e d t a s kp r o c e s s i n gm e t h o db a s e do nd e e pr e i n f o r c e m

4、e n t l e a r n i n gZ HUY a f e i,HU M i n g,D I N GY a n,Z HAOJ i a(S c h o o l o fC o m p u t e rS c i e n c e&E n g i n e e r i n g,C h a n g c h u nU n i v e r s i t yo fT e c h n o l o g y,C h a n g c h u n ,C h i n a;A r t i f i c i a l I n t e l l i g e n c eT e c h n o l o g yR e s e a r c

5、hI n s t i t u t e,C h a n g c h u nI n s t i t u t eo fE n g i n e e r i n g,C h a n g c h u n ,C h i n a)A b s t r a c t:I no r d e r t oa c h i e v et h eg o a lo fm u l t i t e r m i n a lp e r s o n a l i z e dt a s kp r o c e s s i n gi nt h ec o n t e x to fm o b i l ec l o u dc o m p u t i n

6、 g,f i r s t l y,d a t ad o m a i nc l a s s i f i c a t i o ni sa c h i e v e db ye x t r a c t i n gd a t af e a t u r ei n f o r m a t i o nt h r o u g h p r e p r o c e s s i n g m e t h o d ss u c h a s P C AT h e n c o m p l e t et h et r a i n i n g o ft h ep e r s o n a l i z e dt a s kp r o

7、 c e s s i n g(P T P)m e t h o d m o d e lo fc l o u dc o m p u t i n gc e n t e rt h r o u g ht h ed e e pr e i n f o r c e m e n t l e a r n i n gm e t h o dc o m b i n e dw i t ht h er e t u r nc h a r a c t e r i s t i c so f t h em u l t i t e r m i n a lm o d e l E x p e r i m e n t a l a n ds

8、 i m u l a t i o nr e s u l t ss h o wt h a t t h i sm e t h o dn o to n l ya c h i e v e s t h eg o a l o fp e r s o n a l i z e dt a s kp r o c e s s i n g,b u t a l s o i m p r o v e s t h ec o n v e r g e n c es p e e do f t h em o d e l a n dr e d u c e s t h ec o m p l e x i t yo ft h ea l g o

9、 r i t h mK e yw o r d s:m o b i l ec l o u dc o m p u t i n g;d e e p l y l e a r n i n g;s t r e n g t h e nl e a r n i n g;b i gd a t aa n a l y s i s 引言随着深度学习技术的不断发展,使得传统机器学习算法 的设计以及实现受到了极大的启发.利用传统机器学习方案与深度学习模型 的组合优化能够为领域内问题的解决以及性能的提升做出贡献.将深度学习的数据特征感知能力与强化学习的决策能力相结合,可以得到更加智能的数据处理方法 .通过神经网络获得对未来状

10、态的预测,并结合强化学习的决策能力获得目标值.常见的用于解决增强学习在智能体与环境进行交互,从而得到最优解决方法的算法有Q L、D QN、D D P G、T R P O等,其中D QN凭借其通用性,算法设计时通过经验池解决了相关性及非静态分布问题的优点而被广泛使用 .但是传统D QN算法也有不足之处,其不能用于解决连续性控制问题,且模型收敛速度较慢,各类别样本数据之间的差异会影响模型的结果,同一模型针对不同数据类别处理时不能以目标类别的基准准确率进行再训练过程.为了探索使用组合价值函数的方式对强化学习可能产生的影响,文献 在确定性动态假设的情况下,证明了在熵正则化强化学习中可以实现最优价值函数

11、的组合,并验证了其结果可能对强化学习设置的影响.文献 引入一种新的离线策略算法,通过限制动作空间和批量约束策略使得深度强化学习算法可以学习与当前策略不相关的数据集合,并尽最大可能使得处理结果接近于当前策略.文献 研究了分布式强化学习算法,他们提出使用分解统计估量并统计回报分布的框架和使用衰减时间表,根据学习分布计算探索奖励的方式进行研究.为了得到优化后的深度强化学习方法在算法模型中的效果,文献 提出使用F P O方法寻找环境变量分布中预期最优的策略,通过使用贝叶斯优化的方式解决因环境变量的转化对模型效果产生的抑制作用.针对移动云计算环境下多端任务处理问题,文中提出一种基于深度强化学习的个性化任

12、务处理方法,分为数据预分类阶段和个性化任务处理阶段.)数据预分类阶段.我们所提出的模型是初次运行,其对应的数据处理模块应分为两种情况:其一,基础模型未初始化阶段,针对输入的数据不进行数据的预处理,通过适当放弃模型精度的手段来保证得到的基准模型具备更高的普适性;其二,在基准模型构建完成时,对将要分发的数据做分类处理以提高各个端设备模型的处理精度.)个性化任务处理阶段.利用深度强化学习算法对处理的数据完成进一步的拟合以提高模型的准确率,将各个端设备的模型在数据中心完成特征数据的提取融合,提高基准模型的准确率.实验结果表明,P T P方法能够实现目标数据的特征提取,准确进行分类,将其正确分发给各个端

13、设备,实现基准模型的优化迭代过程,完成个性化任务处理的目标.数据预处理模型针对样本数据集D采用主成分分析法进行处理,通过数据矩阵Z X在高维度向低维度映射的过程中得到输入数据矩阵所保留的最大信息量,以此得到数据所处分类信息.P C A预处理得到预处理数据矩阵在N维映射的具体过程为C o vZ X,N()ni(Z XiZ X)(NiN)n.()然后计算出协方差矩阵的特征值所对应的特征向量,C,()其中,有N个,且每一个i对应都有一个i,同时这些会按降序进行排序,最终取出前k个所对应的特征向量,由此我们能够得到一组特征组,(),(),(k,k),其中特征向量,k 组成特征向量矩阵V,然后,我们将原

14、始特征(xi,xi,xin)T经过此特征组投影之后得到新特征(yi,yi,yin)T,其计算公式为Yp TZ X.()通过对输入数据进行预处理,从而得到数据所处分类的主要特征信息,为后续将其定向分配到处理特定类别的移动设备奠定基础.个性化任务处理方法的基本思想移动云计算环境下,云数据中心与移动云计算中心的数据交互以及个性化任务处理的问题可以形式化为:云数据中心T与移动设备R组成计长 春 工 业 大 学 学 报 第 卷算域Dn,其中DnDT,DR,DRin,式中:i由移动设备的数量决定,ni.云数据中心提供算法模型M所需训练数据PP,P,P i,式中:i基础模型的原始数据.云数据中心将算法模型M

15、m,m,mk下发给各个移动设备,其中k由移动端使用的数量决定;云计算中心将处理后的数据分发到各个设备,各移动端使用算法模型进行应用的过程中会产生临时数据Pil,其中i代表当前移动设备,l代表该移动设备产生的数据量,因此对应移动设备的影响数据可以假设为PPi,Pi,Pil.在移动端设备脱离云数据中心的情况下,各个移动设备使用自身更新数据Pil完成算法模型mi的更新;在移动端设备能够联系到云数据中心的情况下,云数据中心T对各个设备返回的数据P进行处理,得到更新后的数据PP,P,P,式中:数据清洗后获得的数据总量.我们使用更新后的数据P完成算法模型M的更新,进而将M下发给各个移动设备再次使用.随着处

16、理数据与模型的下发以及应用数据上传这一过程的完成,便实现了P T P的一次迭代过程.同时在云数据中心收到一个待处理任务Q,该类任务共有w个类别,QCw,Cw,Cw,式中:C每个类别的概率;Cw需要分析的待处理任务最有可能所处类别的概率.这一过程是从系统架构的角度对移动云计算技术的一次重新定义,它并非像传统的移动云计算技术那样,云数据中心不具备算法模型计算功能,且不能对不同类型的任务做定向分派处理,它是从计算机体系结构的角度出发,对移动云计算环境和智能计算的一次高效扩展.移动云计算背景下的P T P方法)数据预处理,通过对原始特征向量的计算得到对应特征组的特征值矩阵.)提取特征分量进行特征聚合,

17、完成初始化定向分配操作,初始化模型的训练及基准模型的下发.)模型个性化处理马尔科夫过程的抽象,完成状态值、奖励值、经验回放池及状态转移方程的计算.可将其处理过程抽象为一个马尔科夫决策过程,其核心为P Dt|DtP Dt|D,D,Dt.()为了评判当前状态的优劣程度,我们还需引入奖励参数R来表示某一时刻t下的状态:MRt Rt kkRtk.()在每一个子马尔科夫过程中想要求解出价值函数的值,可以使用矩阵的形式表示不同状态下反馈度的大小.qs,a()EkkRtk|Sts,AtaERt vSt()|Sts,Ata.()结合上式马尔科夫的状态价值函数方程,为了得到模型个性化任务处理过程中的最优策略,可

18、以使用价值迭代的方式求解最优解,则基于贝尔曼方程的最优价值迭代方程可以表示为vk s()m a xaE rvk s()|s,am a xas,rp(s,r|s,a)r vk(s).()重复),通过两个结构相同但参数不同的神经网络得到所有状态表的预测,实现模型个性化任务处理的数据特征提取.由于输入的是高维数据,想要模拟从输入到输出的所有过程,可以引入深度神经网络来近似求取所有的值,则由上述公式推导可得Qs,a()Ts,a()X(l a y)xX(l a y )y(x y m xs,a()q y).()在算法模型开始训练时,深度神经网络生成A值与S G D算法 同时进行工作,针对神经网络生成的数据

19、并非独立同分布的,所以,我们并不能立刻使用,而是需要先将其存储在经验池中,通过随机取样的方式打乱生成数据之间的相关性.第期朱亚飞,等:基于深度强化学习的个性化任务处理方法同时,为了避免生成数据标签的神经网络与进行值计算的神经网络相同而引起模型震荡与发散的风险,需要构建一个独立于计算网络的全新的神经网络,由此可得iLii()Es,a();srm a xaAs,a,;i()()iQ(s,a,;i).()各移动端返回数据,模型信息完成模型特征的提取,模型迭代后再次下发各设备.)重复),可得个性化任务处理模型的局部自更新以及模型整体优化,实现移动云计算背景下的个性化任务处理的参数指标性能提升.实验实验

20、描述硬件英特尔双核C P U(GH Z),G主存,T硬盘,移动设备G o o g l en e x u s台及其他辅助硬件设备.软件使用W i n d o w s操 作 系 统,基 于p y t h o n的t e n s o r f l o w框架进行训练,使用M a t l a bR a进行仿真训练.实验内容经过优化后的模型对处理该领域下特定类别的数据起着重要作用,为了测试提出方法的性能,通过以下两个方面对模型进行评估:)不同样本类别未分配到指定移动端处理;)个性化任务处理性能分析.结果及分析在这组实验中,旨在验证不同样本类别在未分配到处理对应任务的移动端时,模型准确率的变化情况.实验中为

21、了对照样本数据经过P T P方法处理后正确分配与否的差异情况,在样本类别数量增加的过程中,同时进行正确定向分配任务数据至对应移动端和任务类别错误分配的对照实验.由于数据域类别的错位分配存在多种情况,所以对获得的准确度进行取平均操作,只观察实验结果的变化趋势,而忽略它们在数据细节上的表现.然后通过各组实验结果与P T P方法进行比对,获得相同领域内不同类别的数据错位分配的性能变化情况.样本类别错误分布占比如图所示.从图可以发现,在样本类别数量为的情况下,移动端获得样本数据后,由于该数据类别域与移动云计算中心处理数据模型不同,初始阶段样本处理性能较差,但是随着系统运行时间的增加,移动云计算中心获得

22、该样本数据的特征,由于个性化任务处理模型的特性,该类别数据可以被移动端处理,模型的性能有明显提升.显然,由于样本类别数量为和的情况下,在分配移动端的过程中存在更多的分配情况,P T P的性能提升符合样本类别量为时的趋势,但是所花费的时间随着样本量的增加而增加.在数据样本类别数量超过实验所设置的移动云计算中心的数量时,P T P的性能依旧呈现上升的趋势,但是在上升期间波动性较大.由于对照组的方法是正确处理样本数据的,所以其模型性能始终高于数据类别处理错位的情况,但在处理的类别量超过实验设置的上限时,个性化任务处理方法由于其整体基准模型也具备个性化任务处理的特性,再次下发的基准模型是充分拟合各类别

23、数据特征的最大公约数,以损失部分性能为代价,提高处理该样本输入数据的能力.根据这组实验结果,提出的个性化任务处理方法在处理数据类别错位时,由于P T P设计的特性,具有较好的实验效果.图样本类别错误分布占比数据错误分发的模型准确率见表.表数据错误分发的模型准确率运行时间占比个类别个类别个类别个类别P T P 长 春 工 业 大 学 学 报 第 卷在此实验方案中,对P T P中算法基准模型整体迭代前后的性能进行比较,模拟所提框架模型在移动云计算环境下的表现.对基准模型是否下发及各移动端与模型整体性能随着时间的变化情况进行分析.迭代后模型性能比较如图所示.图迭代后模型性能比较从图可以发现,移动端设

24、备在没有基准模型时接收到数据会从头开始算法模型的训练过程,随着时间的增加,各移动端在处理对应数据时随着局部性能的优化,处理的效果有较大提升,但模型的整体性能提升略低于其他两种情况.在各移动云计算中心得到下发的基准模型后,各移动设备进行数据处理的起始准确率高于第一种情况.由于方案二中云计算中心没有对各个局部算法所提交模型进行整合,导致基准模型迭代过程没有完成,所以在方案三中的过程完成后,该方案中的整体性能低于方案三.同时,观察实验结果可以发现,在基准模型完成更新过程再次下发的一段时间内,各移动设备的性能低于同时期其他方案的性能,随着时间的变化逐渐超过其他方案,这符合我们所设计的个性化任务处理方法

25、完成迭代后移动端数据处理部分的更新使用情况.结语提出一种基于移动云计算环境下系统框架级的个性化任务处理方法.该方法利用深度强化学习的思想,将针对目标数据的定向差异性处理思想与移动云计算环境相结合,实现基于数据特征和任务分配的高效处理,从而实现移动云计算中心对特定领域数据的针对性处理,进而达成所提方法中个性化任务处理模型的局部优化目标,最终实现所提模型的整体迭代过程.实验结果表明,P T P有较好的数据处理性能,能够在有限数据的情况下实现自身模型优化的目标,并且各移动云计算中心在处理目标数据时有较好的准确性.未来的研究方向包括将该方法迁移至多云计算中心与多移动云计算中心的场景下,实现移动云计算环

26、境下根据所需计算性能各计算中心的动第期朱亚飞,等:基于深度强化学习的个性化任务处理方法态组合过程,以及进一步优化所提框架模型,降低其训练用时、耗电量和模型迁移的困难程度.参考文献:S h a n eB e r g s m a,T i m o t h yZ e y l,A r i kS e n d e r o v i c h,e t a l G e n e r a t i n gc o m p l e x,r e a l i s t i c c l o u dw o r k l o a d su s i n gr e c u r r e n tn e u r a ln e t w o r k s

27、C/P r o c e e d i n g so f t h eA CMS I GO P S t hS y m p o s i u mo nO p e r a t i n gS y s t e m sP r i n c i p l e s :B i b i k a rS,V i k a l oH,W a n gZ,e ta l F e d e r a t e dd y n a m i cs p a r s et r a i n i n g:C o m p u t i n gl e s s,c o mm u n i c a t i n g l e s s,y e t l e a r n i n

28、gb e t t e rC/P r o c e e d i n g so ft h eAA IC o n f e r e n c eo nA r t i f i c i a l I n t e l l i g e n c e ,():B l a k eB o r d e l o n,A b d u l k a d i rC a n a t a r,C e n g i zP e h l e v a n S p e c t r u m d e p e n d e n tl e a r n i n gc u r v e si nk e r n e lr e g r e s s i o na n dw

29、 i d en e u r a ln e t w o r k sC/I n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n eL e a r n i n g :H a n s h e n gC h e n,P i c h a o W a n g,F a n W a n g,e ta l E p r o p n p:G e n e r a l i z e de n d t o e n dp r o b a b i l i s t i cp e r s p e c t i v e n p o i n t s f o rm o n o

30、c u l a ro b j e c tp o s ee s t i m a t i o nC/P r o c e e d i n g so ft h eI E E E/C V FC o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n :H a n t i n g C h e n,T i a n y u G u o,C h a n g X u,e ta l L e a r n i n gs t u d e n tn e t w o r k si nt h ew i l dC/

31、P r o c e e d i n g so ft h eI E E E/C V F C o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n :V i n a y K o t h a p a l l y,W e iX i a,S h a h r a m G h o r b a n i,e t a l S k i p c o n v n e t:S k i pc o n v o l u t i o n a ln e u r a ln e t w o r kf o rs p e

32、e c hd e r e v e r b e r a t i o nu s i n go p t i m a l l ys m o o t h e ds p e c t r a lm a p p i n gJ a r X i vp r e p r i n t a r X i v:,Y i h u iF e n g,Z h iL i u,Y u n j i a nZ h a o,e ta l S c a l i n gl a r g ep r o d u c t i o nc l u s t e r sw i t hp a r t i t i o n e ds y n c h r o n i z

33、 a t i o nC/U S E N I X A n n u a lT e c h n i c a lC o n f e r e n c e(U S E N I XA T C):A l e xL a m b,D iH e,A n i r u d hG o y a l,e ta l T r a n s f o r m e r sw i t hc o m p e t i t i v ee n s e m b l e so f i n d e p e n d e n tm e c h a n i s m sJ a r X i vp r e p r i n ta r X i v:,Z eL i,Q

34、i a nC h e n g,K e nH s i e h,e t a l G a n d a l f:A ni n t e l l i g e n t,E n d T o E n da n a l y t i c ss e r v i c ef o rs a f ed e p l o y m e n ti nL a r g e S c a l ec l o u di n f r a s t r u c t u r eC/t h U S E N I X S y m p o s i u m o n N e t w o r k e dS y s t e m sD e s i g na n dI m

35、 p l e m e n t a t i o n(N S D I):L i a n gZ h a o,W e iL i,R u i h a nB a o,e ta l L o n g t e r m,s h o r t t e r ma n ds u d d e ne v e n t:T r a d i n gv o l u m em o v e m e n t p r e d i c t i o nw i t hg r a p h b a s e dm u l t i v i e w m o d e l i n gJ a r X i v p r e p r i n ta r X i v:,K

36、 a m a lK N d o u s s e,D o u g l a sE c k,S e r g e yL e v i n e,e t a l E m e r g e n ts o c i a l l e a r n i n gv i am u l t i a g e n tr e i n f o r c e m e n t l e a r n i n gC/I n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a r n i n g :V a nN i e k e r kB,J a m e sS,E a r l e

37、A,e t a l C o m p o s i n gv a l u e f u n c t i o n s i nr e i n f o r c e m e n t l e a r n i n gC/I n t e r n a t i o n a lC o n f e r e n c e o nM a c h i n eL e a r n i n g PM L R :F u j i m o t oS,M e g e rD,P r e c u pD O f f p o l i c yd e e pr e i n f o r c e m e n t l e a r n i n g w i t h

38、 o u te x p l o r a t i o nC/I n t e r n a t i o n a l C o n f e r e n c e o n M a c h i n e L e a r n i n g PML R :B o r i s l a vM a v r i n,H e n g s h u a iY a o,L i n g l o n gK o n g,e ta l D i s t r i b u t i o n a l r e i n f o r c e m e n t l e a r n i n g f o r e f f i c i e n t e x p l o

39、r a t i o nC/I n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a r n i n g :S u p r a t i k P a u l,M i c h a e l A O s b o r n e,S h i m o nW h i t e s o n F i n g e r p r i n t p o l i c yo p t i m i s a t i o n f o r r o b u s tr e i n f o r c e m e n tl e a r n i n gC/I n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n e L e a r n i n g :张跃,赵佳,胡明集成学习思想预拟合分类算法J长春工业大学学报,():长 春 工 业 大 学 学 报 第 卷

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服