ImageVerifierCode 换一换
格式:PDF , 页数:6 ,大小:1.42MB ,
资源ID:607514      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/607514.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(一种基于投票法的多策略多目标强化学习算法_王立佳.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

一种基于投票法的多策略多目标强化学习算法_王立佳.pdf

1、基金项目:国家自然科学基金(61801055);2021 年常州市第十三批科技计划(应用基础研究)(CJ20210123)收稿日期:2021-07-28 修回日期:2021-08-03 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0341-05一种基于投票法的多策略多目标强化学习算法王立佳,朱正伟,诸燕平,朱晨阳(常州大学阿里云大数据学院,江苏 常州 213000)摘要:针对多目标强化学习中的多策略算法收敛不稳定的问题,提出了一种基于 Sarsa 算法框架的多目标帕累托 Sarsa 算法(Multi-Pareto Sarsa,M

2、PS)。MPS 算法以向量集的形式更新行为价值,使用一种新的基于投票法的集合评估机制代替传统的行为策略,智能体通过基于投票法的集合评估机制评估行为空间中每个行为对应的行为价值向量集,然后根据评估结果选择当前状态下的最优行为。实验结果表明,MPS 算法与已有的 MPQ、PQL 算法相比有较好的收敛性,且 MPS 算法与 MPQ算法相比在超体积性能上有很大的提升。关键词:多目标;强化学习;多策略;投票法;集合评估机制中图分类号:TP181 文献标识码:BA Multi-Policy Multi-Objective Reinforcement LearningAlgorithm Based on V

3、oting MethodWANG Li-jia,ZHU Zheng-wei,ZHU Yan-ping,ZHU Chen-yang(Aliyun School of Big Data,Changzhou University,Changzhou Jiangsu 213000,China)ABSTRACT:To solve the problem of unstable convergence of multi-policy algorithms in multi-objective reinforce-ment learning,this paper proposes a multi-objec

4、tive Sarsa algorithm based on the standard Sarsa algorithm framework(Multi-Pareto Sarsa,MPS).The MPS algorithm updates the behavior value in the form of vector sets,and uses anew voting-based set evaluation mechanism to replace the traditional behavior strategy.The agents use a voting-based set eval

5、uation mechanism to evaluate the behavior value vector set corresponding to each action in the actionspace.Then the agents select the best behavior in the current state according to the evaluation result.The experimen-tal results show that the MPS algorithm has better convergence than the existing M

6、PQ and PQL algorithms,and theMPS algorithm has a great improvement in hypervolume performance compared with the MPQ algorithm.KEYWORDS:Multi-objective;Reinforcement learning;Multi policy;Voting method;Set evaluation mechanism1 引言在许多具有挑战性的顺序决策问题中,强化学习已被广泛运用。但是由于很多现实世界的决策问题过于复杂,无法用单一的标量奖励来描述1,因此需要使用多目

7、标强化学习(Multi-Objective Reinforcement Learning,MORL)算法来解决智能体在复杂环境下的顺序决策问题2。MORL 算法是强化学习和多目标优化的结合,其即刻奖励是向量且向量中的每个元素对应不同的目标3。MORL 算法主要分为单策略和多策略算法4,单策略MORL 算法使用标量化方法将多目标问题降维成单目标问题5,然而标量化方法往往只能产生单一权重偏好的解决方案6,在胡的工作中使用了单策略算法解决多个 Web 服务的组合问题7。多策略 MORL 算法不对目标空间降维,且智能体可以同时学习一组优策略。White 等8首先基于动态规划提出了一种多策略算法,该算法

8、通过更新行为价值向量集来同时学习一组最优的确定性平稳策略,但在确定性非平稳问题中容易导致集合爆炸。因此,Wiering 等9在 White 的算法中引入一致性算子减少学习到的策略数量,使算法能够解决确定性非平稳策略问题。在 White 工作的引导下,Barret 等10提出凸包值迭代算法(Convex Hull Value-iteration,CHVI),该算法可以学习帕累托前沿凸包上的确定性平稳策略,然而在非凸解空间问题中,部分解决方案被忽视。这一问题在 Moffaert143等10得到了解决,其提出的基于动态规划模型的 Pareto Q-learning(PQL)算法允许智能体学习整个帕累

9、托前沿的最优策略;陶等12的工作进一步验证了 PQL 算法解决多目标问题的优异性能;在 Moffaert 等工作的启发下,Ruiz-Montiel等12提出了基于 Q 学习算法框架的无模型 Multi-Pareto Q-learning(MPQ)算法,该算法也能够学习到整个帕累托前沿上的最优策略。在 MPQ 算法的启发下,本文遵循 Sarsa 算法框架提出了一种新的多策略算法 MPS,并将投票法引入集合评估机制来提高算法的收敛性能,最后在深海宝藏(Deep Sea Treasure,DST)14的实验环境下测试了算法性能。2 MORL 算法模型2.1 多目标优化问题MORL 是标准强化学习的一

10、种推广,即使用强化学习算法解决多目标优化问题。多目标优化问题的一般描述如下,给定决策向量 X=(x1,x2,xn),它满足下列约束gi(X)0(i=1,2,k)hi(X)=0(i=1,2,l)(1)设有 m 个优化目标,且这些优化目标是相互冲突的,目标函数可表示为f(X)=(f1(X),f2(X),fm(X)(2)寻求一组最优解 X=(x1,x2,xn),使 f(X)在满足约束式(1)的同时达到最优15。2.2 单策略 MORL 算法模型在 MORL 问题中,要求智能体能够学习多个目标函数,其一 般 模 型 是 由 马 尔 可 夫 决 策 过 程(Markov DecisionProcess,

11、MDP)推广而来的多目标马尔科夫决策过程(MultiObjective Markov Decision Process,MOMDP),智能体在该模型下与环境交互得到一个 m 维的奖励向量 R(s,a)R(s,a)=(R1(s,a),R2(s,a),Rm(s,a)(3)其中,m 代表目标函数个数,且奖励向量中不同分量对应不同的目标函数。类似地,将标量的行为价值 Q 扩展为行为价值向量 Q:Q(s,a)=(Q1(s,a),Q2(s,a),Qm(s,a)(4)其中,Qi(s,a)代表第 i(i=1,2,n)个目标函数的标量Q 值。单策略 MORL 算法分别训练每个目标对应的标量 Q 值,并使用标量化

12、方法计算 Q(s,a)和权重向量 w 的加权和SQ(s,a)=miwiQi(s,a)(5)其中,SQ(s,a)是一个标量值,权重向量 w 满足miwi=1。贪婪策略下,智能体直接选择拥有最大加权和的行为arg maxaSQ(s,a)。由于目标空间的降维,单策略 MORL 算法只能学习到单一权重偏好的最优策略。2.3 多策略 MORL 算法模型多策略 MORL 算法能够同时学习多个帕累托最优策略,一种基础算法模型是 White 等8提出的一种基于动态规划模型的多策略算法,该算法基于向量集的引导更新策略集,且在学习过程中不会发生目标空间的降维,其更新规则如下:Qset(s,a)=R(s,a)sST

13、(s|s,a)VND(s)(6)其中,Qset(s,a)是智能体在状态行为对(s,a)下的向量集,它存储了即刻奖励向量和未来折扣奖励向量集之和,R(s,a)是智能体在状态 s 下执行行为 a 后从环境中得到的一个 m 维即刻奖励向量,T(s|s,a)是智能体在状态 s 下执行动作 a 后转移到状态s的概率,VND(s)首先计算状态s下每个行为价值向量集的并集,然后进一步计算并集的非支配集,定义如下VND(s)=ND(aQset(s,a)(7)其中,ND 操作符移除所有被支配的向量,操作符是在向量v 和向量集 V 之间的求和v V=vV(v+v)(8)Moffaert 等10的 PQL 算法是在

14、 White 工作的基础上分开存储即刻奖励和未来折扣奖励,并允许两者分开收敛。在确定性非平稳环境中,更新规则如下Qset(s,a)?R(s,a)NDt(s,a)(9)其中,Qset(s,a)存储了即刻奖励和未来折扣奖励之和,?R(s,a)是智能体在状态行为对(s,a)下的平均奖励向量,NDt(s,a)是在状态 s 执行行为 a 发生状态转移后,下一个状态的非支配向量集,定义如下:NDt(s,a)=ND(aQset(s,a)(10)Ruiz-Montiel 等1212将基于集合引导的思想引入到标准 Q 学习算法框架中,提出了一种无模型的 MPQ 算法,该算法使用离线策略,其思想是分开存储采样过和

15、未采样过的状态转移(s,a,s)对应的向量集:Qn(s,a)=Nn-1(s,a)Un-1(s,a)En-1(s,a)(11)其中,Nn-1(s,a)存储新的状态转移对应的向量集,Nn-1(s,a)存储已经采样过的状态转移对应的向量集,Nn-1(s,a)存储更新过程中向量集中额外产生的向量估计。2.4 集合评估机制由于传统的行为策略不能直接应用到 MORL 算法中,因此 Moffaert 等10使用集合评估机制替代传统的行为策略,其原理是在贪婪地选择行为时,智能体选择拥有最大评估值的向量集对应的行为。已有的三种集合评估机制分别为超体积集合评估机制(Hypervolume set evaluati

16、on,HV)、基数集合评估机制(Cardi-nality set evaluation,C)和帕累托集合评估机制(Pareto set e-valuation,Pareto),这三种集合评估机制的原理总结如下:1)HV:解集中所有点和参考点在目标空间中围成的超立方体的体积,在二维的目标空间中,超体积是参考点和解243集围成的面积,超体积越大则认为解集越好;2)C:向量集中非支配解的个数越多则向量集优先级越高;3)Pareto:如果向量集中有一个向量支配其它向量集,则认为该向量集更优。在集合评估机制下,智能体可以同时学习多个策略,但在执行时只遵循其中的一个策略,因此在训练结束后需要使用跟踪算法跟

17、踪向量集中的每个向量来重现学习到的帕累托最优策略13。3 MPS 算法MPS 算法是基于标准 Sarsa 算法框架提出的一种在线算法,并使用本文提出的基于投票法的集合评估机制指导智能体选择行为。3.1 Sarsa 算法Sarsa 算法是一种经典的基于值函数更新的无模型算法,并使用在线策略更新值函数,更新规则如下Q(s,a)(1-)Q(s,a)+r+Q(s,a)(12)其中,Q(s,a)是状态行为对(s,a)的行为价值,智能体通过行为策略在状态 s 下执行行为 a 后转移到状态s,并从环境中得到即刻奖励 r,接着智能体通过行为策略选择一个行为a作为下一时间步的行为,和 分别是学习率和折扣因子。3

18、.2 MPS 算法更新规则MPS 算法学习行为价值向量集 Qset,而不是标量形式的Q 值,其更新规则如下Qtset(s,a)=(1-)Qt-1set(s,a)r+Vt-1set(s)(13)其中,Qt-1set(s,a)是状态行为对(s,a)在上一个时间步更新产生的向量集,r 是智能体在状态 s 下执行行为 a 转移到状态s后从环境中得到的奖励向量,r+Vn-1set(s)是新产生的向量估计,且 Vn-1set(s)的更新规则如下Vt-1set(s)=ND(aQt-1set(s,a)if Qt-1set(s,arandom)otherwise(14)其中,(01)是随机数,是贪婪值,在估计新

19、的向量集时,有 1-的概率使用随机行为对应的向量集 Qt-1set(s,arandom)来更新 Vt-1set(s),有 的概率使用非支配向量集来更新 Vt-1set(s)。需要注意的是,Ruiz-Montiel 等13的工作中提到需要在先前向量集 Qt-1set(s,a)中的向量和新向量集 r+Vt-1set(s)中的向量之间建立对应关系,否则会导致向量集中的向量不受控制的增长。3.3 基于投票法的集合评估机制由于算法在现有的集合评估机制下性能不佳,提出了一种基于投票法的集合评估机制。投票法是一种有效的群体决策方法,决策者通过聚集个体的偏好来确定群体的偏好。Mazzuchi 等15首先在多目

20、标任务中使用投票法来区分一组向量的优劣,而本文则是将投票法应用到集合评估机制中,然后评估一组向量集。本文使用的投票法是现有投票系统中的科普兰投票法(Copeland voting),每个选民任意排列候选人,然后将一个候选人与其他所有候选人进行两两选举,候选人在两两比较中获胜得 1.0 分,平局获得 0.5 分,失败不得分,最后将每个候选人的累积分数作为最终得分,累积得分最高的候选人在选举结束时成为获胜者,Copeland voting 的流程如表 1。表 1 Copeland voting 流程算法 1:Copeland-voting1)初始化:候选人个数 V,选民个数 N,得分列表 Scor

21、e2)开始:3)for n=1,N do:4)for v=1,V do:5)当前候选人与其他 V-1 个候选人进行两两选举6)if 第 v 个候选人获胜:7)Scorev=Score v+1.08)else if 平局:9)Scorev=Score v+0.510)结束11)返回所有候选人的得分 图 1 中给出了一个基于投票法的集合评估机制的实例,其中 Qset(s,a1)、Qset(s,a2)、Qset(s,a3)和 Qset(s,a4)代表行为空间中 4 个行为对应的行为价值向量集,基于投票法的集合评估机制的任务是输出这 4 个行为对应的标量得分,智能体根据得分结果选择行为,其步骤可总结如

22、下:1)求解当前状态下所有行为对应向量集的并集,并进一步计算并集的非支配集 ND(aQset(s,a);2)使用 Copeland voting 来计算非支配向量集 ND(aQset(s,a)中每个向量的对应得分 ScoreND(aQset(s,a);3)将 ScoreND(aQset(s,a)中的得分映射到对应行为的得分,如图 1 所示,a1的得分列表为1.0,1.0,2.0,a2的得分列表为2.0,2.5,a3的得分列表为1.5,a4的得分列表为1.0,2.0,3.0,2.0,然后计算每个行为的总得分 Scorea,最后根据每个向量集 Qset(s,)中的向量在 ND(aQset(s,a)

23、中的保留个数 k:a1:3,a2:2,a3:1,a4:4来计算行为的平均得分 Ave_scorea;4)最后智能体选择 Ave_scorea中最大得分对应的行为a2 执行。4 实验及结果分析4.1 仿真环境和参数设置仿真环境 DST 是一个验证多目标强化学习算法性能的基准问题14,它是一个 10 行 11 列的网格世界,且网格中有10 个不同价值的宝藏地点。该环境模拟潜艇在深海中执行343图 1 基于投票法的集合评估机制流程实例搜寻宝藏的任务,搜寻任务需要实现两个相互冲突的目标,第一个目标是潜艇到达宝藏消耗尽可能少的时间步,第二个目标是尽可能找到更大价值的宝藏,如图 2。图 2 DST 环境搜

24、寻任务是阶段性的,每个回合潜艇从网格的左上角开始搜寻,当到达宝藏时该回合结束。潜艇有四个行为,分别是向上、向下、向左和向右移动,如果潜艇执行一个动作后将移出网格,那么潜艇的位置保持不变。潜艇每移动一步会得到一个二维的奖励向量,向量的第一个分量是时间步消耗-1,第二个元素是宝藏价值,若潜艇未搜寻到宝藏则为 0。算法的超体积参考点、折扣因子和学习率等参数如表 2。表 2 算法的参数设置参考点折扣因子学习率PQL/0.9/MPQ(0,-100)0.90.8MPS(0,-100)0.90.84.2 实验结果仿真对比了 MPS 算法和已有的 PQL、MPQ 算法在不同集合评估机制下的收敛性能和超体积性能

25、。4.2.1 收敛性能在 Moffaert 等11在 PQL 算法训练过程中引入跟踪算法,旨在让智能体在某个状态下一致性地选择行为,然而这可能导致智能体对环境探索不够。本文则是在三种算法训练结束后再使用跟踪算法跟踪初始状态向量集中的向量来找到所有的帕累托最优策略。以回合数为横坐标,时间步为纵坐标,来比较三种多策略算法分别在不同集合评估机制下的收敛情况,如图 3。图 3 收敛性能比较由图 3 的实验结果可得:在 PQL 算法下,HV-PQL 和 C-PQL 不收敛,而 PO-PQL 收敛和 Copeland-PQL 收敛。在MPQ 和 MPS 算法下,只有 HV-MPQ 是不收敛的,其它三种机制

26、下的算法均收敛。表 3 归纳了三种算法在不同集合评估机制下的收敛情况。表 3 三种算法在集合评估机制下的收敛情况PQL 算法MPQ 算法MPS 算法HV不收敛不收敛不收敛C不收敛收敛收敛Pareto收敛收敛收敛Voting收敛收敛收敛 由表 3 可得:在超体积集合评估机制下三种算法的收敛性能最差;在基数集合评估机制下只有 MPS 和 MPQ 算法收敛性能良好;帕累托集合评估机制和基于投票法的集合评估机制在三种算法下都有不错的收敛性能。443当 Voting-MPS 算法训练结束后,使用跟踪算法从初始状态跟踪向量集中的每个向量,最终找到了 10 个非支配策略,且跟踪算法记录了智能体在非支配策略下

27、每一时间步选择的行为,如表 4。表 4 非支配策略的行为选择累积奖励行为选择(-19,127)0,2,0,2,0,2,0,0,0,2,2,2,0,0,2,2,0,2,2(-17,74)0,2,0,2,0,2,0,0,0,2,2,2,0,0,2,2,2(-14,50)0,2,0,2,0,2,0,0,0,2,2,2,0,2(-13,24)0,2,0,2,0,2,0,0,0,2,2,2,2(-9.16)0,2,0,2,0,2,0,0,2(-8,8)0,2,0,2,0,2,0,2(-7.5)0,2,0,2,0,2,2(-5,3)0,2,0,2,2(-3,2)0,2,2(-1,1)2 由表 4 结果可得

28、:MPS 作为一种新的多策略算法可以学习多个帕累托最优策略,且这 10 个非支配策略在目标空间形成了非凸的帕累托前沿,如图 4。图 4 非凸帕累托前沿4.2.2 超体积性能在无模型的 MPQ 和 MPS 算法下,向量集更新会产生额外的非支配向量,因此其超体积的增长是巨大的。以回合数为横坐标,超体积为纵坐标,来比较 MPQ 和MPS 算法在基于投票法的集合评估机制下的超体积性能,如图 5。图 5 超体积性能比较由图 5 仿真结果可得:MPQ 算法的超体积在 350 个回合左右不再增加,而 MPS 算法的超体积在 100 次左右不再增加,MPS 相比 MPQ 算法的超体积能够更快地达到最大值;并且

29、由于 MPS 算法在估计新的向量集也在探索环境,并产生了额外的向量估计,因此 MPS 算法比 MPQ 算法拥有更大的超体积。5 结束语本文提出了基于 Sarsa 算法框架的多策略在线算法MPS,该算法使用基于投票法的集合评估机制作为行为策略,可以在目标空间找到多个帕累托最优策略,且仿真验证了该算法且具有优秀的收敛性能和超体积性能。由于基于表格法的强化学习的维度限制,下一步工作将研究多目标深度强化学习,并结合进化策略来解决多目标优化问题。参考文献:1 Hayes C F,Rdulescu R,Bargiacchi E,et al.A Practical Guide toMulti-Objecti

30、ve Reinforcement Learning and Planning J.Re-searchGate,2021.2 Shantia A,Timmers R,Chong Y,et al.Two-stage visual naviga-tion by deep neural networks and multi-goal reinforcement learningJ.Robotics and Autonomous Systems,2021,138(4):103731.3 Oliveira T,Medeiros L,Neto A,et al.Q-Managed:A new algo-rit

31、hm for a multiobjective reinforcement learning J.ExpertSystems with Applications,2020:114228.4 Vamplew P,Foale C,Dazeley R.A Demonstration of Issues withValue-Based Multiobjective Reinforcement Learning Under Sto-chastic State TransitionsJ.ResearchGate,2020.5 Moffaert K V,Drugan M M,A Now.Scalarized

32、 multi-objectivereinforcement learning:Novel design techniquesC.2013 IEEESymposium on Adaptive Dynamic Programming and ReinforcementLearning(ADPRL).IEEE,2013.6 Vamplew P,Yearwood J,Dazeley R,et al.On the Limitations ofScalarisation for Multi-objective Reinforcement Learning of ParetoFrontsJ.Springer

33、-Verlag,2008.7 胡兴国.基于多目标强化学习与 Skyline 计算相结合的服务组合方案研究D.东南大学,2016.8 D J White.Multi-objective infinite-horizon discounted Markov de-cision processesJ.Journal of Mathematical Analysis and Appli-cations,1982,89(2):639-647.9M A Wiering,E Jong.Computing Optimal Stationary Policies forMulti-ObjectiveMarkov

34、DecisionProcesses C.IEEEInternational Symposium on Approximate Dynamic Programming&Reinforcement Learning.IEEE,2007.10L Barrett,S Narayanan.Learning all optimal policies withmultiple criteriaP.Machine learning,2008.(下转第 406 页)543如图 1 可见,文献方法应用下,当数据存储量逐渐增加至 400GB 时,在 1.2s 内仅能完整不到 50%的数据相似性识别。相比之下,采用所

35、提方法识别不同规模的实验对象,完成全部数据相似性识别的耗时均不超过 0.6s,说明所提方法对相似性数据的识别效率较高,受数据量大小影响不大,具有较好的存储环境适应性能。5 结束语近年来,网络数据的泛滥加重了计算机运行负担,为了避免数据冗余度过高问题,提出相似性数据识别方法,能够从时间、空间双维度分析特征向量的相似度,并通过实验验证了该方法具有良好的应用性能。但是,为进一步控制冗余数据的重复存储,在保证数据相似性识别性能的同时对数据相似性识别过程实时监控是日后研究的重点。参考文献:1 谢金凤,严涵琦,邓炳光,等.物联网终端评测体系发展研究J.电信科学,2021,37(2):63-70.2 李贺,

36、谷莹,刘嘉宇.数据驱动下基于语义相似性的产品需求识别研究J.情报理论与实践,2022,45(5):99-106.3 陈科山,贾博然,刘凯,等.基于多特征的洞库类目标识别方法J.北京理工大学学报,2020,40(1):76-824 洪征,龚启缘,冯文博,等.自适应聚类的未知应用层协议识别方法J.计算机工程与应用,2020,56(5):109-117.5 闫景涛,缪立军,毛建峰,等.高斯白噪声相位调制的激光光谱展宽J.光谱学与光谱分析,2022,42(3):665-671.6 马鹏,王泽宇,钟卫东,等.基于改进小波包分解的相关功耗攻击降噪方法J.计算机工程,2020,46(7):129-135,1

37、42.7 郭玲玲,赵其昌,杨勇,等.星载傅里叶变换红外光谱仪的脉冲噪声抑制方法J.光学学报,2020,40(8):205-212.8 戴志辉,邱小强,耿宏贤,等.基于相似度匹配的智能站虚端子连接准确性判断方法J.华北电力大学学报(自然科学版),2021,48(3):32-38,56.9 凌荣耀,冯宇.有限信息约束下的离散鲁棒滤波器设计J.小型微型计算机系统,2022,43(1):173-178.10 贺秦禄,边根庆,邵必林,等.移动闪存的重复数据删除技术J.西安电子科技大学学报,2020,47(1):128-134.11 刘芳,田枫,李欣,等.融入学习者模型在线学习资源协同过滤推荐方法J.智能

38、系统学报,2021,16(6):1117-1125.12 石祥滨,耿凯,刘翠微.融合显著特征和互信息熵的 SLAM 闭环检测算法J.小型微型计算机系统,2020,41(1):171-176.13 黄利文.基于变量择优的 Fisher 逐步判别分析方法J.系统科学与数学,2021,41(8):2338-2348.14 曹卫东,胡炜,王家亮,等.基于 SimHash 和混合相似度的多模式匹配方法J.计算机应用研究,2020,37(1):198-202.15 薛豆豆,程英蕾,文沛,等.MLMS-Net:多层次多尺度点云分类网络J.西安交通大学学报,2020,54(12):70-78.作者简介张 媛(

39、1971-),女(汉族),辽宁省辽阳市人,副研究员,研究方向:应用数学。张慧钧(1994-),女(汉族),陕西吴起人,硕士,讲师,研究方向:信息科学与技术。(上接第 345 页)11 V K Moffaert,et al.Multi-Objective Reinforcement Learningusing Sets of Pareto Dominating PoliciesJ.Journal of MachineLearning Research,2014,15:3483-3512.12 陶海成,卜湛,曹杰.基于多目标强化学习的社区隐藏框架J.中国科学(信息科学),2021,51(7):11

40、31-1145.13 Ruiz-Montiel M,Mandow L,Perez-De-La-Cruz J L.ATemporal Difference Method for Multi-Objective ReinforcementLearningJ.Neurocomputing,2017,263(nov.8):15-25.14 Vamplew P,Dazeley R,Berry A,wba et al.Empirical evaluationmethods for multiobjective reinforcement learning algorithmsJ.Machine Learn

41、ing,2011,84(1-2):51-80.15郑金华,邹娟.多目标进化优化M.北京:科学出版社,2017:291.16 Bentz Tozer,Thomas Mazzuchi,Shahram Sarkani.Many-objective stochastic path finding using reinforcement learningJ.Expert Systems with Applications,2017,72.作者简介王立佳(1996-),男(汉族),江苏省连云港市人,硕士研究生,主要研究领域为机器学习。朱正伟(1963-),男(汉族),江苏省常州市人,教授,硕士研究生导师,主要研究领域为智能检测技术及应用。诸燕平(1979-),女(汉族),江苏省常州市人,副教授,主要研究领域为数值优化。朱晨阳(1990-),男(汉族),江苏省常州市人,讲师,主要研究领域为机器学习。604

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服