收藏 分销(赏)

基于学习型粒子群算法的巡航导弹路径规划仿真验证.pdf

上传人:自信****多点 文档编号:2328690 上传时间:2024-05-28 格式:PDF 页数:7 大小:1.62MB
下载 相关 举报
基于学习型粒子群算法的巡航导弹路径规划仿真验证.pdf_第1页
第1页 / 共7页
基于学习型粒子群算法的巡航导弹路径规划仿真验证.pdf_第2页
第2页 / 共7页
基于学习型粒子群算法的巡航导弹路径规划仿真验证.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、现代电子技术Modern Electronics Technique2023年12月1日第46卷第23期Dec.2023Vol.46 No.230 引 言巡航导弹作为一种无人驾驶的吸气式飞行器1,可以从陆地、海上或空中发射,以超低空方式飞行,打击敌方纵深内的要害目标2,具有作战范围广、突防能力强及自主导航等特点3。巡航导弹高精度、高生存能力的有效实现主要依靠于巡航路径规划能力4,使得其能够沿着预先设定好的飞行航线自主飞行。路径规划的主要目的是为巡航导弹提供最佳的突防飞行航线5,最大限度地提升巡航导弹的突防能力并有效地摧毁预定敌方目标。基于学习型粒子群算法的巡航导弹路径规划仿真验证何 阳1,曲

2、凯1,袁 璞1,侯明豆2(1.华北计算技术研究所,北京 100083;2.北京师范大学 地理科学学部,北京 100875)摘 要:巡航导弹路径规划旨在提高巡航导弹突防能力和生存能力,确保命中精度,在保证作战任务的有效完成方面起着重要作用。其问题实质是在给定的约束条件下确定一条飞行路线,在满足巡航导弹机动特性的情况下,使巡航导弹能够最大程度下安全地到达目标位置。针对巡航导弹路径规划问题中易陷入局部最优、收敛性能较差、生成路径效能较低等问题,提出基于学习型粒子群算法的巡航导弹路径规划方法。首先对巡航导弹路径规划空间进行划分,确定生成路径的适应度函数;借鉴强化学习思想,在粒子群算法中引入Q学习机制,

3、实现算法局部搜索和全局搜索的平衡。仿真结果表明,基于学习型粒子群算法的巡航导弹路径算法能够比较好地解决巡航导弹路径规划问题,相比经典粒子群算法,能够更加快速、稳定地搜索到最优路径。关键词:巡航导弹;机动特性;路径规划;粒子群算法;强化学习;仿真验证中图分类号:TN959.2+134;TP391 文献标识码:A 文章编号:1004373X(2023)23011407Simulation verification of cruise missile route planning based on Qlearning particle swarm optimization algorithmHE Y

4、ang1,QU Kai1,YUAN Pu1,HOU Mingdou2(1.North China Institute of Computing Technology,Beijing 100083,China;2.Faculty of Geographical Science,Beijing Normal University,Beijing 100875,China)Abstract:Cruise missile route planning aims to improve the penetration capability and survivability of cruise missi

5、les,and ensure the accuracy of hits,which plays a significant part in ensuring the effective completion of combat missions.The essence of the cruise missile route planning is to determine a flight route under the given constraints,so that the cruise missile can reach the target position safely under

6、 the condition of satisfying the maneuvering characteristics of the cruise missile to the maximum extent.In view of the fact that the cruise missile route planning is prone to falling into the local optimization and has poor convergence performance and low efficiency of route generation,a cruise mis

7、sile route planning method based on Qlearning particle swarm optimization(QLPSO)algorithm is proposed.The cruise missile route planning space is divided to determine the fitness function of the route generation.By drawing on the idea of reinforcement learning,the Q learning mechanism is introduced i

8、nto the PSO algorithm to achieve the balance between local search and global search of the algorithm.The simulation results show that the cruise missile route algorithm based on QLPSO algorithm can improve the cruise missile route planning better,and can search for the optimal route more quickly and

9、 stably than the classical PSO algorithm.Keywords:cruise missile;maneuvering characteristic;route planning;PSO algorithm;reinforcement learning;simulation and verificationDOI:10.16652/j.issn.1004373x.2023.23.021引用格式:何阳,曲凯,袁璞,等.基于学习型粒子群算法的巡航导弹路径规划仿真验证J.现代电子技术,2023,46(23):114120.收稿日期:20230708 修回日期:202

10、30726基金项目:可扩展LVCIA集成架构方法(61400010207)114114第23期目前,典型的路径规划方法有 Voronoi图算法68、A*算 法910、遗 传 算 法1112、蚁 群 算 法1315和 粒 子 群 优 化(Particle Swarm Optimization,PSO)1617算法等。其中,粒子群算法凭借着其搜索效率高、算法通用性强的特点,成为了目前包括导弹、机器人、无人机等的路径规划中应用最为广泛的算法之一18。然而,PSO存在着收敛速度慢、在多峰值函数的测试中容易过早收敛等缺点。针对该问题,本文借鉴强化学习算法思路,将 Q学习机制引入 PSO中,实现算法局部搜

11、索和全局搜索的平衡,提高PSO在快速收敛的过程中发现最优解的准确性,保证巡航导弹路径规划算法能够快速、稳定地搜索到代价更低的路径,有效地提升巡航导弹的威胁规避能力。1 巡航导弹路径规划问题描述巡航导弹路径规划有效地弥补了巡航导弹飞行时间长、速度慢、低空突防能力弱的缺点,是巡航导弹进行精准打击、低空突防和提高实战效能的关键技术。理论上的巡航导弹路径规划空间为连续空间,如果在此空间中随机搜索最优航线,搜索空间的指数膨胀将导致搜索的效率极低甚至搜索失败。通过对路径规划空间进行划分可以有效地降低空间规模、路径规划难度,提高规划的效率。1.1 巡航导弹路径规划问题描述巡航导弹路径规划空间模型如图 1 所

12、示,S点和T点分别被定义为巡航导弹路径的起点和终点,一些深色的圆形区域被定义为危险区,例如雷达探测区、防空导弹杀伤区、高射炮兵杀伤区等。当巡航导弹的部分路径落在危险区内时,巡航导弹经过该部分路径时会面临被拦截的威胁。巡航导弹路径规划的任务是计算一条从S点到T点的最优路径,使得在满足巡航导弹机动特性的情况下,使其受到尽可能少的威胁。图1 巡航导弹路径规划空间建模示意图为了进一步量化这个问题,作线段ST并将其平均分为D+1份,基于这些分割点作垂直于线段ST的D条直 线Li(i=1,2,D),取 路 径 点Pi(i=1,2,D)使 得Pi Li,则这些路径点与S、T点组成的集合便构成了一条生成路径,

13、即:C=S,(x1,y1),(x2,y2),(xD,yD),T(1)由此,巡航导弹路径规划问题转变为了D维函数的优化问题。最后,将危险区信息从原始坐标系xOy转换到旋转坐标系xOy中。假设S点坐标为(x1,y1),T点坐标为(x2,y2),则原坐标系下坐标为(x,y)的点向新坐标系下(x,y)坐标转换的公式为:=arcsin()y2-y1(y2-y1)2+(x2-x1)2(2)xy=cossin-sin cos x-x1y-y1(3)1.2 适应度函数对于粒子群算法而言,适应度函数是描述个体性能的主要指标,其优劣程度直接影响算法的收敛速度以及能否找到最优解。当粒子群算法被用于巡航导弹路径规划问

14、题中时,适应度函数则是生成路径优劣程度的评价标准。生成路径的主要性能指标包括危险区威胁消耗成本Ji,t和路径消耗成本Ji,f,总成本表示为:Jtotal=i=1D+1(1-)Ji,t+i=1D+1 Ji,f(4)式中:Ji,t为第i个路径段的威胁消耗成本;Ji,f为第i个路径段的路径消耗成本;是用于平衡威胁消耗成本和路径消耗成本的加权系数,在 01之间取值,当任务更注重降低威胁消耗成本时,的取值更靠近0,当任务更注重降低路径消耗成本时,的取值更靠近1,在本文所述实验过程中,取值为 0.3。威胁消耗成本和路径消耗成本的定义为:Ji,t=0Lii,tdl(5)Ji,f=0Lii,fdl(6)式中:

15、i,t代表威胁消耗成本权重,与第i条路段和危险区的距离关系相关,是威胁消耗成本的衡量标准;i,f代表路径消耗成本权重,在本文所述实验过程中,取值i,f=1。为了简化威胁消耗成本的计算,将第i条路径平均分为 8份,通过计算第 1、3、5、7个节点与危险区的相对位置关系来确定第i条路径的威胁消耗成本,计算方法为:何 阳,等:基于学习型粒子群算法的巡航导弹路径规划仿真验证115现代电子技术2023年第46卷i,t=Li4k=1Nt()Rkd40.1,i,k+Rkd40.3,i,k+Rkd40.5,i,k+Rkd40.7,i,k(7)式中:Li为生成路径第i个子路径段的长度;Nt为搜索空间中危险区的数

16、量;d40,1,i,k为生成路径第i个子路径段的第 1个节点到第k个危险区的欧氏距离;Rk为人为设定的第k个危险区的威胁等级,在本文所述实验过程中,各危险区的威胁等级均取值为Rk=3。2 算法设计为了改善经典粒子群算法收敛性能差、在多峰值函数的测试中容易过早收敛的缺点,借鉴强化学习思想,在粒子群算法中引入Q学习机制,提出了基于学习型粒子群算法的路径规划算法,实现算法局部搜索和全局搜索的平衡,提高粒子群算法在快速收敛的过程中发现最优解的准确性,保证巡航导弹路径规划算法能够快速、稳定地搜索到代价更低的路径,有效地提升巡航导弹的威胁规避能力。2.1 粒子群算法粒子群算法是一种群智能算法,原理示意图如

17、图 2所示。其思想借鉴了鸟群搜索食物源的行为策略,将鸟群中的鸟拟化为搜索空间中的点19,将其寻找食物源的过程拟化为在问题空间中求解的过程。该过程仅将适应度函数作为评价体系,利用鸟群个体对信息的共享机制,使得整个鸟群不断趋向最大食物源,从而找到问题的最优解20。凭借着较强的通用性、易于实现的算法原理及较好的全局最优性,粒子群算法成为了最经典的智能算法之一。图2 粒子群算法原理示意图假设存在一个粒子种群,其种群个体数量为M,搜索空间维度为N,记为x=x1,x2,xi,xMT,其中编号为i的粒子位置表示方法为xi=xi1,xi2,xiNT,粒子的移动速度即为该粒子本次迭代与上次迭代的位置变化,表示方

18、法为vi=vi1,vi2,viNT,粒子i的个体极值即为该粒子历次迭代过程中所到过的适应度函数值最优的位置,表示方法为Pi=pi1,pi2,piNT,全局极值即为历次迭代过程中整个种群搜索到的适应度函数值最优的位置,表示方法为Pg=pg1,pg2,pgNT。由此,粒子的位置与速度的迭代更新方式如下:vk+1id=vkid+c1(pkid-xkid)+c2(pkgd-xkgd)(8)xk+1id=xkid+vx+1id(9)式中:vki是编号为i的粒子第k次迭代的速度,vkid为vki第d维分量;xki是编号为i的粒子在第k次迭代的位置,xkid为xki的第d维分量;pki是编号为i的粒子在第k

19、次迭代的个体极值,pkid为pki的第d维分量;pkg是粒子群在第k次迭代的全局极值,pkgd为pkg的第d维分量;、是在0,1区间均匀分布的随机数;为惯性因子,用来调节粒子速度改变的比例;c1、c2为趋向因子,c1的取值增大会使得粒子在每次迭代过程中更加趋向个体极值,c2的取值增大则会使得粒子在每次迭代过程中更加趋向全局极值。通过引入 Q 学习机制,学习型粒子群算法实现了对、c1、c2的自适应控制,使得算法能够自适应调节全局寻优性能与快速收敛能力。2.2 Q学习机制强化学习是智能体通过试错的方式进行学习,通过不断尝试不同的动作来得到环境的奖励反馈,最终智能体能够根据累计奖励计算并选择获得奖励

20、最大的动作21。Q学习算法是一种基于无模型、离线策略的时序差分学习算法,在路径规划算法中被经常采用,可用马尔科夫决策过程(Markov Decision Process,MDP)框架来形式化描述22。MDP可用四元组(S,A,P(s,s,a),R(s,s,a))定义,其中S是智能体能够处于的所有状态的集合;A是智能体所能够执行所有动作的集合;P(s,s,a)是智能体状态转移概率函数,代表智能体在做出动作a A后使得环境状态s S转移到新状态s S的概率;R(s,s,a)是智能体执行动作a A使得环境状态s S转移到新状态s S后环境所给予的奖励反馈。Q 学习算法会建立一个存储智能体状态集和动作

21、集映射关系的 Q表23,利用奖励函数来给予智能体在某状态下选择执行某动作的奖励,并以此为依据不断更新Q 表。若在某状态下执行某动作后得到了环境给予的正向奖励,则在该状态下执行该动作的 Q 值表示会不断增大,否则降低在该状态下执行该动作的 Q 值表示24。通过不断地试错训练,Q学习算法会不断地优化更新Q表,基于贝尔曼公式的Q表更新公式为:Q(st,at)=(1-)Q(st,at)+()R(st,at)+maxa()Q(st+1,at)(10)116第23期式中:为学习率,在 01之间取值,表示当前奖励对于Q 表的更新权重;为折扣因子,在 01之间取值,表示未来对于现在的影响权重;R(st,at)

22、为状态st下执行动作at的即时奖励;Q(st,at)为状态st下执行动作at的潜在奖励期望。Q学习算法的常用搜索策略被称为贪婪策略25,即智能体在选择动作时,将以的概率选择 Q表中Q值最优的动作,以1-的概率选择一个随机动作。其算法表达式为:(st)=arg max Q(st,a),a A,(11)式中:在01的范围内取值,当的取值趋近于0时,智能体仅随机选择动作以探索环境,当趋近于1时,智能体仅选择Q表中Q值最优的动作以获取最佳奖励反馈;是在每次迭代过程中随机生成的一个变量,在 01的范围内取值。2.3 学习型粒子群算法Q 学 习 粒 子 群 优 化(Q learning Particle

23、Swarm Optimization,QLPSO)算法借鉴强化学习的思想,将Q学习算法引入经典粒子群算法框架,并设计状态、动作、Q 表和奖励等方面的策略机制2628,以实现对粒子群算法参数的自适应控制。2.3.1 状态与行为由经典粒子群算法的原理可知,其粒子状态主要由空间位置状态与适应度状态构成。空间位置状态指的是粒子与全局最优粒子之间的相对位置距离,分为很近、近、远、很远4种状态,并记为sd(sd=1,2,3,4),如表1所示。表1 空间位置状态划分关系距离0 di 0.25D0.25D di 0.5D0.5D di 0.75D0.75D di D空间位置状态很近近远很远Sd1234表 1

24、中:di为粒子i与全局最优粒子之间的位置距离;D为粒子群与全局最优粒子之间的最大位置距离。适应度状态是当前粒子与全局最优、最差粒子的适应度之间的相对性能状态,分为小、较小、较大、大 4种状态,标记为Sf(Sf=1,2,3,4),如表2所示。表 2 中:fi为粒子i与全局最优粒子的适应度函数值之差;F为全局最差与最优粒子的适应度函数值之差。其中,粒子i的适应度可以通过适应度函数进行计算。表2 适应度状态划分关系适应度0 fi 0.25F0.25F fi 0.5F0.5F fi 0.75F0.75F fi F适应度状态小较小较大大sf1234此外,设定粒子执行的行为有全局搜索和局部搜索两种,在算法

25、执行的 90%迭代过程中,粒子执行全局搜索行为,在 10%迭代过程中,粒子执行局部搜索行为。全局搜索行为被进一步划分为大幅搜索、小幅搜索、缓慢收敛、快速收敛4种行为,记为d,f(d,f=1,2,3,4)。这些行为所对应的一组、c1、c2的参数29设置如表3所示。表3 搜索行为参数设置信息粒子行为全局搜索局部搜索大幅搜索小幅搜索缓慢收敛快速收敛d,f12341.00.80.60.40c12.52.01.00.50c20.51.02.02.53.02.3.2 Q表和奖励Q表是状态动作与估计奖励之间的映射表30,本文定义的Q表是一个结合空间位置状态、适应度状态和动作行为的三维表,表中的元素标记为QT

26、(sd,sf,d,f)。当粒子要进行状态转移时,根据当前时刻的状态得到sd和sf的 取 值,比 较QT(sd,sf,1)、QT(sd,sf,2)、QT(sd,sf,3)和QT(sd,sf,4)的 值,假 设 四 者 中 最 大 值 是QT(sd,sf,)(1,2,3,4),则选择Ad,f=,并根据上表选择相应的粒子行为,获取粒子群算法中粒子位置更新所需的参数值。此外,算法需要观测粒子的行为结果,对相应Q值进行奖励和惩罚,从而不断更新Q表。即当粒子完成某一行为并得到行为结果后,若其行为结果致其性能表现上升,则奖励对应的Q值;若其行为结果致其性能表现下降,则惩罚对应的Q值。具体的方法为:若空间位置

27、状态为sd、适应度状态为sf的某粒子,根据 Q 表执行了Ad,f=的搜索行为后性能表现上升,则:QT(sd,sf,d,f)=QT(sd,sf,d,f)+10(12)否则:QT(sd,sf,d,f)=QT(sd,sf,d,f)-10(13)2.3.3 算法流程根据上述算法思想,设计基于学习型粒子群算法的巡航导弹路径规划算法的运行步骤如下:何 阳,等:基于学习型粒子群算法的巡航导弹路径规划仿真验证117现代电子技术2023年第46卷步骤 1:定义新坐标系原点为巡航导弹路径起点,x轴为从起点出发指向路径目标点的直线,并根据式(2)和式(3),将圆形危险区威胁信息转换到新的坐标系下。步骤2:初始化粒子

28、群个体Xi(i=1,2,D)。步骤 3:根据式(4)对每个粒子的总成本消耗进行计算,记录消耗最低的粒子的位置信息,并标记所有粒子的空间位置状态和适应度状态。步骤 4:首先确定每个粒子应执行全局搜索或局部搜索。执行全局搜索则根据每个粒子的空间位置状态和适应度状态,从 Q 表中读取该粒子应执行的搜索行为,获取其、c1、c2的参数;执行局部搜索则直接获取其、c1、c2的参数。步骤 5:根据式(8)计算每个粒子下一步的移动速度vk+1id,并记录该速度。步骤6:根据式(9)计算每个新粒子的位置。步骤 7:根据式(4)计算每个粒子的总成本消耗并更新每个粒子的局部最优位置,记录当前成本消耗最低的粒子的位置

29、信息,并标记所有粒子的空间位置状态和适应度状态。步骤8:根据式(12)与式(13),更新Q表中空间位置状态、适应度状态与搜索行为对应关系的权重因子。步骤9:返回步骤4,直到迭代次数达到要求。步骤 10:计算总成本消耗最低的粒子的总成本消耗及其生成路径信息。步骤 11:将最优路径的坐标点信息变换到初始坐标系下并输出。2.4 对比的相关粒子群算法2.4.1 线性递减惯性权重粒子群算法在经典 PSO 算法中,作为惯性因子,调节着粒子对当前自身运动状态的信任程度。当较大时,PSO探索新区域的能力增强,能够更快地搜索到全局变量;当较小时,局部寻优能力增强,收敛速度更快。所以,当数值固定时,其数值的大与小

30、均有一定的优势。线性递减惯性权重粒子群优化(Linear Decreasing Particle Swarm Optimization,LDPSO)算法将设置为线性变化的函数,使惯性权重随算法的不断迭代从最大值线性减小至最小值,其计算方法如下:=max-t (max-min)tmax(14)式中:max表示的最大值;min表示的最小值;t表示算法此刻的迭代数;tmax表示最大迭代数。2.4.2 基于量子修正的粒子群算法基于量子修正的粒子群算法(QuantumBehaved Particle Swarm Optimization,QPSO)假定粒子具有量子行为并处于束缚状态,即被一个以其局部吸引

31、粒子为中心的量子引力吸引。通过选择收缩膨胀系数,从概率的角度对 QPSO的每个粒子进行分析,提出了全新算法迭代公式:xk+1id=pkid+0.5Gkidln(1 r)(15)式中:r是从(0,1)中生成的随机数;pkid是一个局部吸引子。pkid计算方法为:pkid=aGkid+(1-a)Gkid(16)式中a是从(0,1)中生成的随机数。Gkid的计算方法为:Gkid=2|mbestkd-xkid(17)式中:mbestkd是粒子群的平均最佳位置;是收缩膨胀系数。mbestkd的计算方法为:mbestkd=i=1MlkidM(18)QPSO 算法有效地降低了算法陷入局部极值的概率,但同时也

32、降低了算法收敛速度。3 仿真验证与结果分析为了验证基于学习型粒子群算法的巡航导弹路径规划算法的有效性,在 1 8001 200的多危险区环境模型中,采用 Python 编程实现 QLPSO 算法、PSO 算法、LDPSO算法和 QPSO算法并进行路径规划仿真试验,设置导弹发射点坐标为(1 600,900)、攻击目标点坐标为(200,200),危险区信息如表4所示。表4 仿真验证场景信息危险区编号危险区0危险区1危险区2危险区3危险区4危险区5危险区6危险区7危险区8危险区9中心坐标(551,119)(979,217)(372,167)(200,160)(573,93)(988,40)(115,

33、195)(824,136)(347,72)(777,60)半径1 1806721 2394006951 6481 7251 421104911对于 QLPSO、PSO、LDPSO和 QPSO这 4种粒子群算法,分别设定其初始参数如表5所示。图 3和图 4分别给出了该仿真场景下4种粒子群算法的收敛曲线及最优路径规划图。118第23期表5 粒子群算法初始参数设定参数最大迭代次数Kmax种群数量M最大加速度系数Cmax最小加速度系数Cmin最大惯性权重max最小惯性权重min奖励系数a分岔系数u值1003001.50.51.50.40.14图3 算法收敛曲线图图4 路径规划图由图 3 和图 4 可知

34、,4 种算法在给定的环境模型中均能够输出一条可行的生成路径,使得巡航导弹能够从发射点顺利地到达攻击目标点,但 QLPSO 算法生成的规划路径较为平滑且路径长度相对较短。此外,QLPSO算法的收敛性能也要明显优于其他3种算法。表6总结了4种算法在该环境模型中重复运行50次的数据结果,可以看出,QLPSO 算法相比于其他粒子群算法总能够寻找到最优路径,且算法的标准差远小于其他算法,曲线离散程度低。仿真结果表明,将强化学习思想引入PSO 算法后,不仅改善了算法的寻优稳定性,也较大地提升了算法的收敛性,降低了算法收敛到最优路径的时间。表6 算法成本消耗对比算法QLPSOQPSOLDPSOPSO最优成本

35、消耗5 1025 3115 2665 826成本消耗平均值5 2705 5885 4426 197标准差87.44148.16163.74391.63平均迭代次数455478964 结 语本文针对巡航导弹的作战特点,提出了一种基于学习型粒子群算法的巡航导弹路径规划算法,针对经典粒子群算法做了以下改进:1)将粒子群算法中的惯性权重和学习因子由线性值转化为非线性值,有效地规避了局部最优陷阱;2)将粒子群算法与强化学习思想结合起来,将意识赋予粒子群体自身,提高了算法的收敛性。此外,本文设计并实现了相关仿真实验,验证了该算法在巡航导弹路径规划情景下的可行性和有效性。仿真结果表明,学习型粒子群算法能够比

36、较好地解决巡航导弹路径规划问题,相比其他一些经典的粒子群算法,总成本消耗更小,且在收敛速度上有明显提升。参考文献1 耿建福,宋怡然,王雅琳,等.2021 年国外飞航导弹发展综述J.飞航导弹,2021(12):711.2 叶大山.巡航导弹飞行姿态控制方法研究D.上海:东华大学,2022.3 林功勋,滕海.巡航导弹的特点与防御难点研究J.军事文摘,2023(1):4145.4 朱旭,朱万红,秦建飞.战斧巡航导弹作战效能及其防护措施研究J.飞航导弹,2018(3):811.5 秦钰彧,夏丰领,黄国勇.面向协同的高超声速巡航导弹航迹规划J.探测与控制学报,2022,44(3):102109.6 庞风麟

37、,骆敏舟,柳聪,等.一种基于 Voronoi_Obstacle 场的移动机器人路径规划算法J.机械设计与制造工程,2021,50(12):3943.7 叶鸣飞.基于Voronoi图与不确定性势场的移动机器人路径规划D.成都:电子科技大学,2021.8 范世鹏,祁琪,路坤锋,等.基于改进人工势场法的巡航导弹自主避障技术J.北京理工大学学报,2018,38(8):828834.9 张辉,张瑞亮,许小庆,等.基于关键节点的改进A*无人车路径规划算法J.汽车技术,2023(3):1018.10 沈克宇,游志宇,刘永鑫,等.基于改进 A*算法的移动机器人何 阳,等:基于学习型粒子群算法的巡航导弹路径规划

38、仿真验证119现代电子技术2023年第46卷路径规划J.计算机应用研究,2023,40(1):7579.11 李培英.基于改进遗传算法的移动机器人路径规划J.国外电子测量技术,2022,41(6):3844.12 赵杰,王馨阳,王贺.改进遗传算法的救援机器人路径规划J.黑龙江科技大学学报,2022,32(3):393400.13 王子扬,夏学文.自适应蚁群算法在机器人路径规划的应用J.闽南师范大学学报(自然科学版),2022,35(3):3845.14 岳春擂,黄俊,邓乐乐.改进蚁群算法在 AGV 路径规划上的研究J.计算机工程与设计,2022,43(9):25332541.15 田晓航,霍鑫

39、,周典乐,等.基于蚁群信息素辅助的 Q学习路径规划算法J/OL.控制与决策:1920220829.https:/doi.org/10.13195/j.kzyjc.2022.0476.16 谢勇宏,孔月萍.基于改进粒子群算法的三维路径规划J.计算机测量与控制,2022,30(3):179182.17 叶梓菁,魏文红,李环,等.基于改进粒子群算法的无人机路径规划J.东莞理工学院学报,2023,30(3):1823.18 白晓兰,周文全,张振朋,等.基于启发式粒子群算法的机器人平滑路径规划J.组合机床与自动化加工技术,2022(8):4447.19 曹梦龙,赵文彬,陈志强.融合粒子群算法与改进灰狼算

40、法的机器人路径规划J.系统仿真学报,2023,35(8):17681775.20 李斌,杨豪中,甘旭升,等.改进 PSO算法融合人工势场法的工业机器人路径规划设计J.系统科学与数学,2021,41(4):939952.21 李佩娟,颜庭武,杨书涛,等.基于强化学习的无人水面艇能耗最优路径规划算法J.水下无人系统学报,2023,31(2):237243.22 陈昱宏,高飞飞.基于深度强化学习的多目标无人机路径规划J.无线电通信技术,2022,48(6):957970.23 谢文显,孙文磊,刘国良,等.基于强化学习的机器人智能路径规划J.组合机床与自动化加工技术,2022(7):1317.24 潘

41、国倩,周新志.基于启发式强化学习的移动机器人路径规划算法研究J.现代计算机,2022,28(10):5761.25 吕雅丽.基于 Q 学习的高超声速飞行器路径规划方法研究D.成都:电子科技大学,2021.26 高岳林,武少华.基于自适应粒子群算法的机器人路径规划J.郑州大学学报(工学版),2020,41(4):4651.27 皮现磊.基于粒子群算法及强化学习的助老服务机器人路径规划研究D.呼和浩特:内蒙古工业大学,2021.28 潘红丽.基于改进粒子群算法的垃圾清运车辆低碳路径规划D.南京:南京信息工程大学,2022.29 LIU Y X,LU H,CHENG S,et al.An adapt

42、ive online parameter control algorithm for particle swarm optimization based on reinforcement learning C/2019 IEEE Congress on Evolutionary Computation(CEC).New York:IEEE,2019:815822.30 戚远航,侯鹏,金荣森.基于Q学习粒子群算法的海上风电场电气系统拓扑优化J.电力系统自动化,2021,45(21):6675.作者简介:何 阳(1997),男,山西繁峙人,硕士,研究方向为仿真试验训练。曲 凯(1984),男,山东巨野人,硕士,高级工程师,研究方向为仿真试验训练。120

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服