收藏 分销(赏)

基于改进麻雀搜索算法的步战车火力分配模型_王明阳.pdf

上传人:自信****多点 文档编号:325342 上传时间:2023-08-15 格式:PDF 页数:5 大小:1.26MB
下载 相关 举报
基于改进麻雀搜索算法的步战车火力分配模型_王明阳.pdf_第1页
第1页 / 共5页
基于改进麻雀搜索算法的步战车火力分配模型_王明阳.pdf_第2页
第2页 / 共5页
基于改进麻雀搜索算法的步战车火力分配模型_王明阳.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 31 卷 第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号:1005-1228(2023)04-0015-05基于改进麻雀搜索算法的步战车火力分配模型王明阳1,张天赐2,尹茂振3,白梅娟1,侯帅1(1.河北工程大学,河北省邯郸市 056038;2.中国兵器科学研究院,北京市 100089;3.远光软件(北京)有限公司,北京市 100176)摘要:火力分配是现代和将来作战中的关键要素,在战斗中具有非常重要的研究意义。文章针对步战车的火力分配运用问题提出了基于改进麻雀搜索算法的步战

2、车火力分配模型。首先,提出了一种步战车火力分配相关的数学模型;其次,为了求取步战车火力分配最优方案,提出了一种基于强化学习的自学习麻雀搜索算法(Self-learning Sparrow Search Algorithm Based on Reinforcement Learning,SSA-RL);最后,为了避免不良麻雀个体进入子代种群,提出了一种个体精度约束方法。对本文的改进算法进行多次防真实验,证明了 SSA-RL 的有效性,为解决火力分配问题提供了新的方法和思路。关键词:火力分配;强化学习;麻雀搜索算法;精度约束中图分类号:TP391.9文献标识码:AFirepower Distrib

3、ution Model of Infantry Vehicle Based on Improved Sparrow Search AlgorithmWANG Ming-yang1,ZHANG Tian-ci2,YI Mao-zhen3,BAI Mei-juan1,HOU Shuai1(1.Hebei University of Engineering,Handan 056000,China;2.China Academy of Weapons Science,Beijing 100089,China;3.Yuanguang Software(Beijing)Co.,LTD,Beijing 10

4、0176,China)Abstract:Firepower distribution is a key element in modern and future combat,which has very important research significance in combat.Aiming at the problem of firepower distribution of infantry vehicle,this paper proposes a model of infantry vehicle firepower distribution based on improve

5、d sparrow search algorithm.Firstly,according to the characteristics of infantry fighting vehicle,a mathematical model of infantry fighting vehicle firepower distribution is proposed.Secondly,in order to obtain the optimal scheme of infantry vehicle firepower allocation,a Self-learning Sparrow Search

6、 Algorithm Based on Reinforcement Learning(SSA-RL)is proposed.Finally,in order to avoid bad sparrow individuals entering the offspring population,an individual precision constraint method is proposed.The effectiveness of SSA-RL is proved by several anti-truth experiments on the improved algorithm in

7、 this paper,which provides a new method and idea for solving the problem of fire distribution.Key words:fire distribution;reinforcement learning;Sparrow Search Algorithm;accuracy constraint收稿日期:2022-09-06基金项目:国网河北省电力有限公司科技项目(项目编号:kj2021-042);国家自然科学基金项目(项目编号;61802107)作者简介:王明阳(1996-),男,河南商水人,硕士研究生,主要研

8、究方向为人工智能;(通信作者)张天赐(1991-),男,黑龙江哈尔滨人,副研究员,硕士研究生,主要研究方向为辅助决策;尹茂振(1983-),男,山东泰安人,电力工程技术工程师(中级),硕士研究生,主要研究方向为能源互联网;白梅娟(1990-),女,河北邯郸人,实验师,硕士研究生,主要研究方向为人工智能与智能信息处理;侯帅(1984-),男,河北省邯郸人,副教授,博士研究生,主要研究方向为人工智能。步战车的火力分配是将各火力单元对目标进行优化配置。它是炮火射击指挥的核心问题,是炮火射击指挥智能化的重要决策支持1-2。近些年来,国内外关于火力分配研究成果多以基于专家知识的火力分配模型一定程度上提供

9、火力分配辅助智能决策,然而该模型主观性强,并不能每次都可以找到最优分配方案3;或对目标的毁伤概率最大为目的,通过启发式智能优化算法,如遗传算法、蚁DOI:10.19414/ki.1005-1228.2023.04.026电脑与信息技术 2023 年 8 月16群算法、粒子群算法等对模型求解4-5。但以上存在一定的局限性,这些算法中一些参数是一般是给定的固定值,对算法搜索效率有一定的影响。随着强化学习技术的不断突破,不少学者引入强化学习来智能调整启发式算法中的参数。相较于群体智能算法在规定范围内给定具体参数的局限性,强化学习能够通过平衡探索与利用之间的关系,搜寻到最优参数的优势6-8。为得到微电

10、网中最佳容量配比,Ma 等人9-10提出用动态步长因子改进标准麻雀搜索算法对模型进行求解,改善算法的寻优能力。Li等人11在针对船舶调度提出使用强化学习对遗传算法中的变异率和交叉率进行动态调整来提高算法的搜索性能。为了在有限时间内获得可行的车间调度序列,Cao 等人12提出一种将 Sarsa 算法引入到布谷鸟算法中,有效地提高了布谷鸟算法的性能。因此,利用强化学习来调整算法中参数可以一定程度上提高搜索能力。基于此,本文提出一种基于强化学习的自学习麻雀搜索算法步战车火力分配新模型。在此模型中以麻雀搜索算法为基本优化算法,引入 Q-learning 算法动态地调整发现者位置更新公式中的随机参数和警

11、戒者在种群的占比数来提高算法的搜索能力,并对麻雀个体的适应度进行约束,可在约束条件下决策出对敌方进行最大毁伤、我方最少消耗的打击方案。1步战车火力分配模型1.1确定火力分配原则步战车作战的打击效率主要取决于对火力单元如何进行合理分配。而最优火力分配可以表示为:当一些约束条件下,对敌方目标打击的毁伤程度最好,而我方损耗最少13。在战场上,主要的作战原则包括:(1)当敌方目标少,而我方火力单元多时,我方火力单元集火打击最重度高或威胁度高的敌方目标;(2)在同一时刻下,我方一个火力单元只能打击一个敌方目标;(3)在不同时刻下,我方相同的火力单元可以攻击不同敌方目标。1.2火力分配模型设计在作战中,步

12、战车火力单元进行目标分配的决策需要考虑到下面这些因素及规则:(1)火力单元打击的性能,包括武器类型、数量以及对各类敌方目标的打击效果参数等。(2)敌方目标的属性,包括敌方数量、类型、方位和距离等。(3)遵循最大最小规则,即使敌方毁伤程度最大、己方损失最小。(4)敌方目标的威胁度。目标威胁度评估设置为三层结构:第一层为基础指标层,如目标距离、目标速度和目标攻击角度等指标,对目标指标进行归一化处理;第二层为判断层,依据基础指标得到静态威胁度指标、动态威胁指标以及环境指数指标。第三层为综合层,对三个方面加权得到综合威胁度,如图 1所示:综合威胁度静态威胁指标动态威胁指标环境指数指标目标类型目标打击能

13、力目标速度地形条件气象条件目标机动能力目标攻击角度目标距离图 1威胁度评估模型假设有 种火力单元,分别用 Mi(i=1,2,m)表示;预打击目标共有 个,分别用 nj(j=1,2,n)表示;根据上诉的目标威胁度评估模型,用 AHP 可最终求取威胁度系数 W(w1,w2,wj),Wj表示第 j 个预打击目标的威胁度系数;Pij表示第 i 种作战单位对 nj的毁伤概率;如果在规定态势下作战,在作战过程中有 n 个敌方目标需使用 m 个火力单元进行打击,各目标可以被多个火力单元打击。xij表示火力分配的决策变量,若分配第 j 个目标被第 i 个火力单元攻击则xij=1,否则xij=0。以下是火力分配

14、的数学模型:()1111ijmnxjijjiHpw=|(1)dt11,2,s.11,2,jjnijjPPjntxim=|=|(2)djjPP表示对每个敌方目标的联合打击毁伤概率jP应大于其预设毁伤概率门限djP,假如任何一个敌方目标的毁伤概率低于毁伤概率门限,那么这个火力分配方案就是无效的;t11nijjx=表示同一时刻一个火力单元最多只能攻击一个目标。2基于强化学习的麻雀搜索算法模型2.1麻雀搜索算法第 31 卷 第 4 期17王明阳等,基于改进麻雀搜索算法的步战车火力分配模型麻雀搜索算法(Sparrow Search Algorithm,SSA)是一种新型启发式算法,具有良好的全局及局部探

15、索能力14。其算法思想是模仿麻雀觅食、反捕食行为建立数学模型进行求解。将麻雀种群角色分为发现者、追随者和警戒者。发现者的任务是负责寻找食物资源和引导整个种群的运动。因此,生产者可以在比加入者更广泛的地方寻找食物。在种群的每次迭代中,发现者的位置更新公式如(3)所示:,1max,exp if iter if ti jti jti jiXRSTXXZ LRST+|=|+|(4)警戒者是意识到危险的麻雀个体,其占总数的10%-20%。警戒者位置更新公式如(5)所示:()b,b 1,w,if if ttti jigttti ji jti jigiwXXXhhXXXXhhhhK+|=|+=|+|(5)2

16、.2构建马尔可夫决策过程Q-learning 是强化学习(RL)算法的一种,由Watkins 于 1989 年提出的。Q-learning 在探索非结构化环境时运用了奖赏与惩罚的概念,其中最重要的任务是依据麻雀搜索算法迭代中的种群特征构建马尔可夫决策过程(MDP)模型,其过程主要有状态集、动作集、奖惩函数的设计和策略的选取。2.2.1 设计状态集火力分配的目标是找到一个毁伤效果最大且损耗最小的打击方案,以此作为麻雀搜索算法的适应度。在麻雀搜索算法中,环境状态需要基于种群适应度来构建,主要考虑以下几个方面。1)种群的平均适应度;2)种群多样性;3)最佳个体的适应度。公式(6)给出了第一代种群的平

17、均适应度归一化后的种群平均适应度。式(7)给出了第一代种群多样性归一化后的种群多样性。式(8)用第一代的最佳适应度归一化后得到种群的最佳适应度。()()*111NtiiNiihhxHx=(6)()tih x表示第 t 代第 i 个个体的适应度,()1ih x表示第 1 代第 i 个个体的适应度。()()()()111111NtiNtiiiNjNjjjxh xNMxh xNhh=(7)()1jh x表示第 1 代第 j 个个体的适应度。()()1maxmaxtiih xDh x=(8)()maxtih x表示第 t 代最佳适应度个体的值,()1maxih x表示第 1 代最佳适应度个体的值。式(

18、9)为总体状态值,由式(6)、式(7)、式(8)加权得到:*123*Sw Hw Mw D=+(9)w1、w2、w3为权值,且 w1+w2+w3=1,表示三个因素的相对重要性。在本文中,种群平均适应度和种群多样性反映了整个种群的状态,有利于提高整个种群的素质,更容易获得优秀个体。种群状态数量是巨大的,太多的状态可能更精确地用于自我学习,但它需要更多的探索,这将影响麻雀搜索算法的收敛,而太少的状态可能导致较差的结果。根据麻雀搜索算法求解的适应度和 S*的值,将状态集分为 s=s(1),s(2,s(19),s(20)的 20 种状态,其中 S*的区间值设为 0.05,例 如 当 s=s(1),s(1

19、)0,0.05;s=s(2),s(2)0.05,0.1依此类推。2.2.2 动作集设计在麻雀搜索算法中,动态地调整发现者位置更新公式中的随机参数 和警戒者在种群的占比数 Vnum可用来提高算法的搜索能力。对于每一代,agent 将采取不同的行动来获得合适的 和 Vnum。其常用值范围为(01,每个动作之间的间隔值为 0.05,例如当动作设置为时 a1,0.01,0.05,选取该范围内的一个随机值;当动作设置为 a2,0.05,0.1。同样的方法也适用于 Vnum,Vnum通常取值的取值范围为电脑与信息技术 2023 年 8 月18(0.10.2,每个动作之间的间隔值为 0.01,例如,当动作设

20、置为时 a1,0.1,0.15),选择该范围内的一个随机值。2.2.3 奖惩函数设计在麻雀搜索算法中,通过个体的最佳适应度和种群的平均适应度来设计奖惩函数。公式(10)给出调整后 的奖励,公式(11)用于调整后 Vnum的奖励。主体并没有被告知该采取哪些行动,而是通过尝试发现哪些行动会产生更高的奖励。如果第 t 代的最佳个体和平均适应度优于(t-1)第代,则认为当前 和Vnum是相对有效的。()()()11maxmaxmaxttiitihh xh xrh x=(10)()()()11111NNttiiiimNtiixxrxhhh=(11)这里()1tih x表示第 t-1 次迭代时第 i 个个

21、体的适应度函数。2.2.4 动作选择策略RL 的动作选择策略也被称为搜索策略,它提供了探索和利用之间的权衡。探索未知的环境,并利用所获得的知识来指导 agent 的行动选择。本文采用greedy,它是一种考虑探索和利用的行动选择策略;其中 称为贪婪率。2.3个体精度约束对于麻雀搜索算法迭代过程中出现的不良个体,主要采用阈值进行筛选。筛选主要的原则是个体适应度值是否满足适应度阈值要求,综合考虑算法运行时间和运行精度效果,通过多次调试实验确定适应度阈值,筛选计算式如式(12)所示。()ih X (12)式中,为适应度阈值。在算法中的迭代过程中,通过约束每一代群体中最小的适应度值大于某一阈值,来避免

22、不良个体进入群体子代参与后续计算,也可以减少所有个体都更新带来的计算量。整个 SSA-SL 算法整体执行流程如图 2 所示:3实验结果与分析为证明 SSA-RL 在求解该步战车火力分配的效果,进行仿真实验比较分析。假设在作战中,我方步战车要打击的敌方目标有 4 个,其中要打击的敌方目标分别有生力量集群(O1)、碉堡(O2)、土木质发射点(O3)、装甲车(O4),目标威胁度为 w1 w2 w3 w4=0.45 0.32 0.73 0.89,我方步战车有 4 个火力单元(i1,i2,i3,i4),毁伤概率门限为 0.9,各火力单元对敌方目标的毁伤概率矩阵见表 1:表 1火力-目标毁伤表编号O1O2

23、O3O4i10.7610.5130.6310.312i20.3120.0460.0130.001i30.2130.3800.2320.056i40.6120.7130.8110.891优化算法的参数设计如下:种群的个数为 100,最大迭代次数为 150 次。使用本文的改进智能优化算法 SSA-LR 与传统 SSA、SGO 及 GA 算法分别对联合火力打击目标分配方案进行全局优化,分别独立运行20 次仿真程序,结果见表 2:表 2不同算法的搜索结果对比算法最优解平均值标准差SSA-LR3.69823.56810.0906SSA3.65493.51050.1064SGO3.59503.50700.

24、0916GA3.66533.52010.1108本文提出的基于强化学习的自学习麻雀优化算 图 2SSA-SL 算法流程图第 31 卷 第 4 期19王明阳等,基于改进麻雀搜索算法的步战车火力分配模型法优化得到的最终火力分配方案见表 3 所示:表 3最优火力分配仿真结果编号O1O2O3O4i11011i22000i30320i401015结束语本文提出的基于强化学习的麻雀搜索算法的火力分配模型,通过强化学习自学习过程动态调整麻雀搜索算法中的关键参数和对个体精度约束来提高算法的搜索能力。经过仿真验证 SSA-RL 相比于 SSA、SGO 和 GA 一定程度上提高了步战车火力分配模型的收敛精度。本文

25、改进的算法可为解决火力分配相关问题提供新的方法和思路。参考文献:1 Pan,W.,Sun,Y.,Jing,Y.,&Ieee.(2016,2016 May 28-30).Artillery Firepower Selection Based on Chaos Genetic AlgorithmC.Paper presented at the 28th Chinese Control and Decision Conference,Yinchuan,PEOPLES R CHINA.2 Pan,C.,Zhang,Y.,Yang,L.,&Qu,S.(2012).The Multi-target Fir

26、e Distribution Strategy Research Of The Anti-air Fire Based On The Genetic AlgorithmJ.International Journal of Innovative Computing Information and Control,8(4),2803-2810.3 褚 凯 轩,常 天 庆,孔 德 鹏,等.基 于 蜂 群 算 法 的 坦克阵地部署与火力分配模型 J.系统工程与电子技术,2022,44(02):546-556.4 孙海文,谢晓方,孙涛,等.改进型布谷鸟搜索算法的防空火力优化分配模型求解 J.兵工学报,2

27、019,40(01):189-197.5 丁立超,黄枫,潘伟.基于改进混沌遗传算法的炮兵火力分配方法 J.系统仿真技术,2021,17(01):12-16.6 Chen,R.,Yang,B.,Li,S.,&Wang,S.(2020).A Self-learning Genetic Algorithm Based on Reinforcement Learning for Flexible Job-shop Scheduling Problem J.Computers&Industrial Engineering,2020,149(1993):106778.7 Long,X.,Zhang,J.,

28、Qi,X.,Xu,W.,Jin,T.,&Zhou,K.A Self-learning Artificial Bee Colony Algorithm Based on Reinforcement Learning for a Flexible Job-shop Scheduling ProblemJ.Concurrency and Computation-Practice&Experience,34(4).8 Sadhu,A.K.,Konar,A.,Bhattacharjee,T.,&Das,S.Synergism of Firefly Algorithm and Q-Learning for

29、 Robot Arm Path PlanningJ.Swarm and Evolutionary Computation,43,50-68.9 马纪梅,张欣彤,张政林,等.基于改进麻雀搜索算法的微网容量优化配置 J.电子测量技术,2022,45(08):76-82.10 于权伟,李光,谢楚政,等.改进混沌麻雀搜索算法及其在冗余机械臂逆运动学求解中的应用 J/OL.机械科学与技术:1-7.11 李润佛,张新宇,李俊杰,等.基于强化学习的自学习遗传算法在船舶调度中的应用 J.大连海事大学学报,22,48(03):20-30.12 CAO Z C,LIN C R,ZHOU M C.A Knowled

30、ge-based Cuckoo Search Algorithm to Schedule a Flexible Job Shop With Sequencing FlexibilityJ.IEEE Transactions on Automation Science and Engineering,2021,18(1):56-69.13 罗锐涵,李顺民.基于改进 BBO 算法的火力分配方案优化 J.南京航空航天大学学报,2020,52(06):897-902.14 Xue,J.,&Shen,B.(2020).A Novel Swarm Intelligence Optimization Approach:Sparrow Search AlgorithmJ.Systems Science&Control Engineering,8(1),22-34.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服