收藏 分销(赏)

基于分配策略优化算法的智能防空任务分配.pdf

上传人:自信****多点 文档编号:636967 上传时间:2024-01-21 格式:PDF 页数:12 大小:34.20MB
下载 相关 举报
基于分配策略优化算法的智能防空任务分配.pdf_第1页
第1页 / 共12页
基于分配策略优化算法的智能防空任务分配.pdf_第2页
第2页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023基于分配策略优化算法的智能防空任务分配基于分配策略优化算法的智能防空任务分配刘家义1,2,王刚1,付强1*,郭相科1,王思远1,2(1.空军工程大学 防空反导学院,陕西 西安 710051;2.空军工程大学 研究生院,陕西 西安 710051)摘要摘要:针对分配策略最优算法在大规模场景中求解速度不足的问题,基于马尔可夫决策过程,将深度强化学习与其相结合,将大规模防空任务分配问题进行智能化求解。根据大规模防空作战特点,利用马尔可夫决策过程

2、对智能体进行建模,构建数字战场仿真环境;设计防空任务分配智能体,通过近端策略优化算法,在数字战场仿真环境中进行训练。以大规模防空对抗任务为例,验证了该方法的可行性和优越性。关键词关键词:分配策略优化算法;任务分配;马尔可夫决策过程;深度强化学习;智能体中图分类号:TP391.9 文献标志码:A 文章编号:1004-731X(2023)08-1705-12DOI:10.16182/j.issn1004731x.joss.22-0432引用格式引用格式:刘家义,王刚,付强,等.基于分配策略优化算法的智能防空任务分配J.系统仿真学报,2023,35(8):1705-1716.Reference fo

3、rmat:Liu Jiayi,Wang Gang,Fu Qiang,et al.Intelligent Air Defense Task Assignment Based on Assignment Strategy Optimization AlgorithmJ.Journal of System Simulation,2023,35(8):1705-1716.Intelligent Air Defense Task Assignment Based on Assignment Strategy Optimization AlgorithmLiu Jiayi1,2,Wang Gang1,Fu

4、 Qiang1*,Guo Xiangke1,Wang Siyuan1,2(1.Air and Missile Defense College,Air Force Engineering University,Xian 710051,China;2.Graduate College,Air Force Engineering University,Xian 710051,China)Abstract:Aiming at the insufficient solving speed of assignment strategy optimization algorithm in large-sca

5、le scenarios,deep reinforcement learning is combined with Markov decision process to carry out the intelligent large-scale air defense task assignment.According to the characteristics of large-scale air defense operations,Markov decision process is used to model the agent and a digital battlefield s

6、imulation environment is built.Air defense task assignment agent is designed and trained in digital battlefield simulation environment through proximal policy optimization algorithm.The feasibility and advantage of the method are verified by taking a large-scale ground-to-air countermeasure mission

7、as an example.Keywords:assignment strategy optimization algorithm;task assignment;Markov decision process;deep reinforcement learning;agent0引言引言防空反导作战实际上是一个持续决策的过程,需要针对战场局势的变化,作出适应性较好的决策,任务分配是其中的重要一环,其目的是合理分配资源、最大化防空作战效能。现有的研究中常提及目标分配和任务分配1-4两个概念,二者存收稿日期:2022-04-29 修回日期:2022-06-30基金项目:国家自然科学基金(62106

8、283)第一作者:刘家义(1996-),男,博士生,研究方向为深度强化学习、智能辅助决策。E-mail:通讯作者:付强(1988-),男,副教授,博士,研究方向为智能辅助决策、指控模型。E-mail:fuqiang_第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-在很多共性,但又不完全相同。任务分配可看作是在目标分配基础上提出的概念,当作战任务被分解为不同类型的任务后,目标分配将转化为任务分配5。本文结合目标分配和任务分配的研究成果,针对大规模防空作战的任务分配问

9、题进行研究。目前,大多数研究都是单次静/动态打击式目标分配,但防空作战是一个动态过程,在此过程中,其面临的威胁可能是大规模的体系空袭,也可能是小规模的战术偷袭,同时,火力单元和来袭目标的数量也在不断变化。因此,动态武器目标分配(dynamic weapon target assignment,DWTA)是防空反导指控系统亟待解决的重要理论问题6。DWTA的研究主要有多级武器-目标分配7-8、基于马尔可夫决策过程最优化的分配策略优化算法9。尽管这些方法在不断改进,但是对大规模的武器目标分配问题的求解速度仍然略显不足10。深度强化学习(DRL)是深度学习(DL)与强化学习(RL)的结合,20世纪9

10、0年代以来,其发展为指控系统的智能化提供了动力,其和指控系统的结合在协同作战、精准制导等方面产生了巨大的效应11。其利用马尔可夫决策过程(Markov decision process,MDP)对智能体及其交互环境完成建模后,即可利用相应的方法对问题进行求解,具有较快的反应性和较高的动态性12。因此,本研究基于MDP将分配策略最优算法结合DRL方法,利用深度神经网络的高速运算能力求解MDP,弥补了分配策略最优算法在求解速度上的不足,解决了大规模防空任务分配问题。1相关工作相关工作1.1 分配策略优化算法分配策略优化算法目标分配可以分为静态和动态。其中,DWTA考虑了战场态势随时间而变化,比静态

11、的目标分配更切合实际问题的需要,逐渐成为研究的热点。但DWTA的求解也因为约束条件多而面临着计算复杂度的挑战。在 DWTA 的求解方法中,有一类方法称为分配策略优化算法,此类方法利用了MDP的动态性来求解该问题13-14。其中,影响较大的是韩松臣的基于马尔可夫决策的动态WTA过程15,提出可基于马尔可夫动态系统,通过随机服务系统输入过程的最优控制,建立目标分配决策模型15,在一定假设条件下,将DWTA分为策略优化和匹配优化2个阶段。陈英武等在此基础上用五元组S A P r V定义 DWTA 的MDP,提出了一种混合的最优策略改进算法,其中,S为状态空间,A为方案集合,P为转移概率矩阵,r为收益

12、函数,V为目标函数。用MDP的无限阶段平均模型(式1)来描述目标函数V,用来求解大规模的DWTA问题16。V(i)=limN1Ns=1NE(Rs(i)n1=i)=limN1Ns=1N j jSr(j)pns=j n1=i j(1)式中:V(i)为武器系统从状态i出发所获得的长期平均收益;pns=jn1=i j为武器系统采用策略在第一个目标到达时所处状态为i,于第s个目标到达时转移到状态j的s-1步转移概率。何鹏等17将策略分配优化算法应用于任务分配问题中,将其描述为一个分阶段的序列决策过程,在小规模任务分配寻优中效果较为理想。尽管许多研究在不断改进分配策略最优算法18-20,但依然无法完全解决

13、计算复杂度的难题,在求解大规模DWTA时速度仍略显不足,实时性不太理想21。1.2 深度强化学习深度强化学习RL的思路是利用试错法和奖励来训练智能体学习行为。RL的基本环境是一个马尔可夫决策过程。一 个 马 尔 可 夫 决 策 过 程 有 五 元 素,即S A R P,其中,S代表状态集合,A代表动作集合,R代表奖励函数,P代表状态转移概率,代表折扣因子。其基本框架如图1所示。1706第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-智能体(agent)从环境中感知当前状态(stat

14、e),然后做出相应的行为(action),得到对应的奖励(reward)。然而在实际问题中,状态往往十分复杂,导致传统RL存在维数灾难的问题22。DL利用深度神经网络作为函数拟合器,与RL结合形成了DRL23,有效解决了维数灾难的问题24。其中,DQN算法25将卷积神经网络和Q学习结合用于决策,在自动驾驶、机器人控制、无人机导航等多个领域取得应用成果26-28。本研究旨在将解决动态目标分配问题的分配策略优化算法,用于求解任务分配问题,同时结合DRL方法,克服分配策略优化算法在大规模场景中求解速度上的不足。2问题描述问题描述2.1 目标分配与任务分配目标分配与任务分配工作任务分配与工作目标分配两

15、者求解的问题模型以及解决问题的方法大同小异,分配本质是一样的29。随着武器系统和作战方式的不断发展,目标分配问题显示出一些局限性,而任务分配改变了目标分配火力单元-目标的模式,形成任务-目标的分配模式,在火力单元和目标数都相同的情况下,任务分配较目标分配有以下优势:(1)任务分配更加灵活,有更多分配结果供选择。将任务分解为跟踪任务和拦截任务,此时将传感器和拦截器灵活组合,可以虚拟出更多的火力单元。(2)任务分配抗毁性更强。在目标分配中,若火力单元的传感器或发射装置遭摧毁,这个火力单元将不能继续作战。而在任务分配模式下,只要该火力单元还可以完成部分协同作战任务,就可以继续参加任务分配。(3)任务

16、分配可实施性更强。具体的拦截过程涉及到多个子任务,这些任务之间有较强的时间与空间的约束,任务分配可以对这些子任务进行合理配置,最大化作战效能。虽然任务分配有许多优势,但面对大规模复杂场景,还需要具有以下几种能力:(1)实时的态势处理能力随着空袭网络化作战的发展,高实时、高动态的战场态势成为防空反导作战的主要挑战之一。因此,必须具有实时的战场态势分析和处理能力。(2)动态的要素调配能力基于要素的集成分布式协同作战是应对空域网络化的发展趋势。分散部署的要素资源需要进行协同作战,形成虚拟作战联盟,以作战要素集成的方式动态调配、灵活组合。需要动态的要素调配能力。(3)高速的信息计算能力基于要素集成的作

17、战模式带来了武器组合的爆炸式增长,大量的实时信息数据处理成为主要挑战之一。高速的信息计算能力是实时地在众多组合之中快速寻找最优结果、最大化作战效能的根本保证。2.2 智能防空任务分配智能防空任务分配为充分发挥任务分配的优势并最大程度上达到上述3种能力,本文基于分配策略最优算法的思想,将该问题建模为MDP并用DRL来求解,用智能化的方法增强实时性和计算能力。本文研究的是大规模防空任务分配问题,目的是在保护对象受损最小时使用最少的资源。因此本研究的优化目标为求解最优的策略函数*,最大化期望累积奖励值为图1 强化学习基本框架Fig.1 Basic framework of reinforcement

18、 learning 1707第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-maxE t=0Ttrt s.t.st+1p(|stat)at(|st)t=0 1 T-1(2)式中:p(|st at)为t时刻的状态转移概率。此时任务分配问题转化成了利用RL算法在状态转移概率未知情况下求解MDP,RL算法求解的核心思路是采用时间差分方法估计动作-值函数:Q(s a)=E tTtrt|s0=s a0=a(3)Q(stat)Q(stat)+r(stat)+Q(st+1at+

19、1)-Q(stat)(4)(s)=argmaxaQ(s a)(5)式中:Q(s a)为状态动作值-函数,表示在状态s下执行动作a,后续动作选取遵从策略所获得的期望总奖励;为学习率,表示新信息对旧信息的影响程度;Q为更新后的估计值。2.3 MDP建模建模对于DRL而言,状态空间、动作空间和奖励函数的定义都十分重要,必须满足合理性和完整性,本文的状态空间、动作空间和奖励函数设计如下。状态空间:红方受保护的单位状态、传感器状态、拦截器状态;蓝方单位基本信息以及可跟踪和可拦截的蓝方单位的状态。动作空间:动作分为选择跟踪的单位、选择拦截的单位、选择拦截的时机和用于拦截的资源数量。奖励函数:如果只在每局最

20、后一步给出胜利或者失败的奖励值,可以给智能体最大限度的学习空间,但会导致奖励值过于稀疏,智能体探索到获胜状态的概率很低。为了较好地平衡智能体的探索和学习,本文的奖励函数为R=5m+2n-5i+j-100 失败5m+2n-5i+j 胜利 (6)式中:m为拦截高价值数量;n为拦截高威胁单位数量;j为拦截空对地导弹数量;i为要地被攻击次数。拦截高价值单位加5分,拦截高威胁目标加2分,拦截空对地导弹加1分,要地被攻击1次扣5分,超过3次判定为失败,扣100分。3基于保卫要地任务的环境设计基于保卫要地任务的环境设计在DRL的训练中,智能体与环境交互进行试错是十分关键的环节。为了解决军事博弈对抗场景交互试

21、错成本高的难题,在前期工作中30已构建了一个高仿真度的数字战场,将物理环境较好地映射到虚拟环境中。本研究在智能化目标分配的基础上,依据任务分配问题的需求将仿真环境设计进一步完善。3.1 交互场景交互场景数字战场主要负责战场环境的呈现和交互过程的模拟,包括模拟每个单位的行为逻辑和互相攻击的毁伤计算。根据任务分配特点将各个单位分为传感器与拦截器,具体交互环境如图 2所示。3.2 数据交互数据交互本研究在数据交互流程中增加了协议模块,包含了数字战场与智能体交互的接口,主要作用是将数字战场与智能体之间交互信息的序列化、传输和反序列化。一次完整的数据交互流程如图3所示。图2 交互环境Fig.2 Inte

22、raction environment 1708第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-4面向防空任务分配的深度强化学面向防空任务分配的深度强化学习方法习方法4.1 训练框架设计训练框架设计在使用DRL方法求解问题之前,需要先对智能体进行训练,通过不断与环境交互,让智能体学习到有效策略,优化神经网络参数。本文的智能体训练框架如图4所示。在交互方面,智能体需要输入的是状态信息和奖励,输出则是动作信息,而仿真环境需要输入的是作战指令,输出的是战场态势信息。因此,智能体要和环境进

23、行交互,需要根据定义的MDP模型,将环境输出的数据转换为状态信息,将智能体输出的动作转换为作战指令。在训练方面,智能体将与环境交互得到的数据输入RL算法,通过计算出的loss来更新网络参数。如此迭代,不断优化智能体的策略。4.2 训练网络结构设计训练网络结构设计深度神经网络是DRL方法解决大规模复杂问题的关键,网络结构的设计必须符合场景需求。结合3.2节中的MDP模型和大规模防空任务分配问题需要,设计网络结构如图5所示。图3 数据流程Fig.3 Data flow chart图4 智能体训练框架Fig.4 Agent training framework图5 神经网络结构Fig.5 Neura

24、l network structure 1709第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-分别输入状态空间定义的几种状态,经过2层FC-ReLU层进行特征提取后再合并作为基础数据,分别输入到价值网络和策略网络。在价值网络中,基础数据再经过 2 层 FC-ReLU 层和 1 层FC层,输出当前态势下的预估胜率,作为评价此阶段决策好坏的一个指标。在策略网络中,基础数据经过1层FC-ReLU层形成全局特征,与经过特征提取后的蓝方单位状态信息一起输入到FC-ReLU

25、层,继而输出动作。4.3 近端策略优化算法近端策略优化算法如何快速训练智能体,优化神经网络参数,让智能体输出高水平的策略,也是本研究的核心问题之一。本研究选用近端策略优化(proximal policy optimization,PPO)算法作为图 5 中的 RL 算法,用于优化神经网络参数。PPO算法直接优化策略函数(as),其中,s为状态,a为动作,计算累积期望回报的策略梯度,保证每步迭代获得一个“更好”的策略,进而得到使整体回报最大化的策略参数。对于PPO中的损失函数,也有不同的定义方法,如无裁剪或惩罚、带裁剪、带KL 惩罚等,从 MuJoCo 实验31来看,带裁剪的PPO实现简单,而且

26、效果更好。因此,本文中采取的是带裁剪的PPO,算法具体内容如下。算法1 PPO算法初始化策略参数,old重复每轮更新 重复每个Actor 重复T步 每步使用旧的策略参数old产生决策 计算每一步中的优势估计A迭代K步 求解累积期望回报函数的策略梯度,每次使用小批量数据 用策略梯度更新策略参数更新新的策略参数至old算法1中的old与分别指的是策略近似函数的旧参数与新参数,也可描述为更新前的策略函数与当前新的策略函数。此算法的累积期望回报目标函数为Lt()=min(rt()At clip(rt()1-1+)At)(7)式中:rt()为采用新旧策略函数概率的比值;为裁剪系数。本研究使用的 PPO

27、中的裁剪系数=0.2,学习率为10-4,批尺寸为5 120,神经网络中隐藏层单元数分别为128和256。当rt()1-1+时,优势函数At被裁剪,使得在旧策略函数基础上进行多次更新,同时避免更新后的策略函数偏离原来的策略函数过大。5实验与结果实验与结果5.1 数字战场仿真环境数字战场仿真环境5.1.1 对抗场景设置对抗场景设置为了验证本文方法的可行性和优越性,以大规模防空任务为例,红方单位包括6个远程火力单元和6个近程火力单元以及预警机1架。需要保卫的要地为1个指挥所和1个机场。其中,远程火力单元由1个远程传感器和8个远程拦截器组成,近程火力单元由1个近程传感器和3个近程拦截器组成。蓝方设置1

28、8枚巡航弹,20架无人机,12架战斗机,4架轰炸机和2架干扰机,分批对红方进攻。蓝方编队规模、作战任务是固定的,但各批次的突防路线和到达时间是随机的。第1个批次由18枚巡航导弹分为2条突防路线攻击指挥所及机场,巡航弹飞行高度100 m进行超低空突防,红方必须合理规划资源,在拦截的前提下让弹药资源消耗最小;第2批次为由20架无人机23 km高度突防、12架战斗机飞行高度100 m超低空突防,并且摧毁第1批次进攻后暴露的火力单元;第3个批次为由4架轰炸机突防轰炸要地。5.1.2 对抗准则设置对抗准则设置远程传感器最大探测距离为200 km,扇区为120,近程传感器最大探测距离为60 km,扇区为

29、1710第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-360;制导过程传感器需要全程开机,开机时会暴露自身位置;防空导弹拦截远界为160 km(远程)、40 km(近程),针对无人机、战斗机、轰炸机、反辐射导弹、空对地导弹在杀伤区的高杀伤概率为75%,低杀伤概率为55%,针对巡航导弹在杀伤区的高杀伤概率为 45%,低杀伤概率为35%;反辐射导弹射程为110 km,命中率为80%;空对地导弹射程为60 km,命中率为80%;蓝方干扰机干扰扇区为15,红方传感器受到干扰后,根据干扰等

30、级,相应降低杀伤概率。当红方指挥所受到3次攻击时红方失败;当蓝方轰炸机与红方指挥所之间的距离小于10 km时,红方失败;当红方传感器损失超过60%时,红方失败;当蓝方损失的战斗机超过30%时,红方胜利。5.2 实验硬件配置实验硬件配置仿真环境配置:CPU Intel Xeon E5-2678V3,88核,256 G内存;训练环境配置:GPU*2型号NVIDIA GeForce 1080Ti,72核,11 G显存。5.3 实验实验1:可行性验证可行性验证不同于分配策略优化算法,本研究利用DRL方法对MDP进行动态求解,但在此之前需要通过训练来优化神经网络参数。因此,需要验证训练后的智能体是否可以

31、学习到有效的任务分配策略,成功保卫要地。在实验1中,将智能体按照第5节中的DRL方法训练100 000次,智能体在对抗中获得的奖励值可以达到 65 左右,胜率达到 55%左右。将未训练过的智能体与训练100 000次的智能体分别在环境中进行推演,行为对比如图 6所示。从行为对比可以看出,未训练过的智能体采用随机策略,没有拦截正在攻击要地的目标,几乎无法取胜;经过训练的智能体可以学习到有效策略,保卫要地的同时拦截高价值目标。5.4 实验实验2:任务分配优势验证任务分配优势验证在大规模复杂场景下,任务分配模式比目标分配模式更具优势,分配结果更加灵活。为了验证这一点,在本实验中,任务分配智能体的MD

32、P建模如2.3节所示。如2.1节所描述,本实验中,任务分配模式下,火力单元中的传感器和拦截器只要未被摧毁,就可以继续分配,且各个火力单元的传感器与拦截器可以自由组合。对于目标分配智能体而言,采用火力单元-目标的模式,一个火力单元内的拦截器只能由该火力单元的传感器指挥,且当传感器遭到攻击损坏后该火力单元即丧失作战能力,不再参加目标分配。5.4.1 训练数据对比分析训练数据对比分析将 2 个智能体在 5.1 节的想定中迭代训练100 000次,对比结果如图7所示。可以看出,通过训练,任务分配智能体和目标分配智能体的决策水平均得到了提升,与目标分配智能体相比,任务分配智能体可以在相同时间步内获得更高

33、的胜率和奖励值。(a)未训练的智能体(b)训练后的智能体图6 相同想定的行为对比Fig.6 Behavior comparison of same scenarios 1711第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-5.4.2 数字战场单局结果对比数字战场单局结果对比在本实验中,用专家规则库的方法求解MDP模型,作为传统方法与智能体模型进行对比。在训练结束后,将2个智能体模型以及传统方法模型分别放入数字战场进行离线推演,对战结束前一刻输出的战斗结果示意图如

34、图8所示。对战过程中的战况统计如图9所示。可以看出,根据专家规则库求解的传统方法并不能抵挡住第1批次的进攻,因传感器损失过多而失败。目标分配智能体和任务分配智能体均能够抵挡住第1批次的巡航弹进攻,但第2批次对于红方而言,防御压力很大,既要拦截无人机和战斗机,也要拦截所有作战飞机发射的大量空对地导弹和反辐射弹。由于目标分配模式下多个火力单元间的传感器和拦截器不能灵活组合,在第2批次进攻时,因攻击范围和资源饱和等问题,大部分资源用于拦截无人机和空对地导弹,大多处于被动防御状态,最后因轰炸机距离太近而失败。相比之下,任务分配智能体可以在第1批次时精准拦截,节省更多弹药资源,并且在第2批次进攻时,利用

35、灵活协同、可实施性强的优势,迅速打击蓝方战斗机,从而赢得胜利。目标分配任务分配806040200奖励值0 20 000 40 000 60 000 80 000 100 000迭代次数(a)奖励值对比目标分配任务分配0.80.60.40.20胜率0 20 000 40 000 60 000 80 000 100 000迭代次数(b)胜率对比图7 训练结果对比Fig.7 Comparison of training results图8 对抗推演输出结果示意图Fig.8 Schematic diagram of adversarial inference output resultst 1712第

36、 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-图9 对抗过程战况统计Fig.9 Battle statistics during rivalry 1713第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-5.4.3 数字战场统计结果对比数字战场统计结果对比为进一步对比目标分配模式与任务分配模式的区别,在训练结束后,将2个智能体模型放入数字战场进行离线推演

37、 100 局并统计对抗结果,如图10所示,智能体部分行为对比如图11所示。从战损对比结果可以看出,目标分配智能体在对抗中损失较多,且近程弹药消耗较多,处于被动防御状态;任务分配智能体面对相同场景时资源分配更合理,己方损失更少。在拦截高威胁目标的同时尚有能力将资源用于拦截更多的高价值目标。从图11的行为对比可以看出,目标分配模式下当火力单元的传感器被攻击后,该火力单元不再参与拦截目标;任务分配模式下面对类似情况,该火力单元的拦截器依然可以对目标进行拦截。6结论结论针对在大规模场景中的动态任务分配策略最优算法求解速度不足的问题,将其与DRL结合,用于求解大规模防空任务分配问题。基于分配策略最优算法

38、的思想,将任务分配问题建模为MDP,设计了合理的状态空间、动作空间及奖励函数;设计DRL训练框架并构建数字战场交互环境,对该问题进行求解;在数字战场中对DRL方法的有效性和任务分配模式的优越性进行了验证。实验结果表明:在大规模场景中基于分配策略最优思想的DRL任务分配方法可以有效提升求解问题的速度,能够有效应对态势的改变迅速做出决策,资源运用也更加合理灵活。本研究为动态任务分配提供了新的思路,下一步的研究内容包括:改进 DRL 训练框架,进一步提升任务分配效率;改进深度神经网络结构,进一步提升智能体训练效率。参考文献参考文献:1Zhang Jiandong,Chen Yuyang,Yang Q

39、iming,et al.Dynamic Task Allocation of Multiple UAVs Based on Improved A-QCDPSOJ.Electronics,2022,11(7):1028.2Wang Yao,Shi Yongkang,Liu Yunhui.Research on Improved Genetic Simulated Annealing Algorithm for Multi-UAV Cooperative Task AllocationJ.Journal of Physics:Conference Series,2022,2246(1):01208

40、1.3Ma Yingying,Wang Guoqiang,Hu Xiaoxuan,et al.Two-stage Hybrid Heuristic Search Algorithm for Novel Weapon Target Assignment ProblemsJ.Computers&Industrial Engineering,2021,162:107717.图10 对抗结果对比Fig.10 Comparison of results of confrontation(a)目标分配智能体(b)任务分配智能体图11 智能体的行为对比Fig.11 Behavioral comparison

41、 of agents 1714第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-4Kong Lingren,Wang Jianzhong,Zhao Peng.Solving the Dynamic Weapon Target Assignment Problem by an Improved Multiobjective Particle Swarm Optimization AlgorithmJ.Applied Sciences,2021,11(19):9254.5王幸运,田野,强

42、晓明,等.基于协同效能的反导作战任务分配模型J.空军工程大学学报(自然科学版),2013,14(4):27-31.Wang Xingyun,Tian Ye,Qiang Xiaoming,et al.Mission Assignment Model for Anti-missile Combat Based on Cooperative EfficiencyJ.Journal of Air Force Engineering University(Natural Science Edition),2013,14(4):27-31.6姜欢,陈万春.防空作战动静态武器目标分配初步研究J.飞行力学,2

43、007,25(4):90-93.Jiang Huan,Chen Wanchun.Dynamic and Static Weapon-target Assignments of Air DefenseJ.Flight Dynamics,2007,25(4):90-93.7Hosein P,Walton J,Athansm.Dynamic Weapon Target Assignment Problems With Vulnerable C2 NodesJ.Proceedings of the Command&Control Symposium,1988,1:1-10.8Hosein P,Atha

44、ns M.Preferential Defense Strategies,Part 1:The Static CaseR.MITLaboratory for Information and Decision Systemswith Partial Support,Cambridge,MA,Tech.Rep,1990.9韩松臣,秦俊奇,韩品尧,等.马尔可夫决策过程在目标分配中的应用J.哈尔滨工业大学学报,1996,28(2):32-36.Han Songchen,Qin Junqi,Han Pinyao,et al.An Application of the Markov Decision Pr

45、ocess to Target AssignmentJ.Journal of Harbin Institute of Technology,1996,28(2):32-36.10 杨进帅,李进,王毅.武器-目标分配问题研究J.火力与指挥控制,2019,44(5):6-11.Yang Jinshuai,Li Jin,Wang Yi.Study of Weapon Target Assignment ProblemJ.Fire Control&Command Control,2019,44(5):6-11.11 Zhou Wenhong,Liu Zhihong,Li Jie,et al.Multi

46、-target Tracking for Unmanned Aerial Vehicle Swarms Using Deep Reinforcement LearningJ.Neurocomputing,2021,466:285-297.12 He Lei,Aouf N,Song Bifeng.Explainable Deep Reinforcement Learning for UAV Autonomous Path PlanningJ.Aerospace Science and Technology,2021,118:107052.13 刘传波,邱志明,吴玲,等.动态武器目标分配问题的研究

47、现状与展望J.电光与控制,2010,17(11):43-48.Liu Chuanbo,Qiu Zhiming,Wu Ling,et al.Review on Current Status and Prospect of Researches on Dynamic Weapon Target AssignmentJ.Electronics Optics&Control,2010,17(11):43-48.14 邱鸿泽.基于自适应大邻域搜索算法的武器-目标分配问题研究D.长沙:国防科技大学,2018.Qiu Hongze.Weapon Target Assignment Research Base

48、d on Adaptive Large Neighborhood SearchD.Changsha:National University of Defense Technology,2018.15 韩松臣.导弹武器系统效能分析的随机理论方法M.北京:国防工业出版社,2001.Han Songchen.Stochastic Theory and Method for Effectiveness Analysis of Missile Weapon SystemsM.Beijing:National Defense Industry Press,2001.16 陈英武,蔡怀平,邢立宁.动态武器目

49、标分配问题中策略优化的改进算法J.系统工程理论与实践,2007,27(7):160-165.Chen Yingwu,Cai Huaiping,Xing Lining.An Improved Algorithm of Policies Optimization of Dynamic Weapon Target Assignment ProblemJ.Systems Engineering-Theory&Practice,2007,27(7):160-165.17 何鹏,周德云,王谦.多UCAV任务分配有限阶段MDP方法和算法J.火力与指挥控制,2012,37(10):99-101,104.He

50、Peng,Zhou Deyun,Wang Qian.Finite Stage MDP for Task Allocation in UCAVs Cooperative ControlJ.Fire Control&Command Control,2012,37(10):99-101,104.18 Ma Qiaoyun,Liu Tongsheng.Modeling Task Allocation in MAS With MDPC/The 15th International Conference on Industrial Engineering and Engineering Managemen

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服