收藏 分销(赏)

基于多智能体强化学习的协同目标分配.pdf

上传人:自信****多点 文档编号:634329 上传时间:2024-01-19 格式:PDF 页数:9 大小:2.31MB
下载 相关 举报
基于多智能体强化学习的协同目标分配.pdf_第1页
第1页 / 共9页
基于多智能体强化学习的协同目标分配.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第期 年月系统工程与电子技术 文章编号:()网址:收稿日期:;修回日期:;网络优先出版日期:。网络优先出版地址:通讯作者引用格式:马悦,吴琳,许霄基于多智能体强化学习的协同目标分配系统工程与电子技术,():犚犲 犳 犲 狉 犲 狀 犮 犲犳 狅 狉犿犪 狋:,():基于多智能体强化学习的协同目标分配马悦,吴琳,许霄(国防大学研究生院,北京 ;中国人民解放军 部队,北京 ;国防大学联合作战学院,北京 )摘要:针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协

2、作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用 算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。关键词:协同目标分配;多智能体协作;强化学习;神经网络;中图分类号:文献标志码:犇犗犐:犆狅 狅 狆 犲 狉 犪 狋 犻 狏 犲狋 犪 狉 犵 犲 狋 狊犪 狊 狊 犻 犵 狀犿犲 狀 狋犫 犪 狊 犲 犱狅 狀犿狌 犾 狋 犻 犪 犵 犲 狀 狋狉 犲 犻 狀 犳 狅 狉 犮 犲犿犲 狀 狋犾 犲 犪 狉 狀 犻 狀 犵,(犌狉 犪犱狌 犪 狋 犲犛 犮 犺 狅 狅 犾,犖犪 狋 犻 狅 狀

3、 犪 犾犇犲 犳 犲 狀 狊 犲犝狀 犻 狏 犲 狉 狊 犻 狋 狔,犅犲 犻 犼 犻 狀犵 ,犆犺 犻 狀 犪;犝狀 犻 狋 狅 犳狋 犺 犲犘犔犃,犅犲 犻 犼 犻 狀犵 ,犆犺 犻 狀 犪;犃犮 犪犱 犲犿狔狅 犳犑 狅 犻 狀 狋犗狆 犲 狉 犪 狋 犻 狅 狀,犖犪 狋 犻 狅 狀 犪 犾犇犲 犳 犲 狀 狊 犲犝狀 犻 狏 犲 狉 狊 犻 狋 狔,犅犲 犻 犼 犻 狀犵 ,犆犺 犻 狀 犪)犃犫 狊 狋 狉 犪 犮 狋:,犓犲 狔狑狅 狉 犱 狊:;引言协同目标分配,决定了兵力运用的科学性和合理性,是将作战意图落地为作战行动的关键环节。在同一时间或空间范围内,多个作战单元为完成同一

4、项作战任务或相互之间存在逻辑关系的多个作战任务时,需从时间、空间和效果等角度考虑,进行目标或火力的合理分配,以最大作战效费比和最小作战风险获得最优打击效果。协同目标分配是一种典型的非线性多项式完全问题,决策空间随问题规模(即作战单元数目和作战目标数目)增大呈指数级增长,求解结果的的实时性、准确性和有效性将直接影响军事对抗中能否取得最佳作战效果。在军事运筹领域,协同目标分配通常被规约为兵力分配、火力分配或武器目标分配(,)等问题,常用求解方法可分为传统规划方法、模拟退火(,)算法、蚁群优化(,)算法、粒子群优化(,)算法、进化算法(,)和合同 系统工程与电子技术第 卷网协议(,)。现有研究虽从不

5、同角度对各种算法进行了改进,并成功应用于不同场景,但关于动态不确定环境下的协同目标分配研究较少,且难以保证大规模目标分配问题的求解效率。在分布式作战自同步理论中,协同关系体现为作战单元“自底向上组织复杂战争的行为”。将作战单元构建为智能体,协同目标分配问题便转化为多智能体协作(,)问题,多智能体强化学习(,)在解决类似协作问题上有着广泛应用 。据此,通过分析协同目标分配的军事内涵,构建了基于的协同目标分配模型,采用局部策略评分和集中式策略推理,利用 算法进行策略学习,以期能够实现简单场景中训练好的模型直接泛化应用到复杂场景,从而有效实现大规模目标分配。协同目标分配数学模型 相关概念为在统一语义

6、框架下描述协同目标分配问题,定义以下相关概念。作战单元,指能够独立遂行作战任务的基本作战单位,为执行作战任务提供作战资源。在协同目标分配中,作战单元是不可再分割的基本作战单位或作战平台。作战目标,指战场上存在且具有一定军事价值的客观实体,是作战单元执行作战任务时所作用的客观对象。作战协同关系,指多个作战单元在同一时空范围内执行同一作战任务或具有逻辑关系的不同作战任务时,在空间部署、时间衔接、目标分配、火力分配和效果达成等方面,所形成的相互照应、相互配合和优劣互补的关系。符号定义协同目标分配描述过程中,定义以下符号。(),犖:打击目标清单列表,犖为打击目标总数。()犝狌,狌,狌犕:进攻方可用作战

7、单元列表,犕为作战单元总数。()犠狑,狑,狑犔:进攻方可用弹药类型列表,犔为弹药类型总数。(),犖:各作战目标被摧毁后的收益价值列表。犻为打击目标狋 犵犻被摧毁后的收益价值,犻,犖。(),犕:各作战单元被摧毁后的损失价值列表。犼为作战单元狌犼被摧毁后的损失价值,犼,犕。(),犔:各类型弹药消耗单位数量后的损失价值列表。犾为狑犾类型弹药消耗单位数量后的损失价值,犾,犔。()狋(狋,狋,狋,犖):执行第狋次分配方案时被摧毁目标清单。狋,犻表示目标 犻是否被摧毁,狋,犻表示被摧毁,否则 狋,犻。()狋(狋,狋,狋,犕):执行第狋次目标分配方案时被摧毁单元清单。狋,犼表示单元狌犼是否被摧毁,狋,犼表示

8、被摧毁,否则 狋,犼。()狋(狋,狋,狋,犔):执行第狋次目标分配方案时进攻方的弹药消耗清单。狋,犾表示狑犾类型弹药的消耗数量。()狋:执行第狋次目标分配方案时防守方的弹药消耗价值总量。()狋,犼(狑狋,犼,狑狋,犼,狑狋,犼,犔):执行第狋次目标分配方案时进攻方作战单元狌犼的挂载。狑犼,犾为作战单元狌犼挂载的狑犾类型弹药的数目。()犚犘 狉 狅 犾,犻犔犖:进攻方各类弹药对不同作战目标的命中毁伤概率矩阵。犾,犻为狑犾类型弹药对作战目标 犻的命中毁伤概率。()犅犘 狉 狅(,犕):防守方一体化联合防空反导对进攻方各作战单元的综合命中毁伤概率矩阵。犼为对作战单元狌犼的综合命中毁伤概率。数学模型考

9、虑使命任务、弹目匹配以及作战效费比等因素建立数学模型,如下所示:犉(犡)犉(犡)犉(犡()熿燀燄燅)(狋):犡狋,犅犘 狉 狅,犚犘 狉 狅狋,狋,狋,狋犖犻狓犻,犼,狋犕犼狓犻,犼,狋犕犻狓犻,犼,狋狋狋 狋,犻狓犻,犼,狋狋狋 狋,犼狓犻,犼,狋犳(犔犾狑狋,犼,犾)犻,犖犼,犕犾,犔狋,犜烅烄烆()()模型变量令变量狓犻,犼,狋表示在第狋次作战目标分配时,是否指派作战单元狌犼打击作战目标 犻。当指派单元狌犼打击目标 犻时,狓犻,犼,狋,否则狓犻,犼,狋。因此,模型变量为犡狓犻,犼,狋犖犕犜()式中:犜为作战过程中进行目标分配的总次数;模型变量规模为犖犕犜,在相同问题背景下,随着决策次数犜

10、的增大呈线性增长。第期马悦等:基于多智能体强化学习的协同目标分配 ()目标函数模型目标函数,衡量了作战效果的大小。参数和,用于平衡两部分计算结果对目标函数值的影响;犉(犡)表示任务使命完成度,计算方法如下所示:犉(犡)犕犜狋犕犼 狋,犼犕 犖犜狋犖犻 狋,犻烅烄烆犖()式中:和 分别表示作战结束后作战单元和作战目标的剩余率。犉(犡)犉(犡)表示作战效费比;犉(犡)表示作战过程中摧毁敌方作战目标和消耗敌方弹药所产生的总收益;犉(犡)表示作战过程中自身作战单元被摧毁和弹药消耗所产生的总损失,计算方法如下所示:犉(犡)犜狋烄烆犖犻 狋,犻 犻 烌烎狋犉(犡)犜狋烄烆犕犼 狋,犼 犼犔犾 狋,犾烌烎犾

11、()()约束条件)(狋)表示执行第狋次目标分配方案所产生的结果。根据各方弹目匹配关系及命中毁伤概率(犅犘 狉 狅与犚犘 狉 狅),执行作战目标分配方案犡狋,得到进攻方作战单元损失情况狋和弹药消耗情况狋、敌方作战目标被摧毁情况 狋和弹药消耗总价值 狋。)犖犻狓犻,犼,狋,表示在第狋次分配方案中,作战单元狌犼最多只能攻击一个作战目标。)犕犼狓犻,犼,狋犕犻,表示在第狋次分配方案中,为避免作战资源浪费,最多只能指派犕犻(犕犻犕)个作战单元去攻击作战目标 犻。)狓犻,犼,狋狋狋 狋,犻,表示如果作战目标 犻已被摧毁,那么在以后作战目标分配方案制定中,不再指派作战单元对其进行攻击。)狓犻,犼,狋狋狋 狋

12、,犼,表示如果作战单元狌犼已被摧毁,那么在以后作战目标分配方案制定中,不再指派该作战单元执行打击任务。)狓犻,犼,狋犳(犔犾狑狋,犼,犾),表示若作战单元狌犼已消耗完自身弹药,那么在以后作战目标分配方案制定中,不再指派该作战单元执行打击任务。函数(犳犔犾狑狋,犼,)犾的计算方法,如下所示:烄烆犳犔犾狑狋,犼,烌烎犾,犔犾狑狋,犼,犾,犔犾狑狋,犼,犾烅烄烆()协同目标分配求解方法问题的联合状态动作空间,随着智能体与任务数目的增多呈指数级增长。大规模作战场景下的协同策略训练,对训练时间和计算能力具有更高要求。因此,如何能够实现简单场景中训练好的模型直接泛化应用到复杂场景,是有效解决大规模协同目标

13、分配问题的关键。诸多学者针对上述类似问题,或利用空间近邻性构建奖励函数和任务分配策略以期实现可泛化应用模型 ,或使用集中式评价方法以期解决分散策略学习问题 。而 提出了一种学习预测模型及训练方法,为解决本文问题提供了很好的借鉴。协同目标分配,可表示为(犛,犛,犃,犚,犘,犿,狀,),犿和狀分别表示作战单元和作战目标的数目;犛是所有作战目标的联合状态空间,犛犻(犻,犿)是第犻个作战目标的状态集;犛和犃是所有作战单元的联合状态空间和联合动作空间,犛犼和犃犼(犼,狀)是第犼个作战单元的状态集和动作集;犚:犛犛犃犚为奖励函数;犘:犛犛犃犛犛,为状态转移概率;:犛犛犃为一个确定的联合策略。考虑远期决策对

14、当前收益影响的衰减,动作价值函数如下所示:狇(犛狋,犃狋)(犚狋 狇(犛狋,犃狋)犛狋,犃狋)()式中:犛狋为时刻狋作战单元和作战目标的联合状态;()为求解期望值的函数。问题目标是通过学习获取一个最优协同目标分配策略,保证所有作战单元的协同打击行动能够使奖励函数在长期内达到最大化,如下所示:狇()模型训练及应用框架在此,构建基于的协同目标分配模型训练及应用框架,如图所示,具体流程如下。步骤基于深度强化学习优化协同目标分配策略。在此,“智能体”是进攻方的各作战单元,“动作”是作战单元选择打击哪个作战目标,“环境”是本文实验平台 计算机兵棋推演系统的模拟仿真环境,“状态”为所有作战单元和作战目标的

15、联合状态。在每一步学习中,采用“集中式策略推理模型”获取目标分配方案,各作战单元根据分配方案和固定行动规则对作战目标进行打击,兵棋系统会实时返回各棋子状态和交战结果。而后,依据系统环境返回的收益值信息,利用基于多层神经网络的“评分模型”对该步目标分配方案进行优劣评价,评价值用于优化策略。步骤最优协同目标分配策略的模拟执行。在利用计算机兵棋系统对某次联合火力打击进行模拟仿真时,每隔一段时间狋,依据最优协同目标分配策略生成目标分配方案,各作战单元依据当前方案实时调整打击对象。当完成打击任务后,将得到一个随时间变化的“作战目标分配方 系统工程与电子技术第 卷案序列”。作战单元在各目标分配方案中分配得

16、到的作战目标,组成了该作战单元的打击目标序列;作战目标在各目标分配方案中是否被打击,形成了不同作战目标之间的先后打击顺序。图基于的协同目标分配模型训练与应用 协同目标分配方案表示在决策时刻狋,一个确定的策略会根据所有作战单元和作战目标的联合状态犛,狋,犛,狋,给出能够获取最大回报的联合动作犃狋(犛,狋,犛,狋,狋)。犃狋实质就是时刻狋的协同目标分配方案,可用分配矩阵犅狋等价表示,如下所示:犅狋犫,犫,犫,犿犫,犫,犫,犿犫狀,犫狀,犫狀,熿燀燄燅犿()式中:犫犻,犼表示作战单元狌犼是否打击作战目标狋 犵犻,如果打击则犫犻,犼,否则犫犻,犼。若每隔时间狋生成一次作战目标分配方案,当完成打击任务后

17、,将会得到该作战场景下的一个作战目标分配方案序列,如下所示:犅犅,犅,犅狋,犅犜()底层固定行动规则当给定分配矩阵犅狋后,各作战单元将会按照固定行动规则对指派的作战目标进行打击。作战单元的行动规则包括:作战单元自动规划打击目标的最短路径;作战目标进入射程范围后,作战单元将根据自身挂载的命中毁伤概率,计算弹药发射数量;作战单元消耗完自身弹药或油料后将自动退出作战。上述行动规划均由计算机兵棋系统自动完成,符合军事规范并在长期应用中得到验证。因此,学习任务将聚焦于分配策略的学习,而作战单元对作战目标的具体打击行为不需要进行训练。奖励函数根据协同目标分配模型的目标函数,构建强化学习的单步奖励函数,计算

18、方法如下所示:犚狋 狋 狋(),犱狉犱,犱烅烄烆狉犱 (),;,;,;(),;烅烄烆 ()式中:犚狋表示在第狋步得到的单步奖励值;和 狋表示防守方作战目标及弹药的总价值与第狋步时被摧毁消耗后的总收益;和 狋表示进攻方作战单元及弹药的总价值与第狋步时被摧毁消耗后的总损失;犱标识作战过程是否结束,若结束则犱,否则犱;狉犱为作战结束时的奖励值;和 分别表示作战过程结束后作战单元和作战目标的剩余率。协同策略评分模型评分模型根据作战单元和作战目标的状态,评价当前策略的优劣。在此,采用多层神经网络构建局部评分模型,通过不断学习优化模型参数来提高模型评分的精确度,可用犺(狊,犻,狊,犼,)和犵(狊,犻,狊,

19、犽,)表示。其中,犺()对作战单元与作战目标的分配关系进行评分,反映了指派作战单元狌犼打击作战目标 犻的优劣;犵()对作战目标之间的打击顺序进行评分,反映了作战目标 犻与 犽先后打击顺序的优劣;狊,犼表示作战单元狌犼的状态;狊,犻和狊,犽分别表示作战目标 犻与 犽的状态;和分别为两个神经网络的参数。在某一决策时刻,经过评分后可得到两个评分矩阵犎第期马悦等:基于多智能体强化学习的协同目标分配 和犌,分别如下所示:犎犺(,)犺(,)犺(犿,)犺(,)犺(,)犺(犿,)犺(,狀)犺(,狀)犺(犿,狀熿燀燄燅)()犌犵(,)犵(,)犵(狀,)犵(,)犵(,)犵(狀,)犵(,狀)犵(,狀)犵(狀,狀熿燀

20、燄燅)()式中:犺(犻,犼)表示对作战单元狌犼打击作战目标 犻的评分;犵(犻,犽)表示对作战目标 犻与 犽打击顺序的评分。评分模型犺()和犵()分别采用结构相同但参数不同的神经网络,如图所示。犺()的输入数据为评分对象“作战单元和作战目标”的联合状态向量;犵()的输入数据为评分对象“作战目标和作战目标”的联合状态向量。作战单元和作战目标的特征状态,包括类型、位置、自身价值、弹药携带量和弹药单位价值。输入数据经过批标准化层和个全连接层后,输出评分数值。图评分模型神经网络 协同策略推理模型协同策略推理模型主要负责根据评分矩阵犎和犌确定能够获取最大评分总数的分配矩阵犅狋。在协同目标分配策略为确定性策

21、略时,分配矩阵犅狋只与当前狋时刻各作战单元和作战目标的联合状态有关。在学习过程中,分配矩阵犅狋还取决于评分模型的网络参数和。因此,可使用参数化犅狋(犛,犛,)表示分配矩阵。一种贪婪的策略推理,是将作战单元指派给犺()分数最高的作战目标。但贪婪地选择分数最大的作战单元打击作战目标,实质是默认打击目标的效益与指派打击该目标的作战单元数目呈正比例关系。然而,当作战单元和作战目标数目较多时,打击某一作战目标的总收益,会随着指派作战单元的数目增大而趋于饱和,从而导致严重的资源浪费。因此,需要限制打击同一作战目标的作战单元数量。此外,还需要考虑不同作战目标的先后打击顺序。当考虑作战目标之间的约束关系时,可

22、能会出现两种极端情况:一种情况是作战目标之间的相关关系较弱,则作战单元会被“分散”指派给各个作战目标并同时执行打击任务;另一种情况是作战目标之间存在较强的相关关系,则作战单元会被“集中”指派去打击重要性较大的作战目标,而后按照重要性顺序依次打击其他作战目标。在实际作战中,作战目标之间的重要性对比关系,应处于上述两种极端情况之间。协同策略推理过程,可表示为 犻狀,犼犿犫犻,犼犺(犻,犼,)犻,犽狀;犼,犾犿犫犻,犼犫犽,犾犵(犻,犽,)狀犻犫犻,犼犿犼犻,犼(狊犻,狊犼)犫犻,犼犻(狊犻)犫犻,犼,犻(狊犻)犚犻,犼(狊犻,狊犼)犚犻,犽,狀犼,犾,犿烅烄烆()式中,犫犻,犼为分配矩阵犅狋(犛,

23、犛,)中第犻行第犼列的元素,表示作战单元狌犼是否打击作战目标 犻;犺(犻,犼,)为评分矩阵犎中第犻行第犼列的元素,表示指派作战单元狌犼打击作战目标 犻的优劣程度;犵(犻,犽,)为评分矩阵犌中第犻行第犽列的元素,表示对作战目标 犻与 犽的打击顺序的评分;约束条件犫犻,犼,表示指派作战单元狌犼打击的作战目标数目最多为;犻(狊犻)表示打击作战目标 犻的最大弹药需求量,使用犻,犼(狊犻,狊犼)表示作战单元狌犼打击作战目标 犻的打击效果;约束条件犻,犼(狊犻,狊犼)犫犻,犼犻(狊犻)表示指派打击作战目标 犻的作战单元的打击效果之和不能超出该作战目标的打击需求。协同策略学习算法协同目标分配策略的优化,需要

24、通过学习算法实现。在此,将“评分”视为一个负责顶层决策的虚拟中心智能体的“动作”,将“评分模型”作为需要学习的“策略”,将协同策略推理过程和仿真模拟环境统一看作为学习“环境”,通过()算法 进行策略优化。策略网络 用于逼近“评分模型”,评价网络 用于逼近整个“环境”运行产生的累计回报。学习优化的基本过程,如图所示,具体步骤如下。步骤策略网络 为第 节中所构建的评分模型。神经网络接收当前作战单元和作战目标的空间分布状态,通过网络前向传播计算评分矩阵犎和犌。然后,将犎和犌作为“动作”输出给协同策略推理模型。步骤协同策略推理模型根据评分矩阵犎和犌,通过策略推理制定协同目标分配方案,具体方法如第 节所

25、述。然后,将协同目标分配方案下达给各作战单元,各作战单元按照底层固定的行动策略执行目标打击任务。步骤评价网络 接收目标分配方案单步执行后产生的奖励值,单步奖励值的计算方法如式()所示。然后,通过神经网络的前向传播计算执行“动作”犎和犌所产生的评价值,并更新优化网络参数。最后,将计算得到的关于收益的 输出给策略网络 。步骤策略网络 接收 后,更新优化评分模型的网络参数和。步骤迭代上述过程,直至学习结束。系统工程与电子技术第 卷图基于算法的学习过程 实验验证在某型计算机兵棋系统上,以联合火力打击为例,验证本文协同目标分配方法。()实验设计与数据实验背景:为保证联合任务部队能够顺利渡海登陆,现对敌沿

26、岸雷达阵地、防空阵地、机场和指挥所进行联合火力打击。实验思路:构建两个不同复杂度的实验场景,如表所示;在小场景中进行模型训练,而后在相同场景下,应用训练好的模型进行仿真模拟,验证模型构建和训练的合理性;最后,将训练好的模型直接泛化应用的大场景中,验证解决大规模问题的有效性。实验数据:敌我双方武器平台、作战目标及弹药的价值系数,是综合造价和影响己方作战程度而计算的评价值。敌方一体化防空反导,弹药类型以表示,其价值系数为 。综合考虑武器平台性能及挂载类型、作战目标性质以及弹目匹配关系,敌我双方的“武器 目标”命中毁伤概率,如表所示。表武器平台和作战目标信息犜 犪 犫 犾 犲犜犺 犲犱 犪 狋 犪狅

27、 犳狆 犾 犪 狋 犳 狅 狉犿犪 狀 犱狅 狆 犲 狉 犪 狋 犻 狅 狀 犪 犾狋 犪 狉 犵 犲 狋 狊类型平台价值系数挂载类型数量小场景 大场景弹药数量 价值系数常导 歼轰机 歼轰机 轰炸机 雷达 导弹发射架 机场跑道 指挥所 表武器 目标命中毁伤概率犜 犪 犫 犾 犲犎 犻 狋犪 狀 犱犽 犻 犾 犾狆 狉 狅 犫 犪 犫 犻 犾 犻 狋 狔狅 犳狑 犲 犪 狆 狅 狀 狋 犪 狉 犵 犲 狋武器目标常导歼轰机歼轰机轰炸机雷达防空阵地机场跑道指挥所常导 歼轰机 歼轰机 轰炸机 防空反导系统 ()小场景下模型训练与验证由于“武器 目标”命中毁伤概率小于,即便训练得到的策略最优,也会出现

28、收益值很差的情况。在此,将每一轮训练的总回报,设置为本次训练总回报与前一轮训练总回报的综合值,计算方法如下所示:犌 狀 犌 狀 犌狀()式中:犌 狀为第狀次训练周期的综合回报值;犌 狀为第狀次训练周期的综合回报值;犌狀为第狀次训练周期的原始回报值。根据本文方法构建评分模型、推理模型和学习模型,利用计算机兵棋系统进行 轮学习训练。训练过程中,综合回报值随训练次数的变化曲线,如图所示。可见,基于算法的策略优化方法能够保证策略回报值趋于收敛,从而得到最优协同目标分配策略。图仿真实验结果 第期马悦等:基于多智能体强化学习的协同目标分配 在相同场景下,使用训练好的模型和策略,进行 次模拟仿真验证,统计以

29、下信息:模拟仿真回报值,如图()所示;任务完成度(作战目标的摧毁数目与初始数目之比)和进攻方作战单元剩余率,如图()所示。图小场景下模型验证结果 ()大场景下模型泛化应用在大场景下,不进行任何学习训练,直接使用小场景中训练好的模型和策略,进行 次模拟仿真泛化应用验证,统计信息如图所示。图大场景下模型泛化应用结果 ()实验结果分析)在小场景验证实验中,综合回报值落在区间,的模拟次数占总次数的;能够百分之百完成打击任务的模拟次数占总次数的 ,而能够保证自身损失不超过 的模拟次数占总次数的 。虽然存在我方损失很大而敌方损失较小的情况,但非协同分配策略导致,而是由于敌我双方命中毁伤概率小于产生的小概率

30、随机结果。因此,训练优化的策略能够保证进攻方以较小损失完成联合火力打击任务。)在大场景泛化应用实验中,综合回报值落在区间,的模拟次数占总次数的 ;能够百分之百完成打击任务的模拟次数占总次数的 。相比小场景实验,进攻方的作战单元损失较大且收益平均值较小。主要原因是大场景下作战目标是小场景的 倍,而武器平台只是小场景的 倍,因此进攻方会产生更大的损失。但训练优化的策略,依旧能够保证进攻方以较大概率完成联合火力打击任务。结论本文针对传统方法难以实现动态不确定环境下的大规模协同目标分配问题,提出了基于的协同目标分配方法。通过策略分层将学习任务聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,

31、并基于算法进行策略的优化学习。实验结果表明,基于多智能体系统对 系统工程与电子技术第 卷作战单元协同作战行为进行建模,能够形象地刻画协同作战的演化内因;基于算法的策略优化方法,能够确保最优协同目标分配策略的有效生成;而生成的最优目标分配策略,能够在执行时以较好的效果完成联合火力打击任务。参考文献欧峤,贺筱媛,陶九阳协同目标分配问题研究综述系统仿真学报,():,():,:,():,:,():吴坤鸿,詹世贤分布式遗传模拟退火算法的火力打击目标分配优化火力与指挥控制,():,():,:,():,:,:,:,:,(),():,:吴文海,郭晓峰,周思羽,等改进差分进化算法求解武器目标分配问题系统工程与电子技术,():,():郭智杰,糜玉林,肖阳,等改进合同网协议在防空武器目标分配中的应用现代防御技术,():,():黄广连分布式作战体系自同步构建方法研究长沙:国防科技大学,:,():,:,():李琛,黄炎焱,张永亮,等 框架下的多智能体决策方法及其在兵棋上的应用系统工程与电子技术,():,():,:,:第期马悦等:基于多智能体强化学习的协同目标分配 ,:,:,:,:,:,:,:,作者简介马悦(),男,工程师,博士研究生,主要研究方向为军事运筹、智能决策。吴琳(),男,教授,博士,主要研究方向为军事运筹。许霄(),男,工程师,博士,主要研究方向为军事运筹。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服