基于分层的智能建模方法的多机空战行为建模.pdf

资源描述

1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023基于分层的智能建模方法的多机空战行为建模基于分层的智能建模方法的多机空战行为建模王宇琨，王泽，董力维，李妮*(北京航空航天大学自动化科学与电气工程学院，北京 100191)摘要摘要：针对多机空战对抗场景中高维状态-行为空间约束下兵力博弈决策困难的问题，采用基于深度强化学习的兵力智能体决策生成策略，提出面向兵力智能博弈的态势认知和奖励回报生成算法，构建基于混合的智能建模方法的行为建模分层框架。解决了强化学习过程中存在的稀疏奖励技术

2、难点，为解决大规模、多机型、要素多的空战问题提供一种可行的强化学习训练方法。关键词关键词：作战仿真；多智能体；深度强化学习；非稀疏奖励函数中图分类号：TP391.9 文献标志码：A 文章编号：1004-731X(2023)10-2249-13DOI:10.16182/j.issn1004731x.joss.23-FZ0824引用格式引用格式:王宇琨,王泽,董力维,等.基于分层的智能建模方法的多机空战行为建模J.系统仿真学报,2023,35(10):2249-2261.Reference format:Wang Yukun,Wang Ze,Dong Liwei,et al.Research on

3、 Multi-aircraft Air Combat Behavior Modeling Based on Hierarchical Intelligent Modeling MethodsJ.Journal of System Simulation,2023,35(10):2249-2261.Research on Multi-aircraft Air Combat Behavior Modeling Based on Hierarchical Intelligent Modeling MethodsWang Yukun,Wang Ze,Dong Liwei,Li Ni*(School of

4、 Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China)Abstract:In response to the problem of the difficulty of decision-making in the game of force under the constraints of high-dimensional state-space in multi-machine air combat confrontation scenarios,a force intel

5、ligent agent decision-making generation strategy based on deep reinforcement learning is adopted.The developing situational cognition and reward feedback generation algorithms for force intelligent game are proposed,a behavior modeling hierarchical framework based on hybrid intelligence modeling met

6、hod is constructed,which solve the technical difficulty of sparse reward in the reinforcement learning process.It provides an feasible reinforcement learning training method that can solve the large-scale,multi-model,and multi-element air combat problems.Keywords:combat simulation;Multi-agent system

7、;DRL;non-sparse reward function0引言引言随着信息化和体系化作战的发展，现代战场兵力对抗方式已经呈现战场空间全维化、作战行动整体化、指挥控制智能化等特点。运用人脑决策或是专家系统决策已经难以适应当今复杂多变的战场需求，使用计算机仿真的方式预先模拟战场变化不仅便捷、节约成本，更可对作战需求作出快速响应。航空兵多机协同对抗场景由于其实体多、信息多、约束关系多，从而构成了一个复杂系统，其复杂性、巨量性以及运作时的不确定性都给作战仿真带来了极大的挑战，亟需智能化技术为目前军事仿真系统下的计算机生成兵力(computer generated force,CGF)进行赋能。收

8、稿日期：2023-07-03 修回日期：2023-09-15第一作者：王宇琨(1999-)，男，满族，博士生，研究方向为系统建模与仿真。E-mail：wyk_通讯作者：李妮(1980-)，女，教授，博士，研究方向为系统建模与仿真。E-mail：第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023系统仿真学报Journal of System Simulationhttp:/www.china-鉴于多机空战场景物理要素多、战场变化复杂的特点，强化学习在多机空战对抗决策方面具有十足的潜力。强化学习已在其他类似领域验证其能力：早在2017年，使用强化学习训练了策略网

9、络和价值网络的AlphaGo1就已能够完胜彼时的围棋第一人柯洁；DeepMind研发的AlphaStar2和OpenAI研发的Dota Five3也分别在星际争霸和Dota两款多人竞技、战略游戏上验证了强化学习的强大。但同时，强化学习也存在问题和挑战4：(1)对智能体态势处理能力要求高；(2)不同场景的奖励函数设计难以泛用；(3)稀疏奖励导致训练样本质量差。本文就航空兵多机对抗场景，采用基于深度强化学习的空战战术策略，并针对战场中的稀疏奖励问题提出基于二维仿真态势图的态势认知算法和基于网络连通域的奖励回报生成算法，形成基于深度强化学习的多机对抗行为模型框架。1背景背景1.1 多智能体强化学习与

10、奖励稀疏问题多智能体强化学习与奖励稀疏问题多智能体强化学习(multi-agent reinforcement learning,MARL)在解决大规模场景问题中具有出色表现。相较于单智能体的强化学习，多智能体强化学习更关注问题中智能体的协作问题，即如何令单个智能体放弃其自身最大利益，转而追求群体全局的高回报，例如，根据不同智能体的不同职责对问题域进行划分，以提高算法的学习效率和学习的有效性5。主流的多智能体强化学习算法采用中心式学习、分布式执行的策略6，即使用全局信息进行网络训练，而在应用模型时则使用部分信息、符合实际情况。由于考虑了智能体间的协作，多智能体强化学习往往能够取得更好的效果。但

11、多智能体强化学习面临着算法扩展性的问题：随着智能体数量的增加，联合行为空间呈指数增长，进而导致策略探索空间的指数增长。如果无法有效简化环境的反馈或在探索步骤中给予奖励7，算法就只能处理数目有限的多智能体问题8。多智能体强化学习同样存在稀疏奖励问题。稀疏奖励指某些情况下智能体无法立刻获得奖励而导致算法难以收敛的情况，一般通过根据专家经验额外设计合理奖励(reward shaping)9、好奇心驱动(curiosity driven reward)10、课程学习(curriculum learning)11和分层强化学习(hierarchical RL)12等方式解决。1.2 基于深度强化学

12、习的空战博弈对抗基于深度强化学习的空战博弈对抗深度强化学习已经逐渐在空战仿真中得到应用，空战中的深度强化学习的智能体与环境交互如图1所示。相较于专家系统等传统决策方法，深度强化学习对高动态、响应速度需求高、不确定的空战场景更加适应。基于深度强化学习，文献13-14分别利用 TD3 算法和 DQN 算法解决了无人机的近距机动决策问题；文献15针对空战追击问题，提出了一种交替冻结博弈框架以生成机动策略；文献16利用DDPG(deep deterministic policy gradient)对六自由度固定翼飞行器进行了飞行控制。空战智能体感知敌方态势火控锁定导弹追踪决策价值函数策略网络

13、策略优化机动决策目标分配火力打击行为观测Environment图1 应用于空战的深度强化学习过程17Fig.1 Deep reinforcement learning process applied to air combat 2250第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023王宇琨,等:基于分层的智能建模方法的多机空战行为建模http:/www.china-目前，关于深度强化学习在多机对抗作战中的应用还较少，主要考虑以下原因：(1)多机对抗作战场景复杂，战场态势数据量大，对智能体的认知能力提出更高要求；(2)奖励函数难以设计；(3)实际场景

14、下数据信息的获取困难，算法难以迁移，应用价值存疑。针对以上技术困难，亟需设计泛化能力强、对场景适应能力强的深度强化学习算法，减少对于智能体认知过程中需要处理的数据量维度，且方便在此基础上对新的对抗场景的算法进行二次开发。为设计一种可行的、新的对抗行为建模方法以解决以上问题，首先考虑典型的海空对抗场景进行算法设计：我方组成多机型编队攻打某一岛屿，该岛屿存在舰船和巡航的无人机编队进行防御。这一场景符合实战中规模大、兵种并不单一的实际情况。为适应空战场景中的深度强化学习算法，采用图像的方式对空战战场态势进行特征提取，并将其作为状态空间的部分变量进入奖励函数、驱动智能体进行学习；设计合理的单步奖励，令

15、奖励稠密化。此外，针对大规模的空战场景，采用分层框架，结合多智能体强化学习算法与专家系统知识规则，以避免数据维度过大、算法响应速度慢的问题。在分层框架中多智能体强化学习算法中，采用态势特征提取算法以及所设计的奖励函数来优化算法对于大规模空战场景的适应性。2态势特征提取算法态势特征提取算法2.1 战场仿真态势图战场仿真态势图对于大规模对抗场景，需要对整体的战场情况进行态势认知后再进行决策。态势认知指作战过程中指挥部需要通过战场的全局态势对当前战况进行认知，进而对作战单位进行调度与调控。考虑到人类指控中心从战场地图直接研判态势的手段，通过仿真的方式建立战场地图，区分阵营、不同的兵力单位，并二维地显

16、示其地理位置，即仿真态势图，如图2所示。根据“认知战”18的理论，通过仿真态势图，可将本方的武器能力、信息探索能力(如雷达等传感器)以及敌方的预估有关能力量化到“信息域”和“火力域”，从而体现敌方的威胁程度和本方的进攻能力，完成态势认知。根据态势认知结果，指挥所对作战单位进行调度；考虑深度强化学习应用，智能体难以像人一样灵活控制，因此针对复杂对抗情形下的态势环境信息复杂、信息认知困难的问题，提出基于二维态势图的态势特征提取及认知算法，避免智能体处理数目庞杂的传感器信息。算法的优越性在于：基于态势图的态势感知方法可以保证强化学习智能体从战场环境中能够获取到的态势信息和人类指控中心基本一致且相对公

17、平，即都是基于可视化处理后的战场态势图的图像信息来进行决策的；基于图像处理技术的态势感知方法可以支持强化学习智能体提取战场态势图像的视觉内容特征，从而判定红蓝双方的实时优势对比，服务于强化学习智能体进行每一步实时决策优化迭代的即时奖励。图2 仿真态势图Fig.2 Situation map obtained through simulation 2251第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023系统仿真学报Journal of System Simulationhttp:/www.china-2.2 算法流程算法流程将仿真系统中对抗态势进行可视化处理

18、，形成具有图形特征的二维态势图，然后通过图像处理技术对当前对抗环境进行图形化特征提取，来实现强化学习智能体对态势环境信息的认知。将典型海空多机对抗场景中复杂的武器、探测信息进行抽象处理，降低系统复杂度，不再需要强化学习算法对战场中多种传感器产生的态势信息进行依次的具体分析，有效减少了强化学习算法状态空间的维度，便于强化学习训练。算法具体步骤如下。步骤1：根据战场中作战实体的分布，对其感知区域中的环境信息进行态势融合和可视化处理，对红蓝双方分布的不同作战实体及其信息认知区域、火力覆盖区域使用不同的颜色特征进行标注，形成指控视角下的二维对抗态势图，如图 3所示。步骤2：基于K-means聚类算法1

19、9的图像分割以图像中的像素为数据点，按照指定的簇数(K=4，为双方的信息、火力域)聚类，然后将每个像素点以其对应的聚类中心替代，重构图像。步骤 3：根据基于 K-means 聚类得到的信息(火力)域态势标识图层对不同像素点的标识，分别处理4个副本图层，生成对应的色彩分割子图，如图4所示。步骤4：通过信息域颜色值计算像素点RGB均值，选择像素点均方差最小的作为信息域图层，得到4幅特征图层，如图5所示。通过聚类算法得到的4幅特征图层，分别代表双方各自的信息(火力)域，通过进一步识别，可得到相应的覆盖面积，综合其他便于得到的数据，完成态势认知，如式(1)所示：S=Ir Ib Fr FbX Y Z L

20、X H v(1)IrIb为红蓝双方的信息网络特征参数、Fr Fb为红蓝双方的火力网络特征参数。这些特征参数能够表明红蓝双方的可探测区域和火力打击范围，即将战场中的关键态势进行了提取。提取后的态势信息将双方的探测能力与火力打击能力进行融合，形成火力、信息的连通域数据参数。X Y Z为所有航空飞机的三维坐标位置，LX为兵力类型，H为航向，v为速度。态势认知结果作为输入参数应用于后续强化学习的训练，作为奖励函数的一部分对智能体的作战调度进行控制，实现在避免被敌方发现或打击的情况下完成作战任务。至此，智能体从二维态势图得到分别反映己方和敌方信息网络连通域和火力网络连通域的4幅特征图层，完成态势认知的过

21、程。对作战仿真的每次指挥决策提供正负分明的实时奖励反馈，图4 信息态势图色彩分割子图Fig.4 Information situation map color segmentation subgraph图3 二维态势图示例Fig.3 Two-dimensional situation map example 2252第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023王宇琨,等:基于分层的智能建模方法的多机空战行为建模http:/www.china-以此驱动航空兵多机智能体对抗指挥决策模型在多轮仿真训练过程中迭代演化更优的对抗策略。3基于网络连通域最大化的奖励

22、生基于网络连通域最大化的奖励生成算法成算法奖励函数中若设计过于具体的要素，容易导致稀疏奖励问题，具体到空战仿真中会产生智能体原地打转、不停开火、只会躲避等不合理决策行为。本文采用目标指向型以及全局态势最优化的奖励值生成算法，针对明确的作战目标，设计奖励函数的组成元素，包括不同兵力实体的损失数量、我方信息探测覆盖范围与敌方信息探测覆盖范围的比值等，根据不同兵力平台对最终作战目标的重要程度，确定奖励函数各组成元素的权重系数，基本设计构建流程如图6所示。单步奖励设计组成元素确定相对兵力战损信息域覆盖范围比值油料损耗各组成元素对实现作战目标的相对重要程度组成元素权重确定结算奖励设计仿真步长奖励折扣奖励

23、函数=单步奖励+结算奖励选取对抗终止条件结算奖励权重计算图6 奖励函数设计Fig.6 Reward function design图5 态势特征区域提取Fig.5 Situation feature area extraction 2253第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023系统仿真学报Journal of System Simulationhttp:/www.china-3.1 典型航空兵海空作战场景典型航空兵海空作战场景多机空战场景普遍需要以飞行器进行合理编队，以完成特定任务。海空对抗场景中存在歼击机、轰炸机、预警机为主的多种不同功能的机型

24、；空战的任务为战胜敌方空中力量和敌方的其余对空打击力量，夺取制空权，以期对有关领域进行控制。因此，根据如下红方对蓝方进攻的作战场景，进行多智能体强化学习算法的奖励设计：红方存在预警机探索敌方空中目标，同时存在歼击机突破敌方空中目标，有轰炸机对敌方地面目标进行打击；蓝方存在具有对空打击力量的海上舰船，同时有预警机和歼击机编队在其附近进行巡逻保护。3.2 基于网络连通域的单步奖励函数设计基于网络连通域的单步奖励函数设计为解决奖励稀疏问题，在训练中需要根据场景引入单步奖励，即“Reward Shaping”，让智能体时刻得到有关回报，引导智能体学习得到预期的效果。引入单步奖励后，整体奖励将变得稠密。

25、在典型海空作战场景下，为了使红方最终达成作战目标，单步奖励函数的设计通常要考虑歼击机对空作战的优势、轰炸机对面作战的优势，以及预警机探测情报信息的重要作用等。为了使网络输出的决策尽快引导红方航空兵力取得胜利，考虑油料损耗项，使作战持续时间尽可能短。为考虑进攻一方的进攻威胁性，并预先感知危险、避免兵力损失，需要对战场态势进行研判，使用态势特征提取算法从二维仿真态势图中提取得到双方火力、信息域连通域特征参数，使智能体能够把握全局态势进行训练。综上，单步奖励函数可以写为Rstep=W1(nflt b-nflt r)-W2nbomb r+W3khit r+W4naws b+W5(Ir+b(Ib+b)-

26、1)+(-Loil)(2)式中：nflt r、nflt b为红蓝双方战斗机战损数量；nbomb r为红方轰炸机战损数量；khit r为红方命中次数；naws b为蓝方预警机战损数量；Ir为红方信息探测覆盖范围；Ib为蓝方信息探测覆盖范围；Loil为油量损耗；b为避免算法除零引入的小正数根据不同兵力平台对最终作战目标的重要程度，确定单步奖励函数各组成元素的权重系数W1、W2、W3、W4、W5，完成单步奖励函数。假设红方取得胜利的最终目标是击沉蓝方舰船，且能够实现这一作战目标的只有轰炸机。为了达成最终作战目标，应该尽可能减少轰炸机被敌方歼击机攻击，使更多的轰炸机有机会发射导弹攻击蓝方舰船，必要时可

27、牺牲红方歼击机保护红方轰炸机的安全，因此，在单步奖励函数的设计中损失一架轰炸机的惩罚权重W2设置应为损失一架歼击机惩罚权重W1的多倍量级。蓝方预警机作为蓝方航空兵力体系中重要的信息探测平台，具有较高的军事价值，但由于蓝方舰船同样具有相当大范围的探测能力，且蓝方预警机部署位置在舰船后方难以靠近，综合上述考虑，击毁蓝方预警机的奖励权重W4可设置在W1数值的11.5倍之间。为了鼓励红方轰炸机发射导弹攻击蓝方舰船，每击中一次蓝方舰船则给予一定的奖励值。若一般情况下舰船被轰炸机命中k次才会完全损毁，考虑在红方轰炸机和蓝方舰船对抗取得平局的情况下，损伤nbomb r架红方轰炸机至少应命中舰船一次，其中，n

28、bomb r=Nbomb r/k，Nbomb r表示红方轰炸机数量。为了引导红方轰炸机取得对抗优势，每打中舰船一发则给予的奖励W3 nbomb rW2。信息域覆盖范围反映着全局作战态势的相对优势，若红方相对蓝方的信息域覆盖范围更大则说明红方航空兵体系在信息获取方面占优，应当给予一定的奖励，其权重系数W5的取值也应为W1的多倍量级。3.3 结算奖励函数设计结算奖励函数设计为了避免强化学习中出现奖励稀疏问题，奖励函数的设计除了考虑单步奖励，还要设置结算奖励，即在每局仿真对抗结束后，根据终止条件 2254第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023王宇琨,等

29、:基于分层的智能建模方法的多机空战行为建模http:/www.china-给予强化学习网络较大的终值奖励。以红方为例，当仿真对抗以红方胜利结束时，则给予网络较大的正反馈RF0，否则给予网络较大的负反馈RF1。完整奖励函数为R=RF0 红方获胜RF1 蓝方获胜Rstep 未结算(3)4基于混合的智能建模方法的行为基于混合的智能建模方法的行为建模分层框架建模分层框架航空兵多机对抗场景下，为保证仿真的真实度，使作战最优策略能够应用于实际作战场景，需要综合考虑双方的机动能力、相对态势、武器装备能力、预警探测能力。通过态势提取算法，将武器能力和探测能力进行抽象量化，作为参数引入仿真。但随着对抗场景规模增

30、加，智能体增加，多智能体的态势信息与装备能力则需要进行综合考虑，不仅是智能体增加造成数据量增加，智能体之间相互的影响关系也需要纳入考虑。因此，航空兵多机对抗场景下随着规模的增大，所需要处理的数据会呈指数增长，造成维数灾难的问题，算法的空间复杂度过大。具体到智能算法训练，则会使模型训练所需要的参数数据量过大，更容易产生过拟合和奖励稀疏的问题。针对典型海空多机对抗环境中智能体决策建模面临的反馈稀疏以及高维状态-行为空间的问题，为了避免直接采用强化学习算法时造成维数灾难的问题，对多兵力平台采用分层指挥决策结构，将兵力智能体决策建模问题抽象为“调度层-编队层-单机层”3层决策行为建模，形成基于规则集、

31、强化学习算法相混合的智能指挥决策分层建模框架，如图7所示。同时在强化学习算法中引入态势提取算法和基于网络连通域最大化的奖励生成算法，避免奖励稀疏问题。歼击机编队巡逻区域选择轰炸机编队巡逻区域选择预警机编队巡逻区域选择轰炸机编队攻击角度确定歼击机空中拦截目标分配轰炸机突击目标分配歼击机空中拦截歼击机区域巡逻歼击机航路规划歼击机起飞区域巡逻歼击机返航轰炸机空中拦截轰炸机区域巡逻轰炸机航路规划轰炸机起飞区域巡逻轰炸机返航预警机区域巡逻探测预警机起飞区城巡逻探测预警机返航基于规则集的行为建模基于规则集的行为建模基于QMix网络的决策行为建模调度层编队层单机层红方兵力行为决策建模分层框架图7 多机对抗智

32、能行为决策建模分层框架Fig.7 Multi-aircraft adversarial intelligent behavior decision-making modeling hierarchical framework 2255第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023系统仿真学报Journal of System Simulationhttp:/www.china-4.1 调度层行为建模调度层行为建模对于空战体系调度这类人类认知不充分的任务场景，采用基于探索的方法。强化学习基于环境反馈的态势数据进行连续的、有效的、实时的奖励机制设计，调度层的

33、宏观决策对全局战场态势影响更大，可以产生更加有效的作战效果，例如，歼击机、轰炸机和预警机巡逻区域的调度在直观上会影响战场的敌我态势。另外，这些宏观决策因素与基于态势环境数据的奖励机制有密切联系。因此，调度层采用强化学习算法来进行智能决策行为建模，调度兵力的巡逻区域和打击任务。本文使用QMix算法对体系空战进行整体调度。QMix是一种能有效解决完全合作型多智能体决策问题的值分解算法20。QMix 算法本质上为DQN算法在多智能体问题上的应用，解决了由其他智能体的策略变化引起的强化学习训练不稳定问题，更易收敛。算法对全局动作值函数Qtotal(sa)的计算方式进行改进，使

34、用神经网络f近似该函数，从而解决了全局动作值函数与智能体i的目标动作价值函数网络Qi(oiai)具有复杂关系的场景。此外，QMix算法在近似Qtotal(sa)时使用全局状态，使用了学习期间可用的额外状态信息。同时，QMix仅适用于完全合作型环境，因此算法中限制了神经网络f中的参数全部非负。为此，QMix算法使用超参数网络，使用神经网络g生成网络f的参数，从而更好地生成当前状态下Qi(oi ai)与Qtotal(sa)的关系。QMix算法使用深度神经网络来拟合动作值函数Qtotal(sa)和Qi(oiai)之间的非线性关系，分别完成从输入状态向量到输出动作值函数Qi(oiai)的映射以及从输入

35、Qi(oiai)、全局状态s到输出Qtotal(sa)的映射。智能体的学习过程就是寻求神经网络所有参数更新的过程。算法状态空间为双方运动平台位置坐标x、y、z，运动平台类型，携弹量，运动平台航向，信息域覆盖比等；行为空间包括编队是否执行任务、作战任务选择、任务执行目标区域、打击目标选择。调度层强化学习使用上文所述奖励生成算法，以避免奖励稀疏问题。4.2 编队层行为建模编队层行为建模针对编队层的行为决策，建立红方歼击机编队内的目标分配规则集如表1所示。红方编队内的每架歼击机优先打击距离最近的敌方目标，且编队内的歼击机对敌方目标飞机只锁定一次。4.3 单机层行为建模单机层行为建模针对单机层的行为决

36、策建立红方歼击编队内单机平台的作战规则集，如表2所示。单机层包含空中拦截、区域巡逻和返航3个状态。5决策模型训练及效果决策模型训练及效果5.1 场景想定及兵力设置场景想定及兵力设置搭建典型的海空联合对抗仿真场景如图8所表1编队目标分配规则集Table 1Formation target allocation rule set规则前件剩余弹药&未分配目标&存在未分配敌机无剩余弹药剩余弹药&已分配目标&存在更近敌机剩余弹药&已分配目标&目标已损毁剩余弹药&无分配目标&无未分配敌机规则后件就近原则分配未被锁定敌机作为目标不进行目标分配将更近敌机设置为新目标重新分配拦截目标到调度层指定的区域巡逻表2单

37、机作战规则集Table 2Single fighter combat rule set规则前件当前状态为区域巡逻&收到空中拦截指令当前状态为空中拦截&拦截目标已损毁油料不足规则后件进行空中拦截前往网络输出的指定区域巡逻返航 2256第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023王宇琨,等:基于分层的智能建模方法的多机空战行为建模http:/www.china-示。由于海空作战力量运动速度快、活动空间大，考虑设置大场景空间，将空间范围设为600 km600 km。实验平台使用墨子联合作战推演系统，该系统适用于现代海空作战推演仿真，空战要素齐全，支持想定构建

38、、仿真推演，广泛应用于军事人工智能研究。基于对于实际军事对抗典型场景的调研，设计如下场景想定：蓝方长期侵占红方岛屿，红方空中作战力量对蓝方重点目标实施打击，为夺回岛屿建立基础。蓝方(防守方)：歼击机编队、预警机和舰船共17个兵力平台，负责防守舰船附近海域。红方(进攻方)：歼击机、轰炸机编队和预警机共27个兵力平台，突破蓝方歼击机编队，击毁蓝方舰船。对抗结束条件：(1)红方轰炸机全部被击毁或剩余弹药为0；(2)红方预警机被击毁；(3)蓝方舰船被击沉。详细兵力设置如下。红方兵力：突击歼击编队1个，由11架歼击机组成；轰炸机编队3个，每个编队由3架轰炸机组成，每个轰炸机携带2枚空对地弹，攻击距离为1

39、15 km；护航歼击机编队3个，每个轰炸机编队由2个歼击机护航；预警机1架，探测范围为250 km。蓝方兵力：歼击机编队3个，分布于B1B2和B3区域，每个飞机编队中包含5架歼击机，每架歼击机的携弹量为 6 枚空空弹，锁定目标距离为80 km，发射导弹距离为60 km；舰船1艘，停留在C1区域，携带36枚舰对空弹，攻击距离为145 km，攻击角度为360；预警机1架，探测范围为250 km，在YB区域巡逻预警。双方兵力初始位置分布如图9所示。B1、B2、B3位置为3个蓝方歼击机编队的巡逻区域；C1为蓝方舰船位置；YB为蓝方预警机巡逻区域；R0为红方所有飞机编队的初始巡逻区域。5.2 稠密化奖励

40、驱动的稠密化奖励驱动的QMix强化学习训练强化学习训练针对大场景、多智能体的作战想定，作战过程中不同实体的不同行为动作带来高维状态行为空间约束的问题，进而会产生稀疏奖励的技术难点。基于上文形成的行为决策分层建模框架，将红方航空兵体系的指挥决策模型抽象到调度层、编队层以及单机层的行为决策建模。调度层基于QMix算法对红方歼击机编队的巡逻区域选择进行决策，同步验证上述行为建模分层框架和所设计稠密化奖励函数的有效性；在该场景下将红蓝对抗空域划分为48个不同的巡逻区域，由QMix算法决策歼击机编队的巡逻区域，引导红方兵力前往不同的作战空域与蓝方兵力对抗。单机层对单个歼击机的空中拦截行为、预警机的目标探

41、测行为等基于规则集的行为进行行为建模。编队层基于规则集实现歼击机编队内的目标分配。QMix算法(调度层指挥决策模型)输入状态空间如表3所示，决策输出为歼击机编队巡逻区域、轰炸机编队巡逻区域、预警机编队巡逻区域，以及轰炸机攻击目标的角度，巡逻区域对应上述想定中划分的各区域。QMix部分网络参数如表4所示，其中，状态空间为264维、行为空间为64维，符合本文针对问题的高维空间要求。图8 航空兵海空作战场景Fig.8 Joint naval and air force combat scenarios 2257第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023系统

42、仿真学报Journal of System Simulationhttp:/www.china-采用多智能体空战奖励回报生成算法，针对明确的作战目标，设计奖励函数的组成元素，根据不同兵力平台对最终作战目标的重要程度，确R61R62R63R64R58R59R60R4R16R57R56R55R17R25R26R18R19R20R21R22R23R3R2R1R28R27R31R30R29R33R34B0 R35R36R32R5R9R6R10R11R7YRR37R38R39R40R13R14R15R47R46R45R44R43R42R41R8R48R51R50R49R12R54R53R52B2B3YB

43、C1舰船(-200,40)(-182.5,160)-160(-60,-180)(-25,180)R24B1(40,35)22018014010060200-20-60-100-140-180单位：km(300,300)(40,10)R062.5027.5-7.5-42.5-77.5-112.5-147.5-182.5(120,0)图9 兵力初始位置分布Fig.9 Initial distribution of troops表3QMix输入状态空间Table 3State space input to QMix参数XrYrLXrHrD_numrArIrXbYbLXbHbAbIb参数含义红方兵力平

44、台x坐标位置红方兵力平台y坐标位置红方兵力平台类型红方兵力平台航向红方兵力平台的携弹量红方火力域覆盖比红方探测信息域覆盖范围蓝方兵力平台x坐标位置蓝方兵力平台y坐标位置蓝方兵力平台类型蓝方兵力平台的航向蓝方火力域覆盖比蓝方探测信息域覆盖范围表4QMix网络参数Table 4QMix network parameters参数n_agentsobs_dimaction_dimbatch_sizegammareplace_target_iterlrepsilonepsilon_minepsilon_decay参数含义智能体数量输入状态空间维度行为空间批次折扣因子目标网络参数更新周期学习率探索概率最小

45、探索概率探索衰减概率参数取值2264645120.92000.000 51.00.020.999 9 2258第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023王宇琨,等:基于分层的智能建模方法的多机空战行为建模http:/www.china-定奖励函数各组成元素的权重系数，根据单步奖励设计权重系数分别为W1=0.8、W2=60、W3=135、W4=1.04、W5=75。对作战仿真的每次指挥决策提供正负分明的实时奖励反馈，以此驱动航空兵多机智能对抗指挥决策模型在多轮仿真训练过程中向更高回报的对抗策略迭代演化。通过在本歼击机编队对抗场景下的迭代训练，观察QMi

46、x网络输出动作决策的奖励值是否明显稳定提升，并稳定在一个值附近。分层强化网络输出的系列作战行为，是否能够支持红方歼击机编队和预警机完成每局的仿真对抗过程，并使红方智能航空兵力获胜的概率逐渐增大。定性来看，预期的理想收敛效果应该是基于QMix算法的红方行为决策模型，经过不断与作战仿真环境交互，更新网络参数，使每局的平均奖励值明显上升，并形成较好的作战策略。在每局的仿真对抗过程中，红方歼击机的飞机轨迹更加平稳。经过训练后的红方决策模型会引导红方歼击机编队形成一种较优的作战策略：由一部分红方歼击机吸引蓝方歼击机火力，另一部分红方歼击机兵力从侧面攻击被吸引火力的蓝方歼击机，从而达到以较少红方牺牲换取较

47、大蓝方损失的效果。每10轮对局统计一次红方胜局数，统计结果如图10所示。对奖励值曲线进行平滑处理，如图11所示。随着训练对抗局数的增加，红方胜率以及每局仿真对抗中所获得的奖励值逐渐变大，证明随着基于QMix网络的红方指挥决策模型与环境不断进行交互，红方编队的作战策略不断向期望方向演化，实现作战策略的逐渐优化。对多智能体QMix算法训练得到的红方策略进行定性分析，可得到如下分析结论：在双方歼击机对抗阶段，采取一部分红方歼击机吸引蓝方歼击机火力，另一部分红方歼击机兵力从侧面攻击的作战策略，以取得较大的对抗优势。同时引导轰炸机编队和预警机尽量避开蓝方歼击机的攻击范围，尽量减少轰炸机的损失，确保预警机

48、安全。进入攻击舰船阶段后，红方剩余歼击机会靠近舰船以吸引舰船火力并掩护轰炸机，与此同时，红方轰炸机编队密集发弹攻击舰船，从而达到摧毁蓝方舰船的作战目的。6结论结论本文对多机对抗兵力智能博弈决策行为建模，突破了针对兵力博弈决策行为的有效持续奖励机制的关键问题；针对群体智能对抗中作战决策难以有效实时生成的问题，采用分层强化学习任务分层的策略，形成了一套新型兵力智能体博弈决图10 QMix网络训练过程中的红方胜局数Fig.10 Number of victories of red side in QMix network training process图11 奖励值曲线Fig.11 Reward

49、curve 2259第 35 卷第 10 期2023 年 10 月Vol.35 No.10Oct.2023系统仿真学报Journal of System Simulationhttp:/www.china-策行为模型，并在典型海空多机对抗场景下对兵力智能体进行迭代训练和学习，取得了稳定的仿真运行效果。本文的研究可应用于复杂兵力仿真环境下基于深度强化学习算法的行为决策模型建模，也可用于在全新的、前沿的概念作战场景下，或者在没有充足作战指挥经验累积的情况下，应用人工智能进行智能化的自主探索，优化作战指挥策略。基于本文的研究，可以进一步深入地考虑复杂的盘面分析和态势认知，例如，考虑三维物理空间中的姿

50、态情况、敌方的编队情况和敌方的不同武器装备能力等进行威胁程度分析，服务于奖励函数的进一步优化设计，从而适应更加广泛的多机空战场景。参考文献参考文献：1Holcomb S D,Porter W K,Ault S V,et al.Overview on DeepMind and Its AlphaGo Zero AIC/Proceedings of the 2018 International Conference on Big Data and Education.New York,NY,USA:Association for Computing Machinery,2018:67-71.2Ar

展开阅读全文