1、引用格式:张栋 唐俊林 熊威 等.基于 的视距内协同空战机动决策.航空兵器 ():.():.()基于 的视距内协同空战机动决策张 栋 唐俊林 熊 威 任 智 杨书恒(西北工业大学 航天学院 西安)摘 要:为提升多无人作战飞机空战的协同作战能力 提出一种基于多智能体双延迟深度确定性策略梯度()的协同空战机动决策方法 首先 基于无人作战飞机的三自由度动力学模型构建空战环境 并结合飞行员的操纵方式 设计以控制量的变化量表示的动作空间 其次 优化了状态空间和奖励函数的设计 将友机与敌机的相对关系引入状态空间 根据相对角度、相对距离等空战态势因素建立连续型奖励函数 将飞行约束条件融入离散型奖励函数 提升
2、机动决策的准确性和机动飞行的安全性 采用分阶段训练、启发式引导、双探索机制、交替冻结博弈等训练方法 提高算法的收敛速度和机动策略的鲁棒性 最后 构建了二对一空战的仿真场景 结果表明我方双机能够展现出明显的配合行为 提高了对空战态势的感知能力关键词:无人作战飞机 协同空战 机动决策 多智能体 深度强化学习 中图分类号:文献标识码:文章编号:():./.引 言随着科技的进步 空战的战场环境和空间信息越来越复杂 单机已经无法满足作战需求 多机协同空战逐渐成为主要的作战样式 协同空战机动决策是指我方多架战机根据交战双方的相对态势 相互配合共同决策以占据有利态势 甚至在处于劣势时化解敌机的威胁有效的协同
3、机动策略能使战机编队充分发挥整体作战效能 击毁敌机的同时最大程度减小我方的损伤现有的机动决策方法主要包括以矩阵博弈、微分对策、影响图为代表的传统方法和以专家系统、神经网络、深度强化学习为代表的人工智能方法 文献基于矩阵博弈提出群决策理论 以我机对每架敌机的动作偏好排序来进行决策 为协同机动决策提供新的解决思路 文献基于状态预测影响图模型提出协同空战机动决策框架 采用无迹卡尔曼滤波来更新和预测信念状态 并通过移动视界控制法求解以满足实时性要求文献建立了协商微分对策理论 提出广义微分动态规划算法来求解多机协同机动策略 文献针对编队协同空战的过程 提出基于高阶导数和相对模糊熵的二次聚类法 实现了协同
4、空战决策过程的重构 文献通过重复目标分配发挥战机的多目标攻击能力 采用有限外推和粒子群算法求解指标函数 提升了多机协同决策的效能 传统方法在多机协同机动决策领域的研究成果显著 但仍然存在一些不足:矩阵对策法过于保守 与空战实际不符影响图法推理过程繁杂 决策响应速度慢 微分对策法理论复杂 计算量庞大 性能函数设计困难由于传统方法的固有缺陷 空战机动决策技术逐渐向具有自学习能力的人工智能方向发展 专家系统法难以建立完备的规则库以适应复杂的空战环境 神经网络法难以获取大规模的有效训练样本 而深度强化学习通过智能体对环境的“试错”进行学习 训练样本在训练中自产生 能够适应复杂多变的空战环境 满足机动决
5、策准确性和实时性的要求 具有很好的应用前景 针对一对一空战场景 深度强化学习取得了不错的应用效果文献基于空战态势评估和 构建机动决策模型 采用分阶段的训练方法 逐步获得更加有效的机动策略 文献基于 得出连续平滑的控制量 提高机动决策的精度 并通过优化算法产生有效样本 提高算法的学习效率 文献在 网络上增加与性能损失上限相关的鲁棒性正则化器 提出 并结合最大熵逆强化学习的奖励塑造方法 训练出具收稿日期:基金项目:基础加强 项目作者简介:张栋()男 宁夏青铜峡人 副教授 博士生导师 年第 卷第 期 年 月 航空兵器 .有高鲁棒性和高性能的机动策略针对多机协同空战场景 基于深度强化学习的协同机动策略
6、生成方法逐渐成为研究的热点 文献将 应用到状态、动作都为连续的多机空战场景结合空战态势的评估结果设计连续型回报模型来加快收敛速度 但仿真实现中多机的协同行为并不明显 文献通过动态目标分配对目标形成合围之势 并基于启发式强化学习对机动决策序列进行动态解算 完成四对二场景的空战仿真 文献通过强化学习来计算协同威胁指数 描述了二对一空战中友机合作带来的态势提升 再通过辅助决策模块评估决策集 最终得出无人机的控制量 文献基于 求解协同机动策略并与采用预编规则的敌机进行对抗训练 生成多种典型的双机协同策略 文献将平均场理论引入 提出 在大规模无人机集群对抗中表现出有效的集群合作行为 文献通过目标分配和态
7、势评估将编队的战术目标与各无人机的强化学习目标相融合 基于 架构建立多机协同机动决策模型综上所述 采用深度强化学习实现多机协同空战机动决策通常有两种途径:一是采用单智能体强化学习结合目标分配等方法 这类机动策略仍然采用单智能体的研究方式 协同能力较弱 并没有实现真正意义上的协同 二是采用多智能体深度强化学习方法 这类方法能够生成比较有效的协同机动策略 但大多数研究中采用的敌方策略过于简单 没有充分挖掘多机协同的优势对于多机的协同行为考虑不足 对于友机如何配合进而提升空战优势的研究较少 针对此类问题 本文提出了一种基于 空战机动决策方法 通过改进状态空间、动作空间和奖励函数的设计 并借助双探索机
8、制、分阶段训练、启发式引导和交替冻结博弈等方法 提高了多机机动决策的协同程度 视距内空战问题描述.运动模型空战对抗仿真中 选用高耦合的三自由度动力学模型来创建空战环境 将 视为一个质点 考虑升力、阻力和发动机推力 比常见的以过载为控制量的三自由度动力学模型更加真实 具有更高的应用价值 的飞行状态参数如图 所示图 的状态参数.地面惯性坐标系下 的三维空间质心运动学方程为 ()质心动力学方程为 ()()()式中:为速度的大小 为航迹倾斜角 为航迹偏角 为迎角 为质量 为滚转角 为发动机的推力 为空气阻力 为升力 为重力加速度升力 和空气阻力 的计算式为 ()式中:为空气密度 为参考横截面积 为升力
9、系数 为阻力系数根据 战机的实际气动数据拟合得到 和 的计算式为(.)(.)(.)(.)()推力 的计算式为 ()()式中:为油门大小()为最大推力 根据 的 涡喷发动机相关数据拟合参照有人机中飞行员的操纵方式 的控制量选取迎角 滚转角 油门系数 .空战相对态势根据 的三自由度运动模型 空战中敌我双机的相对位置如图 所示图 敌我双机的相对位置.张 栋 等:基于 的视距内协同空战机动决策图 中 和 分别为敌我双方的速度矢量 为距离矢量 从我方 指向敌方 为敌机相对我机的方位角 为敌机的进入角 是敌机速度矢量与距离矢量的夹角假设近距空空导弹的攻击区是静态的 有效攻击距离 与离轴发射角 均为定值 近
10、距空空导弹大多采用红外导引头 具备全向攻击能力 因为战机尾焰的红外特性最为明显 尾后攻击的成功率大于迎头攻击 仍然希望进入角尽可能小 选取对抗结束的胜负判定标志为:相对距离小于空空导弹的攻击距离 方位角小于空空导弹的离轴发射角 进入角小于 且持续 个决策周期 可认为满足导弹发射条件 即 ()视距内协同空战机动决策模型.状态空间由于空战的强对抗性 状态选取必须完整描述当前的空战态势 改进状态设计也是提高机动决策有效性的重要途径 状态输入如果直接使用 惯性坐标系下的绝对坐标 会导致算法的泛化性较差 在二对一机动决策中 我方战机的状态不但包括每架战机归一化后的位置、姿态角等信息 还包括战机之间的相对
11、态势信息大多数研究中 战机的状态通常仅包括其与友机的相对关系和其与敌机的相对关系 本文加入友机与敌机的相对关系 使我机更容易感知到友机的协作关系 以我方第 架战机为例 其状态的构成如表 所示表 状态定义 状态定义/()/状态定义/()/状态定义/()/表中 下标、表示我方参数 下标 表示敌方参数为我方第 架战机与敌方单机的相对距离和 分别为敌方单机相对我方第 架战机距离矢量的方向角和高低角 和 的定义与之类似 我机速度矢量、敌机速度矢量和距离矢量是描述敌我相对态势的关键因素 也是我方机动决策的重要依据当以控制量的变化量来表示 的动作时 状态设计应加入其控制量 才能获得有效的机动策略 状态应进行
12、归一化 以避免各量之间的数量级差异对神经网络的收敛性造成影响.动作空间机动决策是根据当前态势选取最优控制量 使得空战态势朝有利于我方的趋势变化 深度强化学习应用于机动决策时 需要结合实际情况设计具体的机动动作战机的机动动作选取攻角、滚转角和油门参数的变化量组合()其中 个控制量在一个决策周期内的变化量取值范围分别为 、和 控制量变化量的取值范围可以结合决策时间间隔和攻角、滚转角、油门参数的实际变化快慢程度综合考虑 避免攻角、滚转角出现剧烈振荡的现象 更加符合实际飞行情况.奖励函数奖励函数通常包括离散型奖励和连续型奖励 离散型奖励在 处于绝对优势或劣势时给予其较大的奖励或惩罚 连续型奖励函数在整
13、个对抗过程中的每一个决策步获得 引导 向着战胜敌机的态势飞行.一对一空战奖励函数()离散型奖励函数攻击奖励:我方达成攻击态势时获得奖励 不需要持续 个决策周期 同理 敌方达成攻击态势时得到相应的惩罚:()失速惩罚:避免 因失速而坠毁 限制其最小速度:()飞行范围惩罚:避免 超出安全飞行高度或对抗区域边界 规范其飞行范围:()式中:为 水平方向的运动范围 为 的安全飞行高度区间碰撞惩罚:避免友机之间的相互碰撞 限制其相对距离:()式中:为空空导弹的离轴发射角进入角优势:当进入角为 时 我机处在敌机的正后方 敌机最不容易摆脱导弹的打击 当进入角为 时 敌机速度指向我机 威胁较大 表达式为()距离优
14、势:目的是引导我机靠近敌机 使敌机处于空空导弹的射程内 定义为 ()式中:为空空导弹攻击距离速度优势:当我机的速度大于敌机的速度时 能迅速摆脱敌方威胁 并抢先对敌方形成攻击威胁 定义为.()式中:分别为我机和敌机的速度高度优势:高度增加时 战机能将重力势能转化为动能 提高飞行速度 当我机与敌机高度差增大 高度优势也增大 定义为 ()/()/()式中:为我机和敌机的高度差结合各指标的优势函数 连续型奖励函数定义为 ()式中:分别为方位角、进入角、相对距离、相对速度、相对高度优势函数的权重因子 权重因子应根据空战态势适时调整 当相对距离较近且进入角较大时 应提高进入角优势函数的权重 以摆脱对方的威
15、胁 各优势函数的权重设置如表 所示表 各优势函数的权重设置 权重 /.其他.()一对一空战综合奖励函数综上 一对一空战的综合奖励函数 为 ().多对一空战奖励函数多对一空战场景的奖励函数可以在一对一场景的基础上设计 为使 能够感受到友机协助带来的优势提升 获得的奖励还应包括友机获得的奖励 设我方共有 架战机 则我方第 架战机的奖励函数为 ()式中:为友机的奖励提升因子 为我方第 架战机对敌方单机的奖励函数 按照一对一场景的奖励函数计算 当 时 表示战机完全忽略友机的奖励提升 我方多机无协同 当 时 友机的奖励与战机自身的奖励同等重要 协同程度高 当 时 自身的奖励所占比重高于友机的奖励 的值越
16、小 友机的奖励提升程度越小 视距内协同空战机动决策求解框架.结构是对 的优化 为使其能适用于多智能体场景 从而发展出 其结构如图 所示 与相似 每个智能体()包括演员()模块和评论家()模块 模块实现 与环境的交互 直接输出确定性动作 模块对 模块的策略进行评估并指导策略提升 在多智能体场景中每个 的策略都在更新迭代 导致环境针对一个特定的 是动态不稳定的 无法仅通过改变其自身的策略来适应动态不稳定的环境 为使智能体在机动对抗中更容易表现出合作行为 采用集中式训练集中式执行的框架来搭建 模型 在训练过程中 需要获取其他 的观测和动作信息 训练完成后 执行时仍要获取友方的观测 才能更好地感知到与
17、友方合作带来的优势提升 从而使多智能体能够发现复杂的协同策略图 集中式 结构图.图 中 算法分别为每个 训练一个单独的 与 和 分别为各 的观测和动作.暂时参数冻结机制和经验回放池结构暂时参数冻结机制中 模块包含一对结构完全相同的估计()神经网络和目标()神经网络 模块包含两对结构完全相同的 神经网络和 神经网络 引入 网络是为了减小时间差分张 栋 等:基于 的视距内协同空战机动决策误差()计算时目标价值和估计价值的相关性增加算法训练的稳定性 网络通过周期性地对 网络的参数进行复制 在训练中协助 网络的更新 网络参数采用软策略更新机制 每次训练后都以一个较小的比例朝着 网络靠近 计算式为()(
18、)式中:为 网络的参数 为 网络的参数 为更新率经验回放池用于记录在线学习所获取的历史经验 所有 共享一个经验回放池 每条样本的结构为()分别表示各 的状态、动作、奖励和下一时刻的状态 其中 的状态为 ()训练神经网络的参数时 从经验回放池中随机抽取一定数目的历史经验 利用随机梯度下降等方法进行基于批处理的学习优化 使得参数能更好地符合训练集数据 基于经验回放池的随机采样打破了一个回合中决策过程前后之间的相关性更符合深度学习中数据样本独立同分布的假设 提升了训练的稳定性.网络训练 中各 的训练过程和 相似 如图 所示 中心化 模块的输入除了自身的观测和动作信息外 还包括其他 的观测和动作信息
19、输出联合动作值函数 每个 通过自己的观测并接收其他 的观测 使用自己独立的 输出确定性动作图 各 的算法结构.第 个 的 模块使用 训练 网络的参数 模块使用两个 网络来计算下一时刻的动作值函数 并通过选取两者间的最小值作为两套 网络的更新目标 以改善值函数的过估计问题:()()()()()()()式中:为奖励折扣因子 为当前时刻所有 的联合状态 为当前时刻的联合动作 为下一时刻的联合状态()为当前联合状态和动作下智能体 的奖励 为下一时刻的联合动作()为第 个智能体第 个 网络当前时刻的联合动作值函数()和()分别为两个 网络下一时刻的联合动作值函数()为两者的较小值第 个智能体 模块的 网
20、络仍然通过最大化联合动作值函数来进行训练 因此损失函数为联合动作值函数的均值 因为神经网络的训练通常是最小化损失函数 所以其计算式前加上一个负号:()()为减少 模块向错误方向的无效更新 应降低 的更新频率 更新若干次后 才进行更新 为得到更准确、更健壮的目标值估计 训练时对目标策略的输出加入随机噪声 计算式为 ()()式中:为 网络输出的确定性部分 为均值为、方差为 的高斯随机噪声.双探索机制在 模块输出的确定性动作上附加一个随机数以增加对空战状态空间的探索 对于动作为连续空间的强化学习 通常使用高斯策略 表达式为 ()()式中:为 网络输出的确定性部分 为均值为、方差为 的高斯随机噪声 采
21、用双探索机制来平衡探索与利用的关系 大部分回合使用探索策略 其占主导地位 即训练过程中高斯分布的方差 由初始值 逐渐衰减 直到预先设定的最小值 训练前期 探索行为较多 有效的动作决策将获得更多的奖励 错误的动作决策将得到惩罚 训练后期 探索行为较少 有利于缩小寻优范围继续学习最优的机动策略 少部分回合使用探索策略 其作为辅助 即训练过程中持续保持较大概率的探索行为 高斯分布的方差始终为初始值.二对一视距内空战机动决策步骤我方双机分别以 框架选取机动动作 通过相互配合来对抗敌方单机 以夺取空战胜利 决策步骤如图 所示与一对一空战相比 二对一场景的状态空间更加庞大 为了增强机动决策的准确性 使用较
22、大规模的神经网络来拟合协同机动策略 大规模的神经网络和以控制量变化量表示的动作设计将导致收敛缓慢甚至不收敛的问题 针对此问题 采用启发式引导和分阶段训练的方法来改善算法的收敛性 采用分阶段训练 让算法先解决简单的任务 当算法学习到一定策略后再增大任务的难度继续训练 利用强化学习的经验回放池 可以存储其他决策方法产生的经验样本 从而在训练中吸收其他方法的优点 训练的初期 可以采用其他决策方法选择动作 得到环境的奖励 并与状态一起存入经验回放池如此便可以让具有较大规模神经网络的强化学习算法解决复杂的决策问题航空兵器 年第 卷第 期 初始化所有 的 网络参数:拷贝赋值 网络的参数:初始化经验回放池
23、初始化高斯分布 初始化所有战机的参数 获取全局状态 由状态 输出动作 施加随机误差得:对环境执行动作 获取奖励 和下一时刻 全局状态 将经验()存入经验回放池 更新全局状态:从经验回放池抽取样本 更新 的 网络参数:软策略更新 的 网络参数:()图 基于 的二对一空战机动决策方法.仿真分析.参数设置仿真中 敌我双方的对抗区域边界限制为 双方战机性能相同 空空导弹发射距离约束 离轴发射角约束 最大速度 /最小速度 /质量 参考截面积.空气密度 ./和 模块的学习率均为.衰减率 .网络的软 策 略 更 新 参 数 .经 验 回 放 池 容 量 为 每次从中抽取 条样本进行训练 攻角、滚转角和油门的
24、随机噪声初始高斯分布分别为:(.)(.)(.)各 的网络结构相同 如表 所示表 的 网络结构 网络层神经单元数激活函数输入层(状态)隐藏层 隐藏层 隐藏层 隐藏层 输出层(动作)表 的 网络结构 网络层神经单元数激活函数输入层(状态 动作)隐藏层 隐藏层 隐藏层 隐藏层 输出层(状态动作值函数)综合考虑决策的实时性和机体操控的稳定性 每隔 对抗双方同时进行一次机动动作选择 每执行 步进行一次训练 达到回合的最大步数或胜负终止条件则本回合结束 执行下一回合的训练我方每架 的奖励函数中 友机的奖励提升因子 训练过程分为初始训练阶段和对抗训练阶段初始训练阶段直到回合最大步数限制才终止 先让我方双机跟
25、随直线飞行的敌机 学习初步的机动策略 再跟随螺旋飞行的敌机 以适应敌机速度矢量的变化 对抗训练阶段加入敌机的机动策略 进行对抗仿真 任意一架 达到攻击条件便终止回合 经测试 采用本文的动作设计方法 如果不采用启发式引导的方法 训练过程中 模块的动作输出同质化严重 导致算法无法收敛 初始训练阶段中 部分回合我机使用 算法按照一对一场景的研究方法做出决策 生成有效样本来指导神经网络的训练敌方单机采用遍历试探法 从基本动作集中选取动作进行对抗 每个控制量的变化量有 种取值 分别为()、(.)和 (.)排列组合得到 种基本动作 敌机决策时 假设我方双机位置保持不变 以当前待选动作执行后更新的相对态势来
26、评估该动作的优劣 态势评估中敌机对我方每架战机的综合奖励各占一半 根据一对一空战的奖励函数计算.初始训练阶段训练的 个回合 令敌机沿固定水平直线匀速飞行 我方双机的初始位置在以敌机初始位置为圆心、半径为 的部分圆周上随机生成 速度为 /航向指向敌机 航迹倾角为 攻角为.滚转角为 油门系数为 训练完成后 某回合中我方双机的机动轨迹如图 所示图 敌机直线飞行.张 栋 等:基于 的视距内协同空战机动决策由图 可知 我方双机从任意位置出发 均能迅速绕到敌机后方形成攻击态势 并稳定保持绝对有利态势直到最大步数 而终止 引入此训练阶段的主要目的是让每架 均能学习到对敌机形成攻击态势的初步智能水平训练的 个
27、回合 令敌机以固定的初始位置、随机的初始航向角、固定的航迹倾角大小 向下或向上螺旋飞行 我方双机初始位置分别为(.)和(.)速度均为 /航迹偏角均为 航迹倾角均为 攻角均为.滚转角均为 油门系数均为 训练完成后 某回合的机动轨迹如图 所示图 敌机螺旋飞行.由图 可知 敌机以随机初始航向进行螺旋飞行时我方双机均能跟随在敌机侧后方 保持绝对优势的态势直到回合最大步数 引入此训练阶段的主要目的是让每架 均能适应敌机飞行方向的变化 学习到对敌机持续保持攻击态势的智能水平.对抗训练阶段训练的后 个回合 敌方单机以遍历试探法选取动作进行机动对抗 敌机的初始位置恒定为(.)速度为/航迹偏角指向我方双机编队的
28、中心 航迹倾角为 攻角为.滚转角为 油门系数为 我方双机的初始位置在以敌机初始位置为圆心、半径为 的圆周上随机生成 圆心角相差 速度均为/航迹偏角指向敌机 航迹倾角均为 攻角均为.滚转角均为 油门系数均为初始阶段的训练过程中 直到回合最大步数限制才终止训练 导致算法虽然有协同机制 但我方战机决策时却强行忽略了友机协同的优势提升 各自争取对敌机的有利态势 对抗阶段的训练过程中 任意一架 被击毁便终止回合 友机的奖励和惩罚均会对另一架 造成较大的影响 此时双机能逐渐学到一些协同策略训练完成后某回合的对抗轨迹如图 所示 我方双机学习到的战术类似于分散夹击战术 先散开 再分别从两侧夹击敌机 只要敌机偏
29、向于其中一方 另一方便能抓住机会 迅速达成攻击条件 将敌机击落 刨除初始训练阶段和使用探索策略 的训练回合 对抗训练阶段我方双机奖励之和的平均值及胜负概率变化趋势如图 所示由图 可知 随着对抗训练的进行 我方的获胜概率逐渐提升 双机所获得的平均奖励也在波动上升 最终我方双机编队的胜率可达 以上 因此 在相同的优势函数及权重因子下 基于 的双机机动决策能表现出一定的协同行为 相互配合率先达到攻击条件并击落敌机图 二对一空战对抗轨迹.图 二对一空战训练结果.交替冻结博弈为获得普适性更强的协同机动策略 敌机使用 个独立训练的 与我方双机对抗 并进行交替训练(训练一方的策略时 另一方的参数固定)为减轻
30、“红皇后效应”的影响 将敌机各独立决策算法每个训练阶段获得的策略储存 我方训练时 敌机每回合在已有策略集()()()中随机选取一个策略进行对抗 使得我方的协同策略能够适应不同对手各个时期的策略 在交替训练过程中 处于训练阶段的策略通过不断迭代 总能以较高的概率战胜非训练阶段的策略 经过若干轮交替训练我方双机对敌方不同种类、不同时期的策略均能保持较高的对抗成功率 某回合中的对抗轨迹如图 所示 我方双机先散开 再从两侧夹击 号机扰乱了敌方对空战航空兵器 年第 卷第 期态势的判断 号机则趁机绕到敌机侧后方将其击落 可知分散夹击是二对一空战中一种十分有效的战术图 交替博弈空战轨迹.结 论本文采用 研究
31、了高动态和强对抗环境下的多机协同控制机动决策问题 构建了基于 的多机协同机动决策框架 提升了多机协同空战过程中协同的作战的效能 主要结论包括:()通过优化状态空间和设计奖励函数 以感知友机的优势提升 多智能体的合作行为主要通过对友机和敌机的观测以及感知友机的奖励来获得()通过引入双探索机制、采用分阶段训练、启发式引导以及交替冻结博弈等方法 可以充分挖掘机动决策框架的性能 双探索机制平衡探索与利用的关系 分阶段训练和启发式引导改善算法的收敛性 交替冻结博弈提高决策的普适性二对一空战的仿真结果表明 生成的机动策略环境适应性强 能在对抗中表现出明显的协同行为 充分发挥多机作战的协同优势 具有重要的潜
32、在应用价值参考文献:李世豪 丁勇 高振龙.基于直觉模糊博弈的无人机空战机动决策.系统工程与电子技术 ():.():.().():.():.():.:.周思羽 王庆超 王子健 等.基于 集结算法的多机协同空战机动决策方法.飞机设计 ():.():.().():.李建勋 佟明安 金德琨.协商微分对策理论及其在多机空战分析中的应用.系统工程理论与实践 ():.():.()左家亮 张滢 杨任农 等.中距协同空战决策过程二次聚类重构与评估.系统工程与电子技术 ():.():.()奚之飞 徐安 寇英信 等.多机协同空战机动决策流程.系统工程与电子技术 ():.():.().:.():.():.袁唯淋.基于
33、多智能体强化学习的超视距空战决策方法研究.长沙:国防科技大学:.:.()左家亮 杨任农 张滢 等.基于启发式强化学习的空战机动智能决策.航空学报 ():.():.()韩统 崔明朗 张伟 等.多无人机协同空战机动决策.兵器装备工程学报 ():.张 栋 等:基于 的视距内协同空战机动决策 ():.()孙彧 李清伟 徐志雄 等.基于多智能体深度强化学习的空战博弈对抗策略训练模型.指挥信息系统与技术():.():.()李世豪.复杂空战环境下基于博弈模型的无人机机动决策方法研究.南京:南京航空航天大学:.:.().():.杜海文 崔明朗 韩统 等.基于多目标优化与强化学习的空战机动决策.北京航空航天大学学报 ():.():.().():.():.():.王杰 丁达理 陈诚 等.导弹攻击状态评估下的 试探机动决策.哈尔滨工业大学学报 ():.():.()./.().:./.:.():()().:航空兵器 年第 卷第 期
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100