基于MATD3的视距内协同空战机动决策.pdf

资源描述

1、引用格式:张栋唐俊林熊威等.基于的视距内协同空战机动决策.航空兵器 ():.():.()基于的视距内协同空战机动决策张栋唐俊林熊威任智杨书恒(西北工业大学航天学院西安)摘要:为提升多无人作战飞机空战的协同作战能力提出一种基于多智能体双延迟深度确定性策略梯度()的协同空战机动决策方法首先基于无人作战飞机的三自由度动力学模型构建空战环境并结合飞行员的操纵方式设计以控制量的变化量表示的动作空间其次优化了状态空间和奖励函数的设计将友机与敌机的相对关系引入状态空间根据相对角度、相对距离等空战态势因素建立连续型奖励函数将飞行约束条件融入离散型奖励函数提升

2、机动决策的准确性和机动飞行的安全性采用分阶段训练、启发式引导、双探索机制、交替冻结博弈等训练方法提高算法的收敛速度和机动策略的鲁棒性最后构建了二对一空战的仿真场景结果表明我方双机能够展现出明显的配合行为提高了对空战态势的感知能力关键词:无人作战飞机协同空战机动决策多智能体深度强化学习中图分类号:文献标识码:文章编号:():./.引言随着科技的进步空战的战场环境和空间信息越来越复杂单机已经无法满足作战需求多机协同空战逐渐成为主要的作战样式协同空战机动决策是指我方多架战机根据交战双方的相对态势相互配合共同决策以占据有利态势甚至在处于劣势时化解敌机的威胁有效的协同

3、机动策略能使战机编队充分发挥整体作战效能击毁敌机的同时最大程度减小我方的损伤现有的机动决策方法主要包括以矩阵博弈、微分对策、影响图为代表的传统方法和以专家系统、神经网络、深度强化学习为代表的人工智能方法文献基于矩阵博弈提出群决策理论以我机对每架敌机的动作偏好排序来进行决策为协同机动决策提供新的解决思路文献基于状态预测影响图模型提出协同空战机动决策框架采用无迹卡尔曼滤波来更新和预测信念状态并通过移动视界控制法求解以满足实时性要求文献建立了协商微分对策理论提出广义微分动态规划算法来求解多机协同机动策略文献针对编队协同空战的过程提出基于高阶导数和相对模糊熵的二次聚类法实现了协同

4、空战决策过程的重构文献通过重复目标分配发挥战机的多目标攻击能力采用有限外推和粒子群算法求解指标函数提升了多机协同决策的效能传统方法在多机协同机动决策领域的研究成果显著但仍然存在一些不足:矩阵对策法过于保守与空战实际不符影响图法推理过程繁杂决策响应速度慢微分对策法理论复杂计算量庞大性能函数设计困难由于传统方法的固有缺陷空战机动决策技术逐渐向具有自学习能力的人工智能方向发展专家系统法难以建立完备的规则库以适应复杂的空战环境神经网络法难以获取大规模的有效训练样本而深度强化学习通过智能体对环境的“试错”进行学习训练样本在训练中自产生能够适应复杂多变的空战环境满足机动决

5、策准确性和实时性的要求具有很好的应用前景针对一对一空战场景深度强化学习取得了不错的应用效果文献基于空战态势评估和构建机动决策模型采用分阶段的训练方法逐步获得更加有效的机动策略文献基于得出连续平滑的控制量提高机动决策的精度并通过优化算法产生有效样本提高算法的学习效率文献在网络上增加与性能损失上限相关的鲁棒性正则化器提出并结合最大熵逆强化学习的奖励塑造方法训练出具收稿日期:基金项目:基础加强项目作者简介:张栋()男宁夏青铜峡人副教授博士生导师年第卷第期年月航空兵器 .有高鲁棒性和高性能的机动策略针对多机协同空战场景基于深度强化学习的协同机动策略

6、生成方法逐渐成为研究的热点文献将应用到状态、动作都为连续的多机空战场景结合空战态势的评估结果设计连续型回报模型来加快收敛速度但仿真实现中多机的协同行为并不明显文献通过动态目标分配对目标形成合围之势并基于启发式强化学习对机动决策序列进行动态解算完成四对二场景的空战仿真文献通过强化学习来计算协同威胁指数描述了二对一空战中友机合作带来的态势提升再通过辅助决策模块评估决策集最终得出无人机的控制量文献基于求解协同机动策略并与采用预编规则的敌机进行对抗训练生成多种典型的双机协同策略文献将平均场理论引入提出在大规模无人机集群对抗中表现出有效的集群合作行为文献通过目标分配和态

7、势评估将编队的战术目标与各无人机的强化学习目标相融合基于架构建立多机协同机动决策模型综上所述采用深度强化学习实现多机协同空战机动决策通常有两种途径:一是采用单智能体强化学习结合目标分配等方法这类机动策略仍然采用单智能体的研究方式协同能力较弱并没有实现真正意义上的协同二是采用多智能体深度强化学习方法这类方法能够生成比较有效的协同机动策略但大多数研究中采用的敌方策略过于简单没有充分挖掘多机协同的优势对于多机的协同行为考虑不足对于友机如何配合进而提升空战优势的研究较少针对此类问题本文提出了一种基于空战机动决策方法通过改进状态空间、动作空间和奖励函数的设计并借助双探索机

8、制、分阶段训练、启发式引导和交替冻结博弈等方法提高了多机机动决策的协同程度视距内空战问题描述.运动模型空战对抗仿真中选用高耦合的三自由度动力学模型来创建空战环境将视为一个质点考虑升力、阻力和发动机推力比常见的以过载为控制量的三自由度动力学模型更加真实具有更高的应用价值的飞行状态参数如图所示图的状态参数.地面惯性坐标系下的三维空间质心运动学方程为 ()质心动力学方程为 ()()()式中:为速度的大小为航迹倾斜角为航迹偏角为迎角为质量为滚转角为发动机的推力为空气阻力为升力为重力加速度升力和空气阻力的计算式为 ()式中:为空气密度为参考横截面积为升力

9、系数为阻力系数根据战机的实际气动数据拟合得到和的计算式为(.)(.)(.)(.)()推力的计算式为 ()()式中:为油门大小()为最大推力根据的涡喷发动机相关数据拟合参照有人机中飞行员的操纵方式的控制量选取迎角滚转角油门系数 .空战相对态势根据的三自由度运动模型空战中敌我双机的相对位置如图所示图敌我双机的相对位置.张栋等:基于的视距内协同空战机动决策图中和分别为敌我双方的速度矢量为距离矢量从我方指向敌方为敌机相对我机的方位角为敌机的进入角是敌机速度矢量与距离矢量的夹角假设近距空空导弹的攻击区是静态的有效攻击距离与离轴发射角均为定值近

10、距空空导弹大多采用红外导引头具备全向攻击能力因为战机尾焰的红外特性最为明显尾后攻击的成功率大于迎头攻击仍然希望进入角尽可能小选取对抗结束的胜负判定标志为:相对距离小于空空导弹的攻击距离方位角小于空空导弹的离轴发射角进入角小于且持续个决策周期可认为满足导弹发射条件即 ()视距内协同空战机动决策模型.状态空间由于空战的强对抗性状态选取必须完整描述当前的空战态势改进状态设计也是提高机动决策有效性的重要途径状态输入如果直接使用惯性坐标系下的绝对坐标会导致算法的泛化性较差在二对一机动决策中我方战机的状态不但包括每架战机归一化后的位置、姿态角等信息还包括战机之间的相对

11、态势信息大多数研究中战机的状态通常仅包括其与友机的相对关系和其与敌机的相对关系本文加入友机与敌机的相对关系使我机更容易感知到友机的协作关系以我方第架战机为例其状态的构成如表所示表状态定义状态定义/()/状态定义/()/状态定义/()/表中下标、表示我方参数下标表示敌方参数为我方第架战机与敌方单机的相对距离和分别为敌方单机相对我方第架战机距离矢量的方向角和高低角和的定义与之类似我机速度矢量、敌机速度矢量和距离矢量是描述敌我相对态势的关键因素也是我方机动决策的重要依据当以控制量的变化量来表示的动作时状态设计应加入其控制量才能获得有效的机动策略状态应进行

12、归一化以避免各量之间的数量级差异对神经网络的收敛性造成影响.动作空间机动决策是根据当前态势选取最优控制量使得空战态势朝有利于我方的趋势变化深度强化学习应用于机动决策时需要结合实际情况设计具体的机动动作战机的机动动作选取攻角、滚转角和油门参数的变化量组合()其中个控制量在一个决策周期内的变化量取值范围分别为、和控制量变化量的取值范围可以结合决策时间间隔和攻角、滚转角、油门参数的实际变化快慢程度综合考虑避免攻角、滚转角出现剧烈振荡的现象更加符合实际飞行情况.奖励函数奖励函数通常包括离散型奖励和连续型奖励离散型奖励在处于绝对优势或劣势时给予其较大的奖励或惩罚连续型奖励函数在整

13、个对抗过程中的每一个决策步获得引导向着战胜敌机的态势飞行.一对一空战奖励函数()离散型奖励函数攻击奖励:我方达成攻击态势时获得奖励不需要持续个决策周期同理敌方达成攻击态势时得到相应的惩罚:()失速惩罚:避免因失速而坠毁限制其最小速度:()飞行范围惩罚:避免超出安全飞行高度或对抗区域边界规范其飞行范围:()式中:为水平方向的运动范围为的安全飞行高度区间碰撞惩罚:避免友机之间的相互碰撞限制其相对距离:()式中:为空空导弹的离轴发射角进入角优势:当进入角为时我机处在敌机的正后方敌机最不容易摆脱导弹的打击当进入角为时敌机速度指向我机威胁较大表达式为()距离优

14、势:目的是引导我机靠近敌机使敌机处于空空导弹的射程内定义为 ()式中:为空空导弹攻击距离速度优势:当我机的速度大于敌机的速度时能迅速摆脱敌方威胁并抢先对敌方形成攻击威胁定义为.()式中:分别为我机和敌机的速度高度优势:高度增加时战机能将重力势能转化为动能提高飞行速度当我机与敌机高度差增大高度优势也增大定义为 ()/()/()式中:为我机和敌机的高度差结合各指标的优势函数连续型奖励函数定义为 ()式中:分别为方位角、进入角、相对距离、相对速度、相对高度优势函数的权重因子权重因子应根据空战态势适时调整当相对距离较近且进入角较大时应提高进入角优势函数的权重以摆脱对方的威

15、胁各优势函数的权重设置如表所示表各优势函数的权重设置权重 /.其他.()一对一空战综合奖励函数综上一对一空战的综合奖励函数为 ().多对一空战奖励函数多对一空战场景的奖励函数可以在一对一场景的基础上设计为使能够感受到友机协助带来的优势提升获得的奖励还应包括友机获得的奖励设我方共有架战机则我方第架战机的奖励函数为 ()式中:为友机的奖励提升因子为我方第架战机对敌方单机的奖励函数按照一对一场景的奖励函数计算当时表示战机完全忽略友机的奖励提升我方多机无协同当时友机的奖励与战机自身的奖励同等重要协同程度高当时自身的奖励所占比重高于友机的奖励的值越

16、小友机的奖励提升程度越小视距内协同空战机动决策求解框架.结构是对的优化为使其能适用于多智能体场景从而发展出其结构如图所示与相似每个智能体()包括演员()模块和评论家()模块模块实现与环境的交互直接输出确定性动作模块对模块的策略进行评估并指导策略提升在多智能体场景中每个的策略都在更新迭代导致环境针对一个特定的是动态不稳定的无法仅通过改变其自身的策略来适应动态不稳定的环境为使智能体在机动对抗中更容易表现出合作行为采用集中式训练集中式执行的框架来搭建模型在训练过程中需要获取其他的观测和动作信息训练完成后执行时仍要获取友方的观测才能更好地感知到与

17、友方合作带来的优势提升从而使多智能体能够发现复杂的协同策略图集中式结构图.图中算法分别为每个训练一个单独的与和分别为各的观测和动作.暂时参数冻结机制和经验回放池结构暂时参数冻结机制中模块包含一对结构完全相同的估计()神经网络和目标()神经网络模块包含两对结构完全相同的神经网络和神经网络引入网络是为了减小时间差分张栋等:基于的视距内协同空战机动决策误差()计算时目标价值和估计价值的相关性增加算法训练的稳定性网络通过周期性地对网络的参数进行复制在训练中协助网络的更新网络参数采用软策略更新机制每次训练后都以一个较小的比例朝着网络靠近计算式为()(

18、)式中:为网络的参数为网络的参数为更新率经验回放池用于记录在线学习所获取的历史经验所有共享一个经验回放池每条样本的结构为()分别表示各的状态、动作、奖励和下一时刻的状态其中的状态为 ()训练神经网络的参数时从经验回放池中随机抽取一定数目的历史经验利用随机梯度下降等方法进行基于批处理的学习优化使得参数能更好地符合训练集数据基于经验回放池的随机采样打破了一个回合中决策过程前后之间的相关性更符合深度学习中数据样本独立同分布的假设提升了训练的稳定性.网络训练中各的训练过程和相似如图所示中心化模块的输入除了自身的观测和动作信息外还包括其他的观测和动作信息

19、输出联合动作值函数每个通过自己的观测并接收其他的观测使用自己独立的输出确定性动作图各的算法结构.第个的模块使用训练网络的参数模块使用两个网络来计算下一时刻的动作值函数并通过选取两者间的最小值作为两套网络的更新目标以改善值函数的过估计问题:()()()()()()()式中:为奖励折扣因子为当前时刻所有的联合状态为当前时刻的联合动作为下一时刻的联合状态()为当前联合状态和动作下智能体的奖励为下一时刻的联合动作()为第个智能体第个网络当前时刻的联合动作值函数()和()分别为两个网络下一时刻的联合动作值函数()为两者的较小值第个智能体模块的网

20、络仍然通过最大化联合动作值函数来进行训练因此损失函数为联合动作值函数的均值因为神经网络的训练通常是最小化损失函数所以其计算式前加上一个负号:()()为减少模块向错误方向的无效更新应降低的更新频率更新若干次后才进行更新为得到更准确、更健壮的目标值估计训练时对目标策略的输出加入随机噪声计算式为 ()()式中:为网络输出的确定性部分为均值为、方差为的高斯随机噪声.双探索机制在模块输出的确定性动作上附加一个随机数以增加对空战状态空间的探索对于动作为连续空间的强化学习通常使用高斯策略表达式为 ()()式中:为网络输出的确定性部分为均值为、方差为的高斯随机噪声采

21、用双探索机制来平衡探索与利用的关系大部分回合使用探索策略其占主导地位即训练过程中高斯分布的方差由初始值逐渐衰减直到预先设定的最小值训练前期探索行为较多有效的动作决策将获得更多的奖励错误的动作决策将得到惩罚训练后期探索行为较少有利于缩小寻优范围继续学习最优的机动策略少部分回合使用探索策略其作为辅助即训练过程中持续保持较大概率的探索行为高斯分布的方差始终为初始值.二对一视距内空战机动决策步骤我方双机分别以框架选取机动动作通过相互配合来对抗敌方单机以夺取空战胜利决策步骤如图所示与一对一空战相比二对一场景的状态空间更加庞大为了增强机动决策的准确性使用较

22、大规模的神经网络来拟合协同机动策略大规模的神经网络和以控制量变化量表示的动作设计将导致收敛缓慢甚至不收敛的问题针对此问题采用启发式引导和分阶段训练的方法来改善算法的收敛性采用分阶段训练让算法先解决简单的任务当算法学习到一定策略后再增大任务的难度继续训练利用强化学习的经验回放池可以存储其他决策方法产生的经验样本从而在训练中吸收其他方法的优点训练的初期可以采用其他决策方法选择动作得到环境的奖励并与状态一起存入经验回放池如此便可以让具有较大规模神经网络的强化学习算法解决复杂的决策问题航空兵器年第卷第期初始化所有的网络参数:拷贝赋值网络的参数:初始化经验回放池

23、初始化高斯分布初始化所有战机的参数获取全局状态由状态输出动作施加随机误差得:对环境执行动作获取奖励和下一时刻全局状态将经验()存入经验回放池更新全局状态:从经验回放池抽取样本更新的网络参数:软策略更新的网络参数:()图基于的二对一空战机动决策方法.仿真分析.参数设置仿真中敌我双方的对抗区域边界限制为双方战机性能相同空空导弹发射距离约束离轴发射角约束最大速度 /最小速度 /质量参考截面积.空气密度 ./和模块的学习率均为.衰减率 .网络的软策略更新参数 .经验回放池容量为每次从中抽取条样本进行训练攻角、滚转角和油门的

24、随机噪声初始高斯分布分别为:(.)(.)(.)各的网络结构相同如表所示表的网络结构网络层神经单元数激活函数输入层(状态)隐藏层隐藏层隐藏层隐藏层输出层(动作)表的网络结构网络层神经单元数激活函数输入层(状态动作)隐藏层隐藏层隐藏层隐藏层输出层(状态动作值函数)综合考虑决策的实时性和机体操控的稳定性每隔对抗双方同时进行一次机动动作选择每执行步进行一次训练达到回合的最大步数或胜负终止条件则本回合结束执行下一回合的训练我方每架的奖励函数中友机的奖励提升因子训练过程分为初始训练阶段和对抗训练阶段初始训练阶段直到回合最大步数限制才终止先让我方双机跟

25、随直线飞行的敌机学习初步的机动策略再跟随螺旋飞行的敌机以适应敌机速度矢量的变化对抗训练阶段加入敌机的机动策略进行对抗仿真任意一架达到攻击条件便终止回合经测试采用本文的动作设计方法如果不采用启发式引导的方法训练过程中模块的动作输出同质化严重导致算法无法收敛初始训练阶段中部分回合我机使用算法按照一对一场景的研究方法做出决策生成有效样本来指导神经网络的训练敌方单机采用遍历试探法从基本动作集中选取动作进行对抗每个控制量的变化量有种取值分别为()、(.)和 (.)排列组合得到种基本动作敌机决策时假设我方双机位置保持不变以当前待选动作执行后更新的相对态势来

26、评估该动作的优劣态势评估中敌机对我方每架战机的综合奖励各占一半根据一对一空战的奖励函数计算.初始训练阶段训练的个回合令敌机沿固定水平直线匀速飞行我方双机的初始位置在以敌机初始位置为圆心、半径为的部分圆周上随机生成速度为 /航向指向敌机航迹倾角为攻角为.滚转角为油门系数为训练完成后某回合中我方双机的机动轨迹如图所示图敌机直线飞行.张栋等:基于的视距内协同空战机动决策由图可知我方双机从任意位置出发均能迅速绕到敌机后方形成攻击态势并稳定保持绝对有利态势直到最大步数而终止引入此训练阶段的主要目的是让每架均能学习到对敌机形成攻击态势的初步智能水平训练的个

27、回合令敌机以固定的初始位置、随机的初始航向角、固定的航迹倾角大小向下或向上螺旋飞行我方双机初始位置分别为(.)和(.)速度均为 /航迹偏角均为航迹倾角均为攻角均为.滚转角均为油门系数均为训练完成后某回合的机动轨迹如图所示图敌机螺旋飞行.由图可知敌机以随机初始航向进行螺旋飞行时我方双机均能跟随在敌机侧后方保持绝对优势的态势直到回合最大步数引入此训练阶段的主要目的是让每架均能适应敌机飞行方向的变化学习到对敌机持续保持攻击态势的智能水平.对抗训练阶段训练的后个回合敌方单机以遍历试探法选取动作进行机动对抗敌机的初始位置恒定为(.)速度为/航迹偏角指向我方双机编队的

28、中心航迹倾角为攻角为.滚转角为油门系数为我方双机的初始位置在以敌机初始位置为圆心、半径为的圆周上随机生成圆心角相差速度均为/航迹偏角指向敌机航迹倾角均为攻角均为.滚转角均为油门系数均为初始阶段的训练过程中直到回合最大步数限制才终止训练导致算法虽然有协同机制但我方战机决策时却强行忽略了友机协同的优势提升各自争取对敌机的有利态势对抗阶段的训练过程中任意一架被击毁便终止回合友机的奖励和惩罚均会对另一架造成较大的影响此时双机能逐渐学到一些协同策略训练完成后某回合的对抗轨迹如图所示我方双机学习到的战术类似于分散夹击战术先散开再分别从两侧夹击敌机只要敌机偏

29、向于其中一方另一方便能抓住机会迅速达成攻击条件将敌机击落刨除初始训练阶段和使用探索策略的训练回合对抗训练阶段我方双机奖励之和的平均值及胜负概率变化趋势如图所示由图可知随着对抗训练的进行我方的获胜概率逐渐提升双机所获得的平均奖励也在波动上升最终我方双机编队的胜率可达以上因此在相同的优势函数及权重因子下基于的双机机动决策能表现出一定的协同行为相互配合率先达到攻击条件并击落敌机图二对一空战对抗轨迹.图二对一空战训练结果.交替冻结博弈为获得普适性更强的协同机动策略敌机使用个独立训练的与我方双机对抗并进行交替训练(训练一方的策略时另一方的参数固定)为减轻

30、“红皇后效应”的影响将敌机各独立决策算法每个训练阶段获得的策略储存我方训练时敌机每回合在已有策略集()()()中随机选取一个策略进行对抗使得我方的协同策略能够适应不同对手各个时期的策略在交替训练过程中处于训练阶段的策略通过不断迭代总能以较高的概率战胜非训练阶段的策略经过若干轮交替训练我方双机对敌方不同种类、不同时期的策略均能保持较高的对抗成功率某回合中的对抗轨迹如图所示我方双机先散开再从两侧夹击号机扰乱了敌方对空战航空兵器年第卷第期态势的判断号机则趁机绕到敌机侧后方将其击落可知分散夹击是二对一空战中一种十分有效的战术图交替博弈空战轨迹.结论本文采用研究

31、了高动态和强对抗环境下的多机协同控制机动决策问题构建了基于的多机协同机动决策框架提升了多机协同空战过程中协同的作战的效能主要结论包括:()通过优化状态空间和设计奖励函数以感知友机的优势提升多智能体的合作行为主要通过对友机和敌机的观测以及感知友机的奖励来获得()通过引入双探索机制、采用分阶段训练、启发式引导以及交替冻结博弈等方法可以充分挖掘机动决策框架的性能双探索机制平衡探索与利用的关系分阶段训练和启发式引导改善算法的收敛性交替冻结博弈提高决策的普适性二对一空战的仿真结果表明生成的机动策略环境适应性强能在对抗中表现出明显的协同行为充分发挥多机作战的协同优势具有重要的潜

32、在应用价值参考文献:李世豪丁勇高振龙.基于直觉模糊博弈的无人机空战机动决策.系统工程与电子技术 ():.():.().():.():.():.:.周思羽王庆超王子健等.基于集结算法的多机协同空战机动决策方法.飞机设计 ():.():.().():.李建勋佟明安金德琨.协商微分对策理论及其在多机空战分析中的应用.系统工程理论与实践 ():.():.()左家亮张滢杨任农等.中距协同空战决策过程二次聚类重构与评估.系统工程与电子技术 ():.():.()奚之飞徐安寇英信等.多机协同空战机动决策流程.系统工程与电子技术 ():.():.().:.():.():.袁唯淋.基于

33、多智能体强化学习的超视距空战决策方法研究.长沙:国防科技大学:.:.()左家亮杨任农张滢等.基于启发式强化学习的空战机动智能决策.航空学报 ():.():.()韩统崔明朗张伟等.多无人机协同空战机动决策.兵器装备工程学报 ():.张栋等:基于的视距内协同空战机动决策 ():.()孙彧李清伟徐志雄等.基于多智能体深度强化学习的空战博弈对抗策略训练模型.指挥信息系统与技术():.():.()李世豪.复杂空战环境下基于博弈模型的无人机机动决策方法研究.南京:南京航空航天大学:.:.().():.杜海文崔明朗韩统等.基于多目标优化与强化学习的空战机动决策.北京航空航天大学学报 ():.():.().():.():.():.王杰丁达理陈诚等.导弹攻击状态评估下的试探机动决策.哈尔滨工业大学学报 ():.():.()./.().:./.:.():()().:航空兵器年第卷第期

展开阅读全文