基于深度Q网络的近距空战智能机动决策研究.pdf

资源描述

1、引用格式:张婷玉孙明玮王永帅等.基于深度网络的近距空战智能机动决策研究.航空兵器 ():.():.()基于深度网络的近距空战智能机动决策研究张婷玉孙明玮王永帅陈增强(.南开大学人工智能学院天津 .天津市智能机器人重点实验室天津)摘要:针对近距空战对抗中无人机机动决策问题本文基于深度网络()算法的框架对强化学习奖励函数设计以及超参数的选择问题进行了研究对于强化学习中的稀疏奖励问题采用综合角度、距离、高度和速度等空战因素的辅助奖励能够精确描述空战任务正确引导智能体的学习方向同时针对应用强化学习超参数选择问题探究了学习率、网络节点数和网络层数对决策系统的影

2、响并给出较好的参数选择范围为后续研究参数选择提供参考空战场景的仿真结果表明通过训练智能体能够在不同空战态势下学习到较优的机动策略但对强化学习超参数较敏感关键词:空战自主机动决策深度强化学习奖励函数智能机动参数选择中图分类号:.文献标识码:文章编号:():./.引言伴随着现代战争的信息化和智能化空战战场上使用无人机的趋势日益明显无人作战飞机()逐渐成为未来空战的主力武器目前大多采用地面人员遥控的作战模式很难适用于复杂多变的空战环境因此提升的智能化水平是打赢未来空战的军事需求飞行器自主机动决策技术是提高空战自主能力与智能化水平的关键技术能够准确感知空战环

3、境并生成合理机动决策的自主机动决策方法是各国军事技术的研究重点现有的空战决策方法分为两类:一类是非学习策略另外一类是自学习策略非学习策略的求解过程主要采用优化理论包括专家系统、微分对策、矩阵博弈等方法而自学习空战决策方法的核心是用智能算法对空战决策过程建模并根据训练产生的经验对决策模型参数进行优化典型的自学习策略算法包括遗传算法、动态规划算法和强化学习算法等丁林静等人采用动态模糊学习模型提出了基于强化学习的无人机空战机动决策方法但由于空战问题的复杂性使传统强化学习算法无法解决连续状态空间问题会存在维度限制问题近年来深度强化学习在多种决策问题中均有一定突破为解决空战对抗

4、中飞行器机动决策问题提供了新思路目前深度强化学习在空战对抗中的运用主要有基于值函数的学习方法和基于策略搜索的方法张强等人提出一种基于强化学习的超视距空战机动决策方法等应用()算法研究了二维平面的空战机动决策问题针对算法初始随机探索效率低的缺点提出利用专家知识提高探索效率加快训练时间等基于()算法构建空战决策系统针对算法缺少空战先验知识、导致数据利用率低的问题提出向经验池加入已有机动决策系统的样本数据加快算法收敛速度吴宜珈等通过改进()算法优化策略选择过程提高决策效率上述文献主要关注对深度强化学习算法的改进对于适用于一对一空战的奖励函数以及强化学习超参数选

5、择问题没有过多研究在深度强化学习方法应用过程中超参数的整定以及超参数的调整是否会带来性能的影响是一个值得研究的问题本文针对三维空间中无人机一对一近距对抗问题开展研究采用强化学习框架对空战问题进行建模针对强化学习的稀疏奖励问题考虑加入能够准确描述空战任务的辅助奖励设计一对一空战的机动决策奖励提出了基于算法的自主机动决策方法针对深度强化收稿日期:基金项目:国家自然科学基金项目()作者简介:张婷玉()女河北衡水人硕士研究生通信作者:孙明玮()男北京人教授年第卷第期年月航空兵器 .学习超参数选取问题探究超参数对决策系统的影响并设置空战场景进行仿真验证机动决策

6、方法的有效性空战机动决策问题描述及建模.近距空战问题描述空战问题可用环描述即完成空战的观察()、判断()、决策()和执行()回路(简称回路)结合回路描述自主空战被定义为在瞬息万变的复杂战场环境中感知并认知战场态势和目标意图对武器和机动动作快速做出最优的决策策略并控制飞机精确执行机动指令空战决策是自主空战的核心本文所研究的空战场景为近距一对一空战如图所示图一对一空战场景.一对一空战机动决策的目的是在双方交战过程中使我方尽量处于空战态势的优势地位即尽可能让敌方进入我方的武器攻击区域同时避免自身落入敌方的武器攻击区域典型的武器攻击区域是攻击机的前方一定距离和角度的锥形

7、范围.运动学模型飞行器的运动学模型是空战机动决策模型的基础本文研究的重点是机动策略不考虑姿态等故将飞行器看作三维空间中的一个质点采用三自由度质点模型基于动力学基本定理飞行器在惯性坐标系下的三自由度质点运动模型为 ()()()式中:为飞行器的速度为飞行器质心在惯性坐标系中的坐标值为飞行器的俯仰角、航向角和滚转角为切向过载表示飞行器在速度方向上受到的推力与自身重力的比值为法向过载提供飞行器所需的升力本文所选取飞行器机动模型的控制量为基于的机动决策方法.系统框架深度网络()是将传统强化学习方法与深度神经网络相结合的一种算法用深度神经网络代替表解决了表存储限制问题

8、引入目标网络来计算目标值采用暂时参数冻结的方法切断网络更新时的相关性有效避免了估计值不收敛的问题算法的框架如图所示图算法框架.空战格斗的机动决策是一个序贯决策过程强化学习正是一种求解序贯决策问题的优化方法故将机动决策问题建模为连续状态空间和离散动作空间的强化学习问题强化学习算法为无人机进行动作选择我机与目标机的状态形成空战环境的描述当前空战态势的评估结果返回强化学习算法中决策系统的框架如图所示图机动决策系统框架.的强化学习环境构建.状态空间本文选择空战态势信息作为状态变量它将为无人作战飞机机动决策提供必要的信息支撑空战态势信息的几何关系如图所示状态变量包括

9、我机与目标机距离、我机与目标机的距离变化率、我机方位角、我机进入角、两机的速度方向的夹角、两机的飞行高度差以及两机的航空兵器年第卷第期飞行速度差除态势信息外还引入我机的当前飞行高度和飞行速度作为状态变量因此本文设计的系统状态空间向量为图空战态势几何关系.动作空间飞行器的机动过程可视作一些基本机动动作的组合因此本文选择由美国提出的“基本机动动作库”作为动作空间其包括个基本操纵方式:定常飞行、加速、减速、左转、右转、向上拉起和向下俯冲飞行器可通过连续多步的基本动作选择从而组合出不同战术动作飞行器机动动作的控制量为切向过载、法向过载和滚转角考虑飞行器结构特性对过载

10、的限制本文切向过载的取值范围为法向过载的取值范围为滚转角的取值范围为 /实际每次执行机动动作过程中均采用最大过载机动动作所对应的控制指令如表所示表基本机动动作的控制指令动作编号机动动作切向过载法向过载滚转角定常加速减速左转弯/右转弯/拉起俯冲.奖励函数忽略武器攻击误差等因素设定当两机距离小于武器攻击范围方位角小于武器最大攻击角度且进入角小于时达到目标状态可获得最终奖励:()为了避免飞行器在飞行过程中失速、飞行过低或过高、远离目标或与目标发生碰撞本文设置来自于环境的惩罚函数:()()()()式中:为我机的飞行高度为我机飞行的速度智能体未完成任务目标时无法获得

11、最终奖励对于强化学习中的稀疏奖励问题本文设计了辅助奖励来评价智能体的策略辅助奖励的好坏将直接影响强化学习算法的性能因此辅助奖励要精确地描述任务的目标在无人机空战对抗中空战态势是实时变化的可将其量化为实时的优势函数来评估无人机的每一个机动动作并作为辅助奖励引导智能体的学习方向首先基于状态信息建立一对一空战的优势函数从角度、距离、高度、速度四个方面对我方无人机相对于目标机的态势优劣程度进行综合评估详细描述如下()角度优势函数空战中尾追态势是优势背向或相向飞行认为处于均势被尾追时处于劣势敌我双方占据优势时的角度关系如图所示图角度态势示意图.当我机方位角为时我机占

12、据最大攻击优势当我机进入角为时目标机处于最不易逃脱我方武器攻击的位置当与逐渐增大时目标机将逐步开始对我机产生攻击威胁本文设计角度优势函数为()()()距离优势函数距离优势函数与飞行器的武器射程有关当目标机与我机的距离在武器射程范围之内时距离优势较大距离越远距离优势越小本文设计距离优势函数为()()()式中:为标准差()高度优势函数空战中认为飞行器处于较高位置具有优势合理范围内的高度优势有利于飞行器进行空间位置和姿态的张婷玉等:基于深度网络的近距空战智能机动决策研究调整同时重力势能也可以转换为动能获取更高的飞行速率本文的高度优势函数定义为()()式中:为两机的高

13、度差为最佳攻击高度差的标准差()速度优势函数空战中武器设计的相对于目标的最佳攻击速度为()()()式中:为目标机的速度大小为飞行器的最大速度在此基础上设计速度优势函数为()()以上个方面的优势函数均归一化到之间当四个优势函数都接近于时说明飞行器在空战中处于优势位置综合方面的态势分析将综合空战实时优势函数定义为各因素优势函数的加权和即()()式中:分别是角度、距离、高度、速度优势函数的权重系数各个权重系数的满足如下定义:()在不同的空战态势下各因素对空战的影响不同各权重大小也分配不同在距离较远时首要任务是接近目标故距离和速度权重较大进入攻击距离后任务是占据有利

14、攻击位置角度权重将更大本文设置当时.其余情况下.无人机的空战综合优势函数取值范围为在其基础上叠加奖励和惩罚以明确学习的导向并加速智能体的学习本文设定了阈值和当优势函数大于阈值时表示我机进入优势地位系统给予额外奖励值当优势函数小于阈值时表示我机处于劣势位置系统给予额外惩罚辅助奖励值计算如下:()式中:初始概率参数为为衰减率本文设置为.为训练次数本文设置在空战决策训练中智能体通过算法进行机动决策以目标值构建的网络训练的损失函数为()()()()式中:为动态更新的参数为固定时间更新的参数用随机梯度下降的方式更新参数综合建立的强化学习环境、神经网络结

15、构及探索策略本文提出基于深度学习的机动决策算法算法描述了基于深度学习的机动决策算法过程算法:基于深度学习的飞行器机动决策过程输入:状态空间动作空间初始神经网络训练参数输出:网络参数:初始化经验回放缓冲区容量为:初始化在线网络及随机权重:初始化目标网络 :初始化 :初始化状态双方飞行器的状态获取当前态势:为的倍数:进行评估评估时 :航空兵器年第卷第期:以的概率从个基本动作中随机选择一个动作否则选择动作 ():执行动作得到奖励进入下一状态 :将存储到中判断该空战回合是否结束:从中随机抽取一批样本 :定义 ():令达到目标状态()未达目标状

16、态:根据目标函数()使用梯度下降法更新权重:每隔轮更新目标网络:逐步减小的值直至:仿真与分析.强化学习超参数探究在目标飞行器进行匀速直线运动且双方初始相向飞行的场景下探究强化学习超参数对机动决策的影响.学习率学习率决定目标函数能否收敛以及何时收敛本文在网络结构不变且三个隐藏层均为个节点的情况下探究学习率对机动决策系统的影响由于计算机性能限制训练耗费时间较长仅选择三组对照所设置的三个实验组的学习率分别是.、.以及.各学习率学习曲线如图所示横坐标为训练次数纵坐标为用回合计算平均值进行平滑后的累计奖励值结果表明学习曲线整体均呈上升趋势学习率影响收敛速度当 .时

17、在训练次数大于次后奖励值下降成为负值当 .时未出现收敛趋势且奖励值为负值说明智能体尚未探索出较好的机动策略当 .时奖励值随训练次数增加逐步提高且有收敛趋势可见学习率过低会延长训练时间学习率过高可能会达到局部最优结果或发散因此针对飞行器机动决策问题学习率设置为.较为合理图学习率学习曲线对比.神经网络节点在深度神经网络输入层及输出层结构不变且均为个隐藏层的情况下探究节点数对决策系统性能的影响一般情况神经网络节点数设置为的次方另外在深度学习中设置倍数关系的节点数才会有区别因此三个实验组的隐藏层节点数分别是、和三个实验组的学习曲线如图所示实验结果表明节

18、点数将会影响收敛速度或者是否收敛同时神经网络宽度越大也会耗费更长的训练时间学习曲线均有收敛趋势第二组收敛速度更快强化学习的训练数据比监督学习稳定性低无法划分出训练集与测试集来避免过拟合因此深度强化学习无需用过宽的网络避免参数过度冗余导致过拟合用深度强化学习解决空战中飞行器的机动决策问题时节点数可选择或图网络节点数学习曲线对比.神经网络层数在深度神经网络的输入层及输出层结构不变且每个隐藏层均为个节点的情况下探究神经网络层数对机动决策系统的影响设计三个实验组的隐藏层数分别是层、层和层三个实验组的学习曲线如图所示图网络隐藏层数的学习曲线对比.由图可知层隐藏

19、层的神经网络有收敛趋势层和层的神经网络则没有明显的收敛趋势可能出现过拟合情况由仿真可知隐藏层数对决策系统收敛性影响较大因此解决空战机动决策问题时可使用有层隐藏层的深度神经网络.仿真结果与讨论目标机进行匀速直线运动的场景下设置目标飞行器一直采取定常飞行的机动动作对我方无人机进行强化学习训练我机分别以均势和劣势的初始状态进行机动均势初始状态指双方相互朝向对方劣势初始状态指目标机从后方追赶我机初始状态设置如表所示张婷玉等:基于深度网络的近距空战智能机动决策研究表双方初始状态设置 /(/)/()/()均势我方目标劣势我方目标首先设置双方相对飞行初始态势为

20、均势记录每个回合对战训练的飞行数据通过绘图可视化交战双方的飞行轨迹可更加直观地展示机动决策结果经过训练智能体能够探索出针对当前初始态势较好的机动策略轨迹如图所示初始时双方为相向飞行我方飞行器在目标向我方靠近时采取拉升高度的机动动作主动脱离目标机的武器攻击区域而后通过筋斗动作调转方向朝向目标机飞行降低高度接近目标机调整机头方向进入优势攻击位置图直线飞行训练结果(初始状态为均势).()在初始态势为劣势的情况下智能体经过训练后选择的飞行策略如图所示初始时目标机位于我机后方我方无人机初始处于劣势且飞行高度低于目标机我方通过机动决策首先拉升高度以脱离目标机武器

21、攻击范围的同时获得重力势能优势而后进行“筋斗”翻转绕至目标后方从而转变了空战态势使我机处于优势攻击角度再降低高度接近目标使得目标机进入我方的武器攻击范围成功锁定目标机该机动决策符合空战中真实的无人机格斗战略图直线飞行训练结果(初始状态为劣势).()在目标机进行盘旋机动的场景下设置目标机始终采取向右水平盘旋机动动作双方的初始状态与直线飞行均势初始场景的设置相同图展示了部分回合的双方飞行轨迹在训练前期智能体处于随机探索阶段可能会飞出限定高度或者失速等环境会给予较大的惩罚通过与环境的不断交互智能体能够逐渐探索出获得奖励值较高的决策策略图()中智能体一直采取定常飞

22、行的策略获得累计回报较低在后续训练中智能体尝试抬升高度并调转机头方向等动作如图()()所示有逐步向目图部分飞行轨迹.航空兵器年第卷第期标方向飞行的趋势能够探索出较为合理的飞行策略但效果尚不理想以上个情景的仿真表明:无人机的动作选择策略在经训练后能够依据态势输出较为合理的连续动作控制量对不同的情景及初始态势决策效果有所不同但均具有适应性具备一定空战能力由表和仿真结果可知采用确定的控制指令对飞行器进行训练能保证基本任务完成而难以在复杂场景中取得明显优势为提升复杂飞行场景下该算法的优越性后续将考虑采用连续动作空间丰富机动动作的控制指令同时通过采取同一实验场景

23、的超参数取值对不同场景进行测试由图可以看出该超参数取值的训练结果在目标机匀速直线飞行的场景中更具飞行优势结果表明强化学习超参数选择较为合理且具有一定的适应能力能适用于多种飞行场景一定程度上能够解决超参数整定繁冗问题此外超参数对不同场景的适应能力问题仍值得进一步探索结论本文针对三维空间中的一对一空战机动决策问题进行了研究将机动决策问题建模为连续状态空间以及离散动作空间的强化学习问题设计奖励函数并提出了基于深度网络的机动决策方法仿真结果表明该方法能够在简单场景下探索出较合理的机动策略但对学习率等强化学习超参数较敏感未来工作及改进方向有:()构建目标机的机动决策

24、系统使其也具备自主决策能力更加符合真实空战场景()机动决策系统的动作空间可采用更加符合真实飞行员操纵动作的连续动作空间参考文献:姜进晶汪民乐姜斌.无人机作战运用研究.飞航导弹():.():.()范晋祥陈晶华.未来空战新概念及其实现挑战.航空兵器 ():.():.()鲜勇李扬.人工智能技术对未来空战武器的变革与展望.航空兵器 ():.():.()孙智孝杨晟琦朴海音等.未来智能空战发展综述.航空学报 ():.():.().:.:.:/.:.:/.:.():.邓可彭宣淇周德云.基于矩阵对策与遗传算法的无人机空战决策.火力与指挥控制 ():.():.().:.():.丁林静杨啟

25、明.基于强化学习的无人机空战机动决策.航空电子技术 ():.():.()张强杨任农俞利新等.基于强化学习的超视距空战机动决策.空军工程大学学报:自然科学版():.:():.().():.:.吴宜珈赖俊陈希亮等.强化学习算法在超视距空战辅助决策上的应用研究.航空兵器 ():.():.()吴昭欣.基于深度强化学习的飞行器自主机动决策方法研究.成都:四川大学.张婷玉等:基于深度网络的近距空战智能机动决策研究:.().:.:.董肖杰余敏建宋帅.空战机动动作库及控制算法设计研究第五届中国指挥控制大会论文集:.:.()李永丰史静平章卫国等.深度强化学习的无人作战飞机空战机动决策.哈尔滨工业大学学报 ():.():.()(.):.:航空兵器年第卷第期

展开阅读全文