收藏 分销(赏)

基于深度Q网络的近距空战智能机动决策研究.pdf

上传人:自信****多点 文档编号:578296 上传时间:2024-01-02 格式:PDF 页数:8 大小:4.62MB
下载 相关 举报
基于深度Q网络的近距空战智能机动决策研究.pdf_第1页
第1页 / 共8页
基于深度Q网络的近距空战智能机动决策研究.pdf_第2页
第2页 / 共8页
基于深度Q网络的近距空战智能机动决策研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、引用格式:张婷玉 孙明玮 王永帅 等.基于深度 网络的近距空战智能机动决策研究.航空兵器 ():.():.()基于深度 网络的近距空战智能机动决策研究张婷玉 孙明玮 王永帅 陈增强(.南开大学 人工智能学院 天津 .天津市智能机器人重点实验室 天津)摘 要:针对近距空战对抗中无人机机动决策问题 本文基于深度 网络()算法的框架 对强化学习奖励函数设计以及超参数的选择问题进行了研究 对于强化学习中的稀疏奖励问题 采用综合角度、距离、高度和速度等空战因素的辅助奖励 能够精确描述空战任务 正确引导智能体的学习方向 同时 针对应用强化学习超参数选择问题 探究了学习率、网络节点数和网络层数对决策系统的影

2、响 并给出较好的参数选择范围 为后续研究参数选择提供参考 空战场景的仿真结果表明 通过训练智能体能够在不同空战态势下学习到较优的机动策略 但对强化学习超参数较敏感关键词:空战 自主机动决策 深度强化学习 奖励函数 智能机动 参数选择 中图分类号:.文献标识码:文章编号:():./.引 言伴随着现代战争的信息化和智能化 空战战场上使用无人机的趋势日益明显 无人作战飞机()逐渐成为未来空战的主力武器 目前 大多采用地面人员遥控的作战模式 很难适用于复杂多变的空战环境 因此 提升 的智能化水平是打赢未来空战的军事需求 飞行器自主机动决策技术是提高空战自主能力与智能化水平的关键技术 能够准确感知空战环

3、境并生成合理机动决策的自主机动决策方法是各国军事技术的研究重点现有的空战决策方法分为两类:一类是非学习策略另外一类是自学习策略 非学习策略的求解过程主要采用优化理论 包括专家系统、微分对策、矩阵博弈 等方法 而自学习空战决策方法的核心是用智能算法对空战决策过程建模 并根据训练产生的经验对决策模型参数进行优化 典型的自学习策略算法包括遗传算法、动态规划算法和强化学习算法等 丁林静等人采用动态模糊 学习模型 提出了基于强化学习的无人机空战机动决策方法 但由于空战问题的复杂性使传统强化学习算法无法解决连续状态空间问题 会存在维度限制问题近年来 深度强化学习在多种决策问题中均有一定突破 为解决空战对抗

4、中飞行器机动决策问题提供了新思路 目前 深度强化学习在空战对抗中的运用主要有基于值函数的 学习方法和基于策略搜索的 方法 张强等人提出一种基于 强化学习的超视距空战机动决策方法 等应用()算法研究了二维平面的空战机动决策问题针对 算法初始随机探索效率低的缺点 提出利用专家知识提高探索效率 加快训练时间 等基于()算法构建空战决策系统 针对 算法缺少空战先验知识、导致数据利用率低的问题 提出向经验池加入已有机动决策系统的样本数据 加快算法收敛速度 吴宜珈等通过改进()算法 优化策略选择过程 提高决策效率 上述文献主要关注对深度强化学习算法的改进 对于适用于一对一空战的奖励函数以及强化学习超参数选

5、择问题没有过多研究 在深度强化学习方法应用过程中 超参数的整定以及超参数的调整是否会带来性能的影响 是一个值得研究的问题本文针对三维空间中无人机一对一近距对抗问题开展研究 采用强化学习框架对空战问题进行建模 针对强化学习的稀疏奖励问题 考虑加入能够准确描述空战任务的辅助奖励 设计一对一空战的机动决策奖励 提出了基于 算法的自主机动决策方法 针对深度强化收稿日期:基金项目:国家自然科学基金项目()作者简介:张婷玉()女 河北衡水人 硕士研究生通信作者:孙明玮()男 北京人 教授 年第 卷第 期 年 月 航空兵器 .学习超参数选取问题 探究超参数对决策系统的影响并设置空战场景进行仿真 验证机动决策

6、方法的有效性 空战机动决策问题描述及建模.近距空战问题描述空战问题可用 环描述 即完成空战的观察()、判断()、决策()和执行()回路(简称 回路)结合 回路描述 自主空战被定义为在瞬息万变的复杂战场环境中感知并认知战场态势和目标意图 对武器和机动动作快速做出最优的决策策略 并控制飞机精确执行机动指令 空战决策是自主空战的核心 本文所研究的空战场景为近距一对一空战 如图 所示图 一对一空战场景.一对一空战机动决策的目的是在双方交战过程中使我方尽量处于空战态势的优势地位 即尽可能让敌方进入我方的武器攻击区域 同时避免自身落入敌方的武器攻击区域 典型的武器攻击区域是攻击机的前方一定距离和角度的锥形

7、范围.运动学模型飞行器的运动学模型是空战机动决策模型的基础本文研究的重点是机动策略 不考虑姿态等 故将飞行器看作三维空间中的一个质点 采用三自由度质点模型基于动力学基本定理 飞行器在惯性坐标系下的三自由度质点运动模型为 ()()()式中:为飞行器的速度 为飞行器质心在惯性坐标系中的坐标值 为飞行器的俯仰角、航向角和滚转角 为切向过载 表示飞行器在速度方向上受到的推力与自身重力的比值 为法向过载 提供飞行器所需的升力 本文所选取飞行器机动模型的控制量为 基于 的机动决策方法.系统框架深度 网络()是将传统强化学习方法 与深度神经网络相结合的一种算法 用深度神经网络代替 表 解决了 表存储限制问题

8、 引入目标网络来计算目标 值 采用暂时参数冻结的方法切断 网络更新时的相关性 有效避免了 估计值不收敛的问题 算法的框架如图 所示图 算法框架.空战格斗的机动决策是一个序贯决策过程 强化学习正是一种求解序贯决策问题的优化方法故将机动决策问题建模为连续状态空间和离散动作空间的强化学习问题 强化学习算法为无人机进行动作选择 我机与目标机的状态形成空战环境的描述 当前空战态势的评估结果返回强化学习算法中 决策系统的框架如图 所示图 机动决策系统框架.的强化学习环境构建.状态空间本文选择空战态势信息作为状态变量 它将为无人作战飞机机动决策提供必要的信息支撑 空战态势信息的几何关系如图 所示状态变量包括

9、我机与目标机距离、我机与目标机的距离变化率、我机方位角、我机进入角、两机的速度方向的夹角、两机的飞行高度差 以及两机的航空兵器 年第 卷第 期飞行速度差 除态势信息外 还引入我机的当前飞行高度 和飞行速度 作为状态变量 因此 本文设计的系统状态空间向量为 图 空战态势几何关系.动作空间飞行器的机动过程可视作一些基本机动动作的组合 因此本文选择由美国 提出的“基本机动动作库”作为动作空间 其包括 个基本操纵方式:定常飞行、加速、减速、左转、右转、向上拉起和向下俯冲 飞行器可通过连续多步的基本动作选择从而组合出不同战术动作飞行器机动动作的控制量为切向过载、法向过载和滚转角 考虑飞行器结构特性对过载

10、的限制 本文切向过载的取值范围为 法向过载的取值范围为 滚转角的取值范围为 /实际每次执行机动动作过程中均采用最大过载 机动动作所对应的控制指令如表 所示表 基本机动动作的控制指令 动作编号机动动作切向过载 法向过载 滚转角定常加速减速 左转弯/右转弯/拉起俯冲.奖励函数忽略武器攻击误差等因素 设定当两机距离 小于武器攻击范围 方位角小于武器最大攻击角度 且进入角小于 时达到目标状态 可获得最终奖励:()为了避免飞行器在飞行过程中失速、飞行过低或过高、远离目标或与目标发生碰撞 本文设置来自于环境的惩罚函数:()()()()式中:为我机的飞行高度 为我机飞行的速度智能体未完成任务目标时 无法获得

11、最终奖励 对于强化学习中的稀疏奖励问题 本文设计了辅助奖励来评价智能体的策略 辅助奖励的好坏将直接影响强化学习算法的性能 因此辅助奖励要精确地描述任务的目标在无人机空战对抗中 空战态势是实时变化的 可将其量化为实时的优势函数来评估无人机的每一个机动动作 并作为辅助奖励引导智能体的学习方向 首先基于状态信息建立一对一空战的优势函数 从角度、距离、高度、速度四个方面对我方无人机相对于目标机的态势优劣程度进行综合评估 详细描述如下()角度优势函数空战中 尾追态势是优势 背向或相向飞行认为处于均势 被尾追时处于劣势 敌我双方占据优势时的角度关系如图 所示图 角度态势示意图.当我机方位角 为 时 我机占

12、据最大攻击优势当我机进入角 为时 目标机处于最不易逃脱我方武器攻击的位置 当 与 逐渐增大时 目标机将逐步开始对我机产生攻击威胁 本文设计角度优势函数为()()()距离优势函数距离优势函数与飞行器的武器射程有关 当目标机与我机的距离在武器射程范围之内时 距离优势较大距离越远 距离优势越小 本文设计距离优势函数为()()()式中:为标准差()高度优势函数空战中 认为飞行器处于较高位置具有优势 合理范围内的高度优势有利于飞行器进行空间位置和姿态的张婷玉 等:基于深度 网络的近距空战智能机动决策研究调整 同时重力势能也可以转换为动能获取更高的飞行速率 本文的高度优势函数定义为()()式中:为两机的高

13、度差 为最佳攻击高度差的标准差()速度优势函数空战中 武器设计的相对于目标的最佳攻击速度为()()()式中:为目标机的速度大小 为飞行器的最大速度 在此基础上 设计速度优势函数为()()以上 个方面的优势函数均归一化到之间当四个优势函数都接近于 时 说明飞行器在空战中处于优势位置 综合 方面的态势分析 将综合空战实时优势函数定义为各因素优势函数的加权和即()()式中:分别是角度、距离、高度、速度优势函数的权重系数 各个权重系数的满足如下定义:()在不同的空战态势下 各因素对空战的影响不同各权重大小也分配不同 在距离较远时 首要任务是接近目标 故距离和速度权重较大 进入攻击距离后 任务是占据有利

14、攻击位置 角度权重将更大 本文设置当 时.其余情况下.无人机的空战综合优势函数取值范围为 在其基础上叠加奖励和惩罚 以明确学习的导向并加速智能体的学习 本文设定了阈值 和 当优势函数大于阈值 时 表示我机进入优势地位 系统给予额外奖励值当优势函数小于阈值 时 表示我机处于劣势位置 系统给予额外惩罚 辅助奖励值计算如下:()式中:初始概率参数 为 为衰减率 本文设置为.为训练次数 本文设置 在空战决策训练中 智能体通过 算法进行机动决策 以目标 值构建的 网络训练的损失函数为()()()()式中:为动态更新的参数 为固定时间更新的参数用随机梯度下降的方式更新参数综合建立的强化学习环境、神经网络结

15、构及探索策略 本文提出基于深度 学习的机动决策算法 算法 描述了基于深度 学习的机动决策算法过程 算法:基于深度 学习的飞行器机动决策过程输入:状态空间 动作空间 初始神经网络 训练参数输出:网络参数:初始化经验回放缓冲区 容量为:初始化在线 网络及随机权重:初始化目标 网络 :初始化 :初始化状态双方飞行器的状态 获取当前态势:为 的倍数:进行评估 评估时 :航空兵器 年第 卷第 期:以 的概率从 个基本动作中随机选择一个动作 否则 选择动作 ():执行动作 得到奖励 进入下一状态 :将 存储到 中 判断该空战回合是否结束:从 中随机抽取一批样本 :定义 ():令 达到目标状态()未达目标状

16、态:根据目标函数()使用梯度下降法更新权重:每隔 轮 更新目标 网络:逐步减小 的值 直至:仿真与分析.强化学习超参数探究在目标飞行器进行匀速直线运动且双方初始相向飞行的场景下 探究强化学习超参数对机动决策的影响.学习率学习率决定目标函数能否收敛以及何时收敛 本文在网络结构不变且三个隐藏层均为 个节点的情况下探究学习率对机动决策系统的影响 由于计算机性能限制 训练耗费时间较长 仅选择三组对照 所设置的三个实验组的学习率分别是.、.以及.各学习率学习曲线如图 所示 横坐标为训练次数纵坐标为用 回合计算平均值进行平滑后的累计奖励值 结果表明 学习曲线整体均呈上升趋势 学习率影响收敛速度 当 .时

17、在训练次数大于 次后奖励值下降成为负值 当 .时 未出现收敛趋势且奖励值为负值 说明智能体尚未探索出较好的机动策略 当 .时 奖励值随训练次数增加逐步提高且有收敛趋势 可见 学习率过低会延长训练时间 学习率过高可能会达到局部最优结果或发散 因此 针对飞行器机动决策问题 学习率设置为.较为合理图 学习率学习曲线对比.神经网络节点在深度神经网络输入层及输出层结构不变且均为 个隐藏层的情况下 探究节点数对决策系统性能的影响一般情况 神经网络节点数设置为 的 次方 另外在深度学习中 设置倍数关系的节点数才会有区别因此 三个实验组的隐藏层节点数分别是 、和 三个实验组的学习曲线如图 所示 实验结果表明节

18、点数将会影响收敛速度或者是否收敛 同时神经网络宽度越大也会耗费更长的训练时间 学习曲线均有收敛趋势 第二组收敛速度更快 强化学习的训练数据比监督学习稳定性低 无法划分出训练集与测试集来避免过拟合 因此深度强化学习无需用过宽的网络 避免参数过度冗余导致过拟合 用深度强化学习解决空战中飞行器的机动决策问题时 节点数可选择 或 图 网络节点数学习曲线对比.神经网络层数在深度神经网络的输入层及输出层结构不变且每个隐藏层均为 个节点的情况下 探究神经网络层数对机动决策系统的影响 设计三个实验组的隐藏层数分别是 层、层和 层 三个实验组的学习曲线如图 所示图 网络隐藏层数的学习曲线对比.由图 可知 层隐藏

19、层的神经网络有收敛趋势 层和 层的神经网络则没有明显的收敛趋势 可能出现过拟合情况 由仿真可知 隐藏层数对决策系统收敛性影响较大 因此 解决空战机动决策问题时 可使用有 层隐藏层的深度神经网络.仿真结果与讨论目标机进行匀速直线运动的场景下 设置目标飞行器一直采取定常飞行的机动动作 对我方无人机进行强化学习训练 我机分别以均势和劣势的初始状态进行机动 均势初始状态指双方相互朝向对方 劣势初始状态指目标机从后方追赶我机 初始状态设置如表 所示张婷玉 等:基于深度 网络的近距空战智能机动决策研究表 双方初始状态设置 /(/)/()/()均势我方 目标 劣势我方 目标 首先设置双方相对飞行 初始态势为

20、均势 记录每个回合对战训练的飞行数据 通过 绘图可视化交战双方的飞行轨迹 可更加直观地展示机动决策结果经过训练 智能体能够探索出针对当前初始态势较好的机动策略 轨迹如图 所示 初始时双方为相向飞行 我方飞行器在目标向我方靠近时采取拉升高度的机动动作 主动脱离目标机的武器攻击区域 而后通过筋斗动作调转方向 朝向目标机飞行 降低高度接近目标机 调整机头方向 进入优势攻击位置图 直线飞行训练结果(初始状态为均势).()在初始态势为劣势的情况下 智能体经过训练后选择的飞行策略如图 所示 初始时 目标机位于我机后方 我方无人机初始处于劣势 且飞行高度低于目标机我方通过机动决策首先拉升高度以脱离目标机武器

21、攻击范围的同时 获得重力势能优势 而后进行“筋斗”翻转绕至目标后方 从而转变了空战态势 使我机处于优势攻击角度 再降低高度接近目标 使得目标机进入我方的武器攻击范围 成功锁定目标机 该机动决策符合空战中真实的无人机格斗战略图 直线飞行训练结果(初始状态为劣势).()在目标机进行盘旋机动的场景下 设置目标机始终采取向右水平盘旋机动动作 双方的初始状态与直线飞行均势初始场景的设置相同图 展示了部分回合的双方飞行轨迹 在训练前期 智能体处于随机探索阶段 可能会飞出限定高度或者失速等 环境会给予较大的惩罚 通过与环境的不断交互 智能体能够逐渐探索出获得奖励值较高的决策策略 图()中智能体一直采取定常飞

22、行的策略 获得累计回报较低 在后续训练中智能体尝试抬升高度并调转机头方向等动作 如图()()所示 有逐步向目图 部分飞行轨迹.航空兵器 年第 卷第 期标方向飞行的趋势 能够探索出较为合理的飞行策略但效果尚不理想以上 个情景的仿真表明:无人机的动作选择策略在经训练后能够依据态势输出较为合理的连续动作控制量 对不同的情景及初始态势决策效果有所不同 但均具有适应性 具备一定空战能力 由表 和仿真结果可知 采用确定的控制指令对飞行器进行训练能保证基本任务完成 而难以在复杂场景中取得明显优势 为提升复杂飞行场景下该算法的优越性 后续将考虑采用连续动作空间 丰富机动动作的控制指令同时 通过采取同一实验场景

23、的超参数取值 对不同场景进行测试 由图 可以看出 该超参数取值的训练结果在目标机匀速直线飞行的场景中更具飞行优势 结果表明 强化学习超参数选择较为合理且具有一定的适应能力 能适用于多种飞行场景 一定程度上能够解决超参数整定繁冗问题 此外 超参数对不同场景的适应能力问题 仍值得进一步探索 结 论本文针对三维空间中的一对一空战机动决策问题进行了研究 将机动决策问题建模为连续状态空间以及离散动作空间的强化学习问题 设计奖励函数并提出了基于深度 网络的机动决策方法 仿真结果表明 该方法能够在简单场景下探索出较合理的机动策略 但对学习率等强化学习超参数较敏感未来工作及改进方向有:()构建目标机的机动决策

24、系统 使其也具备自主决策能力 更加符合真实空战场景()机动决策系统的动作空间可采用更加符合真实飞行员操纵动作的连续动作空间参考文献:姜进晶 汪民乐 姜斌.无人机作战运用研究.飞航导弹():.():.()范晋祥 陈晶华.未来空战新概念及其实现挑战.航空兵器 ():.():.()鲜勇 李扬.人工智能技术对未来空战武器的变革与展望.航空兵器 ():.():.()孙智孝 杨晟琦 朴海音 等.未来智能空战发展综述.航空学报 ():.():.().:.:.:/.:.:/.:.():.邓可 彭宣淇 周德云.基于矩阵对策与遗传算法的无人机空战决策.火力与指挥控制 ():.():.().:.():.丁林静 杨啟

25、明.基于强化学习的无人机空战机动决策.航空电子技术 ():.():.()张强 杨任农 俞利新 等.基于 强化学习的超视距空战机动决策.空军工程大学学报:自然科学版():.:():.().():.:.吴宜珈 赖俊 陈希亮 等.强化学习算法在超视距空战辅助决策上的应用研究.航空兵器 ():.():.()吴昭欣.基于深度强化学习的飞行器自主机动决策方法研究.成都:四川大学.张婷玉 等:基于深度 网络的近距空战智能机动决策研究:.().:.:.董肖杰 余敏建 宋帅.空战机动动作库及控制算法设计研究第五届中国指挥控制大会论文集:.:.()李永丰 史静平 章卫国 等.深度强化学习的无人作战飞机空战机动决策.哈尔滨工业大学学报 ():.():.()(.):.:航空兵器 年第 卷第 期

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服