收藏 分销(赏)

基于分层强化学习的无人机空战多维决策_张建东.pdf

上传人:自信****多点 文档编号:290861 上传时间:2023-07-08 格式:PDF 页数:17 大小:1.55MB
下载 相关 举报
基于分层强化学习的无人机空战多维决策_张建东.pdf_第1页
第1页 / 共17页
基于分层强化学习的无人机空战多维决策_张建东.pdf_第2页
第2页 / 共17页
基于分层强化学习的无人机空战多维决策_张建东.pdf_第3页
第3页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 44 卷第 6 期2 0 2 3 年 6 月兵工学报ACTA AMAMENTAIIVol 44 No 6Jun2023DOI:10 12382/bgxb 2022 0711基于分层强化学习的无人机空战多维决策张建东1,王鼎涵1,杨啟明1,史国庆1,陆屹2,张耀中1(1 西北工业大学 电子信息学院,陕西 西安 710072;2 沈阳飞机设计研究所,辽宁 沈阳 110035)摘要:针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实

2、现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合 Soft Actor-Critic 算法和专家经验训练和建立元策略组,并改进传统的 Option-Critic 算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。关键词:无人机空战;多维决策;分层强化学习;Soft Actor-Critic 算法;Option-Critic 算

3、法中图分类号:V279文献标志码:A文章编号:1000-1093(2023)06-1547-17收稿日期:2022-08-13基金项目:陕西省自然科学基础研究计划项目(2022JQ-593);陕西省科技厅重点研发计划项目(2022GY-089)Multi Dimensional Decision Making for UAV Air Combat Based onHierarchical einforcement LearningZHANG Jiandong1,WANG Dinghan1,YANG Qiming1,SHI Guoqing1,LU Yi2,ZHANG Yaozhong1(1 Sc

4、hool of Electronics and Information,Northwestern Polytechnical University,Xian 710072,Shaanxi,China;2 AVIC Shenyang Aircraft Design and esearch Institute,Shenyang 110035,Liaoning,China)Abstract:To solve the intelligent decision-making problem in the process of UAV air combat,a multi-dimensional deci

5、sion-making model for UAV intelligent air combat based on the hierarchical reinforcementlearning architecture is established,allowing the autonomous decision-making of air combat to beextended from a single-dimensional maneuver decision to a multi-dimensional one including radar switch,active jammin

6、g,formation conversion,target detection,target tracking,interference avoidance,weaponselection,etc,so that autonomous decision-making in the main steps of air combat is realized In orderto solve the problems of state-space complexity and low learning efficiency of the decision-making modelafter the

7、dimension expansion,a meta-strategy group is trained and established with the Soft Actor-Criticalgorithm and expert experience,and the traditional Option-Critic algorithm is improved The strategytermination function is designed and optimized to improve the flexibility of strategy switching and reali

8、zeseamless multi-dimensional decision-making switching in air combat The experimental results show thatthe proposed method has good countermeasure effectiveness for the multi-dimensional decision-makingduring the whole process of UAV air combat,which can control the agent to flexibly switch amongint

9、erference,search,strike,and avoidance strategies according to different battlefield situations with thepurpose of improving the performance of traditional algorithms and the efficiency of solving complex兵工学报第 44 卷decision-making processesKeywords:UAV air combat;multi-dimensional decision-making;hier

10、archical reinforcement learning;Soft Actor-Critic algorithm;Option-Critic algorithm0引言现代空战以决策速度快、机动性能高、态势感知能力强、高鲁棒性等特点为核心,然而有人机受人类生理极限限制,无法发挥出战斗机的极限性能。无人机摆脱了人类生理极限,但机动控制由地面指挥,决策速度慢,若大幅延长观察、判断、决策、行动(OODA)环的时间则容易错失战机,因此智能化无人机空战自主决策成为当今的研究热点。随着 OODA 3.0 概念的提出1 以及人工智能技术的不断发展,无人机在机动决策等单一维度的决策方面已经实现了一定程度的

11、自主化,并且在某些方面已经达到或者超越了人类飞行员的水平。然而,空战过程是一个复杂的多维决策过程,要完成空战的自主化决策,必须要实现多个维度的协同自主化决策。因此无人机多维空战决策一直是该领域亟需攻克的难关,其对实现完全无人化空战的终极目标至关重要。当前对无人机自主决策的诸多研究都集中在机动决策方面,通过深度 Q 网络(DQN)2、深度确定性策略梯度(DDPG)3 5、Actor-Critic 等深度强化学习算法来实现对无人机的机动控制。但这些方法有着超参数敏感、策略选择单一、无法解决多维决策问题6 等缺点,无法很好地满足无人机空战对于快速收敛、高鲁棒性及多维决策的要求。事实上,空战决策除了机

12、动决策外,还包括传感器决策、武器决策、干扰决策等各方面多维度的决策。相比而言,分层强化学习凭借着其能够进行空间分解和分层训练的优势,有望使无人机具备充足的策略,从而完成复杂的作战任务。目前,已经有很多学者使用分层强化学习方法对无人机多维决策的相关问题进行了探索性研究。王俊敏等7 在空战编队协同上应用了分层策略,但关键的观测数据并未给出,无法进行有效训练。付跃文等8 应用了分层优化方法解决了无人机之间协作任务规划模块设计,证实了空战决策空间建模的可行性。文永明等9 研究了一种无人机机群对抗多耦合任务智能决策方法,采用分层强化策略训练方法,提出混合式深度强化学习架构,完成了无人机突防侦察任务及目标

13、的协同分配任务,证实了分层架构的有效性。程先峰等10 采用一种基于MAXQ 的 Multi-agent 分层强化学习的无人机协调方法,增强了无人机在混合运行复杂环境下适应环境和自协调的能力。吴宜珈等11 提出基于选项的近端策略分层优化算法,用来解决近端策略优化算法在空战智能决策过程中面临的动作空间过大、难以收敛的问题。通过对相关文献的分析可以看出,目前在无人机多维决策方面的研究还不够完善,所研究问题的规模都比较小,决策维度与现实差距较大,导致其应用环境过于简单。与此同时,以美国为代表的军事强国正在紧锣密鼓地开展将人工智能技术应用于无人机复杂作战任务的相关实验验证。2021 年美国洛克希德马丁公

14、司于美国国防部高级研究计划局(DAPA)举办的 Alpha 狗斗(ADT)比赛中展示了其最新研发的分层强化学习算法适应性新颖策略生成的操作层级结构(PHANG-MAN12),成功地将分层强化学习方法应用到无人机空战决策中,实现了多维空战决策中的追击决策、规避决策、打击决策。该算法在 ADT决赛中斩获第二,并击败了美国空军 F-16 武器教练课的毕业生。该算法充分体现了分层强化学习在解决多维空战决策问题中的策略模块化、智能化、去中心化的特点,这一实验结果表明美军在无人机多维决策方面已经达到了很高水平。此外,其他相关研究13 21 均表明深度强化学习在空战中的理论可行性。因此,进行无人机多维自主决

15、策的应用研究具有一定的理论意义和使用价值。本文以无人机一对一(1v1)、集群四对四(4v4)的红蓝空战对抗任务为场景,基于分层强化学习的架构建立无人机智能空战的多维决策模型,采用Soft Actor-Critic 算法训练底层单元策略,并结合专家经验建立元策略组,扩展了决策的维度。改进传统的 Option-Critic 算法,设计优化了策略终止函数,提高了策略切换的灵活性,实现了空战中多个维度决策的无缝切换。为了较好地完成目标打击任务,设计雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择与目标打击共 7 种元策略。以贪心算法作为顶层元策略选择策略,完成智能多维空战自主决策。

16、仿真实验结果表明,训练完成后的无人机8451第 6 期基于分层强化学习的无人机空战多维决策可以灵活地完成元策略的切换调用,能够以丰富的元策略组合完成更高层次的作战决策,体现了分层强化学习算法在提升无人机自主决策维度上的应用潜力。1空战决策维度分解根据空战 OODA 环的概念,第 1 步需要确定目标方位。本文设定双方雷达探测能力一致,为实现先敌发现,需要构建高效的搜索方法。贯穿整个空战过程的雷达探测至关重要,它有着确定目标精确方位、攻击引导的作用。在打击前,应确保目标不丢失,因此需要我机雷达能够持续照射目标,同时规避目标的电磁干扰。在目标探测过程中,被动雷达能够在电磁静默情况下确定目标方位。然而

17、单架飞机的被动探测仅能确定目标方向,无法精确确定目标的坐标。若要完成精确探测,则需要至少两架飞机协同探测。为降低因雷达开机暴露位置的风险,需要对雷达资源做合理的分配。在编队内,对于距离较近、航向差较小的我机,仅需开启其中一个雷达,因此需要给出合理分配雷达资源的数学模型和规则模型。在打击目标前,需要判断目标的距离以及自身剩余的导弹数量和种类以选择合适的导弹类型。打击目标时,应该确保我机安全,采用合理的干扰策略,避免暴露位置。在多机作战过程中,编队往往能够最大化作战能力,最小化作战损耗。常用的编队模型为长机僚机编队。作战伊始通过合理的编队布局增强战力,作战过程中遇到队形破坏可以采用队形转变策略重组

18、编队,维持整个作战过程中的战力。综上所述,整个空战流程涵盖了雷达开关、主动干扰、队形转换、目标探测、武器选择、目标打击、目标追踪、干扰规避策略,空战中的主要决策环节如图 1 所示。1.1雷达开关策略模型为了降低因雷达开机暴露位置的风险,飞机往往会在非必要时刻关闭雷达,处于电磁静默状态。本文构建了雷达开关模型,分析探测重叠区域,给出了雷达开关判定规则。为避免探测资源浪费,并降低暴露位置风险,分析了雷达探测重叠区域,如图 2 所示。图 2 中,表示雷达的探测半角,1和 2分别表示两架飞机的航向角。设 d 表示两机的间距,则无人机进入判决区域图 1空战全流程分析Fig 1Analysis of th

19、e whole air combat process图 2雷达探测重叠区域分析Fig 2Overlapping area analysis of radar detection的条件如式(1)所示:drsin 1 2(1)式中:r 为雷达探测距离。式(1)表述了两机间距及两机航向角度差值小于阈值时,两机处于判决区域,需要关闭其中一架飞机的雷达。设定判决状态变量 p,如果满足判决公式,则判决变量 p 置为 1,否则置为 0,具体的判定规则如下:1)若 p=1,则关联判决友机编号(id)为 ip,本机 id 为 im,根据全局判定列表(p,ip,im),观察是否存在重复 ip,若存在则不开启 im

20、=ip飞机的雷达,开启 ipim飞机的雷达。否则开启长机雷达。9451兵工学报第 44 卷2)所有不在全局列表中的无人机全部开启雷达。模型输入为我机的坐标、航向、雷达开关状态,输出为雷达的开机频点,0 表示关机,非 0 表示开机相应频点。1.2主动干扰策略模型为了实现瞄准式干扰,本文构建了主动干扰模型,分析了干扰区域,给出了干扰规则。实施干扰前,我机需要确定被干扰目标的雷达频点,记为 rt。若目标处于我机主动雷达的照射范围内且不受目标干扰时,则我机可以获取到目标雷达开机频点的观测信息。此时仅需将我机的干扰频点 rj设置为目标的雷达频点即可完成瞄准式干扰,即满足:rt=rj(2)模型的输入为目标

21、的开机频点,未探测到时奖励记为 0,探测到 n 个目标干扰频点,奖励记为 n。输出为我机的开机频点。1.3队形转换策略模型为了提高协同效能,构建队形转换模型,建立长机僚机编队模型,考虑到作战过程中被破坏的情况给出了编队重组方案。初始时刻我方编队为两两一组,以长机僚机形式编队,长机执行搜索攻击任务,僚机进行探测干扰任务,掩护长机。若长机被击毁,僚机将接替长机位置完成攻击与目标探测等任务。长机 id 记为idl,僚机 id 记为 idf。构建编队列表与全局编队 idl,idf ,若作战过程中因战损导致编队结构被破坏,则可以通过判断编队列表进行编队重组。例如,编队 1 长机被击毁,记 idl,idf

22、。若整队成员全部被击毁,则将该编队列表移出全局编队。编队重组通过遍历所有编队,根据编队列表中是否存在负值筛选不完整编队,不完整编队数量记作 N,重组编队数记作 T,有T=N%2(3)无法重组编队数记为 L,有L=N 2T(4)重组的编队根据遍历顺序赋予长机或僚机职能,无法重组的单机单独完成作战任务。模型的输入为我机编队的位置坐标、航向及我机的存活状态,输出为我机的航向。1.4目标探测策略模型为实现目标的快速定位,本文构建目标探测模型,提出基于人工势场的主动搜索方法,构建搜索圆域模型,设计被动搜索方案。为确保主动搜索时编队的分布式搜索,采用人工势场维持我方无人机之间的距离,主要采用人工势场中的斥

23、力场,我机编队在分布式搜索过程中应避免搜索区域的重复。通过定义势场函数,当友机间距离过近时,势场的斥力趋近无穷;当友机间距离超过指定值时,势场的斥力减少到 0 N。定义(q)为我机到其他友机自定义可调圆形边界 QO 的距离:(q)=minqQOq q(5)式中:q 为我机当前位形;q为边界位形;QO 表示空间障碍区域的边界。定义 0为一个障碍物影响的距离,当我机 q 距离障碍(即友机)距离大于 0时,不会排斥 q。符合上述标准的势函数描述为Urep(q)=12(1(q)1)02,(q)00,(q)0(6)式中:为比例系数。排斥力为 Urep(q)的负梯度,当(q)0时,排斥力为Freq(q)=

24、(1(q)1)012(q)(q)(7)如果 QO 为凸函数,b 是 QO 边界上最接近 q 的点,则(q)=q b(8)其梯度为(q)=q bq b(9)被动探测方面,被动雷达通过吸收敌方电磁波照射获取目标相对于自身的方位。被动探测的优点是能够在不发射电磁波的情况下对目标进行探测,缺点是精度较差,单架飞机仅能测得辐射来源的粗略方向,需要至少两架无人机协同被动探测目标才能实现目标位置的准确计算。多机协同作战可利用被动雷达定位目标位置,当编队内有我机被动接收到目标信号时,友机配合支援,从不同方向进行同步雷达搜索,可以快速定位目标,并进行打击(干扰,打击协同一体化),但前提是目标不丢失。目标丢失分两

25、种情况:1)目标被其他友机摧毁;2)目标雷达照射区域脱离被动探测区域(例如突然改变方向等)。针对第 1 种情况,可以通过设计并检查全局摧毁列表来解决;针对第 2 种情况,放弃被动探测方法,直接开启主动雷达搜寻目标。0551第 6 期基于分层强化学习的无人机空战多维决策具体的搜索方法为:我机 1 被动探测到目标,主动雷达并没有探测到;我机 1 根据自身坐标位置及航向确定假想目标最远位置(被动探测能够确定目标方向,因此可以确定目标在该方位线上最远距离dmax到最近距离 dmin之间),第 1 次记录的点记为 pv(xv,yv),此时调动距离最近的友机前来支援,但是最近的友机也可能受到目标的干扰,此

26、时应跟随我机 1 一同朝向目标行进,并调动其他距离最近的友机。如果在判断圆域外,直接向 pv点航行(在中轴线友机侧),或者向我机 1 所在的位置航行(在中轴线友机另一侧)。如图 3 所示,友机在我机同侧时朝向 pv航行,友机雷达探测区域将覆盖目标位置,进而探测到目标具体坐标及方位;友机在我机对侧时朝我机(我机 1)方向航行,同样可以覆盖目标所有可能的位置。图 3我机位于判断圆域外分析图Fig 3Analysis of our UAVs located outside thejudgment circle如果在判断圆域内且位于我机 1 一侧,同样直接朝向 pv航行,到达中线位置仍未探测到,则掉头

27、朝向我机 1 航行。反之亦然,按照该策略一定能够快速探测到目标。图 4 中深蓝色扇形表明初始位置友机的探测区域,由于目标处于探测区域外,为了全覆盖对侧目标可能存在的区域,需要飞到中线,如果没有探测到,折返朝向我机 1 航行。已知 =60,我机 2 飞行到中线再折返的原因在于中线与判断圆域的交点 Q 距离 pv恰好为最大探测距离 dmax,此时朝向 pv能够覆盖目标所在弦。若我机 2 在圆域内 Q 点与我机 1 构成的弦内接以pv为圆心、pvQ 为半径的部分圆弧,在此圆弧外时距图 4我机位于判断圆域内分析图Fig 4Analysis of our UAVs located in the judg

28、ment circle离 pv大于最大探测距离 dmax,需要飞到中线附近才能够全覆盖。这个极限在于 Q 点,越趋近于 Q 点,意味着越需要朝着中线行进,才能全覆盖。为了便于处理,我机 2 没有在弦的不同侧采取不同策略,而是统一按照先到达中线再折返这一思路。实际上,当我机2 在圆域内由 Q 点与我机1 构成的弦右侧圆弧内时,只需朝向 pv进行瞬时探测,若没有发现目标即可折返。模型输入为我机的位置坐标及航向,输出为我机的航向。1.5武器选择与目标打击策略模型为实现先敌打击,构建武器选择与目标打击模型,建立打击目标分配策略,分析导弹攻击区,给出打击策略。导弹攻击区如图 5 所示。图 5导弹攻击区F

29、ig 5Missile attack zone整个作战 OODA 环中先敌打击至关重要。显然,当目标位于武器极限攻击距离时立即开火即为最优打击策略。武器的种类需要根据距离进行选1551兵工学报第 44 卷择,首选远程导弹,远距探测到即打击,无远距导弹可贴近用中距导弹,近距离则选中距导弹。此外,当编队作战时,应考虑打击目标的分配问题。打击目标 id 放入全局打击列表中,每次迭代到相应无人机时查询本机打击列表是否在全局打击列表中,若存在,则具有相同打击目标的无人机不打击此目标。若打击无人机阵亡,则将目标 id 从全局打击列表中移除。打击目标按照我机与目标个体间距离大小进行分配,距离近的个体优先执行

30、对应 id 的目标打击任务,如果目标在全局打击列表中,友机选择除此机之外探测到的目标进行打击。模型输入为探测到的目标位置坐标及航向,输出为我机的航向。1.6目标追踪策略模型为实现探测到目标后的目标追踪,本文构建目标追踪模型,构建其观测值与奖励函数,最后基于最大化熵软演员评论家(SAC)算法训练模型。模型输入为我机位置坐标、航向及探测到的目标位置坐标,输出为我机航向。1.7干扰规避策略模型为了避免追踪过程中因目标干扰导致目标丢失,本文构建了干扰规避模型,构建其观测值与奖励函数,最后基于 SAC 算法训练模型。模型输入为我机的位置坐标、探测到的目标位置坐标及我机航向,输出为我机的航向。2空战多维决

31、策模型为实现空战多维决策,需要构建空战多维决策模型。本文基于分层结构,将底层决策模型分为依靠专家知识的经验模型和基于 SAC 算法决策的训练模型。针对决策模型何时结束的问题,本文基于 Option-Critic 算法,摒弃策略训练,取而代之使用已有的策略模型,仅训练策略的终止函数,实现策略的灵活切换。顶层策略选择器基于贪心算法,选择期望回报最高的策略作为当前状态下的决策。2.1元策略模型训练算法对于由雷达开关、主动干扰、队形转换、目标探测、武器选择与目标打击元策略构成的经验模型基于专家知识无需训练。对于由目标追踪和干扰规避策略构成的训练模型,训练采用 SAC 算法。其在传统的 Actor-Cr

32、itic 方法引入最大化熵的思想,采用与PPO19 类 似 的 随 机 分 布 式 策 略 函 数,且 是 Off-Policy、Actor-Critic 的算法。SAC 算法区别于其他算法的明显之处在于 SAC 同时最大化了回报和策略的熵值。在实际应用中,SAC 在各种常用的 bench-mark 以及真实的机器人控制任务中表现稳定、性能优秀,具有极强的抗干扰能力。针对 DDPG 算法选择确定性策略问题,SAC 引入了最大化熵方法,能够让策略尽可能随机,智能体可以充分探索状态空间,避免策略过早陷入局部最优,并且可以探索到多个可行的方案来完成制定任务,提高了抗干扰能力。此外,为提高算法性能,采

33、用 DQN 中的技巧,引入两个 Q 网络以及目标网络,为表述最大化熵值的重要程度,引入自适应温度系数,针对不同问题温度系数的调节,将其构造成一个带约束的优化问题,即最大化期望收益的同时,保持策略的熵大于一个阈值。SAC 训练模型算法的伪代码如图 6 所示。SAC 训练模型算法1初始化网络参数 1,2,初始化目标网络权重 11,22,初始化一个空经验池 D2循环迭代3对于环境中的每一步,循环迭代4从策略中采样动作,即 at(at|st)5从环境中通过转移函数采样下一时刻状态,即 st+1p(st+1|st,at)6存储经验到经验池中,即 DD(st,at,r(st,at),st+1)7结束循环8

34、对于网络参数梯度,循环迭代9更新 Q 函数网络参数 ii QiJQ(i)for i 1,210更新策略网络权重 J()11调整温度参数 J()12更新目标网络参数权重 ii+(1 )ifor i 1,213结束循环14结束循环15输出优化后参数 1,2,图 6SAC 训练模型算法伪代码Fig 6Pseudocode of SAC training model algorithm2.2空战多维决策算法2.2.1决策结构分解为构建整体作战策略,需要确定作战流程以及作战逻辑,整体作战的分层决策结构图如图7 所示。决策选择层作为策略选择器负责在当前状态下进行元策略的挑选,初始编队及需要编队重组时选25

35、51第 6 期基于分层强化学习的无人机空战多维决策图 7整体作战的分层决策结构Fig 7Hierarchical decision-makingstructure for operations择队形转换策略;在雷达未发现目标阶段应选择目标探测策略进行目标搜索(分布式);搜索过程中要合理分配雷达资源选择雷达开关策略;发现目标选择目标追踪策略对目标展开追击,追踪目标过程中避免目标丢失与反击应该采取主动干扰策略对目标雷达干扰,并采取干扰规避策略;目标进入攻击区时采用武器选择与目标打击模型完成对敌打击。整个作战策略由 7 部分元策略构成:训练和干扰规避 2 个训练策略;雷达开关、主动干扰、队形转换、目

36、标探测及武器选择与目标打击 5 个固定策略。对于训练策略基于 Actor-Critic 框架分别构建执行和评估神经网络。记录状态空间、动作空间和奖励值,最终为这两个策略设计经验池。2.2.2改进 Option-Critic 方法由于基于传统 Option-Critic 的分层强化学习方法很难引入专家的经验知识且只能输入元策略的个数,其余均由 Option-Critic 算法训练每个元策略的策略函数和终止函数。而选项方法虽能引入经验知识,但要求人为设计终止函数,无法实现元策略的灵活切换。为了更好解决复杂空战问题,引入现有效果较好的专家经验模型十分必要,且具有明显的策略含义。本文基于传统的 Opt

37、ion-Critic 算法并做出改进,为引入自定义模型,首先为Option-Critic指定现有元策略模型的个数,将每个自定义策略模型和Option-Critic 框架下的模型一一对应起来,在执行Option-Critic 框架训练时,对于选中的策略仅训练其终止函数,策略函数由自定义模型提供。上层策略选择一个选项,选项包含 3 部分:策略(a|s)表示选项中的策略,终止条件 表示状态 s 有(s)概率结束当前选项,初始集 I表示选项的初始状态集合。当终止函数返回 0 时,下一步还会由当前选项来控制;当终止函数返回 1 时,该选项的任务暂时完成,控制权交还给上层策略。把每个选项的终止函数都用神经

38、网络进行函数近似来参数化表示,即,(s),表示网络参数,策略选取构建好的模型策略(a|s)。在这些选项之间做选择的上层策略,用(|s)表示,即在状态 s 时策略选择选项 的概率。在此基础上,可以定义某状态下选择某个选项后产生的总收益。选择某个选项时,采取某行动之后产生的总收益和在使用某选项到达某状态之后产生的总收益。选项内部仅更新为各选项的终止函数,(s)。根据总折扣回报相对其参数的导数,可以利用如policy gradient 的方法更新其参数。改进的 Option-Critic 算法结构如图 8 所示,与原算法相比,本文将训练策略改成了自定义策略。图8 中,A为选项之间的优势函数,at为

39、t 时刻的动作,t为 t 时刻选择的选项,rt为 t 时刻的奖励,QU为最优选项价值函数。图 8改进 Option-Critic 算法结构图Fig 8Diagram of improved Option-Criticalgorithm structure2.2.3多维空战决策算法构建策略选择器采用贪婪策略,相应的单步离线策略更新目标 g(1)t为g(1)t=rt+1+(1 t,(st+1)at,(a|st+1)QU(st+1,t,a)+t,(st+1)maxa,(a|st+1)QU(st+1,a)(10)式中:为折扣率;st为 t 时刻状态;、a 为尚未观测到的随机变量。多维空战决策算法(简称

40、 Beta 算法)伪代码如图 9 所示。图 9 中,Q(s,)表示状态 s下选项 的价值函数,V(s)表示状态 s的价值函数,为软更新系数,为时间差分误差,为更新参数 的学习率,为随机变量。模型的输入为我机的所有3551兵工学报第 44 卷状态及探测到目标的所有状态构成的状态池,模型输出更新状态池。元策略网络根据自身输入需要从状态池中获取输入值。空战全流程单元模型构建内容及方法、单元模型训练流程以及分层智能体训练方法如图 10 所示。多维空战决策算法1加载经验模型与训练模型的策略函数(a|s),随机初始化改进 Option-Critic 网络参数,元策略数量设为 7,初始状态 ss02顶层策略

41、选择器根据贪心策略(s)选择元策略 3重复以下步骤4底层根据经验、训练策略(a|s)选择动作 a5在状态 s 下采取动作 a,获取下一时刻观测值和奖励值s,r6元策略评估7定义 r QU(s,a)8如果 s不是终止状态,则 +(1 ,(s)Q(s,)+,(s)maxQ(s,)9结束10元策略价值 QU(s,a)QU(s,a)+11元策略提升12 ,(s)(Q(s,)V(s)13如果,在 s状态下终止,并跟据(s)选择新的 14ss15直到 s为终止状态16顶层策略提升17g(1)t=rt+1+(1 t,(st+1)at,(a|st+1)QU(st+1,t,a)+t,(st+1)maxa,(a|

42、st+1)QU(st+1,a)图 9Beta 算法伪代码Fig 9Pseudocode of Beta algorithm3仿真环境与仿真结果3.1实验环境设定3.1.1软件平台选用文献 22推出的 MaCA 环境对本文建立的模型进行仿真验证。MaCA 环境支持作战场景和规模自定义,智能体数量和种类自定义,智能体特征和属性自定义,支持智能体行为回报规则和回报值自定义等。MaCA 环境中提供了一个电磁空间对抗的多智能体实验环境,环境中预设了探测单元和攻击单元两种智能体类型:探测单元可模拟 L、S 波段雷达进行全图 10多维空战的构建方法及流程Fig 10Construction method a

43、nd process ofmulti-dimensional air combat向探测,支持多频点切换;攻击单元具备侦察、探测、干扰、打击等功能,可模拟 X 波段雷达进行指向性探测,模拟 L、S、X 频段干扰设备进行阻塞式和瞄准式电子干扰,支持多频点切换,攻击单元还可对对方智能体进行导弹攻击,同时具有无源侦测能力,可模拟多站无源协同定位和辐射源特征识别。MaCA 环境为研究利用人工智能方法解决大规模多智能体分布式对抗问题提供了很好的支撑,专门面向多智能体深度强化学习开放了 L-API 接口。环境支持使用 Python 语言进行算法实现,并可调用 Tensorflow、Pytorch 等常用深

44、度学习框架。3.1.2硬件环境CPU 采用 Intel i7-10700KF,GPU 采用 NvidiaTX 3070 加速深度神经网络训练过程,显存大小为8 GB,内存 16 GB。3.2定义想定任务假定红蓝双方功能完全一致。双方在指定地图大小的二维环境中完成整个探测干扰规避协同打击作战流程。蓝方为规则驱动,规则未知。双方任务为在规定作战步数内尽可能少地消耗导弹去歼灭更多的目标,取得数量优势。单机 1v1 对抗场景地图修改双方战机数量为 1,远程导弹与近程导弹各 4 发,地图尺寸设置为 500 500。目标开启阻塞干扰,算法采用 MaCA 环境中的 fix_rule_no_att4551第

45、6 期基于分层强化学习的无人机空战多维决策黑盒算法;我机采用多维决策算法。共执行 20 回合,每回合最大运行步数为 5 000。多机4v4 对抗场景地图修改双方战机数量为 4,远程导弹与近程导弹各 4 发,地图尺寸设置为 500 500。目标开启阻塞干扰雷达,算法采用 MaCA 环境中的 fix_rule_no_att 黑盒算法;我机采用 Beta 算法。共执行10 回合,每回合最大运行步数为5 000。3.3跟踪元策略训练3.3.1训练方法我机当前状态下的航向角为 1,坐标为(x0,y0);目标当前状态下的方位角为 2,坐标为(x1,y1)。记下一个状态我机航向角为 1n,坐标为(x0n,y

46、0n);下个状态目标方位角为 2n,坐标为(x1n,x2n),设偏航角为下个状态我机航向角与当前状态目标方位角的差值,记作,有 =1n 2。目标追踪模型为纯追踪,问题模型为最小化。和 2作为神经网络的输入观测值。目标追踪问题模型最小化,因此可以构造二次函数 =2作为问题的奖励函数,越小,奖励值越大,越接近 0。随机初始状态,我机开启雷达对目标进行探测,目标干扰雷达关闭。训练环境采取 1v1 方式,首先固定我机进行跟踪训练。双方观测规则均采用MaCA 环境中的 raw 规则,输入状态维度为 2,动作维度为 1,Actor-Critic 网络中 Actor 策略网络学习率设置为 3 104,Cri

47、tic 策略网络学习率设置为 3 103,温度参数设置为 3 104,神经网络隐含层单元数为 512,共两层。回报折扣率设为 0.99,软更新参数设置为 0.005。经验池大小设置为 100 000,最小存储数据量设为 1 000 条。一次喂入神经网络的batch 大小为 64,总回合数为 100,每回合最大步数设置为 500。将环境 ender 设置为可见。为了加快训练并丰富样本,提出了训练优化方法。设置目标高速移动,我机固定,设置目标移动策略为每隔10 步随机改变航向,缩小地图尺寸为 50 50。频繁的方位改变能够让我机充分探索各个航向。整体训练过程收敛迅速,通过观察可见我机成功锁定目标,

48、如图 11 所示。图 12 和图 13 展示了总训练轮数为 100 和1 000 次的回报曲线,可见,使用 SAC 算法在目标运动,我机固定时的环境下训练效果显著,该目标追踪问题在每回合 1 000 步的迭代中能够在第 10 回合左右达到收敛,收敛效果很好。在 1 000 次的训练中,为了避免过拟合问题,丰富训练样本,本文采用了动态改变环境的方法,通过图 11目标运动、我机固定时的追踪训练示意图Fig 11Schematic diagram of tracking training when theenemy UAVs are moving and our UAV is fixed图 12SA

49、C 跟踪训练的原始回报曲线(100 轮)Fig 12Original reward curve of SAC trackingtraining(100 rounds)图 13SAC 跟踪训练的原始回报曲线(1 000 轮)Fig 13Original reward curve of SAC trackingtraining(1 000 rounds)动态改变地图的大小与无人机位置保证初识状态的不同。从图 13 中可见,算法收敛后仍有一些回合回报值较低,但很快便达到收敛状态。我机固定训练完成,将经过大量回合训练好的模型保存,改变地图参数,让我机具有速度并扩大地图尺寸,目标速度降低为与我机速度一致

50、,验证跟踪模型的有效性。在 MaCA 环境中,对目标速度的改变并不会影响整体的代码结构,仅需在 map 地图中设置 speed 参数即可。使用图 14 展示了总验证回合为 10、目标移动时的验证回报曲线。由图 14 可见,当我机运动时回报值依旧较小,5551兵工学报第 44 卷图 14我机移动时跟踪验证的回报曲线Fig 14eward curve for tracking verificationwhen our UAV is moving通过 10 回合的验证(非训练),如图 15 所示,发现我机能在目标转向时完美同步追踪,跟踪效果显著,验证了训练模型的有效性。图 15验证演示过程示意图Fi

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 医学/化学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服