收藏 分销(赏)

协同空战与多智能体强化学习下的关键问题_谢育星.pdf

上传人:自信****多点 文档编号:466515 上传时间:2023-10-12 格式:PDF 页数:5 大小:257.24KB
下载 相关 举报
协同空战与多智能体强化学习下的关键问题_谢育星.pdf_第1页
第1页 / 共5页
协同空战与多智能体强化学习下的关键问题_谢育星.pdf_第2页
第2页 / 共5页
协同空战与多智能体强化学习下的关键问题_谢育星.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第43 卷第1期2023 年2 月飞机设计AICAFT DESIGNVol 43 No 1Feb2023收稿日期:2022 03 20;修订日期:2022 12 05作者简介:谢育星(1997),女,硕士研究生引用格式:谢育星,陆屹,管聪,等 协同空战与多智能体强化学习下的关键问题 J 飞机设计,2023,43(1):6 10 XIE Yuxing,LU Yi,GUAN Cong,et al Key Problems in Coordinated Air Combat and Multi-agent einforcement Learning J Aircraft Design,2023,43

2、(1):6 10文章编号:1673 4599(2023)01 0006 05doi:1019555/j cnki1673 4599202301002协同空战与多智能体强化学习下的关键问题谢育星,陆屹,管聪,纪德东(沈阳飞机设计研究所,辽宁 沈阳110035)摘要:自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表现不佳,多智能体强化学习算法为解决复杂多维问题提出新的可能。通过对多智能体强化学习算法原理、训练范式与协同空战的适

3、应性进行分析,提出了协同空战与多智能体强化学习的未来发展方向,为更好地把多智能体强化学习应用于协同空战提供思路。关键词:协同空战;多智能体强化学习;训练范式;集中式训练分布式执行(CTDE)中图分类号:V11文献标识码:AKey Problems in Coordinated Air Combat andMulti-agent einforcement LearningXIE Yuxing,LU Yi,GUAN Cong,JI Dedong(Shenyang Aircraft Design esearch Institute,Shenyang110035,China)Abstract:Sinc

4、e the concept of cooperative operation was put forward,all military powers have madegreat progress in the field of cooperative air combat,and coordination has become a multiplier to en-hance combat capability In recent decades,as a modern intelligent method to solve sequence prob-lems,reinforcement

5、learning has developed rapidly in various fields However,in the face of high-di-mensional variable problems,the traditional single-agent reinforcement learning often performs poor-ly Multi-agent reinforcement learning algorithms provide new possibilities for solving complex multi-dimensional problem

6、s By analyzing the adaptability of multi-agent reinforcement learning algorithmprinciple,training paradigm and cooperative air combat,the future development direction of coopera-tive air combat and multi-agent reinforcement learning is proposed,which provides ideas for betterapplication of multi-age

7、nt reinforcement learning in cooperative air combatKey words:coordinated air combat;multi-agent reinforcement learning;training schemes;central-ized training decentralized execution(CTDE)当代战争一切空中行动的前提条件是制空权。随着人工智能技术的迅速发展,空战将从能量机动制胜、信息机动制胜时代跨越进入认知机动制胜时代,未来空战的主要模式是复杂空战系统间的对抗,核心特征是协同作战1。强化学习算法近年来广泛应用于各

8、个领域。在空战决策领域,强化学习已经解决了许多具有挑战性的问题2 3。但是,现阶段人工智能技术大多只应用于单机决策领域,解决单智能体领域问题4。随着协同空战理论的发展,空战中出现了许多新的现实问题,如有/无人协同、无人机机群控制等。面向协同作战这一新问题,单智能体解决问题能力有限,因此,针对此类多智能体的复杂空战问题,应当采用多智能体强化学习算法解决。本文对协同空战与多智能体强化学习下的关键问题进行分析研究。1智能空战与协同作战发展历程1.1智能空战领域的发展历程近几十年来,人工智能进入高速发展期。国内外智能领域里,空战决策理论与工程应用都取得了巨大的突破,智能空战的发展可以分为5 个主要阶段

9、5:第 1 阶段专家逻辑阶段1969 年 NASA 兰利研究中心研制开发 AML 系统,采用自适应专家机动逻辑,标志着智能技术首次系统性应用于空战领域6。第 2 阶段规则生成阶段代表性空战系统为PALADIN 系统,其特点是不依靠专家经验,自动生成空战规则,形成模块化规则库。第 3 阶段规则演进阶段代表性空战系统为阿尔法空战系统,该系统基于演进式规则。2016年,在模拟环境对战中,阿尔法空战系统首次击败了退役美国空军上校 Keane,标志着人工智能在空战决策问题领域取得了突破性进展7。第 4 阶段机器学习阶段代表性空战系统为空战自适应动态规划系统8 和阿尔法狗斗,空战自适应动态规划系统采用自适

10、应动态规划,解决二维离散动作优化问题,阿尔法狗斗面向近距空中格斗,并在模拟环境中击败飞行员。第 5 阶段演示验证阶段2020 年 6 月,美国空军发布关于空中博格人项目的视频。空中博格人验证机标志着人工智能在空战领域实用化,对于推动智能空战的发展具有里程碑意义9。1.2协同作战的发展历程上世纪70 年代,美国首次提出协同作战概念。此后,协同作战技术理论快速发展,并迅速应用、列装。基于协同作战关键技术,协同作战样式的发展过程分为 4 个阶段:第 1 阶段1970 年至 2000 年,典型代表项目是 CEC 系统项目,主要协同作战样式为超视距拦截来袭导弹,对应的关键技术包括高速数据传输与高精度符合

11、跟踪。第 2 阶段2002 年至 2014 年,典型代表项目是 NIFC-CA 系统项目10,主要协同作战样式为跨域协同一体化火力制空,对应的关键技术为机载多功能先进数据链 LINK16。第 3 阶段2014 年至 2018 年,典型代表项目是拒止环境中协同作战项目11、忠诚僚机项目,主要协同作战样式为有/无人协同打击、无人自主协同打击,对应的关键技术包括分布式控制、高可靠通信技术。第 4 阶段2018 年至今,典型代表项目是马赛克战项目12,主要协同作战样式为灵活组建动态杀伤网、作战资源灵活分配,对应的关键技术包括人工智能技术、新体制通信技术,以及先进无人机制造技术。综上,高可靠、多节点的通

12、信技术是协同技术的基础,随着通信技术的发展,协同作战技术实现从无到有的跨越。无人机制造技术的进步促进了无人机平台被纳入协同体系,实现了协同作战平台从有人平台为主向有人/无人并重的转变13。现阶段,人工智能技术发展日新月异,成为促进协同作战技术的关键要素。2多智能体强化学习模型协同空战问题可以描述为一个完全合作的多智能体马尔可夫决策问题,该问题可以建模为部分可观测马尔可夫决策过程(Dec-POMDP)。Dec-POMDP 可由八元组进行描述,G=S,U,P,r,Z,O,n,式中:sS 为环境的真实全局状态;uUUn为联合动作。每个步长里,智能体 aA 1,n分别选择 1 个动作,组成联合动作;P

13、(s|s,u):S U S 为状态转移函数,表示在状态下 s 采取联合动作 u 后转移到状态 s的概率,其中 0P(s|s,u)1;r(s,u)为奖励函数,表示状态下 s 采取联合动作 u 后获取的奖励,所有智能体的奖励函数相同;zZ 为每个智能体独立的观测;O(s,u)为观测函数,表示状态 s 下采取联合动作 u 后获得联合观测7第1 期谢育星等:协同空战与多智能体强化学习下的关键问题o;n 为 n 个智能体;为折扣因子,0 1。在分布式部分可观测马尔科夫决策场景下,观测函数O(s,u)=S UZ式中:Z 为局部观测,zZ 表示每个智能体 a 获取自身观测值。每个智能体 a 的联合动作观测历

14、史为aT(Z U)*式中:Z 为局部观测;U 为联合动作。基于联合动作观测历史获取策略a(ua|a):T U式中:a为智能体 a 的策略;ua为智能体 a 的动作。多智能体的联合策略 对应联合动作价值函数Q(s,u)=Es0,u0,t=0trtst,ut式中:E 为期望函数;st为 t 时刻的状态;u 为 t 时刻的动作;rt为 t 时刻的奖励。3协同空战与多智能体强化学习训练范式智能体通过获取数据、积累经验,根据环境反馈的奖励信号优化自身行为,该过程定义为智能体的训练过程。智能体的训练范式可以分为集中式训练和分布式训练。采用集中式范式对多智能体进行训练时,多智能体相互通信、交换信息,通过自身

15、信息和通信信息更新策略。采用分布式范式对多智能体进行训练时,每个智能体不利用外部信息,自行执行更新,分别开发独立的策略。除了训练范式之外,智能体在执行范式的选择上也存在差异。执行范式分为集中式执行和分布式执行。集中式执行范式里存在 1 个集中式计算单元,该集中式单元计算所有智能体的联合动作,所有智能体执行此联合动作。分布式执行范式中,每个智能体根据不同的独立策略进行行动。3.1分布式训练在分布式训练方案中,每个智能体的训练与其他智能体都相互独立,并不依赖于显式的信息交换。分布式训练分布式执行(DTDE)中,如图1 所示,每个智能体 i 获取 1 个联合策略 i,通过部分观测映射到个体动作的分布

16、 OiP(Ui)。DTDE 范式的根本缺陷是环境的非静态性。在单智能体强化学习中,单智能体仅需通过动作和环境发生交互,即能完成训练。然而,在多智能体强化学习中,在同一时刻,环境中的每个智能体都进行训练,从而同时获取新的策略。对于每一个单智能体,这意味着环境是非静态性的,当别的智能体通过训练获取新的策略,该智能体的最优策略也会相应改变,价值函数将不再准确。换言之,随着其他智能体最优策略的更新,当前场景下的最优策略在将来的场景下不再是最优策略。图 1分布式训练分布式执行(DTDE)范式将 DTDE 范式应用于多机协同空战的训练,可以描述为编队内所有飞机作战目标相同,但各架飞机之间没有通信,每架飞机

17、根据当前本机探测到的战场态势,进行单机最优决策。DTDE 训练范式使各飞机的单机作战效能最大,但没有使空战编队的作战效能最大化,因此,DTDE 范式不适用于多机协同空战的训练。3.2集中式训练集中训练范式描述了基于互通信更新的智能体策略。虽然在训练期间启用了智能体之间的互信息共享,但在测试时这些额外的信息将被丢弃。集中式训练对联合策略建模,该策略将观测的集合映射到联合动作 OP(U)。集中式培训可以进一步分化为集中式和分散式执行方案。集中式训练集中式执行(CTCE)采用一个联合模型表示所有智能体的动作和观测,如图 2 所示。CTCE 主要缺点是观测空间、动作空间随智能体数量的增加呈现指数性增长

18、。集中式训练分布式执行(CTDE)解决这一难题,如图 3 所示。假设联合动作可以分解为每个智能体的动作,将已分解的联合动作表示为1 组独立的子策略,这些子策略将联合观察映射到每个智能体的动作。在策略梯度方法中,可以简化联合动作转移函数P(a)=iP(ai)式中:ai为单个智能体的动作。图 2集中式训练集中式执行(CTCE)范式8飞机设计第43 卷在实践中,这意味着我们的神经网络策略的输出只能捕捉每个个体的动作分布,而不是所有个体的联合动作分布。在具有离散操作的系统中,这将动作空间的大小从|A|n减少到 n|A|,其中 n 为智能体的数量,A 为单个智能体的动作空间。在 CTDE 中,多智能体通

19、过联合奖励信号同时优化多个策略,因此,CTDE 范式适用于多角色智能体领域的异构策略学习。图 3集中式训练分布式执行(CTDE)范式飞机上计算资源是有限的,因此在实际空战场景里,由于其计算量繁多,CTCE 范式不适用于多智能体空战训练。CTDE 范式解决了计算量爆炸的问题,且很好地运用了协同作战的思想,尤其适用于异构多机编队空战场景。4未来研究方向用强化学习理论解决空战问题,应当按照由易到难,由单机到多机,由同构多无人机协同到异构有/无人协同的思路深入,逐步提高协同作战效能。多机协同空战中,同构多无人机协同是将完全相同的无人机进行编队,执行相同的任务。因为编队内各无人机作战目标一致,是空战领域

20、中较为容易解决的多智能体强化学习问题,因此应当以多无人机协同作为强化学习在协同空战领域的切入点。传统的有/无人协同空战问题中,有人机为主导,飞行员操控有人机,同时对无人机发布指令,引导无人机的行为。传统操作方法给飞行员带来了巨大的操作压力,当战场态势突变时,如果飞行员没有及时向无人机发布新指令,无人机无法自发地进行正确的反应,有/无人协同增益效能将大幅度减少,甚至可能出现有人机、无人机之间失去通信的情况。引入人工智能后,有无人协同空战中,飞行员操控有人机,AI 操控无人机。通过对编队进行多智能体强化学习训练,使无人机具有一定的自主性。在作战过程中,无人机自发地配合有人机,一方面减轻了有人机飞行

21、员的操作压力;另一方面增强了有/无人编队的作战效能,提高胜率。当人工智能技术应用于空战领域,最急需解决的是人机互信问题。在人工智能技术的支持下,无人机首次具备独立感知、识别、决策和打击(OODA)的作战能力。如果不加监管地使用智能化无人机,就会增加有/无人编队失控的风险。在有/无人协同空战问题中,必须保留飞行员的主体地位,保证飞行员对有/无人编队的控制权。有/无人协同空战全流程中,飞行员可以随时对编队中所有平台进行监督管理,预留应急处置接口,保留开火权,随时可接管有/无人编队的指挥权,并建立应急处理预案。另一重大挑战是飞行员与操控无人机的 AI决策不匹配问题。智能化的有/无人协同空战决策,本质

22、上是人脑+AI 的深度融合,兼顾智慧+数据的双重优势,在多智能体强化学习的支撑下,求解高动态、多条件复杂空战场景下克敌制胜的最优解。智能化有/无人协同空战决策中,需全程不间断地调取飞行员大脑的智慧信息,共融共生共驱。智能无人机系统与飞行员的大脑、上级指挥系统的“外脑”组成智慧共生体,智能无人机系统持续识别飞行员大脑、“外脑”的思维想法,将“脑”的智慧融入智能运算,将智能无人机系统决策结果实时传递给“脑”,相互促进,使有/无人编队得到的最优决策。5结束语本文阐述了强化学习的基本原理,分析了多智能体强化学习不同训练范式的优缺点,提出多智能体强化学习算法应用于协同空战,应当采用集中式训练分布式执行(

23、CTDE)范式。随着多智能体强化学习领域和协同空战领域的理论研究日渐深入,需要更加重视强化学习与实际空战场景相结合,按照由易到难,由单机到多机,由同构多无人机协同到异构有/无人协同的思路深入研究,促进人机互信、人机融合,逐步提高协同作战效能,掌握认知机动制胜时代的主动权。参考文献(eferences)1 孙聪 从空战制胜机理演变看未来战斗机发展趋势J 航空学报,2021,42(8):8 202 HENANDEZ L P,KATAL B,TAYLO M E A survey andcritique of multiagent deep reinforcement learningJ Autono

24、-mous AgentsandMulti-AgentSystems,2019,33(6):9第1 期谢育星等:协同空战与多智能体强化学习下的关键问题750 7973 杜威,丁世飞 多智能体强化学习综述J 计算机科学,2019,46(8):1 84 YANG Q,ZHANG J,SHI G,et al Maneuver decision of UAVin short-range air combat based on deep reinforcement learningJ IEEE Access,2019(8):363 3785 孙智孝,杨晟琦,朴海音,等 未来智能空战发展综述J 航空学报,2

25、021,42(8):35 496 BUGIN G H Improvements to the adaptive maneuvering logicprogramM America:NASA,19867 EMESTT N,CAOLL D,SCHUMACHE C,et al Geneticfuzzy based artificial intelligence for unmanned combat aerialvehicle control in simulated air combat missionsJ Journal ofDefense Management,2016,6(1):1 78 薛

26、羽,庄毅,张友益,等 基于启发式自适应离散差分进化算法的多 UCAV 协同干扰空战决策J 航空学报,2013,34(2):343 3519 郭文涛,徐冬翔 从 Skyborg 项目看美国空军的智能化升级路线 J 国际航空,2020(9):3 10华卿,石静,郭勇,等 美国海军一体化火力控制 制空能力解析 J 国防科技,2016,37(2):50 53 11李磊,王彤,蒋琪 美国 CODE 项目推进分布式协同作战发展 J 无人系统技术,2018,1(3):59 66 12王璐菲 DAPA 战略技术办公室提出“马赛克战”概念J防务视点,2017(S1):52 53 13石静 美军典型协同交战项目发

27、展及启示J 指挥控制与仿真,2021,43(3):135 140(上接第 5 页)7 CAWLEY E,CAMEON B,SELVA D System architecture:strategy and product development for complex systemsM New Jersey,USA:Prentice Hall Press,20158 PYSTE A,DAVID O,NOM H,et al Guide to the systemsengineering body of knowledge version 1 0M Hoboken,NJ:The Trustees of the Stevens Institute of Technology,20129 DOI D Model-based systems engineering with OPM andSysMLM New York:Springer,201601飞机设计第43 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服