1、Research on Intelligent Perception and Decision-making of CombatEntities Based on Deep Reinforcement LearningLIU Wangding,ZHANG Guoning*,ZHENG Shiming(Battle Laboratory of Army Command College,Nanjing 210045,China)Abstract:In order to solve the autonomous perception and decision-making problem of co
2、mbatentities in the battlefield,the intelligent perception and decision-making framework based on deepreinforcement learning is constructed,including such four modules as situation data preprocessing,situation awareness,action optimization and knowledge base,its application effects are verified by t
3、heUAV penetration experiment with single agent,a feasible technical approach to solve the problem ofautonomous perception and decision-making of combat entities is provided.Key words:artificial intelligence;intelligent perception;intelligent decision-making;deep reinforce-ment learningCitation forma
4、t:LIU W D,ZHANG G N,ZHENG S M.Research on intelligent perception anddecision-making of combat entities based on deep reinforcement learning J.Fire Control&CommandControl,2023,48(5):164-169.收稿日期:2022-03-05修回日期:2022-05-10作者简介:刘网定(1981),女,江苏扬州人,硕士,讲师。研究方向:军事运筹,作战模拟。通信作者:张国宁(1978),男,山东泗水人,博士,教授。研究方向:作战指
5、挥,军事运筹。*摘要:为解决战场上作战实体的自主感知与决策问题,构建了一种基于深度强化学习的智能感知与决策框架,主要包括态势数据预处理、态势感知、行动优化和知识库 4 个模块,并通过单智能体无人机突防实验验证其应用效果,为解决作战实体的自主感知与决策问题提供了一种可行的技术途径。关键词:人工智能;智能感知;智能决策;深度强化学习中图分类号:TP18文献标识码:ADOI:10.3969/j.issn.1002-0640.2023.05.024引用格式:刘网定,张国宁,郑世明.基于深度强化学习的作战实体智能感知与决策研究 J.火力与指挥控制,2023,48(5):164-169.基于深度强化学习的
6、作战实体智能感知与决策研究刘网定,张国宁*,郑世明(陆军指挥学院作战实验室,南京210045)0引言伴随着前沿智能科技的飞速发展,越来越多的无人装备、智能技术应用于战场,智能化战争初露端倪。现有计算机辅助决策通常是基于规则的决策,智能化程度较低,难以适应未来有人/无人作战新形势的需求,这就需要突破传统靠固定规则推理的方法,探求具备自我学习和动态分析预测能力的方法框架,以求自主而准确地判断战场态势并作出行动决策。从 AlphaGo、星际争霸 AI 到 AlphaGo Zero,深度强化学习技术在围棋、游戏、自动驾驶、机器人制造等领域取得不断进展,使得智能感知与决策可以达到甚至超越人类水平,例如
7、AlphaGo 依靠深度学习把握了围棋对弈的“直觉”棋感和棋势,通过强化学习实现了自我学习和优化棋招,击败了围棋世界冠军李世石。深度强化学习的机制与方法1-5,借鉴参考了心理学中的行为主义理论,符合人类的分析决文章编号:1002-0640(2023)05-0164-06火 力 与 指 挥 控 制Fire Control&Command Control第 48 卷第 5 期2023 年 5 月Vol.48,No.5May,2023164(总第 48-)策思维方式,这为解决自主感知与决策问题提供了一种技术框架。本文利用深度学习挖掘态势数据中的隐含特征,全面地抽象到态势感知;再通过强化学习模仿人对事
8、物的认知方式,在无监督的情况下,通过不断地试错,达到对战场态势的累积学习,形成正确的战场认知结论与决策结果。1框架构建原理1.1强化学习基本结构强化学习受到人和动物学习中试错法的启发,智能体如何决策(作出行动)来源于环境的反馈,对于正确的行动,环境会给出奖励,对于错误的行动,环境会给出惩罚,智能体根据环境的反馈来调整自己的决策,通过与环境的不断交互与反馈,最终能够得到最优决策方案。强化学习基本结构如图 1 所示。图 1强化学习基本结构图Fig.1Basic structure of reinforcement learning1.2基于深度强化学习的感知与决策原理深度强化学习本质是将深度神经网
9、络融入强化学习基本结构之中。针对大规模状态/动作空间问题(包括连续状态/动作空间问题),值表形式的值函数所需要的存储空间远远超过了现代计算机的硬件条件,使得经典的强化学习算法不再适用。在此情况下,可使用深度神经网络对复杂环境状态予以分析表示,解决智能体对环境状态的难以理解问题;使用深度神经网络对强化学习的相关函数(例如价值函数、动作价值函数、策略函数等)进行估计,解决强化学习的维度灾难问题。基于深度强化学习的感知与决策原理如图 2 所示。2基于深度强化学习的智能感知与决策框架依据 1.2 中的原理,基于深度强化学习的智能感知与决策框架主要由两部分组成,一是智能体对环境的感知部分,此部分基于深度
10、学习构建,二是智能体的行动优化部分,此部分基于强化学习(包含深度神经网络的强化学习)构建;同时,考虑态势数据的预处理与专家知识的利用。因而,基于深度强化学习的智能感知与决策框架包含态势数据预处理、态势感知、行动优化和知识库 4 个模块。预处理模块用以对态势数据进行清洗、归一等操作;态势感知模块由多个神经网络融合而成,用以表征战场态势;行动优化模块用以“评判”智能体的行为;战场知识库用以“指导”神经网络模型的构建,提高深度学习与强化学习的学习效率。框架示意图如下页图 3 所示。2.1态势数据预处理模块战场态势数据一般需进行预处理,以满足深度强化学习算法要求,预处理方法主要包括检测、清洗、集成、归
11、一化、正则化等,但并非所有的态势数据均要通过所有预处理操作,需视具体态势数据的获取、来源、格式等情形而定。例如对于收集到的传感器数据,由于传感器状态信息的量程并不一致,在将数据信息传入网络模型之前,为了提升模型的收敛速度及精度,防止模型出现梯度爆炸,应对传感器信息数据进行归一化处理,统一量程。2.2知识库模块感知和决策的过程都需要知识库予以支撑,在知识库的驱动下,感知信息更为精准,决策依据更为充分,学习的收敛速度会更快,学习的结果会更可靠。知识库包括战场环境知识库、敌我部署知识库、敌我状态知识库以及敌我行动知识库等。知识库中的知识来源于两方面:1)直接存入库中的军事领域专家知识,2)通过不断学
12、习获得的经验知识。2.3基于深度学习的态势感知模块利用深度神经网络的表征能力,可挖掘出态势数据中包含的特征与关系,包括战场上作战实体的属性、状态、类别、运动趋势,不同作战实体间的关图 2基于深度强化学习的感知与决策原理示意图Fig.2Schematic diagram of perception and decision-makingprinciple based on deep reinforcement learning刘网定等:基于深度强化学习的作战实体智能感知与决策研究1650927(总第 48-)火 力 与 指 挥 控 制2023 年第 5 期系等,形成态势感知表示6-8。由于战场态
13、势的复杂性,往往无法用单个深度神经网络进行表征,因而基于指挥员的思维模式,将感知过程和目标进行分层,构建面向态势感知的复合架构深度学习模型。具体构建方法为:1)通过对战场环境数据的学习,建立环境感知模型;2)通过对战场上各个作战实体的属性、状态、行动趋势数据的学习,建立实体感知模型;3)通过对不同作战实体特定时间段中时序状态信息的学习,构建实体间的关系判定模型;4)以实体感知模型为主体,以实体间的关系判定模型为基本联系,结合环境感知模型,进行模型的融合,生成面向态势感知的复合架构深度学习模型,如图 4 所示。在单个深度学习模型构建过程中,为提高模型的学习效率,可采用条件反射法,将强化学习的行动
14、效果与专家知识、规则融入模型当中。如下式所示:wij(t+1)=wij(t)+yj(t)yi(t)wij(t+1)=wij(t+1)+yj(t+1)yi(t)(1)其中,wij表示神经元 j 到神经元 i 的连接权;yi、yj为神经元的输出;yj 是基于专家知识与规则的输出,、是表示学习速度的常数。1)若 yi与 yj同时被激活,即 yi与 yj同时为正,那么 wij将增大,即此时强化学习的行动得到正的奖励,正确的态势理解结果被予以肯定和保留。2)若 yj 与 yj同时被激活,即 yj 与 yj同时为正,那么 wij将增大,即此时态势理解结论与专家知识、规则相一致,正确的态势理解结果被予以肯定
15、和保留。3)若 yi被激活,而 yj处于抑制状态,即 yi为正yj为负,那么 wij将变小,即此时强化学习的行动得到惩罚,错误的态势理解结果被予以否定。4)若 yi被激活,而 yj 处于抑制状态,即 yi为正yj 为负,那么 wij将变小,即此时态势理解结论与专家知识、规则相悖,错误的态势理解结果被予以否定。图 3基于深度强化学习的智能感知与决策框架示意图Fig.3Schematic diagram of intelligent perception and decision-making framework based on deep reinforcement learning图 4复合架
16、构深度学习感知模型示意图Fig.4Schematic diagram of composite architecture deeplearning perception model1660928(总第 48-)2.4基于强化学习的行动优化模块利用深度神经网络对战场态势表征后,并不知道其表征结果如何、与真实结果有多大偏差,利用强化学习的行动反馈机制,可通过智能体的行动去验证与调整表征结果。在此,从单智能体强化学习出发,借鉴强化学习在自动驾驶领域的成熟技术与经验9-10,构建行动优化 Actor-Critic 模型,如图 5所示。图 5行动优化 A-C 模型示意图Fig.5Schematic di
17、agram of A-C model for action optimizationA-C 模型主要由两部分组成,一是 Actor(执行器)部分,即智能体将要采取的策略,另一个是 Critic(评价器)部分,即智能体得到的行动反馈(值函数),两部分分别通过深度神经网络表示。模型训练时,Actor 与 Critic 交互更新,Actor 选择策略,Critic给出评价,最终可得最优行动策略。在战场环境中,利用深度强化学习进行自主感知与决策的单智能体实体,比如无人机、坦克,均为连续动作行动,可采用适合连续动作决策的强化学习算法,如 DDPG算法、A3C 算法等。在行动优化模块中,可采用启发式回报函
18、数设计方法对知识库进行有效利用11-12。启发式回报函数设计规则为:if sS0,then a=a1,F(s,a,s)=rif 规则发生,then a=a1,F(s,a,s)=r(2)即当 sS0,或某规则发生时,智能体执行动作a1,回报函数 F(s,a,s)赋值为 r,这样便可刺激在某状态集 S0或某规则发生情况下智能体执行动作 a1。例如,如果(if)敌方作战单元行动速度、力量规模、装备类型、行动方向满足一定条件,根据专家知识,则可判定敌方将要采取何种行动,然后(then)智能体采取相应的对策 a=a1,回报函数 F(s,a,s)=r。3案例分析此部分通过仿真实验,结合具体想定,验证深度强
19、化学习在智能感知与决策上的应用效果13。3.1实验想定3.1.1基本情况红方对阵地防御的蓝方实施进攻作战,其中对红方部队威胁最大的是蓝方坦克部队,为尽快消灭蓝方坦克部队,红方指挥员迅速申请空中火力支援。上级派出无人机突击力量,依靠自身能力突破蓝方残余地面防空火力,对蓝方坦克部队实施攻击。3.1.2红蓝双方作战目标红方作战目标:利用无人机空中优势,快速突破敌防空,消灭蓝方坦克。蓝方作战目标:使用防空武器击落红方无人机,保护坦克不受其攻击。3.1.3红蓝双方兵力实验设定红方兵力为固定翼无人机 1 架,蓝方兵力为坦克排 1 个、地空导弹排 4 个,具体如表 1所示。表 1红蓝双方兵力Table 1F
20、orces of red and blue parties3.2框架设定3.2.1态势数据预处理模块本实验将红方无人机设定为智能体。实验的每轮训练中,初始态势数据包括:无人机的位置(经度、纬度、高度)、朝向、速度、毁伤程度、作战任务,地空导弹排的位置(经度、纬度)、朝向、速度、毁伤程度、作战任务,坦克排的位置(经度、纬度)、朝向、速度、毁伤程度、作战任务,以及气象条件数据。训练之前,对战场环境中各作战单元的属性、状态、特征进行了编码,并对距离数据进行了归一化预处理。3.2.2知识库模块实验的模型训练与模拟对抗主要运用合成部队层级知识库,包括红蓝双方作战编成、作战编组、兵力部署、毁伤程度、作战行
21、动、作战任务与规则。3.2.3态势感知模块对于实际战场环境,各作战单元的类型、属性、状态数据不可直接获得,一般需通过传感器获得相关数据。比如,通过传感器采集到作战目标图像,再通过感知模块中用于目标识别的深度神经网络,可初步判别出是何种目标。而本实验是仿真实验,各作战实体的类型、属性等数据系统可直接属性标识类别类型建制单位总数量红方固定翼无人作战飞行器 固定翼无人机1蓝方移动车辆陆军分队坦克排1移动车辆地防导弹分队地空导弹排4刘网定等:基于深度强化学习的作战实体智能感知与决策研究1670929(总第 48-)火 力 与 指 挥 控 制2023 年第 5 期完成训练次数03 0005 0007 0
22、00无人机成功突防并完成打击任务的平均概率/%051.288.693.6获得,因而态势感知模块的神经网络仅为简单线性函数。3.2.4行动优化模块1)算法选择此模块采用强化学习的 DDPG 算法。DDPG 算法基于 Actor-Critic 模型结构,并通过复制一个目标网络作为原网络的逼近对象进行缓慢更新,以保证训练过程的稳定性,如图 6 所示。2)动作设定强化学习模型中智能体无人机的动作值设定为“机动”与“开火”。执行动作函数时,首先检查是否进入任务区,进入任务区,则检查是否发现目标,发现目标进行自动开火;没有进入任务区,则设置无人机“机动”。3)奖惩设定智能体无人机的奖惩设定为:a)根据离目
23、标的远近设定回报Rd:Rd=10ed(无人机,坦克),无人机离坦克排越近,获得的奖励值越大。b)根据是否进入目标区域设定回报 Ra:进入目标区域,获得正的奖励,Ra=10;否则,Ra=0。c)根据是否发现打击目标、是否执行了打击任务设定回报 Rs:发现目标,获得正的奖励,Rs=50;击毁目标,获得更高的奖励,Rs=150;否则,Rs=0。d)根据是否被对方击中设定回报 Rf:若被对方击中,得到负的奖励,Rf=-100;否则,Rf=0。3.3实验结论训练前,智能体完成任务的概率基本为 0;3 000次训练后,对 20 次仿真实验进行统计,智能体无人机成功突防并完成打击任务的平均概率提升为51.2
24、%;5 000 次训练后,平均概率提升为 88.6%;7 000 次训练后,平均概率提升为 93.6%。智能体任务完成率对比情况如表 2 所示,每个回合获得的平均奖励值如图 7 所示。训练前,智能体无人机对战场态势没有自主感知能力,不知道打击目标在哪里、如何去寻找,其行动显示无规则。训练后,智能体无人机能够掌握对方地面防空武器威胁情况,能够自主确定最佳进攻路线,使其在飞行航线中威胁最小、生存概率最大,如下页图 8 所示。4结论深度强化学习被认为是推进机器自主化与智能化最具潜力的技术。本文通过无人机突防仿真实验,展现了深度强化学习技术在作战实体智能感知与决策上的应用效果。推广应用于无人装备,可使
25、其拥有自主感知与决策能力,能够自主进行环境侦察、路径规划、任务规划等活动,自主完成导航、制图 6DDPG 算法示意图Fig.6Schematic diagram of DDPG algorithm表 2完成任务对比情况表Table 2Comparison of completed tasks图 7智能体获得的平均奖励值Fig.7Average reward value obtained by the agent1680930(总第 48-)图 8训练后的无人机自主感知与决策效果图Fig.8Effect diagram of autonomous perception and decision-
26、making of UAV after training导、协调、目标识别、捕获、攻击等任务,提升无人装备的智能水平与应用效益。参考文献:1 MNIH V,KAVUKCUOGLU K,SILVER D,et al.Human-level control through deep reinforcement learningJ.Na-ture,2015,518(7540):529.2 SILVER D,HUANG A,MADDISON J,et al.Mastering thegame of go with deep neural networks and tree search J.Natur
27、e,2016,529(7587):484-489.3 SILVERD,SCHRITTWIESERJ,SIMONYANK,etal.Mas-tering thegame of go without human knowledge J.Nature,2017,550(7676):354-359.4 BERNER C,BROCKMAN G,CHAN B,et al.Dota2 withlarge scale deep reinforcement teaming J.arXiv preprint,2019,arXiv:1912-1980.5 SUTTON R S,BARTO A G.Reinforce
28、ment learning:an in-troduction J.IEEE Transactions on Neural Networks,2005,16(1):285-286.6 李赞,刘钢,老松杨.战场态势及态势估计的新见解 J.火力与指挥控制,2012,37(9):1-5.LI Z,LIU G,LAO S Y.A new interpretation of battle fieldsituation and battle situation assessment J.Fire Control&Command Control,2012,37(9):1-5.7 朱丰,朱晓峰,吴琳,等.基于深
29、度学习的战场态势高级理解模拟方法 J.火力与指挥控制,2018,43(8):25-30.ZHU F,ZHU X F,WU L,et al.Simulation method of bat-tlefieldssituationseniorcomprehensionbasedondeeplearn-ing J.Fire Control&Command Control,2018,43(8):25-30.8 吴志强,张俊峰.基于深度强化学习的自动态势估计研究 J.军事运筹与系统工程,2018,32(2):42-46.WU Z Q,ZHANG J F.A study on automatic situa
30、tion as-sessment based on deep reinforcement learning J.MilitaryOperations Research and Systems Engineering,2018,32(2):42-46.9 张斌,何明,陈希亮,等.改进 DDPG 算法在自动驾驶中的应用 J.计算机工程与应用,2019,55(10):264-270.ZHANG B,HE M,CHEN X L,et al.Self-driving via im-proved DDPG algorithm J.Computer Engineering and Ap-plications
31、,2019,55(10):264-270.10 余伶俐,邵玄雅,龙子威,等.智能车辆深度强化学习的模型迁移轨迹规划方法 J.控制理论与应用,2019,39(9):1409-1422.YU L L,SHAO X Y,LONG Z W,et al.Intelligent landvehicle model transfer trajectory planning method of deepreinforcement learning J.Control Theory and Applica-tion,2019,39(9):1409-1422.11 魏英姿,赵明扬.强化学习算法中启发式回报函数的设
32、计及其收敛性分析 J.计算机科学,2005,32(3):190-193.WEI Y Z,ZHAO M Y.Design and convergence analysis ofa heuristic reward function for reinforcement learning al-gorithms J.Computer Science,2005,32(3):190-193.12 李晨溪,曹雷,张永亮,等.基于知识的深度强化学习研究综述 J.系统工程与电子技术,2017,39(11):2603-2613.LI C X,CAO L,ZHANG Y L,et al.Knowledge-baseddeep reinforcement learning:a reviewJ.Systems Engi-neering and Electronics,2017,39(11):2603-2613.13 魏宁.深度强化学习落地指南 M.北京:电子工业出版社,2021.WEI N.Guide to the implementation of deep reinforcementlearning M.Beijing:Electronic Industry Press,2021.刘网定等:基于深度强化学习的作战实体智能感知与决策研究1690931
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100