收藏 分销(赏)

基于生成对抗近端策略优化的机动策略优化算法.pdf

上传人:自信****多点 文档编号:641404 上传时间:2024-01-22 格式:PDF 页数:6 大小:1.17MB
下载 相关 举报
基于生成对抗近端策略优化的机动策略优化算法.pdf_第1页
第1页 / 共6页
基于生成对抗近端策略优化的机动策略优化算法.pdf_第2页
第2页 / 共6页
基于生成对抗近端策略优化的机动策略优化算法.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年海军 航空大 学学 报海军 航空大 学学 报2023第38卷 第3期Journal of Naval Aviation UniversityVol.38 No.3文章编号:2097-1427(2023)03-0257-05DOI:10.7682/j.issn.2097-1427.2023.03.004基于生成对抗近端策略优化的机动策略优化算法付宇鹏1,邓向阳1,2,朱子强1,高阳1,张立民1(1.海军航空大学,山东 烟台 264001;2.清华大学,北京 100084)摘要:针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优

2、化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。关键词:生成对抗模仿学习;近端策略优化;机动决策;强化学习;模仿学习中图分类号:TP181文献标识码:A0 引言自20世纪50年代以来,空战智能博弈一直是军事研究的重点之一。在诸多空战机动策略、姿态控制优化方法研究中,基于人工

3、智能技术的算法取得了长足进步1-5。随着计算机硬件算力的提升和算法的进步,深度强化学习(DRL)技术以其优秀的逼近能力成为近年来的研究热点,其在面对复杂状态空间问题时仍能获得高水平策略模型。传统强化学习算法效率和效果与任务的奖励函数设计密切关联,但空战博弈态势复杂,且六自由度(6-dof)飞机模型具有高阶非线性的特点,因而在训练初期,智能体很难获得正向奖励,致使算法难收敛。模仿学习技术则直接利用专家经验数据生成策略,在自动驾驶、无人机导航控制、机器人等领域被广泛应用6-9,主要分为行为克隆10、逆强化学习11、对抗模仿学习123类算法。但这些算法中,智能体依靠示例数据学习策略,对于空战博弈这类

4、目标不明确的环境表现不佳。因此,将模仿学习和强化学习相结合的算法成为这类环境中生成智能体策略的研究热点5,13-15。本文基于强化学习、模仿学习技术在飞行控制、智能博弈等方面的研究2,4-5,针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,提出了生成对抗式近端策略优化算法(GA-PPO)。在传统PPO算法的策略-价值网络(Ac-tor-Critic)框架基础上,增加判别器(Discriminator)网络,用来判断输入状态-动作是否属于当前策略或专家策略,在策略训练时约束当前策略向专家策略方向更新。1 研究背景1.1 近端策略优化算法强化学习算法包括基于价值、基

5、于策略和二者结合的Actor-Critic方法。本文以Actor-Critic方法为基础。Actor网络即策略网络,记为()st,其中,st表示t时刻状态,表示策略网络参数,策略网络输出动作at(st);Critic网络即价值网络,记为V(st),表示价值网络参数,价值网络用来估计当前策略的回报Rt,表示为:Rt=Ea(|s)t=ttr(st,at)。(1)式(1)中:E()为数学期望;为折扣系数,确保马尔科夫决策过程能够收敛;r为奖励函数,通常在实际环境中根据专家经验设计。强化学习算法目标是使回合回报最大化。在诸多算法中,TRPO16、PPO17等算法稳定性高,收敛效率高,成为了典型的基线算

6、法。以PPO2算法为例,其采用优势函数A来表示策略优劣,以减小方差,提高算法稳定性。A定义为:A(st,at)=E()Rt|st,at-V(st)。(2)实际实现时,定义At来估计A,采用使用较为广泛的广义优势估计(GAE)方法18,定义为:收稿日期:2023-02-24;修回日期:2023-04-13基金项目:国防高层次人才基金项目(202220539、202220540);山东省高等学校“青创团队计划”(2022KJ084)作者简介:付宇鹏(1991),男,讲师,博士。海 军 航 空 大 学 学 报海 军 航 空 大 学 学 报第38卷At=t+()t+1+()T-t+1T-1。(3)其中

7、,t=rt+V(st+1)-V(st),参数用来平衡方差和偏差。此外,算法中利用重要性采样方法(importantsampling)直接剪裁旧策略与新策略的概率幅度,记为ct()=()at|st/,old()at|st。因此,得到PPO2算法的损失函数表示为式(4)(6)。ppo=Etppopolicy()-ppovalue();(4)ppopolicy()=min()ct()At,clip()ct(),1-,1+At;(5)ppovalue()=12Rt-V(st)2。(6)1.2 生成对抗模仿学习算法生成对抗模仿学习(GAIL)算法启发于最大熵逆强化学习(IRL)和生成对抗网络(GAN)。

8、在on-policy算法(如TRPO、PPO等算法)框架基础上,设计判别器D(st,at),用来判断输入的采样数据是生成于专家策略还是当前策略。GAIL算法目标,可理解为匹配当前策略分布与专家策略分布,使判别器无法区分当前策略和专家策略,其损失函数定义为:gaildisc()=E()lnD(s,a)+EE()ln(1-D(s,a);(7)gailpolicy()=E()lnD(s,a)。(8)式(7)(8)表示在GAIL算法中:首先,对当前策略和专家策略E采样,更新判别器参数;而后,以最大化判别器输出更新策略网络参数,此处可将D(s,a)类比于强化学习算法中的状态-动作价值函数Q(s,a)。由

9、于GAIL算法依靠专家数据生成策略,当该数据集包含的策略非最优,或无法达到目标时,生成策略性能将无法保证。因此,本文将强化学习环境探索优势与模仿学习的策略约束优势相结合,提出生成对抗式近端策略优化算法。2 GA-PPO算法GA-PPO算法框图见图1。模型包含价值网络、策略网络和判别器网络,部署时只保留策略网络;经验池包含示例经验池和回合经验池,示例数据池中的轨迹数据三元组(sEt、aEt、sEt+1)由人机对抗和基于规则模型的机机对抗产生。回合经验池中存储当前策略与环境交互所产生的轨迹四元组(st、at、st+1、rt),每回合训练结束后,回合经验池清空。图中包括3类数据流:环境交互数据流,当

10、前策略与环境交互,生成轨迹数据存入回合经验池;DA网络更新数据流,回合结束后,根据式(7),利用梯度下降方法更新判别器网络参数,而后,根据式(8)更新策略网络参数,从而约束当前策略分布向专家策略收敛;AC网络更新数据流,与PPO算法流程相同,根据式(8)更新AC网络。图1 GA-PPO算法框图Fig.1 Framework of GA-PPO algorithm为提高算法收敛速度和稳定性,采用分布式并行计算方式,设置n个分布式rollout worker和1个中心learner。Rollout workers与环境交互,存储回合轨迹数据;回合结束后,计算各自策略梯度并回传learner进行梯度

11、累加,更新网络参数后,广播给各rollout work-er,采集新一轮数据。算法流程如图 2 所示。首先,建立示例经验池DE=1,2,.,n,其中n表示第n条飞行轨迹,即n=(snk,ank,snk+1)。初始化各网络参数和算法超参数。每回合结束后,采样DE和Di,计算策略梯度gaili和ppoi,由learner累加梯度并更新网络参数,最终,输出最优策略网络参数*。输入:示例经验池DE=1,2,.,n,经验数据池Di=初始化网络参数、初始化超参数,n输出:最优策略网络参数*for iteration=1,2,doend for/worker:for worker=1,2,ndoend fo

12、r/learner:,+,gaili,+,ppoiend for策略,old与环境交互,更新Di计算workeri的梯度ppoi,gaili图2 GA-PPO算法流程Fig.2 Flow of GA-PPO algorithm 258第3期付宇鹏,等:基于生成对抗近端策略优化的机动策略优化算法3 实验仿真环境设计实验仿真环境采用OpenAI gym平台框架,飞机空气动力学模型采用JSBSim开源平台的F-16飞机模型,其内部包含基本增稳系统。飞机在高空飞行过程中,机动动作由控制升降舵、副翼、方向舵和油门完成,因此,策略网络输出为舵面偏转角度和油门开度at=el,ai,ru,th。对抗过程中,红

13、方由策略网络控制,蓝方由基于PID控制器的简单规则模型控制。为简化实验复杂度,双方态势全透明,设计状态向量st为:st=,h,V,V,X,ATA,AA。(9)式(9)中:、为飞机自身姿态角;为俯仰角速度;为当前滚转角;h为自身当前高度;V、V、X分别为NED坐标系下的红方和蓝方的速度矢量、速度差矢量和相对位置矢量;ATA为方位角;AA为目标进入角。st均归一化处理。为保证算法收敛,一般设计较为稠密的奖励函数。本文主要考虑角度优势、能量优势和满足发射条件等方面,因此,设计奖励函数rt为:rt=ArAt+RrRt+ErEt;(10)rAt=e-(|1-ATA/|+|1-AA/|)rRt=e-|R-

14、R0|rEt=E/E0。(11)式(10)中,代表权重。此外,还应考虑飞机稳定飞行和保证在指定空域飞行的限制条件,因此,引入边界惩罚项,避免飞机诱导坠地等错误决策出现。4 系统仿真仿真中,红蓝双方初始高度19 km,初始相对水平距离10 km,初始速度150300 m/s,初始任意姿态,仿真步长20 ms,每回合5 min。算法中超参数设计如表1所示。DAC网络结构均采用全连接结构,其中隐藏层激活函数均为ReLu函数,策略网络输出层激活函数为tanh函数,判别器网络输出激活函数为sigmoid函数。损失函数采用Adam方法更新梯度19。表1 GA-PPO算法参数设置Tab.1 Paramete

15、rs of GA-PPO algorithm名称A网络D-C网络值17(256)4417(256)41110-40.20.998名称nbatch sizeDEsize值625611050.95图3给出了回报函数的仿真结果。仿真中,首先利用示例数据对策略模型进行行为克隆预训练,避免智能体在训练初始阶段不收敛。实验中,对比了PPO算法、PPO-SIL20算法和本文的 GA-PPO 算法。GA-PPO-1中为常数,GA-PPO-2表示随仿真回合增加逐渐降低,即训练初期通过模仿学习提高智能体训练效率,训练后期通过强化学习提高其环境的探索能力。结果显示,GA-PPO算法的收敛效率和最终回报要高于PPO算

16、法和PPO-SIL算法。在约200回合前,GA-PPO算法需要训练判别器,因而回报函数略有波动,而后快速升高。GA-PPO-1算法在训练中始终存在示例约束,因而波动较GA-PPO-2更小。图3 回报函数仿真曲线Fig.3 Simulation curve of return function图4给出了价值函数的仿真曲线,即价值网络输出均值仿真,表示约10 s仿真步长的策略价值。为了提高比较的准确性,价值网络输入均为示例数据采样。结果表明,GA-PPO算法较PPO-SIL算法收敛速度更快,原因在于智能体状态空间探索的概率分布更接近示例数据,因而价值网络更新方向更稳定。图4 价值函数仿真曲线Fig

17、.4 Simulation curve of value function图5给出了根据公式(7)得到的判别器目标函数仿真曲线。该函数接近2ln()0.5=-1.38,说明当前策12 00010 0008 0006 0004 0002 0000回报GA-PPO-1GA-PPO-2PPO-SILPPO01 0002 0003 0004 000回合数605040302010价值GA-PPO-1GA-PPO-2PPO-SIL05 00010 00015 000 20 00025 000 30 000仿真步数 259海 军 航 空 大 学 学 报海 军 航 空 大 学 学 报第38卷略接近示例策略,即

18、判别器无法区分当前策略和示例策略。GA-PPO-2中,逐渐减小,因而训练中强化学习算法的更新比重逐渐增加。尽管回报仍逐渐增加,但当前策略与示例策略分布偏差略有增加。结果说明,可以通过调节式(8)和式(5)中的的比例来影响策略分布,选择智能体探索环境或模拟专家策略。图5 判别器目标函数仿真曲线Fig.5 Simulation curve of D-object funtion of discrimination图6给出了红蓝双方均使用GA-PPO生成策略的对抗态势图。红蓝双方初始态势均势,高度5 km,速度200 m/s,相向飞行。a)GA-PPO-1对抗GA-PPO-2模型a)GA-PPO-1

19、 model against GA-PPO-2 modelb)GA-PPO-1模型自博弈b)Self-play of GA-PPO-1 model图6 空战博弈态势图Fig.6 Diagram of air combat play图6 a)中,红方使用GA-PPO-1生成模型,蓝方使用GA-PPO-2生成模型。10 s时,双机对头有进入双环战趋势,而后双方相向飞行处于均势,20 s时红方选择半滚倒转机动迅速调转机头指向蓝方,蓝方处于劣势,爬升急转脱离未果,红方始终保持后半球优势;图6 b)中,红蓝双方均使用GA-PPO-1生成模型自博弈,双机交会后进入剪刀机动,均未能率先脱离,在双方使用相同策

20、略下和初始均势开局情况下,最终收敛于纳什均衡点,与直观态势理解相一致。5 结论本文提出了1种基于GA-PPO的空战机动决策生成算法,能够利用示例数据约束策略优化方向,提高算法收敛效率。同时,结合强化学习环境探索能力,优化当前策略。结果表明,基于GA-PPO算法的策略模型具有较高智能性,较符合专家经验。但算法仍存在一些问题:一方面,利用强化学习技术探索环境能力受限于奖励函数,对空战态势评估函数准确性、引导性、稠密性要求较高;另一方面,示例数据的多峰或非最优性问题未得到根本的解决。此外在模型实际部署模拟器进行人机对抗时,应考虑对手变化带来的迁移问题,在未来工作中需要进一步优化。参考文献:1WANG

21、 ZHUANG,LI HUI,WU HAOLIN,et al.Improv-ing maneuver strategy in air combat by alternate freezegames with a deep reinforcement learning algorithmJ.Mathematical Problems in Engineering,2020,2020:7180639.2付宇鹏,邓向阳,朱子强,等.基于PPO-SIL算法自博弈的近距空战机动决策方法C/首届空中智能博弈论坛.成都:中国指挥与控制学会,2022:138-143.FU YUPENG,DENG XIANGY

22、ANG,ZHU ZIQIANG,et al.A self game decision method for short range aircombat maneuver based on PPO-SIL algorithmC/TheFirst Air Intelligence Game Forum.Chengdu:Chinese In-stitute of Command and Control,2022:138-143.(in Chi-nese)3POPE A P,IDE J S,MIOVI D,et al.Hierarchical rein-forcement learning for a

23、ir-to-air combatC/2021 Interna-tional Conference on Unmanned Aircraft Systems(ICU-AS).Piscataway,NJ,USA:IEEE,2021:275-284.4付宇鹏,邓向阳,何明,等.基于强化学习的固定翼飞机GA-PPO-1GA-PPO-2-0.3-0.4-0.5-0.6-0.7-0.8-0.9D目标函数05 00010 00015 000 20 000 25 000 30 000 x/kmy/kmz/kmredblue仿真步数x/kmy/kmz/kmredblue 260第3期付宇鹏,等:基于生成对抗近端

24、策略优化的机动策略优化算法姿态控制方法研究J/OL.2023-02-17.https:/doi.org/10.13195/j.kzyjc.2021.2230.FU YUPENG,DENG XIANGYANG,HE MING,et al.Reinforcement learning based attitude controller designJ/OL.2023-02-17.https:/doi.org/10.13195/j.kzyjc.2021.2230.(in Chinese)5付宇鹏,邓向阳,朱子强,等.基于模仿强化学习的固定翼飞机姿态控制器J.海军航空大学学报,2022,37(5):3

25、93-399.FU YUPENG,DENG XIANGYANG,ZHU ZIQIANG,et al.Imitation reinforcement learning based attitude con-troller for fixed-wing aircraftJ.Journal of Naval Avia-tion University,2022,37(5):393-399.(in Chinese)6BOJARSKI M,DEL TESTA D,DWORAKOWSKI D,etal.End to end learning for self-driving carsEB/OL.2023-0

26、2-17.https:/arxiv.org/abs/1604.07316.7GIUSTI A,GUZZI J,CIREAN D C,et al.A machinelearning approach to visual perception of forest trails formobile robotsJ.IEEE Robotics and Automation Letters,2016,1(2):661-667.8ZIEBART B D,MAAS A,BAGNELL J A,et al.Maxi-mum entropy inverse reinforcement learningC/Pro

27、ceed-ings of the Twenty-Third AAAI Conference on ArtificialIntelligence.Palo Alto,CA,USA:AAAI Press,2008:1433-1438.9FINN C,LEVINE S,ABBEEL P.Guided cost learning:deep inverse optimal control via policy optimizationC/Proceedings of the 33rd International Conference on In-ternational Conference on Mac

28、hine Learning-Volume48.New York,NY,USA:ACM,2016:49-58.10 ROSS S,GORDON G,BAGNELL D.A reduction of imi-tation learning and structured prediction to no-regret on-line learningC/Proceedings of the Fourteenth Interna-tional Conference on Artificial Intelligence and Statistics.Chia Laguna Resort,Sardinia

29、,Italy:PMLR,2011:627635.11 NG AY,RUSSELL S J.Algorithms for inverse reinforce-ment learningC/Proceedings of the Seventeenth Interna-tional Conference on Machine Learning.New York,NY,USA:ACM,2000:663-670.12 HO J,ERMON S.Generative adversarial imitation learn-ingC/Proceedings of the 30th International

30、 Conferenceon Neural Information Processing Systems.Red Hook,NY,USA:CurranAssociates Inc.,2016:4572-4580.13 ZHU ZHUANGDI,LIN KAIXIANG,DAI BO,et al.Self-adaptive imitation learning:learning tasks with de-layed rewards from sub-optimal demonstrationsC/Pro-ceedings of the AAAI Conference on Artificial

31、Intelli-gence.Palo Alto,CA,USA:AAAI Press,2022:9269-9277.14 NAIR A,MCGREW B,ANDRYCHOWICZ M,et al.Overcoming exploration in reinforcement learning withdemonstrationsC/2018 IEEE International Conferenceon Robotics and Automation(ICRA).Piscataway,NJ,USA:IEEE,2018:6292-6299.15 XU HAORAN,ZHAN XIANYUAN,YI

32、N HONGLEI,etal.Discriminator-weighted offline imitation learningfrom suboptimal demonstrationsC/Proceedings of the39th International Conference on Machine Learning.Chia Laguna Resort,Sardinia,Italy:PMLR,2022:24725-24742.16 SCHULMAN J,LEVINE S,MORITZ P,et al.Trust re-gion policy optimizationC/Proceed

33、ings of the 32nd In-ternational Conference on International Conference onMachine Learning-Volume 37.New York,NY,USA:ACM,2015:1889-1897.17 SCHULMAN J,WOLSKI F,DHARIWAL P,et al.Proxi-mal policy optimization algorithmsEB/OL.2023-02-17.https:/arxiv.org/abs/1707.06347.18 SCHULMAN J,MORITZ P,LEVINE S,et a

34、l.High-di-mensional continuous control using generalized advan-tage estimationC/International Conference for Learn-ingRepresentations(ICLR).SanJuan:PuertoRico,2016:1-14.19 KINGMA D P,BA J.Adam:a method for stochastic opti-mizationC/International Conference for Learning Rep-resentations(ICLR).San Jua

35、n:Puerto Rico,2015:1-14.20 OH J,GUO Y,SINGH S,et al.Self-Imitation learningC/Proceedings of the 35th International Conference onMachine Learning.New York:ACM,2018:3778-3887.(下转第300页)261海 军 航 空 大 学 学 报海 军 航 空 大 学 学 报第38卷Technology,2019,30(12):23-29.(in Chinese)16 The Engineering Society for Advancing

36、 Mobility LandSea Air and Space.Guidelines and methods for conduct-ing the safety assessment process on civil airborne sys-tems and equipment:SAE ARP 4761-1996S.Warrenda-le,PA,USA:SAE International,1996.17 中国人民解放军总装备部.军用装备实验室环境试验方法:GJB 150AS.北京:中国标准出版社,2009:102-120.PLA General Armaments Department.L

37、abora-tory envi-ronmental test methods for military materiel:GJB 150AS.Beijing:Standards Press of China,2009:102-120.(inChinese)18 中国人民解放军总装备部.航空涡轮喷气和涡轮风扇发动机通用规范:GJB 241A-2010S.北京:总装备部军标出版发行部,2010:78-115.General Equipment Department of the Chinese PeoplesLiberation Army.Engine,aircraft,turbojet and

38、turbofangeneral specification for:GJB 241A-2010S.Beijing:The General Armaments Department Military StandardPublication and Distribution Department,2010:78-115.(in Chinese)Forward Design Method for Aero-engineBased on Systematic Engineering V ModelGAO Ming1,LI Ming2,CHEN Qinggui2(1.Naval Equipment De

39、partment,Beijing,100036,China;2.Naval Aviation University,Qingdao Shandong 266041,China)Abstract:To solve the problems of poor requirement analysis,requirement verification as well as forward development capability in the civil design of the aero-engine,a forward design process for the aero-engine b

40、ased on the systematic engineeringV model is established on the basis of guidelines for the development of civil aircraft and systems.It includes requirementdefinition,requirement analysis,requirement confirmation,function analysis,function hazard analysis,logic architecture design,physical architec

41、ture design and balance,design realization,system safety evaluation,product integration and verification,et al.And the established forward design process for aero-engine based on systematic engineering V model is used inthe design of one aero-engine.The DOORs software is used for the requirement def

42、inition of the aero-engine design.Thefault tree analysis method is used for system safety evaluation.The proposed process improves the forward design capacityand level of aero-engine.It is of great significance for improving the production quality of the aero-engine as well as delivering the aero-en

43、gine that satisfies the need of the user.Keywords:aero-engine;requirement definition;requirement analysis;function analysis;architecture design(上接第261页)GA-PPO Based Maneuvering Policy Optimization AlgorithmFU Yupeng1,DENG Xiangyang1,2,ZHU Ziqiang1,GAO Yang1,ZHANG Limin1(1.Naval Aviation University,Y

44、antai Shandong 264001,China;2.Tsinghua university,Beijing 1000084,China)Abstracts:To address the issues that the traditional reinforcement learning algorithm has low convergence efficiency and insufficient use of expert data in air combat maneuver decisions,an algorithm based on generative adversari

45、al technique is designed.The algorithm adopts the Discriminator-Actor-Critic(DAC)framework.Based on Proximal Policy Optimization(PPO)algorithm,the discriminator is trained with expert data and environmental interactive data,while training the policy network to achieve thethe optimization of constrai

46、ned policy towards the expert policy,which improves the convergence of the algorithm and the utilizationefficiency of expert experience.The simulation environment is based on the F-16 aircraft aerodynamic model on the JSBSim opensource platform.The simulation results show that the convergence efficiency of this algorithm is higher than that of the PPOalgorithm,and the generated policy model has good intelligence.Keywords:Generative Adversarial Imitation Learning(GAIL);Proximal Policy Optimization(PPO);manuevering decision;reinforcement learning;imitation learning 300

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服