基于自学习微分对策的主动防御制导方法_陈必露.pdf

资源描述

1、引用格式:陈必露，刘春生，袁斐然基于自学习微分对策的主动防御制导方法 J 电光与控制，2023,30(3):8-14,32 CHEN B L,LIU C S,YUAN FR Active defense guidance based on self-learning differential game J Electronics Optics Control,2023,30(3):8-14,32基于自学习微分对策的主动防御制导方法陈必露，刘春生，袁斐然(南京航空航天大学，南京211000)摘要:主要对三体对抗场景下的主动防御制导方法进行研究。首先，通过构造具有严格反馈形式的三体对抗模型，结合

2、 Backstepping 理论和微分对策思想推导出一种主动防御制导策略;其次，基于自适应动态规划算法建立评价神经网络以自学习在线求解该制导方法，并利用 Lyapunov 稳定性理论证明了闭环系统的稳定性和评价网络权值的收敛性;最终，仿真验证了所设计的主动防御制导方法的有效性。关键词:主动防御;微分对策;自适应动态规划;精确制导武器中图分类号:TP273文献标志码:Adoi:10 3969/j issn 1671 637X 2023 03 002Active Defense Guidance Based on Self-LearningDifferential GameCHEN Bilu,LI

3、U Chunsheng,YUAN Feiran(Nanjing University of Aeronautics and Astronautics,Nanjing 211000,China)Abstract:This paper mainly studies the active defense guidance method in three-body confrontation scenarioFirstly,an active defense guidance method is derived by constructing a three-body confrontation mo

4、del withstrict feedback form,combined with Backstepping theory and differential game idea Secondly,an evaluationneural network is established based on the Adaptive Dynamic Programming(ADP)algorithm to solve theguidance method online,and Lyapunov stability theory is used to prove the stability of the

5、 closed-loop systemand the convergence of the evaluation network weights Finally,simulation results verify the effectiveness ofthe proposed active defense guidance methodKey words:active defense;differential game;adaptive dynamic programming;precision-guided weapon0引言随着精准制导武器的飞速发展，各种强机动、智能化、高速化的导弹武器

6、不断涌现，这些集先进技术于一体的现代拦截进攻导弹对执行任务中的高价值目标(导弹或飞行器等)形成了巨大威胁。从目标角度而言，想要成功突防可以采用携带一枚防卫导弹等主动防御技术，构成进攻导弹目标防卫导弹下的三体对抗场景 1 3。在这类场景中，进攻导弹追击我方目标，目标则采取和防卫导弹共同防御的策略，该策略的主要目的为控制防卫导弹提前拦截进攻导弹并保证目标自身的安全。上述三体对抗场景中，目标和防卫导弹的控制目标具有一致性，其本质都是为了保护目标的安全。结收稿日期:2022-01-20修回日期:2022-03-01基金项目:国家自然科学基金(61473147)作者简介:陈必露(1997)，男，安徽

7、马鞍山人，硕士生。合微分对策思想，可以将三方导弹的对抗看作是进攻方和防守方的微分对策控制问题，其中，防守方由防卫导弹和目标组成，二者的协同控制4 5 又可以视为合作型微分对策问题。文献 6 研究了包含加速度限制的三体对抗场景，将主动防御制导问题转换为连续的动态博弈问题，选取适当的脉冲函数求解了近似最优主动防御制导律;文献 7建立了进攻导弹目标导弹防卫导弹的三体对抗模型，使用终端投影控制方法将三维主动防御策略的研究转化成两个二维平面的控制律设计问题。但是，目前关于导弹主动防御技术的研究多基于导弹模型的线性化进行建模分析8，不符合导弹的高度非线性、强耦合等特点。对此，本文建立了一种进攻导弹目

8、标导弹防卫导弹下的三方导弹攻防场景模型。其中，为了保证防卫导弹提前拦截进攻导弹，通过将系统转变成严格反馈形式9 10，结合 Backstepping 控制理论将提前拦截约束看作是跟踪控制问题，基于 ADP 技术设计了一种新的Vol 30No 3Mar 2023第 30 卷第 3 期2023 年 3 月电光与控制Electronics Optics Control陈必露等:基于自学习微分对策的主动防御制导方法三体对抗主动防御制导律。最终，通过二维平面下的三方导弹攻防仿真验证了所设计的主动防御技术的有效性，进一步拓展了 ADP 技术在导弹拦截制导场景中的应用范围。1问题描述考虑到三体对抗模型具有

9、严格反馈形式，首先分析一类严格反馈非线性系统xi=fi(xi)+gi(xi)xi+1+ki(xi)vixn=fn(xn)+gn(xn)u+kn(xn)vny=x1(1)式中:xi=(x1 xi)TRi，xi(i=1，n)为系统式(1)的状态;uR，表示防卫导弹的控制输入;viR，表示目标导弹的控制输入分量;yR，为系统的输出。已知三体对抗系统的状态和距离有关，为保证防卫导弹提前拦截进攻导弹，这里假设输出 y 受约束于一个和防卫导弹杀伤半径相关的紧闭区域，即|y|ry，ry0。另外，fi(xi)R，gi(xi)R 和 ki(xi)R 均为已知的非线性连续函数。针对式(1)，设计控制律 u，vi的

10、目的是输出 y 能以最优方式跟踪给定的参考信号，使得防卫导弹在进攻导弹拦截目标之前优先实现对进攻导弹的反拦截。为了便于下文的控制器设计，给出如下假设。假设1非线性函数项gi(xi)R，ki(xi)R 的范数均满足有界条件，即存在两个正常数 bg和 bk使得不等式gi(xi)bg，ki(xi)bk成立。针对系统式(1)，目标为设计一种主动防御制导方法保证三体对抗过程中目标成功逃逸，且防卫导弹提前拦截敌方进攻导弹。主要方案为设计 Backstep-ping 控制器处理系统式(1)中输出 y 的跟踪控制问题，从而将原系统式(1)转化为仿射形式的微分对策系统。其次，结合 ADP 算法设计一种自学习微分

11、对策控制器，实现对该微分对策系统的最优控制。综上可知，防卫导弹最终的主动防御制导律 u 由两部分组成，即u=ua+u*(2)式中:ua为 Backstepping 控制器;u*为微分对策控制器。2复合控制器设计2 1Backstepping 控制器设计首先，基于 Backstepping 控制理论，定义系统式(1)的误差动态面为z1=y ydzi=xi xid(3)式中:zi(i=1，n)表示误差动态面变量;yd为给定的参考信号;xid=xaid+x*id，xaid为 Backstepping 控制输入部分，x*id为后续微分对策控制输入部分。其次，Backstepping 控制器的设计过程如

12、下。第一步。对 z1求导得到z1=F1(z1)+f1(x1d)+g1(x1)z2+g1(x1)xa2d+g1(x1)x*2d+k1(x1)v1 yd(4)式中，F1(z1)=f1(x1)f1(x1d)，x1d=yd。考虑输出跟踪约束，定义 Lyapunov 函数为V1=12z21(5)对式(5)求导后，可得V1=z1(F1(z1)+f1(x1d)+g1(x1)z2+g1(x1)xa2d+g1(x1)x*2d+k1(x1)v1 yd)(6)此时，可以选取 Backstepping 控制输入 xa2d为xa2d=1g1(x1)(f1(x1d)+yd 1z1)(7)式中，10，为待设计的参数。将式(

13、7)代入式(6)中，则函数 V1的导数简化为V1=1z21+z1(F1(z1)+g1(x1)z2+g1(x1)x*2d+k1(x1)v1)。(8)第 i 步。2in 1 时，继续类推，对 zi求导得zi=Fi(zi)+fi(xid)+gi(xi)zi+1+gi(xi)xai+1d+gi(xi)x*i+1d+ki(xi)vi xid(9)式中，Fi(zi)=fi(xi)fi(xid)。选取 Lyapunov 函数Vi=Vi 1+12z2i。(10)对函数 Vi求导后，结合式(9)可知Vi=Vi 1+zi(Fi(zi)+fi(xid)+gi(xi)zi+1+gi(xi)xai+1d+gi(xi)x

14、*i+1d+ki(xi)vi xid)(11)选取 xai+1d为xai+1d=1gi(xi)(fi(xid)gi 1(xi 1)zi izi+xid)(12)式中，i为待设计的参数。则 Vi可简化为Vi=ij=1jz2j+gi(xi)zizi+1+ij=1zj Fj(zj)+gj(xj)x*j+1d+kj(xj)vj。(13)第 n 步。选取 Lyapunov 函数Vn=Vn 1+12z2n(14)对式(14)求导可得9第 3 期Vn=n1j=1jz2j+gn1(xn1)zn1zn+n1j=1zj(Fj(zj)+gj(xj)x*j+1d+kj(xj)vj)+zn(Fn(zn)+fn(xnd)

15、+gi(xi)zi+1+gn(xn)ua+gn(xn)u*+kn(xn)vn xid)(15)式中，Fn(zn)=fn(xn)fn(xnd)。此时，选取最终的 Backstepping 控制输入 ua为ua=1gn(xn)(xid fn(xnd)gn 1(xn 1)zn 1 nzn)(16)式中，n为待设计的参数。将 ua代入式(15)，整理可得Vn=nj=1jz2j+zn(Fn(zn)+gn(xn)u*+kn(xn)vn)+n1j=1zj(Fj(zj)+gj(xj)x*j+1d+kj(xj)vj)。(17)经过不等式变换，式(17)转化为如下形式，即Vn z2+zTF1(z1)Fn(zn)+

16、g1(x1)00gn(xn)x*2du*+k1(x1)00kn(xn)v1v n(18)式中:=min i|1in;z=(z1，zn)T。此外，已知控制器分为 Backstepping 控制和微分对策控制两部分，即复合控制方案 u=ua+u*。前面已经完成了 Backstepping控制器 ua的设计，而根据式(18)可以发现:若仅设计Backstepping 控制器部分，根据 Lyapunov 稳定性理论可知，Vn 0 不成立的情况下无法保证闭环系统的稳定性。因此，还需要设计微分对策控制器 x*2d，u*保证下列等效仿射非线性系统式(19)的稳定性，从而保证在复合控制方案下原系统式(1)的闭

17、环稳定性，即s=F1(z1)Fn(zn)+g1(x1)00gn(xn)x*2du*+k1(x1)00kn(xn)v1v n(19)式中，s=(s1，sn)，表示等效系统式(19)的状态变量。2 2微分对策控制器设计显然，等效系统式(19)为仿射非线性微分对策形式，对此，将其重写为s=F(Z)+G(x)U+K(x)v(20)式中:Z=(z1，zn)T;F(x)=(F1(x1)，Fn(xn)T;G(x)=g1(x1)00gn(xn);K(x)=k1(x1)00kn(xn);U=(x*2d，u*)T;v=(v1，vn)T。此时，U 和 v 对系统式(20)的控制可以看作是一种零和微分对策问题，本节的

18、目的即寻找一组微分对策控制对(U*，v*)使得 U*最小化给定的性能指标函数，v*则最大化给定的性能指标。定义系统式(20)的性能指标函数为J(s)=0(Q+UTR1U+vTR2v)dt(21)式中:Q 为半正定函数;R1和 R2均为正定矩阵。根据性能指标函数式(21)，定义 Hamilton 函数为H(s，U，v)=Q+UTR1U+vTR2+JT(s)(F(Z)+G(x)U+K(x)v)(22)式中，J(s)为 J(s)关于状态 s 的偏导数。根据 Nash-Pontryagin 极值原理可知，微分对策控制对(U*，v*)可通过求解如下的 HJI 方程获得0=minUmaxv(H(x，U，v

19、，J*(s)。(23)但是，在求解微分对策控制对(U*，v*)之前，首先需要获取最优性能指标函数 J*(s)的解析解。对此，考虑极值的必要条件H/U=0 和H/v=0，可以求出三体对抗场景下的主动防御制导律为U*=12R11GT(x)J*(s)v*=12R12KT(x)J*(s)(24)式中:U*包含了上文中提出的防卫导弹的微分对策控制律;v*则包含了目标导弹的逃逸制导律。将式(24)代入式(22)，则 HJI 方程式(22)重写为H(s，U*，v*)=Q+J*T(s)F(Z)14J*T(s)(A1+A2)J*(s)=0(25)式中:A1=G(x)R11GT(x);A2=K(x)R12KT(x

20、)。此时，式(25)中仅有最优性能指标函数 J*(s)为未知变量，通过求解该方程即可获取 J*(s)。但是，HJI 方程在求解过程中维度会快速增长，难以直接通过解析方法求解。因此，下面将结合 ADP 算法实现对 J*(s)的在线逼近从而求解出微分对策控制对(U*，v*)的近01第 30 卷电光与控制陈必露等:基于自学习微分对策的主动防御制导方法似解。为了方便下文控制器设计和稳定性证明，给出如下合理性假设。假设 2针对等效系统式(20)及控制策略式(24)，存在一个连续可微的 Lyapunov 函数 V(s)，满足V(s)=VT(s)(F(Z)+G(x)U*+K(x)v*)0，则必定存在一个正定

21、矩阵使得下式成立V(s)=VT(s)V(s)。(26)基于 ADP 算法，设计如下的评价网络来逼近最优性能指标 J*(s)J*(s)=WTJJ(s)+(s)(27)式中:WJ为评价网络的理想权值;J(s)为设计的激励函数;(s)为逼近误差。对式(27)求偏导可得J*(s)=TJ(s)WJ+(s)(28)式中:J(s)表示激励函数 J(s)对 s 的偏导数;(s)表示逼近误差(s)对 s 的偏导数。将式(28)代入式(24)，则微分对策控制对(U*，v*)可重写为U*=12R11GT(x)(TJ(s)WJ+(s)v*=12R12KT(x)(TJ(s)WJ+(s)(29)对应的 HJI 方程式(

22、25)改写为H(s，U*，v*)=Q+WTJJ(s)F(Z)14WTJ(B1+B2)WJ+HJI=0(30)式中:B1=J(s)A1TJ(s);B2=J(s)A2TJ(s);HJI为逼近误差(s)引起的残差项。但是，考虑到评价网络的理想权值 WJ未知，无法直接参与控制器的设计。对此，将评价网络的结构改变成J(s)=WTJJ(s)J(s)=TJ(s)WJ(31)式中:WJ为对理想权值 WJ的估计值;J(s)为函数 J*(s)的估计值;J(s)为关于 s 的偏导数。根据 J(s)，可得近似微分对策控制对(U，v)为U=12R11GT(x)TJ(s)WJv=12R12KT(x)TJ(s)WJ(32)

23、式中，(U，v)表示(U*，v*)的近似最优解。控制策略(U，v)下相应的 HJI 方程为H(s，U，v)=Q+WTJJ(s)F(Z)14WTJ(B1+B2)WJec。(33)根据式(25)可知，在最优微分对策控制对(U*，v*)控制下 HJI 方程 H(s，U*，v*)=0。然而，近似微分对策控制对(U，v)控制时 HJI 方程存在误差 ec。所以，在设计评价网络的权值更新律时，需要在该网络的训练过程中最小化目标 ec使得权值估计WJ逐渐收敛至理想权值WJ。为此，定义评价网络训练的目标函数为Ec=12eTcec。(34)考虑使用梯度下降方法保证上述目标函数在训练过程中趋于最小化。此外，为了保

24、证闭环系统信号的有界性，最终设计的权值更新律满足WJ=JJm2ec+J2(s，U，v)J(s)(A1+A2)V(s)+J(Y2WJ+Y1TJmWJ+14Jm2WTJ(B1+B2)WJ)(35)式中:J0，为设计的评价网络的学习率;J=J(x)(F(Z)+G(x)U+K(x)v);m=1+TJ;V(x)为满足假设 2 的 Lyapunov 函数;Y1和 Y2为待调参数向量;(s，U，v)具体形式为(s，U，v)=0VT(s)(F(Z)+G(x)U+K(x)v)01其他。(36)至此，为了验证上述主动防御控制方法是否有效，需要进一步分析系统运行时的稳定性。在稳定性分析之前，给出如下的假设及定理。假

25、设 3评价网络的理想权值 WJ，激励函数 J(s)与逼近误差的偏导数(s)以及它们的偏导数的范数均有界，即存在大于零的常数bW，b，bd，b，bd，使得 WJbW，J(s)b，J(s)bd，(s)b，(s)bd成立。考虑到上述条件成立，显然，HJI的范数同样满足有界条件，即存在一个正常数 b，使得HJI b。假设4假设在微分对策控制对(U*，v*)控制下，闭环系统信号满足有界条件且界值为关于变量的函数，存在大于零的常数使得下式成立，即F(Z)+G(x)U*+K(x)v*Z。(37)定理 1当等效仿射非线性系统式(20)的微分对策控制器设计为式(32)所示，其中，评价网络的权值更新律选取为式

26、(35)所示且假设 3 和假设 4 成立时，闭环系统所有信号均满足 UUB 稳定。证明过程如下。选取 Lyapunov 函数为11第 3 期L(t)=Vn+V(s)+12WTJ1JWJ(38)式中:WJ=WJ WJ，表示权值估计误差;Vn为式(14)中选取的 Lyapunov 函数。对式(38)求导后，结合式(15)和式(16)可得L(t)=Vn+VTs(s)s+WTJ1JWJ z2+zT(F(Z)+G(x)U*+K(x)v*)+VTs(s)(F(Z)+G(x)U+K(x)v)+WTJ1JWJ。(39)基于假设 4，式(39)进一步简化为L(t)z2+zz+VTs(s)(F(Z)+G(x)U+

27、K(x)v)min(M)P2+PN 12(s，U，v)VT(s)(A1+A2)TJ(s)WJ(40)式中:min()表示求对应矩阵的最小特征值;P=(WTJJWTJ)T，J=J/m;M=I12Y112Y1m22，m22=Y212JmWTJ(B1+B2);N=HJImn 21，n21=Y2Y1TJ14JmWTJ(B1+B2)WJ。基于杨氏不等式可知zz12(z2+2z)。(41)则式(40)可简化为L(t)(12)z2+22z+VTs(s)(F(Z)+G(x)U+K(x)v)min(M)P2+PN 12(s，U，v)VT(s)(A1+A2)TJ(s)WJ。(42)结合(s，U，v)的定义，下面将

28、分两种情况进行稳定性证明。情况 1 为(s，U，v)=0。此时VT(s)(F(Z)+G(x)U+K(x)v)0 成立，则式(42)可简化为L(t)(12)z 24()22min(M)(P N2min(M)2+1(43)式中，1=4/(16 8)+(N2/4min(M)。此时，当设计参数 1/2，且满足下列不等式条件时，可保证 L(t)0，即z 1 05+24 2(44)或者P 1min(M)+N2min(M)。(45)情况2 为(s，U，v)=1。此时，评价网络在训练过程中无法保证闭环系统信号的有界性，因此权值更新律中的有界稳定项将发挥作用。结合假设 2，式(42)可简化为L(t)(12)(z

29、 24 2)2min(M)(P N2min(M)2min()(V(s)b14min()+2(46)式中:b1=(A1+A1)(s);2=1+b21/16min()。显然，当假设 1 4 成立时，b1和 2均满足有界条件。由式(46)可知，若下列条件成立则有 L(t)0，即z 2 05+24 2(47)或者P 2min(M)+N2min(M)(48)又或者 V(s)2min()+b14min()。(49)综上所述，不论情况 1 还是情况 2，只要不等式(44)或式(45)，式(47)或式(48)或式(49)成立，即可保证 L(t)0，表明在控制策略式(32)控制下系统稳定。至此，定理 1 证明完

30、毕。3三体对抗模型仿真验证如图 1 所示，考虑平面坐标系下的进攻导弹目标导弹防卫导弹运动关系，定义 M，T 和 D 分别表示进攻导弹，目标导弹和防卫导弹。VM，VT和 VD分别表示进攻导弹，目标导弹和防卫导弹的速度，假设在末制导阶段，速率大小均恒定;，和分别表示进攻导弹、目标导弹和防卫导弹三者的航迹角;1和 2分别表示进攻导弹和目标导弹、进攻导弹和防卫导弹的视线角;r1和 r2分别表示进攻导弹和目标导弹、进攻导弹和防卫导弹的相对距离，Vr1和 Vr2则表示对应的相对接近速度;，uT和 vD分别表示进攻导弹、目标导弹和防卫导弹各自垂直于速度矢量的加速度控制输入。21第 30 卷电光与控制陈

31、必露等:基于自学习微分对策的主动防御制导方法图 1M-T-D 运动关系示意图Fig 1Schematic diagram of M-T-D motion relationship此时，根据图 1 可以建立进攻导弹目标导弹的相对运动方程为r1=Vr1=VTcos(1)VMcos(1)1=1=(VTsin(1)VMsin(1)/r1=/VM=uT/VT。(50)进攻导弹防卫导弹的相对运动方程为r2=Vr2=VDcos(2)VMcos(2)2=2=(VDsin(2)VMsin(2)/r2=/VM=vDVD(51)式中，1和 2分别为视线角 1和 2的视线角速率。另外，假设进攻导弹、目标导弹和防卫

32、导弹的自动驾驶仪均为一阶系统。进攻导弹运动方程为xM=VMcos yM=VMsin=M/VMM=(M)/。(52)目标导弹运动方程为xT=VTcos yT=VTsin=T/VTT=(uT T)/。(53)防卫导弹运动方程为xD=VDcos yD=VDsin=D/VDD=(vD D)/(54)其中:(xi，yi)(i=M，T，D)分别表示进攻导弹、目标和防卫导弹在二维平面的坐标位置;为三者的自动驾驶仪时间常数，本文假设 =01。为保证防卫导弹能成功拦截进攻导弹并使目标完成逃逸，选取大于零的常数 rc表示进攻导弹的爆炸杀伤半径，通过控制各枚导弹与对应“目标”之间的剩余距离实现上述主动防御过程。选取

33、状态变量 x=(x1x2)T=(r1 r2 rcr1 r2)T，根据式(50)和式(51)得到主动防御制导系统为x1=x2x2=(21+22)x1+sin(1)sin(2)sin(1)uT+sin(2)vD+d0(55)式中，d0=21(r2+rc)22(r1 rc)，表示建模的冗余项。此外，不失一般性，采取比例导引制导律为=N1 r1 1(56)式中，N1为比例导引系数。整理可知式(55)符合式(1)所示的严格反馈形式，则主动防御制导系统式(55)重写为x1=f1(x1)+g1(x1)x2+k1(x1)v1x2=f2(x2)+g2(x2)uT+k2(x2)vDy=x1(57)式中，v1为作

34、用在 x1上的控制分量。其他函数满足:f1(x1)=0;g1(x1)=1;k1(x1)=0;g2(x2)=sin(1);f2(x2)=(21+22)x1+N1 sin(1)sin(2)r11+d0以及 g2(x2)=sin(1)，k2(x2)=sin(2)。因此，针对主动防御系统式(57)，设计控制器的目的是使输出信号 y 能以最优方式跟踪给定的参考信号，使得 y=x1=r1r2 rc0，r20。从而保证在三体对抗中防卫导弹能成功拦截进攻导弹，同时目标导弹完成逃逸。在本章中，仅考虑防卫导弹和目标的合作微分对策过程，进攻导弹的控制策略基于自身任务目标独立设计。进攻导弹选择当前导弹拦截系统中应用最

35、普遍的比例导引法，其制导律为 =N1r11，且 N1=5。当目标侦测到进攻导弹攻击后，主动释放防卫导弹进行防御。因此，选取进攻弹、防卫弹与目标的初始坐标分别为(0，0)，(5000，0)和(5100，0)(单位为 m)，进攻弹的爆炸杀伤半径 rc=100 m。三体对抗开始后，假设末制导阶段飞行导弹的速度恒定。此外，考虑到防卫弹处于伴飞状态，其飞行速度以及航向角初值应和目标导弹相同，故选择各方参数为:VM=600 m/s，VT=VD=400 m/s;初始航向角 =60，=80;Q=50sTs，矩阵 R1=31第 3 期(01)，R2=(1)，评价网络激励函数为 J(s)=(s21s1s2s22s

36、21s2s1s22)，权值初值为WJ(0)=0，学习率 J=0 48;此外选取 Lyapunov 候选函数为 Vs(s)=100sTs。调整参数设置为 Y1=10(1 1 1 1 1)，Y2=100I，其中，I 表示适当维数单位矩阵。仿真结果如图2 7 所示。图 2三体对抗运动轨迹图Fig 2Three-body confrontation trajectory图 3防卫导弹与进攻导弹相对距离 r2Fig 3Relative distance r2between defensemissile and attack missile图 4防卫导弹和目标导弹控制输入Fig 4Control inpu

37、t of defense missile and target missile图 5权值估计WJ变化曲线Fig 5Curve of weight estimation WJ图2 反映了整个主动防御过程的运动轨迹，可以看出，防卫导弹在进攻导弹命中目标导弹之前完成了对进攻导弹的拦截任务，保证了目标导弹成功逃逸。图 3 体现了防卫导弹和进攻导弹之间的相对距离变化曲线，其最终的脱靶量精度较高。图 4 描述了防卫导弹和目标导弹在整个合作微分对策过程中的控制输入信号，显然该主动防御制导方法对目标导弹的机动能力要求较低。图5 表明评价网络权值 WJ逐渐收敛至理想情况。另外，本文的主动防御制导方法是基于平行接

38、近原则进行设计，制导过程中需要保证防卫导弹和进攻导弹的接近速度 Vr2小于零，且视线角速率 2趋近于零。图 6防卫导弹进攻导弹接近速度 Vr2Fig 6Approaching speed Vr2between defense missileand attack missile图 7防卫导弹进攻导弹视线角速率 2Fig 7Sight-angle rate 2between defense missileand attack missile图 6 表明 Vr2小于零成立。在此基础上，图 7 反映了 2趋近于零，因此，防卫导弹将保持追击进攻导弹，并完成对进攻导弹的提前拦截，从而验证了本文所设计的

39、算法是有效的。4结束语本文主要从三体对抗问题出发，设计了一种主动防御制导方法。首先，利用 Backstepping 控制方法设计跟踪控制器，保证系统输出成功跟踪给定的参考信号。其次，结合微分对策思想，将防卫导弹和目标导弹视为合作双方设计了微分对策控制器，并通过 ADP 算法在线自学习的求解最优性能指标函数，保证目标导弹成功摆脱进攻导弹的拦截以及防卫导弹对进攻导弹的精准拦截;最后，仿真验证了所提主动防御方法的有效性，为三体对抗场景下的非线性制导策略研究提供了可靠的思路。(下转第 32 页)41第 30 卷电光与控制Conference on Computer Vision Pattern Rec

40、ognition(CVPR)Las Vegas:IEEE,2016:1646-1654 9 DONG C,LOY C C,TANG X O Accelerating the super-resolution convolutional neural network C/EuropeanConference on Computer Vision Cham:Springer,2016:391-407 10 赵小强，宋昭漾多级跳线连接的深度残差网络超分辨率重建 J 电子与信息学报，2019，41(10):2501-2508 11HE K M,ZHANG X Y,REN S Q,et al Deep

41、 residuallearning for image recognition C/IEEE Conference onComputer Vision Pattern Recognition(CVPR)LasVegas:IEEE,2016:770-778 12 曲海成，唐博文，袁贵森改进的超分辨率图像重建算法 J 激光与光电子学进展，2021，58(2):191-200 13 CHEN L,ZHANG H W,XIAO J,et al SCA-CNN:spatialand channel-wise attention in convolutional networks forimage ca

42、ptioningC/IEEE Conference on ComputerVision Pattern Recognition(CVPR)Honolulu:IEEE,2017:6298-6306 14 ZHAO W D,LI S S,LI A,et al Hyperspectral images clas-sification with convolutional neural network and texturalfeature using limited training samples J Remote SensingLetters,2019,10(5):449-458 15 赵小强，

43、宋昭漾 Adam 优化的 CNN 超分辨率重建 J 计算机科学与探索，2019，13(5):858-865 16GAO S K,GRUEV V Bilinear and bicubic interpolationmethods for division of focal plane polarimeters J Op-tics Express,2011,19(27):161-173 17 王昊榕基于残差网络的图像超分辨率重建方法研究 D 太原:山西财经大学，2021 18YUAN F,HUANG L F,YAO Y An improved PSNRalgorithm for objectiv

44、e video quality evaluationC/Proceedings of the 26th Chinese Control ConferenceBeijing:Beihang University Press,2007:376-380 19 ZHOU W,BOVIK A C,SHEIKH H R,et al Image quali-ty assessment:from error visibility to structural similarity J IEEE Transactions on Image Processing:A Publica-tion of the IEEE

45、 Signal Processing Society,2004,13(4):600-612(上接第 14 页)参考文献 1 张浩，张奕群，张鹏飞三体对抗中的制导控制研究方法综述 J 战术导弹技术，2021(1):67-73 2 YAMASAKI T,BALAKRISHNAN S N Intercept guidancefor cooperative aircraft defense against a guided missileJ IFAC Proceedings Volumes,2010,43(15):118-123 3 YAMASAKI T,BALAKRISHNAN S N,TA

46、KANO H Mod-ified command to line-of-sight intercept guidance for air-craft defense J Journal of Guidance,Control Dynam-ics,2013,36(3):898-902 4 PROKOPOV O,SHIMA T Linear quadratic optimal coop-erative strategies for active aircraft protectionJ Journalof Guidance,Control Dynamics,2013,36(3):753-764 5

47、WEISS M,SHIMA T,CASTANEDA D,et al Combinedand cooperative minimum-effort guidance algorithms in anactive aircraft defense scenarioJ Journal of Guid-ance,Control Dynamics,2017,40(5):1-14 6 RUSNAK I,WEISS H,HEXNER G Guidance laws in tar-get-missile-defender scenario with an aggressive defenderC/The 18

48、th IFAC World Congress Milano:IFAC,2011:9349-9354 7 王小平，周问，刘博三体对抗策略的预警机主动防御最优协同制导算法 J 空军工程大学学报(自然科学版)，2020,21(2):16-23 8 PERELMAN A,SHIMA T,RUSNAK I Cooperative differ-ential games strategies for active aircraft protection from ahoming missileJ Journal of Guidance,Control Dy-namics,2011,34(3):761-7

49、74 9ZARGARZADEH H,DIERKST,JAGANNATHANSAdaptive neural network-based optimal control of nonlin-ear continuous-time systems in strict-feedback formJ International Journal of Adaptive Control Signal Pro-cessing,2014,28(3):305-324 10 SUN J L,LIU C S Backstepping-based adaptive dynamicprogramming for missile-target guidance systems withstate and input constraintsJ Journal of the FranklinInstitute,2018,355(17):8412-844023第 30 卷电光与控制

展开阅读全文