不完全信息Epsilon纳什均衡的航天器末端追逃博弈策略.pdf

资源描述

1、第 45 卷第 1 期 2024 年 1 月宇航学报Journal of AstronauticsNo.12024JanuaryVol.45不完全信息Epsilon纳什均衡的航天器末端追逃博弈策略汤旭，叶东，肖岩，孙兆伟（哈尔滨工业大学卫星技术研究所，哈尔滨 150001）摘要：针对不完全信息下的航天器末端追逃问题，提出了一种满足Epsilon纳什均衡的微分博弈控制策略。首先，建立了完全信息下的有限时间追逃纳什均衡策略对，并将其作为目标航天器实际采取的控制策略，使目标航天器掌握博弈进程的完全信息，进而获得更好的逃逸性能。在此基础上，考虑拦截航天器不能获取目标控制矩阵信息的态势，设计了基于

2、广义卡尔曼滤波的行为学习信息估计算法，使拦截器能够对目标的不完全信息进行估计，并提出了不完全信息下的末端追逃博弈控制策略。经过理论分析，证明了所设计的不完全信息下微分博弈策略对满足Epsilon纳什均衡。最后，仿真结果表明该算法可以有效估计目标的不完全信息，确保拦截器能够在有限时间内快速拦截目标。关键词：航天器追逃；追逃博弈策略；Epsilon纳什均衡；不完全信息估计中图分类号：V412.4+1 文献标识码：A 文章编号：1000-1328（2024）01-0063-11 DOI：10.3873/j.issn.1000-1328.2024.01.007Epsilon Nash Equilibr

3、ium Differential Game Strategy for Spacecraft Terminal Pursuit-Evasion under Incomplete InformationTANG Xu，YE Dong，XIAO Yan，SUN Zhaowei（Research Center of Satellite Technology，Harbin Institute of Technology，Harbin 150001，China）Abstract:A differential game control strategy with Epsilon Nash equilibri

4、um is proposed for spacecraft terminal pursuit-evasion problems under incomplete information.Firstly，finite time pursuit-evasion Nash equilibrium strategy pairs under complete information are established.This strategy is taken as the maneuver strategy of the target spacecraft，it means that the targe

5、t spacecraft can obtain complete information of the whole game process，and then will have better evasion performance.On this basis，considering the situation that the interceptor cannot get the information of the target control matrix.A behavior learning information estimation algorithm is designed b

6、ased on the generalized Kalman filter to make the interceptor estimate the incomplete information of the target.Furthermore，the game control strategy under incomplete information is designed.Through theoretical analysis，it is proved that the designed differential game strategy pairs under incomplete

7、 information satisfy Epsilon Nash equilibrium.Finally，the simulation results show that the algorithm can estimate the target information effectively，and the interceptor can pursue the target rapidly in a limited time.Key words:Spacecraft pursuit-evasion；Pursuit-evasion game strategy；Epsilon Nash equ

8、ilibrium；Incomplete information estimation0引言随着太空技术的不断升级，空间航天器的功能日趋完备，越来越多的航天器具备了空间态势感知的能力1-2。当拦截航天器接近目标航天器时，目标方将采取机动策略加以躲避，这使得拦截航天器控收稿日期：2023-04-11；修回日期：2023-08-24基金项目：国家自然科学基金（62073102，62203145）；国家重点研发计划（2021YFC2202900）；中国博士后科学基金（2022M710948）宇航学报第 45 卷制系统在应对新体系下迅速发展的空间攻防任务时面临着困境3。因此，在争夺战时空间信息优势的过程

9、中，亟待发展新的轨道控制策略。针对此类具有自主机动、自主决策能力的航天器拦截问题，需要对连续动态对抗的双边复杂态势进行研究，传统的单边优化拦截控制方法将不再适用4。此时，拦截器与目标存在利益冲突，构成博弈关系，空间拦截、交会对接问题也将发展成双方航天器间的追逃博弈问题5。此外，由于空间战场环境的限制、航天器固定指向以及传感器的约束，拦截器将不能完全获悉目标信息，导致拦截呈现不完全信息态势。因此，研究不完全信息下的航天器轨道追逃问题对于应对未来空间领域的新形势具有重要意义6。针对目标具有机动能力的双边拦截博弈问题，应用最广泛的研究方法是微分对策理论，该理论已成熟应用于导弹拦截问题中。文献 7 基

10、于简化的双积分系统导弹拦截模型，设计了导弹拦截矢量制导率，并分别给出了制导率在极坐标和球坐标下的分量表示，以便在不同坐标系下进行描述。文献8 在拦截过程中考虑了存在角度测量有界噪声的情况，通过设计状态观测器实现对角度的估计并分别给出了不同噪声条件下脱靶量的估计值。文献9 针对制导率包含拦截剩余时间且该时间难以确定的问题，建立了关于剩余时间的方程，并讨论了该方程的分叉现象，以求解最短拦截时间，从而实现快速拦截。尽管微分对策理论在导弹领域得到了广泛的应用，但在太空领域中仍有较大的提升空间。与传统的空间交会拦截问题相比，航天器追逃博弈策略需要考虑博弈双方的控制策略。文献 10将非线性拦截逃逸相对动力

11、学简化为CW方程，根据拦截任务终止要求引入零控脱靶矢量将动力学方程降阶，采用拦截脱靶量和燃料消耗作为二次最优目标函数，推导了卫星轨道次优控制策略。文献 11则以CW方程为基础，推导了最优推力角博弈策略，并采用粒子群优化算法解决了协态变量初值难以确定的问题，得到了开环解。同时，通过预先生成一系列最优轨迹，并进行插值和外推，得到反馈控制策略的闭环解。文献 12 考虑了航天器追逃的双边博弈问题，提出了混合控制策略，以适配多任务的需求。通过博弈值函数与轨迹界栅判断是否需要执行策略切换，以实现追逃任务与自身任务的平衡。文献 13-14 对航天器远程拦截博弈问题进行了研究，针对协态变量初值难以确定的问题，

12、通过遗传算法优化求解近似初值，然后将运动轨迹离散化，为各离散点配置状态，并使用非线性规划优化求解协态变量初值的精确值。文献 15 研究了航天器多段博弈拦截问题：在远程拦截段，基于微分对策理论分别给出了闭环鞍点解和开环鞍点解，两组解在形式上相同；在近程拦截段，考虑不同的指标函数，分别建立了不同的博弈策略。通过分析得出，实现拦截的充要条件是拦截器的推力幅值大于目标的推力幅值。文献 16 针对多航天器的末端拦截博弈问题，根据拦截空间是否具有防御器将博弈态势分为双星博弈和三星博弈，并提出了一种博弈切换策略，将三星博弈转化为分段的双星博弈，并将双边时间方程扩展到三星博弈中，使得拦截器能够在不被防御器反拦

13、截的情况下快速拦截目标。由于空间攻防时战场的不确定性、信息不对称等因素，航天器追逃任务中往往存在信息不完全的情况。因此，拦截航天器需要在有限时间内对目标航天器的不完全信息进行估计，以便实施有效的机动策略。在这种情况下，航天器追逃博弈理论可以为拦截任务提供有效的决策支持。针对不完全信息下的拦截问题，文献 17 研究了目标的逃逸防御问题，通过给定拦截器策略，考虑目标与防御器之间存在单向通讯或双向通讯的不同情况，建立了目标与防御器间的最优博弈策略。文献 18-19 中使用双积分系统作为动力学模型来探究目标信息不完全和动力学信息不完美的情况，将不完全信息和不完美信息视为扩展的状态变量，采用了增广原动力

14、学的方法处理信息缺失问题。同时，设计了观测器对扩展状态进行有效估计。文献 20-21 中提出了一种基于状态观测的博弈值函数近似方法。该方法利用级数展开对博弈值函数进行近似，然后通过观测目标的状态信息对级数的各系数进行更新。该方法具有较高的计算效率和精度，已经在空间攻防任务中得到了广泛应用。文献 22-23 中考虑了模型不确定问题，首先预设了多种拦截弹可能采取的制导率，并设计了多个估计器并行计算不同情况下拦截弹的最优状态估计，并给出相应估计后验概率。然后，通过概率融合方法将不同估计器得到的最优状态估计和后验概率融合，得到更加准确的拦64第 1 期汤旭等：不完全信息Epsilon纳什均衡的航天器末

15、端追逃博弈策略截弹制导率。最后，通过设计目标和防御器的协同制导率有效躲避了拦截。虽然追逃博弈问题已经得到了广泛研究，但大多数研究都是以拦截器可以完全获得目标信息的假设为基础进行的，或者是基于简化的动力学模型研究不完全信息博弈，这与实际的航天器追逃博弈态势存在较大差异。因此，本文针对不完全信息下的航天器追逃博弈问题进行了研究，实现了在不完全信息下对目标的快速拦截。随着低轨目标拦截技术不断发展，任务能够快速准确地获得发射窗口24，该方法也将成为未来处理一类具备智能体特性的失控航天器的机动策略之一。通过快速接近不受地面指令控制的失控航天器，并将其引导到安全轨道，可以避免对其他航天器和空间设施造成威胁

16、。综合前文所述，本文针对不完全信息下航天器末端追逃博弈问题，首先建立了航天器末端拦截动力学模型，并给出了完全信息下的纳什均衡策略对。然后，考虑目标控制矩阵信息不完全的情况，设计了基于广义卡尔曼滤波的行为学习信息估计算法，并严格证明了所提出的不完全信息下微分博弈策略对满足Epsilon纳什均衡。最后，通过仿真验证了算法的有效性和拦截的快速性。本策略不仅适用于航天器拦截任务，还可以作为星群中具备智能体特性的失控航天器的处理方法，具有实际应用价值。1航天器相对运动状态方程在航天器末端拦截段，拦截航天器与目标航天器的相对距离远小于两星质心到地心的距离，因此在拦截卫星附近设置参考卫星O1，P为拦截航天器

17、，如图1所示。假设参考卫星运行在圆轨道，以参考卫星为原点，x轴沿着参考卫星地心矢径方向，z轴沿着轨道角动量方向，y轴满足右手定则，定义虚拟卫星轨道坐标系O1xyz25，在 LVLH坐标系下拦截器相对参考卫星的动力学方程可以简化为CW方程：x-2y-32x=uxy+2x=uyz+2z=uz（1）式中：x，y，z为拦截器相对参考卫星的位置；为参考卫星的轨道角速度；ux，uy，uz分别为拦截器三轴方向上的控制输入。选取状态变量X=xyzxyzT，控制输入U=uxuyuzT，则CW方程可以写成如下状态方程的形式：X=AX+BU（2）式中：A=0001000000100000013200020000-2

18、0000-2000，B=000000000100010001。由线性系统理论可得状态转移矩阵为：(t，t0)=11122122（3）式中的子矩阵26分别为：11=4-3cos006(sin-)1000cos12=sin2(1-cos)02(cos-1)4sin-3000sin21=3sin006(sin-)0000-sin22=cos2sin0-2sin4cos-3000cos（4）式中：=t-t0，且满足(t，t0)=(t，t0)A。当=tf-t时，状态转移矩阵满足(tf，t)=OXYZPzr1r2O1ryx图1拦截器与参考卫星Fig 1Interceptor and reference s

19、atellite65宇航学报第 45 卷-(tf，t)A。在该虚拟卫星轨道坐标系下，拦截器与目标动力学均满足CW方程，即：Xi=AXi+BUii=P，E（5）式中：Ui(i=P，E)分别为拦截器P以及目标E的推力，且均满足幅值限制UP P，UE 0为对称正定矩阵；Q 0为对称半正定矩阵；RP 0与RE 0均为对称正定矩阵，且满足：RP=rPIQ=q1Iq2IS=s1Is2IRE=rEI（9）式中：I R3 3为单位阵。定义如下哈密顿函数：H=T(AXPE+BPUP-CEUE)+12(XTPEQXPE+UTPRPUP-UTEREUE)（10）式中：为协态变量。由最优性条件HUP=0，HUE=0可

20、得：UP=-R-1PBTPUE=-R-1ECTE（11）设协态变量与状态变量满足如下关系：=PXPE（12）式中：P为对称正定阵，即P 0，PT=P。由协态方程=-HXPE可得：=-(AT+QXPE)（13）对式（12）求导，并将其与式（7）和式（11）代入式（13），可得黎卡提微分方程如式（14）所示。P+ATP+PA-P(BPR-1PBTP-CER-1ECTE)P+Q=0（14）此外，由横截条件()tf=XPE()tf(12XTPE()tf)SXPE(tf)=SXPE()tf可知，P满足终值条件：P(tf)=S（15）因此，拦截器与目标的鞍点策略对为：UP=-R-1PBTPPXP

21、EUE=-R-1ECTEPXPE（16）式中：P满足式（15），推力满足幅值限制UP P，UE E。3不完全信息下博弈策略设计本节考虑拦截航天器无法获取目标航天器控制矩阵的不完全信息情况。在这种情况下，追逃博弈不再满足纳什均衡，因此本文采用Epsilon纳什均衡（后文简写为-纳什均衡）27对其进行描述。此外，目标航天器实际采取式（16）中的博弈策略，掌握着博弈进程的完全信息，进而获得更好的逃逸性能。假设1.在本节研究的情境下，拦截器在面对不完全信息时存在行为学习信息估计进程，而目标无法获取拦截器的实际机动策略。注1.如果目标能够获取拦截器的实际策略，那么它将采取诱导策略来迷惑拦截器，而拦截器则

22、会采取相应的对策来应对诱导策略。这种无限变化的过程可以被看作是一个无限维博弈，因为双方都在不断地改变自己的策略以适应对方的变化。为了避免这种情况，本文假设1指出只有拦截器存在信息估计的策略，而目标不知道该过程和其实际机动策略。定义扩展状态变量Y=XPETrET，则扩展状态方程与量测方程为：Y=AXPE+BPUP+CER-1ECTEPXPE0=f()Y+BTPUPZ=I606 1Y（17）66第 1 期汤旭等：不完全信息Epsilon纳什均衡的航天器末端追逃博弈策略由于扩展状态方程的非线性，本文采用广义卡尔曼滤波（类EKF）对RE进行估计。定义标称状态为Yn，Zn，则在标称状态点对式（17）进行

23、一阶泰勒展开可得：Y=Yn+FnYZ=Zn+HnY（18）式中：Y=Y-Yn，Z=Z-Zn为状态偏差，Fn为雅克比矩阵，Hn为量测矩阵，具体形式如下：Fn=fY|Y=Yn=()AXPE+CER-1ECTEPXPEXPE()AXPE+CER-1ECTEPXPErE00=()A+CER-1ECTEPT-1r2ECECTEPXPE00 F11F2200Hn=I606 1（19）由Y=Y-Yn，Z=Z-Zn得：Y=FnYZ=HnY（20）对上式离散化可得：Yk=()k，k-1 Yk-1+Wk-1Zk=HkYk+Vk（21）式中：(k，k-1)为状态转移矩阵，且(k，k-1)I+FnT，Wk-1为过程噪

24、声，Vk为量测噪声，T为采样时间，且满足如下条件：EWk=0，E Vk=0CovWk，Wj=EWkWTj=kkjCovVk，Vj=EVkVTj=RkkjCovWk，Vj=EWkVTj=0（22）式中：k为系统噪声序列的方差阵，为半正定阵；Rk为量测噪声序列的方差阵，为正定阵；kj为Kronecker符号。图2所示为不完全信息下的博弈控制策略流程，针对线性化的状态方程（21），采用卡尔曼滤波进行状态估计，此时的滤波方程为：Yk，k-1=()k，k-1 Yk-1Yk=Yk，k-1+Kk()Zk-HkYk，k-1Kk=Pk，k-1HTkHkPk，k-1HTk+Rk-1Pk，k-1=()k，k-1 P

25、k-1T()k，k-1+k-1Pk=()I-KkHkPk，k-1()I-KkHkT+KkRkKTk（23）为了尽可能减小状态偏差，本文希望状态标称值尽可能接近于状态最优估计值。因此，可以将状态标称值设置为状态最优估计值，以减少估计误差。Yk-1=Yk-1-Ynk-1=0（24）即Yk，k-1=0。假设拦截器对目标控制矩阵信息的估计值为rE，相应的矩阵为RE=rEI。当完成目标信息的估计后，拦截器采取如下策略：UP=-R-1PBTPP*XPE（25）初始值Xk1/k1Xk/k，Pk/kZkrEk/kPk1/k1(1)状态预测(2)协方差预测(1)卡尔曼增益(2)状态更新(3)协方差更新广义卡尔曼

26、滤波器观测值目标控制矩阵信息估计控制器UP预测过程更新过程图2不完全信息下博弈控制流程图Fig.2Game control flow chart under incomplete information67宇航学报第 45 卷式中：P*满足如下黎卡提方程：P*+ATP*+P*A-P*(BPR-1PBTP-CER-1ECTE)P*=-Q（26）且P*仍满足终端条件P*(tf)=S。4满足-纳什均衡的数学证明在实际的空间攻防过程中，存在许多不确定性因素，例如战争迷雾、传感器约束、目标无规律机动等。这些因素导致了目标信息的不完全性，从而无法满足完全信息下的纳什均衡，因此完全信息策略不再适用。本节将严

27、格证明所设计的微分博弈策略对满足-纳什均衡。这意味着，当策略对满足更加宽松的-纳什均衡时，可以确保拦截航天器处在不完全信息下的最劣情况时仍能获得近似最优解，并且目标航天器的机动策略不会对其收益带来较大影响。定理1.设拦截航天器与目标航天器的动力学方程为式（7），指标函数采用式（8），拦截器实际采取的策略为式（25），记为U*P，目标实际采取的策略为式（16），记为U*E。此时博弈策略对形成-纳什均衡，即：U*P=-R-1PBTPP*XPEU*E=-R-1ECTEPXPE（27）则J*J+（28）式中：J*=J(U*P，U*E)，J+=J(U+P，U*E)，U+P为满足U+P U*P的其它

28、任意拦截器策略，且为一有限值。证.采取状态估计策略下，相应的航天器状态分别记为X*P，X*E，协态变量记为*，此时的博弈策略对改写为：U*P=-R-1PBTP*U*E=-R-1ECTE*（29）将式（29）代入相对状态方程（7），并积分可得：X*PE(t)=eA()t-tfX*(tf)-ttfeA()t-*d（30）式中：=BP(R-1E-R-1P)BTP。此时的指标函数为：J*P=12X*T(tf)SX*(tf)+12t0tf(X*TQX*+P-E)dt（31）式中：P=(R-1PBTP*)TRP(R-1PBTP*)，E=()R-1ECTE*TRE(R-1ECTE*)。当拦截器采取策略U+P

29、时，相应的航天器状态分别记为X+P，X+E，协态变量记为+，此时各航天器的策略为：U+P=-R-1PBTP+U+E=-R-1ECTE+（32）注2.当拦截器采取不同的机动策略时，会导致两者相对状态变量的不同，因此尽管目标都采取了最优策略，但是对应的控制输入却可能是不同的。综上所述，本文将这种情况下的目标策略记为U+E。此时的状态变量为：X+(t)=eA()t-tfX+(tf)-ttfeA()t-+d（33）此时的指标函数为：J+P=12X+T(tf)SX+(tf)+12t0tf(X+TQX+P-E)dt（34）式中：P=(R-1PBTP+)TRP(R-1PBTP+)，E=()R-1ECTE*T

30、RE(R-1ECTE+)。同时，对式（13）进行积分，并结合横截条件可得：i=e()-AT()t-tfSXi(tf)+ttfe()-AT()t-QXid（35）式中：i为任意策略。定义状态变量差为X=X*-X+，协态变量差为=*-+，分别将式（30）、（33）和（35）代入得到：X=t0teA()t-d（36）=exp(-AT(t-tf)SX(tf)+ttfexp(-AT(t-)QXd（37）定义状态变量差为J=J*P-J+P，则有J=12XT(tf)SX(tf)+XT(tf)SX+(tf)+12t0tfXTQX+Tdt+t0tfXTQX+T+dt（38）对上式中的XT(tf)SX+(tf)项

31、进行积分变换，则有：XT(tf)SX+(tf)=t0tf-Texp(AT(-t0)SX+(tf)d（39）令1-t0=-tf，则有：68第 1 期汤旭等：不完全信息Epsilon纳什均衡的航天器末端追逃博弈策略XT(tf)SX+(tf)=-tft0-T eAT()f-1SX+(tf)d1=1t0tf-T eAT()f-SX+(tf)d（40）因此，式（38）的第2项和第4项可以写为：XT(tf)SX+(tf)+t0tfXTQX+T+dt=t0tf(XTQX+T+-)Texp()AT()f-SX+()tfd（41）将式（35）、（36）代入上式被积函数得到：XTQX+T+-Texp(AT(f-)

32、SX+(tf)=t0texp(A(-t0)(-)TQX+d+ttfTexp(-AT(t-)QX+d（42）ttfTexp(-AT(t-)QX+d=t0tf+t0-tTexp(AT(-t0)QX+d1（43）因此，进一步整理式（41）可得到：XT(tf)SX+(tf)+t0tfXTQX+T+dt=t0tfttf-tTexp(AT(-t0)QX+ddt 0（44）注 3.在t0，tf内任取一点t，此时，内层积分为1=ttf+t0-tTexp(AT(-t0)QX+d，再取点tf+t0-t，内层积分为2=tf+t0-ttTexp(AT(-t0)QX+d，则有1+2=0。式（38）可以简化如下：J=12

33、XT(tf)SX(tf)+12t0tfXTQX+Tdt（45）由于拦截器与目标的推力满足幅值要求，即，UP P，UE E。则有：UP=U*P-U+P 2PUE=U*E-U+E 2E（46）关于式（36），有：X=-t0texp(A(t-)(BPUP-BPUE)d（47）因此X=-t0texp()A()t-()BPUP-BPUEdt0texp()A()t-(2P+2E)d（48）由函数积分有界性定理可知，当exp(A(t-)连续时，积分t0texp()A()t-d有界，记作=supt0texp()A()t-d。式中：sup为上确界。因此有：X(2P+2E)（49）记=(2P+2E)，关于式（45

34、），则有：J 122max(S)+12t0tf(2max()Q+()2P2max()RP+)()2E2max()REdt（50）式中：max()表示矩阵的最大特征值，由函数积分有界性定理可知：J （51）即：J*J+（52）式中：122max(S)+11=12t0tf2max(Q)+2Pmax(RP)+42Emax(RE)dt（53）因此，不完全信息下的追逃博弈策略设计满足-纳什均衡。5仿真校验为了验证所提出的行为学习信息估计追逃博弈策略在不完全信息条件下的有效性，本节进行了3种不同情况的对比分析，包括完全信息、不完全信息和不完全信息条件下的信息估计博弈策略。在完全信息条件下，假设双方都可以获

35、取对方采取的纳什均衡策略和当前状态信息。而在不完全信息条件下，假设拦截器只获取到初始位置和对方可能采取的策略集合。在信息估计博弈条件下，本文考虑实际空间攻防中末端追逃场景，采用提出69宇航学报第 45 卷的不完全信息下-纳什均衡博弈策略追击目标。通过对比分析3种不同条件下的末端追逃结果，本节评估了所提出的不完全信息-纳什均衡的航天器追逃博弈策略的有效性。初始条件设定如下：假设拦截航天器与目标均运行在近地轨道附近，选取近地轨道上与其相近的卫星作为参考卫星，其轨道角速度=0.001 rad s-1。拦截器与目标的初始位置分别为1.5 0.5 0T km，0 0 0Tkm

36、，初始速度分别为0 0 0Tkm s-1，-0.05 0 0.05Tkm s-1。控制参数设置如下：Q=I3000，S=I3000，RP=1 106I3，RE=1.5 106I3，终端时间为2 000 s且更新步长为1 s。假设拦截器与目标的最大推力加速度均为10 ms-2，广义 Kalman 滤波中过程噪声方差阵为diag10-6 10-6 10-6 0.25 10-6 0.25 10-6 0.25 10-61010，量测噪声方差阵为diag10-8 10-8 10-8 0.25 10-8 0.25 10-8 0.25 10-8。5.1完全信息博弈在这种情况下，拦截器可以精确获取

37、到目标的控制矩阵RE。通过仿真，可以观察到图3和图4中展示的航天器三维运动轨迹和相对距离变化，在488 s时，拦截器成功地拦截了目标。此外，图5展示了完全信息博弈进程中拦截器的控制加速度变化情况。5.2不完全信息博弈在这种情况下，拦截器无法准确获取到目标的控制矩阵，只能通过猜测该矩阵来设计拦截器策略，假设拦截器猜测的目标控制矩阵为RE=2 106I3。通过仿真图6可以看出航天器间追逃轨迹，且拦截器在1 979 s时成功拦截了目标。然而，从图7中可以看出，拦截器与目标的相对距离变化很剧烈，经过多次震荡，拦截器才最终实现拦截。通过比较图5和图8可以看出，由于拦截器是在猜测较大的RE值下决策的，该条

38、件下的控制加速度表现出剧烈的振荡，拦截过程的控制性能显著下降。仿真结果表明，如果拦截器不能完全获得目标600500400300200100100500001004006002001001050202000020406080100z/kmx/kmy/km不完全信息下航天器追逃轨迹拦截航天器目标航天器图6不完全信息下航天器追逃轨迹Fig.6Spacecraft pursuit-evasion trajectory under incomplete information80706050403020100100500501012z/kmx/kmy/km完全信息下航天器追逃轨迹拦截航天器目标航天器图3

39、完全信息下航天器追逃轨迹Fig.3Spacecraft pursuit-evasion trajectory under complete information010020030040050001.00.52.01.52.5相对距离/km时间/s完全信息条件图4完全信息下航天器相对距离Fig.4Relative distance of spacecraft under complete information010020030040050082464206拦截器控制加速度/(kms2)时间/s完全信息条件103xyz图5完全信息下拦截器控制加速度Fig.5Control accelerati

40、on of the interceptor under complete information70第 1 期汤旭等：不完全信息Epsilon纳什均衡的航天器末端追逃博弈策略的信息，会导致拦截时间增加、拦截性能下降。因此，在航天器追逃控制中，对目标的不完全信息进行估计具有重要意义。5.3不完全信息下信息估计博弈策略在这种情况下，拦截器采用信息估计的方法来适配目标的控制矩阵，从而建立不完全信息下的博弈策略。假设拦截器对目标控制矩阵的初始估计值为RE=2 106I3。通过图9和图10可以观察到航天器的三维追逃轨迹以及两者间相对距离的变化情况，拦截器在经过501 s的追击后成功地拦截了目标。从仿真图

41、11中可以看出，在估计目标控制矩阵并采取相应的行为学习方法后，拦截器的控制性能与完全信息条件下的情况相对接近，说明在目标信息不完全的情况下，通过信息估计来适配目标的控制矩阵可以有效提高航天器的拦截性能。图12显示了拦截器对目标控制矩阵信息的估计误差，通过广义Kalman滤波算法，可以有效地对目标信息进行估计，估计误差快速收敛。在追逃博弈中，代价函数值是衡量策略优劣的标准。图13给出了3种博弈场景的代价函数指标。结果表明，当拦截器采用信息估计策略时，相应的指标明显优于不完全信息方案，拦截时间短、成本低，并且接近完全信息方案的指标，这验证了不完全信息估计博弈策略的有效性。8070605040302

42、0100100501.51.00.55001.0z/kmx/kmy/km信息估计策略下航天器追逃轨迹0.50拦截航天器目标航天器图9不完全信息估计策略下航天器追逃轨迹Fig.9Spacecraft pursuit-evasion trajectory under estimation strategy05001 0001 5002 0006244206拦截器控制加速度/(kms2)时间/s不完全信息条件103xyz图8不完全信息下拦截器控制加速度Fig.8Control acceleration of the interceptor under incomplete information05

43、001 0001 5002 00002.01.51.00.53.53.02.54.0相对距离/km时间/s不完全信息条件图7不完全信息下航天器相对距离Fig.7Relative distance of spacecraft under incomplete information0100 150 20050250 300400 45035050001.00.52.01.52.5相对距离/km时间/s不完全信息估计博弈策略图10不完全信息估计策略下航天器相对距离Fig.10Relative distance of spacecraft under estimation strategy01002

44、003004005001042684206拦截器控制加速度/(kms2)时间/s不完全信息估计策略103xyz图11不完全信息估计策略下拦截器控制加速度Fig.11Control acceleration of the interceptor under estimation strategy71宇航学报第 45 卷6结论本文探讨了在不完全信息的情况下，如何设计一种快速、有效的航天器末端追逃博弈策略。首先，本文基于微分对策理论推导出完全信息下的纳什均衡策略对。为了对未知的目标信息进行估计，进一步提出了基于广义 Kalman 滤波的估计算法。在此基础上，设计了不完全信息下的航天器追逃博弈策略，并

45、严格证明了该策略满足-纳什均衡条件。最后，通过仿真分析验证了该策略的有效性，结果表明采用本文提出的末端追逃博弈策略可以有效地估计目标信息并实现快速拦截。综上所述，博弈论与空间飞行器导航、制导与控制相结合具有广阔的应用前景，能够为未来具有自主避障能力的航天器拦截领域研究提供新的思路和方法，有望成为未来空间攻防任务的重要突破点。参考文献1 陈虓，郑勇.中国航天发射任务的统计与分析 J.中国航天，2022（4）：41-47.CHEN Xiao，ZHENG Yong.Statistics and analysis of China s space launch missions J.Aerosp

46、ace China，2022（4）：41-47.2 梁斌，徐文福，李成，等.地球静止轨道在轨服务技术研究现状与发展趋势 J.宇航学报，2010，31（1）：1-13.LIANG Bin，XU Wenfu，LI Cheng，et al.The status and prospect of orbital servicing in the Geostationary orbitJ.Journal of Astronautics，2010，31（1）：1-13.3 袁利.面向不确定环境的航天器智能自主控制技术 J.宇航学报，2021，42（7）：839-849.YUAN Li.Spacecraft

47、intelligent autonomous control technology toward uncertain environmentJ.Journal of Astronautics，2021，42（7）：839-849.4 赖超，王卫红，熊少锋.拦截大机动目标的三维制导控制一体化设计 J.宇航学报，2017，38（7）：714-722.LAI Chao，WANG Weihong，XIONG Shaofeng.Integrated guidance and control design against highly maneuvering targetJ.Journal of Astr

48、onautics，2017，38（7）：714-722.5 ISAACS R.Differential games：a mathematical theory with applications to warfare and pursuit，control and optimizationM.New York：Dover Publications Inc，1999.6 罗亚中，李振瑜，祝海.航天器轨道追逃微分对策研究综述J.中国科学：技术科学，2020，50（12）：1533-1545.LUO Yazhong，LI Zhenyu，ZHU Hai.Survey on spacecraft orb

49、ital pursuit-evasion differential gamesJ.Scientia Sinica（Technologica），2020，50（12）：1533-1545.7 GUTMAN S，RUBINSKY S.3D-nonlinear vector guidance and exo-atmospheric interception J.IEEE Transactions on Aerospace and Electronic Systems，2015，51（4）：3014-3022.8 GUTMAN S，GOLDAN O，RUBINSKY S.Guaranteed miss

50、 distance in guidance systems with bounded controls and bounded noise J.Journal of Guidance，Control，and Dynamics，2012，35（3）：816-823.9 GUTMAN S，RUBINSKY S.Exoatmospheric thrust vector interception via time-to-go analysisJ.Journal of Guidance，Control，and Dynamics，2016，39（1）：86-97.10 王强，叶东，范宁军，等.基于零控脱靶

展开阅读全文