1、 年 月第 卷第 期西 北 工 业 大 学 学 报 :收稿日期:基金项目:国防基础科研计划()资助作者简介:王中(),中国船舶集团公司研究员,主要从事水中兵器总体技术研究。通信作者:温志文(),中国船舶集团公司博士研究生,主要从事水中兵器总体技术研究。:典型态势下水下攻防过程博弈策略研究王中,温志文,蔡卫军,王佩(中国船舶集团公司 第 研究所,陕西 西安;西北工业大学 航天学院,陕西 西安)摘 要:针对典型态势下水下攻防问题,建立了由来袭重型鱼雷、潜艇和反鱼雷鱼雷(,)构成的三方攻防问题数学模型。在考虑三方博弈对抗的条件下,将三方博弈问题转化为潜艇与来袭重型鱼雷之间的追逃博弈问题和潜艇发射的
2、与来袭重型鱼雷之间的拦截规避博弈问题,基于最优控制理论和微分博弈理论研究了追逃拦截规避三方最优博弈问题,综合追逃两方、拦截规避两方最优性能设计了三方博弈性能评价函数,根据双边极值最优必要条件推导了三方博弈追逃拦截规避对抗策略。开展了不同工况下三方采用博弈策略前后的仿真试验,结果表明所设计的水下攻防过程博弈策略能够提升潜艇逃逸、反鱼雷鱼雷拦截和重型鱼雷打击效果。关 键 词:水下攻防;最优控制;微分博弈;反鱼雷鱼雷中图分类号:文献标志码:文章编号:()随着鱼雷精确制导技术的日益发展,潜艇的防御能力面临更加严峻的挑战。主动防御手段已经成为潜艇防御的主要方式之一。潜艇发现来袭重型鱼雷后发射反鱼雷鱼雷(
3、,)实施拦截,同时采用机动规避策略进一步增大来袭重型鱼雷的追踪难度。这种攻防模式不同于以往雷艇之间的两方对抗模式,变为三方相互追踪规避博弈模式。为了应对这种对抗模式,为 和潜艇设计可行的拦截制导律和规避策略迫在眉睫。三方攻防博弈场景涉及潜艇、和来袭鱼雷。李博文以机动目标拦截为背景,采用矩阵对策博弈理论设计了拦截规避两方博弈模式下的制导律。朱雅萌等采用强化学习算法设计了机动博弈制导律提高飞行器的突防能力。苏山等针对二对一拦截问题基于微分对策理论设计了协同对抗博弈制导律。等针对多拦一的反导突防博弈场景,设计了 种不同的拦截博弈策略。针对导弹三方追逃博弈问题进行了研究,设计了基于最优控制理论的三方制
4、导律。等在研究目标攻击者防御者的三方博弈问题时,采用微分对策理论来设计博弈制导律。等将两方拦截问题转化为两方零和博弈问题,基于模糊评估设计在线任务规划的方法实现纳什均衡问题的求解。反鱼雷鱼雷作为一种新型的“硬杀伤”武器,逐渐成为水下攻防的研究重点之一。李宗吉等采用变结构控制方法设计了纵向拦截导引律。等设计了基于变结构控制的反鱼雷制导律。叶慧娟等设计了双滑模控制器,提高了命中精度和制导鲁棒性。张锐等设计了变指令周期最优滑模导引律,提高了拦截性能。孙振新等建立了 种拦截模型,设计了不同距离下反鱼雷鱼雷的拦截策略。等建立了一个预先评估电磁发射反鱼雷鱼雷捕获概率的分析模型。从上述反鱼雷鱼雷制导研究现状
5、可以看出,目前主动防御研究主要集中在反鱼雷鱼雷对目标鱼雷的拦截导引律研究,尚未从潜艇、反鱼雷鱼雷、来袭鱼雷三方攻防的角度开展博弈制导在水下攻防策略方面的应用研究。当前博弈制导研究主要集中在反导突防作战领域,由于反导拦截场景中拦截弹采取预测碰撞拦截方式,拦截第 期王中,等:典型态势下水下攻防过程博弈策略研究弹速度小于目标速度,目标受弹道形式影响机动能力有限,这些与水下攻防场景中潜艇、反鱼雷鱼雷、来袭鱼雷的弹道、速度特性、机动特性相差较大,因此有必要开展水下攻防博弈策略研究。本文以水下三方博弈对抗为背景,建立三方攻防的运动学模型,在考虑三方机动性能约束的条件下设计潜艇规避策略、制导律,实现规避来袭
6、鱼雷并主动拦截来袭鱼雷的防御模式。三方交战运动学模型三方攻防博弈问题可以看作 个两方追逃问题,分别是来袭鱼雷和潜艇的两方追逃问题及 和来袭鱼雷的两方追逃问题。因此,首先针对两方博弈问题建立运动建模。首先在惯性坐标系中建立任意航行器的运动学方程为:;()式中,变量为时间 的函数,分别为航行器 在惯性系中的位置;,分别为航行器 在惯性系方向,方向,方向的速度;,为航行器在惯性系 方向,方向,方向的加速度。考虑航行器之间的相对状态,其相对运动可描述为;()式中:,分别为航行器 相对于航行器 在惯性系中 方向、方向、方向的相对位置;,分别为航行器相对于航行器在惯性系中方向、方向、方向相对速度;,分别为
7、航行器 相对于航行器 在惯性系中 方向、方向、方向的相对加速度。为方便使用最优控制理论进行研究,将上述建立的运动模型用矩阵的形式进行描述;()式中:()为航行器在惯性系中的位置矢量;()为航行器 在惯性系中的速度矢量;()为航行器 在惯性系中的加速度矢量。同样,可以把相对运动方程描述为;()式中:()为航行器相对于航行器在惯性系中的相对位置矢量;()为航行器 相对于航行器 在惯性系中的相对速度矢量;()为航行器 对于航行器 在惯性系中的相对加速度矢量。将两者合起来,可以统一描述为()可令 为状态系数矩阵;为控制输入系数矩阵。逃逸方实施规避通过改变 来实现,追踪方实施拦截,通过 来实现。微分博弈
8、策略设计 两方非合作博弈问题表示一般非合作两方博弈优化问题的性能指标函数如下 (,)(,)()希望找出,使得以下问题最优 (,)(,)()对于两方追逃问题来说,追踪者希望找到最优控制 在最小化末端脱靶量的同时尽可能减少能量消耗,而逃避者希望找到最优控制输入 最大化末端脱靶量的同时尽量减少能量消耗。两方追逃问题转化为两方零和博弈问题,使用脱靶量和需用加速度来构造性能指标,为了获得追逃双方的最优博弈策略,将性能指标函数设计为西 北 工 业 大 学 学 报第 卷 ()式中,定义 ,为对称正半定终端状态的加权惩罚矩阵;为追踪方需求加速度函数的加权惩罚矩阵;为逃避方需求加速度函数的加权惩罚矩阵;为追踪方
9、惯性坐标系下加速度;为逃避方惯性坐标系下加速度。若 和 分别为追踪方和逃避方的最优控制输入,则()为追踪逃避的相对最优轨迹,即满足双边极值条件(,)(,)(,)()定义哈密顿函数为()()()式中,为协态向量。根据 理论,假设微分博弈鞍点存在且唯一,鞍点解满足纳什平衡条件,对于最优策略,必须满足最优性必要条件,即鞍点条件为 ()终端条件为:()()()根据必要条件和终端条件求解 和 为()()()将控制输入构建为系统相对状态的函数,假设 为如下形式 ()式中:为矩阵黎卡提微分方程的解;为矢量黎卡提微分方程的解。因此()()()()()由 表达式可得 ()将,代入必要条件,可得 ()()()()
10、()由于方程()的解必须满足所有的,所以它必须满足以下微分方程 ()()()()()()根据终端条件()和(),方程()称为矩阵黎卡提微分方程,方程()称为矢量黎卡提微分方程。通过求解 个方程得到 和。三方博弈问题根据两方追逃博弈运动模型,假设潜艇为 ,为 ,来袭鱼雷为 ,则相对运动由 个相对交战运动模型描述。鱼雷与潜艇的相对交战运动学模型可表示为 ()()式中,为鱼雷与潜艇的相对状态,制导输入分别为:为潜艇的规避机动策略,为鱼雷的追踪制导策略。与来袭鱼雷的相对交战运动学模型可表示为 ()()式中:为 与来袭鱼雷的相对状态,制导输入分别为:为来袭鱼雷躲避 的机动策略,为来袭鱼雷的追踪制导策略,
11、为 的拦截制导策略。对于来袭鱼雷和潜艇来说,建立微分博弈决策的性能指标 为 ()式中:定义为来袭鱼雷和潜艇终端脱靶量的加权矩阵;,定义为潜艇规避策略和来袭鱼雷追踪策略的软约束加权惩罚矩阵。第 期王中,等:典型态势下水下攻防过程博弈策略研究该性能指标中含有 表示在双方策略作用下的终端脱靶量,鱼雷希望控制 使性能指标尽可能小,而潜艇希望控制 使性能指标尽可能大。对于 和来袭鱼雷来说,建立微分博弈决策的性能指标 为 ()式中:定义为和来袭鱼雷终端脱靶量的加权矩阵;,定义为来袭鱼雷躲避策略和 拦截策略的软约束加权惩罚矩阵。在()()式中通过使用与所需加速度相关联的“加权惩罚”在性能指标中实现对双方输入
12、指令的“软约束”,性能指标的控制加权矩阵,代表了对追踪者和逃避者所应用的控制输入的约束程度,一般假设加权矩阵形式为 ,为保证 方程解存在,要求 ,即逃避指令上的加权必须大于追踪指令上的加权。由于系数,的倒数作为增益出现在控制指令中,因此可以按照三方机动性能的比例关系设置,系数。通过上述指标设计,将三方博弈攻防问题转化为 个双边极值问题即(,)(,)(,)(,)(,)(,)()这样一来就变成了个两方追逃微分博弈制导问题,根据最优控制理论,可以定义 个哈密尔顿函数()()()()()根据最优解的必要条件,可以通过哈密尔顿函数相对输入的一阶偏导为 来获得。()()哈密尔顿算子的最优条件也可以得到如下
13、关系,()()(),()()()假设,可以看作是由系统相对状态组成的函数,则 和,这样就可以得到三方追逃策略为()()()()()()()()()由()()式可得到,。,可通过求解如()()式的矩阵黎卡提方程、矢量黎卡提微分方程获得。()()()()()()()()()()式中,称为黎卡提矩阵;,称为黎卡提矢量。结合微分方程边界条件(),(),()和(),可推导最优策略的解析表达式。三方博弈解析策略设计通常黎卡提矩阵方程和矢量方程很难获得解析解,只有在一定的特殊情况下才能获得解析解。西 北 工 业 大 学 学 报第 卷选择 ;,由剩余时间 ,可得三方最优状态反馈策略为()()()()()可得三
14、方制导干扰项为()()()()()()()()()()()()()()()()()式 中,()(),(),(),()(),(),()。这样根据()式可以获得潜艇最优博弈规避策略解析表达式为()()()的最优主动博弈拦截制导律的解析表达式为()()()鱼雷的最优博弈攻击制导律的解析表达式为 ()()()()()由博弈均衡性能指标()式可知,当潜艇和 分别采用最优博弈规避策略和最优主动博弈拦截制导律时,如果鱼雷不采取最优博弈攻击制导律,将使得三方博弈结果偏向于防御方,增大潜艇的规避效果,提 升 的 拦 截 效 果。实 际 应 用 时,(),()很难精确获得,可以只采用最优状态反馈策略,而省略干扰项
15、,寻求可行的最优结果。仿真验证假设潜艇速度为 ,最大转弯角速度为,只在水平面内规避。速度为 ,最大转弯角速度 ,来袭重型鱼雷速度为 ,最大转弯角速度为 。仿真态势设置:相对距离 ,来袭鱼雷航向角为,航向角为,潜艇航向角为,潜艇初始深度 ,来袭鱼雷初始深度 。为了对比采用博弈策略的效果,假设 拦截命中重型鱼雷后,并不终止仿真,三方继续运行,来袭鱼雷继续攻击直至命中潜艇或脱靶。工况一 来袭鱼雷采用比例导引律进行攻击)条件 潜艇不采用博弈规避潜艇不规避,来袭鱼雷采用比例导引律打击潜艇的仿真结果如图 所示。图 潜艇不采取博弈规避策略情况下两方水下运动轨迹第 期王中,等:典型态势下水下攻防过程博弈策略研
16、究图 潜艇不采取博弈规避策略情况下鱼雷脱靶量图 给出了潜艇不采取博弈规避策略下的潜艇和鱼雷的水下运动轨迹。由图 可以看出鱼雷采用比例导引律进行拦截时 可以命中潜艇,脱靶量为 。)条件:潜艇采用博弈规避策略潜艇采取博弈规避策略,来袭鱼雷采用比例导引律打击潜艇的仿真结果如图 所示。图 为潜艇采取博弈规避策略下的潜艇和鱼雷的水下运动轨迹。由图 可以看出鱼雷在 可以命中潜艇,脱靶量为 。与情况 相比,潜艇采取规避后首次命中时间增加 ,脱靶量增加,但由于机动能力相差近 倍,脱靶量仍然较低,仅靠潜艇规避很难保证自身安全。图 潜艇采取博弈规避策略情况下两方水下运动轨迹图 潜艇采取博弈规避策略情况下鱼雷脱靶量
17、)条件:潜艇发现来袭鱼雷后发射,然后进行博弈规避潜艇采取博弈规避策略,并释放采用博弈制导律的 对来袭鱼雷进行拦截,来袭鱼雷采用比例导引律打击潜艇的仿真结果如图 所示。图 为潜艇、采取博弈策略,重型鱼雷采用比例制导律时三方水下运动轨迹。由图 可以看出鱼雷在 命中潜艇,脱靶量为 。在,命中鱼雷,脱靶量为 。由结果可知 命中鱼雷的时间早于鱼雷命中潜艇时间,且提前,能够有效地保护潜艇的安全。图 潜艇采取博弈策略情况下三方水下运动轨迹图 潜艇采取博弈策略下鱼雷和 脱靶量表 对工况一的 个条件进行性能对比,由条件 和条件 可知潜艇采用博弈规避策略后增加了鱼雷脱靶量,证明所设计潜艇的博弈规避策略有助于提高潜
18、艇的防御能力。由条件 和条件 可知潜艇发射 后采用博弈规避策略,在来袭鱼雷命中潜艇前可有效对其进行拦截,证明了本文所设计 博弈制导律的有效性。表 工况一 种条件的性能对比条件鱼雷脱靶量 鱼雷命中潜艇时间 首次脱靶量 命中来袭鱼雷时间 西 北 工 业 大 学 学 报第 卷)条件:考虑潜艇、来袭鱼雷、测量值存在过程噪声,假设相对距离测量误差服从 的正态分布,相对速度测量误差服从 的正态分布。针对条件,分别仿真 次,种条件下考虑过程噪声影响的性能对比如图 和表 所示。由图 和表 中条件 和条件 的脱靶量统计性能可以看出,潜艇采用博弈规避策略后,增大了鱼雷拦截脱靶量,增加约。由图 和表 中条件 和条件
19、 的脱靶量统计性能对比可以看出,由于鱼雷采用比例导引不会对 拦截进行规避,所以 种条件下总体来看潜艇博弈机动的效果基本相同,符合逻辑。图 工况一 种条件下鱼雷拦截脱靶量累计分布概率图表 工况一 蒙特卡洛仿真 种条件的性能对比条件鱼雷平均脱靶量 鱼雷脱靶量方差 鱼雷命中潜艇平均时间 鱼雷命中潜艇平均时间方差 命中平均脱靶量 命中脱靶量方差 命中来袭鱼雷平均时间 命中来袭鱼雷平均时间方差 工况二 来袭鱼雷采用博弈导引律进行攻击)条件:潜艇不采用博弈规避潜艇不规避,来袭鱼雷采用博弈导引律打击潜艇的仿真结果如图 所示。图 潜艇不采取博弈规避而鱼雷采用博弈制导律时两方水下运动轨迹图 潜艇不采取博弈规避而
20、鱼雷采用博弈制导律时鱼雷脱靶量图 为潜艇不采取博弈规避策略而来袭鱼雷采用博弈制导律时潜艇和鱼雷的水下运动轨迹。由图 可以看出鱼雷在 可以命中潜艇,脱靶量为 。)条件:潜艇作博弈规避潜艇采取博弈规避策略,来袭鱼雷采用博弈导引律打击潜艇的仿真结果如图 所示。图 潜艇与来袭鱼雷两方均采取博弈策略时两方水下运动轨迹图 潜艇与来袭鱼雷两方均采取博弈策略时鱼雷脱靶量第 期王中,等:典型态势下水下攻防过程博弈策略研究图 为潜艇与来袭鱼雷两方采取博弈策略时的潜艇和鱼雷的水下运动轨迹。由图 可看出鱼雷在 可以命中潜艇,脱靶量为 。与条件 相比,潜艇采取规避后首次命中时间增加,脱靶量增加,但由于机动能力相差 倍,
21、脱靶量仍然较低,仅靠潜艇自身规避很难保证自身安全。)条件:潜艇、来袭鱼雷、三方均采用博弈对抗策略潜艇采取博弈规避策略,并释放 对来袭鱼雷进行博弈拦截,来袭鱼雷采用博弈策略规避 同时打击潜艇的仿真结果如图 所示。图 三方均采取博弈策略时三方水下运动轨迹图 三方均采取博弈策略时鱼雷脱靶量图 为三方均采取博弈策略时三方水下运动轨迹。由图 可以看出鱼雷在 命中潜艇,脱靶量为 。在 可命中鱼雷,脱靶量为 ,与条件 相比,鱼雷为了躲避 首次命中脱靶量进一步增大到 。而 命中鱼雷的时间早于鱼雷命中潜艇时间,且提前,能够有效地保护潜艇的安全。表 对工况二的 个条件进行性能对比,由条件 和条件 可知,即使在来袭
22、鱼雷也采用博弈制导律进行攻击的前提下,潜艇采用博弈规避策略后仍增加了鱼雷脱靶量,证明所设计的潜艇博弈规避策略可更加智能地适应攻防态势。由条件 和条件 可知,即使在来袭鱼雷也采用博弈制导律进行攻击的前提下,潜艇发射 后采用博弈规避策略,在来袭鱼雷命中潜艇前可有效对其进行拦截,证明了本文所设计 博弈制导律可适应攻防态势对潜艇进行保护。从表、表 中 拦截结果对比可以看出,来袭鱼雷采取博弈策略后,通过规避增大了 的脱靶量约,同时也增大了对潜艇的打击脱靶量约,证明了博弈策略的均衡性。表 工况二 种条件的性能对比条件鱼雷脱靶量 鱼雷命中潜艇时间 脱靶量 命中鱼雷时间)条件:考虑潜艇、来袭鱼雷、测量值存在过
23、程噪声,假设相对距离测量误差服从的正态分布,相对速度测量误差服从 的正态分布。针对条件,分别仿真 次,种条件下考虑过程噪声影响的性能对比如表 所示。在考虑过程噪声的情况下由表、图 中条件 和条件 的脱靶量统计性能可以看出,潜艇采用博弈规避策略后,增大了鱼雷拦截脱靶量,增加约,首次命中时间增加 。由表、表 和表 工况二 蒙特卡洛仿真 种条件的性能比条件鱼雷平均脱靶量 鱼雷脱靶量方差 鱼雷命中潜艇平均时间 鱼雷命中潜艇平均时间方差 命中平均脱靶量 命中脱靶量方差 命中来袭鱼雷平均时间 命中来袭鱼雷平均时间方差 西 北 工 业 大 学 学 报第 卷图 工况二 种条件下鱼雷拦截脱靶量累计分布概率图图
24、可看出,来袭鱼雷采用博弈策略后,拦截脱靶量增加了约 。由表、图 中条件 和条件 的脱靶量统计性能对比可以看出,由于鱼雷为规避 的拦截,并未实现最优博弈导引律,导致对潜艇的打击脱靶量增加约,由工况一、工况二条件 仿真结果可以看出,引入过程噪声后,三方均不能实现最优博弈策略,但整体趋势与无过程噪声下结果一致,也从另一个侧面证明了本文所设计三方博弈策略的合理性。图 工况一、二 拦截脱靶量累计分布概率图 结 论本文针对典型态势下水下攻防过程博弈策略展开研究。从三方攻防的角度出发,建立了描述三方攻防过程运动模型。将三方博弈问题拆分为 个双方博弈追逃问题,设计了描述三方攻防博弈性能的目标函数,基于最优控制
25、和微分博弈理论设计了主动防御的博弈策略和攻击方的博弈制导律。通过水下攻防过程 种典型工况下的仿真试验,验证了本文设计博弈策略的有效性。参考文献:李博文 基于博弈论的导弹拦截制导律研究 沈阳:沈阳理工大学,:()朱雅萌,张海瑞,周国峰,等 一种基于深度强化学习的机动博弈制导律设计方法 航天控制,():,():()苏山,谢永杰,白瑜亮,等 微分对策协同对抗制导律方法研究 空天防御,():,():(),:,:,():,():李宗吉,张西勇,王树宗 基于变结构的反鱼雷鱼雷纵向拦截导引律设计 深圳大学学报,():,():()第 期王中,等:典型态势下水下攻防过程博弈策略研究 ,:叶慧娟,张西勇,王昕晔 基于变结构的反鱼雷鱼雷双滑模制导律 海军工程大学学报,():,():()张锐,袁志勇,刘忠乐,等 反鱼雷鱼雷变指令周期导引律设计 海军工程大学学报,():,():()孙振新,顾天军 水面舰艇反鱼雷鱼雷拦截策略研究 水下无人系统学报,():,():(),():,;,:,:;引用格式:王中,温志文,蔡卫军,等 典型态势下水下攻防过程博弈策略研究 西北工业大学学报,():,():()(:),