1、本文网址:http:/www.ship- Q 网络的水面无人艇逃脱策略 J.中国舰船研究,2024,19(1):256263.YANG Y P,SONG L F,MAO J Q,et al.Unmanned surface vehicle escape strategy based on hybrid sampling deep Q-net-workJ.Chinese Journal of Ship Research,2024,19(1):256263(in Chinese).基于混合采样深度 Q 网络的水面无人艇逃脱策略扫码阅读全文杨远鹏1,2,宋利飞2,茅嘉琪2,李一2,陈侯京*2,31
2、中国船舶集团有限公司系统工程研究院,北京 1000942 武汉理工大学 高性能船舶技术教育部重点实验室,湖北 武汉 4300633 中国舰船研究设计中心,湖北 武汉 430064摘 要:目的目的针对敌方船舶采用合围战术,研究我方无人艇(USV)被敌方船舶包围情况下的逃跑策略规划问题。方法方法提出一种混合采样深度 Q 网络(HS-DQN)强化学习算法,逐步增加重要样本的回放频率,并保留一定的探索性,防止算法陷入局部最优。设计状态空间、动作空间和奖励函数,通过训练获得最优的USV 逃跑策略,并从奖励值和逃脱成功率方面与 DQN 算法进行对比。结果结果仿真结果表明,使用 HS-DQN 算法进行训练,
3、逃脱成功率提高 2%,算法的收敛速度提高了 20%。结论结论HS-DQN 算法可以减少USV 无效探索的次数,并加快算法的收敛速度,仿真实验验证了 USV 逃跑策略的有效性。关键词:无人艇;阿波罗尼奥斯圆;围捕逃跑;深度强化学习;混合采样中图分类号:U664.82;TP242.6文献标志码:ADOI:10.19693/j.issn.1673-3185.03105 Unmanned surface vehicle escape strategy based on hybrid samplingdeep Q-networkYANG Yuanpeng1,2,SONG Lifei2,MAO Jiaqi
4、2,LI Yi2,CHEN Houjing*2,31 Systems Engineering Research Institute,CSSC,Beijing 100094,China2 Key Laboratory of High Performance Ship Technology of Ministry of Education,Wuhan University of Technology,Wuhan 430063,China3 China Ship Development and Design Center,Wuhan 430064,ChinaAbstract:ObjectiveAim
5、ing at the encirclement tactics adopted by enemy ships,this study focuses on theproblem of planning an escape strategy when an unmanned surface vehicle(USV)is surrounded by enemyships.MethodsA hybrid sampling deep Q-network(HS-DQN)reinforcement learning algorithm is pro-posed which gradually increas
6、es the playback frequency of important samples and retains a certain level of ex-ploration to prevent it from falling into local optimization.The state space,action space and reward functionare designed to obtain the USVs optimal escape strategy,and its performance is compared with that of thedeep Q
7、-network(DQN)algorithm in terms of reward and escape success rate.ResultsThe simulation res-ults show that using the HS-DQN algorithm for training increases the escape success rate by 2%and the con-vergence speed by 20%.ConclusionsThe HS-DQN algorithm can reduce the number of useless explora-tions a
8、nd speed up the convergence of the algorithm.The simulation results verify the effectiveness of theUSV escape strategy.Key words:USV;Apollonius circle;pursuitevasion;deep reinforcement learning;hybrid sampling 收稿日期:20220927 修回日期:20230215 网络首发时间:20230417 09:15基金项目:国家自然科学基金项目资助(51809203)作者简介:杨远鹏,男,199
9、6 年生,硕士,助理工程师宋利飞,男,1989 年生,博士,副教授。研究方向:智能船舶。E-mail:陈侯京,男,1988 年生,博士,高级工程师*通信作者:陈侯京 第 19 卷 第 1 期中 国 舰 船 研 究Vol.19 No.12024 年 2 月Chinese Journal of Ship ResearchFeb.20240 引言21 世纪以来,世界各国对海洋资源的需求越来越多,海上冲突加剧,大力发展海上力量成为重要的军事战略1。水面无人艇(USV)是一种采用自主或者远程控制方式的小型舰艇,具有速度快、回转能力强、隐蔽性好、智能化程度高等特点2,能够在复杂、危险海域执行作战任务3,并
10、将成为未来海军作战的重要装备。目前,USV 已基本实现了路径规划、自主避障等初级智能化技术,开始向高级智能化发展,且取得了一些成果,例如,USV 以集群协同方式执行任务,对可疑目标进行侦察和合围。然而,在可疑船舶对我方 USV进行合围情况下,如何保障我方 USV 的安全,快速逃离包围圈成为了研究重点。目前,针对 USV 追逃问题的研究处于初步阶段。国内外学者在机器人、无人机等领域对追逃问题进行了研究,取得了一些研究成果。常用的方法有智能算法4-6,强化学习(reinforce learning,RL)7-9和博弈论(game theory,GT)10-11等。Carsten等12受到自然界动物
11、集群行为的启发,提出了一种基于深度学习算法的多逃脱者的逃脱策略,每个逃脱者与其他逃脱者相互作用来分散围捕者的注意力,设置奖励机制来保证每个逃脱者尽可能长时间地生存。Xiong 等13从动力学的角度提出了一种基于仿生的围捕逃脱游戏动力学模型,以及基于基线的围捕逃脱策略,研究了个体跑动和参数范围对围捕逃脱博弈的影响。但是,学习到的围捕逃脱策略与训练中的策略过于吻合,没有考虑博弈过程中的时滞问题。夏家伟等14提出一种基于多智能体近端策略优化(MAPPO)的 USV 围捕算法,该算法采用集中式训练、分布式执行的方式,集群可以共享集体策略,个体可以独立执行动作,仿真实验表明,相较其他算法,该方法在围捕成
12、功率与时效性方面更具优势,并且具备某一个体损毁、集群继续执行围捕任务的能力。刘峰等15提出了一种基于群体意志统一的无人机围捕算法,该方法引入群体意志趋同的概念,构建双回路认知模型,使用图卷积网络模型对无人机获取的局部信息进行融合,实现参数共享,无人机集群则根据阿波罗尼奥斯圆(Apolloni-us circle)实现协同围捕。在 USV 追逃问题中,对围捕者的研究较多,逃脱者的研究极少。USV 采用传统的避碰算法进行逃脱大概率会被捕获。因此,本文拟从追逃问题中逃脱者的视角,提出一种基于混合采样深度 Q 网络(HS-DQN)的强化学习方法的 USV 逃脱策略,USV 在对抗环境中学习,以获得最优
13、策略。1 USV 追逃模型在平面环境中,存在 N 艘围捕船和 1 艘我方USV。运动方程如下:xP(t+1)=vP(t)cosP+xP(t)yP(t+1)=vP(t)sinP+yP(t)xE(t+1)=vE(t)cosE+xE(t)yE(t+1)=vE(t)sinE+yE(t)(1)(xP,yP)(xE,yE)PEvPvEvP 0,VP vE 0,VEVPVE=VP/VE式中:表示围捕船的位置坐标;为USV 的位置坐标;,分别为围捕船和 USV 的速度方向;,分别为围捕船和 USV 的速度,且,其中为围捕船的最大速度,为 USV 的最大速度,二者其比值。1 sin(/N),1)由文献 16 可
14、知,当时(N 为围捕船数量),USV 速度远大于围捕船速度,围捕船很难追上 USV。当时,围捕船速度大于 USV速度,围捕船采取简单的策略就能够将 USV 捕获。而研究这两种情况没有意义。本文将主要研究时的 USV 逃脱策略问题。d(xP,yP),(xE,yE)多艘围捕船对 USV 进行围捕时,判定围捕船捕获到 USV 的条件为,其中,为围捕船的围捕半径。P(xP,yP)E(xE,yE)T(x,y)PT/VP=ET/VE在平面直角坐标系下,将围捕船和 USV 简化为不考虑形状和大小的质点。,分别为围捕船和 USV 的位置坐标,为该坐标系的一点,该点满足。点 T 的轨迹所形成的圆就是阿波罗尼奥斯
15、圆,如图 1 所示。EPTRapolOapol图 1阿波罗尼奥斯圆Fig.1 Apollonius circle 图 1 上的点表示围捕船和 USV 都用最大速度航行时,在某时刻下,围捕船和 USV 会在该点相遇。由几何关系可得出阿波罗尼奥斯圆的公式:Oapol=(xP2xE12,yP2yE12)Rapol=(xPxE)2(yPyE)212(2)第 1 期杨远鹏等:基于混合采样深度 Q 网络的水面无人艇逃脱策略257OapolRapol式中:为阿波罗尼奥斯圆的圆心;为阿波罗尼奥斯圆的半径。根据阿波罗尼奥斯圆的特点,围捕船成功追捕到 USV 要发生在圆的边界上或者圆的内部。因此 USV 逃脱时要
16、避开该区域。设定围捕船的阿波罗尼奥斯圆内的区域为威胁区域。在多船围捕 USV 的情况下,围捕船的威胁区域产生叠加,USV 的活动空间变小。根据多围捕PolygonpPolygonpPolygonpPolygonp船的位置可产生 4 种状态17:1)未包围状态,USV在围捕船所构成的包围多边形外;2)半包围状态,USV 在内,有相邻两个围捕船的威胁区域不相交,出现缺口;3)临界包围状态,USV 在内,相邻 2 艘围捕船的威胁区域相切;4)全包围状态,USV 在内,相邻2 艘围捕船的威胁区域相交。以 4 艘围捕船为例(Pi,i=1,2,3,4),4 种状态的具体情况如图 2 所示。(a)未包围状态
17、(b)半包围状态(c)临界包围状态(d)全包围状态EP4P4P4P4P1P1P1P1P2P2P2P2P3P3P3P3EEE图 2USV 被包围状态示意图Fig.2 Schematic diagram of the bound states for USV PolygonpPolygonp由于 USV 速度比围捕船速度大,在未包围状态下,USV 逃离了的范围,一直朝向远离的方向运动,USV 就不会再次被围捕船包围,即逃脱成功。本文着重研究 USV 在半包围状态、临界包围状态和全包围状态下的逃脱策略。由于 USV 的追逃问题十分复杂,为了方便研究,适当进行简化。将围捕船的数量设定为 4 艘,围捕船
18、和 USV 的速度都为最大速度,所有围捕船的最大速度和围捕半径相等,即多个围捕船的型号、性能指标全部相同。2 混合采样深度 Q 网络强化学习算法主要研究智能体与环境交互获取奖励值,并采取最优策略获取最多累计奖励的过程18。传统的强化学习算法中状态是离散的,当环境复杂多变时,状态和动作空间比较大,会产生“维度灾难”问题,而深度强化学习(deep re-inforcement learning,DRL)可以解决此问题。DRL 算法结合了深度学习和强化学习来实现了端到端的学习。深度 Q 网络(deep Q-network,DQN)算法19是 DRL 中常用的算法,其结合了深度学习和 Q 学习(Q-l
19、earning)算法,使用神经网络逼近动作价值函数,即 Q(s,a;)Q(s,a)(其中 为神经网络的参数)。DQN 的采样机制没有考虑样本的重要程度,增加了探索次数。本文提出一种基于 HS-DQN的强化学习方法。该方法在训练的初期阶段逐渐增加重要样本的回放频率,并同时保证具有一定的探索性,避免算法陷入到局部最优,以加快算法收敛速度。在 DRL 中,常用时序差分(time difference,TD)误差来更新值函数网络参数,TD 误差的绝对值越大,网络参数更新的幅度越大。本文选择 TD误差的绝对值作为评估样本重要性的指标,其公式如下:=r+maxaQ(s,a)Q(s,a)(3)MS在经验池中
20、随机采取个样本,组成样本池。根据混合采样流程,从样本池采取个样本以供神经网络训练,且。具体的混合采样机制步骤如下:Ps(i)1)根据采样概率进行降序排序,采样概率公式如下:Ps(i)=exp(|i|)/kexp(|k|)(4)ik式中:为样本池中第 i 个样本的 TD 误差;为样本 k 的 TD 误差;等式右边的分母项为指样本池中所有样本的 TD 误差之和。MPMP2)根据优先采样数计算公式计算出优先采样数,将样本池中前个样本放入混合池中,计算公式如下:258“无人船艇自主性技术”专辑第 19 卷MP=MS(1exp(l/L)(5)式中:为向上取整;l 为经验池中样本的个数;L 为经验池的容量
21、。MU=MSMPNSMPMU3)计算出随机采样数,在样本池后个样本中随机选取个样本放入混合池中。HS-DQN 强化学习算法的结构如图 3 所示。环境动作值网络目标值网络经验池DQN 误差函数maxaQ(s a;)误差函数的梯度均匀采样混合采样样本池混合池(s,a,r,s)s拷贝参数r(s,a)sargmaxaQ(s,a;)Q(s,a;),每隔 n 步图 3HS-DQN 结构Fig.3 Structure of HS-DQN 3 强化学习要素设计以 USV 为中心建立局部坐标系,USV 的航向为 x 轴方向,根据右手定则得到 y 轴方向,具体如图 4 所示。P4P1P2P3EvP4vP1vP2v
22、P3vP1v1d1xvE图 4以 USV 为中心的局部坐标系Fig.4 Local coordinate system centered on USV didi=(vE,EPi)vivi=(vE,vPi)Di=d(Pi,E)图 4 中,为围捕船 i 的相对位置方位角,即;为围捕船 i 的相对速度方向角,即;为围捕船围捕半径;,为 USV 和围捕船 Pi之间的距离。根据图中的参数定义状态空间 S:S=D1/KDcosd1sind1cosv1sinv1D2/KDcosd2sind2cosv1sinv1D3/KDcosd3sind3cosv1sinv1D4/KDcosd4sind4cosv4sinv
23、4(6)KD式中:为标准化系数,目的是缩小各个变量之间的范围差。PolygonpUSV 会选择从相邻 2 艘围捕船中间逃脱,即选择的某一条边所在的方向进行逃脱,选择方向的动作是离散的。定义动作空间 A 为A=Adir1,Adir2,Adir3,Adir4(7)Adir i式中:为逃脱方向,即 USV 从围捕船 Pi和围捕船 Pi1中间逃脱的方向,若 i=1,则为围捕船 P1和围捕船 P4。TEAdir iTEiAdir2TE2结合追逃模型可知,USV 一定要避开围捕船的威胁区域,最有可能逃脱的点是相邻围捕船的威胁区域相交的交点或者是缺口的中点,此点设定为逃脱目标点。USV 选定的逃脱方向其实是
24、选定了逃脱目标点,以此来控制 USV 运动。图 5 所示为 USV 选择逃脱方向并朝向逃脱目标点运动。P4P1P3P2vP4vP3vP2vP1EAdir2BACABTE2TPvE图 5态势惩罚函数示意图Fig.5 Schematic diagram of situation penalty function r1根据追逃模型的特点,设计奖励函数。定义态势惩罚函数为,即r1=?AB?(2exp(2DC)(8)r1Adir iAdir iABC=PiEPi1AB=PiEPi1DC=d(Pi,Pi1)PiPi1PiPi1式中,为 USV 从方向逃脱的几率。USV 选择逃脱方向后,(即为围捕船和围捕船
25、之间的距离),如图 5 所示。式(1)中,等号右边的值越小,接近于 0,表明 USV 距离越近,USV从围捕船 Pi和围捕船 Pi1中间逃脱的概率越大;值越小,USV 逃脱的活动空间越大。r2定义逃离奖励函数为:r2=DFGH(9)r2Adir iDFC=PiTEiPi1GH=Oapol iTEiOapol i1DF=PiTEiPi1GHL=Oapol iTEiOapol i1式中:表示在方向出现缺口的几率;,如图 6 所示。式(9)中,第 1 期杨远鹏等:基于混合采样深度 Q 网络的水面无人艇逃脱策略259DF/PiPi1GH/值 越 接 近 于 1,表 示 USV 离越 近;值越接近于 1
26、,表示威胁区域相交部分越小,出现缺口的可能性越大。EOapol1Oapol2HFCDGP4P2P3P1DFGHlvETPI图 6逃离奖励函数示意图Fig.6 Schematic diagram of escape reward function Polygonpr3为了使 USV 尽快逃出,定义时间惩罚函数为:r3=0,t 30 sexp(t30)1,t 30 s(10)Polygonp式中,t 为 USV 在中运动的时间。r4定义损耗惩罚函数为:r4=l(11)lETEiTEi式中,为 USV 速度向量到线段的优弧角度,表明 USV 从当前的航向调整到朝向逃脱目标点的消耗,如图 6 所示。综
27、上所述,环境的奖励函数为 r:r=10,逃脱成功50,逃脱失败w1r1+w2r2+w3r3+w4r4,其他(12)w1w2w3w4r1r2r3r4r1r1r4r4w1=2w2=1 w3=1 w4=0.1式中:,和分别为,和的重要程度。考虑到对 USV 做决策的影响较大,加大的权重;的作用主要是避免 USV 频繁切换逃离目标点,不宜过大。综合考虑后,设置,。本文采用深度神经网络(deep neural network,DNN)来近似 Q 函数,输入层共 21 个输入神经元,输出层共有 4 个输出神经元,隐藏层共有 6 层,激活函数采用 LeakyReLU 函数,神经网络的参数如表 1 所示,网络
28、结构如图 7 所示。4 仿真结果分析仿真实验平台 CPU 型号为 i7-9750H,GPU 型号为 NVIDIA GTX1660ti,操作系统为 Windows 10专业版。使用 Python 编程语言和深度学习框架TensorFlow。根据文献 14 构建 USV 对抗仿真环境。HS-DQN 的参数设置见表 2。USV 共探索环境 4 000 次,分析 DQN 和 HS-DQN 的性能。奖励的评价指标对比如表 3 所示,DQN 和 HS-DQN 的奖励变化如图 8 所示,前 450次探索的奖励变化如图 9 所示。图中,纵坐标奖励是指每次探索的累计奖励值。表 2 HS-DQN 算法参数设置Ta
29、ble 2 Parameters setting for HS-DQN algorithm参数数值学习率0.001折扣因子0.9-greedy探索策略概率0.1网络学习频率10经验池大小10 000样本池大小NS100MS混合池大小64 表 3 评价指标对比Table 3 Comparison of evaluation indicatorsDQNHS-DQN平均值6.684.41方差883.46773.82 表 1 神经网络参数Table 1 Parameters of neural network输入输出输入层211隐藏层112812561隐藏层225612561隐藏层325612561隐
30、藏层425611281隐藏层51281641隐藏层664141输出层41.4.输入层隐藏层输出层.SUMSUMSUMSUM价值函数神经元优势函数神经元s1a1p1a2s2p2a3a4p3s21pV图 7网络结构图Fig.7 Network structure diagram260“无人船艇自主性技术”专辑第 19 卷 0DQNHS-DQN2001501005001 0002 000探索次数奖励3 0004 000图 8奖励变化Fig.8 Variation diagram of reward 0DQNHS-DQN150100500100200探索次数奖励300400图 9前 450 次探索的奖
31、励变化Fig.9 Variation diagram of reward for the first 450 explorations Polygonp在训练初期,USV 被捕获的次数较多,或者在中绕圈,累计奖励低。随着 USV 探索环境并获取经验,USV 找到在短时间内逃脱的策略,累计奖励变大。由于对抗仿真环境会随机设置围捕船以及 USV 的航速和航向,每次探索后的奖励值变化较大。从图中可以看出,与 DQN 相比,使用 HS-DQN 训练时,低奖励的探索次数占总探索次数的比重小,USV 被捕获的次数或者逃脱时间过长的探索次数较低。奖励的平均值提高了 2.27,奖励的方差降低了 109.64。
32、采用 DQN,HS-DQN 和文献 19 中方法得到的逃脱成功率变化曲线如图 10 所示。00.7250.7500.7750.8000.8250.8500.8750.9001 0002 000探索次数3 000文献19DQNHS-DQN4 000逃脱成功率图 10逃脱成功率变化曲线Fig.10 Variation curve of escape success rate 从图 10 中可以看出,使用 HS-DQN 进行训练时,逃脱成功率在探索 800 次后趋向稳定,到最大探索次数时,逃脱成功率为 89.725%。使用 DQN训练时,逃脱成功率在探索 1 000 次后趋向稳定,到最大探索次数时,
33、逃脱成功率为 87.725%。与DQN 相比,HS-DQN 的逃脱成功率提高了 2%。USV 使用文献 19 的方法逃脱时,逃脱成功率为80.350%,由于前期探索次数较少,具有一定的偶然性,随着探索次数的增加,逃脱成功率趋于真实情况。在训练初期,采用 HS-DQN 的逃脱成功率上升的速率明显比 DQN 的快,算法收敛速度提高了 20%。在训练初期阶段经验池中的样本较少,HS-DQN 采用随机采样,以避免产生过拟合现象;随着样本不断增加,加大样本池中的重要样本的回放频率,保证最终抽取的样本不会出现重复。因此,HS-DQN 可以加快算法收敛速度。对处于围捕船包围圈中的 USV 逃脱过程进行一次仿
34、真。USV 的初始位置为 0 m,0 m,初始速度为 0.616 m/s,14.987 m/s。围捕船的初始位置和速度如表 4 所示。表 4 围捕船的初始位置和速度Table 4 Initial position and speed of pursuit ship围捕船编号位置/m速度/(ms1)1265.9,346.111.498,3.4322449.5 146.811.655,2.8583197.6,381.02.992,11.6214320.3,252.45.512,10.659 PolygonpTETETP图 11 各图分别为围捕船与 USV 在 0,9,18,28 和 48 s 时刻
35、的位置。图中:黑色小船代表 USV;绿色、橙色、粉色、红色的小船分别表示围捕船P1P4;灰色圆圈为围捕船的威胁区域;蓝色多边形为围捕船所形成的包围多边形;黑色三角形为逃脱目标点,USV 选择逃脱方向后朝向逃脱目标点运动;红色*符号表示围捕目标点,即围捕船认为 USV 要突围的点。TPTE3TPTE3TP在 18 s 内,USV 选择从 P2和 P3号围捕船中间逃脱。围捕船 P1和 P2中间出现缺口,两船朝向缺口运动,使得两船的威胁区域相切,重新将 USV 包围。在 917 s 内,围捕船识破 USV 的意图,将围捕目标点设在点上,围捕船 P2和P3朝向运动,在 USV 前方进行拦截。在 182
36、7 s 内,USV 认为继续往逃脱目标点运动会被捕获,逃脱概率过低,从而选择从围捕船 P3和P4中间逃脱,围捕船会继续朝向运动以补全缺口。在 28 s 时刻,围捕船 P3和 P4的威胁区域不相交,中间出现缺口,两船向该缺口运动。然而,围捕船受到转弯半径的限制不能立即调头,且USV 的速度要比围捕船的大,缺口越来越大,USV在 48 s 时刻突破包围,逃脱成功。该仿真结果证明了 USV 逃脱策略的有效性和实用性。5 结语本文提出了一种基于 DRL 算法的 USV 逃脱策略,实现了敌方对我方 USV 采取合围战术,我第 1 期杨远鹏等:基于混合采样深度 Q 网络的水面无人艇逃脱策略261方 USV
37、 进行突围的逃脱策略规划。首先,根据阿波罗尼奥斯圆的特点,对 USV 追逃问题进行建模。然后,提出了一种基于 HS-DQN 的强化学习算法,逐步增加重要样本的回放频率,同时可以保证一定的探索性,弥补了随机采样机制的不足。其次,根据 USV 追逃问题的特点,设计了状态空间、动作空间和奖励函数等强化学习要素。仿真结果表明,运用 HS-DQN 算法减少了 USV 无效探索的次数,避免了算法陷入局部最优,加快了算法的收敛速度,从而提高了逃脱成功率。然而,受模型的限制,本文所提方法只能应用于 USV 逃离 4 艘围捕船的围捕的场景,后续还将针对敌方数目和 USV 数目都不定的追逃问题展开更深入的研究。参
38、考文献:SONNENBURG C R,WOOLSEY C A.Modeling,identification,and control of an unmanned surface vehicleJ.Journal of Field Robotics,2013,30(3):371398.1 SARDA E I,QU H,BERTASKA I R,et al.Stationkeeping control of an unmanned surface vehicle expos-ed to current and wind disturbancesJ.Ocean Engineer-ing,2016,
39、127:305324.2 LARRAZABAL J M,PENAS M S.Intelligent ruddercontrol of an unmanned surface vesselJ.Expert Sys-tems with Applications,2016,55:106117.3 THOMAS H,SANDIP S.Evolving behavioral strategiesin predator and preyJ.International Joint Conference4on Artificial Intelligence,2005:113-126.张彬.基于粒子群算法的群体
40、机器人围捕行为的研究D.兰州:兰州理工大学,2013.ZHANG B.The research on groups of robot hunting be-havior based on particle swarm optimization algorithmD.Lanzhou:Lanzhou University of Technology,2013(in Chinese).5 宋利飞,徐凯凯,史晓骞,等.多无人艇协同围捕智能逃跑目标方法研究 J.中国舰船研究,2023,18(1):5259.SONG L F,XU K K,SHI X Q,et al.Multiple USVcoopera
41、tive algorithm method for hunting intelligent es-caped targetsJ.Chinese Journal of Ship Research,2023,18(1):5259(in both Chinese and English).6 狄小娟.基于强化学习的移动多智能体自组织协同目标搜索 D.南京:南京邮电大学,2020.DI X J.Self-organizing collaborative target search ofmobile multi-agent based on reinforcement learningD.Nanjing
42、:Nanjing University of Posts and Telecommu-nications,2020(in Chinese).7 吴子沉,胡斌.基于态势认知的无人机集群围捕方法J.北京航空航天大学学报,2021,42(2):424429.WU Z C,HU B.Swarm rounding up method of UAVbased on situation cognitionJ.Journal of Beijing Uni-versity of Aeronautics and Astronautics,2021,42(2):424429(in Chinese).8 史帅科.基于
43、博弈论的多卫星围捕策略研究 D.北京:北京邮电大学,2017.SHI S K.Research on multi-satellites pursuit evasion stra-tegy based on game theoryD.Beijing:Beijing Universi-9 2 0002 0001 5001 000P1P1P1P1P1P1P2P2P2P2P2P2P3P3P3P3P3P3P4P4P4P4P4P4TUSV纵向距离/m50005001 0001 5002 0001 0000横向距离/m(a)0 s1 0002 0002 0002 0001 5001 000USV纵向距离/m
44、50005001 0001 5002 0001 0000横向距离/m(b)9 s1 0002 0002 0002 0001 5001 000USV纵向距离/m50005001 0001 5002 0001 0000横向距离/m(c)18 s1 0002 0002 0002 0001 5001 000USV纵向距离/m50005001 0001 5002 0001 0000横向距离/m(d)28 s1 0002 0002 0002 0001 5001 000USV纵向距离/m50005001 0001 5002 0001 0000横向距离/m(e)48 s1 0002 0001 0001 000
45、800600400USV纵向距离/m2000200400600200横向距离/m(f)48 s 局部图200PTE3(TP)TE1TE3TE4(TP)TPTE4(TP)TE4(TP)图 11USV 的逃脱仿真过程Fig.11 USVs escape simulation process262“无人船艇自主性技术”专辑第 19 卷ty of Posts and Telecommunications,2017(in Chinese).RUBINSKY S,GUTMAN S.Three-player pursuit andevasion conflictJ.Journal of Guidance,C
46、ontrol,andDynamics,2014,37(1):98110.10 WANG Y D,DONG L,SUN C Y.Cooperative controlfor multi-player pursuit-evasion games with reinforce-ment learningJ.Neurocomputing,2019.11 CARSTEN H,THOMY P,THOMAS G,et al.Emergentescape-based flocking behavior using multi-agent rein-forcement learningD.America:Cor
47、nell University,2019.12 XIONG H,CAO H H,ZHANG L,et al.A dynamics per-spective of pursuit-evasion games of intelligent agents withthe ability to learnD.Ithaca,NY:Cornell University,2021.13 夏家伟,朱旭芳,张建强,等.基于多智能体强化学习的无人艇协同围捕方法研究 J.控制与决策,2022:1-9.XIA J W,ZHU X F,ZHANG J Q,et al.Research oncooperative hun
48、ting method of unmanned surface vehiclebased on multi-agent reinforcement learningJ.Controland Decision,2022:19(in Chinese).14 刘峰,魏瑞轩,周凯,等.基于群体意志统一的无人机协同围捕策略研究 J.北京航空航天大学学报,2021,48(11):1-8.15LIU F,WEI R,ZHOU K,et al.Research on multi-UAVroundup strategy based on the unity of group willJ.Journal of B
49、eijing University of Aeronautics and Astro-nautics,2021,48(11):1-8(in Chinese).方宝富,潘启树,洪炳镕,等.多追捕者-单一逃跑者追逃问题实现成功捕获的约束条件 J.机器人,2012,34(3):282291.FANG B F,PAN Q H,HONG B G,et al.Constraint condi-tions of successful capture in multi-pursuers VS oneevader gamesJ.Robot,2012,34(3):282291(in Chinese).16 苏义鑫
50、,石兵华,张华军,等.水面无人艇的抗追捕-逃跑策略 J.哈尔滨工程大学学报,2018,39(6):10191025.SU Y X,SHI B H,ZHANG H J,et al.Anti-pursuit eva-sion strategy of an unmanned surface vehicleJ.Journ-al of Harbin Engineering University,2018,39(6):10191025(in Chinese).17 SUTTON R S,BSRTO A G.Reinforcement learning:an introductionJ.IEEE Trans