收藏 分销(赏)

基于改进DDPG算法的无人艇自适应控制.pdf

上传人:自信****多点 文档编号:2414725 上传时间:2024-05-29 格式:PDF 页数:8 大小:8.13MB
下载 相关 举报
基于改进DDPG算法的无人艇自适应控制.pdf_第1页
第1页 / 共8页
基于改进DDPG算法的无人艇自适应控制.pdf_第2页
第2页 / 共8页
基于改进DDPG算法的无人艇自适应控制.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、本文网址:http:/www.ship- DDPG 算法的无人艇自适应控制 J.中国舰船研究,2024,19(1):137144.SONG L F,XU C Y,HAO L,et al.Adaptive control of unmanned surface vehicle based on improved DDPG algorithmJ.Chinese Journal of Ship Research,2024,19(1):137144(in Chinese).基于改进 DDPG 算法的无人艇自适应控制扫码阅读全文宋利飞1,2,许传毅1,2,郝乐1,2,郭荣1,2,柴威*1,21 武汉理工

2、大学 高性能船舶技术教育部重点实验室,湖北 武汉 4300632 武汉理工大学 船海与能源动力工程学院,湖北 武汉 430063摘 要:目的目的针对水面无人艇(USV)在干扰条件下航行稳定性差的问题,提出一种基于深度强化学习(DRL)算法的智能参数整定方法,以实现对 USV 在干扰情况下的有效控制。方法方法首先,建立 USV 动力学模型,结合视线(LOS)法和 PID 控制器对 USV 进行航向控制;其次,引入 DRL 理论,设计智能体环境状态、动作和奖励函数在线调整 PID 参数;然后,针对深度确定性策略梯度(DDPG)算法收敛速度慢和训练时容易出现局部最优的情况,提出改进 DDPG 算法,

3、将原经验池分离为成功经验池和失败经验池;最后,设计自适应批次采样函数,优化经验池回放结构。结果结果仿真实验表明,所改进的算法迅速收敛。同时,在训练后期条件下,基于改进 DDPG 算法控制器的横向误差和航向角偏差均显著减小,可更快地贴合期望路径后保持更稳定的路径跟踪。结论结论改进后的 DDPG 算法显著降低了训练时间成本,不仅增强了智能体训练后期的稳态性能,还提高了路径跟踪精度。关键词:无人艇;深度强化学习;智能控制;轨迹跟踪;参数整定中图分类号:U664.82;TP242.6文献标志码:ADOI:10.19693/j.issn.1673-3185.03122 Adaptive control

4、of unmanned surface vehiclebased on improved DDPG algorithmSONG Lifei1,2,XU Chuanyi1,2,HAO Le1,2,GUO Rong1,2,CHAI Wei*1,21 Key Laboratory of High Performance Ship Technology of Ministry of Education,Wuhan University of Technology,Wuhan 430063,China2 School of Naval Architecture,Ocean and Energy Powe

5、r Engineering,Wuhan University of Technology,Wuhan 430063,ChinaAbstract:ObjectiveIn order to tackle the issue of the poor navigation stability of unmanned surfacevehicles(USVs)under interference conditions,an intelligent control parameter adjustment strategy based onthe deep reinforcement learning(D

6、RL)method is proposed.MethodA dynamic model of a USV combin-ing the line-of-sight(LOS)method and PID navigation controller is established to conduct its navigation con-trol tasks.In view of the time-varying characteristics of PID parameters for course control under interferenceconditions,the DRL the

7、ory is introduced.The environmental state,action and reward functions of the intelli-gent agent are designed to adjust the PID parameters online.An improved deep deterministic policy gradient(DDPG)algorithm is proposed to increase the convergence speed and address the issue of the occurrence oflocal

8、 optima during the training process.Specifically,the original experience pool is separated into successand failure experience pools,and an adaptive sampling mechanism is designed to optimize the experience poolplayback structure.ResultsThe simulation results show that the improved algorithm converge

9、s rapidlywith a slightly improved average return in the later stages of training.Under interference conditions,the later-al errors and heading angle deviations of the controller based on the improved DDPG algorithm are reducedsignificantly.Path tracking can be maintained more steadily after fitting

10、the desired path faster.ConclusionThe improved algorithm greatly reduces the cost of training time,enhances the steady-state performance of theagent in the later stages of training and achieves more accurate path tracking.Key words:USV;deep reinforcement learning;intelligent control;trajectory track

11、ing;parameter setting收稿日期:20221011 修回日期:20221111 网络首发时间:20230606 17:46基金项目:国家自然科学基金资助项目(52201379);中央高校基本科研业务费专项资金资助项目(3120622898)作者简介:宋利飞,男,1989 年生,博士,副教授。研究方向:智能船舶。E-mail:许传毅,男,1999 年生,硕士生。研究方向:无人艇路径跟踪。E-mail:柴威,男,1988 年生,博士,教授。研究方向:船舶安全性与可靠性。E-mail:*通信作者:柴威 第 19 卷 第 1 期中 国 舰 船 研 究Vol.19 No.12024 年

12、 2 月Chinese Journal of Ship ResearchFeb.2024 0 引言水面无人艇(unmanned surface vehicle,USV),是海洋环境中无人系统的重要组成部分,在军事、民用和科研等方面具有举足轻重的地位1-3。路径跟踪技术是保证 USV 航行质量的基础。近年来,随着人工智能技术的不断发展,深度强化学习(deep reinforcement learning,DRL)技术得到了广泛应用。强化学习(reinforcement learning,RL)是指智能体与环境不断互动,并根据奖励逐渐学习最优策略的过程4-7。借助神经网络强大的特征提取和函数拟合能

13、力,DRL 成为机器学习领域的研究热点。目前,DRL 方法也被用于 USV 的控制策略研究。例如,李宝安8基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练神经网络实现了 USV 的运动控制,相比传统的比例积分微分(proportional integral deriv-ative,PID)控制算法,其在稳定性以及抗干扰能力上具有一定优势,但仿真验证仅限于跟踪期望舵角曲线,在风浪干扰的情况下未给出验证结果。Deng 等9使用 RL 方法实现了 USV 的最佳控制行为,并与传统 PID 算法相比较,验证了该 RL 算法的可行性。Zha

14、o 等10设计了一种改进的深度 Q网络(deep Q-network,DQN)结构,将决策网络输出为 USV 的控制律,降低了路径跟踪系统的复杂度,并通过数值仿真验证了所提方法具有可用性和通用性。祝亢等11将 DRL 技术与引导系统结合,使 USV 获得所需的航向命令,并将训练完成的控制器与 BP-PID 控制器进行对比研究,该系统具有偏航误差小、舵角变化频率小等优点。Zhao等12通过具有随机制动的改进 DRL 解决了欠驱动 USV 形成的路径跟踪问题,验证了 RL 方法在USV 编队控制的优越性。目前,将 RL 应用到 USV 航向 PID 控制领域的研究较少。PID 控制算法作为经典控制

15、算法,具有结构简单、可靠性高和操作方便等优点,在USV 领域得到了广泛应用。但固定参数的 PID控制器控制精度差且超调量大,而 PID 参数整定又是一个复杂的过程,实际应用依赖于人工经验。针对 USV 航向控制 PID 参数自整定的研究主要集中于采用群体智能算法或自适应等方式,以目标函数最优为参数优化目标,例如蚁群算法、遗传算法、模糊算法等。这些算法在一定程度上解决了控制参数的寻优问题,但是在未知环境下实时性较差,且存在计算量大、难以适应干扰改变等问题。苑光明等13提出了一种利用具有变异特征的蚁群算法优化 PID 参数来进行 USV航向控制的方法,其具有航向控制超调量小、跟踪速度快等优点,但未

16、考虑风浪干扰对控制器影响。Zhang 等14针对未知时变环境扰动和船舶航向控制参数不确定性的非线性控制问题,设计了一种自适应自调节 PID 方案,解决了控制参数整定难、设计复杂的问题,很好地抵抗了时变干扰。Liao 等15设计了一种改进的自适应模糊 PID控制方法,解决了 USV 受机动性、扰动大等因素影响的控制问题,通过实验验证了所提方法的有效性和可行性。基于以上分析,运用 DRL 方法解决 PID 参数整定问题具有重大意义。本文将提出一种改进DDPG 的 USV 智能参数控制方法,针对模型状态、动作、奖励等方面进行设计,以及考虑 DDPG算法累计误差大、训练速度慢的问题,提出一种分离优先经

17、验回放的经验池改进算法,以提升数据的采样效率。此外,还设计自适应采样批次函数,使智能体能够根据自身训练程度将相应批次大小的数据输入智能体评价网络。最后,在干扰情况下,将本文所提方法与经过 DDPG 算法训练后的智能参数器、文献 16 自适应 PID 控制器进行仿真对比,以验证改进后的 DDPG 智能参数器跟踪效果。1 USV 运动模型本文中对 USV 建立水平面三自由度运动模型,如图 1 所示。xo0Oyy0 x0rvuU图 1USV 操纵运动坐标系Fig.1 USV manipulation motion coordinate system u,v,r图 1 中,分别为 USV 运动的 3

18、个自由度上的速度,U 为 u 和 v 的合速度,为 USV 艏向角。由受力分析可以得到 USV 在水平面上的如下运动方程:m(uvrxGr2)=Xm(v+ur+xGr2)=YIz r+mxG(v+ur)=N(1)xGIzX,Y和N式中:m 为 USV 实际质量;为 USV 重心左、右中线上的纵向坐标;为惯性矩;分别为 USV3 个自由度的所受的力和力矩分量。138“无人船艇自主性技术”专辑第 19 卷USV 在两坐标系的变换关系如下式所示:ucosvsin=Xusin+vcos=Yr=(2)X,Y 式中:代表位置导数;代表方位角导数。d作用在 USV 上的水动力和力矩不仅与其自身几何形状有关,

19、还与其运动特性和流体特性有关。为了进一步简化问题,考虑操舵时间短暂,本文忽略操作过程中推进器转速和舵角的导数因素的作用,则水动力关系式可表示为:X(u,v,r,u,v,r,d)=XY(u,v,r,u,v,r,d)=YN(u,v,r,u,v,r,d)=N(3)将上式在平衡状态附近作泰勒展开,忽略三阶以上的高阶项,并考虑其综合影响,可得到(mX u)u=X(mY v)v+(mxGY r)r=Y(mxGN v)v+(IzN r)r=N(4)上述公式的水动力系数及参数详见文献 11。2 自适应航行控制器设计d=k arctan(ye/)视线(LOS)制导法17在 USV 航向控制领域发挥着重要作用。本

20、文定义如下:OXY 为惯性坐标系,OdXdYd为载体坐标系;USV 的 x 和 y 轴速度 u 及 v、角速度 r、航向角、USV 与目标航线横向距离 ye、目标航线的倾斜角度 k、前视距离、USV 舵角 d。如图 2 所示,LOS 制导原理是设定一个当前前视目标点(xd,yd)和上一路径点(x0,y0),并 有 一 定 的 前 视 距 离,则 期 望 航 向 角,航向角与目标航线倾角的偏差为 epsi。通过不断地计算航向偏差,LOS 法可计算下一时刻 USV 的期望舵角值,从而不断地实时调整航向。LOS 制导法极大程度上简化了控制器输出,降低了控制器设计的复杂程度。(xd,yd)(x0,y0

21、)(x,y)XYOkXdOdYdyed图 2LOS 原理示意图Fig.2 Schematic diagram of LOS algorithm 在航向控制领域,针对 PID 控制器的积分饱和现象,本文使用 PD 控制 USV 航向舵角。控制器的输出为 USV 的舵角,即d=kpepsi+kdepsi_dot(5)其中,epsi=d,epsi_dot=(epsiepsi)/tepsiepsi_dot式中:为上一时刻航向角偏差;为航向偏差变化率。d本文方法总流程说明如下:首先,由 LOS 法确定期望航向,将 USV 状态信息存入经验池;然后,经神经网络训练由 Actor 网络输出 PD 参数;再经

22、控制器计算得到下一步的舵角;最后,由模型得到 USV 新的航向角及其他状态信息。本文总体控制结构如图 3 所示。经验池成功经验池失败经验池自适应批次采样Actor 网络PID 控制器期望航向角 d航向角 延迟更新KdKp舵角 d图 3基于 DRL 的 USV 控制框图Fig.3 Block diagram of USV control based on DRL 3 基于 DRL 的智能参数调整p(s1)p(st+1|st,at)r(st,at)statrtRt=rt+1+rt+2+2rt+3+RL 是机器学习的一个重要分支,它主要研究的是智能体如何在环境中采取行动,以最大化其对环境的累积奖励。

23、在这个过程中,智能体与环境不断地交互,通过尝试不同的行为并观察结果,来学习如何采取最优的行动。马尔科夫决策过程(Markov decision process,MDP)是 DL 中的一个基本概念,一个 MDP 中由状态空间 S、动作决策空间 A、初始状态的分布以及转移模型和奖励函数组成。在每个时间步内智能体收到一个状态,并做出动作,获得奖励。智能体的行为策略描述为,其是将状态映射到动作的概率分布。RL 的目标是找到一个最优策略,使某一状态的回报最大化,即累计回报值(其中 为折扣因子)。动作价值函数广泛的应用在 RL 算法中,动作价值函数如式(6)所示。通过计算期望值,可以评估在给定状态下执行某

24、一动作的预期回报。Q(st,at)=Esit,aitRt|st,at(6)第 1 期宋利飞等:基于改进 DDPG 算法的无人艇自适应控制139(s|a)Q(s,a|c)acDDPG 算法是一种 ActorCritic 的 DRL 方法。策略函数和动作价值函数是深度神经网络(deep neural networks,DNN),其中和为参数,并采用随机梯度下方法更新参数。c cc1NiBc(yiQ(si,ai|c)2a aa1NiBaiQ(si,ai|c)a(si|a)(7)cayi式中:和为学习率;N 为随机采样样本的数量;B 代表经验池;为动作价值估计,并由下式确定:yi=ri+Q(si+1,

25、(si+1|a)|c)(8)ac式中:和是两个目标网络的参数。在 DDPG算法中引入目标网络来稳定训练,通过下式更新学习参数:c=(1)c+ca=(1)a+a(9)式中,为目标网络的更新速率。DDPG 算法的工作结构如图 4 所示。算法执行过程如下:1)由 Actor 网 络 生 成 一 组 动 作 at,并 加 入OrnsteinUhlenbeck(OU)噪声;st+1(st,at,r,st+1)2)智能体根据当前动作将下一状态输入到奖励函数中,将存入经验池;st,st+1(st,at,r,st+1)3)从经验回放缓冲区抽取 n 个样本,分别将输 入 到 Actor 网 络,将输 入 到Cr

26、itic 网络迭代更新;st,st+1(st+1)4)TargetActor 网络接收,将动作 a 和随机噪声输入到智能体与环境交互,由策略函数根据下一状态计算得到下一个动作,并输入到 TargetCritic 网络,然后接收动作值 Q,对网络进行更新;st+1at+15)TargetCritic 网络接收和并计算Q 值,然后将 Q 值与奖励 r 结合,计算标签,用于网络的迭代更新。因此,本文状态空间可定义为:S=u,v,r,epsi,ye,d,k,d,epsi(10)无人艇环境策略函数(st)延迟更新策略梯度梯度延迟软更新动作价值 yi更新参数优化器Q 梯度软更新成功经验池失败经验池自适应批

27、次数据采样划分经验池经验池优化器ActorCritic(st,rt,st+1)存储经验(si,ai,ri si+1)OU 噪声atActor 网络Critic 网络a=(si)(si+1)*batch_sizeTargetActor 网络TargetCritic 网络图 4DDPG 算法工作结构Fig.4 DDPG algorithm framework Actor 网络结构如图 5 所示,其包括一个输入层,两个隐藏层以及一个输出层。输入层维度为12;两个隐藏层的神经元分别为 400 和 300;输出层维度为 2。为了更好地挖掘相关特征,防止出现梯度饱和、梯度消失的问题,中间激活函数采用 Re

28、LU,输出层激活函数采用 Tanh。图 6 描述了 Critic 网络结构,该结构包括一个输入层,两个隐藏层及一个输出层。输入层分两 输入层隐藏层输出层图 5Actor 网络结构Fig.5 Actor network structure140“无人船艇自主性技术”专辑第 19 卷个部分:一部分是环境的状态信息,另一部分是Actor 网络输出的动作值;两个隐藏层的神经元分别为 400 和 300;输出层维度为 1,即状态动作值。本文使用的奖励函数分两个部分,设置如下:rpsi=0,epsi 0.1epsi0.1epsi_last,epsi 0.1(11)rye=0,ye 10.1,ye 1(12

29、)r=rye+rpsi(13)奖励函数的目的是使目标 USV 尽快贴合期望轨迹,并控制 USV 在距离期望轨迹 1 m 的范围内。针对 DDPG 算法累计误差较大的问题,本文对 Actor 网络和 TargetActor 网络延迟进行更新,即在对 Critic 网络更新 N 次后,再对 Actor 网络和TargetActor 网络进行更新。N=1+NaNm(14)式中,Na表示目前总经验池的数量;Nm表示经验池的最大容量。式(14)表示训练开始时,经验池容量还没有达到最大,N 向下取整取为 1。在训练初期,大多数经验价值不大,对智能体的学习不利,所以快速存储经验;当经验池的容量达到最大时,则

30、让智能体充分学习经验。针对训练速度慢的问题,本文的方法是将经验池分为成功探索经验池和失败探索经验池。同时,为了消除数据之间的相关性,本文设计了自适应批次数量函数,见式(15),即在成功经验池和失败经验池中各自抽取 B 条经验数据:=1+nenmax(15)B=n(16)nenmax式中:为训练次数;为设置的总训练次数;为倍数;n 为原来样本数量。4 仿真验证仿真基于 Python 编程语言,在 tensorflow 框架下执行并验证。在 DRL 中,每次的奖励值是衡量训练效果的重要指标,图 7 为改进 DDPG 算法与 DDPG 算法训练 1 500 次的奖励回报对比结果。由图 7 可见,改进

31、后的 DDPG 算法显著缩减训练时间,且收敛迅速,后期网络表现更稳定。03.53.02.52.01.51.00.50200400600训练次数回报8001 000 1 200 1 400改进 DDPG 算法DDPG 算法图 7改进 DDPG 与 DDPG 算法奖励收敛曲线Fig.7 Reward convergence curve of improved DDPG and DDPG 上述训练完成后,保存 DDPG 中使奖励函数达到最大的 Actor 网络参数,将其应用于轨迹跟踪仿真。本文以要求 USV 沿着理想的直线路径航行为例,初始航向与该路径平行。为了验证改进 DDPG 智能参数匹配器抗干

32、扰性和航行稳定性,在横向力和回转力矩允许范围内,同时加入0.2103,0.2103 的设计干扰,包括横向干扰力(单位 N)和转艏干扰力矩(单位 Nm),如图 8 所示。00.20.100.10.2103103255075时间/s(a)横向干扰力干扰作用力/N10012515000.20.100.10.2255075时间/s(b)转艏干扰力矩100125150干扰力矩/(Nm)图 8设计干扰Fig.8 Design interference 隐藏层输入层输出层KpKdS图 6Critic 网络结构Fig.6 Critic network structure第 1 期宋利飞等:基于改进 DDPG

33、算法的无人艇自适应控制1410仿真时,预设期望轨迹为点(20,20)到点(160,20)的线段。USV 从(0,0)出发,初始航向角为,初始纵向速度 u=1.242 m/s,横向速度为 0 m/s,可视距离 取两倍船长,Kp范围为 0.50,0.50,Kd范围为 50,50,最大舵角范围为 35,35,最大打舵速度为 16.667()/s。最大时间步设为 1 750步,时间步间隔 0.1 s。当 USV 距离终点小于 1 m时仿真结束。改进 DDPG 参数器输出的控制参数如图 9 所示。将改进 DDPG 智能参数器与 DDPG 智能参数器、自适应 PID 控制器做对比。跟踪轨迹对比曲线如图 1

34、0 所示。USV 航行速度、角速度曲线如图 11 所示。由图 10 可知,在扰动情况下,3 种控制器都较好地完成了轨迹跟踪,但改进后的参数器超调量更小,收敛速度更快,更好地完成了轨迹跟踪。由图 11 可以看出,与自适应控制器相比,基于DDPG 算法的参数器速度量抖动更小,曲线更平滑;与 DDPG 算法参数器相比,改进后 DDPG 算法参数器的响应速度相差不大,但跟踪曲线更平滑,整个跟踪控制过程中横向误差相对较小,并且稳态性能得到提升。同时,无论是横向速度量还是转艏角速度量,改进后的参数器波动幅度更小,曲线更平缓。USV 航向角与期望航向角对比曲线如图 12所示,舵角对比曲线如图 13 所示。U

35、SV 航行稳定后的平均横向误差和平均航向角偏差如表 1 所示。由图 12 可知,在干扰情况下,改进 DDPG 参数器更好地完成了航向角的跟踪,且稳定后的曲线更平滑,抖动较小。当期望航向改变时,改进后的参数器能够以较快的调节速度达到期望航 00.500.2500.250.50255075时间/s10012515017506040200204060255075时间/s100125150175(a)Kp 曲线(b)Kd 曲线KdKp图 9Kp和 Kd曲线Fig.9 Kp and Kd curves 2505101520y=21 my=19 m250255075X/mY/m10012515017520

36、0期望轨迹自适应 PID16改进 DDPG 算法DDPG 算法图 10跟踪轨迹曲线对比Fig.10 Comparison of trajectory tracking curve 0.91.01.11.21.30255075时间/s(a)纵向速度变化曲线速度 u/(ms1)1001251501750.30.20.100.10.20255075时间/s(b)横向速度变化曲线速度 v/(ms1)1001251501750.0500.050.100255075时间/s(c)艏向角速度变化曲线角速度 r/(rads1)100125150175自适应 PID16改进 DDPG 算法DDPG 算法自适应

37、PID16改进 DDPG 算法DDPG 算法自适应 PID16改进 DDPG 算法DDPG 算法图 11速度和角速度变化曲线对比Fig.11 Comparison of velocity and angular velocity curve 00204060255075时间/s期望航向改进 DDPG 算法期望航向DDPG 算法期望航向自适应 PID16(a)改进 DDPG 航向角航向角/()10012515000204060255075时间/s(c)自适应 PID 航向角航向角/()1001251500020204060255075时间/s(b)DDPG 航向角航向角/()1001251501

38、42“无人船艇自主性技术”专辑第 19 卷向,并保持稳定的跟踪效果,且稳定后的平均航向角偏差小于 1。由图 13 可知,当 USV 受到干扰时,改进的参数器克服了打大舵的问题,稳定后的舵角在 0附近上线波动,最大波动角度不超过 6,且动舵频率也在一个合理的范围之内。5 结语本文研究了一种 USV 的自适应航行方法。该方法包括一个基于 DDPG 算法的智能参数器,在无法精确建模的情况下学习 USV 动力学,为USV 路径跟踪提供适当的 PID 控制参数,引导抗干扰的操舵行为,实现 USV 快速、精准路径跟踪。所提方法的创新体现在以下 3 个方面:1)针对 DDPG 算法累计误差大的问题,设计自适

39、应延迟更新 Actor 网络参数的方法,即在Critic 网络更新一定次数后再对 Actor 网络参数进行更新。2)针对 DDPG 算法训练速度慢,不易收敛的问题,设计自适应批次函数,在训练时自动从成功经验池和失败经验池选取合适批次数据进行训练,从面显著增加了训练速度,同时还增加了训练探索,使参数匹配器更具鲁棒性。3)将 DRL 方法应用到航向 PID 参数整定方面。与原 DDPG 算法相比,航向稳定性控制精度提升了 45.7%;与自适应 PID 控制相比,航向稳定性控制精度提升了 73.5%。改进后 DDPG 算法参数器可以快速保证 USV 航向稳定,提高了抗干扰能力,使 USV 路径跟踪的

40、控制效果更优。本文所提算法在参数整定上具有一定优势,与 PID 控制方法结合控制效果更优。鉴于 PID 控制技术易实现的可能,其发展前景应不止停留在仿真层面,未来还需进一步开展实验验证;鉴于目前其他控制技术的成熟度,未来还应基于性能更强的控制策略设计 DRL 控制器。参考文献:程烨.小型无人艇研究现状及关键技术 J.中国造船,2020,61(增刊 1):241249.CHENG Y.Research status and key technologies ofsmall USVJ.Shipbuilding of China,2020,61(Supp 1):241249(in Chinese).

41、1 郑华荣,魏艳,瞿逢重.水面无人艇研究现状 J.中国造船,2020,61(增刊 1):228240.ZHENG H R,WEI Y,QU F Z.Review on recent de-velopments of unmanned marine surface vesselsJ.Shipbuilding of China,2020,61(Supp 1):228240(inChinese).2 LIU Z Q,YU L W,XIANG Q,et al.Research on USVtrajectory tracking method based on LOS algorithmC/Procee

42、dings of the 14th International Symposium onComputational Intelligence and Design (ISCID).Hang-zhou,China:IEEE,2021.3 刘全,翟建伟,章宗长,等.深度强化学习综述 J.计算机学报,2018,41(1):127.LIU Q,ZHAI J W,ZHANG Z Z,et al.A survey ondeep reinforcement learningJ.Chinese Journal of Com-puters,2018,41(1):127(in Chinese).4 何立,沈亮,李

43、辉,等.强化学习中的策略重用:研究进5 00204060255075时间/s期望航向改进 DDPG 算法期望航向DDPG 算法期望航向自适应 PID16(a)改进 DDPG 航向角航向角/()10012515000204060255075时间/s(c)自适应 PID 航向角航向角/()1001251500020204060255075时间/s(b)DDPG 航向角航向角/()100125150图 12航向角变化曲线对比Fig.12 Comparison of heading angle change curves 4020020400255075时间/s舵角/()100125150自适应 PI

44、D16改进 DDPG 算法DDPG 算法图 13舵角变化曲线对比Fig.13 Comparison of rudder angle change curves 表 1 两种控制器在扰动情况下误差数据对比表Table 1 Comparison of error data of two controllers in thecase of follower disturbance控制器稳定后横向误差均值/m稳定后航向角偏差均值/()改进DDPG0.2910.80DDPG0.4252.08自适应PID160.9973.02第 1 期宋利飞等:基于改进 DDPG 算法的无人艇自适应控制143展 J.系统

45、工程与电子技术,2022,44(3):884899.HE L,SHEN L,LI H,et al.Survey on policy reuse inreinforcement learningJ.Systems Engineering andElectronics,2022,44(3):884899(in Chinese).DAOUN D,IBNAT F,ALOM Z,et al.Reinforcementlearning:a friendly introductionC/The InternationalConference on Deep Learning,Big Data and Blo

46、ck-chain.Cham:Springer,2021:134146.6 HEUILLET A,COUTHOUIS F,DAZ-RODRGUEZ N.Explainability in deep reinforcement learningJ.Know-ledge-Based Systems,2021,214:106685.7 李宝安.基于深度强化学习的无人艇控制研究 J.中国造船,2020,61(增刊 1):1420.LI B A.Research on control of unmanned surfacevehicle based on deep reinforcement learni

47、ngJ.Ship-building of China,2020,61(Supp 1):1420(in Chinese).8 DENG W N,LI H,WEN Y Q.Data-driven unmannedsurface vessel path following control method based onreinforcement learningC/2019 Chinese Control andDecision Conference (CCDC).Nanchang,China:IEEE,2019:30353040.9 ZHAO Y J,QI X,MA Y,et al.Path fo

48、llowing optimizationfor an underactuated USV using smoothly-convergentdeep reinforcement learningJ.IEEE Transactions on In-telligent Transportation Systems,2021,22(10):62086220.10 祝亢,黄珍,王绪明.基于深度强化学习的智能船舶航迹跟踪控制 J.中国舰船研究,2021,16(1):105113.ZHU K,HUANG Z,WANG X M.Tracking control ofintelligent ship base

49、d on deep reinforcement learningJ.Chinese Journal of Ship Research,2021,16(1):10511311(in both Chinese and English).ZHAO Y J,MA Y,HU S L.USV formation and path-following control via deep reinforcement learning withrandom brakingJ.IEEE Transactions on Neural Net-works and Learning Systems,2021,32(12)

50、:54685478.12 苑光明,冯国强,丁承君,等.具有变异特征的蚁群优化 PID 的 USV 航向控制 J.传感器与微系统,2020,39(8):1619.YUAN G M,FENG G Q,DING C J,et al.USV coursecontrol by ant colony optimization PID with mutationcharacteristicsJ.Transducer and Microsystem Techno-logies,2020,39(8):1619(in Chinese).13 ZHANG Q,DING Z Y,ZHANG M J.Adaptive

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服