收藏 分销(赏)

示教知识辅助的无人机强化学习控制算法.pdf

上传人:自信****多点 文档编号:574515 上传时间:2024-01-02 格式:PDF 页数:10 大小:2.30MB
下载 相关 举报
示教知识辅助的无人机强化学习控制算法.pdf_第1页
第1页 / 共10页
示教知识辅助的无人机强化学习控制算法.pdf_第2页
第2页 / 共10页
示教知识辅助的无人机强化学习控制算法.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、http:/DOI:10.13700/j.bh.1001-5965.2021.0466示教知识辅助的无人机强化学习控制算法孙丹1,2,高东1,2,*,郑建华1,2,韩鹏1(1.中国科学院国家空间科学中心,北京100190;2.中国科学院大学,北京100049)摘要:针对强化学习(RL)应用于无人机自主控制中学习效率低的问题,结合示教学习利用专家经验对其进行改进,提出基于示教知识辅助的无人机 RL 控制算法。通过设立示教目标函数、修正值函数,将专家经验作为监督信号引入到策略更新中,实现专家经验对基于 RL 的无人机自主控制系统优化过程的引导,同时,设置专家经验样本缓存库,利用经验优先回放机制赋予

2、经验样本不同的利用率,提高数据的使用效率。仿真结果表明:与普通的无人机 RL 控制器相比,所提算法能够在训练初期快速获得奖励值,整个学习过程中获得的奖励值更高,学习到的控制策略的响应速度更快、准确性更高。示教知识的加入有效引导了算法的学习,提高了无人机自主控制系统的学习效率,同时,能够提高算法的性能,有利于学习到更好的控制策略。此外,示教知识的加入扩大了经验数据的种类,有利于促进算法的稳定性,使无人机自主控制系统对奖励函数的设置具有鲁棒性。关键词:强化学习;专家示教;无人机;自主控制;学习系统中图分类号:V249.12文献标志码:A文章编号:1001-5965(2023)06-1424-10无

3、人机成本低、灵活性强,得到了广泛的应用与研究,随着人工智能技术的发展,智能飞行技术成为当前无人机研究的热点1。强化学习(reinforcementlearning,RL)能够在被控对象模型未知的情况下,自主学习控制策略,是实现无人机智能自主化的有效途径。Faust 等2利用 RL 搭建无人机运动规划框架,使带可变负载的无人机实现了稳定的轨迹控制。Zhang 等3提出基于几何的 Q 学习算法,将距离信息融入到学习中,减少了无人机到达目标所需的时间。Koch 等4利用 RL 构建智能姿态控制系统,该控制系统的精度和性能均优于传统比例积分微分(PID)控制器。Hwangbo 等5将神经网络和 RL

4、相结合,控制无人机完成复杂任务。Pham 等6提出基于函数近似的 RL 框架,实现了无人机在未知环境中的导航和路径规划。Wang 等7提出了一种基于 RL 的两阶段运动规划方法,能够在环境高度不确定和有噪声的情况下实现多无人机的避撞。Zeng 等8利用深度 RL 进行轨迹优化,实现无人机在空中的三维通信覆盖。Ebrahimi 等9利用 RL 进行导航,在最短时间和路径内提高对多个地面对象的定位精度。但是 RL 需要多次“试错”,学习效率低10,而且,如果无人机在训练过程中多次进行错误尝试,会对系统的安全性造成影响,容易导致严重后果。为了提高学习算法的效率,文献 11-12 将人类监督行为加入到

5、 RL 中,但是人类的参与会消耗过多的时间;GoogleBrain 通过离线策略经验进行高、低层次的训练,从而提高分层 RL 的效率13。文献14 通过并行的方式来解决数据利用低的问题,但是在实际环境中,该方法成本高、实用性低。示教学习是一类从导师示范中进行学习的算法,具有学习效率高、算法提升快的优势,但是,单纯的示教学收稿日期:2021-08-16;录用日期:2021-11-14;网络出版时间:2021-11-3015:41网络出版地址: J.北京航空航天大学学报,2023,49(6):1424-1433.SUN D,GAO D,ZHENG J H,et al.UAV reinforceme

6、nt learning control algorithm with demonstrationsJ.Journal of Beijing Universityof Aeronautics and Astronautics,2023,49(6):1424-1433(in Chinese).2023年6月北京航空航天大学学报June2023第49卷第6期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.6习存在优质数据获取代价高、数据不准确导致次优解的缺点15。借鉴示教学习的思想,本文提出了示教知识辅助的无人机 RL 控

7、制算法,利用示教学习的优势提高 RL 自主控制算法前期学习的效率,有利于 RL 生成控制效果更好的控制策略。1强化学习模型(S,A,Psa(),R,)SAPsa()s Sa AR 0,1tst Sat Ar(si,ai)RPsa()st+1st+1stRL 问题可以建模成马尔可夫决策过程(markovdecision process,MDP),MDP 用 元 组描述,其中:为可能的状态空间,为可能的动作空间,表示在状态时采取动作后的状态转移分布,为回报函数,为折扣因子,用来计算累积回报。需要进行学习的个体被称为智能体(agent),在时刻,agent从环境中观测状态,然后根据策略 得到需要采取

8、的行为,该 行 为 作 用 于 环 境 后 得 到 奖 励 信 号,同时根据得到下个时刻的状态,状态得到更新。MDP 中的状态转移需要满足马尔可夫性,即系统下一个时刻的状态仅与当前时刻状态有关,与之前时刻的状态无关。将状态的回报定义为未来奖励的折扣和,表达式为Gt=Ti=t(it)r(si,ai)(1)J该回报值与策略产生的动作有关。定义目标函数 为 agent 采取策略 时回报的期望值,表达式为J()=EsiD,aiG1(2)Dsi DsiDai ai式中:E 为期望;为数据集;为状态 从数据集 中取得;为策略 产生动作。RL 的目标是学习到一个最优策略,使得式(2)表示的目标函数值最大16

9、。V(st)Q(st,at)ststatRL 中常用到状态值函数和状态动作值函数,其中状态值函数表示在状态 处的期望回报,状态动作值函数表示在状态 采取动作后的期望回报,具体为V(st)=EsitD,aitGt|st(3)Q(st,at)=EsitD,aitGt|st,at(4)两者的关系为V(st)=atA(at|st)Q(st,at)(5)状态值函数和状态动作值函数的数值与策略有关,因为策略 决定了累积回报的状态分布。状态动作值函数通常通过贝尔曼公式进行迭代求解,表达式为Q(st,at)=EstDr(st,at)+Eat+1Q(st+1,at+1)(6)如果目标策略是确定的,该策略能够用函

10、数表示出来,那么在利用式(6)迭代求解 Q 值函数时,可以避免求解式(6)等号右侧的第 2 个期望。RL 在求解最优策略的过程中,需要探索不同的状态,同时得到每个状态对应的值函数,整个过程需要充分地探索整个状态空间。如果环境复杂,状态空间大,充足的探索和迭代试错需要耗费大量时间,导致 RL 效率低;此外,RL 的更新依赖奖励值,但是奖励函数是人为设计的,奖励函数设计的好坏也会影响 RL 最终的学习效果。2示教知识辅助的强化学习控制算法2.1示教目标函数EDE专家策略用表示,该策略产生的专家数据存放在专家数据集中,数据分布符合:DE(si,ai)Ni=1i.i.d.E(s,a)(7)E(s,a)

11、EDE式中:为专家策略产生的数据的非归一化分布;i.i.d.表示专家数据集中的数据是独立同分布的。为了能够在 RL 训练过程中直接利用专家数据进行引导,设计策略学习的示教目标函数为J()=EsiD,aiTt=0t(r(st,at)+IstDE(M|atE(st)|2)(8)IstDEst DEst DEMM|atE(st)|2 0式中:为指示函数,当满足时,该函数取值为 1,当不满足时,该函数取值为 0;为正常数,在保证的基础上取值尽可能小。ststQ(s,a)式(8)等号右边中括号内第 1 项为原始 RL的策略目标函数、第 2 项用于引导待学习的策略靠近专家策略。如果状态 不在专家数据集中,

12、式(8)等号右边中括号内的第 2 项为零,策略会按照原始的 RL 算法进行更新;如果状态 存在于专家数据集中,式(8)等号右边中括号内的第 2 项为正值,促进当前策略学习专家策略。而且,当前策略给出的动作与专家策略给出的动作差别越小,式(8)等号右边中括号内第 2 项的值越大。但是,式(8)的设置假定了专家经验为最优,限制了策略网络的进一步优化,特别是在训练后期,限制效果更明显。为了避免该问题,利用状态动作值函数来决定专家动作是否值得学习,如果专家动作的 Q 值大于策略给出的动作 Q 值,则加入示教知识的引导,因此第6期孙丹,等:示教知识辅助的无人机强化学习控制算法1425策略的示教目标函数修

13、正为J()=EsiD,aiTt=0tr(st,at)+Tt=0tI(M|atE(st)|2)(9)I=IstDEIQ(st,E(st)Q(st,at)式中:。eV(s)同样,为了鼓励与专家策略相似的动作输出,设置示教值函数和示教 Q 值函数分别为eV(s)=ETt=0t(r(st,at)+I(M|atE(st)|2)|s0=s)(10)eQ(s,a)=ETt=0tr(st,at)+Tt=1tI(M|atE(st)|2)|s0=s,a0=a(11)=(s0,a0,sT)式中:为轨迹。与 RL 中 Q 函数的更新一样,示教 Q 值函数也可以通过贝尔曼公式迭代求解,具体为eQ(st,at)=r(st

14、,at)+Est+1p(|st,at)eV(st+1)(12)式中:eV(st+1)=Eat+1(|st+1)eQ(st+1,at+1)+I(M|at+1E(st+1)|2)这样设置使策略的更新分为 2 部分,一部分用于最大化奖励值,另一部分直接利用专家数据提供的监督信号,加快策略学习的速度。2.2优先经验回放DDEDDE在本文算法的训练过程中,建立 2 个样本缓存区 和,其中,用于存放当前策略与环境交互得到的经验数据,用于存放专家经验。为了防止过拟合,存放到缓存区的数据需要进行正则化处理。训练数据的质量对 RL 有重要影响,不同样本对学习过程中反向传播的作用不一样,时间差分(temporal

15、-difference,TD)误差越大,作用越大。因此,本文算法借鉴优先回放机制17-18,在训练学习时,根据样本的表现情况给出不同的权重,样本被采样的概率跟该权重有关,从而让学习效率高的样本有更大的概率被用于控制算法的训练。一般采用 TD 误差来衡量样本数据的质量,但是如果只用TD 误差来进行衡量,会损失数据多样性,特别在学习初期,TD 误差高的数据会被频繁利用,容易导致过拟合。因此,本文引入随机采样方法,结合纯贪婪优先采样和均匀随机采样,这样既能保证采样概率的单一性,又能保证低优先值数据的采样概率非ipi零。定义样本 的优先级为pi=2i+|aQ(si,ai)|2+D(13)iiDP(i)

16、式中:为样本 的 TD 误差;等号右边的第 2 项为策略网络的损失;为一个数值很小的正常数,用于保证所有样本都有一定的概率被采集到;为正常数,用于增加专家经验样本被采集到的概率;为权重系数。样本的采样概率与其优先级成正比,计算式为P(i)=pikpk(14)wi采用优先回放机制进行采样时,动作值函数的估计为有偏估计,因为采样分布与动作值函数的分布不同,利用重要性采样更正此偏差,通过重要性采样系数对网络更新进行加权,表达式为wi=(1N1P(i)(15)N式中:为数据的个数;为自定义系数。此外,优先经验回放机制还可以对专家经验数据、通过环境交互得到的经验数据进行优先排序,从而控制两者之间的数据比

17、例。这样设置不仅能够促进本文算法的稳定性,还能提高优秀经验的利用率,从而提高训练的性能。2.3示教知识辅助Q(s,a)(s)N(s)NQN(s,a)N为了应对无人机连续的状态动作空间,本文算法利用神经网络近似 Q 值函数和策略,并采用策略-评价(Actor-Critic)框架进行学习更新。Actor 网络用于表示策略网络,神经网络参数由表示,该网络负责输出控制指令,Critic 网络为评价网络,用于近似动作值函数,网络参数为。Critic 网络通过最小化 Q 值函数的代价函数进行优化,具体为JQ(N)=Es,aD12(QN(s,a)QN(s,a)2(16)式中:QN(s,a)=r(s,a)+Q

18、N(s,N(s)(17)ssQN(s,a)N(s)QN(s,a)式中:为状态 之后的下个状态;为评价网络更新时的目标值,如果计算该目标值用到的网络参数与计算当前 Q 函数更新所用的参数相同,会导致数据之间的关联性,从而使训练不稳定,可能导致 Q 值发散19。为了解决该问题,建立独立的网络和用于计算目标值,那么式(17)可变为1426北 京 航 空 航 天 大 学 学 报2023年QN(s,a)=r(s,a)+QN(s,N(s)(18)新建的目标网络参数由原始的策略、评价网络参数计算得到:N N+(1)NN N+(1)N(19)1式中:系数。本文算法的结构如图 1 所示,其中策略网络的输入是无人

19、机当前的状态,输出控制指令,评价网络的输入是当前状态和策略网络输出的控制指令,输出是对当前状态动作的评价,而目标网络负责处理下一个时刻的状态和控制指令。状态s动作a下个时刻状态s状态s动作a下个时刻状态s下个时刻动作a下个时刻动作a策略网络N(s)目标策略网络N(s)评价网络QN(s,a)目标评价网络QN(s,a)动作值函数QN(s,a)动作值函数QN(s,a)图1示教知识辅助的无人机强化学习控制算法结构Fig.1StructureofUAVRLcontrolalgorithmwithdemonstrationsN(s)策略网络的参数可以通过最大化式(9)来更新,即J(N)=EsD,aN(|s

20、)QN(s,a)+I(M|atE(st)|2)(20)N(s)由于策略是确定性策略,不具有探索性,所以需要额外设置探索策略,本文采用的探索策略是在策略网络输出的动作中添加噪声,具体为a=N(s)+dN(21)dN式中:为噪声,采用自适应参数噪声20,该噪声的方差可以根据效果自适应调整。综上,将本文算法的训练学习过程总结为算法 1,为了保证算法的收敛性,学习过程中评价网络的更新要比策略网络快。算算法法 1示教知识辅助的无人机强化学习控制算法QN(s,a)N(s)NN1.随机初始化评价网络和策略网络及其参数和NNN NN N2.初始化对应的目标网络和:,DDE3.初始化样本缓存区 和=0.7,=0

21、.5K4.设置参数,采样个数5.forepisode=1,Max_episodedos16.初始化观测状态7.fort=1,Tdoat=N(st)8.由策略网络和探索噪声得到控制输出:+dNatrtst+19.将 施加到被控对象中,得到奖励 和新状态(st,at,rt,st+1)D10.将状态转换存储到 中11.forj=1,KdoDDE12.根据式(13)和式(14)在 和中采样13.根据式(15)计算重要性采样系数QN(st,at)14.根据式(18)计算得到目标值15.endfor16.计算损失函数:JQ(N)=1Kiwi(QN(si,ai)QN(si,ai)2JQ(N)17.通过最小化

22、更新评价函数18.通过最大化式(20)更新策略网络19.更新目标网络的参数:N N(1)N,N N+(1)N+20.endfor21.endfor3仿真校验为了验证本文算法的效果,搭建四旋翼仿真模拟环境,训练并测试该算法的性能,同时在相同条件下训练基于深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法19的普通 RL 控制器作为对比。1、2、3、4四旋翼模拟器中采用的四旋翼结构如图 2 所示,其中(xE,yE,zE)为地球固连坐标系,(xB,yB,zB)为机体坐标系,为 4 个螺旋桨的转速。该模拟器采用简化的四旋翼动力学模型21:x=f(coss

23、incos+sinsin)/mK1 x/m y=f(sinsincoscossin)/mK2 y/mz=f(coscos)/mgK3z/m =(JyJz)/Jx+x/JxdK4/Jx=(JzJx)/Jy+y/JydK5/Jy=(JxJy)/Jz+z/JzK6/Jzx,y,zT x,y,zT,TJx、Jy、Jzx、y、zfx,y,zT式中:为四旋翼无人机质心在地球固连坐标系下的位置;为速度;为四旋翼绕机体坐标系的 3 个轴旋转的欧拉角,用于描述四旋翼姿 态,为 滚 转 角,为 俯 仰 角,为 偏 航 角;分别为四旋翼相对于本体系的这3 个轴的转动惯量;和分别为总拉力和力矩。螺旋桨转速与总拉力、力

24、矩之间的关系为第6期孙丹,等:示教知识辅助的无人机强化学习控制算法1427f=cT(21+22+23+24)x=dcT(222122222223+2224)y=dcT(22212222+2223+2224)z=cM(21+2223+24)其中:螺旋桨转速限制在 0800rad/s,其他参数的含义及数值设定如表 1 所示。该模拟器的控制信号为 4 个螺旋桨的转速。OmgzBxByB4123xEyEzEO图2四旋翼模拟器结构Fig.2Structureofquadrotorsimulator表1四旋翼模拟器模型参数Table1Parametersofquadrotorsimulatormodel参

25、数数值m质量/kg1.5d四旋翼半径/m0.225g重力加速度/(ms2)9.8Jx转动惯量/(kgm2)0.01745Jy转动惯量/(kgm2)0.01745Jz转动惯量/(kgm2)0.03175K1阻力系数/(Nsm1)0.01K2阻力系数/(Nsm1)0.01K3阻力系数/(Nsm1)0.01K4阻力系数/(Nsm1)0.04K5阻力系数/(Nsm1)0.04K6阻力系数/(Nsm1)0.04cT单桨综合拉力系数/(N(rads)2)1.105105cM单桨综合力矩系数/(Nm(rads)2)1.489107(st,at,rt,st+1)DEDE示教经验由调整好的 PID 控制器提供,

26、将示教经验拆分成状态转换对存放在中,更换不同的初始状态和环境条件,比如增加扰动等,尽可能得到类型丰富的示教经验数据,同时,在一部分专家经验数据中添加噪声后再存放到中。在收集数据时,重点收集收敛前的数据。本文算法的训练过程中,参数设置如表 2 所示,考虑到实际飞行中的安全因素,仿真过程中限定四旋翼姿态角中滚转角和俯仰角的变化范围为45,45,四旋翼 3 个维度的活动范围不超过 10m。用参数 done 表示四旋翼状态是否超出设定范围,若四旋翼状态没有超出设定范围,参数 done 为False,否则参数 done 为 True。训练过程中,四旋翼的初始状态从允许范围内随机取得,四旋翼的状态超出设定

27、范围,参数 done 变为 True,该回合学习停止,所有状态初始化后开始下个回合的训练。表2示教知识辅助的无人机强化学习控制算法训练参数Table2TrainingparametersofUAVRLcontrolalgorithmwithdemonstrations参数数值交互样本容量106专家样本容量105单次训练样本数68总训练步数106每个回合可仿真的步数上限1000动作网络学习速率0.0001价值网络学习速率0.001目标网络更新速率0.001每步的仿真时间/s0.1折扣因子0.99RL 算法的控制目标是将四旋翼稳定快速地控制到目标位置并实现悬停,奖励函数应基于此目标进行设置。因此,

28、奖励函数应该包含四旋翼当前状态与目标状态的偏差,且偏差越小,奖励值越大;同时,为了防止震荡,将控制信号加入到奖励函数中,作为惩罚项。奖励函数设置的结构为R=1x2e2y2e3z2e42e5(21+22+23+24)+6done=False7done=True(22)1 7xe、ye、zee式中:参数为正的常数;分别为 x、y、z 方向的位置误差;为偏航角误差。为了让基于 DDPG 算法的普通 RL 控制器学习到符合控制要求的控制策略,经过多次仿真调整奖励函数中的参数,最终,确定奖励函数为R=xe2140ye225ze2190e24i=12i2107+1done=False5done=True(

29、23)为了展示控制器学习的过程,在训练过程中,每训练 20 回合进行一次测试。测试环节与训练环节略有不同,测试环节的动作策略直接由动作网络得到,不需要加入探索噪声,并且,测试环节不存储状态,所有网络不进行更新。示教知识辅助的无人机自主控制系统按照算1428北 京 航 空 航 天 大 学 学 报2023年法 1 进行训练,随机训练 10 次,累积奖励的平均值变化如图 3(a)中蓝线所示,蓝色阴影部分为 10 次训练得到的奖励值的标准差,相同仿真条件下,普通 RL 控制器获得的累积奖励变化情况如图 3 中绿色部分所示。从图中可以看到,与普通 RL 控制器相比,示教知识辅助的无人机 RL 控制器前期

30、能够快速获得较高的奖励值,说明示教知识在算法的学习过程中起到了引导的作用,能够加快算法的学习过程,同时,在整个训练过程中,示教知识辅助的无人机 RL 控制器得到的奖励值明显更高,表明示教知识的加入能够提高本文算法的性能,有利于本文算法学习到更好的策略。训练过程中,奖励值的标准差变化如图 3(b)所示,可以看到,示教知识辅助的无人机 RL控制器在优化过程中奖励值的标准差小于普通 RL 控制器的奖励值标准差。1 0005000累积奖励值训练步数/106(a)累积奖励值00.250.500.751.00示教知识辅助的RL控制器普通RL控制器2001000奖励值标准差训练步数/10600.250.50

31、0.751.00(b)奖励值标准差图3训练过程中奖励值及其标准差变化Fig.3Valuesandstandarddeviationofrewardsduringtraining训练结束后,保存控制器的结构和参数,测试控制器对四旋翼的控制效果。随机选取四旋翼的初始位置和姿态,用学习到的控制算法对四旋翼进行控制,控制效果如图 4 所示,控制信号变化情况如图 5 所示,控制信号为 4 个螺旋桨的转速。从图 4 可以看到,虽然 2 种控制器都能将四旋翼稳定控制到期望位置,但是示教知识辅助的 RL 控制器的控制效果更好,调节时间更短,在 4s左右就将四旋翼稳定到了期望位置,而普通 RL 控制器的调节时间

32、在 12s 附近。测试共进行了 100 次,控制性能指标的统计数据如表 3 所示,其中“达到控制要求”的标准是在 50s的时间内将四旋翼稳定控制到期望位置,从表中可以看到,示教知识辅助的 RL 控制器的指标普遍优于普通 RL 控制器,该结果证明了示教知识的加入有利于提升算法的性能,学习到更优的控制策略。示教知识辅助的RL控制器普通RL控制器t/s01020304050502.502.50.250.50000.2500.505z/my/mx/m/()/()/()图4无人机 RL 控制器的控制信号Fig.4SignalsofUAVRLcontroller示教知识辅助的RL控制器普通RL控制器t/s

33、010203040505006006005006005006007501/(rads1)2/(rads1)3/(rads1)4/(rads1)图5无人机 RL 控制器的控制信号Fig.5SignalsofUAVRLcontroller第6期孙丹,等:示教知识辅助的无人机强化学习控制算法1429表3控制性能指标对比Table3Comparisonofcontrolperformanceindicators控制器类型达到控制要求的比例/%位置稳定调节时间(均值)/s姿态稳定调节时间(均值)/s稳定后波动情况示教知识辅助的RL控制器9554无波动普通RL控制器911210无波动此外,设计了仿真实验验

34、证在控制器作用下,四旋翼对期望轨迹的跟踪效果,结果如图 6 所示,四旋翼的初始位置随机挑选。从图中可以看到,示教知识辅助的 RL 控制器的跟踪效果更好,前期将四旋翼从初始位置控制到期望轨迹上,速度更快,后期基本没有跟踪误差。该结果再次表明,在相同的设置条件下,示教知识辅助的 RL 控制算法学习到的控制策略性能优于普通的 RL 控制器。5.02.502.5x/my/mz/m5.01.61.20.85.02.502.55.0期望轨迹示教知识辅助的RL控制器普通RL控制器图6无人机轨迹跟踪图Fig.6TrajectortrackingmapofUAV修改奖励函数为稀疏的情况,只有当无人机接近目标点时

35、才获得精确的奖励值,否则奖励值只反馈为一个负常数,具体设置为R=(xe2+ye2+ze2+e2)24i=12i2107+1(done=False)且(xe 1)且(ye 1)且(ze 1)3(done=False)且(xe1)或(ye1)或(ze 1)5done=True(24)只有当 3 个方向上的位置误差都小于 1m 的时候,才会进行详细的奖励反馈,而且此时的奖励值设置与式(23)中第 1 个式子相比,式(24)的系数选取更随意,没有经过多次仿真调整。在本节条件下,示教知识辅助的无人机 RL 控制器和普通 RL 控制器在训练过程中,累积奖励值的变化情况如图 7 所示,图中实线是 10 次训

36、练中奖励值的平均值,阴影部分为奖励值的标准差变化情况。与普通 RL 控制器相比,示教知识辅助的无人机 RL 控制器在训练前期能够快速获得较高的奖励,收敛速度更快,证明了示教知识的加入能够加快算法的学习效率;此外,示教知识辅助的无人机RL 控制器最终获得的累积奖励更高,证明示教知识的加入能够促进算法学习到更优的控制策略。图 8 为 2 种控制器在训练过程中累积奖励的标准差,其中,示教知识辅助的无人机 RL 控制器奖励值标准差的平均值为 95.68,普通 RL 控制器奖励值标准差的平均值为 83.99,示教知识辅助的无人机RL 控制器的奖励值标准差更高。1 0007502505000累积奖励训练步

37、数/10600.250.500.751.00示教知识辅助的RL控制器普通RL控制器图7稀疏奖励下训练过程中累积奖励值的变化Fig.7Changesinaccumulaterewardsduringtrainingontheconditionofsparserewards示教知识辅助的RL控制器普通RL控制器2001000奖励值标准差训练步数/10600.250.500.751.00图8稀疏奖励下训练过程中奖励值标准差的变化Fig.8Sandarddeviationofrewardsduringtrainingontheconditionofsparserewards训练完成后,对 2 种控制器

38、的控制效果进行验证,随机选取四旋翼的位置和姿态,共进行 100 次测试。其中,示教知识辅助的 RL 控制器能够实现无人机稳定控制的比例是 92%,控制效果和控制信号如图 9 和图 10 中的蓝色实线所示,位置稳定的调节时间在 15s 左右;普通 RL 控制器中只有 2 次在50s 的时间内实现了四旋翼的稳定控制,且位置稳定的调节时间有 40s,时间较长,87%的控制结果如图 9 和图 10 中的绿色虚线所示,在 50s 的时间内没有将位置和姿态收敛到期望位置,具体数据总1430北 京 航 空 航 天 大 学 学 报2023年结见表 4。从表 4、图 9 和图 10 中可以看到,示教知识辅助的

39、RL 控制器的控制效果明显优于普通RL 控制器的效果,表明示教知识的加入有利于提高算法的性能,从而学习到更好的控制策略。对比表 3 和表 4 发现,当奖励函数变为稀疏情况后,2 种控制器的性能指标都有所下降,但是示教知识辅助的 RL 控制器的性能指标下降比较小,100 次测试中达到控制要求的比例由原来的 95%下降到 92%,调节时间由原来的 5s 延长到 15s,该结果仍然符合控制标准。而普通 RL 控制器的性能下降大,只有 2%的测试达到了控制要求,表明在稀疏奖励的设置下,示教知识辅助的无人机控制算法仍然能够学习到有效的控制策略,算法受奖励函数设置的影响小。示教知识辅助的RL控制器普通RL

40、控制器t/s01020304050510050.250.25000.500.252.502.5z/my/mx/m/()/()/()图9奖励稀疏情况下 RL 控制器的控制效果Fig.9ControleffectofRLcontrollerontheconditionofsparserewards2 种控制器的轨迹跟踪结果对比如图 11 所示,可以看到,普通 RL 控制器的轨迹跟踪效果不好,前期控制无人机从初始位置到期望轨迹耗时长,后期没有完全跟踪上轨迹,存在误差,该结果与图 9 中的悬停结果一致。而示教知识辅助的 RL 控制器的轨迹跟踪效果较好,将无人机从初始位置控制到期望轨迹上用时较短,后期轨

41、迹跟踪没有误差,精度高。该结果再次证明了示教知识的加入对算法性能的提高,有利于算法学习到更优的控制策略。5.02.502.5x/my/mz/m5.01.20.80.45.02.502.55.0期望轨迹示教知识辅助的RL控制器普通RL控制器图11奖励稀疏情况下无人机轨迹跟踪图Fig.11TrajectorytrackingmapofUAVontheconditionofsparserewards4结论1)与基于 DDPG 算法的普通 RL 控制器相比,本文算法能够在前期快速获得高奖励值,表明示教知识在算法的学习过程中起到了引导作用,提高了学习效率。2)整个学习过程中,示教知识辅助的自主控制表4奖

42、励稀疏情况下 RL 控制器控制性能指标对比Table4ComparisonofRLcontrollerscontrolperformanceindicatorsonconditionofsparserewards控制器类型达到控制要求的比例/%位置稳定调节时间(均值)/s姿态稳定调节时间(均值)/s稳定后波动情况示教知识辅助的RL控制器921510无波动普通RL控制器24034无波动示教知识辅助的RL控制器普通RL控制器t/s010203040505505006005006005506006506001/(rads1)2/(rads1)3/(rads1)4/(rads1)图10奖励稀疏情况下

43、RL 控制器的控制信号Fig.10SignalsofRLcontrolleronconditionofsparserewards第6期孙丹,等:示教知识辅助的无人机强化学习控制算法1431系统得到的奖励值明显更高,最终获得的控制策略的性能更好,表明示教知识的加入能够提高算法的性能,有利于算法学习到更好的控制策略。3)示教知识的加入能够促进算法的稳定性,对奖励函数的变化具有一定的鲁棒性。参考文献(References)SANTOSOF,GARRATTMA,ANAVATTISG.State-of-the-artintelligent flight control systems in unmann

44、ed aerial vehiclesJ.IEEETransactionsonAutomationScienceandEngineering,2018,15(2):613-627.1FAUSTA,PALUNKOI,CRUZP,etal.Learningswing-freetra-jectoriesforUAVswithasuspendedloadC/2013IEEEInterna-tionalConferenceonRoboticsandAutomation.Piscataway:IEEEPress,2013:4902-4909.2ZHANGBC,MAOZL,LIUWQ,etal.Geometr

45、icreinforce-mentlearningforpathplanningofUAVsJ.JournalofIntelligent&RoboticSystems,2015,77(2):391-409.3KOCHW,MANCUSOR,WESTR,etal.ReinforcementlearningforUAVattitudecontrolJ.ACMTransactionsonCyber-PhysicalSystems,2019,3(2):1-21.4HWANGBOJ,SAI,SIEGWARTR,etal.Controlofaquadrotorwithreinforcementlearning

46、J.IEEERoboticsandAutomationLet-ters,2017,2(4):2096-2103.5PHAMHX,LAHM,FEIL-SEIFERD,etal.Reinforcementlearn-ingforautonomousUAVnavigationusingfunctionapproximationC/2018IEEEInternationalSymposiumonSafety,Security,andRescueRobotics.Piscataway:IEEEPress,2018:1-6.6WANGDW,FANTX,HANT,etal.Atwo-stagereinfor

47、cementlearningapproachformulti-UAVcollisionavoidanceunderimper-fectsensingJ.IEEERoboticsandAutomationLetters,2020,5(2):3098-3105.7ZENGY,XUXL,JINS,etal.Simultaneousnavigationandradiomapping for cellular-connected UAV with deep reinforcementlearningJ.IEEETransactionsonWirelessCommunications,2021,20(7)

48、:4205-4220.8EBRAHIMID,SHARAFEDDINES,HOPH,etal.AutonomousUAV trajectory for localizing ground objects:A reinforcementlearning approachJ.IEEE Transactions on Mobile Computing,2021,20(4):1312-1324.9ESCANDELL-MONTEROP,LORENTED,MARTNEZ-MARTNEZJM,etal.Onlinefittedpolicyiterationbasedonex-tremelearningmach

49、inesJ.Knowledge-BasedSystems,2016,100:200-211.10SAUNDERS W,SASTRY G,STUHLMLLER A,et al.Trialwithouterror:Towardssafereinforcementlearningviahumaninter-ventionC/Proceedings of the 17th International Conference onAutonomousAgentsandMultiAgentSystems.NewYork:ACM,2018:20672069.11ABEL D,SALVATIER J,STUHL

50、MLLER A,et al.Agent-ag-nostichuman-in-the-loopreinforcementlearningC/ProceedingofConferenceonNeuralInformationProcessingSystems.Cambridge:MITPress,2017:1-13.12NACHUMO,GUS,LEEH,etal.Data-efficienthierarchicalrein-forcementlearningC/Proceeding of Conference on Neural In-formationProcessingSystems.Camb

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服