1、引用格式:杨秀霞,王晨蕾,张毅,等 基于逆向强化学习的无人机路径规划 电光与控制,():,():基于逆向强化学习的无人机路径规划杨秀霞,王晨蕾,张 毅,于 浩,姜子劼(海军航空大学,山东 烟台)摘 要:为了解决深度确定性策略梯度()算法在规划无人机()安全避障路径时收敛速度慢、奖励函数设置困难等问题,基于逆向强化学习提出了一种融合专家演示轨迹的 路径规划算法。首先,基于模拟器软件采集专家操纵 避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖
2、励函数设置困难的问题。对比实验结果表明,改进后的算法能有效提升算法训练效率且避障性能更优。关键词:无人机;路径规划;逆向强化学习;深度确定性策略梯度中图分类号:文献标志码:,(,):,(),:;引言随着无人机()领域的进一步开放,城市、山地等复杂环境中的密集动态障碍使 的飞行安全受到了极大威胁。传统的路径规划算法,如,等启发式算法以及基于图论的通视图法、图法等,仅能应对提前获知障碍信息的简单环境。但由于城市、山地地形复杂多变,且难以获取障碍的具体参数,传收稿日期:修回日期:基金项目:山东省自然科学基金()作者简介:杨秀霞(),女,山东莱州人,博士,教授,博导。通讯作者:王晨蕾(),女,浙江杭州
3、人,硕士生。统避障算法应用范围受限。不同于上述传统路径规划方法,基于强化学习的导航方法借鉴生物后天感知发育的学习方式,通过与环境的交互持续优化避障策略,不仅避免了对障碍建模和监督学习的依赖,而且具备较强的泛化能力和鲁棒性。特别是,近年来深度强化学习利用深度学习强大的感知与函数拟合能力,有效缓解了高维环境状态空间和决策空间“指数爆炸”问题,为 在密集动态障碍环境下的路径规划问题提供了新思路。、团队、伯克利大学的 以及 相继提出了 算法、异步优势()算法、置信域策略优化()算法和近端策略优化()等深度第 卷 第 期 年 月 电 光 与 控 制 强化学习算法。尽管上述算法在 路径规划方面有明显优势,
4、但往往需要探索大量随机障碍环境样本以尝试新策略,容易陷入局部最优。此外,算法中人为设计的奖励函数大多具有强烈的主观性,仅仅通过与环境交互获取的奖励通常比较稀疏,导致算法在训练时极难收敛,路径规划效果欠佳。针对上述问题,本文基于逆向强化学习提出了一种融合专家演示轨迹的 路径规划算法,仿真实验结果表明,本文算法能够有效提升算法训练效率且避障性能更优。仿真环境和问题描述 仿真环境本文仿真环境主要分为两部分:)基于 模拟器软件中自带的复杂障碍场景获取专家演示轨迹;)基于 搭建简单障碍场景用于 同环境交互生成自探索数据样本。专家演示轨迹的采集基于运行游戏公司开发的专业无线电控制飞行模拟软件 。在 模拟器
5、中采集专家演示轨迹,主要用到以下 个组件:)遥控器模块,使遥控器的各通道与 模型的功能相匹配,包括方向舵、升降舵、油门、副翼的杆量行程,用以控制 的运动;)模型模块,包含固定翼和旋翼等多种机型;)场景模块,提供上百种三维仿真障碍环境,可自定义风力、光照等变量模拟现实。在仿真环境里,可以通过接口函数获取 飞行速度、航向角、定位、陀螺仪、气压计等数据,并实时显示。各组件及数据显示如图 所示。图 模拟器组件及数据显示 手动操纵 模型在 模拟器中避障训练的框架如图 所示。在三维仿真障碍环境中获取环境状态信息(障碍位置、与障碍间的距离等)后,专家手动操纵遥控器方向舵、升降舵、油门、副翼杆量行程,不断调节
6、 模型航向角、俯仰角和飞行速度等进行避障。图 模拟器训练框图 从 模拟器中收集到的部分专家演示轨迹如图 所示。图 专家演示轨迹数据集 在模拟器中收集障碍环境数据集的好处如下:)模拟器中障碍设置和场景类型复杂多变,与现实世界贴近度高;)训练完全在模拟场景中进行,可以手动操纵无人机模拟多种不同的机动动作,以确定最佳的飞行策略;)模拟器直观显示避障过程中每一时刻的单目 图像以及 的航向角、飞行速度等参数而无需使用复杂传感器感知测算;)不用考虑碰撞损坏和安全问题。图 测试环境示意图 为测试算法性能搭建如图 所示的三维障碍环第 卷电 光 与 控 制杨秀霞等:基于逆向强化学习的无人机路径规划境,使 在同环
7、境交互中生成自探索数据集。障碍环境的长为、宽为、高为,环境内存在不同威胁程度的动、静态障碍物,障碍物的空间位置、运动速度和影响范围均未知。问题描述本文所涉及的路径规划任务描述如下:从起始点出发,通过路径规划算法寻找无碰撞路径,按规划路径飞行并躲避障碍物,最后安全达到目标点。基于上述设定,本文提出算法的目标有 个:)最快规划出 的避障路径,因此在算法训练阶段,利用高奖励值的专家演示轨迹降低训练初期探索成本,提升路径规划效率;)确保 避障路径尽可能最优。本文基于最大熵 算法,借鉴专家成熟的避障经验,从专家演示轨迹求解最优奖励函数。基于融合专家经验损失的 算法针对原始 算法探索空间大、初始阶段样本奖
8、励值低的缺点,提出一种融合专家经验损失的改进 算法优化策略迭代。原始 算法的训练样本只包含同环境交互自探索生成的数据集,改进的算法采用混合采样机制,在自探索样本的基础上引入部分专家演示轨迹样本。对于专家轨迹数据集,引入专家经验损失函数指导策略网络参数的迭代更新,加快求解最优策略;自探索数据样本则仍根据原始 算法更新。混合采样机制在 避障训练中,为了避免 初始训练阶段随机低效探索造成的资源浪费,同时尽可能实现样本的多元化,进而突破专家策略隐含的上限,如图 所示。图 混合采样机制 本文算法的经验池由专家演示轨迹数据集 和自探索轨迹数据集 共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训
9、练数据,()式中:为从训练集 中采样的比重;为从训练集中采样的比重。优化网络参数融合专家经验损失的 算法由在线策略网络()、在线值函数网络(,)、目标策略网络()和目标值函数网络(,)部分组成,其中:为状态;为动作;,分别为在线策略网络参数和在线值函数网络参数;,分别为目标策略网络参数和目标值函数网络参数。根据贝尔曼方程,在第 个训练时间步,值函数网络的动作目标值 为 (,()()式中:为奖励函数;为折扣因子。则在线值函数网络的动作目标值与实际输出(,)之间的误差 为 (,)。()将式()代入式(),可得出在线值函数网络的损失函数为()()式中,为数学期望。通过梯度下降法最小化损失函数(),对
10、在线值函数网络参数 进行优化更新,令()对 求导,可得其梯度值()为()(,)。()在线值函数网络参数的更新根据式()进行。在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行。对于专家示例轨迹数据,可将在线策略网络基于当前专家状态 预测的即时策略 与真实专家策略 的均方误差()作为专家经验损失引入策略网络,使得网络的预测输出策略不断趋于专家策略()()()式中,()为在线策略网络基于当前专家状态 预测的即时策略。令专家经验损失()对在线策略网络参数 求导,可得其梯度值()为()()()。()由于专家策略轨迹有限,不能涵盖整个状态、动作空间,而 能够在与环境的交互中探索更大空间,
11、进而突破专家策略隐含的上限,提升算法稳定性。因此,在引入专家经验损失梯度优化在线策略迭代过程的同时,也保留自探索轨迹数据集并按照原始 算法的在线策略梯度值()更新在线策略网络参数,()(,)()()。()采用一种包含专家经验损失在线策略梯度()和原始在线策略梯度()的专家经验损失函数法,一方面引入高质量的专家策略节约初始阶段探索空间,提升算法收敛效率,另一方面在自我探索中不断学习,以尝试获取专家轨迹中未涉及的更优策略。最 第 期终按照()()()()采用融合梯度()更新在线策略网络的参数。式中,为融合梯度调节因子。目标网络参数的更新基于在线网络参数采用软更新的方式 ()()()式中,常数 。基
12、于 算法求解奖励函数 算法可分为最大边际和最大熵两大类,基于最大边际的方法往往会产生歧义,即可以从相同的专家策略中推导出具有随机偏好的不同奖励函数。而最大熵模型完全基于已知数据(即专家轨迹)构建,没有对未知信息做任何主观假设的分布,有效避免了歧义性问题。因此,采用基于最大熵 算法求解专家演示轨迹中隐含的最优奖励函数。基于 算法求解奖励函数可以描述为在已知专家演示轨迹的情况下,求解产生该轨迹的隐含概率模型。已知专家操控 避障生成的轨迹 为 (,),(,),(,)()则该轨迹的奖励值()为(),(,),。()采用有限数量的重要特征函数()的线性组合拟合奖励函数,则(),(,),(,)()式中:为奖
13、励函数的第 个特征分量;为奖励函数权重向量的第 个分量;为奖励函数中特征向量的个数。在专家操纵 避障过程中,专家操控手往往根据当前 飞行速度、与障碍物之间的方位距离等因素进行决策。因此,相对障碍物的欧氏距离、相对距离航向角、相对距离爬升角、相对障碍物的运动速度、相对运动速度航向角、相对运动速度爬升角 等信息属于 避障过程中的重要特征,故(,)(,)。()定义()为式()中各个状态的特征分量之和,即(),(,)。()将式()代入式(),则每条轨迹的奖励值为()()。()给定 条专家轨迹,则专家轨迹的特征期望为。()在已知专家轨迹的情况下,假设潜在的概率分布为(),则专家轨迹的特征期望为()()式
14、中,为一般轨迹的特征期望。最大熵模型完全基于式()中已知的数据(即专家轨迹)构建,没有对未知情况做任何主观假设,因此可以有效避免自定义奖励函数存在的歧义问题。将求解最大熵问题转换为优化问题 ()(),式中:为熵最大的概率模型;()。将上述最优化问题转化为对偶形式()()()()式中:,为拉格朗日乘子;为第 条轨迹的特征期望。令损失函数()对专家轨迹分布概率 求导,可得()。()令式()等于零,则得到专家轨迹的最大熵概率模型 ()()()()式中,对应奖励函数中权重向量。()()()()(,(,)()式中,()为配分函数,即所有可能出现的专家轨迹概率之和。在如式()所示的概率模型中,专家轨迹出现
15、的概率越大,即()越大,则奖励函数设置越逼近专家示例中隐含的最优策略。可将求解最优奖励函数转化为最大化专家轨迹分布的熵进行优化()()()。()将式()转化为奖励函数权重向量 的最小化负对数似然函数,求解损失量()()。()通过计算当前策略下的专家轨迹预测配分函数()()()()()式中:为当前策略下的专家轨迹;为当前策略下第 卷电 光 与 控 制杨秀霞等:基于逆向强化学习的无人机路径规划专家轨迹的数量;为当前动作选择策略。由于专家认知存在一定差异,为了减小奖励函数权重 的拟合方差,对被采样的专家轨迹中连续的专家状态 和对应的真实专家策略 做离散化处理,并从中随机批采样,将式()转化为 ()(
16、)式中,损失函数()为(),(,),(,)()。()令损失函数()对奖励函数的权重 求导,通过梯度下降法求解最优奖励函数,可得(),(,),(,)(,)()(,)()通过式()最终可以学习到奖励函数的全局最优解(,)。基于逆向强化学习的 路径规划流程根据第 章提出的融合专家演示轨迹的策略更新算法和第 章基于最大熵逆向强化学习求解奖励函数算法改进 算法,其训练框架如图 所示。图 改进的 算法训练框架 采用改进 算法避障问题可以描述为:在一系列连续的决策时刻,策略网络根据 当前状态 做出一个决策;在决策实施后,策略网络根据逆向强化学习设计的奖励函数获取即时奖励值,该奖励与网络决策和环境状态相对应,
17、之后网络将进入决策所对应下一时刻的状态并通过融合专家监督损失的 算法正向更新网络参数;在新的训练时间步,网络将根据当前所处的新状态执行新的决策并获得新的奖励值,依此循环往复,直至网络在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。算法执行流程如下。)随机初始化在线策略网络()和在线值函数网络(,)的网络参数 和,初始化目标网络 和 及其权重。)根据式()构造奖励函数,初始化奖励函数权重。)初始化经验池,将 节中采集到的专家演示轨迹数据集 存入经验池。)进行迭代次数为 的网络训练。在线策略网络基于当前状态 得到动作 (),其中,为随机噪声;()为当前状态 下的在线策略网络;动作选择策略 取
18、决于奖励函数的设计;同环境交互执行动作,得到新状态,即时奖励值;将同环境交互生成的自探索样本数据(,),即 存入经验池中;随机从经验池中采样 个样本数据进行训练,根据式()估计配分函数(),最小化式()所示的目标值,对奖励函数权重 进行优化,得到最优奖励函数;根据式()更新值函数网络参数,如果训练数据,则根据式()更新策略网络参数,如果训练数据,则根据式()更新策略网络参数;根据式()更新目标网络参数 和;当为终止状态,当前迭代结束,否则转到步骤。仿真与分析本章在仿真环境下测试所提算法的避障性能。仿真实验环境为 ,主频的 第 期处理器,以及 操作系统。测试场景为如图 所示的密集动静态障碍环境,
19、设定仿真环境为 的立体区域,区域内存在若干以不同运动速度沿不同航向角和爬升角方向运动的动态障碍。融合专家经验损失的 算法对收敛速度的影响分析为了测试融合专家经验损失的 算法的策略学习性能,在保持奖励函数一致的情况下对比测试改进算法和原始算法对网络收敛速度的影响。设计奖励函数 为 ()式中:为式()中所述 中的最小值,即 与最近障碍物间的距离,从而驱使 远离障碍;为无人机与终点间的距离,从而促使 向终点方向飞行;,。训练过程中的奖励值曲线如图 所示。图 融合专家经验损失的奖励值曲线 由图 可知,采用原始 算法的 在迭代 轮内,策略学习速度近乎直线上升;但在迭代 轮内,模型陷入局部最优解,导致网络
20、难以收敛;在 轮,策略学习速度继续增长,但增速有所减缓;在迭代 次后奖励值逐渐收敛,大致稳定在,但波动较大。而采用融合专家经验损失的 算法,在 轮内策略学习速度持续高速增长;在迭代 轮后,增速有所减缓,但未出现停滞情况;在迭代 次后网络即收敛,相比原始的 算法,收敛速度更快;最终奖励值大致稳定在,高于原始 算法,且奖励值波动幅度较小,稳定性更好。综上,融合经验损失的 算法收敛速度更快,路径规划效率更高。最大熵逆向强化学习算法对避障效果的影响分析 采用基于最大熵逆向强化学习算法求解出的最优奖励函数的奖励值曲线如图 所示。图 基于最大熵逆向强化学习算法的奖励值曲线 采用最优奖励函数进行训练的 在
21、轮内策略学习速度保持高速增长;在迭代 轮后,增速稍有所减缓;在迭代 次后奖励值大致收敛到,且奖励值波动区间较小,而采用原始 算法的 奖励值最终仅稳定在 左右且波动较大。由图 可知,与原始 算法相比,采用最优奖励函数进行训练的 奖励值明显更高,避障效果更好且稳定性更好。综合专家经验损失和逆向强化学习的改进算法图 给出了综合专家经验损失和逆向强化学习的改进 算法的奖励值曲线。图 综合改进的 算法的奖励值曲线 综合两个改进点训练的 策略学习速度始终保持在较高的增速,不仅避免了原始 算法在迭代 轮之间陷入局部最优解的停滞阶段,而且仅迭代了 次左右奖励值即可收敛到 ,远超迭代 次奖励值收敛到 的原始 算
22、法。由图 可知,综合上述两点改进的 算法,结合了两者各自的优点,不仅初始阶段策略学习速度更快,而且算法收敛所需时间更短,避障效果更佳。结束语本文针对 路径规划问题改进 算法。通过引入专家经验损失函数优化策略网络迭代过程,节第 卷电 光 与 控 制杨秀霞等:基于逆向强化学习的无人机路径规划约了原始 算法初期的探索成本,加快网络收敛速度;同时,基于最大熵逆向强化学习算法求解专家演示轨迹中隐含的最优奖励函数,克服了复杂任务中人为设置奖励函数困难的问题。对比实验表明,改进的 算法能有效提升算法训练效率,避障性能更优。参 考 文 献 时浩,田聪玲 基于稀疏 算法的微小型固定翼无人机航迹规划 兵工自动化,
23、():,张思思,李凤鸣,杨旭亭,等 基于接触状态感知发育的机器人柔性装配方法 控制与决策,():,:,:,:,():,():,():郭宪,方勇纯 深入浅出强化学习原理入门 北京:电子工业出版社,:下期要目基于 算法的组合导航系统容错方法面向战场的多无人机协同打击航迹规划基于 的异常抑制目标跟踪算法基于图像结构复杂度的背景杂波表征方法光电干扰条件下对空导弹脱靶量计算模型基于互利共生与变异 算法的 航迹规划无人机集群高斯置信传播协同导航方法基于滑模预测控制的水面无人船轨迹跟踪研究信息缺失条件下基于 的空中目标威胁评估巡航式冲压增程制导炮弹模糊自适应 控制基于改进稀疏表示的 图像目标识别方法基于海天线标定的海上单目测距方法 第 期