1、第 卷 第期 年月合 肥 工 业 大 学 学 报(自 然 科 学 版)J OUR NA LO FHE F E IUN I V E R S I T YO FT E C HN O L O G Y(NA TUR A LS C I E N C E)V o l N o J u l 收稿日期:;修回日期:基金项目:安徽省科技重大专项计划资助项目(J Z AKK Z )作者简介:张炳力(),男,安徽合肥人,博士,合肥工业大学教授,博士生导师D O I:/j i s s n 基于深度强化学习的轨迹跟踪横向控制研究张炳力,佘亚飞(合肥工业大学 汽车与交通工程学院,安徽 合肥 )摘要:针对自动驾驶的轨迹跟踪问题,
2、为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(t w i nd e l a y e dd e e pd e t e r m i n i s t i cp o l i c yg r a d i e n t,T D)的深度强化学习算法应用于轨迹跟踪的横向控制.对车道线保持的应用场景进行控制器设计,首先基于T D 算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据I S O :(E)标准在P r e s c a
3、n中搭建多种使用场景进行仿真实验,验证所设计的控制器性能.通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值.关键词:自动驾驶;轨迹跟踪;深度强化学习;双延迟深度确定性策略梯度(T D)算法;奖励函数中图分类号:T P ;U 文献标志码:A文章编号:()R e s e a r c ho n l a t e r a l c o n t r o l o f t r a j e c t o r y t r a c k i n gb a s e do nd e e pr e i n f o r c e m e
4、 n t l e a r n i n gZ HANGB i n g l i,S HEY a f e i(S c h o o l o fA u t o m o b i l ea n dT r a f f i cE n g i n e e r i n g,H e f e iU n i v e r s i t yo fT e c h n o l o g y,H e f e i ,C h i n a)A b s t r a c t:I no r d e r t oe x p l o r e a c o n t r o l l e rw i t hb e t t e r p e r f o r m a
5、n c e a n dp r a c t i c a l a p p l i c a t i o nv a l u e f o r t h et r a j e c t o r yt r a c k i n go fa u t o n o m o u sd r i v i n g,t h i sp a p e ra p p l i e st h ed e e pr e i n f o r c e m e n tl e a r n i n ga l g o r i t h mo ft w i nd e l a y e dd e e pd e t e r m i n i s t i cp o l
6、i c yg r a d i e n t(T D)t ot h el a t e r a lc o n t r o lo ft r a j e c t o r yt r a c k i n g T h ec o n t r o l l e rd e s i g n i sb a s e do nt h ea p p l i c a t i o ns c e n a r i oo f l a n e l i n ek e e p i n g F i r s t l y,t h en e u r a ln e t w o r ks t r u c t u r ea n d i t sp a r a
7、 m e t e r sa r ed e s i g n e db a s e do nt h eT D a l g o r i t h m,a n dt h es t a t es p a c ea n da c t i o no u t p u t a r ed e f i n e da c c o r d i n g t o t h eb e h a v i o r o f t h eh u m a nd r i v e r,s o t h a t i t h a sh i g h e rt r a i n i n gs p e e da n db e t t e r c o n t r
8、 o l e f f e c t T h e n,a r e w a r d f u n c t i o n i sd e s i g n e d,w h i c h t a k e s t r a c k i n ga c c u r a c ya n dc o m f o r ta s t h eo p t i m i z a t i o nd i r e c t i o no f c o n t r o l l e rp e r f o r m a n c ea t t h es a m e t i m e F i n a l l y,i no r d e r t ov e r i f
9、yt h ep e r f o r m a n c eo f t h ed e s i g n e dc o n t r o l l e r,av a r i e t yo fs i m u l a t i o ne x p e r i m e n ts c e n a r i o sw e r es e tu p i nP r e s c a nt oc o n d u c t s i m u l a t i o ne x p e r i m e n t sa c c o r d i n gt ot h e I S O :(E)s t a n d a r d I na d d i t i o
10、 n,t h ec o m p a r i s o nw i t ht h ee x p e r i m e n t a lr e s u l t so ft h ec u r r e n tm a i nt r a j e c t o r yt r a c k i n gs o l u t i o n sp r o v e s t h a t t h e c o n t r o l l e r c a nm e e t t h ea p p l i c a t i o nr e q u i r e m e n t s a n dh a sb e t t e r c o n t r o l p
11、 e r f o r m a n c e i nt e r m so f t r a c k i n ga c c u r a c ya n dc o m f o r t,a n dh a sh i g ha p p l i c a t i o nv a l u e K e yw o r d s:a u t o n o m o u sd r i v i n g;t r a j e c t o r yt r a c k i n g;d e e pr e i n f o r c e m e n t l e a r n i n g;t w i nd e l a y e dd e e pd e t e
12、 r m i n i s t i cp o l i c yg r a d i e n t(T D)a l g o r i t h m;r e w a r df u n c t i o n针对自动驾驶的横向控制,当前的主流方法大致分为基于运动学的控制算法和基于动力学的控制算法两类.基于运动学的方法是利用目标路径与车辆运动过程中的几何关系,其中使用较为广泛的算法有P u r eP u r s u i t、S t a n l e y等.P u r eP u r s u i t算法最早由文献 提出,具有易于实现、计算成本低并且控制效果较为稳定等特点,在自动驾驶相关研究中被广泛应用 ;S t a n l
13、 e y算法由文献 提出,部署该控制算法的无人车取得了当年D A R P A挑战赛冠军,S t a n l e y算法在大多数驾驶环境下尤其是弯道行驶时具有更好的跟踪性能,因此被广泛应用于自动驾驶技术的研究.相较于基于运动学的方法,基于动力学的方法在横向控制性能上表现更加优秀,其充分考虑了车辆的动力学特性,被越来越多地应用于轨迹跟踪问题,目前主流的控制算法为模型预测控制(m o d e l p r e d i c t i v ec o n t r o l,MP C).文献 设计了基于MP C的车道保持系统转向控制策略,验证其在轨迹跟踪的横向控制上具有较好的适应性和鲁棒性,引入的车辆动力学模型可
14、以通过模型的等效约束转化减少规划与控制的计算量,提高系统的实时性;文献 考虑轮胎的非线性特性,对状态矩阵和控制矩阵进行了修正,调整了代价函数的权重,并通过实验验证了设计的控制器在真实环境中控制精度更高并且鲁棒性强;文献设计了一种自主切换控制模型的MP C控制器,在稳态工况下以速度航向偏差作为跟踪误差,而在瞬态工况下以车辆横向偏差作为跟踪误差,从而大幅提高了跟踪精度.但是基于模型预测的方法需要已知车辆的动力学参数,若车辆的动力学参数未知,则难以进行控制器的设计;除此之外,对于不同车辆的适用性不强.当所设计的控制器部署到其他车辆上时,由于不同车辆动力学参数不同,控制器的控制性能会受到很大影响.为了
15、解决在不同车辆上的适用性问题并且探索更为有效的控制方案,一些学者提出了基于深度强化学习的方案 .文献 分 别 使 用 深 度Q网 络(d e e p Q n e t w o r k,D QN)和深度确定性策略梯度(d e e pd e t e r m i n i s t i cp o l i c yg r a d i e n t,D D P G)算法设计轨迹跟踪横向控制器,通过对比实验结果证明了D D P G算法在车辆横向控制上的表现更优秀;文献 也验证了自动驾驶是一个连续控制问题,不能简单地将连续问题分解成离散问题.D D P G算法因为已经被证实适用于连续控制场景,所以逐渐成为基于强化学习
16、的主流控制方法.然而,D D P G算法本身在某些情况下可能会出现值函数过估计、训练时间较长并且容易陷入局部最优的问题.针对这些问题,文献 改进D D P G算法,并提出了双延迟深度确定性策略梯度(t w i nd e l a y e dd e e pd e t e r m i n i s t i cp o l i c yg r a d i e n t,T D)算法,该算法相较于D D P G算法极大地提高了训练速度和训练效果,在 决 策 和 控 制 领 域 具 有 很 大 的 应 用前景 .目前,针对轨迹跟踪的研究仍存在一些问题,无论是基于几何跟踪或者基于模型预测等传统控制方案,还是基于强化
17、学习的方案,横向控制的性能优化大多聚焦于跟踪精度,而较少考虑乘客的舒适度.针对以上问题,本文所做的研究如下:)根据车道线保持的使用场景提出一种基于深度强化学习的横向控制方案,重新设计其状态空间以及动作空间.对输入和输出进行归一化处理,从而克服在不同应用情况的场景下输入和输出取值范围不同的问题.)采用基于T D 的方案优化神经网络结构,设计C r i t i c和A c t o r网络结构以及参数,使其具有较快的训练速度以及稳定的训练过程.)设计奖励函数,将跟踪精度和乘客舒适度作为性能指标平衡考虑.)选择仿真平台,并根据I S O :(E)标准搭建仿真环境进行实验验证.状态与动作定义 状态空间定
18、义当被控车辆即将进入曲率变化的区域时,如果不能得到足够多前方目标轨迹的信息,那么车辆可能会出现横向控制的输出值更新不及时的情况,此时控制输出往往会出现控制结果超调的现象,并且伴随着控制输出不稳定.为了使车辆在前方目标轨迹的曲率发生变化时可以提前得到前方目标轨迹的信息,从而较快做出控制输出的更新,而不是在要进入曲率变化的区域时再改变横向控制的输出值,结合下文所述的奖励函数设计,本文选取状态空间ll,具体如图所示.图中:l、l表示在车辆前轴处汽车中心线与车道线左边缘以及车道线右边缘的距离;l、l表示在车辆前轴前方m处汽车中心线与车道线左边缘以及车道线右边缘的距离;l、l表示在合肥工业大学学报(自然
19、科学版)第 卷车辆前轴前方m处汽车中心线与车道线左边缘以及车道线右边缘的距离;l、l表示在车辆前轴前方 m处汽车中心线与车道线左边缘以及车道线右边缘的距离;l、l 表示在车辆前轴前方 m处汽车中心线与车道线左边缘以及车道线右边缘的距离;l、l 表示在车辆前轴前方 m处汽车中心线与车道线左边缘以及车道线右边缘的距离.图状态空间定义不同应用情况的场景下,定义状态空间ll 的取值范围乃至数量级不同,会导致训练的智能体在某些应用场景下失效.为确保所设计的控制器具有较强的场景泛化能力,将定义状态的各距离减去最小值,之后再除以最大值与最小值之差得到ll,从而将定义的状态归一化至以下区间,即li,.动作空间
20、定义动作空间是所设计的轨迹跟踪控制器的输出值,其选取仿照人类驾驶员,定义动作空间为前轮转角s t e e r.动作输出值的取值范围较大会导致A c t o r网络学习效果不佳,因此将动作输出的上下限限制为,将动作输出的前轮转角s t e e r限制在区间,.为了让前轮转角适用于真实车辆的控 制 场 景,在 动 作 输 出 后 设 计 增 益,乘 以 /,即将前轮转角s t e e r放大至区间 ,.轨迹跟踪控制器的神经网络设计 A c t o r网络本文所设计的A c t o r网络如图所示,学习率设置为 .从图可以看出,A c t o r网络由个输入层(S t a t e)、个隐藏层(A c
21、 t o rF C、A c t o rF C)和个输出层(A c t o rO u t p u t)组成.A c t o r网络将状态向量作为输入,个隐藏层使用r e l u激活函数,输出层采用t a n h激活函数输出前轮转角,使预期累积长期回报最大化,从而实现确定性策略.图A c t o r网络 C r i t i c网络本文所设计的C r i t i c网络如图所示.从图可以看出,C r i t i c网络由个输入层(S t a t e、A c t i o n)、个 隐 藏 层 以 及个 输 出 层(C r i t i cO u t p u t)组成.C r i t i c网络实现对Q值
22、的近似,个C r i t i c网络将状态向量和动作分别输入,并选择两者中较小的Q值输出.考虑到学习率低会使训练需要很长时间,而学习率高则可能会达到局部最优结果或者发散,因此学习率根据经验设置为 .图C r i t i c网络A c t o r网络与C r i t i c网络互相作用,首先环境会给智能体一个状态,智能体将此状态输入到A c t o r网络并输出相应的动作.将此时刻下状态和动作输入C r i t i c网络得到相应的Q值,并利用较小的Q值更新网络.奖励函数设计在转弯行驶工况下,转向过快可能会造成车辆在一定程度上丧失稳定性,从而使横向加速度变化剧烈导致舒适度较低.为了使智能体尽可能
23、地避免陷入局部最优,在接近最优情况的过程中奖励值增加得应该更快,奖励函数采用负指数形式.因此,结合选取的状态空间并且综合考虑跟踪精度与舒适性,本文设计的奖励函数如下:第期张炳力,等:基于深度强化学习的轨迹跟踪横向控制研究rt(st,at)eeal a t,正常行驶;C,车辆超出道路边界()其中:al a t为车辆横向加速度;C为碰撞惩罚系数,这里取;为系数向量;llllllT为距离向量.、的元素分别定义如下:i(i)ii,i,()li|li li|,i,()ll 为状态空间中定义的观测量,当车辆前方横向距离在车道线中心线时,li;而车辆前方横向距离偏离车道线中心线越多,li会随之增大,直到超过
24、车道线边缘线,此时达到最大值li.探索策略设计对于连续动作信号来说,设定噪声以鼓励探索是十分重要的.自相关的奥恩斯坦乌伦贝克(O r n s t e i n U h l e n b e c k,OU)噪声与高斯噪声等独立的噪声相比,前者可以使控制的信号较为连续,后者会使前后两步相差较大,因此对于惯性系统来说OU噪声更为合适.而本文系统动作空间为前轮转角s t e e r,需要在原始动作上增加噪声.为了产生在原始动作附近邻域内的实际执行动作,增加的噪声均值应为.综上可知,本文通过添加均值为的OU噪声模型来增加智能体探索,其OU噪声离散形式的微分方程如下:x(t)x(t)(x(t)Ts()其中:T
25、s为每一步的时间;为噪声均值;决定了接近均值的速度.式()中各项参数均为常数,具体设计如下:;Ts .仿真实验奖励函数设计 仿真平台的选择本文选择使用P r e s c a n和MAT L A B联合仿真的方法对所设计的控制器进行仿真验证,其仿真平台如图所示.在P r e s c a n中进行仿真环境的搭建,对车辆、道路以及传感器等进行创建,并将这些数据导入MAT L A B.在MAT L A B中完成控制算法的实现,并把控制结果的车辆数据导入P r e s c a n中进行更新,整个算法更新时间同上文所述的探索策略更新时间一致.此外,使用P r e s c a n内部集成的 D可视化查看工具
26、,以便于对运行结果进行直接观测.图P r e s c a n联合MA T L A B仿真平台 仿真场景搭建仿真场景依据I S O :(E)搭建,该国际标准适用于乘用车、商用车和公共汽车的车道线保持的性能测试.根据I S O :(E)车道线保持的性能评价试验分直道和弯道,并且要求整个测试过程中横向加速度不超过m/s,因此分别搭建直道、左转弯道、右转弯道个仿真场景.使用车辆使用型号为A u d i A 的车辆进行仿真,该车辆的基本参数见表所列.表车辆基本参数参数数值长度/m 宽度/m 轴距/m 转向系统角传动比 直道根据测试标准,测试车辆以 m/s的速度沿直线道路直线行驶,并且允许车辆轮胎外边缘超
27、过车道线边界的最大值为 m.直道仿真场景道路长度为 m,车辆行驶速度为 m/s.弯道根据测试标准,整个测试过程中车速应处在 m/s之间,弯道中的行驶时间大于s.设定:车辆行驶速度v m/s;弯道行驶时间t s;弯道中车辆横向加速度aym/s.则道路几何参数如下:St v m()Rvay()仿真弯道设计如图所示.弯道的测试过程由个单独的测试组成,一次进入左曲线,一次进入右曲线.允许车辆轮胎外边缘超过车道边界的最大值为 m.图仿真弯道设计网络合肥工业大学学报(自然科学版)第 卷 训练智能体 单次运行终止条件设定单次运行停止并对场景进行初始化开始下一次运行的条件如下:)运行过程中目标车辆的车轮外侧超
28、出车道线边缘.)目标车辆到达目标地点.训练终止条件为了加强训练后智能体的稳定性,定义平均奖励,并取平均的窗口长度为 次运行结果.为了避免训练结果陷入局部最优,从而发生长时间训练但未能达到设置的平均奖励目标值,设置最大运行次数为 .训练结果基于种算法设计的智能体训练结果如图所示.图基于种算法设计的智能体训练结果从图 a可以看出:蓝色线表示每次运行结果的累计奖励值,该值随着不断训练整体上呈上升趋势;红色线表示平均窗口内累计奖励值的平均值,该值训练过程中呈上升趋势并逐渐收敛于最优情况的累计奖励值;单次运行的累计奖励值在运行 次时第次达到最优值附近;平均奖励在运行 次后逐渐收敛,并且在 次后达到稳定.
29、由图可知,相较于图 b所示的D D P G算法的训练过程,本文算法训练过程可以更快达到收敛,并且训练过程较为稳定,训练过程中奖励值不会出现剧烈波动.训练后运行的每一步奖励值如图所示,其平均值为 .而设计的奖励函数最大值为,即在每一步都采取最优行动时奖励值为.训练后的奖励平均值达到了最大奖励函数的,可以认为此时已经基本达到最优情况.图训练后单步奖励值 定义评价指标本文采用横向误差e作为衡量跟踪精度的量化指标.横向误差定义如图所示,定义为车辆质心到车道线中心线的距离.此外,使用车辆横向加速度来评价乘客舒适度的性能.图横向误差定义仿真实验结果对比以跟踪精度和乘客舒适度作为控制器的性能指标,将本文所设
30、计的控制器与文献 设计的P u r eP u r s u i t控制器、文献 设计的S t a n l e y方法控制器、文献 设计的MP C控制器以及文献 基于D D P G算法设计的控制器的仿真结果进行对比.除本文算法外,其他算法的参数与其对应文献中设置的参数一致,包括本文算法在内的所有算法仿真环境设置完全相同.直线行驶直道仿真实验结果如图所示.第期张炳力,等:基于深度强化学习的轨迹跟踪横向控制研究从图可以看出,在直线行驶工况下,各方案的控制器控制性能基本相同,横向加速度接近于,横向误差也都在 m以内,跟踪精度与舒适性均比较高.图直道仿真实验结果 右转弯行驶右转弯道仿真实验结果如图 所示.
31、从图 右转弯道的仿真实验结果可以看出,对于横向加速度,本文控制器下横向加速度波动最小,稳定性最高;其次是使用文献 中D D P G算法的控制器.这种基于强化学习方案的横向加速度稳定性要明显优于轨迹跟踪的其他种传统控制方案.右转弯道不同算法的横向误差均方根值见表所列.由表可知,在右转弯道场景中,本文算法的横向误差均方根值比其他主流控制方案(文献算法、文献 算法、文献 算法、文献 算法)分别小、.表和图 b中的数据表明:对于横向误差,本文控制器的仿真结果最趋近于,表明其跟踪精度最高;控制结果较优的是文献MP C方法和文献 算法的控制器,在控制精度上要优于文献 和文献 基于运动学设计的控制器.图 右
32、转弯道仿真实验结果表不同算法的右转弯道横向误差均方根值控制方案均方根值/m文献 算法 文献 算法 文献 算法 文献 算法 本文算法 左转弯行驶左转弯道仿真实验结果如图 所示.从图 可以看出,左转弯道仿真实验结果与右转弯道仿真实验结果相似,验证了本文控制器具有场景泛化性.左转弯道不同算法的横向误差均方根值见表所列.由表可知,在左转弯道工况下,本文算法的横向误差均方根值比文献 算法、文献 算法、文献 算法、文献 算法的方案分别小、.实验结果表明本文控制器比其他控制方案的横向加速度波动小,稳定性表现更合肥工业大学学报(自然科学版)第 卷优异,同时控制器跟踪精度也最高.图 左转弯道仿真实验结果表左转弯
33、道横向误差均方根值控制方案均方根值/m文献 算法 文献 算法 文献 算法 文献 算法 本文算法 复杂工况为了验证本文所设计控制器的泛化性,将其在复杂工况中进行仿真.仿真测试场景如图 所示,由段弯道以及若干段直道组成.图 长距离连续转弯仿真测试结果如图 所示,本文控制器可以将横向误差控制在 m之内,在复杂工况使用场景下表现出良好的鲁棒性.图 长距离连续转弯测试结果结论本文将T D 算法应用于轨迹跟踪的横向控制,设计出一种基于深度强化学习的控制器,旨在解决自动驾驶中的轨迹跟踪问题.通过仿真实验,验证了本文所设计的控制器具有以下特点:)在不同使用场景下均可以将横向误差控制在可接受范围之内,可以满足实
34、际使用中的功能要求.相较于目前主流的控制器方案,尤其在复杂环境中的行驶工况(如大曲率的弯道行驶)下,控制精度更加优秀.)可以在大曲率弯道行驶中保持横向加速度的稳定,相较于其他主流方案,本文控制器横向加速度较小同时也较为稳定,最大程度上保证乘客的舒适度.)具有较强的场景泛化性,可以满足车辆在复杂工况下的使用要求,可以较大程度上保证车辆不会偏离车道中心线.本文设计并利用仿真实验验证了深度强化学习在轨迹跟踪问题上的效果,探索了强化学习算法应用在自动驾驶上的实现方式.所提出的控制器方案相较于当前的主流解决方案有着更优异的性能,具有较高的实际应用价值.参考文献P A R K M W,L E ESW,HA
35、N W Y D e v e l o p m e n to f l a t e r a lc o n t r o ls y s t e mf o ra u t o n o m o u sv e h i c l eb a s e do na d a p t i v ep u r ep u r s u i t a l g o r i t h mC/I n t e r n a t i o n a lC o n f e r e n c e第期张炳力,等:基于深度强化学习的轨迹跟踪横向控制研究o nC o n t r o l,A u t o m a t i o na n dS y s t e m s S
36、l :I E E E,:WA L L A C ERS,S T E NT ZA,THO R P ECE,e t a l F i r s t r e s u l t s i nr o b o tr o a d f o l l o w i n gC/P r o c e e d i n g so ft h e t hI n t e r n a t i o n a l J o i n tC o n f e r e n c eo nA r t i f i c i a l I n t e l l i g e n c e S l :I J C A I,:L A LDS,V I V E K A,S E L VA
37、 R A JG L a t e r a l c o n t r o lo fa na u t o n o m o u sv e h i c l eb a s e do nP u r eP u r s u i ta l g o r i t h mC/I n t e r n a t i o n a lC o n f e r e n c eo n T e c h n o l o g i c a lA d v a n c e m e n t s i nP o w e ra n dE n e r g y S l :I E E E,:王亮,陈齐平,罗玉峰,等基于“P u r eP u r s u i t”
38、自动驾驶汽车的路径跟踪控制J汽车零部件,():D OM I NA A,T I HANY IV P a t hf o l l o w i n gc o n t r o l l e rf o ra u t o n o m o u sv e h i c l e sC/I E E EI n t e r n a t i o n a lC o n f e r e n c eo nC o n n e c t e dV e h i c l e sa n dE x p o S l :I E E E,:HO F FMANNG M,T OML I NCJ,MONT EME R L O M,e ta l A u t
39、o n o m o u sa u t o m o b i l et r a j e c t o r yt r a c k i n gf o ro f f r o a dd r i v i n g:c o n t r o l l e r d e s i g n,e x p e r i m e n t a l v a l i d a t i o na n d r a c i n gC/Am e r i c a nC o n t r o lC o n f e r e n c e S l :I E E E,:罗莉华基于MP C的车道保持系统转向控制策略J上海交通大学学报,():C HE NGS,L I
40、L,C HE N X,e ta l M o d e l p r e d i c t i v e c o n t r o l b a s e dp a t ht r a c k i n gc o n t r o l l e ro fa u t o n o m o u sv e h i c l ec o n s i d e r i n gp a r a m e t r i cu n c e r t a i n t i e sa n dv e l o c i t y v a r y i n gJI E E ET r a n s a c t i o n so nI n d u s t r i a lE
41、 l e c t r o n i c s,():S UNC,Z HAN G X,Z HOU Q,e ta l A m o d e lp r e d i c t i v ec o n t r o l l e rw i t hs w i t c h e d t r a c k i n ge r r o r f o rA u t o n o m o u sv e h i c l e p a t h t r a c k i n gJI E E E A c c e s s,():贺伊琳,宋若旸,马建基于强化学习D D P G的智能车辆轨迹跟踪控制J中国公路学报,():S HANY,Z HE N GB,C
42、HE NL,e ta l Ar e i n f o r c e m e n t l e a r n i n g b a s e da d a p t i v ep a t ht r a c k i n ga p p r o a c hf o ra u t o n o m o u sd r i v i n gJ I E E E T r a n s a c t i o n so nV e h i c u l a rT e c h n o l o g y,():J I AN GL,Y WAN G,WAN GL,e ta l P a t ht r a c k i n gc o n t r o lb a
43、 s e do nd e e pr e i n f o r c e m e n tl e a r n i n gi na u t o n o m o u sd r i v i n gC/r dC o n f e r e n c eo nV e h i c l eC o n t r o la n dI n t e l l i g e n c e S l :I E E E,:C HE NI M,CHAN C Y D e e pr e i n f o r c e m e n tl e a r n i n gb a s e dp a t ht r a c k i n gc o n t r o l l
44、e r f o ra u t o n o m o u sv e h i c l eJP r o c e e d i n g so ft h eI n s t i t u t i o no f M e c h a n i c a lE n g i n e e r s,(/):WANGQ,Z HUAN G W,WAN G L,e ta l L a n ek e e p i n ga s s i s t f o ra na u t o n o m o u sv e h i c l eb a s e do nd e e pr e i n f o r c e m e n t l e a r n i n
45、gC/WC X S A E W o r l dC o n g r e s sE x p e r i e n c e S l :S A EI n t e r n a t i o n a l,:L I L L I C R A PTP,HUNTJJ,P R I T Z E LA,e t a l C o n t i n u o u sc o n t r o lw i t hd e e pr e i n f o r c e m e n tl e a r n i n gD B/O L h t t p s:/a r x i v o r g/a b s/L I U M,Z HA OF,N I UJ,e ta
46、l R e i n f o r c e m e n td r i v i n g:e x p l o r i n g t r a j e c t o r i e s a n dn a v i g a t i o n f o r a u t o n o m o u sv e h i c l e sJ I E E ET r a n s a c t i o n so nI n t e l l i g e n tT r a n s p o r t a t i o nS y s t e m s,():F U J I MO T OS,HO O FH V,ME G E RD A d d r e s s i
47、n gf u n c t i o na p p r o x i m a t i o ne r r o ri n A c t o r C r i t i c m e t h o d sC/P r o c e e d i n g so ft h e t hI n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n eL e a r n i n g S l :PML R,:T I ON G T,S AA DI,T E O K,e ta l D e e pr e i n f o r c e m e n tl e a r n i n g w i
48、 t hr o b u s td e e pd e t e r m i n i s t i cp o l i c yg r a d i e n tC/n dI n t e r n a t i o n a lC o n f e r e n c eo n E l e c t r i c a l,C o n t r o la n dI n s t r u m e n t a t i o nE n g i n e e r i n g S l :I E E E,:O P A L I CS M,G O O DW I N M,L E IJ,e ta l Ad e e pr e i n f o r c e m
49、 e n t l e a r n i n gs c h e m e f o rb a t t e r ye n e r g ym a n a g e m e n tC/t hI n t e r n a t i o n a lC o n f e r e n c eo n S m a r ta n dS u s t a i n a b l eT e c h n o l o g i e s Sl :I E E E,:I n t e r n a t i o n a lO r g a n i z a t i o nf o rS t a n d a r d i z a t i o n I n t e l
50、l i g e n tt r a n s p o r t s y s t e m sL a n e k e e p i n g a s s i s t a n c e s y s t e m s(L KA S)P e r f o r m a n c er e q u i r e m e n t sa n dt e s tp r o c e d u r e s:I S O :(E)S S w i t z e r l a n d:I n t e r n a t i o n a lO r g a n i z a t i o nf o rS t a n d a r d i z a t i o n,:W