收藏 分销(赏)

基于强化学习的改进NSGA-II算法的城市快速路入口匝道控制.pdf

上传人:自信****多点 文档编号:639445 上传时间:2024-01-22 格式:PDF 页数:15 大小:2.41MB
下载 相关 举报
基于强化学习的改进NSGA-II算法的城市快速路入口匝道控制.pdf_第1页
第1页 / 共15页
基于强化学习的改进NSGA-II算法的城市快速路入口匝道控制.pdf_第2页
第2页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 29 卷 第 4 期2023 年 8 月(自然科学版)JOURNAL OF SHANGHAI UNIVERSITY(NATURAL SCIENCE EDITION)Vol.29 No.4Aug.2023DOI:10.12066/j.issn.1007-2861.2435城市交通与环境基于强化学习的改进 NSGA-II 算法的城市快速路入口匝道控制陈娟,郭琦(上海大学 悉尼工商学院,上海 201800)摘摘摘要要要:为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环 Q 网络的改进非支配排序遗传算法(non-dominated sorting genetic algorith

2、m II based on duelingdeep recurrent Q network,DRQN-NSGA-II).该算法结合了基于竞争结构的深度 Q 网络(dueling deep Q network,Dueling DQN)、深度循环 Q 网络(deep recurrent Q network,DRQN)和 NSGA-II 算法,将 Dueling DRQN-NSGA-II 算法用于匝道控制问题.除了考虑匝道车辆汇入以提高快速路通行效率外,还考虑了环境和能源指标,将尾气排放和燃油消耗作为评价指标.除了与无控制情况及其他算法进行比较之外,Dueling DRQN-NSGA-II 还与NS

3、GA-II 算法进行了比较.实验结果表明:与无控制情况相比,本算法能有效改善路网通行效率、缓解环境污染、减少能源损耗;相对于无控制情况,总花费时间(total time spent,TTS)减少了 16.14%,总尾气排放(total emissions,TE)减少了 9.56%,总燃油消耗(totalfuel consumption,TF)得到了 43.49%的改善.关关关键键键词词词:匝道控制;基于竞争结构的深度 Q 网络;深度循环 Q 网络;非支配排序遗传算法中中中图图图分分分类类类号号号:TP 312文文文献献献标标标志志志码码码:A文文文章章章编编编号号号:1007-2861(202

4、3)04-0666-15Urban expressway on-ramp control based onimproved NSGA-II algorithm ofreinforcement learningCHEN Juan,GUO Qi(SHU-UTS SILC Business School,Shanghai University,Shanghai 201800,China)Abstract:To alleviate urban expressway congestion and exhaust emissions,an improvedNSGA-II algorithm based o

5、n dueling deep recurrent Q network(Dueling DRQN-NSGA-II)was proposed.This method combined dueling deep Q network(Dueling DQN),deeprecurrent Q network(DRQN),non-dominated sorting genetic algorithm II(NSGA-II),andapplied Dueling DRQN-NSGA-II to ramp control.In addition to considering the mergingof ram

6、p vehicles to improve expressway traffic efficiency,the environmental and energyindicators were also considered,and the exhaust emissions and fuel consumption were usedas evaluating indicators.Dueling DRQN-NSGA-II algorithm was compared with NSGA-II algorithm in addition to no control situation and

7、other algorithm.The experimental收稿日期:2022-09-03基金项目:国家自然科学基金资助项目(61104166)通信作者:陈娟(1975),女,副教授,博士,研究方向为智能交通系统.E-mail:第 4 期陈娟,等:基于强化学习的改进 NSGA-II 算法的城市快速路入口匝道控制667results showed that compared to the no control situation,the proposed algorithm effectivelyimproved the road network traffic efficiency,all

8、eviated environmental pollution and reducedenergy consumption.Compared with the no control situation,the total time spent(TTS)was reduced by 16.14%,the total emissions(TE)was reduced by 9.56%,while the totalfuel consumption(TF)was improved by 43.49%.Key words:ramp control;dueling deep Q network(Duel

9、ing DQN);deep recurrent Qnetwork(DRQN);non-dominated sorting genetic algorithm II(NSGA-II)近年来,随着我国社会经济的飞速发展,城市居民人口逐年增加,汽车保有量也在不断攀升,而交通基础设施的供应却相对滞后,由此产生了严重的城市交通拥堵问题.交通拥堵使得快速路的利用率不高,目前上海市快速路瓶颈点常发性拥挤占整个系统拥挤的 50%以上1.交通拥堵还会进一步引发环境污染问题,延长个人出行时间,造成一定程度的经济损失.因此,采取控制方法提高路网通行效率,缓解交通拥堵,具有非常重要的现实意义.研究表明,城市快速路普遍

10、存在着拥挤和堵塞现象,而瓶颈点则是快速路能否运行畅通的关键.匝道入口、匝道出口和出口下游连接区域是快速路的瓶颈区域,是拥堵现象的高发区,匝道汇入区也是常发性瓶颈中的一种2.在快速路已经建成的现有条件下,由于经济和环境原因,通过增建基础设施的传统举措往往在短期内无法实现.通过改善匝道汇入方法以缓解交通拥堵已成为最具现实意义和研究意义的举措.快速路交通控制研究经验也表明,匝道控制是达到缓解交通拥堵这一目的最直接和最有效的控制方法.已有的对快速路匝道信号控制方法的研究主要分为静态控制、单点动态控制和动态协调控制.静态控制是根据历史数据制定不同时段内各个匝道的协调控制策略,并预置在控制机中,但不会针对

11、实时检测信息做出响应.典型方法有线性规划3,具有简单易行,但灵活性较差的特点.单点动态控制的基本目的是解决单个匝道的交通拥挤问题,控制范围为某一处匝道,利用匝道及其相邻路段的实时检测或预测数据代替历史数据作为控制决策的基础.经典方法有 ALINEA 方法4,具有控制灵活性较大,但仅局限于单个匝道控制的特点.动态协调控制兼具协调控制与动态控制的特征,控制范围为高速道路系统所有或局部区域部分匝道,利用实时检测或预测数据代替历史数据作为控制决策的基础.动态协调控制分为系统最优协调控制、状态调节器控制和启发式协调控制5,能够控制多个匝道,但在实际应用中难以实现整个路网的系统最优.本工作结合强化学习方法

12、和非支配排序遗传算法(non-dominated sorting genetic al-gorithm II,NSGA-II)解决城市快速路入口匝道控制问题,将基于竞争结构的深度 Q 网络(dueling deep Q network,Dueling DQN)、深度循环 Q 网络(deep recurrent Q network,DRQN)和 NSGA-II 算法结合用于匝道控制,并与无控制情况和 NSGA-II 算法进行了比较.本工作的主要贡献如下:基于交通流 METANET 模型、宏观尾气排放和燃油消耗 VT-Macro 模型,考虑最小化总花费时间(total time spent,TTS

13、)、总尾气排放(total emissions,TE)、总燃油消耗(total fuel consumption,TF),将 Dueling DRQN-NSGA-II 算法用于城市快速路入口匝道控制问题;提出的 Dueling DRQN-NSGA-II 算法,首次将 NSGA-II 算法和基于强化学习的 Dueling DQN、DRQN 算法相结合,有效提高了 NSGA-II 算法的多样性;与无控制情况、Q 学习-NSGA-II(Q-NSGA-II)、深度 Q 网络-NSGA-II(DQN-NSGA-II)、基于竞争结构的深度 Q 网络-NSGA-II(Dueling DQN-NSGA-II)

14、、深度循环 Q 网络-NSGA-II(DRQN-NSGA-II)算法以及 NSGA-II 算法比较,本工作提出的 Dueling DRQN-NSGA-II 算法控制效果表现最优.实验结果表明:Dueling DRQN-NSGA-II 能有效改善路网通行效率、缓668(自然科学版)第 29 卷解环境污染、减少能源损耗;相对于无控制情况,TTS 减少了 16.14%,TE 减少了 9.56%,TF得到了 43.49%的改善.1文献回顾匝道控制是解决城市快速路拥堵问题的重要措施,通过对匝道汇入车辆的管理和调节,能够确保快速路的高效运行.由于快速路环境复杂,若要更加全面地考虑快速路的效率,达到更好的控

15、制效果,就无法避免多个控制目标的存在.由于有些目标之间存在冲突,因此需要考虑多目标控制方法来协调控制多个目标,以取得多个目标之间的最优解.Meng 等6指出 NSGA-II 算法设立的目标是不仅使总系统延迟最小化,而且使与路段相关的公平指数最大化.该算法能够寻求帕累托(Pareto)最优解.Maldonado 等7提出了一种多目标 NSGA-II 算法,可显著提高交通流量.Tam as 等8研究中的标准 H控制能够通过缩短车辆所花费的总时间来优化交通性能,减小 CO2的排放因子.Xie 等9考虑了匝道控制和可变限速策略,提出了多目标粒子群优化算法.该算法有效提高了路网的移动性,降低了车辆碰撞风

16、险,减少了碳排放.Yu 等10针对多个匝道的高速公路考虑了不同车型,提出了可变限速策略,并使用遗传算法求解该问题.该算法能有效提高路网运行效率、减少排放.Chen 等11提出了一种基于聚类预测的动态多目标优化算法,能有效缓解交通拥堵,减少尾气排放与能源消耗,但运算效率较低.陈娟等12考虑到快速路的多种车型,提出了模糊非支配排序遗传算法,有效改善了环境和道路通行效率.Kotsialos13将协同运行模式策略设计为最优控制问题,并使用随机搜索算法求解静态问题.结果表明,所采用的算法是合理的,可以减少 TTS,减少路网的总排放,但需要大量计算时间才能收敛到足够质量的解.在仅考虑单个匝道的情况下,Da

17、varynejad 等14提出了一种基于 Q 学习的密度控制方法.但该方法未与其他匝道控制方法进行比较,不能判断其优劣.Veljanovska 等15的研究虽然没有考虑实际场景,但方法简单,不需要对交通参数进行预测.典型的强化学习方法考虑使用离散状态表示,但这会导致复杂问题的缓慢收敛,Rezaee 等16采取 k 近邻时域差分来表示连续状态空间.但该研究仅考虑了单匝道控制方法,没有协调多智能体情况,无法达到整体的性能最优.Lu 等17的研究考虑了交通事故,所提出的间接强化学习方法在大多数场景下性能更优,且学习速度更快.Fares 等18设计了一种基于密度控制智能体的强化学习方法,平衡了快速路的

18、需求和容量.Ivanjko 等19使用 VISSIM 作为仿真软件,将最大入口匝道队列长度限制在一定上限,对 Q 学习进行调参后,与无控制和未调参情况比较,匝道控制效果更好.段荟等20结合了协同运输管理(collaborative transportation management,CTM)模型和 Q 学习对匝道汇入率进行调节.但该研究是在假设驾驶员对限速的遵从度为 100%的基础上进行的,没有考虑不同驾驶员对限速的实际遵从情况,没有探讨不同的参数选取及函数设置下策略的学习控制效果.Wu 等21提出的基于深度演员-评论家的差分变速限制策略可有效提高快速路通行量,减少排放,增强安全性.由于路网上

19、的交通摄像机可以覆盖更大的区域,提供更详细的交通信息,Liu 等22提出了一种深度强化学习方法,以探索交通视频数据在提高匝道控制效率方面的潜力.该方法能有效缩短主线行驶时间和入口匝道车辆排队时间,并增加了流区下游的通流量.2问题描述在研究快速路交通控制问题时,通常使用 TTS 来衡量路网通行效率.此外,本工作还考虑第 4 期陈娟,等:基于强化学习的改进 NSGA-II 算法的城市快速路入口匝道控制669了路网中车辆通行对环境和能源消耗的影响,将 TE 和 TF 设置为性能指标.TE 和 TF 主要参考了 Zegeye 等23研究中的 METANET 模型和 VT-Macro 模型.2.1MET

20、ANET 模型和 VT-Macro 模型2.1.1宏观交通流 METANET 模型METANET 模型是由 Papageorgiou 等24于 1990 年在对巴黎南部某地区进行交通模型构建及控制时提出的.该模型是一种在时间和空间上都离散的二阶模型.它将快速路的连续路段离散化分成若干路段,流量参数可能因路段的不同而有所差异.划分的路段数越多,每条路段的平均长度就越短,就能更加准确地表示路段间交通流参数的互异性.(1)车辆守恒方程描述的是流量与密度的关系,即i(k+1)=i(k)+TLii(qi1(k)qi(k),(1)式中:k 表示第k 个时间间隔;i 表示第i 个路段;T(h)表示离散时间间

21、隔;i(k)(veh/(kmlane)表示第 k 个时间间隔路段 i 的车辆密度;Li(km)表示第 i 个路段的长度;i表示第 i 个路段的车道数;qi(k)(veh/h)表示第 k 个时间间隔路段 i 的平均车流量.(2)流量密度方程描述的是每路段的驶出交通量等于车流密度、平均速度以及车道数的乘积这一基本关系,即qi(k)=ii(k)vi(k),(2)式中,vi(k)(km/h)表示第 k 个时间间隔路段 i 的车辆平均速度.(3)动态速度密度方程为vi(k+1)=vi(k)+T(V(i(k)vi(k)+TLivi(k)(vi1(k)vi(k)T(i+1(k)i(k)Li(i(k)+)Tv

22、i(k)qo(k)Lii(i(k)+),(3)式中:、和 表示路网交通特性的相关参数,依次为时间相关常数、期望常数、修正常数和匝道汇入影响系数;V(i(k)(km/h)表示驾驶员的平均期望速度,也称为稳态速度;qo(k)(veh/h)表示第 k 个时间间隔从入口匝道 o 处汇入主路的平均车流量.(4)稳态速度密度方程描述的是稳态速度与路段密度之间的关系,即V(i(k)=vf,iexp?1i?i(k)cr,ii,(4)式中:i表示模型参数;vf,i(km/h)表示快速路路段 i 的自由流速度;cr,i(veh/(kmlane)表示路段 i 的临界密度.(5)起点排队模型主要用于描述起始路段(主路

23、起始路段或入口匝道)处的车辆排队情况.起点排队模型包括匝道排队模型以及匝道汇入主线模型.匝道排队长度表达式为wo(k+1)=wo(k)+T(do(k)qo(k),(5)式中:do(k)(veh/h)表示入口匝道 o 处第 k 个时间间隔的平均到达车流量;wo(k)(veh)表示入口匝道 o 处在第 k 个时间间隔的车辆排队长度.670(自然科学版)第 29 卷上述匝道排队长度中的 qo(k)可由以下式子求得,即qo(k)=ro(k)b qo(k),(6)b qo(k)=minb qo,1(k),b qo,2(k),(7)b qo,1(k)=do(k)+wo(k)/T,(8)b qo,2(k)=

24、Qomin1,max i(k)max cr,i?,(9)式中:ro(k)0,1 表示入口匝道汇入率,若 ro(k)=1,则表示没有实施匝道控制,若ro(k)=0,则表示不允许车辆从匝道汇入主路;Qo(veh/h)表示入口匝道饱和流量;max(veh/(kmlane)表示主路路段的最大车流密度;最大输出量 b qo(k)(veh/h)是由入口匝道流量需求 b qo,1(k)(veh/h)和相连快速路路段的最大可用容量 b qo,2(k)(veh/h)决定的.2.1.2宏观尾气排放和燃油消耗 VT-Macro 模型为了权衡模型的预测精度与计算时间,可以采用 VT-Macro 模型来计算尾气排放量与

25、燃油消耗量.VT-Macro 模型是结合 METANET 模型和 VT-Micro 模型产生的,能够动态反映整体汽车尾气排放量和燃油消耗量23.首先,基于 METANET 模型的平均速度等交通状态给出加速度算式.其次,构建尾气排放量和油耗量与车辆平均速度、平均加速度的回归方程模型.VT-Macro 模型的第 k 个时间间隔路段 i 的车辆时间加速度 ati(k)(km/h2)表示为ati(k)=vi(k+1)vi(k)T,(10)对应的快速路路段 i 上的车辆数 nti(k)(veh)为nti(k)=Liii(k)Tqi(k).(11)第 k 个时间间隔从路段 i 到路段 i+1 的车辆时空加

26、速度 asi,i+1(k)(km/h2)表示为asi,i+1(k)=vi+1(k+1)vi(k)T,(12)对应的从路段 i 到路段 i+1 的车辆数 nsi,i+1(k)(veh)为nsi,i+1(k)=Tqi(k).(13)除在同一道路连续路段上行驶车辆的时空加速度外,入口匝道处的平均时空加速度aon,o(k)(km/h2)和对应的车辆数 non,o(k)(veh)分别为aon,o(k)=(vi(k+1)von,o(k)/T,(14)non,o(k)=Tqon,o(k),(15)式中,qon,o(k)(veh/h)为实际入口匝道流量 qo(k).综合上述车辆平均速度、加速度和车辆数,可以得

27、到宏观车辆尾气排放和燃油消耗的VT-Macro 模型.以时间加速度为例,第 k 个时间间隔路段 i 的车辆燃油消耗或尾气排放量为Jty,i(k)=Tnti(k)exp(Vi(k)PyAti(k),(16)Vi(k)=1vi(k)(vi(k)2(vi(k)3,(17)Ati(k)=1ati(k)(ati(k)2(ati(k)3,(18)第 4 期陈娟,等:基于强化学习的改进 NSGA-II 算法的城市快速路入口匝道控制671式中:y CO,HC,NOx,FC,其中 CO、HC、NOx为常见的尾气污染物,FC 为燃油消耗;Py表示参数矩阵23.其余两种加速度的指标算式 Jsy,i(k)、Jy,on

28、,o(k)与上式类似.快速路路段 i 在 k 个时间间隔的车辆燃油消耗或尾气排放量为Jy(k)=Xi(Jty,i(k)+Jsy,i(k)+Xoon-rampJy,on,o(k),(19)式中:on 表示入口匝道;Jty,i(k)表示主路在第 k 个时间间隔路段 i 上正常行驶产生的尾气排放或燃油消耗量;Jsy,i(k)表示主路在第 k 个时间间隔路段 i 上因停车而产生的尾气排放或燃油消耗量;Jy,o,on(k)表示在第 k 个时间间隔入口匝道 o 上产生的尾气排放或燃油消耗量.2.2性能指标2.2.1总花费时间TTS 主要包括路网中车辆的总行程时间(total travel time,TTT

29、)与入口匝道车辆排队的总等待时间(total waiting time,TWT).TTS 最小化是指在路网中花费的时间最小化.TTS(vehh)具体计算方式表示为min J1=T XkXii(k)Li i+XoXiwo,i(k)!,(20)式中,wo,i(k)(veh)表示第 k 个时间间隔路段 i 上第 o 个入口匝道的排队长度.2.2.2总尾气排放与总燃油消耗TE 是指一定时间内通过既定路网的所有车辆产生的尾气量总和.TF 是指一定时间内通过既定路网的所有车辆消耗的燃油总量.根据 VT-Macro 模型,本工作主要关注的尾气为CO、HC、NOx.各类尾气的 TE(kg)与 TF(L)的计算

30、公式为Jy=XkXi(Jty,i(k)+Jsy,i(k)+XkXoXoon-rampJy,o,on(k).(21)为了环保和低耗,因此设置最小化尾气排放量和燃油消耗量.由于 TE 和 TF 是两种不同类型与量纲的指标,不能直接相加,本工作先将其标准化处理后再相加,即将式(21)转变为min J2=JCO+JHC+JNOxJnc,emisson+JFCJnc,FC,(22)式中:JCO、JHC、JNOx三者之和表示 TE;JFC表示 TF;Jnc,emission(kg)和 Jnc,FC(L)分别表示无控制情况下的路网尾气排放总量和燃油消耗总量,均可以通过后续的仿真实验得到具体的数值.图 1 为

31、本工作算法模型的交互框架.本算法由 Dueling DRQN 和 NSGA-II 组成.DuelingDRQN 从 NSGA-II 中获得解间距值,得到状态后由 Dueling DRQN 将动作种群比例参数输出给 NSGA-II.Dueling DRQN-NSGA-II 将 METANET 模型和 VT-Macro 模型23转化成最小化 TTS、TE 和 TF 问题,之后再将匝道控制率给到 METANET 模型和 VT-Macro 模型,使得匝道车辆能够汇入主路.本工作对多目标问题适应度函数设计如下:根据对 TTS、TE 和 TF 这 3 个性能指标的描述,尽可能地减小 TTS、TE 和 TF

32、.因此本工作采用如下的 NSGA-II 算法的适应度函数:J(k)=1J1(k)Jnc,1(k)+2J2(k),(23)672(自然科学版)第 29 卷?NSGA-IIMETANET+VT-MacroDueling DRQN图 1 算法模型交互框架Fig.1 Algorithm model interaction framework式中:J1(k)、J2(k)分别表示第 k 个时间间隔的 TTS、TE 和 TF;Jnc,1(k)(vehh)表示无控制情况下的 TTS;1,2表示各目标的重要程度,分别为 0.5、0.5.3基于强化学习的改进 NSGA-II 算法 Dueling DRQN-NSG

33、A-II3.1强化学习问题描述本工作将 NSGA-II 中的种群视为智能体,最终目标是种群比例参数的学习.智能体通过感知种群多样性变化来控制种群比例参数,进而控制种群进化方向.当解间距相较于初始种群减小时,说明种群比例设置是合理的.3.1.1状态描述间距 S 反映了算法获得帕累托前沿(Pareto front,PF)的均匀性.一般而言,间距越小,说明算法得到的最优解集在目标空间越接近等间距分布.设算法搜索到的具有 Pareto 性的前沿解的个数为|A|,则定义解间距指标 Sp为Sp=vuut1|A|1|A|Xi=1(d di)2,(24)式中:di=minMPm=1|Fm(xi)Fm(xj)|

34、?(xi,xj A;i,j=1,2,|A|),其中 d 表示 di的平均值,M 表示目标函数的个数.Sp越小说明得到解的分布越均匀,种群多样性越好.状态空间由种群解间距值变化划分为 9 个,具体定义如表 1 所示,其中 S10p、S20p分别表示初始种群 1 和初始种群 2 的解间距,S1tp、S2tp分别表示第 t 代种群 1 和种群 2 的解间距.3.1.2动作描述强化学习 Agent 的动作是对种群比例参数的调整,包含增加、不变、减少 3 种,具体计算公式为a(t)=a(t 1)+,=0.05,0,0.05,(25)式中,a(t)、a(t 1)分别表示第 t 和 t 1 代种群的分割比例

35、参数.第 4 期陈娟,等:基于强化学习的改进 NSGA-II 算法的城市快速路入口匝道控制673表 1 状态定义及意义Table 1 States definition and significance状态定义意义S1S1tp/S10p 1 且 S2tp/S20p 1种群 1 解间距减少,种群 2 解间距减少S2S1tp/S10p 1 且 S2tp/S20p=1种群 1 解间距减少,种群 2 解间距不变S3S1tp/S10p 1种群 1 解间距减少,种群 2 解间距增加S4S1tp/S10p=1 且 S2tp/S20p 1种群 1 解间距不变,种群 2 解间距增加S7S1tp/S10p 1 且

36、 S2tp/S20p 1 且 S2tp/S20p=1种群 1 解间距增加,种群 2 解间距不变S9S1tp/S10p 1 且 S2tp/S20p 1种群 1 解间距增加,种群 2 解间距增加3.1.3奖赏函数描述依据解间距变化决定 Agent 的奖赏,目标是学习最优的比例参数(t).Sitp、Si0p分别表示第 i 个种群第 t 代的解间距和初始种群 i 的解间距,具体计算公式为R=0,Sitp/Si0p=1,0.5,Sitp/Si0p 1.(26)3.2基于竞争结构和深度循环的 Q 网络 Dueling DRQN本工作结合 Dueling DQN25和 DRQN26,提出了改进 DQN 算法

37、,称为基于竞争结构和深度循环的 Q 网络(Dueling DRQN)算法.Dueling DQN 将原有的 DQN 算法的网络输出分成了两部分即值函数 V 和优势函数 A,在数学上表示为Q(s,a;,)=V(s;,)+A(s,a;,),(27)式中,、表示两个全连接层网络的参数.Dueling DRQN 与 DQN 算法的不同之处在于,将 DQN 中第 1 个全连接层的部件替换成了长短期记忆单元(long short-term memory,LSTM),并且把 Q 值更新分开成两个部分:一个是值函数;一个是独立于状态的动作优势函数.Dueling DRQN 算法伪代码的具体表示如下.初始化回放

38、记忆 D,可容纳数据条数为 N;利用随机权重 来初始化动作行为值函数 Q;回合从 1M:初始化 DRQN 网络中 LSTM 层的记忆细胞 cell,初始化第一个状态 s1;循环时间 1T:根据概率 选择一个随机的动作 at;否则用 at=maxat1Q(st,ht1,a;)选择动作;674(自然科学版)第 29 卷执行动作 at,并得到立即奖励值 rt和新的观测值 xt+1;将(st,at,rt,st+1)存入回放记忆库中;从记忆库中随机选择批量历史记忆,Agent 需要估计每个动作的状态值函数和状态依赖性动作优势函数;设 yi=ri,回合结束,ri+maxatQ(st+1,ht+1,a0;)

39、,回合没结束,h 为循环神经网络的输出;利用公式 L()=E(TargetQ Q(s,a;)2计算损失,并利用公式 L()=Es,a,r,st(r+maxatQ(st,at;)Q(s,a;)Q(s,a;)计算梯度;结束结束3.3Dueling DRQN-NSGA-II 强化学习问题描述本工作提出的 Dueling DRQN-NSGA-II 算法主要包括 3 个部分:基于竞争结构的深度 Q网络(Dueling DQN)、深度循环 Q 网络(DRQN)以及基于 NSGA-II 的主算法.算法流程如图 2 所示.本工作提出的 Dueling DRQN-NSGA-II 算法步骤如下.?1?1?Q?2?

40、2?图 2 基于强化学习的改进 NSGA-II 算法流程图Fig.2 Flow chart of the improved NSGA-II algorithm based on reinforcement learning第 4 期陈娟,等:基于强化学习的改进 NSGA-II 算法的城市快速路入口匝道控制675步骤 1初始化参数,设置算法相关参数:种群迭代次数 G;种群规模 N;交叉概率 Pc;变异概率 Pm;初始化回放记忆 D;可容纳数据条数 N;学习率 以及折扣率;利用随机权重 来初始化动作行为值函数 Q.步骤 2产生初始种群,计算初始种群解间距值.步骤 3对种群进行快速非支配排序和拥挤度

41、计算.步骤 4初始按照比例 0.5 拆分种群,后续按照动作拆分种群,通过双种群进化策略获得新一代种群.步骤 5判断是否达到最大迭代次数.如果是,则结束迭代;否则,执行步骤 6.计算种群的解间距,获得状态 s.步骤 6计算奖励值 R,根据 3.2 节的 Dueling DRQN 算法更新 Q 值表.步骤 7采用-贪心策略选择动作 a,更新种群比例参数,转到步骤 3.4实验4.1实验设置本工作建立的测试单入口匝道路网如图 3 所示.该路网的快速路主路包括 3 个车道,总长为 1 500 m.将该路网划分为 3 个路段,每条路段长为 500 m.在路段 2 处有一个入口匝道,匝道为单车道.本工作采用

42、 METANET 模型和 VT-Macro 模型,分别模拟路网的交通行为及计算尾气排放量与燃油消耗量,模型参数参考文献 27.主路和入口匝道的交通需求量如图 4 所示,通过模拟一个早高峰现象,设置主路及入口匝道的通行能力分别为 2 000 和1 500 veh/(kmlane).?1?3?2图 3 单匝道快速路网Fig.3 Freeway network with an on-rampRampFreeway6 0005 0004 0003 0002 0001 000Demand/(vehh1)00.51.02.03.02.51.5Time/h图 4 主路和入口匝道的交通需求量Fig.4 Tra

43、ffic demands of the mainline andthe on-ramp4.2实验结果4.2.1算法参数设置为了验证本算法的有效性,首先在 Dueling DRQN-NSGA-II 不同超参数下测试,选择最优超参数.在其他超参数都相同的条件下,分别测试了折扣因子 GAMMA 值为 0.90、0.95、0.99,以及学习率(learning rate,LR)为 0.01、0.001 和 0.000 1 时的收敛情况,并以解间距作为训练收敛的评估指标.图 5 为不同超参数下的解间距值图.可以看到:折扣因子和学习率的不同均能676(自然科学版)第 29 卷影响算法的收敛;很显然,当折扣

44、因子为 0.95,学习率为 0.001 时,种群的解间距能够快速降低并保持在较小的范围内,说明此时得到的解更加均匀.20.017.515.012.510.07.55.02.5S02575100GAMMA=0.90,LR=0.01GAMMA=0.90,LR=0.001GAMMA=0.90,LR=0.000 1GAMMA=0.95,LR=0.01GAMMA=0.95,LR=0.001GAMMA=0.95,LR=0.000 1GAMMA=0.99,LR=0.01GAMMA=0.99,LR=0.001GAMMA=0.99,LR=0.000 1Episodes15020017512550图 5 不同超参

45、数下的解间距值Fig.5 Solution spacing values under different hyperparameters此外,为了验证 Dueling DRQN-NSGA-II 算法改进部分的有效性,以 TTS、TE、TF 目标函数之和为适应度值,分别采用 NSGA-II、Q-NSGA-II、DQN-NSGA-II、Dueling DQN-NSGA-II、DRQN-NSGA-II、Dueling DRQN-NSGA-II 算法进行求解,得到如图 6 所示的算法收敛性对比图.1.000.950.900.850.800.750.70J02575100Episodes150200NS

46、GA-IIQ-NSGA-IIDQN-NSGA-IIDueling DQN-NSGA-IIDRQN-NSGA-IIDueling DRQN-NSGA-II17512550图 6 算法收敛性对比Fig.6 Comparisons of algorithm convergence由图 6 收敛曲线的对比分析可知,将强化学习方法与 NSGA-II 算法结合后,可提升算法的收敛速度;使用本工作提出的 Dueling DRQN-NSGA-II 算法,可使收敛速度更快,种群适应度值更优,并由此证明了 Dueling DRQN-NSGA-II 算法可以改善 NSGA-II 算法的收敛性.4.2.2实验结果分析

47、为了便于实施仿真和分析仿真结果,本工作假设仿真路网中驾驶员对限速的遵守率为100%,即 a=0;仿真时长取 3 h;采样周期取 10 s;控制周期取 1 min.本工作从路网主路的交通状态及匝道排队,分别对无控制、NSGA-II 控制、Q-NSGA-II 控制、DQN-NSGA-II 控制、Dueling DQN-NSGA-II 控制、DRQN-NSGA-II 控制和 Dueling DRQN-NSGA-II 控制这7 种控制算法进行对比分析,最后根据仿真结果对这 7 种控制算法的路网整体性能指标进行分析说明.(1)各控制算法下的交通状态分析.第 4 期陈娟,等:基于强化学习的改进 NSGA-

48、II 算法的城市快速路入口匝道控制677图 7 为无控制、NSGA-II 控制、Q-NSGA-II 控制、DQN-NSGA-II 控制、Dueling DQN-NSGA-II 控制、DRQN-NSGA-II 控制和 Dueling DRQN-NSGA-II 控制这 7 种控制算法下路段 2 的交通状态变量图.图 7(a)为这 7 种控制算法下路段 2 的车流量.可以看出:相对于无控制情况,另外 6 种控制算法在前 1 小时仿真时间内能够使路网中有更多的车辆通行.图 7(b)为这 7 种控制算法下路段 2 的车辆密度.可以看出:无控制情况下的车辆密度甚至会超过临界密度(35 veh/(kmlan

49、e),易造成拥堵;而在另外 6 种控制算法下则表现良好,始终将密度控制在临界密度以下.图 7(c)为这 7 种控制算法下路段 2 的车辆速度.可以看出:无控制情况下车辆速度有较大波动,而在另外 6 种控制算法下的车辆速度比较均匀,且能够以较高速度通过路段 2.7 0006 0005 0004 0003 0002 0001 000Flow/(vehh1)Dueling DRQN-NSGA-II00.51.01.5Time/h2.03.02.5(a)7?2?40302010Density/(vehkm1lane1)00.51.01.5Time/h2.03.02.5(b)7?2?80604020Sp

50、eed/(kmh1)00.51.01.5Time/h2.03.02.5(c)7?2?NSGA-IINo controlQ-NSGA-IIDQN-NSGA-IIDueling DQN-NSGA-IIDRQN-NSGA-IIDueling DRQN-NSGA-IINSGA-IINo controlQ-NSGA-IIDQN-NSGA-IIDueling DQN-NSGA-IIDRQN-NSGA-IIDueling DRQN-NSGA-IINSGA-IINo controlQ-NSGA-IIDQN-NSGA-IIDueling DQN-NSGA-IIDRQN-NSGA-II图 7 7 种控制算法下路段

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服