1、第 1 期王琛倪.基于深度学习的交通信号灯实时决策研究基于深度学习的交通信号灯实时决策研究王琛倪(武汉市公安局武昌区交通大队,武汉 430061)采用日期:2023 08 22第一作者:王琛倪(1997),男,硕士,主要从事城市交通组织方面的研究工作。摘 要:为有效缓解城市交通压力,提升交通信号控制的智慧化水平,提出一种基于图像识别并融合深度学习的多交叉口交通信号灯实时决策模型方法。采用图像识别的方法判别拥堵状态,搭建区域多交叉口交通信号灯实时决策模型,以总调度期内通行评分最高为目标函数构建深度学习网络;采用机器学习思想优化决策方案,通过预训练增加决策方案容量并缩短现场决策时间,达到实时决策的
2、目的;将研究模型应用于湖北省武汉市武昌区中山路路段,并进行模型论证和结果分析。研究结果表明,所提出的模型方法能有效解决区域多交叉口交通信号灯联合调度问题,可为交通管理者提供更合理的决策方案。关键词:城市交通;信号智慧化控制;图像识别;深度学习;机器学习中图分类号:U491 文献标识码:A 文章编号:1672 9889(2024)01 0073 07Research on Real-time Decision Making for Traffic LightsBased on Deep LearningWANG Chenni(Wuchang Traffic Brigade,Wuhan Publi
3、c Security Bureau,Wuhan 430061,China)Abstract:In order to effectively alleviate the pressure of urban traffic and improve the intelligent level of traffic signal control,a real-time decision-making model method for multi-intersection traffic lights based on image recognition fusion deep learning is
4、proposed.The image recognition method is used to identify the congestion status,a real-time decision-making mod-el for regional multi-intersection traffic lights is built,a deep learning network is constructed with the highest traffic score in the total scheduling period as the objective function,an
5、d the machine learning idea is used to optimize the decision-making scheme.The capacity of the decision-making scheme is increased through pre-training,and the on-site deci-sion-making time is shortened to achieve the purpose of real-time decision-making.The research model is applied to the Zhongsha
6、n Road Section of Wuchang District,Wuhan City,Hubei Province for model demonstration and result analysis.And the analysis results show that the model method established in the research can effectively solve the problem of joint scheduling of traffic lights at multiple intersections,and provide more
7、reasonable decision-making schemes for traffic managers.Key words:urban traffic;signal intelligent control;image recognition;deep learning;machine learning 截至 2022 年年底,我国民用汽车保有量达到3.19 亿辆1,随着汽车数量的增加,道路交通拥堵问题日益严重,各地分别从道路规划、车辆限行以及大力发展公共交通等多方面着手解决相关问题。数字交通“十四五”发展规划中明确提出了“交通设施数字感知,技术应用创新活跃”的发展目标2,利用科技赋能,
8、将信息化、智能化的技术与目前道路条件、交通治理水平相结合,能更高效地解决交通拥堵问题。充分优化交通信号的疏导作用,将大数据、人工智能等技术与交通信号处理相结合,能够有效提供交通信号调控的实时决策方案,这对于缓解交通拥堵问题具有重要意义。国内外学者针对交通信号控制问题进行了一系列研究。齐林等3利用 Anylogic 道路交通库建立车辆路网仿真模型,对交通信号灯进行配时优化设 计。胡 明 伟 等4基 于 PLC(programmable logic controller,可编程逻辑控制器)从硬件优化方第 21 卷 第 1 期2024 年 2 月现 代 交 通 技 术Modern Transport
9、ation Technology Vol.21 No.1Feb.2024现 代 交 通 技 术2024 年面对智能交通信号灯控制系统进行设计。赵纯5提出基于深度 Q-Learning(Q 学习)的交通信号灯控制方法,从理论和系统模拟角度对方法进行验证。Kong 等6将交通信号灯控制问题表述为协作多智能体强化学习问题,其中每个路口的交通信号灯可以在本地观察和有限通信的情况下由本地算法控制。何广进等7通过实地应用,验证交通状态感知与信号控制一体化融合应用能够有效提高通行效率。Zhao 等8提出一种交通强度和相位时长感知的高效强化学习算法,并将其设置在物联网平台中。何流9基于注意力机制从动态学习角度
10、研究不同路口之间信号灯控制的联动影响。Garg 等10应用强化深度学习方法,优化多个交叉路口的交通信号灯,在一定范围内能够解决多交叉路口场景下的交通拥堵问题。Joo 等11将基于强化学习的自适应交通信号控制策略与常规交通信号控制策略对比,分析二者的差异和优劣。国内外学者将大量精力投入交通信号的算法控制和理论模型研究中12,尚未深入研究如何利用现有道路条件提出实时决策方案等问题,这导致预先生成的信号控制方案无法有效、自主地适应不断变化的交通环境。同时,对于只面向单一交叉路口的优化算法来说,其决策本身就有一定的局限性,仍然无法有效缓解区域性拥堵问题。本研究基于图像识别提出一种人工智能决策模型,旨在
11、保持现有道路条件的基础上,提供交通信号灯实时决策方案,并以湖北省武汉市武昌区中山路路段的交通信号灯为研究对象,通过分析模型计算结果,验证基于图像识别并融合深度学习的多交叉口交通信号灯实时决策模型具有合理性。该模型方法的优势为:自适性强,利用道路交叉口现有的高清摄像头实时收集车辆拥堵信息,并通过图像识别将道路信息作为输入模型的参数内容,有利于方法的实施与推广;实用性强,模型提供多路口信号灯联合控制决策方案,有利于解决城市区域性拥堵问题的同时,可为日后数字孪生城市的发展提供基础支撑;时效性强,线上线下同步训练并生成决策方案集,可根据道路实际拥堵状况实时提供交通信号控制方案。1 模型架构及研究路线本
12、研究通过分析传统交通信号控制方式,针对目前存在的实际问题,提出一种基于图像识别并融合深度学习的多交叉口交通信号灯实时决策模型方法。在出现大规模交通拥堵且预设的交通信号灯控制方案无法快速缓解拥堵状况时,需要介入人工调控,该模型方法能够为管理者提供有效的实时决策方案,该模型方法由图像识别模块和深度学习决策模块两部分构成。图像识别模块用于提取输出决策所需的计算数据,通过卷积神经网络对大量交通路口车辆图片进行识别训练,并利用大规模数据集构建面向不同交通工具的图像识别分类网络,训练生成车辆数目检测和类型识别的模型。根据实际相位决策需求和模型参数设计网络通道,将识别数据存入数据库,同时将训练好的图像识别模
13、型封装打包。深度学习决策模块用于生成决策方案,并保证实时提供当前最优的交通信号灯控制方案。在构建决策方案训练网络时,依据需求调整神经网络结构划分的通道数目、数据尺寸及数据类型,确定网络损失函数和激活函数,并进行大规模训练以提供大量决策方案。网络进行阶段性强化学习时,在同一拥堵状态中对不同的决策方案进行比选,根据决策方案的评分选择当前最优方案并存入数据库,保证每一批次均保留该状态下的最高评分决策方案。在有现场提交交通信号临时决策需求时,根据打包的图像识别模块获取当前路口拥堵状态,与决策数据集中已有的状态进行匹配,提供相似度最高且评分最优的决策方案,从而实现科 学、有 效 的 实 时 决 策。模
14、型 结 构 示 意 如图 1 所示。图 1 模型结构示意2 深度神经网络图像识别模型2.1 图像模型构建本研究以优化的 YOLOv5 作为基本算法,对车辆进行阶段性目标检测,所构建的是一种专门用于目标 检 测 的 卷 积 神 经 网 络 模 型,该 模 型 将47第 1 期王琛倪.基于深度学习的交通信号灯实时决策研究YOLOv5 搭载在 PyTorch 深度学习框架上,通过构建图像识别模型实现对交通路口的数据预处理。模型分为主干结构、颈部结构和头部结构 3 部分:主干结构用来提取图像特征,由 Cnov 模块(提取特征)、C3 模块(避免梯度消失)和 SPPF 模块(池化)构成;颈部结构用来将图
15、形特征和语义特征结合,从而提供更为完整的特征信息;头部结构用来检测和输出结果。图像识别模型构建的基本原理有:把道路图片划分为多个网格;利用卷积神经网络对目标物体进行训练,以车辆作为目标标记物,提高车辆中心所在网格的置信度;设置合理的损失函数并进行反复训练,达到识别图片中车辆及其类型的目的。考虑到模型输出时不仅要对车辆数目进行检测,还要对车辆种类进行区分,本研究在 YOLOv5 的基础上进一步优化,采用多分类任务的交叉熵损失函数作为图像识别模型的损失函数,该函数表达式如式(1)所示。Loss(x,t)=-logextjexj()=-xt+logjexj()(1)式中,x 为模型输出结果;t 为样
16、本的实际分类标签;xt为真实分类对应的预测值;j 为分类数目。2.2 图像识别训练过程本研究提出的模型方法所提供的决策方案是基于交通路口红灯相位的实时路况信息,考虑到拥堵路段红灯期间车辆处于相对静止状态,训练过程只考虑图像识别,数据集结构为纯图片结构。采用UA-DETRAC 数据集,其中训练集为 30 000 张已手动标注车辆信息的道路图片,测试集为 7 500 张道路图片。实际应用时需要将车辆种类分为 4 类,即小汽车、公共汽车、货车和其他。将数据集部署于基于 YOLOv5s 优化的图像识别模型中进行训练,模型训练网络初始参数设置如表 1 所示。表 1 模型训练网络初始参数设置学习批次批量大
17、小衰减率/%学习率/%300640.050.01 训练模型收敛后,模型车辆检测的准确率随着训练批次的增加最终稳定在 97.3%左右,损失率稳定在 0.023%左右,模型训练准确率、损失率的变化情况如图 2 所示,结果基本满足模型需求。图 2 模型训练准确率、损失率的变化情况2.3 要素提取图像识别的目的是获取实时交通状况并用于后续计算与决策分析,需要提取每一张图像识别后的特征要素,包括车道数目、逐条车道车辆数目、每台车辆类型等,图像识别特征要素示意如图 3所示。图 3 图像识别特征要素示意要素经提取存入数据库中作为决策模型的输入条件,本研究使用 MySQL 数据库建立要素提取表、方案计算表以及
18、决策方案存储表,其中本节使用的要素提取表共有 3+5N 列,分别为图片编号、车辆数目、车道数目 N、从第一车道至第 N 车道的车辆数量、小汽车数量、公共汽车数量、货车数量、其他车辆数量,以图片编号为主键,所有数据类型均为 int,每进行一次图像识别,都有一组数据存入要素提取表中。3 多交叉口交通信号灯实时决策模型在区域性拥堵问题中,一般要同时协调多个信号灯控制才能有效解决拥堵问题,本模型即面向2 个及 2 个以上的区域多交叉口交通信号灯,提供实时决策方案。3.1 决策模型基本对象设计考虑到模型计算规模和研究需要,在建模阶段的假设为:车辆均按照交通信号灯的指示合规行驶;每种类型的车辆加速度相同;
19、提供决策方案前,每个相位的红灯和绿灯时长都固定;当拥堵状况最为严重的车道完成疏通即默认该相位交57现 代 交 通 技 术2024 年通状况良好。所研究的决策规划问题,实际上是将多交叉口交通信号灯的优化决策问题概化为具有整数约束的多阶段动态规划问题。在模型设计中,将每次图像识别的结果定义为决策模型状态,着重考虑车辆排队程度、车辆拥堵状况以及信号相位等实时情况。以单个或多个信号灯的控制方案作为决策依据,基于图片识别的车流量、排队时长、车道通行时间等作为状态转移的考虑因素,设定通行评分最优为目标函数,以衡量交通信号灯决策方案的优劣,指标评定因素包括通行时间、交通流量平均延误时间、排队车辆长度等。3.
20、1.1 目标函数在每个阶段的决策开始前,由图像识别保证当前车辆拥堵状况已知,本模型的优化目标是在决策期内提供通行评分最高的交通信号灯控制决策方案,多交叉口交通信号灯在总调度期内的通行评分最高的表达式如式(2)所示。Mt(xt)=maxNtsi=1PP=1SP(Ua,t,QP,t,Va)+i(xt+1)(2)式中,Nts为多交叉口交通信号灯数目;P 为决策相位;SP为 P 相位决策评分;Ua,t为 t 时刻 a 类车辆数目;QP,t为 t 时刻 P 相位评分标准;Va为 a 类车平均速度;i(xt+1)为余留期修正量。3.1.2 当前评分函数当前评分与信号灯控制时间、来车数量、总通行时间、主干道
21、通行时间以及驾驶舒适度等因素相关,当前评分函数如式(3)所示。SP(Ua,t,QP,t,Va)=Ntsi=1PP=1ki,PLNts+Cc=1ut,cLctr,i,P+tg,i,P()Nj=1QP,t(3)式中,ki,P为 i 交叉口信号灯在 P 决策情况下的归化系数,同一交叉口各决策归化系数之和为 1;LNts为决策过程中各交叉口之间的固定距离,以实际情况为准;C 为车辆分类数目,本模型将车辆分为4 类;ut,c为 c 类车在 t 时段的数量,由图像识别模块确定;Lc为 c 类车的平均长度;tr,i,P、tg,i,P为 i 交叉口信号灯在 P 决策情况下红灯和绿灯的时长;QP,t为 t 时段
22、 P 决策下的权重系数,t 时段所有决策权重系数之和为 1。3.1.3 约束条件红灯、绿灯的时长约束公式如式(4)所示。ti,t,min tg,i,t、tr,i,t ti,t,max(4)灯色切换周期约束公式如式(5)所示。tr,i,t+tg,i,t Tmax(5)车流量约束公式如式(6)所示。UP,t UP,max(6)信号灯决策数目约束公式如式(7)所示。1 Ni NAll(7)3.2 网络训练策略为更好地训练区域多交叉口交通信号灯实时决策模型,避免出现“维数灾”问题(即状态空间的大小随着特征数量的增加而发生指数级的增长),通过 PyTorch 构建结构为3 个卷积层、2 个池化层和3 个
23、全连接层的神经网络,利用深度强化学习对目标函数进行求解,提供交通信号灯决策方案。深度神经网络算法的实现有较为规范的流程,根据目标函数和约束条件进行模型构建和训练,其中模型输入数据及输出数据的设计如下。输入数据:神经网络输入层数据为 MN 的 S通道矩阵,每个通道反映一个交叉路口车辆的实际情况,MN 表示 M 个相位与 N 个车道数据一一对应。输出数据:神经网络输出层联合各节点,通过卷积网络后的特征可映射输出,所研究的决策网络训练模型的输出层为决策方案过程。3.3 提供实时决策方案本模型利用强化学习突出的择优特点,通过强化学习思想提升决策网络效能,具体实现步骤为:基于 PyTorch 构建标准深
24、度神经网络,根据预设的历史决策数据以及采集的实时图片信息,提供大量交通信号灯决策方案;利用同类抽样法,对同一个批次面临拥堵状态相同的决策方案进行强化学习,将评分高的决策方案存储在数据库的决策方案存储表中,并重复步骤,继续提供其他状态下的决策方案;不断进行神经网络训练和强化学习,扩展决策方案存储表,随着数据和决策的不断积累,本模型在持续强化的过程中达到当前决策最优。在面临交通信号灯决策需求时,通过图像识别判明当前拥堵状态,并将当前状态与数据库中的状态进行比对,选择相似度最高的数据库状态,将其所对应的最优决策提供给系统。本模型的大规模运算均在训练阶段,而决策阶段只需利用打包的图像识别模块进行几张现
25、场图像的识别,并根据结果67第 1 期王琛倪.基于深度学习的交通信号灯实时决策研究查询数据库即可,基本可以满足实时提供决策的需求。4 实例分析4.1 实例资料研究实例为湖北省武汉市武昌区中山路路段,中山路作为进出市中心的交通要道,早晚高峰交通压力大,研究对象为中山路路段的大东门及小东门两级交通枢纽,其不仅连接武昌区、洪山区、汉阳区等行政区域,而且周边有黄鹤楼、长春观等景点,两级交通枢纽的合理联控对缓解该区域交通拥堵问题至关重要。小东门交通枢纽为十字交叉路口,大东门交通枢纽为环形交叉路口,小东门位于大东门北侧 400 m,两个交通枢纽及之间的路段为拥堵易发区域,研究实例路段区位示意如图 4 所示
26、。图 4 研究实例路段区位示意小东门交通枢纽以南北向中山路为主要疏导对象,南北向连接双向十车道,东西向连接双向五车道,常规时段共设置 3 个相位,拥堵时段增添中山路单向控制相位。大东门交通枢纽为环形交叉路口,涵盖下穿隧道和上行高架,环线内具有一定的流量消峰能力,常规设置 4 个相位,其中第三相位用来清空转盘内车辆。小东门与大东门为道路上下游关系,其中小东门出城方向的车辆,一部分直接通过下穿隧道出城,另一部分经过大东门交通枢纽周转,构成大东门驶入车辆的重要组成部分,具体车道及相位方案如图 5 所示。在常规时段以预设的相位方案为自动控制原则,早晚高峰拥堵时段需要根据实际情况调整方案。图 5 具体车
27、道及相位方案4.2 算例条件在 UA-DETRAC 数据集的基础上,增加 300 张不同时段大东门、小东门的交叉路口实景照片,将自定义数据集增添到图像识别模型训练中,使用Labelimg 工具对实景照片中的车辆进行手动标注,将 JPG 格式的照片转化为 VOC 格式并随机抽取60 张存入验证集 test.txt 文件中,另外 240 张存入train.txt 文件进行模型训练。图像识别模型训练的识别准确率如表 2 所示,其中公共汽车的识别效果最好,货车的识别效果略差。随着训练批次的增加,识别准确率均有提升,当训练批次达到 100 时,识别准确率均在 96%以上。表 2 图像识别模型训练的识别准
28、确率(%)批次小汽车公共汽车货车其他131.632.130.431.71052.453.650.151.93083.882.782.381.610097.498.796.296.5 图像识别模型训练完成后,可实时输入照片,对车辆类型和数目进行标记及识别,同时将各车道信息存入数据库。为保证模型的规范性,并尽可能提高计算速度,通过对中山路路段行驶车辆的分析,将各类车型计算参数统一化处理,车辆具体计算参数如表 3 所示,其中长度为该类车辆平均长度+车距系数,大东门至小东门路段限速为 60 km/h,货车需在低速车道行驶,其他类别车辆以电动自行车为主。采用 PyTorch 作为深度学习的底层框架,并采
29、用整数规划算法作为策略优化算法。根据评分最优的策略目标函数,使用 Python 语言完成程序,并使用 Aidaroe 软件进行交叉路口流量数据仿真。77现 代 交 通 技 术2024 年表 3 车辆具体计算参数类型长度/m加速度/(ms-2)最大速度/(kmh-1)小汽车53.060公共汽车121.060货车90.450其他21.0254.3 算例结果及分析采用 随 机 抽 样 法,从 2023 年 4 月 5 日 至2023 年 7 月 5 日随机抽取拥堵时段进行交通模拟,以其实际交通状况作为模型对照,使用所研究的模型进行 300 批次训练的图像识别模拟训练,以及1 万次训练的神经网络学习训
30、练,通过训练回合次数、可解释方差和测试标准差等训练数据进行收敛判断,获得决策方案。决策方案结果对比如表 4 所示,其所展示的是一次拥堵时段内模型训练所提供的决策方案,其中预设方案为实际情况下交通信号灯的现场方案并以此作为对照,手控方案是在面临当前拥堵状况下,为更高效地缓解主干道的交通压力,交通警察现场进行临时手控所采取的交通信号灯控制方案。表 4 展示了所研究的模型在面临相应拥堵条件下,训练出的 3 个决策方案的结果,3 个决策方案都在一定程度上优于预设方案和手控方案,其中决策 C方案在饱和度上与预设方案相比,分别降低了30.77%和 25.53%;在延误上与预设方案相比,分别降低了 30.0
31、6%和 56.70%。同时,在决策 C 方案中,大东门交通枢纽的服务水平评价等级上升至 E级,各项结果分析均优于其他方案,表明在面临该类拥堵状况下,调用模型提供的决策 C 方案,可以更好地缓解交通拥堵问题。表 4 决策方案结果对比方案X 信号周期/sD 信号周期/sX 饱和度D 饱和度X 延误/sD 延误/sX 服务水平评价等级D 服务水平评价等级预设121931.170.94259.5183.6FF手控135981.350.82357.3138.0FF决策 A1951060.810.80199.4131.5FF决策 B1281030.920.77230.8118.1FF决策 C1271060
32、.810.70181.579.5FE注:“X”为小东门交通枢纽;“D”为大东门交通枢纽。信号方案排队长度评价分析指标统计如图 6 所示,大东门交通枢纽作为环形路口,自身存在一定的车辆承载能力,同时包含下穿隧道和上通高架,故排队状况优于小东门交通枢纽。在主干道中山路方向上,3 个模型决策方案都能很好地缩短车辆排队长度,决策 C 方案在 9 个方向上的排堵能力均优于其他决策方案。在中山路出城直右方向上,除决策 C 方案外的其他方案排队长度均为400 m,表示排队车辆已经从大东门交叉路口排到小东门交叉路口,此时体现了二级交通信号灯联合调度的必要性,该情况下的决策策略是通过两个交通信号灯联调,尽可能地
33、增加出城车辆,缓解区域拥堵。而运用决策 C 方案所提供的策略在同样情况下,该路口的拥堵长度仅为 360 m,仍能保证一部分车道的承载余量。信号方案延误评价分析指标统计如图 7 所示,受限于交通枢纽本身的实际情况,小东门延误值普遍高于大东门相应值,其中民主路左转方向受困于车道数目,延误值较高,决策 A 方案在解决小东门各交叉路口延误问题上效果最好,但考虑到与大东门的联合调控,综合性上决策 C 方案更为合适。图 6 信号方案排队长度评价分析指标统计图 7 信号方案延误评价分析指标统计将研究模型应用于中山路路段的大东门和小87第 1 期王琛倪.基于深度学习的交通信号灯实时决策研究东门交通枢纽,在区域
34、本身存在手控需求的前提下进行模拟试验,分析结果表明,经过训练的模型能提供科学合理的决策方案,且在延误、饱和度、服务水平评价等方面都有不同程度的改善。随着预训练的加入以及决策库规模的增加,模型能够具备实时决策能力,在判明情况的同时可提供当前最优决策方案,以缓解交通拥堵问题。5 结语本研究提出一种基于图像识别并融合深度学习的模型方法,以解决区域多交叉口交通信号灯实时决策问题。从深度神经网络图像识别模型结构、多交叉口交通信号灯决策模型结构、现实面临问题等方面展开深入研究,所提方法的优势与特点如下。(1)轻量化,利用卷积神经网络在线识别并判断车流量,将其作为模型的数据来源以便计算与分析,使用现有摄像头
35、拍摄的方式,有利于该方法的推广。(2)实时性,该模型方法通过预训练建立决策集的方式缩短决策时间,利用强化学习思路选出当前最优方案,决策集容量的增加,可满足对道路图像识别的同时提供实时决策方案的需要。(3)实用性,该模型方法考虑到区域多交叉口交通信号灯的联合调控,对于缓解现实交通拥堵问题具有重要意义。本研究所提出的模型可对 2 个交叉路口、8 个相位的实际情况进行模拟,在后续的研究中将扩大场景使用范围、提升数据容量、升级计算硬件平台配置,采取多步和异步的训练方式提升模型的训练速度,进一步优化网络架构和决策质量,从而更好地满足数字孪生城市建设和智慧交管的工作需要。参考文献 1 中华人民共和国国家统
36、计局.中华人民共和国 2022 年国民经济和社会发展统计公报R/OL.(20230228)202306 19.http: 中华人民共和国交通运输部.交通运输部关于印发数字交通“十四五”发展规划的通知EB/OL.(202112 22)2023 06 19.https: 齐林,邵康.基于 Anylogic 的交通信号灯配时优化设计J.电子测试,2022(19):56 58.4 胡明伟,吕品,蔡金梅.基于 PLC 的智能交通信号灯控制系统设计J.现代电子技术,2022,45(18):26 30.5 赵纯.基于深度 Q-Learning 的交通信号灯控制配时优化研究D.安庆:安庆师范大学,2022.6
37、 KONG Y,CONG S.NCCLight:neighborhood cogni-tive consistency for traffic signal control J.Sensors and materials,2022,34(2):545 562.7 何广进,徐新东,树爱兵.城市交通状态感知与信号控制一体化融合应用研究J.中国人民公安大学学报(自然科学版),2023,29(1):77 82.8 ZHAO W,YE Y,DING J,et al.IPDALight:intensity-and phase duration-aware traffic signal control ba
38、sed on rein-forcement learningJ.Journal of systems architecture,2021,123:102374.9 何流.强化学习与注意力机制融合的信号灯控制方法研究D.武汉:武汉大学,2022.10 GARG D,CHLI M,VOGIATZIS G.Multi-agent deep rein-forcement learning for traffic optimization through multiple road intersections using live camera feedC2020 IEEE 23rd International Conference on Intelligent Transportation Systems(ITSC).New York:IEEE,2020:1 8.11 JOO H,AHMED S H,LIM Y.Traffic signal control for smart cities using reinforcement learningJ.Comput-er communications,2022,154(15):324 330.12 王兆艳,乔枫,孙昊琛,等.交通信号控制方法综述J.现代交通技术,2019,16(3):75 78.(责任编辑 董雅芸)97