基于多Agent技术的地铁轨道交通信号智能控制方法.pdf

资源描述

1、中国新技术新产品2023 NO.9（上）-8-高新技术我国城市化和汽车化进程加速，导致交通拥堵、交通事故、环境污染和能源短缺等问题日趋严重。在地铁轨道交通体系中，需要对各种信号进行控制，以保障列车安全、高效地行驶1。地铁轨道交通信号智能控制是利用先进的信息技术手段对地铁列车进行精细化运行控制和调度，以提高地铁运行效率、安全性和服务质量2。其目标是通过合理地调整地铁轨道交通信号来优化交通流量分配、缓解交通拥堵、提高交通运行效率、降低发生交通事故的概率以及提高交通安全性3。为了进一步实现对地铁轨道交通信号的智能化控制，该文结合多 Agent 技术对地铁轨道交通信号智能控制方法进行研究。Age

2、nt 技术可以对交通流量、路况以及车速等数据进行实时监测和分析，快速响应交通状况的变化。该技术还可以根据不同环境和条件进行自我调整和优化，以适应不同的交通流量和路况，从而提高控制效率和精度。该技术具有快速响应和实时处理的特点，可以实现对地铁轨道交通信号控制的实时监测和控制功能，从而提高运行效率和安全性4。1 设置地铁轨道交通信号控制器在地铁轨道交通信号智能控制中，需要根据列车的位置、速度和状态等信息实时监测路段的情况，以便控制信号机的开关。同时，还需要设置适当的信号间距和信号灯颜色等参数，以保障列车行驶的安全性和高效性。在地铁轨道交通中，信号控制器通常被安装在信号机箱内（该机箱通常被安装在路轨

3、附近或者站台的下方）。信号控制器的安装位置需要考虑信号控制器与信号机之间的距离、信号控制器所需的电力和通信设施等因素。信号控制器会分布在轨道线路的各个关键位置，例如车站、隧道入口以及信号区间等位置（这些位置通常是列车行驶的关键节点）。交通信号控制器示意图如图 1 所示。在控制器中，各个模块的基本功能如下：1）感知模块。感知模块负责获取并监测列车的实时位置、速度和状态等关键信息，并将其传输给控制模块进行处理和分析。2）控制模块。控制模块是信号控制器的核心部分，会根据实时的列车位置和路段情况计算最优的信号控制方案，并给信号机发送控制命令。3）通信模块。通信模块负责与其他设备或者控制中心进行通信，以

4、实现信息交换和下发控制命令等功能，确保实时共享和协调数据。4）存储模块。存储模块可以存储历史数据和控制参数等信息，以便后续的分析和优化5。该模块会持久存储感知模块获取的数据、控制模块计算的控制方案和其他相关信息。基于多Agent技术的地铁轨道交通信号智能控制方法孙剑（北京地铁通号分公司，北京 100082）摘要：针对现有控制方法控制地铁轨道交通信号时存在平均等待时间过长（影响地铁轨道交通网整体运行效率）的问题，该文引入多 Agent 技术对地铁轨道交通信号智能控制方法进行设计。首先，明确地铁轨道交通信号控制器的设置要求。其次，结合 Agent 技术完成地铁轨道交通信号控制算法计算。最后，将缩

5、短等待时间作为控制目标，智能协调控制多个 Agent 的交通信号。通过对比试验证明，新的控制方法可以有效缩短平均等待时间，还可以提高地铁轨道交通的运行效率。关键词：多 Agent 技术；交通信号；智能控制；地铁轨道中图分类号：TP13 文献标志码：A图 1 交通信号控制器示意图控制模块存储模块通信模块感知模块CPU中国新技术新产品2023 NO.9（上）-9-高新技术由于地铁轨道交通流的动态时变性较强且具有一定的随机性和不确定性，因此应用的控制器不仅需要具备对状态的识别功能，而且需要具备自寻优的控制策略和对外界环境的适应能力6。控制器在应用过程中需要不断学习，其实现过程如下：假设决策时间

6、步长为 k，地铁轨道交通环境状态为 sk。通常情况下，地铁轨道交通状态包括的交通信息为绿灯已经持续的时间 Tr、绿灯相位的交通流量 F 以及各个红灯相位当中排队长度最大值 L。根据上述假设，确定地铁轨道交通环境的状态集合如公式（1）所示。sk=Trk,Fk,Lk （1）式中：Trk为决策时间步长 k 下交通信息为绿灯已经持续的时间；Fk为决策时间步长 k 下绿灯相位的交通流量；Lk为决策时间步长 k 下各个红灯相位当中排队长度最大值。再假设控制器针对状态 sk所选择的行为为 ak，ak的设定分为 2 种：1）将通行权切换为下一个相位。2）保持当前的相位通行权到下一个时刻。为了防止某个阶段发生意

7、外或者某个阶段的通行权限无限扩大，该文提出了一种基于经验的方法，针对各个阶段分别设定最短的绿灯时间和最长的绿灯时间。在控制器学习的过程中，惩罚函数是修改策略的基础条件，惩罚函数的选择如公式（2）所示。r s aPLLLPLLLraragaga,()=+（2）式中：r（s，a）为控制器的惩罚函数；Pr和 Pg为 2 个权重因子；La为等待时间的警戒值；Lr为等待时间的最大值；Lg为等待时间。在控制器学习的过程中，每个 Agent 会根据当前的环境状态和感知的信息选择最优的行为来控制信号机。控制器学习过程中的策略更新依赖于奖励和惩罚信号，通过与环境的交互不断调整和优化控制策略。这样，控制器可以逐渐

8、学习最优的控制策略，以缩短车辆等待时间、提高交通效率。2 基于 Agent 技术的地铁轨道交通信号控制算法计算在完成对地铁轨道交通信号控制器的设置工作后，结合Agent 技术对地铁轨道交通信号控制算法进行计算。在地铁轨道交通系统中，信号控制算法的计算至关重要，控制算法的设计和优化直接影响地铁运行的安全性、效率和乘客的出行体验。对控制算法进行计算，可以实现智能化的信号控制功能，达到提高交通系统运行效率、缓解交通拥堵以及优化列车行进速度和间隔的目标。对控制算法进行计算还可以帮助确定最优的信号控制策略。通过分析和建模地铁轨道交通系统的特点和需求，结合实时的交通数据和列车状态信息，可以利用计算方法来推

9、导最佳的信号控制方案。这些方案可以基于多Agent技术使各个信号机之间相互协调、协同工作，以最大程度地提高交通系统的整体效能。首先，需要对车辆的信号状态进行描述，假设第 k 个相位的信号所显示的状态为 k，针对不同状态设置不同的 k取值，如公式（3）所示。?kkm?0121 2,（3）当第 k 相位为绿灯时，k取值为 0；当第 k 相位为红灯时，k取值为 1；当第 k 相位为黄灯时，k取值为 2。其次，将信号显示状态与车辆到达时的状态组合并将其作为交通状态，如公式（4）所示。pi=(s，s1，s2，sm)（4）式中：pi为地铁轨道交通状态；si为状态类别，i=，1，2，m。在该基础上，提出了一

10、种基于经验的方法，并将其与实际情况相结合，具有很强的主观性。结合实际情况，进一步提出了地铁轨道交通交通信号控制规则体系7。针对不同的地铁轨道交通状况，应该生成 n 个相应的规则。综上所述，该文提出了一种基于时间序列的地铁轨道交通信号控制方法。为了在控制过程中实现对停车延迟的统计功能，假设考察的时间由个长度为 s 的时间段所构成，在第 i 个时间段中，s 内一直处于静止状态的车辆为 Csi，从静止状态转变为行驶状态的车辆为 Cmi，从行驶状态转变为静止状态的车辆为 Cni，那么在 s 内总停车延迟 Ti如公式（5）所示。1122isiminiTCCC=+（5）其中，Csi、Cmi和 Cni的取

11、值均为自然数。对地铁轨道交通信号的控制目标是通过调整信号尽可能地缩短停车延误和等待延误的时间，属于延误最小化问题，因此，确定地铁轨道交通信号控制算法函数如公式（6）所示。1miniiTTG=（6）式中：minT 为延误最小化目标函数值。在控制的过程中，每间隔 s 的时间就需要对地铁轨道交通状态进行1 次判定。根据状态和相应的控制规则采取控制行为。在地铁轨道交通信号控制算法中，引入强化学习，Agent 可以感知其环境的不同状态，并且可以执行不同的动作。Agent 学习寻优的过程可以通过马尔科夫决策过程最优策略问题描述，Agent 获得的状态转换评价值即为回报值。当回报值最大时，停止 Agent

12、学习，并将此时得到的函数作为地铁轨道交通信号控制函数。3 多 Agent 的交通信号智能协调控制在确定地铁轨道交通信号控制算法后，为了协调多个Agent，需要确保各个 Agent 之间可以进行信息传递。在交通信号控制 Agent 控制的轨道上，因某种原因（例如发生设备故障，导致轨道拥堵）需要对轨道进行协调，以实现快速疏导的目标。该协同要求是根据一个特定的邻近的交通控制智能体提出的，是一种直接的一对一通信。当交通控制智能体控制的信号灯颜色发生变化时，需要向其附近的所有地铁轨道交通信号智能控制器发出相应的信息，从而使其做出相应的决策8。由于各个 Agent 感知到的状态是有限的，因此可以采用概率统

13、计的方式协调多个 Agent。根据公式（7）计算某一个 Agent 对另一个 Agent 处于某种状态时所采取的动作信任度。Beli（x，j，akj）=Nk/Nkj（7）式中：Beli（x，j，akj）为第 i 个 Agent 对第 j 个 Agent 在 x状态下所采取的动作 aj的信任度；Nkj为 Dirichlet 分布的参数。中国新技术新产品2023 NO.9（上）-10-高新技术根据相邻信号智能控制器控制 Agent 在当前状态下将要采取的动作信任度，从而给出最优的反应策略。在多个 Agent 的交通信号智能协调控制中，除了确保各个 Agent 之间的信息传递和动作协调外，还需

14、要考虑地铁轨道交通网的整体利益，使其稳定地运行。为了实现这一目标，在控制过程中引入了博弈论和经验知识相结合的方法。博弈论是一种分析决策制约条件和结果的数学工具，可以解决多个 Agent 之间的冲突和协调问题。在地铁轨道交通信号智能控制中，当各个信号智能控制 Agent 处于相邻位置时，它们的决策会相互影响。通过博弈论的方法可以确定各个 Agent 在不同状态下采取的最佳动作，使整体的控制效果达到最佳。通过计算某一个 Agent 对另一个Agent 处于某种状态时所采取的动作的信任度，可以给出最优的反应策略。这种基于博弈论的协调方法能够有效平衡各个 Agent 之间的利益，提高整体交通系统的效率

15、和稳定性。除了博弈论外，经验知识也被融入多个 Agent 的交通信号智能协调控制中。经验知识是基于历史数据和实践经验总结出的规则和策略，可以调节协调过程中发生的状况。例如在地铁轨道交通信号智能控制过程中，当控制区域内的线路都处在交通高峰时，交通信号控制 Agent 就不会再以博弈论为基础进行协调，而是改为以管理 Agent 为基础，通过管理 Agent 的人机界面进行协调控制。综上所述，通过多个 Agent 相互之间的协调控制确保最终控制效果为最理想状态下的控制效果，同时也可以确保实现等待时间最短的控制效果。该方法可以有效提高交通系统的效率，缓解交通拥堵和延误情况，为乘客提供更便捷、更舒适的出

16、行体验。4 对比试验该文结合多 Agent 技术提出了一种全新的地铁轨道交通信号智能控制方法，为了验证该控制方法的可行性，选择将基于有序样本聚类的控制方法作为对照 I 组，将基于电子信息技术的控制方法作为对照 II 组，将该文提出的基于多 Agent 技术的控制方法作为试验组。利用 3 种控制方法对相同试验对象进行地铁轨道交通信号控制。以某城市范围内的某一地铁轨道交通作为试验研究对象，为了对比3 种方法的控制效果，选择将平均车辆等待时间作为评价指标。在试验过程中，按照以下内容设置相同的试验条件：将信号的转换周期设置为 120 s，将黄灯亮起的持续时间设置为 5 s。在 50 次控制中，记录每种

17、控制方法应用下的平均车辆等待时间，结果记录见表 1。对表 1 中的试验数据进行分析可知，试验组每 10 次控制中平均等待时间均控制在65.00 s70.00 s，当控制次数从0 次 10 次增至 40 次 50 次时，试验组的平均等待时间逐渐缩短（68.25 s65.63 s）。表明试验组的控制方法在缩短车辆等待时间方面具有一定效果。对照 I 组和对照 II 组在整个试验过程中的平均等待时间都较长，并且没有明显缩短的趋势。对照 I 组的平均等待时间为 125.26 s131.24 s，对照 II 组的平均等待时间为 124.25 s135.26 s，平均等待时间均超过 120.00 s，当控制

18、次数为 30 次 40 次时，对照组 II 的平均等待时间达到 135.26 s，这表明对照 I 组和对照II 组在缩短车辆等待时间方面效果比试验组差。对照 I 组和对照 II 组控制方法不合理，延长了车辆等待时间，对地铁轨道交通运行效率有一定负面影响，而该文提出的基于多 Agent 技术的控制方法能够有效缩短等待时间，提高地铁轨道交通运行效率，从而有效控制地铁轨道交通信号。5 结语综上所述，该文将多 Agent 技术应用到对地铁轨道交通信号的控制中，提出了一种全新的智能控制方法。通过对比试验验证了该控制方法的有效性。通过对比得出，该文提出的控制方法可以有效缩短等待时间，从而提高地铁轨道交通的

19、运行效率。参考文献1 朱华，李良艳.基于有序样本聚类的大城市主干道绿波交通信号控制方法 J.智能建筑与智慧城市，2023（5）：161-163.2 张福生.基于高精度交通数据的交通信号控制评价方法J.道路交通管理，2023（4）：44-47.3 王拓辉.基于通信的城市轨道交通信号与控制系统研究J.时代汽车，2023（8）：186-188.4 项晓薇.平陆运河与市政路网区域交通信号协同控制研究 J.交通世界，2023（9）：8-11.5 钟方.电子信息技术在智能交通信号控制系统中的有效运用 J.软件，2023，44（3）：176-178.6 冯斌，徐建闽，林永杰.基于关键本征模态函数的道路交通信

20、号控制时段划分方法 J.交通信息与安全，2023，41（1）：75-84.7 戴芬良，金开玥，郑禄林，等.金属矿山井下斜坡道交通信号自动控制系统研发与应用 J.黄金，2023，44（1）：38-41.8 赵涵.基于电子信息技术在智能交通信号控制系统中的研究与应用 J.石河子科技，2022（3）：12-13.表 1 3 种控制方法控制效果对比表控制次数/次试验组平均等待时间/s对照I组平均等待时间/s对照II组平均等待时间/s01068.25125.26124.25102069.52126.25126.52203068.25128.26130.15304067.25130.25135.26405065.63131.24134.25

展开阅读全文