收藏 分销(赏)

基于孤立森林算法的轨道交通...时客流告警阈值设定方法研究_王月玥.pdf

上传人:自信****多点 文档编号:275492 上传时间:2023-06-26 格式:PDF 页数:6 大小:1.38MB
下载 相关 举报
基于孤立森林算法的轨道交通...时客流告警阈值设定方法研究_王月玥.pdf_第1页
第1页 / 共6页
基于孤立森林算法的轨道交通...时客流告警阈值设定方法研究_王月玥.pdf_第2页
第2页 / 共6页
基于孤立森林算法的轨道交通...时客流告警阈值设定方法研究_王月玥.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、都市快轨交通第 36 卷 第 3 期 2023 年 6 月 收稿日期:2022-03-28 修回日期:2022-07-31 第一作者:王月玥,女,硕士,高级工程师,从事交通运输工程方向工作, 基金项目:北京市基础设施投资有限公司 2020 年度科研项目(2020-ZH-04)引用格式:王月玥,孙琦,钟厚岳.基于孤立森林算法的轨道交通实时客流告警阈值设定方法研究J.都市快轨交通,2023,36(3):71-76.WANG Yueyue,SUN Qi,ZHONG Houyue.Setting method of rail transit real-time passenger flow alarm

2、 threshold based on isolation forest algorithmJ.Urban rapid rail transit,2023,36(3):71-76.71学术探讨URBAN RAPID RAIL TRANSITdoi:10.3969/j.issn.1672-6073.2023.03.012 基于孤立森林算法的轨道交通实时客流告警阈值设定方法研究 王月玥,孙 琦,钟厚岳(北京轨道交通路网管理有限公司,北京 100101)摘 要:在轨道交通客流实时监视业务中,车站实时客流告警的目的是帮助业务人员快速、准确地定位到网络中可能存在大客流风险的车站,达到提示预警的作用。如果

3、告警阈值偏小,则告警频率会增加,使业务人员无法准确判断最需要关注的大客流风险车站,并对告警提示产生麻木心态;如果报警阈值偏大,则车站的突发大客流风险有可能未被监测到,从而无法及时采取应对措施。因此,需要提出一套科学、合理、适用性强的告警阈值。研究利用传统统计学方法和基于孤立森林的异常检测方法训练设定告警阈值,并通过应用效果测试验证对两种算法进行比选,确认利用孤立森林异常值判别思路训练的告警阈值更满足业务目标。研究成果按照“一站一方案”“一个时段一方案”的原则,为北京市轨道交通指挥中心路网调度指挥平台提供车站实时进站量与出站量告警阈值,支撑客流实时监视与大客流风险预警。关键词:轨道交通;孤立森林

4、;告警阈值;客流监视 中图分类号:U231 文献标志码:A 文章编号:1672-6073(2023)03-0071-06 Setting Method of Rail Transit Real-time Passenger Flow Alarm Threshold Based on Isolation Forest Algorithm WANG Yueyue,SUN Qi,ZHONG Houyue(Beijing Metro Network Control Center,Beijing 100101)Abstract:In the rail transit real-time passenge

5、r flow monitoring business,a real-time station passenger flow alarm assists operators in quickly and accurately locating stations with potential significant passenger flow risks,enabling early warning.If the alarm threshold is too low,then the alarm frequency increases,making it difficult for the op

6、erator to accurately identify high-risk stations requiring attention and potentially leading to alarm fatigue.Conversely,if the alarm threshold is too high,then the risk of sudden large passenger flow at the station may go unnoticed,and timely responses may not be possible.Therefore,the primary obje

7、ctive of this study was to propose a set of scientific,reasonable,and applicable alarm thresholds.This study employed traditional statistical methods and isolation forest methods based on machine learning to train and set the alarm threshold.Furthermore,an application-effect test was used to compare

8、 the two algorithms.Training the outliers in the isolation forest ensures better alignment of the alarm threshold with business goals.Adhering to the principle of“one station,one plan”and“one time period,one plan”,this study provides the alarm threshold for real-time inbound and outbound volumes at

9、stations for the Beijing Metro Network Control Center(BMNCC)dispatching emergency command,passenger guidance,and information service platform.This supports real-time passenger flow monitoring and risk early warning for 都市快轨交通第 36 卷 第 3 期 2023 年 6 月 72 URBAN RAPID RAIL TRANSIT large passenger flow.Ke

10、ywords:rail transit;Isolation Forest;alarm threshold;passenger flow monitoring 1 研究背景 轨道交通进站量与出站量客流实时监视是辅助网络调度员掌握全网客流状态的重要手段之一。网络中经常会因未知的大型集会、恶劣天气等因素造成短时、局部的突发大客流风险,根据精细化管控的要求,客流实时监视的最小空间粒度需要细化到车站,最小时间粒度可到 5 min,因此,如何帮助调度员区别常态客流风险车站,快速、准确地定位到网络中可能存在客流异常的风险车站以起到提示预警的作用,是设定进站量与出站量告警阈值的主要意义1-2。基于 AFC 实

11、时进、出站刷卡数据进行大客流风险识别3,如果设定的告警阈值偏小,则使得出现告警的时段或车站增加,以至于调度人员无法准确判断最需要关注的客流异常风险车站,并对告警提示产生麻木心态;如果设定的告警阈值偏大,则车站的突发大客流风险有可能未被监测到,从而无法及时采取应对措施。因此,提出一套科学、合理、适用性强的实时客流告警阈值方法,是本文的主要研究目的。2 客流告警阈值算法说明 阈值的设定不能直接采用车站历史上同时段的最大值,需要对历史样本数据进行异常值判别后,选择正常范围内的历史样本进行拟合标定。对于阈值计算方法,提出传统的统计学方法和基于孤立森林的异常检测算法,具体介绍每种算法的基本原理、计算步骤

12、和主要参数。2.1 正态分布和箱线法相结合的传统统计学算法 2.1.1 算法的基本原理 正态分布模型在很多领域被应用于阈值的设定4-6,本文针对车站历史分时进站量与出站量样本数据,用正态分布拟合法和箱线法计算得出包含分布区间和对应的概率,按业务需要定义正常的概率范围,从而确定正常概率下的分布区间,并将该分布区间作为阈值的上下限。该算法所需设定的参数包括正态分布置信水平,通常为 99.5%。2.1.2 算法步骤 步骤 1:对同类(如同一日期类型下的同一时段)样本数据进行正态分布拟合,确定置信区间,找到对应置信区间下的数值分布区间,即为阈值的上限和下限;步骤 2:对于进行步骤 1 时不满足正态分布

13、的数组样本,则先按照一定比例过滤样本中少量的极大值和极小值,然后用剩余样本数据进行正态分布拟合,如满足,则输出对应置信区间下的数值分布区间;步骤 3:对于步骤 2 处理后仍不满足正态分布拟合的数组样本,则使用四分位距的箱线估算法设定分布区间。2.2 基于孤立森林算法的异常检测 2.2.1 算法的基本原理 从统计学角度来看,在数据空间里,若一个区域内只有分布稀疏的点,则表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的。这些异常点可以定义为“容易被孤立的离群点”,其特征是分布稀疏且距离高密度群体较远。孤立森林算法的目标就是检测出这些离群点。从历史样本中剔除检测到的异常点,余下数据集

14、合的最大值和最小值即为正常数据范围,可以作为阈值使用。孤立森林(isolation forest)是一种适用于连续数据的无监督异常检测方法,即不需要用有标记的样本来训练,但样本特征需要是连续的7。孤立森林算法使用了一套非常高效的策略以查找孤立点,该方法近年来也已在多个领域被应用8-9。孤立森林的算法原理(见图 1)为:用一个随机超平面对一个数据空间进行切割,切一次可以生成两个子空间(也可以想象用刀切蛋糕)。然后,继续随机选取超平面切割第一步得到的两个子空间,以此循环下去,直到每个子空间里面只包含一个数据点为止。对于密度较高的簇,需切割多次才会使得每个点均单独存在于一个子空间内;对于分布稀疏的点

15、,经过较少次切割即可使得每个点均单独存在于一个子空间内,而这些分布稀疏的点就是异常点。图 1 孤立森林异常检测算法原理示意 Figure 1 Schematic of isolation forest anomaly detection algorithm 基于孤立森林算法的轨道交通实时客流告警阈值设定方法研究 73URBAN RAPID RAIL TRANSIT2.2.2 算法步骤 算法分为训练阶段和阈值转换两个阶段,具体如下。1)训练阶段。对输入的样本数据集进行训练,得到正常数据和非正常数据之间的“边界”函数(类似统计学算法得到的区间)或称为检测器。但该检测器是非线性且非显示的,无法直观表

16、示,因此在进行异常判断时可将数据输入检测器,通过检测器直接判定数据是否异常。2)阈值转化。从样本数据集中剔除用检测器检测出的所有异常点,剩余数据集合中的最大值和最小值即为正常数据范围,可以作为阈值使用。基于统计学的算法原理,输出的阈值范围是根据正态分布理论推算出的理论区间,与历史的正常数据区间有一定的差异,因此可能出现以下 2 类问题:输出的区间上限比正常数据的区间上限大,导致应当给予关注的、历史未出现过的最大值被忽略;输出的区间上限比正常数据的区间上限小,导致在历史数据中并没有明显离群现象的点被当作异常。2.3 算法比选 针对上述 2 类问题,以北京地铁 1 号线古城站在2019年正常工作日

17、的2个时间片段内客流阈值计算为例,对比统计学方法和孤立森林方法输出的阈值范围合理性。1)案例1:图2 展示了古城站在2019 年正常工作日08:2008:25 的进站量数据和对应散点图,表 1 为 2 种算法得出的古城站在08:2008:25 的进站量阈值区间。从表1 中可以看出,虽然两种方法均检测出了3 个同样的异常样本,但是统计学输出的阈值区间是298,497,孤立森林算法输出的阈值区间是323,480。因此,如果实际中古城站某个正常工作日 8:208:25 的实时进站量是 495 人次,那么按统计学算法输出的阈值上限来检测的话,该值位于正常范围内,但按孤立森林算法输出的阈值上限来检测的话

18、,该值则为异常值。根据对历史样本数据排序的结果,480 是历史数据正常范围的上限,495 比这个上限高出较多,需要被判断为异常告警而被关注。所以从这个角度看,孤立森林算法输出的阈值区间更合理。2)案例 2:图 3 展示了古城站在 2019 年正常工作日 15:3015:35 的进站量数据和对应散点图,表 2为 2 种算法得出的古城站在 15:3015:35 的进站量阈值区间。图 2 古城站 2019 年正常工作日 08:2008:25 的进站量 Figure 2 Inbound volume of Gucheng station in 2019 from 08:20 to 08:25 on w

19、eekdays 表 1 2 种算法的案例一阈值对比 Table 1 Comparison of thresholds between the two algorithms in case 1 统计学方法 置信区间阈值范围拟合应用的样本量 检测出异常样本量 检测出异常样本 99.5%298,497213 3 2019-10-29:0,2019-11-27:517,2019-12-18:516孤立森林算法 正常数据范围 检测出异常样本量 检测出异常样本 323,480 3 2019-10-29:0,2019-11-27:517,2019-12-18:516 从表 2 可以看出,统计学输出的阈值区间

20、是22,76,孤立森林算法输出的阈值区间是29,80。根据对历史样本数据排序的结果,77、78、80 这 3 个点在历史数据上看并没有明显的离群现象,若应用统计学方法输出的阈值上限,上述值均将被判为异常。所以从这个角度看,孤立森林算法输出的阈值区间更合理。都市快轨交通第 36 卷 第 3 期 2023 年 6 月 74 URBAN RAPID RAIL TRANSIT 图 3 古城站 2019 年正常工作日 15:3015:35 的进站量 Figure 3 Inbound volume of Gucheng Station in 2019 from 15:30 to 15:35 on week

21、days 表 2 两种算法的案例 2 阈值对比 Table 2 Comparison of thresholds between the two algorithms in case 2 统计学方法 置信 区间 阈值范围 拟合应用的样本量 检测出异常样本量 检测出异常样本 99.5%22,76 213 5 2019-03-08:80,2019-03-26:78,2019-10-56:85,2019-10-29:0,2019-11-08:77孤立森林算法 正常数据范围 检测出异常样本量 检测出异常样本 29,80 3 2019-07-16:27,2019-10-25:85,2019-10-29:

22、0 3 阈值方案设计与适用性验证 阈值方案是指不同的训练样本选择方案。不同的训练样本,阈值输出结果不同。通过验证每一套阈值的报警频率,判断适用性最优的方案。3.1 阈值方案设计 本文设计了 2 种训练样本选择方案。1)方案 1:按照需要输出的阈值时间粒度切分时段,历史样本总共有多少天,那么每个时段训练的样本数就有多少个。以输出 5 min 粒度阈值为例,输出的阈值计算结果为:车站全天每 5 min 粒度各对应一个不同的阈值。该方案的优点:对每一个最小时间粒度的时段实现了精细化的阈值设定。该方案的缺点:对于车站来说,时间粒度越小,数值波动性越大,影响训练时异常值的鉴别;另外,对于进站量较小的时段

23、,如早上 6 时前、晚上 11 时以后,每个时间片的阈值会较小,而数值波动性较大导致容易产生告警,但是此类告警提示的业务意义较小。2)方案 2:按照车站客流分时变化规律划分时间段,比如将全日分为 6 大时段(5:007:00、7:00 10:00、10:0016:00、16:0020:00、20:0022:00、22:0024:00)。以输出 5 min 粒度阈值为例,5:00 7:00 这个时段,假设历史样本总共有 N 天,那么这个时段训练的样本数就有 N24 个,输出的阈值计算结果为:每个大时段内每 5 min 粒度的阈值均相同,而不同大时段对应的阈值不同。该方案的优点:可以根据车站的分时

24、客流变化特征设定针对性的阈值,可以有效降低报警频率,提升告警的业务意义。该方案的缺点:该方案对于准确把握车站客流分时特征及精准划分时段的要求较高,如果不能准确划分时段,在每个时段切分点前后时间片容易被判断为异常值,报警频率较高,与业务逻辑不符。上述方案 1 与方案 2 可根据车站分时客流特征混合应用,以满足车站告警阈值的实际业务意义。3.2 阈值适用性验证 3.2.1 阈值适用性验证方法 阈值适用性验证样本的日期不应包含在训练样本日期范围内。验证输出的内容包括两部分:一是报警的明细,包括报警车站、报警时段、触发报警的数值及对应的该时段阈值;二是基于报警明细统计的不同时空维度的报警次数 Ta和报

25、警频率 Fa(时间维度:全日、分时、分日期类型,空间维度:网、线、站)。其中,Ta为统计周期内触发报警的次数,Fa为统计周期内报警次数与时段总数的比值。3.2.2 方案验证效果对比 利用北京地铁 1 号线 23 座车站 2020 年 1 月 1 日至 2020 年 1 月 20 日(疫情前)的数据,设异常样本检出量为 Nu,平均每日报警数为 Aa,对每 5 min 一个阈值 T5 min和分 6 大时段设定阈值 T6P两种不同的训练样本方案(训练样本日期范围为 2019 年 1 月 1 日12 月31 日)的阈值进行验证。原则上,报警频率越低,越基于孤立森林算法的轨道交通实时客流告警阈值设定方

26、法研究 75URBAN RAPID RAIL TRANSIT能达到预警提示的作用。如表 3 所示,从验证结果来看,利用孤立森林异常值检验的方法,分 6 大时段设定阈值(5:007:00、7:0010:00、10:0016:00、16:0020:00、20:0022:00、22:0024:00),告警效果相对符合业务目标。表 3 基于孤立森林算法的阈值适用性验证效果对比 Table 3 Comparison of threshold applicability verification based on isolation forest algorithm 工作日 方案 样本总量 Nu Aa F

27、a T5 min 73 190 919 65 1.26%T6P 73 190 507 36 0.69%双休日 方案 样本总量 Nu Aa Fa T5 min 26 126 308 62 1.18%T6P 26 126 125 25 0.48%4 面向调度指挥平台的阈值应用案例 北京市轨道交通指挥中心路网调度指挥平台是主要面向线网调度开展日常监视与应急指挥的综合应用平台,根据实时客流监视业务需求,按照“一站一方案”“一个时段一方案”的原则,设置车站进站量与出站量告警阈值上限,以支撑车站大客流风险预警。车站进站量与出站量阈值需要应用的日期类型及时间粒度具体如下:日期类型:工作日、双休日、节假日(区

28、分具体节假日);时间粒度:5、15、30、60 min。4.1 调度指挥平台阈值设定方案 采用基于机器学习的孤立森林异常检测算法,作为向调度指挥平台推送的车站实时进站量与出站量报警阈值的计算方法。选用近一年(滚动一年)的数据作为训练样本,结合工作日、双休日的进站量与出站量分时变化特征划分时段10,具体设置为两个方案:方案 1 为每一个时间粒度切片对应一个不同阈值,方案 2 为每个时段内的各时间粒度切片对应的阈值相同。确定每个时段适用的方案,如表 4 所示。由于每个节假日的样本日期较少,因此选用历史前 3 年的数据作为训练样本,训练方案选用方案 2,即将全日切分为几个时段,每个时段内的各时间粒度

29、切片对应的阈值相同。4.2 调度指挥平台阈值应用效果 根据导出的 2020 年 8 月 1 日2020 年 8 月 31 日车站 5 min 粒度进站量与出站量告警明细,分析阈值的应用效果。表 4 调度指挥平台阈值训练样本方案设计 Table 4 Design of threshold training sample scheme for scheduling platform 工作日 方案进站量时段 出站量时段 方案1 6:3010:00 7:0010:30 方案25:006:30、10:0016:30、16:3019:30、19:3022:30、22:3024:00 5:007:00、10

30、:3017:00、17:0020:00、20:0023:00、23:0024:00 双休日 方案进站量时段 出站量时段 方案1 方案25:007:30、7:3016:30、16:3019:30、19:3022:30、22:3024:00 5:008:00、8:0017:00、17:0020:00、20:0023:00、23:0024:00 2020 年 8 月,共检测出全网全部车站 5 min 粒度进站量与出站量异常告警 3 068 次,平均每日 99 次,报警频率为 0.08%。从报警次数逐日趋势图(见图 4、5)中可以发现:图 4 2020 年 8 月线网全部车站 5 min 进站量与出站

31、量报警次数日趋势 Figure 4 Daily trend of 5 min inbound and outbound alarm times of all stations in August 2020 图 5 2020 年 8 月全线网分时报警次数统计 Figure 5 Statistics of hourly alarm times in the whole road network in August 2020 1)出站量告警次数普遍高于进站量告警次数。进一步分析分时的告警次数可以发现,出站量告警主要都市快轨交通第 36 卷 第 3 期 2023 年 6 月 76 URBAN RAPI

32、D RAIL TRANSIT 集中在 10:0011:00 及 18:0020:00 部分时段,可能由于阈值方案时段划分不合理导致。如上述阈值方案,划分出站量时段时,将 17:0020:00 作为一个大时段,该时段内每 5 min 粒度用同一阈值,但由于部分车站出站高峰延续到 19:30 以后,在训练时,17 时左右的数值会拉低该时段的阈值上限范围,因此在 19:0020:00 的出站量报警次数比较高,需要针对此类车站单独调整训练样本时段划分方案。2)对于部分特殊日期,出站量告警出现峰值。由于当日受特殊因素影响,导致全网分时客流结构发生变化,部分时段客流超出正常阈值范围。如2020 年 8 月

33、 12 日午后发布了暴雨黄色预警,因此在该日 12:0014:00 期间多个车站出站量集中报警,这表明设定的阈值所引发的告警起到了提示调度员关注客流异常变化的作用。5 结论与展望 本文创新性地提出了基于孤立森林异常检测算法设定客流告警阈值的思路及方法。首先,通过对比说明孤立森林算法和传统统计学方法的算法原理、输出阈值结果的合理性,明确了孤立森林算法更满足业务目标;然后,针对机器学习的样本训练方案进行了设计,阐述了各方案的优缺点,并对各套方案的适用性效果进行了验证;最后,分析了目前调度指挥平台应用孤立森林算法输出的告警阈值后,每天的车站客流告警情况。分析结果表明,按照当前阈值方案训练输出的阈值基

34、本能够达到提示调度员关注客流异常的目标,但是个别车站需要继续细化调整阈值训练方案的时段划分,以降低个别时段的报警频率。针对客流告警所代表的含义,从业务层面有两方面的理解:一是只要车站在某一时段出现了超出该时段历史正常范围最大值,即进行告警提示。但是该种模式没有考虑车站所能容纳的客流能力,很有可能客流告警值在车站容纳能力范围内,并没有对车站造成安全风险。第二个方面的理解就是对达到或突破车站客流容纳能力的数值进行告警。业务层面对于客流告警的理解,以及客流告警的业务目标,决定了告警阈值的设定方法,需要后续深入讨论研究。参考文献 1 冉婧入,张擎.浅谈城市轨道交通大客流识别与预警技术J.科学技术创新,

35、2019(12):101-102.RAN Jingru,ZHANG Qing.Discussion on identification and early warning technology of large passenger flow in urban rail transitJ.Scientific and technological innovation,2019(12):101-102.2 王婵婵,张琦.上海城市轨道交通日常大客流检测及预警需求研究J.城市轨道交通研究,2018,21(10):11-15.WANG Chanchan,ZHANG Qi.Requirements for

36、 daily large passenger flow detection and early warning in Shanghai urban rail transitJ.Urban mass transit,2018,21(10):11-15.3 汪波,郑清杰,黄建玲.城市轨道交通AFC 实时客流有效数据筛选J.都市快轨交通,2015,28(3):24-28.WANG Bo,ZHENG Qingjie,HUANG Jianling.Valid data screening of AFC real-time passenger flow for urban mass transitJ.Ur

37、ban rapid rail transit,2015,28(3):24-28.4 李国和,孙勇,孙永,等.正态分布在抽蓄机组传感器阈值研究体系的应用J.电气时代,2019(5):91-93.LI Guohe,SUN Yong,SUN Yong,et al.Application of normal distribution in research system of sensor threshold of pumping and storage unitsJ.Electric age,2019(5):91-93.5 张隆.利用正态分布确定 HARRIS 调频发射机报警阈值J.广播电视信息,2

38、017(12):81-84.ZHANG Long.Determination of alarm threshold of HARRIS FM transmitter by normal distributionJ.Radio&televi-sion information,2017(12):81-84.6 安兴茹.基于正态分布的词频分析法高频词阈值研究J.情报杂志,2014,33(10):129-136.AN Xingru.The research on the threshold of high-frequency words based on the normal distribution

39、 in word frequency analysisJ.Journal of intelligence,2014,33(10):129-136.7 LIU F T,TING K M,ZHOU Z H.Isdation forestC/The IEEE international conference on data mining.Italy:IEEE,2008:413-422.8 肖伟洋.基于孤立森林算法的空气质量数据异常检测分析J.信息与电脑(理论版),2019,31(17):38-40.XIAO Weiyang.Anomaly detection and analysis of air

40、quality data based on isolation forest algorithmJ.China computer&communication,2019,31(17):38-40.9 黄福兴,周广山,丁宏,等.基于孤立森林算法的电能量异常数据检测J.华东师范大学学报(自然科学版),2019(5):123-132.HUANG Fuxing,ZHOU Guangshan,DING Hong,et al.Electric energy abnormal data detection based on Isolation ForestsJ.Journal of East China Normal University(natural science),2019(5):123-132.10 北京市轨道交通指挥中心.2019 年北京市轨道交通路网运营年报R.北京,2020.(编辑:傅依萱)

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 研究报告 > 交通基建

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服