收藏 分销(赏)

多成分经验分解模型与网格寻优的地铁客流量预测算法.pdf

上传人:自信****多点 文档编号:618573 上传时间:2024-01-17 格式:PDF 页数:13 大小:2.92MB
下载 相关 举报
多成分经验分解模型与网格寻优的地铁客流量预测算法.pdf_第1页
第1页 / 共13页
多成分经验分解模型与网格寻优的地铁客流量预测算法.pdf_第2页
第2页 / 共13页
多成分经验分解模型与网格寻优的地铁客流量预测算法.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第1 2卷 第2期2023年6月数学建模及其应用M a t h e m a t i c a l M o d e l i n g a n d I t s A p p l i c a t i o n sV o l.1 2 N o.2J u n.2 0 2 3探索与实践多成分经验分解模型与网格寻优的地铁客流量预测算法谭 馨1,2,李鲲鹏3,徐青山2,4,刘继军1,2,王丽艳1,2(1.东南大学 数学学院,江苏 南京 2 1 0 0 9 6;2.南京应用数学中心,江苏 南京 2 1 1 1 3 5;3.广州地铁设计研究院股份有限公司,广东 广州 5 1 0 0 1 0;4.东南大学 电气工程学院,江苏

2、 南京 2 1 0 0 9 6)摘 要:地铁客流量预测的数学建模和有效算法有助于合理配置地铁电力资源,优化调度计划,对城市交通路网的运营至关重要.地铁客流量一方面表现出特定的周期性,同时又有较大的随机性.现有大部分算法难以对早晚高峰期流量这一精细尺度进行高精度预测.本文根据对地铁客流量早晚高峰精细刻画的实际要求,通过多成分经验分解,首先将P r o p h e t模型中的周期项进行了更为细化的多尺度分解,提出了包含6种成分的改进P r o p h e t模型;进而对改进的P r o p h e t模型,在待求解的模型参数服从一定先验概率分布的假定下,采用网格寻优算法在训练集上实现模型超参数的自

3、动选取;最后设计了数据和模型双驱动的地铁客流量预测算法,并在天池平台提供的杭州地铁公开数据集上进行实验验证,结果表明该算法比基于P r o p h e t模型的算法预测精度大为提高.其中最大误差、平均绝对误差和均方误差这3个评价指标在整体测试集上分别减少了4 2.3 9%、5 2.1 3%和5 0.0 2%;在高峰期测试集上分别减少了8 9.4 9%、9 3.2 0%和9 2.1 9%;相比L S TM算法,在高峰期测试集上分别减少了1.4 3%、6 0.5 3%和6 2.1 2%.关键词:地铁客流量;精细尺度预测;多成分经验分解;最大后验估计;网格自动寻优中图分类号:T P 3 9 文献标志

4、码:A 文章编号:2 0 9 5-3 0 7 0(2 0 2 3)0 2-0 0 1 4-1 3 D O I:1 0.1 9 9 4 3/j.2 0 9 5-3 0 7 0.j mm i a.2 0 2 3.0 2.0 2收稿日期:2 0 2 3-0 3-1 0基金项目:国家自然科学基金(1 2 2 7 1 0 9 4);国家重大科学工程建设项目计划(2 0 2 0 Y F A 0 7 1 3 8 0 0)通讯作者:王丽艳,E-m a i l:w a n g l i y a n s e u.e d u.c n引用格式:谭馨,李鲲鹏,徐青山,等.多成分经验分解模型与网格寻优的地铁客流量预测算法J

5、.数学建模及其应用,2 0 2 3,1 2(2):1 4-2 6.TAN X,L I K P,X U Q S H,e t a l.M e t r o p a s s e n g e r f l o w f o r e c a s t b a s e d o n m u l t i-c o m p o n e n t e m p i r i c a l d e c o m p o s i t i o n a n d a u t o m a t i c g r i d o p t i m i z a t i o n s o f h y p e r-p a r a m e t e r s(i n C

6、 h i n e s e)J.M a t h e m a t i c a l M o d e l i n g a n d I t s A p p l i c a t i o n s,2 0 2 3,1 2(2):1 4-2 6.0 引言随着城市化进程的加快和城市人口的不断扩张,城市交通压力日益增加,尤其高峰时段的严重交通拥堵极大地影响了居民日常通勤出行,造成居民生活质量下降,甚至制约了城市的经济发展.近年来,城市建设在扩大城区范围的同时,也在大力发展公共轨道交通系统.轨道交通是城市日常运转中关键的一环,在保障居民出行、缓解交通拥堵、促进城市功能疏解等方面发挥了重要作用1.地铁作为轨道交通的代表

7、,在缓解地面交通压力方面发挥了重要作用.为了更有效地发挥地铁的客流输运作用,达到经济高效的目的,需要充分了解和预测地铁客流量,掌握客流量的变化规律,使得地铁运营部门能制定科学合理的运行计划,提高客运服务能力,从而更好地完善轨道交通运行系统.利用历史数据来预测未来地铁客流量是一个典型的基于数学建模的时间序列分析问题,已经有多种预测模型被广泛应用,这些模型大致分为3类:参数方法、非参数方法以及混合方法.41第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3在参数方法中,通常对预测函数的形式作出假设,构造损失函数,通过训练模型以极小化损失函数,进而确定模型参

8、数的值.常见的参数方法模型包括自回归移动平均(a u t o r e g r e s s i v e i n t e g r a t e d m o v i n g a v e r a g e,A R I MA)模型、P r o p h e t模型等.A R I MA模型结构简单,不需要借助外部参数即可建立2.P r o p h e t模型是F a c e b o o k的研究团队近年来提出的一种基于时间序列分析的预测方法.它基于成分分解的思想,考虑了时间过程的非线性趋势项、周期项以及节假日效应,适用于具有强烈季节性影响的时间序列3.一般而言,基于参数方法的模型训练和预测十分迅速,在线性模型的

9、参数回归上有巨大的优势.但其效果强烈依赖于拟合函数的形式,需要针对数据特点研究恰当的拟合函数,仅采用通用的拟合函数形式往往达不到令人满意的预测效果4.与参数方法模型不同,非参数方法模型不需要对模型作出预先假设.其中,支持向量机(s u p p o r t v e c t o r m a c h i n e,S VM)因其强大的非线性处理能力,被广泛应用于交通流预测5.近年来,人工神经网络模型成为时间序列预测领域的主流技术,它也是一类非参数预测模型.循环神经网络(r e c u r r e n t n e u r a l n e t w o r k,R NN)以及其衍生出的长短时记忆网络(l o

10、 n g s h o r t-t e r m m e m o r y,L S TM)在交通流预测问题中取得了较好的效果6.L S TM由于解决了R NN的梯度爆炸问题,应用场景更加广泛.然而,相比于参数模型,非参数模型需要更多更复杂的网络参数,对数据集的要求更高,这些网络参数本身不具备明确的物理意义,可解释性较差.混合方法是参数方法模型与非参数方法模型的结合,可以弥补单一模型的缺点,对现阶段交通流的预测结 果 更 加 精 确7.例 如,M a c k e n z i e等8将 分 层 时 间 记 忆(h i e r a r c h i c a l t e m p o r a l m e m o

11、 r y,HTM)与L S TM组合建模,得到的预测结果优于单一模型,验证了混合模型的可行性与有效性.需要注意的是,T s e l e n t i s等人9发现相同的预测模型在不同的数据集上表现差异较大.因此有必要根据具体情况与数据特点选择合适的模型或模型组合来进行预测.尽管关于交通流预测的数学模型和算法已有广泛研究,对于地铁客流量这种受季节性因素和节假日影响较大的复杂非线性数据的预测仍然是一个具有挑战性的问题.地铁客流量分布总体上属于强季节性的时间序列,十分适合用P r o p h e t模型进行预测和处理.然而该模型对工作日高峰时间明显出现的大客流量的情况预测不够准确,对高峰时段的客流量拟

12、合效果很差.同时P r o p h e t模型的效果依赖于超参数的选择,需要人工指定,效率低下.目前还没有明确的超参数选取准则.针对上述问题,本文提出一种多成分分解的改进P r o p h e t模型,针对地铁客流量数据的特点对时间序列进行分解,特别引入了描述早晚交通高峰的周期结构,并提供了超参数的自适应网格用于搜索寻优,通过数据驱动实现了超参数的自动选取,是一种模型和数据双驱动的方法.对已有杭州地铁公开交通流量数据,基于本文提出的新的预测模型和确定的模型参数,检验了模型的有效性.本文的主要贡献如下:基于已有的P r o p h e t模型,结合地铁客流量数据的特点,提出了带趋势项、日周期项、

13、周周期项、节假日项、早晚高峰项和噪声项6种成分经验分解的改进模型,从而建立了能够在精细尺度下刻画交通高峰期数据特点的多成分改进预测模型.对模型的超参数采用自适应网格寻优.根据参数的实际含义,给出网格剖分的精度,针对其中的每一种组合,通过数据驱动,对比改进P r o p h e t模型的预测效果,从而实现模型和数据双驱动的地铁客流量预测算法.提出的基于经验成分分解的预测模型,以及模型与数据结合的最佳超参数选取方法,具有一定的普适性,有望进一步推广到预测信号具有多种成分性质、预测精度具有多尺度要求的各类交通流预测问题中去.本文结构如下:第1节介绍工作背景;第2节提出了基于多成分分解的改进P r o

14、 p h e t模型以及预测算法,并给出了参数确定的自适应算法;第3节进行实验验证,对所提模型和算法的有效性进行评估和分析;第4节对整个工作进行总结.1 工作背景地铁客流量预测是轨道交通系统的一个重要研究课题.有关交通流预测的研究可以追溯到1 9 7 951探索与实践多成分经验分解模型与网格寻优的地铁客流量预测算法2 0 2 3年6月年,A h m e d和C o o k1 0首次使用时间序列方法来预测美国3座城市高速公路的交通流量.其后,O k u t a n i等人1 1在1 9 8 4年提出用卡尔曼滤波(K a l m a n f i l t e r i n g,K F)实现短时交通流量

15、预测.1 9 9 9年,杨兆升和朱中1 2对K F方法进行了改进,并用于长春市城市道路的交通流量预测.K F方法因预测因子选择灵活且预测精度高而备受推崇,但其本质上属于线性估计,当交通流模型的非线性增强时,模型的预测效果将会变差.A R I MA模型是一种应用最为广泛的传统时间序列模型,它将某一时刻的交通流量视作更为一般的非平稳随机序列,一般带有3个或6个模型参数1 3.L e e1 4成功地将A R I MA模型应用于铁路的短期客流量预测,取得了较好的预测效果.张蕾1 5利用A R I MA乘积季节模型对武广高铁的周客流量进行预测,平均误差仅为7%,预测精度较高.L i等人1 6提出了一种基

16、于符号回归和A R I MA的混合模型来预测地铁客流量并验证其有效性.A R I MA模型在不间断的数据集上表现效果优异,而在实际情况中,交通流数据往往存在数据遗漏等问题,使得A R I MA模型的预测效果下降.此外,A R I MA模型适合预测稳定的数据,当交通流变化剧烈时,如工作日早晚高峰时段,A R I MA存在明显的预测偏差.近年来,许多学者将一些成熟的人工智能算法应用于交通流量预测,实现了适合非线性动态系统的非参数建模.非参数方法不需要对模型作出预先的假设,当历史数据量足够大时,可以实现对复杂函数的拟合.Z h a n g等人1 7提出了一种K-近邻算法非参数回归预测短期交通流量的方

17、法,并取得了较为理想的实验结果.与此同时,人工神经网络由于其特有的自适应优势,在时间序列预测领域也得到了广泛的应用.其中,R NN 是一种专门用于处理时间序列数据的神经网络模型,通过引入记忆单元实现对序列数据的记忆.L S TM改进了R NN存在的梯度爆炸问题,被广泛应用于交通流预测,是一种优秀的时间序列预测模型.M a等人1 8使用L S TM模型来预测道路车辆速度,实验结果表明,L S TM的预测精度相较传统的统计学模型有显著的提升.T i a n等1 9和F u等2 0利用L S TM模型对交通流量进行预测,也取得了理想的预测结果.在面对规模庞大的时间序列数据集时,人工神经网络模型相对于

18、A R I MA等统计模型具有显著的优势.其缺陷在于模型参数巨大,算法收敛速度慢,训练时间长,对数据集与数据量的要求较高,模型的移植性差,并且缺乏物理意义上的可解释性.由于交通流时间序列十分复杂,具有多成分共存的特点,近年来,混合方法被广泛应用,是另一类构建交通流预测模型的方法.混合方法能够在一定意义下集成各模型的优点,预测效果常常优于单独的模型.G u o 等人2 1提出了一种基于支持向量回归和L S TM神经网络的组合模型对轨道交通客流量进行了预测.L i2 2针对影响客流的特殊因素建立组合模型进行了预测分析.江天河2 3结合A R I MA模型和B P神经网络对春运客流量进行了预测.混合

19、方法能够针对不同的交通情况,自行选择合适的几种方法进行组合预测.因其集合了各种模型的优点,目前已成为交通流预测领域的研究重点.P r o p h e t是F a c e b o o k新近提出的一种时间序列预测方法,它本质上是一种模型和数据双驱动的混合型预测算法.一方面,它包含了对含有周期性态的时间分布的模型刻画;另一方面,它基于大量的历史数据对模型参数进行估计,其核心是对时间序列分成分进行分析,适用于具有强烈季节性影响的时间序列,并且能够对异常值进行处理,具有相当程度的鲁棒性3.根据X i e等人的研究2 4,P r o p h e t模型在手足口病发病率的预测上优于A R I MA模型.P

20、 o n t o h等人2 5在研究印度某火车线路乘客数量变化趋势时,发现P r o p h e t的预测结果比前馈神经网络更加准确.P r o p h e t模型相较传统的训练模型曲线拟合速度更快,有助于数据迭代.然而,在对地铁客流量数据进行预测试验时发现,P r o p h e t模型对于交通流的剧烈变化时段(如高峰时段)拟合效果很差,并且模型的最终预测效果十分依赖于超参数的设置,而超参数需要根据经验人工设定,无法自适应选择.其主要原因是已有的P r o p h e t模型中的周期项都是大周期的,缺乏对分布在小尺度的刻画.本文基于P r o p h e t算法多成分分解的思想,结合地铁客流

21、量数据特点,在时间序列的分解中考虑高峰期影响,同时受到非参数方法的启发,设计了超参数的自适应网格进行网格寻参,最终实现对地铁客流量的预测.61第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 32 多成分分解的改进P r o p h e t模型地铁的客流量数据是非平稳的时间序列,其非平稳项往往具有高度非线性与复杂性的特征2 6.针对这种特点,基于已有的P r o p h e t模型3多成分分解的思想,进一步将客流量时间序列y(t)在更精细的尺度下表示如下:y(t)=g(t)+S1(t)+S2(t)+h(t)+p(t)+t,(1)其中:g(t)为趋势项,拟

22、合时间序列基线的整体变化趋势;S1(t)和S2(t)分别为日周期项与周周期项,表示时间序列以天和周为周期的变化;h(t)为节假日项,表示节假日效应对时间序列的影响;p(t)为高峰项,表示客流量高峰时段时间序列的变化趋势;t为误差项.非平稳部分采用前面5个成分进行拟合,剩余的误差项用平稳的高斯白噪声来描述.下面详细介绍非平稳部分5个成分的模型细节.2.1 趋势项根据实际客流量的整体变化趋势,使用分段线性函数作为趋势项的拟合函数形式.分段点是模型的超参数,需要人工设置,具体有两种方法:一是给出分段点的总个数和总的时间区间,在区间内部等间隔生成分段点;二是直接给出所有的分段点.设时间序列y(t)在(

23、t0,T)内有S个分段点s1s2sSsjkj,记k=(k1,k2,kS)T,引入阶跃向量函数a(t)=(a1(t),a2(t),aS(t)T,其中,aj(t)=1,tsj,0,其他,j=1,2,S.从而可以将整个区间t0,T上的增长率k表示为k(t)=k0+a(t)Tk的形式.根据整个趋势变化的连续性,分段线性函数在分段点sj处满足连续条件gj(sj+1)=gj+1(sj+1),j=0,1,S-1,据此可求出mjSj=1.与增长率类似,利用阶跃函数将偏移参数写成统一的显式表达形式m0+aTm,其中,m=(m1,m2,mS)T,mj=-sjkj.由此得到趋势项的分段线性拟合函数:g(t)=(k0

24、+aTk)t+(m0+aTm).2.2 周期项采用傅里叶级数的有限项截断来刻画时间序列数据的周期性.结合地铁客流量数据特点,这里考虑日周期和周周期:S1(t)=N1n=1a(1)nc o s 2 n tP1+b(1)ns i n 2 n tP1 ,S2(t)=N2n=1a(2)nc o s 2 n tP2+b(2)ns i n 2 n tP2 ,其中:P1和P2分别表示日和周的周期长度;N1和N2为刻画日周期性与周周期性时傅里叶级数展开的项数.对i=1,2,记(i)=(a(i)1,b(i)1,a(i)Ni,b(i)Ni)T,Xi=c o s 2 tPi,s i n 2 tPi,c o s 2

25、NitPi,s i n 2 NitPi .这里(1)、(2)中的2(N1+N2)个参数是优化模型中待求解的参数.同样地,将S1(t)与S2(t)写成关71探索与实践多成分经验分解模型与网格寻优的地铁客流量预测算法2 0 2 3年6月于(1)与(2)的线性形式:S1(t)=X1(t)(1),S2(t)=X2(t)(2).2.3 节假日项节假日项采用如下拟合函数形式:h(t)=Z(t),Z(t)=(1tD1,1tD2,1tDN3),=(1,2,N3)T,其中:N3为节假日的个数;Di表示第i个节假日效应所影响到的时间窗口;i表示第i个节假日的影响强度.节假日的个数以及影响的时间窗口是人工设置的超参

26、数,影响强度是待估计的模型参数.2.4 高峰项高峰时段的客流量无法用一个平稳的周期性比较好的函数来拟合,但工作日早晚高峰的客流量日复一日是相似的.在实际数据中,早晚高峰对时间序列的影响不同,通常晚高峰时段客流量更大.因此,将早、晚高峰看成相对独立的模型.设M1和M2分别为早、晚高峰持续的时间窗口,并定义相应的指示函数:K1(t)=1tM1,K2(t)=1tM2.设1和2分别为早、晚高峰对时间序列的影响强度,这是优化模型中待估计的参数.早、晚高峰项分别采用下面的拟合函数形式:p1(t)=K1(t)1,p2(t)=K2(t)2.记K(t)=(K1(t),K2(t),=(1,2)T,p(t)=(p1

27、(t),p2(t),从而可以将p(t)写成关于的显式线性表达:p(t)=K(t).2.5 优化模型与求解算法随机信号中非平稳的成分用2.1-2.4中所描述的拟合函数形式来刻画,剩余的平稳部分为噪声项,采用独立同分布的高斯过程来描述.综上,得到非平稳项q(t)由以下5项组成:q(t)=g(t;k0,m0,k)+S1(t;(1)+S2(t;(2)+h(t;)+p(t;).将优化目标函数中待估计的参数记为=(k0,m0,k,(1),(2),),则式(1)可写作:y(t)=q(t;)+t,(2)其中,tN(0,2).进一步为待估计的参数引入先验假设:k0,m0,(1),(2),均以高斯分布作为先验,k

28、以拉普拉斯分布作为先验,且参数之间相互独立,即k0N(0,2k),m0N(0,2m),(1)N(0,2(1),(2)N(0,2(2),N(0,2),N(0,2),kL(0,).先验假设中的分布参数k,m,(1),(2),与完全决定了,是模型的超参数,记作=(k,m,(1),(2),).在参数已知的前提下,y(t)的条件概率为:P(y(t)|q(t;)=1 2 e x p-(y(t)-q(t;)222 .由y(t)的观测序列yi ni=1来估计模型中的参数,其中,n为观测点数量.后验概率为:P(|(ti,yi)=ni=1P(yi|q(t;)P(),P()=f(k0)f(m0)f(k)f(1)f(

29、2)f()f(),其中,f(x)为x的密度函数.使用最大后验估计来确定参数,即=a r g m a x P(|(ti,yi),(3)式(3)等价于=a r g m i n L(;),(4)其中,L(;)=-l n P(|(ti,yi)81第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3=ni=112|yi-q(ti,)|2+k22k+m22m+|k|+(1)22(1)+(2)22(2)+22+22.(5)这样,地铁客流量预测就转化为目标函数L(;)关于参数=(k0,m0,k,(1),(2),)的非线性优化问题.利用L-B F G S拟牛顿法2 7来求

30、解式(4).算法流程如下.S t e p 1 输入初始值0,容许误差,存储向量对最大个数M,最大迭代次数m a x i t;S t e p 2 设置k=0,B0=I,r=焊L(0);S t e p 3 若焊L(k),返回最优解k,否则执行S t e p 4;S t e p 4 利用双循环递归算法2 8计算rk;S t e p 5 当前迭代步的可行方向dk=-rk;S t e p 6 计算下降步长k=a r g m i n0 L(k+dk);S t e p 7 k+1=k+kdk;S t e p 8 计算向量对sk=k+1-k,tk=焊L(k+1-k);S t e p 9 若km,保留最近M次的

31、向量对,删除(sk-m,tk-m);S t e p 1 0 kk+1;S t e p 1 1 若km a x i t,超过最大迭代次数,算法停止,否则执行S t e p 3.2.6 数据和模型双驱动的地铁客流量预测算法基于多成分经验分解的改进P r o p h e t模型中,时间序列的每一项分解成分都具有明确的实际含义,有具体的超参数可以进行调整,方便引入专家经验,可解释性强.但在实际情况中,不同的超参数组合会影响模型的预测效果,每一个超参数都需要人工设置,模型的训练数量巨大.为克服此缺陷,受非参数方法的启发,先人工给出模型超参数的上下界,并在此范围内考虑其有限个点的值,利用观测数据集,通过机

32、器寻参自动挑选上下界内部的有限个离散参数值,使模型达到最优的超参数组合.具体流程如下.S t e p 1 设计时间序列的分解成分;S t e p 2 构建式(3)的假设模型;S t e p 3 输入超参数的上下界及剖分精度,设计超参数网格;S t e p 4 对于网格内每一点,使用L-B F G S算法求解式(5),得到当前超参数组合下多成分分解的改进P r o p h e t模型;S t e p 5 选取在当前训练集上预测效果最好的一组超参数所对应的模型,并在测试集上进行预测.综上,在算法的实际应用中,首先根据地铁客流量的数据特点,设计时间序列的分解成分,考虑是否加入日周期项、周周期项和高峰

33、项等,构建式(3)的假设模型.确定具体的分解成分后,设定不同成分超参数的上下界以及剖分精度,形成超参数网格.对网格内的每一点,即每一组超参数,利用L-B F G S算法求解式(5)的优化问题,得到对应多成分分解的改进P r o p h e t模型.比较每一组超参数对应模型在训练集上的误差,选择精度最高的一组作为最终的地铁客流量预测模型.表1 地铁客流量数据基本信息表列名类型说明t i m eS t r i n g刷卡发生时间l i n e I DS t r i n g地铁线路I Ds t a t i o n I Di n t地铁站I Dd e v i c e I Di n t刷卡设备编号I D

34、s t a t u sb o o l0为出站,1为进站u s e r I DS t r i n g用户身份I Dp a y T y p ei n t用户刷卡类型3 实验与结果3.1 实验数据集选用天池平台“全球城市计算A I挑战赛”中提供的杭州地铁实际数据集来验证模型和算法的有效性.数据集包含了从2 0 1 9年1月1日至2 0 1 9年1月2 5日的杭州地铁刷卡数据记录,涵盖A、B、C三条地铁线路,8 1个地铁站点,近7 0 0 0万条刷卡数据.每条刷卡数据包含7种信息(表1).将利用其中地铁线路I D、刷卡时间及进出站状态来生成所需要的客流量时间序列.91探索与实践多成分经验分解模型与网格

35、寻优的地铁客流量预测算法2 0 2 3年6月3.2 数据预处理地铁刷卡记录的原始数据需要转化为客流量时间序列数据.读取刷卡记录文件,筛选指定线路和指定进出站状态的数据样本,制成新的记录表,根据应用要求的时间分辨尺度选定时间窗口长度,统计每个时间窗口内样本点的数量,得到所需的地铁客流量时间序列数据.本文以1 5分钟为一个时间窗口,采用2 0 1 9年1月1日至1月2 1日的A线路进站数据为训练数据集,1月2 2日至2 5日的A线路进站数据作为测试数据集.图1 2 0 1 9年1-6日A线路进站客流量图(彩图见封三)图1为每日时间窗口下前6天的客流量,每天用不同颜色的曲线表示.2 0 1 9年1月

36、1日为节假日(元旦节),1月5日和6日为周末,具体分析数据特点可以发现:1)每日前2 0个窗口点(0点到5点)的地铁客流量为0,说明这段时间无人进站(地铁停运时间).2)无论在工作日、节假日还是周末,A线路的客流量均在第3 0和第7 0个时间窗口附近出现高位,这就是早高峰与晚高峰,晚高峰峰值更高.3)工作日地铁交通流分布高度相似,而节假日和周末的交通流也较为相似,呈现出两种交通流模式.节假日与周末的客流量分布较为平均,峰值比工作日低,峰值之外则高于工作日.工作日的大部分客流量集中在两个高峰周围.4)地铁交通流在总的趋势上增量不大,每日交通流的平均值呈平稳状态,没有发生剧烈变化.3.3 对比模型

37、与评价指标本文选取目前时间序列预测领域应用最广泛的P r o p h e t模型和L S TM模型,它们分别代表参数方法与非参数方法,与本文提出的多成分分解的改进P r o p h e t模型进行对比:P r o p h e t模型3是2 0 1 7年由F a c e b o o k核心数据团队提出的一种开源预测算法,在给定时间序列的特定分解后使用拟合优化方法求解.L S TM2 9是1 9 9 7年由H o c h r e i t e r和S c h m i d h u b e r提出的,结合长短时时间序列特点构造的循环神经网络,使用L S TM基本单元对时间序列建模,对时间序列进行多步预测

38、.采用最大误差(m a x e r r o r,ME)、平均绝对误差(m e a n a b s o l u t e e r r o r,MA E)和均方误差(m e a n s q u a r e e r r o r,M S E)作为评价指标.给定n个样本点的时间序列,预测值和观测值分别记为yi和yi,评级指标的计算公式如下:ME=m a x 1in|yi-yi|,MA E=1nni=1|yi-yi|,M S E=1nni=1|yi-yi|2.3.4 实验环境及参数配置实验环境准备:C P U核心i 7,内存3 2 G,编程语言P y t h o n 3.8.5.利用L-B F G S拟牛顿

39、法2 7来求解式(4),其中参数的迭代初始值0=(k0,m0,k,(1),(2),)=(0.0 0 0 3,0,02 51,01 61,01 01,021,01 81),容许误差=21 0-1 6,存储向量对最大个数M=1 0 0,最大迭代次数m a x i t=1 0 0 0 0.表2给出了基于多成分分解的P r o p h e t模型与超参数网格自动寻优的地铁客流量预测算法中超参数的详细说明和设定.3.5 实验设计本文设计了3个实验:对新增的两种周期项和高峰项,验证所提出的多成分经验分解的必要性和有效性,揭示加入高峰项周期对高峰时段客流预报精度提高的重要性,以及超参数网格自动寻参的有效性.

40、实验一:为了体现在地铁客流量数据上同时考虑日周期性与周周期性的必要性,随机选定网格内的一组超参数,对比仅考虑日周期性、仅考虑周周期性以及同时考虑这两种周期性的P r o p h e t模型.实验中保持周期项参数的总数相同,即傅里叶级数展开的系数总数相同,将这3种模型分别记作02第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3P r o p h e t_s 1,P r o p h e t_s 2和P r o p h e t_s 1+s 2.表2 多成分分解的改进P r o p h e t模型的超参数表参数名称模型中对应记号含义说明取值(范围)设定n_c

41、 h a n g e p o i n t sS分段点数量2 5c h a n g e p o i n t ssjSj=1分段点前8 0%历史数据中均匀分布的n_c h a n g e p o i n t s个点c h a n g e p o i n t_p r i o r_s c a l ek的尺度参数0.0 5,0.1 2d a i l y_s e a s o n a l i t yN1日周期性傅里叶级数展开项数3,8w e e k l y_s e a s o n a l i t yN2周周期性傅里叶级数展开项数3,5d a i l y _p r i o r_s c a l e(1)日周期性

42、影响强度6,1 2w e e k l y_p r i o r_ s c a l e(2)周周期性影响强度6,1 2h o l i d a y s节假日对象,包含日期以及影响的时间窗口DiH o l i d a y s:元旦节,D_i:2天h o l i d a y_ p r i o r_ s c a l e节假日效应影响强度8,1 2p e a k早晚高峰期对象,包含时间点及影响的时间段MP e a k:工作日上午7:3 0以及下午1 7:3 0,M:0,4 小时p e a k p r i o r_s c a l e高峰期的影响强度6,1 2实验二:在实验一P r o p h e t_s 1+

43、s 2模型的基础上加入高峰项,记作P r o p h e_s 1+s 2+p,通过对比实验来说明提出的高峰项在精细尺度下预测精度的提升.实验三:通过网格寻优,选取在当前训练集上拟合效果最好的一组超参数所对应的模型,即所提出的基于多成分分解的P r o p h e t模型与超参数网格自动寻优的地铁客流量预测模型,记作P r o p h e t_a l l c o m p o n e n t+g r i d S e a r c h,简记为P r o p h e t_a c o m p+g S;对应超参数相同而不包含高峰项的已有P r o p h e t模型记作P r o p h e t_a c o

44、 m p,来说明通过超参数网格自动寻参来实现数据与模型相结合算法的有效性.通过对比上面3个实验中的6种模型与L S TM模型在训练集和测试集上的整体预测表现以及在高峰期的预测表现,来验证所提模型在总体时间段以及在精细尺度下的预测效果.3.6 实验结果及分析在最大误差ME、平均绝对误差MA E和均方误差M S E三个评价指标下,3.5节中设计的6种改进P r o p h e t模型与L S TM模型在杭州地铁数据集上的训练集和测试集上的指标结果见表3.这3个评价指标都为误差型,取值越小表明对应模型的性能越好.表3 多成分分解的改进P r o p h e t模型的超参数表模型训练集MEMA EM

45、S E测试集MEMA EM S E高峰期训练集MEMA EM S E高峰期测试集MEMA EM S EL S TM1 7 5 9.6 72 1 6.0 21 9.9 71 7 3 0.5 82 0 4.6 42 1.2 86 8 2.8 74 6 8.9 05 1 4.0 91 4 6.4 41 4 0.5 01 2 2.1 7P r o p h c t_s l2 7 5 5.0 83 9 2.4 35 9 8.5 62 3 5 6.6 44 2 0.3 46 2 0.2 21 3 2 9.7 13 8 4.4 55 8 7.7 3 2 0 4 5.7 5 1 4 1 0.9 1 1 5 4

46、4.4 1P r o p h e t_s 25 1 8 0.0 79 3 3.5 2 1 2 5 1.1 14 5 5 5.1 59 9 9.3 6 1 3 4 1.5 31 5 3 2.6 64 6 5.8 87 6 6.2 9 4 2 3 3.6 4 2 6 8 1.3 1 3 0 4 9.0 7P r o p h e t_s l+s 23 2 5 1.2 34 9 4.1 27 1 5.2 62 6 7 7.3 05 1 3.6 27 2 8.4 21 2 4 1.9 34 1 9.1 56 1 3.6 3 2 3 6 9.4 6 1 6 1 4.1 0 1 7 4 7.5 3P r o

47、 p h e t_s 1+s 2+p8 8 3.0 92 9 4.3 04 8 3.4 22 6 0 2.7 63 0 4.4 94 8 6.7 74 9 7.8 88 6.5 41 5 0.6 81 9 3.5 58 2.2 31 0 4.9 4P r o p l e t_a c o m p2 2 0 5.7 83 3 5.2 25 1 0.8 61 6 0 6.5 22 5 0.8 53 7 3.5 91 3 9 7.5 33 1 1.0 05 4 7.8 2 1 3 7 2.8 38 1 5.1 79 6 4.7 6P r o p h e t_a c o m p+g S1 2 0 7.1

48、 01 4 1.4 52 0 8.8 29 2 5.4 81 2 0.0 81 8 6.7 23 8 3.3 36 4.9 31 1 3.3 41 4.3 45 5.4 57 5.3 6分析表3的客观指标结果,可以发现加入高峰项的P r o p h e t_s 1+s 2+p模型在各数据集各评价指标下均优于P r o p h e t_s 1+s 2模型,尤其在高峰期的精细尺度下测试集上ME、MA E与M S E分别减少了9 1.8 3%、9 4.9 1%和9 3.9 9%,表明提出的模型对地铁高峰时段的客流量预测效果有巨大的提升.12探索与实践多成分经验分解模型与网格寻优的地铁客流量预测算法2

49、 0 2 3年6月经过网格寻优得到的P r o p h e t_a c o m p+g S模型相比P r o p h e t_s 1+s 2+p模型,在整体测试集上,ME、MA E和M S E显著减少,分别减少了6 4.4 4%、6 0.5 6%与6 1.6 4%,说明了网格自动寻参的有效性.P r o p h e t_a c o m p+g S模型对比不包含高峰项而其他超参数相同的P r o p h e t_a c o m p模型,在3个误差指标上都有显著的降低,在整体测试集上分别减少了4 2.3 9%、5 2.1 3%和5 0.0 2%,在高峰期测试集上则分别减少了8 9.4 9%、9 3

50、.2 0%和9 2.1 9%;对比L S TM模型在高峰期测试集上的ME、MA E与M S E分别减少了1.4 3%、6 0.5 3%和6 2.1 2%.L S TM模型采用M S E作为损失函数,因此在整体时间段的指标结果表现上优于现有P r o p h e t模型以及本文提出的P r o p h e t_a c o m p+g S 模型.ME受误差的全局极值的影响较大,能够在一定程度上刻画对于精细尺度下也就是高峰时间段客流量的预测效果,实验结果表明本文所提出的模型与L S TM模型,以及原有P r o p h e t模型相比,ME显著地减少,验证了本文所提模型对于精细时间分辨下地铁客流量预

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服