收藏 分销(赏)

基于混合机器学习框架的网约车订单需求预测与异常点识别.pdf

上传人:自信****多点 文档编号:639182 上传时间:2024-01-22 格式:PDF 页数:10 大小:2.87MB
下载 相关 举报
基于混合机器学习框架的网约车订单需求预测与异常点识别.pdf_第1页
第1页 / 共10页
基于混合机器学习框架的网约车订单需求预测与异常点识别.pdf_第2页
第2页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:2022-12-07*国家社会科学基金项目(21FGLB014)资助 第一作者(通信作者)简介:李之红(1981),博士,副教授.研究方向:交通规划与管理.E-mail:基于混合机器学习框架的网约车订单需求预测与异常点识别*李之红1申天宇1文琰杰2许旺土3(1.北京建筑大学土木与交通工程学院北京 100044;2.中南大学交通运输工程学院长沙 410075;3.厦门大学建筑与土木工程学院厦门 361005)摘要:城市网约车订单需求体现了居民出行活力,同时表征了出行规律和内在特征。如何从复杂动态的时变数据中准确地识别异常点并进行调度优化,是优化网约车平台运力的关键环节。建立了网约车订单

2、需求数据的时间序列图,并分析了订单需求的动态特性,提出1种基于混合机器学习框架的网约车订单需求预测模型(ARIMA-BPNN-DSR,ABD)。混合模型由差分整合移动平均自回归模型(auto regressive integrated moving av-erage model,ARIMA)和反向传播神经网络(back propagation neural network,BPNN)通过动态选择回归算法(dynamic selection of regression,DSR)融合而成。混合模型汲取了统计方法的鲁棒性和机器学习方法的高效性,并考虑各个独立基线模型在数据局部空间上的性能表现。以20

3、19年和2020年(疫情影响下)厦门市滴滴网约车平台订单数据作为试验基准并进行对比分析,结果表明:与多个基线模型相比,ABD模型实现了最优的预测性能,同时在面向疫情外部因素影响下同样表现出优异的性能;消融实验表明,在常规序列中,BPNN对融合模型的预测性能增益更高。混合模型相比较单独的ARIMA和BPNN模型,在预测性能指标上,平均绝对误差(mean absolute error,MAE)分别提高22.77%和13.50%,均方百分比误差(mean absolute percentage er-ror,MAPE指标分别提高21.71%和12.37%。另外,在受到2020年的外部干扰下,ARIM

4、A提供的稳定性至关重要;预测结果与观测值之间的残差结合3-sigma异常检测准则实现订单数据中的需求突增异常点自动识别,以此提高交通管理效率。该结果说明,提出的ABD模型具有良好的预测精度和鲁棒性。关键词:智能交通;订单需求预测;混合机器学习框架;异常点识别;网约车中图分类号:U491.1文献标识码:Adoi:10.3963/j.jssn.1674-4861.2023.03.017Order Demand Prediction and Anomaly-point Identification for OnlineCar-hailing Orders Based on Hybrid Machin

5、e Learning FrameworkLI Zhihong1SHEN Tianyu1WEN Yanjie2XU Wangtu3(1.School of Civil and Transportation Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044,China;2.School of Traffic and Transportation Engineering,Central South University,Changsha 410075,China;3.School o

6、f Architecture and Civil Engineering,Xiamen University,Xiamen 361005,China)Abstract:The demand for urban ride-hailing services holds significant potential for understanding residentstravelbehaviors,patterns and intrinsic characteristics.Accurately identifying anomalies and optimizing scheduling from

7、the complex and dynamic spatio-temporal data of ride-hailing usage can contribute to extending a platforms capaci-ty.Time series graph of ride-hailing order data is established to analyze its dynamic characteristics.Therefore,a hy-brid prediction model that predicts ride-hailing order demand based o

8、n machine learning methods,called ARI-MA-BPNN-DSR(ABD),is proposed by integrating the auto regressive integrated moving average model(ARIMA)and the back propagation neural network(BPNN)modules.To achieve the hybrid prediction model,the dynamic se-基于混合机器学习框架的网约车订单需求预测与异常点识别李之红申天宇文琰杰许旺土157交通信息与安全2023

9、年3 期第 41卷总 244期0引言网约车是当前互联网与传统打车业务融合的产物,为了满足人民群众日益增长的快捷、安全、健康出行需求,在线打车平台为共享出行提供便利。网约车订单需求预测问题是智能交通的重要组成部分,高效准确预测网约车订单需求量有助于定制有效的车辆分配和调度策略,实现需求和资源平衡。网约车订单需求数据具有复杂和非线性特征。挖掘海量数据中网约车订单需求的异常点有助于开展需求分析、应急调度、资源合理匹配,还可以改善打车环境、缓解交通拥堵。网约车的订单量通常会上下小幅的波动,但受到突发事件、天气、政策、节假日等多种因素影响,订单需求可能会出现突然增大或者快速锐减的状态,订单需求量严重偏离

10、正常波动水平,本文将其称为异常点。当这些异常点出现时往往会伴随着供需失衡或打车困难等现象,这种突变对于常规的预测模型提出严峻的挑战。准确识别订单需求数据中的异常点有助于更好地把握数据规律,及时调整模型预测参数,最终提高交通管理效率1。当前部分学者采用离散度来进行异常点检测,即衡量过去与未来数据时间t范围内的概率分布离散度,若离散度较大,则对应时间点t视为异常点。如 Heirung 等2采用广义似然比(generalized likeli-hood ratio,GLR)与累积和方法(cumulative sum,CU-SUM),使用2个概率分布之间的似然比的对数作为异常点检测的度量。然而,基于概

11、率分布的异常检测方法中的密度估计困难,且精度易受到噪声的影响3。为了克服以往研究的不足,本文提出1种新的融合模型,称为ARIMA-BPNN-DSR(ABD)。模型由经典的反向传播网络(back propagation neural net-work,BPNN)和差分整合移动平均自回归模型(au-to regressive integrated moving average model,ARI-MA)2个子模型构成,二者通过动态选择回归(dy-namic selection of regression,DSR)进行融合。融合方法区别于简单的叠加或投票方式,充分利用了各个子模型在局部数据空间上的表

12、达能力。最终,ABD预测结果与真值之间的残差结合3-sigma法则用于识别时变数据中的波动异常点。1文献综述1.1网约车订单需求预测目前,网约车订单需求预测的方法主要包括2类,即基于统计分析的预测方法和基于机器学习的预测方法。统计方法主要通过数学模型表征序列特性进而拟合预测,如利用时间季节相关性实现ARI-MA模型4,基于动力学方程的卡尔曼滤波5等。基于机器学习的预测方法主要是通过构建复杂的代理模型从大量数据中获取知识的过程,如支持向量机回归(SVR)6,随机森林(RF)7,反向传播神经网络(BPNN)8等。深度学习作为机器学习的子集,相比较上述传统统计模型拥有更强大的非线性拟合能力。Geng

13、等9将历史出租车需求区域网格化,通过循环神经网络(RNN)结合GCN实现网约车订单数据时空预测。黄昕等10提出1种融合全局特征的时空多图卷积网络用于网约车需求预测,网络将时间序列分解来拟合时间依赖关系,多图卷积捕获空间特性。Liao等11采用3个不同类型的图卷积模块建模网约车需求的空间特征,另外模型中还融合了外部属性来提高预测性能。lection of regression(DSR)method is applied to fuse these two modules.The DSR method takes advantage of therobustness of statistical

14、methods and the efficiency of machine learning methods,and considers the performance ofindependent models within the local data space.Extensive experiments and analyses are conducted on the time se-ries data from Didis ride-hailing order demand in Xiamen City,including data from 2019(without epidemi

15、c)anddata from 2020(with epidemic).Experimental results show that:The ABD model outperforms baseline models,providing accurate predictions for peak demand.Therefore,incorporating ensemble learning strategies significantlyimproves the prediction accuracy of the proposed model.Ablation experiments rev

16、eal that the BPNN significant-ly enhances the predictive performance of the fusion model in standard sequences.Compared to individual ARIMAand BPNN models,the mean absolute error(MAE)of ABD model is reduced by 22.77%and 13.50%,and the meanabsolute percentage error(MAPE)is reduced by 21.71%and 12.37%

17、,respectively.Considering the external interfer-ence in 2020,the stability provided by ARIMA is essential.By comparing the error between historical data andpredicted results with the 3-sigma anomaly detection criteria,ABD model accurately identifies anomalies in the or-der data,thereby increasing th

18、e efficiency of traffic management.In conclusion,the proposed ABD model has a bet-ter performance in both accuracy and robustness.Keywords:Intelligent transportation;Order demand prediction;Hybrid machine learning framework;Anomaly de-tection;Online car-hailing158集成学习在预测任务中表现出优异的性能。集成学习是指融合多个不同的子模型构

19、成集成框架进而提高预测性能。帅春燕等12采用LSTM+SVR模型预测网约车短时交通流。谷远利等13通过融合时空变量、空间属性变量和环境变量3个子模型进行网约车供需缺口预测,精度显著优于BPNN神经网络、长短期记忆(long short term memory,LSTM)和卷积神经网络(convolutional neural networks,CNN)模型。Chen等14将多个六边形卷积长短期记忆网络采用装袋方法对不同时段的子数据集分类并预测时间分区的潜在需求范围。混合模型的主要优势在于模型的抗干扰能力较好。然而,简单的叠加,拼接以及投票方法来融合各个子模型,这些方法混淆各个子模型对数据的表达

20、能力,容易导致预测结果无法达到最优。1.2异常检测准则针对特定的网约车订单需求的数据异常检测研究相对较少。通过借鉴了同类时间序列数据异常检测的相关研究成果,最终提出了本文的方法。交通异常检测旨在找到与主体数据偏差较大的异常点,目的在于及时对运营做出调整安排。常见的异常检测方法可以分为基于统计的方法和基于机器学习的方法。在给定样本分布的情况下,基于统计的异常检测准则假设数据服从某种分布以进行参数估计。Lam等15提出了1种内核平滑朴素贝叶斯(kernel smoothing naive bayes,KSNB)模型用于确定流量异常值并预测交通流量。基于机器学习的方法旨在通过学习的方式衡量2个样本对

21、象的相似程度,Dang等16提出了1种基于K近邻算法(k-nearestneighbor classification,KNN)的流量异常值检测方法。Cheng等17基于无监督的深度学习异常检测准则,提出了道路流量自组织图(self-organizing map,SOM-RF)模型迭代筛选异常值。许淼等18基于有监督的深度学习异常检测准则,建立堆叠降噪自编码器模型提取交通异常数据用于城市道路行程时间预测。2订单需求数据时序图分析以厦门市滴滴网约车平台出行订单需求数据作为研究对象。数据选取的时间跨度为2019年3月21日2020年12月31日,其数据属性为带时间戳的每日订单数据。为了获得高质量的

22、数据,以保证模型训练效果,对原始数据进行清洗,主要包括:数据类型转换(将字符串型转为数值型以便模型输入),检查缺失数据(对缺失的时间采用0值补齐,保证时间的连续性),删除无效的字符串(如空格等)。2.1数据周期性及平稳性特征分析滴滴网约车平台日订单量随时间变化情况见图1。由图1可见:订单数据的峰值在一定时间段内波动。另外,实心圆表示订单需求量最高的日期,空心圆点表示订单需求量最低的日期即2019年5月23日。2019/03/21 2019/05/19 2019/07/18 2019/09/16 2019/11/15 2019/12/31420 000400 000380 000360 0003

23、40 000320 000300 000280 000260 000240 000220 000观测值最大值最小值时间索引(单位:日)日订单需求量(单位:单)图12019年逐日订单量日变化时间图Fig.1Timegraphof dailyordervolumein2019由于网约车订单时变数据与城市居民通勤具有较强相关性,因此聚合7 d的订单数据开展分析。为了进一步说明该时间序列数据具备稳定性和周期性,计算7 d订单需求量的平均值和方差。基于上述2项指标判断时间序列是否属于平稳序列,为提出合适的时间序列预测模型提供依据。若时间序列数据并不平滑、骤突骤降较多(如股票数据),则认为序列不具备可预测

24、性。对于平稳数据,如果序列具备明显的周期性和趋势性则可以考虑统计方法。反之,可使用机器学习方法。将2019年滴滴出行平台的订单需求量以7 d为1个周期进行聚合,通过统计分析,结果见图2。由图2可见:7 d订单需求量均值基本稳定,位于整体均45 00040 00035 00030 00025 00020 00015 00010 0007日订单需求量平均7日订单需求量方差0510152025303540时间索引(单位:日)7日平均订单需求量(单位:单)方差400 000350 000300 000250 000200 000150 00010 00050 000图2周期(7日)统计的数据时间跨度内

25、的2019年订单需求量均值与方差Fig.2Averagevalueandvarianceof orderdemandwithinthedatatimespan of cycle(7days)statisticsin2019基于混合机器学习框架的网约车订单需求预测与异常点识别李之红申天宇文琰杰许旺土159交通信息与安全2023 年3 期第 41卷总 244期值线(见深色水平线)上下浮动变化不明显,每个周期内的方差见点线图,其在第15个周期和第27个周期出现较大的变动,其余周期内订单需求量方差围绕整体订单需求量方差(见浅色水平线)上下浮动变化不明显。因此,根据均值和方差限制,订单数据在以时隙为7的

26、周期内具备平稳性。基于上述分析可知,2019年滴滴订单时间序列数据具备一定的周期性和平稳性,最终选定融合模型的基线模型分别为:适用于平稳过程的ARIMA模型和基于机器学习的BPNN神经网络模型。2.2异常点检测准则n-sigma 准则是异常检测准则中常用的方法。它在假定数据近似正态分布的前提下具备计算方式简单、直观的优点。因此,通过正态分布检验确定数据适用性。基于SPSS软件进行正态分布检验,结果见表1。由表1可见:sig值大于0.05,即数据通过正态分布检验。表1正态分布检验结果Tab.1Results of normality distribution test指标日订单量Shapiro-

27、Wilk统计量0.994df286sig.0.363通过Q-Q图(见图3),数据点基本落在直线附近,说明该样本数据集满足正态分布,因此对于滴滴订单需求数据异常点检测准则采用n-sigma准则是合理的。450 000400 000350 000300 000250 000200 000200 000250 000300 000350 000400 000450 000期望的标准观测值参考线观测值图3逐日订单量数据的标准Q-Q图Fig.3StandardQ-Q chartof dailyorderdemanddata3混合机器学习框架及其异常点识别3.1ARIMA-BPNN-DSR集成预测模型由于

28、网约车需求订单需求量受到多因素的影响,很难找到1个具有全局适应性的模型。DSR算法可在数据的局部空间筛选最优的回归模型拟合订单数据。其优点是能够考虑不同模型在数据构成的不同局部空间的表现能力可能具备差异性,在一定程度上缓解了传统组合模型对数据的理解偏差。对于异常点的判别,往往需要模型具备快速的响应,因此本文研究采用的基线模型分别为BPNN神经网络与ARIMA,并且通过DSR算法对其融合,最终构建ARIMA-BPNN-DSR(ABD)框架。本文所使用的2类不同性质的时间序列预测模型,ARIMA模块见式(1)。在建立ARIMA模型前,首先需要对原始时间序列进行d阶差分使得数据平稳,即具备可预测性。

29、ARIMA模型需要确定的参数为pdq,其中,d的作用是使得时间序列数据更为平稳,通过在不同值下观察时间序列差分图变化确定值大小;pq采用贝叶斯信息准则(BIC)结合网格搜索确定组合取值19,见式(2)。yt=u+i=1piyt-i+i=1qit-i+t(1)BIC()p*q*=kIn()n-2In()l(2)式中:下标t为时间索引;i为阶数索引;t-i为距离t时刻的过去第i个时刻;pq分别为 AR 阶数与MA阶数;yi为当前时刻的观测值;u为常数项;i为当前时刻的观测误差;yt-i为历史观测值;t-i为历史观测误差;i,i为自相关系数;k为参数个数;n为样本个数;l为模型的最大似然函数值。BP

30、NN神经网络模块是根据梯度信息逆向传播算 法 训 练 的 多 层 前 馈 网 络。模 块 输 入 向 量Y=()yt-1yt-2yt-7由历史 1 周中每日的网约车订单需求量观测值组成,输出为当前日的订单需求量观测值yt,即输入维度为7。隐藏层维度设置为3,输出层维度为1。信息的正向传递见式(3)。非线性激活函数f(z)采用sigmoid函数,见式(4)。A=f()WY+b(3)f()z=11+e-z(4)式中:W为权值矩阵;b为阈值向量;z为输入张量经过线性变化后的输出张量。动态选择回归算法(DSR)的核心是K最近邻算法(KNN),KNN可被用于搜索与测试数据距离K条最近的训练数据集,K条训

31、练数据集构成数据的局部空间。回归模型在训练数据的局部空间进行性能测验,选择性能最优的回归模型用于测试数据的预测。经过研究证实KNN算法结构简单且易于解释,计算迅速且结果准确20。DSR的步骤如下。1601)训练数据xiX,测试数据tiT,根据式(5)计算X与T之间的相似距离dis()xiti。dis()xiti=i=1n()xi-ti2(5)2)选择前K个与ti距离最近的训练数据组成局部空间()x1ixKiSi。3)分别计算BPNN神经网络与ARIMA在局部空间Si的预测结果的平均绝对误差,分别为MAE1和MAE2。4)针对每一条测试数据集ti,选择对应在该局部空间Si平均绝对误差最小的模型用

32、于测试数据ti的预测。预测结果yi作为ABD最终的预测结果。ABD技术框架见图4。开始时间序列图分析是否满足平稳性ARIMA模型BP神经网络是KNN训练数据测试数据k条与测试数据最邻近的训练数据是否得到最优模型推理是否为异常点报警是结束基于混合机器学习框架的网约车订单需求预测模型(ABD)否是数据异常点识别否否平稳性处理训练和预测图4ABD混合机器学习模型框架逻辑框架图Fig.4LogicaldiagramofABD hybridmachinelearningframework3.2评价指标为了对不同的预测模型进行性能评价,将采用2种不同类型的误差指标作为融合模型的评价指标。平均绝对误差 MA

33、E,见式(6)。均方百分比误差MAPE,见式(7)。2项指标值越大,误差越大,模型的预测性能越低。IMAE=1ni=1n|yi-yi(6)IMAPE=1ni=1n|yi-yiyi(7)式中:n为样本总数;yi为第i个样本的预测值;yi为标签值。由于MAPE没有上界,因此对异常值敏感,故在ABD中采用MAE作为选定最优模型的首要评价指标。3.33-准测本文采用的异常点识别准测为n-准则,该准则是1种无监督的异常检测方法,可以在真实数据检测出异常值,在对比中获得更好的性能。目的是在复杂的订单序列中通过有效手段,将隐藏在序列中的异常点识别出来并进行事后分析。本文在构建网约车订单需求预测模型时,同时考

34、虑了异常点的识别、筛选、剔除、清洗等过程。通过预测结果与真实标签的残差,结合n-法则以实现准确的订单时序数据异常点自动识别。由于3-准则认为数据点落在区间(-3+3)内的概率为99.74%,如图5所示。由图5可见:y落在(-3+3)以外的概率小于3,即数据点在该区间外的事件是几乎不会发生的,即可判定该点为波动异常点。-3-2-+2+30.40.30.20.10.0概率密度样本值标准正态分布2.1%13.6%34.1%34.1%13.6%2.1%图5n-中n的取值依据Fig.5electionbasisforninn-3-准则异常检测方案如下。首先计算每个时间点对应需求订单数据的误差,即残差,见

35、式(8)。基于残差值采用3-准则,见式(9)。Ierror=|y-y(8)f()Ierror=12exp-()error-u222(9)式中:y为融合模型给出的的预测值;y为观测值;为残差的均值;为残差的标准差。4实验结果与分析4.1实验设置4.1.1实验数据集说明采用的数据集为2019年3月21日12月31日基于混合机器学习框架的网约车订单需求预测与异常点识别李之红申天宇文琰杰许旺土161交通信息与安全2023 年3 期第 41卷总 244期的未受疫情影响的厦门市滴滴出行平台网约车日订单数据。本文采取与大多数机器学习文章相同的分割比例21,将数据集划分为训练集、验证集和测试集,它们的占比为3

36、 1 1。模型通过学习历史7 d的订单量数据来预测相邻未来1 d的订单数据。4.1.2实验超参数设置为了保证实验的可行性与可重复性,通过交叉验证与网格搜索法确定模型中涉及到的超参数。经过多次的试错试验确定模型的相关超参数设置细节见表2。表2融合模型所使用的超参数说明Tab.2Description of hyperparameters of fusion model模型ARIMABPNNDSR参数pdq学习率隐层单元反向传播算法迭代次数K取值1000.013Adam2005定义偏自相关阶数差分阶数自相关阶数缩放步长特征缩放维度数更新网络参数的方式网络遍历1次训练数据集的次数选择与测试数据集最邻

37、近的训练数据集数目图6显示了模型的收敛情况,ABD在大约55次迭代达到收敛。0102030405060700.350.300.250.200.150.10训练轮次误差图6ABD模型拟合残差曲线图Fig.6Curveof loss functionofABD model4.2分析与讨论4.2.1基线模型对比为了进一步评估本文方法的性能,在相同的训练集和测试集上将ABD的预测精度与2个先进的时序预测基线模型进行对比分析。通过对比基线模型的泛化性能并讨论融合模型相比较单个模型的预测提升程度,以证明其有效性。这2种基线方法包括:随机森林(RF)和 XGBoost。在预测结果中,使用MAE和MAPE指标

38、来评估预测模型的准确性和稳定性,结果见表3。表3融合模型与各基线模型的预测精度指标对比Tab.3Evaluation metrics results of each sub-model指标MAE/(104)MAPE/%基线模型ABD1.735.95RF1.986.83XGBoost2.217.55由表3可见:XGBoost的性能不足而RF性能次优,ABD作为混合模型相对于基线模型性能得到了明显的提升。ABD模型相比较次优模型RF,MAE下降了12.6%,MAPE下降了12.8%。各个基线模型在2019年测试集上的逐日预测可视化结果见图7。由图7可见:ABD的拟合结果最接近真实值,相比单个模型如

39、BPNN、ARIMA的预测效果有显著提高。050100150200250300观测值ABDBPARIMAXGBoost随机森林400 000350 000300 000250 000200 000日订单需求量(单位:单)时间索引(单位:日)图72019年数据上多模型逐日订单量预测结果Fig.7Comparisonof dailyordervolumepredictionsresultsof multiplemodelsin20194.2.2消融实验为了评价各个模块对ABD的增益,本节开展消融实验,对比的基线模型为基于ABD的变体,分别为BPNN(ABD取消ARIMA,用于评估ARIMA模型的增

40、益),ARIMA(ABD取消BPNN,用于评估BPNN模型的增益)。结果见表4。由表4可见:ABD性能优于BPNN和ARIMA模型,相比较单独的ARIMA统计分析模型,ABD在MAE上下降22.43%,MAPE下降21.60%;相比较单独的BPNN神经网络MAE下降13.26%,MAPE下降12.31%。表42019年数据上消融实验预测精度指标对比Tab.4Comparison of ablation by ABD model in 2019指标MAE/(104)MAPE/%BPNN2.006.79ARIMA2.247.60ABD1.735.95消融实验中各个模型在测试集上的逐日的预测可视化结

41、果见图8。虽然ARIMA与BPNN神经162网络的单独拟合效果较差,但在处理时间序列数据方面各自具有独特的优势。相反,ABD模型结合了二者的优势,基本拟合出了真实的网约车订单需求量状态。050100150200250300400 000350 000300 000250 000200 000日订单需求量(单位:单)时间索引(单位:日)观测值ABDBPARIMA图82019年数据上消融实验的逐日订单量预测结果Fig.8Ablationof dailyordervolumepredictionsresultsin 2019另外,通过观察发现各个模型在各个趋势变化点处均产生相较观测值滞后的预测结果。

42、较小幅度的趋势变化可能对模型整体的性能影响不大,但是当需求量发生突变的时候,预测性能可能会遭遇“滑铁卢”式下降。因此,往往需要识别出此类异常点并进行特殊处理以保证模型的预测性能。4.2.3数据异常点检测为了自动识别网约车订单数据中存在异常点,计算观测值与预测值的残差项并采用3-sigma准则进行分析。ABD在2019年数据上的订单需求量预测残差见图9,整体残差均值u见深色水平线,残差正常值上界u+3见浅色水平线。预测结果一共包含286个时间点,整体残差均值为 15 306.54,标准差为 16165.37。异常点即预测残差在某1 d明显偏高或偏低,从数据趋势上来说,前1 d与后1 d的变化量超

43、过正常范围,当预测残差处在()u-3u+3区间时可认为该预测结果是可以接受的。当预测残差在此区间外,即位于+3下方或位于-3上方,则可以识别到该日订单数据量为异常数据点。基于上述思想的异常点识别结果见图10,在该时间段内共识别出 3 个异常点,对应日期分别为2019年5月24日(星期五)、2019年8月26日(星期一),以及2019年9月30日(星期一)。由图10可见:2019年8月26日和2019年9月30日均为星期一,该日网约车需求量相比较前一休息日的需求量产生了大幅度下跌,且需求量明显低于平均需求,模型对这种变化无法及时地作出响应,因此被判别为异常点。类似地,2019年5月24日前后2

44、d的网约车需求数据产生了较大波动,因此被识别为异常点。060120180240300400 000350 000300 000250 000200 000ABD检测所得异常点日订单需求量(单位:单)时间索引(单位:日)图102019年数据上预测数据的异常点检测结果Fig.10Anomalypointdetectionresultsin20194.2.4面向疫情干扰下的异常点检测本文同时分析了2020年1月1日10月25日的厦门市滴滴出行平台网约车日订单数据,该组数据见图11。该时间段内打车需求量受到疫情的冲击产生了非平稳的序列。500 000450 000400 000350 000300 0

45、00250 000200 000观测值最大值最小值2020/06/01 2020/07/01 2020/08/01 2020/09/01 2020/10/1 2020/11/01日订单需求量(单位:单)时间索引(单位:日)图112020年逐日订单量日变化时间图Fig.11Timegraphof dailyordervolumein2020同样的,ABD模型预测2020年时间段内的打80 00060 00040 00020 0000050100150200250300预测残差ABD检测所得异常点时间索引(单位:日)图92019年数据上逐日订单量预测残差Fig.9Residualerrorof d

46、ailyordervolumepredictionsresultsin2019基于混合机器学习框架的网约车订单需求预测与异常点识别李之红申天宇文琰杰许旺土163交通信息与安全2023 年3 期第 41卷总 244期车需求,预测结果见图12。由图12可见:即使在受到外部环境干扰下,ABD模型仍能得到较好的拟合效果。450 000400 000350 000300 000250 000200 000150 000020406080100120140BPARIMAABD Model观测值日订单需求量(单位:单)时间索引(单位:日)图122020年数据上消融实验的逐日订单量预测结果Fig.12Abla

47、tionof dailyordervolumepredictionsresultsin2020为了进一步说明ABD模型的鲁棒性,与2019年数据(非疫情影响下)的预测结果进行对比分析,结果见表5。由表5可见:ABD在非疫情下的打车需求预测精度明显高于疫情下的打车需求预测精度,这证实了疫情影响下的打车需求更加随机,因此给预测带来了挑战;即使在疫情影响下,ABD的预测性能有所下降,但是预测结果仍然是可以接受的;在疫情等外部环境干扰下,网约车需求波动较大,BPNN神经网络无法准确把握波动趋势,预测精度不足。为了克服这个问题,本文融合了BPNN神经网络和ARIMA模型的各自优势,通过动态选择回归(DS

48、R)算法最终构建了基于混合机器学习框架的网约车订单需求预测模型(ABD),经验证在疫情等外部环境干扰下模型的性能显著提高。表5不同数据上消融实验预测精度指标对比Tab.5Comparison of prediction accuracy of ablation byABD model on different time range data指标MAE/(104)MAPE/%时间段2019202020192020模型BPNN2.004.306.7915.29ARIMA2.242.157.607.45ABD1.732.075.957.15同样,ABD预测结果结合3-法则对2020年疫情干扰下的数据

49、进行异常检测分析。ABD的预测残差见图13,预测结果一共包含139个时间点,整体残差均值u为20 679.56(见深色水平线),标准差为19 492.31。结合异常准则的检测结果见图14,在该时间段内共识别出3个异常点,对应日期分别为2020年6月19日、2020年9月27日、2020年9月29日。可以发现,2019年和2020年的数据集上,均存在网约车需求量相比较前1 d的需求量产生了大幅度下跌的状况,且需求量明显低于平均需求,模型无法及时应对这种突变。400 000350 000300 000250 000200 000150 000020406080100120140ABD检测所得异常点

50、时间索引(单位:日)日订单需求量(单位:单)图142020年数据上预测数据的异常点检测结果Fig.14Anomalypointdetectionresultsin20205结束语本文针对滴滴网约车平台订单需求时间序列数据提出ABD预测模型,预测模型由差分整合移动平均自回归模型(ARIMA)和简单的反向传播网络(BPNN)通过动态选择回归(DSR)融合而成。ABD模型相比较单个预测模型以及既有的集成模型具备更高的网约车需求预测精度。预测残差结合3-准则判断订单异常点,结果表明模型能够准确识别时序数据中的异常点。另外,ABD模型从数据拟合和统计的角度出发,实现订单需求预测和异常点检测。因此,提出的

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服