收藏 分销(赏)

基于随机森林算法的航班延误时间预测模型研究.pdf

上传人:自信****多点 文档编号:3655849 上传时间:2024-07-12 格式:PDF 页数:8 大小:1.09MB
下载 相关 举报
基于随机森林算法的航班延误时间预测模型研究.pdf_第1页
第1页 / 共8页
基于随机森林算法的航班延误时间预测模型研究.pdf_第2页
第2页 / 共8页
基于随机森林算法的航班延误时间预测模型研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第期V o l ,N o 滨州学院学报J o u r n a l o fB i n z h o uU n i v e r s i t y 年月A p r,【航空科学与工程研究】基于随机森林算法的航班延误时间预测模型研究收稿日期:基金项目:南京职业技术大学教育研究课题(Z B Y B )第一作者简介:许振腾(),男,山东聊城人,讲师,硕士,主要从事载运工具运用工程研究.E m a i l:x u z h e n t e n g c o m许振腾,王琪(南京工业职业技术大学 航空工程学院,江苏 南京 ;上海机场(集团)有限公司,上海 )摘要:航班延误一直是影响航空公司运行效率和经济效益的关键

2、问题.航班延误时间预测的方法较多,但是存在准确率不高、影响因素考虑不全面等问题.为了解决上述问题,提出了一种基于数据驱动的航班延误时间间接预测模型.该模型以机场协同决策系统的数据为依据,采用随机森林算法,直接预测航班在场停留时间和最终起飞时间,然后计算得出航班延误时间.通过实验数据进行验证,证明该预测模型按照 m i m航班延误标准进行评估的准确率达 .该模型可以为航空公司的航班延误预测提供支持,从而有针对性地优化机队运行流程,提高运行效率.关键词:航班延误;预测模型;随机森林;数据编码中图分类号:V 文献标识码:AD O I:/j c n k i 引言航空运输业一直以来都面临着诸多挑战,其中

3、之一便是航班延误问题.航班延误不仅对航空公司和机场运营商造成巨大的经济损失,还给旅客带来了诸多不便.尽管航空公司已经采取了各种措施来减少延误,但仍然存在许多因素(如气象条件、机械故障、航空管制等),可能导致航班延误的发生.根据全球航班信息和航空数据的在线平台F L I GHT S T AT S提供的信息,年月份全球航班准点率最高的 个机场的平均准点率为 ,亚洲地区航线的平均准点率只有 ,北美地区航线的平均准点率最低,只有 .为了降低航班延误的影响,学者们对航班延误时间进行预测,建立了不同的预测模型.文献 结合D e n s e N e t和S E N e t,提出了深度S E D e n s

4、e N e t算法模型进行延误预测;文献 使用支持向量机(S u p p o r tV e c t o rM a c h i n e,S VM)的模型来探索飞行延误结果之间的非线性关系;文献 使用了多种常用的机器学习算法(如多元线性回归算法、决策树算法、随机森林算法、梯度决策树算法等)进行对比分析,旨在提高延误预测的准确性.虽然在航班延误预测的方法选择上有较高的自由度,但是影响航班运行的因素偏多,大部分研究没办法做到影响因素全面覆盖.如文献 未考虑特殊航空公司、飞机注册号和起始/目的地等;文献 未使用空中交通控制数据等.基于上述原因,本文提出了以航班运行数据为基础的数据驱动航班延误预测模型.该

5、模型的数据来第期许振腾,王琪基于随机森林算法的航班延误时间预测模型研究源为机场协同决策系统(A C DM),采用的算法为随机森林算法,预测过程采用间接预测,即通过预测相关数据,计算出航班延误时间,而不是直接预测航班延误时间;通过对真实航班运行数据进行预测,证实该方法切实可行.数据处理及分析本节主要对从A C DM中下载的数据进行初步处理和分析,并对一些基本参数进行定义.通过数据的处理,一方面对数据格式进行修改,增强数据的易读性,另一方面保证用于预测数据的准确性.数据分析主要是对航班运行数据进行初步计算分析,确定航班运行的基本趋势和规律,为进一步的研究提供依据.数据选取A C DM旨在建立一个高

6、度协作的机场运营环境,确保机场资源的高效利用、增加容量、减少延误、增强乘客体验、降低运营成本,并促进整个航空业的可持续性.该系统在全球范围内得到广泛应用,为各种规模和类型的机场提供支持.A C DM中的数据包含很多时间节点,如计划到达时间(S T A)、最晚周转时间(L T O T)、计划出发时间(S T D)、登机口开启时间(G O T)等.为了进一步确定实验数据选取的时间,对 年至 年某机场的航班运行数据进行了分析,结果如图所示.图 年的航班量及过站时间由图可以看出,年总航班量与 年还有较大差距,但是国内航班量已超过疫情期的水平,差别较大的是国际/地区航班量.国际/地区的航班数量虽然还没有

7、达到疫情期的水平,但是也在逐年递增,伴随时间的推移,必将会超过疫情前的航班量.年的过站时间相较 年已有明显降低,但是依然比 年用时要长.导致这一现象的原因主要是疫情期间为航班周转增加了一些新的操作流程,而这些流程在疫情结束后依然保留,因此过站时间变长.结合上述分析,本文选用了某机场 年月份的运行数据.数据处理从A C DM导出的数据包含很多信息,其中有些信息如果不处理掉,可能会对分析造成负面影响,因此需要先进行数据预处理.本文的数据处理过程共包含个步骤:第步,将节点时间转换成时长;第步,根据到港状态指示数据(S TUA和S TUD),筛选出实际到达机场的航班;第步,根据到港时间(A L D T

8、)选择时间为:的航班;第步,根据目标停机位(T A R)选择号停机坪的航班,T A RN r 滨州学院学报第 卷 ;第步,提取机型(I T Y)、停机位(T A R)、实际到达时间(A L D T)、计划起飞时间(S T D)、上轮挡、开客舱门、登机口开、撤轮挡、实际起飞时间(AT O T)、最终起飞时间(L T O T)、延误时长;第步,删除表格中的空数据、删除或修正错误数据.在上述步骤中,第步和第步需要进行计算,其余步骤需要根据条件进行数据筛选.A C DM中的大部分时间节点数据都是日期和时间的形式,为了方便后续的处理,需要设定一个起始时间点,然后将其他时间转化成时间差,以分钟为单位.除了

9、已知的时间节点之外,预测分析用到的时间也是以时间差的形式给出.大多数学者进行数据清洗时优先选择删除错误数据,或者根据已知数据补充空数据.本文提出了对错误数据进行修正的新方法,即通过相关数据的数值特点,来判断错误数据产生的原因,根据原因对错误数据进行纠正.因为航班运行数据中采集了所有的航班,也包括取消航班和备降航班,但是这部分数据会大大降低延误预测的精确度,因此需要通过S TUA和S TUD来进行筛选.筛选过程中,保留S TUA和S TUD为“到达”的数据,删除其他数据.本文重点解决正常过站航班的延误问题,不考虑夜间停场航班的延误,因此通过A L D T时间进行了筛选.这样做的一个好处是,时间具

10、有线性关系,可以直接进行编码.如果考虑 h内的航班延误情况,则需要对时间进行三角变换.数据分析本节内容主要对平均服务时间进行统计分析.平均服务时间用来衡量一个航班在机场接受地面勤务的总时间,该时间并非净服务时间,而是包含等待勤务的时间,其计算公式为Ts e vn(to biti bi)n(i,n).式中,Ts e v为平均服务时间,to bi为撤轮档时间,ti bi为上轮档时间,n为同一机型航班数量.经计算后的平均服务时间如表所示.表平均服务时间统计数据机型航班数量中位时间/m i n最长时间/m i n最短时间/m i n平均时间/m i nB B A N A A A A A A B B B

11、 W B B 为了进一步阐述各数据之间的关系,将计算结果绘制成K线图,如图所示.根据上述统计可知,不第期许振腾,王琪基于随机森林算法的航班延误时间预测模型研究同机型的最少用时非常接近,因此这一数据的参考意义不大;最大用时因机型不同差别较大,可作为极限条件下的时间参考.除了B 和B 的结果为阴线外,其他机型均为阳线,即平均用时大于中位用时,说明多数航班的服务时间少于平均用时,因此如果在后续计算中选用平均用时,会给预测带来较大的裕度.图平均服务时间K线图预测模型构建本节将对不同的算法进行分析,并给出选择随机森林算法进行模型建立的原因,随后结合航班延误预测问题,使用随机森林算法进行建模.算法选择在预

12、测模型领域,目前比较流行的算法主要有两类,一类是机器学习算法,另一类是深度学习算法.两种算法的应用领域略有不同,机器学习算法主要针对的是大数据模型的预测,深度学习算法则更倾向于处理一些文本、图形类的数据.因此,在进行过站模型的预测时,大部分选用的是机器学习算法.常用于机器学习的算法有:随机森林模型、广义线性模型(G LM)、梯度提升模型(G BM)、K m e a n s、P r o p h e t.上述算法都有各自适用的领域,也都存在一些不足.广义线性模型需要相对较大的数据集,并且容易受到异常值的影响;梯度提升模型按顺序构建每棵树时,往往需要更长的时间;K m e a n s算法广泛应用于医

13、疗保健领域的预测分析中;P r o p h e t算法则在容量规划中非常有用.本文选用的预测模型为随机森林模型,主要考虑该模型具有以下优点:()模型采用多棵树的运算方式,可以有效减小单棵树的误差;()随机森林模型可以有效抵制过度拟合,并且可以同时处理较多的数据;()对于多变量的预测,可以估计变量的重要性,并在出现数据丢失时保持预测的准确性.建立模型本模型的预测目标是航班延误时间,因此有两种预测方案:直接预测和间接预测.直接预测是指,根据已知的特征变量预测出航班延误时长.间接预测需要先寻找航班延误时间的计算依据,确定与其计算相关的参数,通过模型预测出上述参数,并计算得到航班延误时长.直接预测和间

14、接预测各有优劣:直接预测只预测一个结果,所以对特征变量要求较高,需要找到能够准确预测出结果的特征变量,难度较大;间接预测因为有多个预测结果,所以会造成预测误差的叠加.通过大量实验发现,直接预测难以获得满意的预测效果,而间接预测的正确率更高,因此最终采用了间接预测的方法.随机森林预测模型如图所示.由图可以看出,随机森林预测过程主要包括三部分内容:数据拆分、训练和测试.在数据拆分环节,数据集被分成两个子集,分别是训练集和测试集,各占总数据集的.随机森林回归(R F R)是一类基于决策树的机器学习算法,在使用训练集进行模型训练的过程中,大部分数据将被直接打包,并通过不同滨州学院学报第 卷的决策树进行

15、拟合,另外有 的数据用于检测模型是否存在过拟合.图随机森林模型预测过程决策树评价回归质量的标准选用的是均方误差(M e a nS q u a r e dE r r o r,MS E),计算公式为M S Emm(yfiyci)(i,n).式中:m是一棵决策树上的节点数量,yfi是父节点的数值,yci是子节点的数值.在决策树每一个节点的选择中,M S E更小的节点将被视为回归质量高的节点.每棵树都是随机从个特征中选择固定数量的特征子集,且都尽最大可能地生长,并且没有剪枝的过程.最终每棵树都会获得对应的预测结果,根据预测结果占比,可以获取最合理的结果,并作为最终预测结果.在这一过程中,根据学习曲线,

16、不断整理参数,以获取最佳结果.测试集的主要作用是验证模型的效果.在测试环节所用的决策树不需要再进行训练,直接使用在训练环节已经确定的树.同样,打包所用的参数也是训练过程中保存下来的,当获取到测试数据集的最终预测结果后,可以计算本模型的精度.本文选用确定系数R来对模型进行评估,计算公式为Rn(yiyi)n(yiyi)(i,n).式中:n数据集的数据量,yi是原始数据,yi是预测数据,yi是原始数据均值.R的取值范围为,如果结果是,说明模型拟合效果很差,如果结果是,说明模型无错误.数据编码及计算过程A C DM中的数据包含分类、时间相关和数值三大类.针对上述类型的数据,主要的编码方法有:目标编码、

17、三角编码和数字编码.本文在编码过程中用到了目标编码和数字编码,同时针对时间相关特征数据提出了时间转换编码方法.时间转换编码方法的核心原理是建立时间基线,将日历时间转变成时长.本文使用的时间基线是上轮挡时间ti b.根据A C DM提供的数据可知,航班延误时间(F D T)的计算公式为F DT tA T O TtL T O T.()将最终起飞时间(L T O T)转换成时长的计算公式为L T O T tL T O Tti b.()航班在场停留时间(DUR)的计算公式为 DU R tA T O Tti b.()第期许振腾,王琪基于随机森林算法的航班延误时间预测模型研究航班服务时间(S T)的计算公

18、式为S T to bti b.()将客舱门开启时间(C D O T)转换成时长的计算公式为C D O T tC D O Tti b.()将登机口开启时间(G O T)转换成时长的计算公式为G O T tG O Tti b.()公式()()中,()所表示的时间均为时长,单位为m i n,t()所表示的时间为日历时间,可直接在A C DM中获得.根据公式()()可以得出F DT DU R L T O T.()根据公式()和公式(),确定了预测模型的标签,分别是S T、DU R 和L T O T.特征变量的选择则是通过大量的实验来完成的,通过实验确定了DU R、C D O T 和I T Y C(机型

19、编码)三个特征变量.其中DU R、C D O T 可以通过公式()和公式()计算得出,I T Y C则需要进行目标编码.I T Y C是对A C DM中的I T Y进行编码.I T Y对应的数据为机型编号.在本文所涉及的数据中,与机型关系最密切的是勤务时间,因此将表中机型的平均服务时间作为目标编码的原始数据,最终确定的I T Y C如表所示.表I T Y C对照表I T YB B A NA A A A I T Y C I T YA A B B B WB B I T Y C 预测过程及结果本节主要对前文所述模型和方法进行验证.使用p y t h o n中的s k l e a r n工具包,结合章

20、节中的计算过程,实现随机森林预测模型的搭建,随后进行参数设置.经过大量实验和调试后,最终确定参数数值:t e s t_s i z e ,r a n d o m_s t a t e,m a x_d e p t h,n_e s t i m a t o r s ,n_j o b s.本文使用的总数据集为某机场 年月份(不含月 日)的运行数据,原始数据 条,经过处理后的可用数据共计 条.在模型训练过程中,测试集占比,使用经实验确定的模型参数,训练出的模型效果如表所示.表随机森林模型效果特征标签R_t r a i nR_t e s tDU R、C D O T、I T Y CS T DU R L T O

21、T 根据表的结果可以看出,训练集的R基本接近,说明模型误差很小,测试集除了DU R 之外,其他两个标签的R也都接近.对于一般训练模型,R值大于,说明模型的训练效果较好,因此本模型对DU R 的预测远远高于一般标准.下面使用本模型对月 日共 个有效航班的延误情况进行预测.本文选用的 个航班的到场时间最早为:,最晚为:,包含了当日除停场航班之外的所有过站航班.另外,从:至:共有个航班到达机场,航班密度较大.因此从时间跨度和航班密度两个维度来分析,本次选择的数据非常有代表性.使用训练后的模型对上述航班进行延误预测,预测结果如滨州学院学报第 卷图所示.通过图中的折线图可以看出,预测值和真实值基本一致,

22、通过柱状图可以看出,两者误差均在m i n以内.本次预测最大正向误差约为 m i n,最小正向误差约为m i n,最大反向误差约为 m i n,最小反向误差约为 m i n,误差跨度(正向误差减反向误差)保持在 m i n.按照中国民用航空局 m i n定义航班延误的标准,本次预测结果的正确率为 ,即使将时间限制在m i n以内,本预测模型的正确率也高达.图模型预测结果与真实航班运行数据对比结论经过上述理论研究与实践测试,本文实现了预设目标,主要取得如下成果:()分析了 年以来航班流量及过站时间情况,从数据层面证实了疫情后航空产业的不断恢复;()通过计算得出了不同机型的平均服务时间,创造性提出

23、了以服务时间为参考的机型编码方法;()根据航班延误时间难预测的特点,首次提出了以A C DM数据为驱动,以随机森林算法为手段的间接预测方法;()利用在场停留时间DU R和最终起飞时间L T O T预测准确率高的特点,通过计算得出航班延误时间,提升了整体模型的预测准确率.针对此类研究,本文需进一步完善,即减少预测模型的输入参数,提升模型的预测准确率,探索以大模型为基础的航班延误预测方法,降低对A C DM数据的依赖.参考文献:C I R I UM T h eo n t i m ep e r f o r m a n c em o n t h l yr e p o r t a i r l i n e

24、 sE B/O L h t t p s:/www c i r i u m c o m/t h o u g h t c l o u d/c i r i u m m o n t h l y o n t i m e p e r f o r m a n c e r e p o r t /WURB,Z HAOT,QUJY F l i g h td e l a yp r e d i c t i o nm o d e l b a s e do nd e e pS E D e n s e N e tJ J o u r n a lo f e l e c t r o n i c s&i n f o r m a t

25、 i o nt e c h n o l o g y ,():E S MA E I L Z A D EH E,MOKHT A R I MOU S AV IS M a c h i n el e a r n i n ga p p r o a c hf o rf l i g h td e p a r t u r ed e l a yp r e d i c t i o na n da n a l y s i sJ T r a n s p o r t a t i o nr e s e a r c hr e c o r d,():YW B,L I U B,T I AN Y,e ta l A m e t h

26、o d o l o g yf o rp r e d i c t i n ga g g r e g a t ef l i g h td e p a r t u r ed e l a y si na i r p o r t sb a s e do ns u p e r v i s e d l e a r n i n gJ S u s t a i n a b i l i t y,():WANGZ,L I AOC,HANGX,e ta l D i s t r i b u t i o np r e d i c t i o no fs t r a t e g i cf l i g h td e l a y

27、 sv i am a c h i n el e a r n i n gm e t h o d sJ S u s t a i n a b i l i t y,():第期许振腾,王琪基于随机森林算法的航班延误时间预测模型研究B AN S A LJC,S HA RMA H,J A D ONSS,e t a l S p i d e rm o n k e yo p t i m i z a t i o na l g o r i t h mf o rn u m e r i c a l o p t i m i z a t i o nJ M e m e t i cc o m p u t i n g,:YUB,G

28、UOZ,A S I ANS,e t a l F l i g h t d e l a yp r e d i c t i o n f o r c o mm e r c i a l a i r t r a n s p o r t:ad e e p l e a r n i n ga p p r o a c hJ T r a n s p o r t a t i o nr e s e a r c hp a r tE:l o g i s t i c sa n dt r a n s p o r t a t i o nr e v i e w,:HO R I GU CH IY,B A B AY,KA S H I

29、MA H,e ta l P r e d i c t i n gf u e l c o n s u m p t i o na n df l i g h td e l a y s f o rl o w c o s t a i r l i n e sC/P r o c e e d i n g so f t h eAAA Ic o n f e r e n c eo na r t i f i c i a l i n t e l l i g e n c e T h eT w e n t y n i n t hI n n o v a t i v eA p p l i c a t i o n sA r t i

30、 f i c i a l I n t e l l i g e n c e c o n f e r e n c e,F e b r u a r y ,S a nF r a n c i s c o,C a l i f o r n i aU S A AAA IP r e s s,():Z OUT E N D I J K M,M I T I C IM P r o b a b i l i s t i c f l i g h td e l a yp r e d i c t i o n su s i n gm a c h i n e l e a r n i n ga n da p p l i c a t i

31、 o n s t ot h e f l i g h t t o g a t ea s s i g n m e n tp r o b l e mJ A e r o s p a c e,():中国民用航空局,C C A R ,航班正常管理规定Z/O L h t t p s:/www c a a c g o v c n/X X GK/X X GK/MHG Z/t _ h t m l R e s e a r c ho nF l i g h tD e l a yT i m eP r e d i c t i o nM o d e lB a s e do nR a n d o mF o r e s tA l

32、 g o r i t h mXUZ h e n t e n g,WANGQ i(S c h o o l o fA e r o n a u t i c a lE n g i n e e r i n g,N a n j i n gV o c a t i o n a lU n i v e r s i t yo fI n d u s t r yT e c h n o l o g y,N a n j i n g ,C h i n a;S h a n g h a iA i r p o r t(G r o u p)C o,L t d,S h a n g h a i ,C h i n a)A b s t r

33、a c t:F l i g h td e l a yh a s l o n gb e e nac r i t i c a l i s s u ea f f e c t i n gt h eo p e r a t i o n a l e f f i c i e n c ya n de c o n o m i cp e r f o r m a n c eo f a i r l i n e s Wh i l e t h e r ea r ev a r i o u sm e t h o d s f o rp r e d i c t i n g f l i g h td e l a y t i m e

34、s,t h e yo f t e ns u f f e r f r o mc h a l l e n g e ss u c ha s l o wa c c u r a c ya n d i n c o m p l e t ec o n s i d e r a t i o no f i n f l u e n c i n gf a c t o r s T oa d d r e s st h e s e i s s u e s,ad a t a d r i v e n i n d i r e c tp r e d i c t i o nm o d e l f o r f l i g h td e

35、l a yt i m e i sp r o p o s e d T h i sm o d e l,b a s e do nd a t a f r o mt h eA i r p o r tC o l l a b o r a t i v eD e c i s i o nM a k i n g(A C DM)s y s t e m,e m p l o y s t h e r a n d o mf o r e s t a l g o r i t h mt op r e d i c td i r e c t l yt h ea i r c r a f tsd w e l lt i m eo nt h

36、ea p r o na n dt h ef i n a ld e p a r t u r et i m e,f r o mw h i c ht h e f l i g h td e l a yt i m e i sc a l c u l a t e d V a l i d a t i o nu s i n ge x p e r i m e n t a ld a t ad e m o n s t r a t e sa a c c u r a c yr a t ew h e ne v a l u a t e da g a i n s t t h e m i n u t e f l i g h td

37、 e l a ys t a n d a r d T h i sm o d e l c a ns u p p o r ta i r l i n e s i np r e d i c t i n g f l i g h t d e l a y s,e n a b l i n g t a r g e t e do p t i m i z a t i o no f f l e e t o p e r a t i o np r o c e s s e s t oe n h a n c eo p e r a t i o n a le f f i c i e n c y K e y w o r d s:f l i g h td e l a y;p r e d i c t i o nm o d e l;r a n d o mf o r e s t;d a t ae n c o d i n g(责任编辑:唐立平)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服