ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:293.09KB ,
资源ID:5939054      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/5939054.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(基于美国交通部数据的航空运输延误分析预测模型.docx)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于美国交通部数据的航空运输延误分析预测模型.docx

1、基于美国交通部数据的航空运输延误分析预测模型 关菁菁 尚蕊 蒋安华 (中国人民大学统计学院 100872) 摘要:本文基于美国交通部的公开数据建立了航空运输延误分析预测的时间序列模型。我们针对飞行延误情况进行研究。在建模之前给出了所有要用到的定义概念,为建模提供了测度基础。随后,本文利用所得数据充分描述了航空运输业的概况,包括航线分布、航程分布、延误时长、系统预定飞行设定等。在对数据集充分了解的情况下,我们针对月飞行延误率建立了时间序列模型,通过对这个时间序列模型的检验与评价,我们确信模型取得很好的效果。在文章的最后,我们就本次建模进行了总结,并基于模型的分析预测情况阐述了对于航空运输延

2、误问题的一些启示。 一、背景 (一)研究背景 空中交通管理影响到飞行的安全和效率,已经成为当代一个重要问题。航空活动在二十世纪30年代之前,由于飞机只能在白天天气允许的情况下飞行最多几千米,当时只需由管制员用红旗和绿旗来控制飞机起降,人们关心飞行的安全多于飞机是否按时到达。1934至1945年间,机身和机场都装备了无线电通信和导航设备。二次世界大战给航空技术带来了飞跃性进步,雷达的应用和仪表着陆系统(ILS)。二十世纪80年代后,计算机、空管地面设施和卫星系统被广泛应用到空中交通管理。这些都为空中及地上飞行资源的优化配置提供了便捷,也正是由于航空技术的迅速发展,航空

3、运输量日益增大,除了航空运输安全问题外,航空运输延误也成为了今日的重要课题。 我们研究的航班延误问题实际上是空中交通管理成效的一个反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飞行架次都可以安全、高效和成本最优。在空中交通管理中,地面等待策略也被广泛采用。因为从成本和飞行安全等方面来考虑,地面等待总比空中等待更安全、经济一些,所以地面等待策略实质上是将昂贵的空中等待转化为地面等待,以达缩减费用的目的。但是,这并不意味着起飞前的延误比降落的延误好。事实上,我们总是希望每一飞行架次均可按时完成飞行任务,所有的资源都得到优化配置。因此,为了了解目前民用航空的延误情况,我们将基于得到的数据

4、建立一个关于航班延误时间序列模型。众所周知,统计其实是随机性和规律性的统一。我们希望可以在这些飞行数据中找到一些规律,并将之用于预测。由于统计具有随机性,所以我们得到的预测并不总是准确的。但一般说来,大量的随机事件则会呈现一定的统计规律性。 (二)数据来源 本文使用的数据来源于美国交通运输部研究与技术创新管理部门(Research and Innovative Technology Administration (RITA) • U.S. Department of Transportation (US DOT), 1200 New Jersey Avenue, SE • Washingt

5、on, DC 20590 • 800-853-1351)。美国交通运输统计局的宗旨是发布完善且高质量的交通运输信息,提高公共和私人决策的效率,其利用网站发布了很多交通运输信息和相关分析,对我们有很大的启发和借鉴意义。我们选择了2003年06月至2009年07月美国所有飞行架次的飞行情况作为数据集。这个数据集聚焦于每架次是否按时飞行。 二、问题定义 我们关注的经济事件是一架次飞机的飞行情况。此经济事件实际包含三个阶段:起飞,在空和降落。实现一个完整经济事件的飞行称为一个飞行架次。因在这三个阶段都可能出现延误,故我们把飞行架次延误时长定义为在起飞、在空和降落三个阶段的总延误时长。因一次实现的

6、飞行架次延误时长可正可负,正值代表该架次延误,负值则代表按时到达。根据上述定义和既得数据,我们可以计算出所有架次的延误时长以及判断其是否被延误。一般说来,只要在起飞、在空和降落任一阶段发生延误,该飞行架次都会被延误。飞行延误率被定义为一段时间内,飞行架次延误时长为正值的飞行架次数所占当期所有飞行架次总数的比例。 三、数据描述 (一)变量概览 该数据集所含主要指标分为以下大类,共计55个变量:时间;所属航线、出发及到达地点;起降表现;是否取消或绕道飞行;航班概况;延误原因。根据我们的研究目的,初步筛选之后留下了18个变量,如下表所示: 变量名 变量含义 Year 年 Month

7、 月 DayofMonth 日 DayOfWeek 星期几 UniqueCarrier 所属航空公司 Origin 始发地 Dest 目的地 CRSDepTime 系统预定起飞时刻 DepDelay 实际起飞时刻与系统预定起飞时刻差值 CRSArrTime 系统着陆时刻 ArrDelay 实际着陆时刻与系统预定着陆时刻差值 Cancelled 该架次被取消与否(1=取消) CancellationCode 取消原因 Diverted 该架次是否改道(1=改道) CRSElapsedTime 系统预定飞行时长(以分钟计) ActualElap

8、sedTime 实际飞行时长(以分钟计) AirTime 飞机在空时长(以分钟计) Distance 始末机场距离 (表一)变量名称及意义说明 (二)主要变量及其关系分析 在数据集中,每个月起降的飞行架次最高可达638,883架次,最少月份也有481,506架次。鉴于每个月的起降情况类似,我们选取离目前最近的2009年07月的数据来进行主要变量关系分析。 由图一得,Atlanta,亚特兰大机场是全美起飞航班最多的机场,其起飞架次占全美起飞架次总量的6.60%,计37,705架次。芝加哥奥黑尔机场起飞的航班数量位居第二,占全美起飞架次总量的4.75%,累计27,161架次。

9、图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。 (图一)各始发地起飞架次占总起飞架次比例图截选 (图二)起始地点往来飞行架次图截选 (图三)始末机场距离分布表 如图三所示,始末机场距离分布其实是一个右偏分布。有136,158个飞行架次的始末机场距离都在300千米附近,105,725个飞行架次的始末机场距离在500千米附近。介于500千米和2,500千米的飞行架次也占有相当大的比例。可见,飞行距离较短的飞行架次占了很重的比例。 (图四)系统预定飞行耗时与实际飞行耗时对比 由图四看出,系统预定飞行耗时与实际

10、飞行耗时各个统计量都比较接近。只是系统预定飞行时长的众数为70分钟,而实际飞行时长的众数为80分钟,相对较长。图上红色的点以实际飞行时长为横坐标,系统预定飞行时长为纵坐标,黑色的线为过原点,斜率为1的射线,可以看到该射线的右下方的点居多,说明对于同一飞行架次来说,实际飞行时长一般会比系统预定飞行时长更长。 (图五)起飞延误与降落延误基本统计量图 如图五所示,起飞延误时长与降落延误时长的均值分别为9.99和7.35分钟,标准差分别为34.67和37.43,极差分别是2,497和2,524分钟,可见起飞延误时长相较于降落延误时长波动小,但是其均值比降落延误时长大。初步判断图上绿

11、色的点有较严重的堆积情况,我们做一条起飞延误时长关于降落延误时长的回归线如图中颜色较淡的、斜率较大的细线所示,堆积情况十分严重。如果利用这两个变量做回归的话,偏差一定十分严重。将始末机场距离加入考虑,得到图六。我们可以看到大部分起飞延误的架次一般降落也会延误,大部分起降延误集中在始末机场距离介于0至3,000千米的架次。 (图六)起飞延误、降落延误与飞行距离关系图 如图七所示,294,994个飞行架次按时起飞。260,760架次的起飞延误时间介于50至100分钟之间。起飞延误时长介于100至150分钟之间的飞行架次为12,831,起飞延误时长超过100分钟的飞行架次为3,046

12、因此,起飞延误飞行架次与按时起飞飞行架次比例相当。 (图七)起飞延误时长分布图 (图八)降落延误时长分布图 由图八得,按时着陆的飞行架次为315,256,降落延误时长介于50至100分钟的飞行架次为239,256,降落延误时长介于100至150分钟的飞行架次为13,898,降落延误时长大于150分钟飞行架次为3,223。 (图九)起飞延误、飞行延误及降落延误关系图 不难从图九看出,在三个坐标轴取值较小的部分形成了一个三角区域,这说明一般飞行架次在起飞、在空及降落三个阶段的延误一般耗时都不会太长,但是有很多发生这种飞行延误的架次。将那些红色的点投影到起飞与降

13、落延误的平面上,我们可以看到有部分起飞、降落延误时长相对较长的航班。 四、模型建立 为了对航空运输延误情况进行最有效的刻画和预测,我们把飞行延误率作为研究的主要对象。经过多次试验,我们认为使用月度为最小的时间单位来进行研究会比较合适。因此,我们按月建立关于延误率的时间序列模型。用原始数据经过汇总后,得到2003年06月至2009年07月每月延误飞行架次占该月总飞行架次的比例数据,即月飞行延误率(以下用delayrate命名)。由图十得,飞行延误率有一定的季节性波动,但趋势并不明显。 (图十)2003年06月至2009年07月飞行延误率时间序列图 (一)初步建立时间序列模型

14、 (图十一)2003年06月至2009年07月飞行延误率自相关分析图 图十一为对飞行延误序列做自相关分析的结果,从图十一中可以看出,样本自相关系数(Autocorrelation)不呈现衰减趋势,而呈现出一定的周期起伏趋势。结合所研究数据的特性,我们认为飞行延误率序列应为季节序列。对飞行延误率序列进行周期为12的季节差分后得到新的序列,即除季节序列(命名为sdelayrate)。 (图十二)除季节序列的自相关分析 图十二为对除季节序列的自相关分析。从图十二中可以看出,样本自相关系数有衰减趋势,且随时间增大,表现为拖尾。除了K=12时偏相关系数(Partial Correlat

15、ion)数值较大之外,在K>4之后偏相关系数都落入置信区间内。考虑到二阶季节差分会损失大量样本数据,且效果不明显,不再差分。同时,鉴于偏相关系数在K>4之后都落入置信区间内,而自相关系数具有拖尾的特性,最终采用AR(4)模型,即4阶自回归模型。因此,我们认为对于2003年06月至2009年07月美国航空运输飞行延误率经过除季节差分后的时间序列用4阶自回归模型拟合较好。 经过计算,sdelayrate均值为-0.00314,均值标准误为0.02894,因此可认为均值近似为0而不进行中心化直接计算。另外,考虑到sdelayrate滞后期为12时的样本偏相关系数较大,为消除这个影响,我们将SAR(

16、12)加入模型中,所以,用于刻画2003年06月至2009年07月美国航空运输飞行延误率时间序列的最终模型为。将此模型用于拟合,得到结果如表二所示。各滞后多项式的倒数根在单位圆内,过程平稳。 模型的展开形式为: Coefficient Std. Error t-Statistic Prob. AR(1) 0.577727 0.151039 3.825018 0.0004 AR(2) -0.106319 0.177877 -0.597711 0.5533 AR(3) 0.057758 0.1792 0.322311 0.7489 AR(4)

17、 0.308414 0.151232 2.039346 0.0479 SAR(12) -0.393219 0.154511 -2.54492 0.0148 R-squared 0.506695 Mean dependent var -0.011929 Adjusted R-squared 0.458568 S.D. dependent var 0.055951 S.E. of regression 0.04117 Akaike info criterion -3.439886 Sum squared resid 0.069494 Schwarz c

18、riterion -3.241121 Log likelihood 84.11738 Hannan-Quinn criter. -3.365427 Durbin-Watson stat 1.990316 Inverted AR Roots .92 .89-.24i .89+.24i .65+.65i .65-.65i .24+.89i .24-.89i .12-.74i .12+.74i -.24-.89i -.24+.89i -.59 -.65+.65i

19、 -.65+.65i -.89+.24i -.89-.24i (表二) (二)模型检验与评价 对于模型的检验,首先要检验其基本假定是否满足,这一般通过检验残差来进行。当K取6时,从图十三看出,检验P值为0.344,不能拒绝残差序列相互独立的原假设。因此,所建模型满足基本假定。 (图十三) 对于模型的评价,我们选择从预测的角度着手。不能预测的模型,一般说来对我们并无大助益。我们利用动态法,将2003年06月至2008年12月的飞行延误率(以下命名为tdelay)用于建立模型,并利用这个模型预测2009年的飞行延误率。未进行几阶差分前,tdelay的自相关系数同样无衰

20、减趋势,并展现出一定的季节波动性。如图十四所示: (图十四)2003年06月至2008年12月飞行延误率自相关分析图 对tdelay进行周期为12的季节差分后得到新的除季节飞行延误率时间序列(命名为stdelay)。其样本自相关系数有衰减趋势。自相关系数在K>1之后都在置信区间内,偏相关系数除了K=12时数值较大之外,在K>1之后都落入置信区间内,如图十五所示。 (图十五)2003年06月至2008年12月除季节飞行延误率自相关分析图 这时,我们可考虑和这两个模型。 Coefficient Std. Error t-Statistic P

21、rob.   AR(1) 0.654318 0.201527 3.246796 0.0024 SAR(12) -0.468526 0.142988 -3.276674 0.0022 MA(1) -0.055587 0.275331 -0.201890 0.8411 R-squared 0.400960     Mean dependent var 0.001178 Adjusted R-squared 0.370240     S.D. dependent var 0.

22、049711 S.E. of regression 0.039449     Akaike info criterion -3.558864 Sum squared resid 0.060693     Schwarz criterion -3.434744 Log likelihood 77.73614     Hannan-Quinn criter. -3.513369 Durbin-Watson stat 1.903953 Inverted AR Roots  .91-.24i      .91+.24

23、i    .66+.66i  .66-.66i       .65      .24-.91i    .24+.91i -.24-.91i -.24+.91i     -.66-.66i   -.66-.66i -.91+.24i -.91-.24i Inverted MA Roots       .06 (表三)结果 Coefficient Std. Error t-Statistic Prob.   AR(1) 0.621056 0.

24、124528 4.987299 0.0000 SAR(12) -0.466541 0.140945 -3.310092 0.0020 R-squared 0.400455     Mean dependent var 0.001178 Adjusted R-squared 0.385466     S.D. dependent var 0.049711 S.E. of regression 0.038969     Akaike info criterion -3.605639 Sum squared resid

25、 0.060744     Schwarz criterion -3.522893 Log likelihood 77.71842     Hannan-Quinn criter. -3.575309 Durbin-Watson stat 1.949016 Inverted AR Roots  .91+.24i      .91-.24i    .66-.66i  .66+.66i       .62      .24+.91i    .24-.91i -.24+.91i -.24-.91i   

26、  -.66-.66i   -.66-.66i -.91-.24i -.91+.24i (表四)结果 由于ma(1)系数不显著,且的AIC和SC值较小,所以最终模型确定为。 模型展开式: 再次对模型进行检验,残差检验结果如下图所示。考虑到观测值数目为42,K取4,检验P值为0.657,不能拒绝残差序列相互独立的原假设。 (图十六) 将这个模型用于2009年度预测序列的预测,图十六预测值和实际观测值的对比图,表五则为数值列示。可见,预测的效果还是相当好的。 (图十七)预测值和实际观测值的对比图

27、2009-01 2009-02 2009-03 2009-04 2009-05 2009-06 2009-07 实际值 0.405293 0.346575 0.389823 0.391906 0.385568 0.433192 0.421708 预测值 0.478135 0.520089 0.484258 0.445180 0.433296 0.515132 0.470296 (表五)预测值和实际观测值对比表 五、总结与启示 本文着重于对航空运输延误问题进行建立模型。从相关背景研究、数据收集、确定问题,我们初步确定了相关重要概念,如飞行架次

28、飞行延误时长、飞行延误率。这些概念的明确提出与定义给统计建模提供了测度。问题确立和概念定义是建模的基础。 随后,我们开始对所得数据进行初步分析。这些分析基于SAS、R等正版软件平台,由各个统计量以及统计图表,我们对数据集及其中一些重要变量有了全局的了解。这些描述性的统计分析为我们选择建模方法提供最初的灵感。 基于对数据的充分认识,我们决定以飞行延误率作为对象建立时间序列分析预测模型。具体的分析过程如上所述,这里不再一一赘述。我们对2003年06年至2009年07月的所有月延误率建立了一个时间序列分析模型,同时也用2003年06月至2008年12月的数据建立了一个时间序列分析预测模型,区别

29、在于我们利用了后一个模型对2009年的数据进行了预测,并和真值进行了对比,所得效果很好。 这里给我们最大的启示是,尽管我们预测得很准确,但是我们都不希望飞行延误率有0.40至0.60这么高。这意味着,在美国,如果有足够多的飞行架次起降的话,每10架次飞行就会有4到6架次的延误,这给经济以及其它方面带来的损失不可估量。我们也期望,可以对中国航空运输业的延误问题进行分析,这样可以为航空业使用者、营运商及监管者提供更多有利于决策的信息。 参考文献 [1]易丹辉,《数据分析与EViews应用》,中国人民大学出版社,2008 [2]董大钧,《SAS统计分析应用》,电子工业出版社,2008 [3]张军,《现代空中交通管理》,北京航空航天大学出版社,2005 [4]施和平,《空中交通管理新论》,厦门大学出版社,2001 [5]安鸿志,《时间序列分析》,华东师范大学出版社,1992

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服