1、引用格式:何彩虹王辉张智铭等.改进 网络的航班延误预测模型优化研究.航空计算技术():.():.改进 网络的航班延误预测模型优化研究何彩虹王 辉张智铭王骋洋檀萝帆(.中国民航大学天津.上海机场集团上海)摘 要:航班延误预测已在航班延误领域得到广泛应用由于航班数据存在噪声和样本失衡等问题导致航班延误预测结果在召回率方面表现较差 提出一种改进 航班延误预测模型提取天气延误航班数据的进行数据增强并使用类权重改善样本失衡再优化 的网络结构和卷积核大小 收集处理美国亚特兰大和中国上海虹桥机场数据进行试验 实验结果表明改进 具较好的特征提取能力和泛化性能相比于标准的 模型其预测准确率提升了 召回率提升了
2、相比于随机森林等集成学习 分数提高了.关键词:航班延误数据处理深度学习分类中图分类号:文献标识码:文章编号:()(.):.:引言航班延误一直是困扰国内外空中交通运输业的热点问题行业迫切需要采取相关措施来应对这一挑战 国内外学者尝试建立概率模型来解决航班延误问题 在航班延误预测的早期阶段通常依靠经验和规则例如考虑天气预报和机场流量等因素准确度较低 后来发展到基于统计学方法和使用非参数函数来进行研究 罗凤娥等利用 链预测延误率、平均延误时间和平均延误旅客人数等评价指标并采用模糊层次分析得到各项指标的权重提出了航班延误预警管理模型 为模拟延误的传播模型使用欧洲的历史航迹数据建立了一个网络流行病过程尽
3、管概率模型结构较为简单但是属性相互独立假设在实际问题中不能得到很好的满足随着机器学习的不断发展和完善研究人员使用机器学习构建航班延误预测模型 吴仁彪等在 的基础上增设直通通道并引入卷积衰减因子以控制不同深度网络的特征叠加比例从而维持航班延误预测模型的稳定性 徐涛等提出一个基于级联 神经网络的航班撤轮挡时刻预测模型在航班过站收稿日期:基金项目:上海机场集团科研合作项目资助()作者简介:何彩虹()男四川巴中人硕士第 卷 第 期航 空 计 算 技 术.年 月 .过程的不同时刻进行航班撤轮挡时刻预测 预先知道延误航班信息的前提下丁芳等基于人工蜂群算法提出机场登机桥调度模型 刘继新等采用 算法建模结合历
4、史航班运行数据和天气数据对机场短期内离港的单航班起飞延误状况及风险值进行预测丁建立等使用改进的梯度决策树构建了航班延误到达的多分类预测模型 曾维理等考虑延误传播构建了双目标函数并提出了枢纽机场航班时刻优化方法 刘晓琳等以机场为节点构建机场网络拓扑图提出一种基于融合时空注意力的自适应图卷积循环神经网络 檀萝帆等提出一种基于集合经验模态分解法()和双向长短时记忆神经网络()的机场短期航班准点率预测模型可较为有效提取航班数据中的时间序列信息提升机场延误率预测效果深度学习网路基于大数据进行训练和预测可以建立复杂的非线性模型因此在航班延误预测方面具有广泛的应用前景 但是在相关文献中很少有保持或降低复杂性
5、的同时提高精度和召回率的延误预测方法 本文针对航班延误问题提出一种改进 网络的航班出发延误预测模型改进后的 模型参数量更少能够预测单机场中的个别航班是否会因为当地机场天气而导致出发延误不限制到达机场、航线和航空公司等变量 数据处理.数据获取本文航班数据来源于美国交通运输统计局官网选取 年亚特兰大哈茨菲尔德 杰克逊机场全年的历史航班数据 条包括飞行日期、航班尾号、出发机场和到达机场等特征 选取虹桥机场历史航班数据共计 条 天气数据来源于机场 航空报文选取上述 个机场的天气信息数据其中包括站点压力、湿度、云层状况和特殊天气等特征.数据预处理初步获取的航班数据和天气数据中存在缺失数据剔除取消航班数据
6、对不存在前项延误的航班数据使用 值填充 删除含缺失值的航班数据 对于缺失的天气数据使用前一小时和后一小时的均值填充将存在数据泄露的特征列剔除对云层情况、风向、到达机场等特征均为字符型数据进行编码操作 采用无监督编码方式对字符型特征进行编码对类别数较少的特征如风向、云层情况、天气特征和航司相关特征使用独热编码 但对于类别数较多的特征如到达地机场和航班尾号特征采用标签编码可避免数据过于稀疏通常可避免的航班延误与天气变化有关这迫使空域管理人员对意外天气的反应迟缓未能实施最佳的空域负荷 因此本文提取数据中因天气而造成的航班延误数据作为正样本不延误的航班数据作为负样本 提取前后特征与标签的 相关性系数对
7、比如图 所示提取因天气延误的数据后天气特征的相关性显著增强图 提取前后 系数对比将数据集的 用作训练集 用作测试集在标准化之前进行数据集划分可防止数据泄露 为避免特征之间量纲不同对模型的影响降低特征之间的相关性提高模型的训练速度使用式()进行标准化将数据集内所有的 值转换为相应的 将每列特征的平均值转换为 标准差转换为 ()式中和 分别表示第 个特征的均值和标准差延误航班数量和未延误的航班数量不平衡正负样本比例为:数据集失衡会极大影响预测结果神经网络会更加倾向于预测负样本以提高整体的准确率 采取对预测结果进行类加权措施以解决数据失衡问题加权值计算式如下:()式中表示 类别的相对权值 为类别总数
8、为 类别的样本数量 网络 网络利用现有的卷积神经网络相关技术其网络结构和优化策略借鉴了 对基础卷积神经网络堆叠和参数进行了改进该模型在 达到了较高的准确率.分组卷积 中采用分组卷积的方式进行特征提取可提升模型的计算速度 设 为含 通道的航班数 航 空 计 算 技 术 第 卷第 期据 表示对 通道的卷积权重用式()表示进行内积运算的神经元 将上述操作重组拆分、变换和聚合的组合 将向量 拆分为一维子空间 对 进行缩放变换后再由 进行聚合 类似的如式()使用函数()泛化这种任意变换()代表任意函数可以将 进行低维切片和变化()()()()使用式()将网络以残差结构表示抑制梯度消失 的 结构设计如图
9、所示图 结构 ()().损失函数定义()散度为目标函数描述()和()两个概率分布的差异性航班输入数据 与其对应的真实概率分布()已知因此信息熵()为一常量需最优化交叉损失熵()将已知标签 带入式()得到目标函数交叉损失熵如式()所示()()()()()()()()()()()()()()式中 为类别数 为已知标签.网络结构航班延误数据中不同特征之间的相关性可能并不如图像数据那么强 因此需要根据航班延误数据的特点对 模型结构进行适当的调整和优化以获得更好的特征提取效果和泛化性能 搭建的改进 网络结构如图 所示图 改进 网络结构图 针对航班信息矩阵尺寸较小改进卷积核的尺寸大小将 中原先 卷积大小改
10、进为 滑动步数也由 调整为 避免特征提取后丢失信息 将 中的 卷积核同样改进为 并且经两次 卷积下采样后 进行一维卷积减小卷积视野并提高预测精度从而使其更加适用于航班延误预测任务 为了避免过拟合改进网络结构具体地调整 的堆叠次数为堆叠的通道数改进为在模型的最后添加线性层和 分类器将输出转换为概率分布并输出预测结果如式()所示:()()式中 为类别数为第 个节点的输出值 实验过程与结果.实验过程本研究使用 构建试验模型并在一台配备 核、.、和 硬盘的计算机上进行实验在实验中采用 优化器进行训练 相 年 月何彩虹 等:改进 网络的航班延误预测模型优化研究 较于传统的 优化器 提升了训练的稳定性和收
11、敛速度 为提高内存利用率 设置为 引入学习率指数递减算法来加快前期训练速度同时提升训练后期的稳定性图 和图 显示了 和改进 的损失值和准确率变化曲线 实验过程显示损失值整体上呈下降趋势准确率呈上升趋势图 改进前后损失值曲线图 改进前后准确率曲线改进 在训练 轮后训练集的准确率和损失值趋于稳定模型开始收敛损失值约为.准确率接近 迭代 轮后训练集和测试集缓慢收敛训练结束后准确率达到.实验结果.评价指标表 展示了航班延误预测结果的混淆矩阵准确率、精确率、召回率、分数定义如式()()表示模型在预测航班延误和航班不延误方面的能力值越高表示模型分离能力越强 真阳性率()和假阳性率()用于绘制 曲线曲线下面
12、积即为 值 和 的计算等式如式()和()表 混淆矩阵 ()()()()().实验结果与分析、和 都是机器学习中最为常见的集成学习方法这些算法在训练和处理不平衡数据集时具有较强的鲁棒性 在航班延误预测问题中使用这 种算法进行对比实验实验结果如表 与集成算法相比改进 模型具有更高的准确度和召回率但是 和 对正样本的召回率达到了以上这表明集成学习在处理不平衡问题时具有很好的表现 相较于未改进的 网络改进后的模型准确率提高了正样本的召回率提高了 对负样本的召回率提升了 精准度和 分数均比传统的 高 得分方面改进 网络具有最高的 值达到.较随机森林分类模型高出.这表明改进的模型能较好地平衡准确率和召回率
13、的关系具有较好的预测能力能够真正预测出延误航班 同样具有较高的 值说明该类算法能较好地处理偏分类问题 为了验证模型的泛化性能使用上海虹桥机场的出发航班数据进行实验实验结果与国外数据结果一致 结论针对航班延误问题本文提出了一种改进 网络的优化预测模型通过实验得到以下结论:)人为因素造成的航班延误与标签不存在强相关性提取天气原因造成的航班延误数据后天气特征变量与标签之间的相关性显著增强)针对航班延误数据存在失衡的问题本文采用了加权处理的方法对模型输出进行优化从而高效地提高了对延误航班预测的召回率)对 网络的卷积核大小和网络结构进行改进有效解决计算代价高和过拟合等问题提升预测准确率)本文构建的改进
14、网络使用更简单的 航 空 计 算 技 术 第 卷第 期网络结构提升了预测的准确率和召回率相比提高准确率模型拥有更高的召回率和 得分更具现实意义和应用价值 需要注意的是本文用到的特征数量较少而导致航班延误的特征变量较多因此在未来的研究中可以加强数据收集以提升预测模型的性能表 不同算法的实验结果对比虹桥虹桥虹桥虹桥虹桥.参考文献:中国民用航空局.年民航行业发展统计公报/.:/./.罗凤娥张成伟刘安.基于数据挖掘的航班延误预警管理分析.计算机科学():.():.吴仁彪李佳怡屈景怡.基于双通道卷积神经网络的航班延误预测模型.计算机应用():.徐涛丁杨卢敏.基于级联 神经网络的航班撤轮挡时刻预测.计算机
15、应用与软件():.丁芳沙常涛.基于航班延误情况下的登机桥作业调度方法的研究.计算机应用与软件():.刘继新杨光.基于 的机场航班短期延误风险预测.重庆交通大学学报(自然科学版)():.丁建立孙玥.基于 的航班延误多分类预测.南京航空航天大学学报():.曾维理刘丹丹杨磊等.考虑延误传播的枢纽机场航班时刻优化方法.交通运输工程学报():.刘晓琳郭梦娇李卓.基于自适应注意力图卷积循环网络的航班延误组合预测方法/.北京航空航天大学学报():.檀萝帆王辉吴俊霖等.基于 和 的航班准点率预测研究.航空计算技术():.:.:/.:.:/.:.:.:.:.:.:.年 月何彩虹 等:改进 网络的航班延误预测模型优化研究