基于TVF-EMD、GRA和LightGBM的日径流预测组合模型.pdf

资源描述

1、第卷第期水资源保护年月.:/基金项目:国家重点研发计划项目()天津大学自主创新基金项目()作者简介:王秀杰()女副教授博士主要从事水文预报研究:.通信作者:田福昌()男助理研究员博士主要从事智慧水利研究:.基于、和的日径流预测组合模型王秀杰乔鸿飞曾勇红田福昌张帅(.天津大学水利工程仿真与安全国家重点实验室天津 .天津大学建筑工程学院天津)摘要:针对径流过程的非线性和非平稳性特点及预报精度低的问题提出了结合时变滤波器的经验模态分解()、灰色关联度分析()和轻量级梯度提升机()的日径流预测组合模型以黄河利津站和珠江高要站实测日径流序列为例建立()组合模型并将其预测结果与多种

2、单一或组合预测模型的预测结果进行了对比分析结果表明:组合模型高效且预测性能最佳利津站和高要站日径流预测结果的纳什效率系数分别为.和.相关系数分别为.和.峰值流量预测误差分别小于.和.组合模型具有预测精度高、运行效率快、适用性强等优势可用于日径流预测关键词:日径流预测轻量级梯度提升机灰色关联度分析中图分类号:文献标志码:文章编号:()/(.):()()().().:准确可靠的径流预测是防洪减灾、水资源配置、电力生产等流域管理和调度决策的关键依据也是全球水文水资源领域研究的热点受气候变化和人类活动等因素影响径流过程更加复杂预测精度面临更大挑战随着经济社会的发展对于径流预测的精确性和效率等方面

3、的要求也越来越高世纪中叶以来人们已经提出了多种水文过程模拟和预测的方法径流预报模型主要分为过程驱动模型和数据驱动模型两大类过程驱动模型基于水文、气象专业理论分析与时空降水分布、气象条件和下垫面条件紧密结合但由于过程驱动模型对数据的要求较高以及产流和汇流过程的复杂性很难建立精确的水文模型从而限制了其应用数据驱动模型主要分为水文统计模型和人工智能模型水文统计模型基于概率论和数理统计法根据大量历史水文资料研究预报对象和预报因子之间的潜在关系或探索水文要素自身的演变规律建立模型常用的水文统计模型包括自回归滑动平均模型、差分整合移动平均自回归模型及多元回归模型等但这些模型在捕捉水文时间序列

4、的非线性特征时存在一些缺陷不适用于具有非线性和非平稳特征的径流预测随着人工智能的发展越来越多的学者将其引入径流预测的研究中如反向传播()神经网络、支持向量机()和自适应神经模糊推理系统()等但在应用过程中这些方法存在一些缺点如神经网络和参数设置较多易陷入局部最优参数敏感性强在大容量样本预报中表现不佳等近年来循环神经网络因其在处理复杂水文要素间高度非线性相互作用中表现出的优势而被应用于径流预测中长短期记忆()模型和门控循环单元()模型是目前研究最广泛的两种深度学习神经网络陶思铭等将模型应用于黄河源区唐乃亥站中长期径流预测并与模型进行对比结果表明模型预测精度较高模型比模型构

5、造简单将遗忘门和输入门合成了一个更新门在训练大量数据时可以节省时间等利用模型进行月径流预测并采用灰狼优化算法对其进行改进模型达到了令人满意的预报效果然而和模型存在参数较多、计算量大和运行时间较长等缺陷且不善于存储信息无法处理长期依赖关系针对上述模型存在的缺点集成学习模型如轻量级梯度提升机()具有更多的优势目前已广泛应用于金融、医学和风力发电等领域的研究中基于决策树的梯度提升框架具有准确率高、训练效率高、收敛速度快以及可以处理大规模数据等优点为高效并行运算和数据特征的有效提取提供了可靠的理论依据具有高效准确预测日径流的应用潜力但对于强非线性时间序列数据的处理效果不理想限制了其在

6、径流预测中的应用基于时变滤波器的经验模态分解()方法有效解决了模态混叠和噪声干扰问题将数据序列分为局部高频和低频分量已广泛应用于数据的预处理王文川等验证了方法可以提高模型的预测性能和精度赵磊娜等发现方法与最小二乘支持向量机模型结合可提供更好的交通流预测通过信号分解方法将原始序列分解为多个不同频率的子序列可以消除其非平稳性降低预测难度但是过多的子序列会增加序列重构误差进而影响模型的预测精度将子序列合并为一个新的子序列是目前减小重构误差的有效途径常用的重组方法有排列熵、模糊熵和均值聚类等本文引入灰色关联度分析()将与原始序列灰色关联系数相同的子序列进行重新组合以提高整体预测精度目前研

7、究主要采用变分模态分解、互补集合经验模态分解和极点对称模态分解()等方法构建组合模型应用于径流预测而方法在径流预测领域内的应用研究还相对较少且较少采用将子序列合并以提升总体预测精度本文提出一种结合、和的日径流预测组合模型(组合模型)目的是克服对高分辨率数据变化的敏感性提高非线性时间序列数据的模拟精度从而实现日径流的高效、精确预测模型构建和评价指标.是年微软亚洲研究院基于梯度提升决策树算法框架提出的升级算法在大数据应用场景中面对大样本、高维度的数据集模型具有训练速度快、计算效率高和预测较为精确的特点因此特别适合大数据分类、预测等问题本文采用模型进行日径流预

8、测研究由于模型的超参数较多参考文献并结合日径流预测对精度和效率的需求选取叶子节点中最小的样本数量、树的深度、学习率和最大叶子节点数作为超参数优化的研究对象其中树的深度、学习率和最大叶子节点数影响日径流预测的精度最小样本数量可以提高模型的泛化能力通过树状结构估计方法在推荐的取值空间内对超参数进行寻优以提升模型的预测精度.方法为了解决经验模态分解()存在的模态混叠和低采样率下效率较低的问题等提出一种方法方法通过样条逼近滤波器来完成截止频率的选择也改进了停止准则可以有效解决模态混叠问题使得方法在低采样率下有很好的鲁棒性被逐步应用于各种工程机械振动信号的分离本文利

9、用方法将实测日径流序列分解为若干个较为线性平稳的子序列再对各子序列进行预测最后叠加获得日径流的预测结果通过方法有效降低实测径流过程非线性和非平稳性的影响进一步提高日径流的预测精度.是灰色系统理论的一个重要分支其基本思想是根据序列的几何形状判断不同序列之间联系的紧密程度对样本的需求量较小在一定程度上可以排除系统分析时的主观性且计算过程中占用内存空间不大因此广泛应用于各个研究领域本文利用计算日径流实测序列与经过方法分解得到的子序列之间的灰色关联系数进而将灰色关联系数相同的子序列进行叠加重构.模型预测流程为了解决现有径流预测模型预测精度较低、普适性不强和效率不高的问题本文提出了组合模

10、型模型预测流程如图所示图组合模型预测流程.组合模型预测流程为:利用将日径流实测序列分解为若干个固有模态函数()即为日径流子序列通过计算子序列与原始序列的灰色关联系数将灰色关联系数相同的合并重构成新的子序列通过偏自相关分析确定每个重构序列的输入因子使用对每个重构序列进行预测并将预测结果叠加得出最终的预测值.评价指标为了评价组合模型对于日径流预测的性能采用纳什效率系数()、相关系数()、均方根误差()、平均绝对误差()和峰值流量误差()作为模型预测结果的精度评价指标和是评估预测值和实测值之间差异的有效指标最大值为取值范围为和值越大预测值与实测值越接近和反映预

11、测结果的准确性反映峰值流量预测结果的准确性最小值为其值越小预测结果越准确实例验证.研究区概况及数据来源为了验证本文所提出的模型在日径流预测中的性能特点和适用性选取我国黄河下游的利津站和珠江下游的高要站为研究对象对其日径流进行预测研究区域如图所示()黄河下游()珠江下游图研究区概况.利津水文站是黄河最下游的水文站是全国大江大河重要水文站位于山东省东营市利津县集水面积.万年均径流量为.亿历史最大流量 /利津站监测黄河入海水量、沙量为黄河下游河道治理和水资源规划管理等提供水文资料也为黄河下游防洪、防凌、水资源统一调度提供水情信息对黄河河口地区的治理开发及经济发展起到关键作用高要水文站

12、位于广东省肇庆市是西江中下游国家级重要控制站集水面积为.万占西江集水面积的.西江是珠江流域的主干流为中国第四大河流其水资源丰富为沿岸地区的农业灌溉、河运、发电等做出了巨大贡献高要站为珠江三角洲地区的洪水预报与防洪减灾提供重要的决策依据在枯水期间实时水量、水质数据对指导深受咸潮上溯之苦的珠三角地区的取水时机选择具有非常重要的作用本文分别采用利津站年和高要站年的日径流实测序列进行预测研究两测站的日均流量数据分别来自黄河水利委员会和珠江水利委员会所有数据均按照国家标准进行测量和检验具有可靠性和真实性两测站的日径流实测序列如图所示统计特征如表所示选取每个水文站前的数据作为训练集后的

13、数据作为测试集进行预测研究()利津站()高要站图两测站日径流实测序列.表两测站日径流序列统计特征测站序列长度/日径流序列统计值/(/)最大值最小值平均值标准差利津站.高要站.模型构建.数据分解与序列重构为了解决数据噪声对预测结果造成的不利影响采用方法对利津站和高要站的日径流实测序列进行分解并通过计算每个日径流子序列与原始日径流序列的灰色关联系数(图)进而重构子序列以减小预测误差由于选取原始序列作为参考序列各子序列作为比较序列采用图中第一行数据所示的灰色关联系数作为序列重构的依据将与原始序列灰色关联系数相同的子序列进行重构(表)得到重构序列(图)()利津站()高要站图子序

14、列与原始序列的灰色关联系数.表两测站子序列重构的组合方式重构序列利津站分量组合高要站分量组合 ()利津站 ()利津站()利津站 ()利津站()利津站()高要站()高要站()高要站()高要站()高要站图两测站重构序列.输入因子及模型参数不同的预处理方法、输入变量和数据大小会在一定程度上影响模型的性能本文通过采用偏自相关分析在置信区间下确定每个重构序列的输入步长当预测第个重构序列第天的日径流时输入因子为第()天到第()天的日径流序列即()、()、()各重构序列的输入步长及输入因子如表所示由于模型参数对于预测效果起着关键作用本文通过寻优获得每个重构序列预测

15、模型参数的最优值如表所示首先将测试集输入到具有最优超参数的模型中利用经过训练的棵决策树对日径流进行预测输出各叶子节点未经函数规格化的预测值再将从每棵决策树中得到的预测值叠加得到日径流的初始预测值最后通过模型中的函数变换输出日径流预测值表各重构序列的输入步长及输入因子测站分量输入步长输入因子利津站()、()、()()、()、()、()、()、()()、()、()、()、()()、()、()()、()、()、()、()、()、()、()、()高要站()、()、()、()()、()、()、()、()、()()、()、()、()、()()、()、()、()、()、()()、()、()、

16、()表各重构序列预测模型对应的最优参数测站分量最小样本数量树的深度学习率最大叶子节点数利津站.高要站.结果与分析基于本文建立的组合模型分别对利津站和高要站进行日径流预测为了验证模型的性能分别建立了、等单一模型和(以下简称为)、(以下简称为)组合模型进行对比分析和组合模型构建过程利用分解方法对原始序列进行分解通过对分解序列重构分别利用和对各个重构序列进行预测最后叠加获得预测结果这些模型对不同测站日径流的预测结果如图所示对应的评价指标及运行时间如表所示由图和表可知组合模型对于利津站和高要站的预测结果整体上优于和组合模型以及、和模型对于不同流域且量级差异明

17、显的利津站和高要站的日径流实测序列组合模型的预测精度均优于其他模型具有更强的预测性能对于利津站可以清楚地看出相较于其他模型组合模型的预测效果最佳组合模型预测()利津站()高要站图各模型对两测站日径流的预测结果.结果的和值分别为.和.分别比模型提高了.和.和分别为./和./相较于模型分别降低了.和.与模型预测结果相比组合模型预测结果的和值分别提升了.和.和表各模型对两测站日径流预测结果的评价指标测站模型/(/)/(/)/利津站.高要站.分别降低了.和.与模型预测结果相比组合模型预测结果的和值分别提升了.和.和分别降低了.和.与模型预测结果相比组合模型

18、预测结果的和值分别提升了.和.和分别降低了.和.模型整体的预测效果最差组合模型与和组合模型相比也表现出较好的预测效果相较于组合模型组合模型预测结果的和值分别提升了.和.和分别降低了.和.相较于组合模型组合模型预测结果的和值分别提升了.和.和分别降低了.和.对于高要站组合模型对于日径流序列整体上的预测效果在个模型中表现最佳较好地拟合了实测序列的变化趋势其预测结果的和值分别为.和.和分别为./和./与、和模型结果相比组合模型预测结果的分别提升了.、.、.和.值分别提升了.、.、.和.分别降低了.、.、.和.分别降低了.、.、.和.与

19、和组合模型相比组合模型的预测精度也有一定程度的提升从图所示的利津站预测流量和实测流量散点图可以看出组合模型的预测结果更加接近实测日径流高要站的散点图也呈现出类似的分布情况进一步证明组合模型优异的预测性能()组合模型()组合模型()组合模型()模型()模型()模型()模型图利津站预测流量与实测流量散点图.组合模型在模型的基础上预测性能得到进一步提升预测结果的各项指标相较于其他模型均达到最佳对于短期预测减少模型在训练和测试中所需的计算时间具有重要意义从表可以看出组合模型的运行时间远低于模型和组合模型预测效率有显著的提升虽然与、和模型相比计算时间有所增加但在可以接受的

20、范围内峰值流量预测是径流预测最为关注的方面准确的峰值流量预测对防洪减灾和水资源规划管理起着十分重要的作用为了验证组合模型对于日径流峰值流量预测的准确性利用峰值流量预测误差指标来评价其预测性能由表可知对于利津站的日径流峰值流量预测组合模型预测结果的相较于和组合模型以及、和模型分别减小约.、.、.、.、.和.对于高要站的日径流峰值预测组合模型预测结果的相较于和组合模型以及、和模型分别减小了约.、.、.、.、.和.与其他模型相比组合模型具有良好的峰值流量预测性能综上组合模型解决了模型在处理强非线性时间序列数据时的缺点一定程度上避免了冗余信息对模型预测

21、产生的干扰并且采用对分解序列进行重构减小了误差的累积组合模型与、和等单一模型相比提升了抗噪声干扰的稳定性预测的准确性大幅度提高且相较于、组合模型仍具有较好的预测性能组合模型对于不同流域且量级差异明显的日径流预测均具有很强的鲁棒性在保证精度最佳的情况下相较于深度学习模型和组合模型仍然具有较高的效率同时组合模型对于不同量级的峰值流量均获得了良好的模拟效果可以为防范峰值流量产生的洪水风险和危害发挥重要作用结论.模型具有精度高、收敛速度快、内存消耗小和缓存优化友好等集成模型结构特点可满足日径流预测在预测精度和运行效率方面的需求在短期径流预测中具有极高的应用价值未来可进一步应用于实时

22、降雨预测和山洪预报中.方法可有效分离趋势项、波动项和噪声分量提高了模型在处理非线性序列时的性能并通过对子序列重组减小重构误差基于、及方法建立的日径流预测组合模型相对于其他模型对不同流域且量级差异明显的日径流预测均具有更高的精度、更强的鲁棒性和广泛的适用性尤其相对于深度学习模型仍然表现出显著的效率优势.组合模型对不同量级峰值流量的预测性能优于其他模型进一步验证了该模型具有良好的稳定性和适应性组合模型可为缓解洪峰流量、智能精细化水资源调控和数字孪生流域建设提供有力支撑参考文献:谭乔凤陈然朱阳等.基于多因子最近邻抽样回归模型的径流相似性预报.河海大学学报(自然科学版)():.(.()(

23、):.().:.():.:.王富强霍风霖.中长期水文预报方法研究综述.人民黄河():.(.():.().():.():.王琪张亭亭游海林等.基于多元回归分析的大伙房水库径流中长期预报.水力发电():.(.():.()王红瑞魏豪杉胡立堂等.基于遗传算法的改进模型与应用.河海大学学报(自然科学版)():.(.()():.()何昳颖陈晓宏张云等.人工神经网络在小流域径流模拟中的应用.水文():.(.():.()张珂牛杰帆李曦等.洪水预报智能模型在中国半干旱半湿润区的应用对比.水资源保护():.(.():.()马盼盼白涛武连洲等.黄河源区河川径流短期预测的模型.西北农林科技大学学报(自然科学版)(

24、):.(.()():.()张亚杰崔东文.基于奇异谱分析的月径流组合预测模型.人民珠江():.(.():.().:.(下转第页)版)():.(.()():.().:.():.:.():.(收稿日期:编辑:施业)(上接第页)陶思铭梁忠民陈在妮等.长短期记忆网络在中长期径流预报中的应用.武汉大学学报(工学版)():.(.():.().:.宋欣瑞张宪琦张展等.多传感器数据融合的复杂人体活动识别.清华大学学报(自然科学版)():.(.()():.().:.():.:/.:.:.王文川高畅徐雷.基于与神经网络耦合的月径流预测研究.中国农村水利水电():.(.():.()赵磊娜王延鹏邵毅明等.利用时变经验模态分解的主干道短时交通量预测.重庆交通大学学报(自然科学版)():.(.()():.().:.:.刘思峰蔡华杨英杰等.灰色关联分析模型研究进展.系统工程理论与实践():.(.():.().():.:.:?.:.:.(收稿日期:编辑:施业)

展开阅读全文