基于混合深度学习模型的洪水过程概率预报研究.pdf

资源描述

1、传统的人工神经网络模型无法量化洪水预报的不确定性，而且在多时段连续预报中未考虑输出的时间相关性。本文通过融合新安江（）模型、基于外源输入编码解码（）结构的长短期记忆（）神经网络和混合密度网络（），构建了混合深度学习模型，以实现洪水过程概率预报。该模型在考虑预报洪水时间相关性的前提下，将解码过程产生的点估计转化为条件概率分布的估计；进一步采用最大似然估计法建立了损失函数，通过自适应矩估计（）算法优选模型参数。在陆水和建溪两个流域的研究结果表明：该模型在不降低模型预报精度的前提下，可有效反映预报洪水过程的不确定性，获得合理可靠的置信区间和优良的概率预报性能，为水库防洪调度等决策提供更多的风险

2、信息，同时为研究深度学习在洪水概率预报中的应用提供参考。关键词：概率预报；不确定性分析；长短期记忆神经网络；编码解码结构；混合密度网络中图分类号：文献标识码：?引言随着人工智能技术快速发展，出现了能够有效处理非线性、非稳态时间序列的深度学习模型。长短期记忆（）神经网络是最具代表性的模型之一，相较于传统的人工神经网络，它有更先进的理论基础和模型结构，能够在多时段洪水预报中取得较好的预报精度。但深度学习模型缺少物理机制支撑，可解释性较低，而且无法量化预报不确定性，预报价值和可靠度较低。近年来，概念性水文模型与深度学习耦合的混合模型引起水文学者的广泛关注。混合模型可以在神经网络中学习概念

3、性模型的产汇流过程，一定程度上提高了模型的可解释性和预报精度。随着深度学习的研究不断深入，出现了可以解决序列到序列问题的编码解码结构。耦合递归编码解码（）结构的神经网络，可以在编码和解码过程中将前一时刻提取的有效特征传递给后一时刻，在保证输出变量时间相关性的前提下，获得多时段洪水过程预报，具有较高的内部可解释性和适用性。但模型存在曝光偏差问题（即训练和验证过程不一致问题），使得模型性能不稳定，在多时段洪水过程预报的精度不佳。等将新安江（）模型预报流量过程输入到解码过程中代替递归过程，建立了基于外源输入编码解码（）结构的模型，不仅可以学习模型的产汇流过程，还克服了模型的曝

4、光偏差问题，提高了预报精度。目前，深度学习模型输出形式多为确定性点估计，由于模型参数、结构和输入资料等不确定性因素的影响，水文预报不可避免地存在不确定性问题，仅提供点估计的深度学习模型为防洪决策提供的不确定性（或风险）信息是有限的。已有研究通过引入先进的不确定性量化技术或改进现有的神经网络构建了深度学习概率预报模型，。混合密度网络（）是一种可以估计目标变量条件概率分布的神经网络。将神经网络与混合密度函数相结合，借助神经网络生成多个核函数的权重和参数，将核函数按照权重相加组合为混合密度函数，理论上可以表示任意条件概率分布，在能源、气象等领域获得广泛关注，其损失函数依据最大似然估计法构建

5、。当前，多数深度学习概率预报研究主要集中在单个时间步长的概率预报中，无法在考虑预报洪水过程时间相关性的前提下获得不确定性估计，缺乏可解释性和适用性。因此，有必要开展基于混合深度学习模型的多时段洪水过程概率预报研究，实现实时量化预报洪水过程的不确定性，为水库防洪调度等决策提供更多的风险信息。本文首先将模型的预报流量过程嵌入模型的解码过程；其次，将耦合至模型解码过程的输出层以实现概率分布转换，构建混合深度学习模型；最后，依据最大似然估计法构建损失函数，以优化模型的权重等参数。本文以陆水和建溪两个流域为案例，对、和模型进行对比验证，并分析了所提模型的不确定性量化性能。研究方法模型长

6、短期记忆（）神经网络由遗忘门、输入门、更新记忆单元状态和输出门等个计算结构构成。模型结构见图（）。模型是将模型的预报流量作为神经网络在预报时刻的输入。其中，模型参数率定方法和结果见文献。模型预报流量与目标输出变量（即每一预见期对应的实测流量）有较强的相关性，因此期望其可引导神经网络产生较合理的预报流量过程。同时，模型预报流量增加了模型输入数量，可在一定程度上缓解过拟合问题。模型为单输出结构（与文献相似），未在时间维度上考虑预报洪水间的相关性。模型基于外源输入编码解码结构的模型由编码过程（图（）（）和解码过程（图（）（）构成。为克服传统递归编码解码结构的曝光偏差问题，将模

7、型的预报流量过程与解码过程相耦合（图（）（）虚线框），以替代解码中的递归过程，使得解码过程的输入始终为编码过程提取的重要信息（即图（）（）中的中间向量）和模型的预报流量。模型可以在考虑输出变量时间相关性的前提下，实时预报多时段洪水过程，相对模型更具可解释性和适用性。模型未考虑预见期内预报降雨数据，为保持输入变量一致，模型同样未考虑预报降雨数据，即为。混合深度学习模型本文将耦合至模型解码过程的输出层，即将模型解码过程隐含层输出作为混合密度网络（）的输入，增加了概率预报过程（图（）（），从而构建混合深度学习模型。该模型可以在考虑输出变量时间相关性的前提下，将解码过程产生的点

8、估计转化为概率分布估计，能够反映预报过程的不确定性，提供更多的风险信息。模型输出多个核函数的权重和参数，其中通过函数进行归一化，以确保核函数形成有效的分布函数，其他输出值可通过适当的函数处理（如指数函数），以确保其值在规定范围内。洪水预报序列一般为一维时间序列，给定模型隐含层输出时，目标变量的条件概率密度函数（，）为（，）（）（）（），（）（）（）（）（）式中：为核函数的数量，一般采用试错法来确定，其范围一般为；函数是第个核函数；为对应权重参数的输出信息。常用的核函数为高斯核函数，公式为：（）槡（）（）式中：为期望值；为方差，采用指数函数处理，（），以保证为非负值函数

9、。的输出变量元素个数为。，（）图和模型结构图图展示了以个高斯核函数为例的计算过程示意图。混合密度函数直接取决于网络输入。神经网络每次收到新的输入时，混合密度函数的参数都会发生变化，这意味着可以获得目标变量的时变条件分布函数，即时变的不确定性信息。模型的确定性预报值为条件分布的期望值，并取置信度预报区间量化预报不确定性。为防止密度泄露等问题，采用标准化方法消除各个特征量纲的影响。（）式中：和分别为未标准化和标准化后的变量；和分别为变量的均值和方差。在训练神经网络时，采用最大似然估计法构建损失函数。不同于确定性输出深度学习的损失函数（如均方误差和平均绝对误差等），模型的损失

10、函数原理是通过量化目标变量图包含个高斯核函数的计算过程示意图在网络输出条件分布函数（，）中的概率密度大小来调整超参数。通过自适应矩估计（）算法使得目标变量在对数似然函数（，）中概率密度最大。算法在反向传播算法中，总是朝损失函数减小速率最快的方向优化神经网络超参数，损失函数公式为（，）（）确定性预报结果采用纳什效率系数（）、径流总量相对误差（）和平均绝对误差（）三个指标进行评价。概率预报采用平均相对宽度（）、平均覆盖率（）、可靠度（）和连续排位概率分数（）四个指标进行评价。研究区域和数据陆水流域陆水河是长江中游的一级支流（图（），流域面积约为，地处亚热带季风气候区，年平均气

11、温、降雨量和径流量分别约为、和亿。降雨一般集中在月，约占全年降雨量的。陆水水库位于河谷干流的出口处，水库的有效库容为亿，防洪库容仅为亿。由于水库防洪库容较小，且流域产汇流较快，准确的洪水预报对陆水水库的防洪和水资源管理至关重要。在陆水流域，收集整理了年汛期月日月日的数据，包括个测站的降雨量、蒸发量和入库流量数据。采用泰森多边形法获得面平均降雨量。年的数据用作训练模型（训练期），年数据用作验证模型（验证期）。建溪流域建溪河是闽江的支流（图（），流域面积约为，地处亚热带季风气候区，其地形特征以丘陵和山地为主。年平均气温、降雨量和径流量分别约为、和亿。降雨主要集中在

12、月，约占全年降雨量的。在建溪流域，收集整理了年汛期月日月日的数据，包括个测站的降雨量、个测站的蒸发量和七里街水文站的流量数据。面平均降雨和蒸发数据采用泰森多边形法计算。训练期和验证期分别为年和年。图陆水和建溪流域图不同滞时降水与流量相关系数模型输入及参数选择本研究选择降雨和流量变量作为神经网络的输入。通过不同滞时的降雨径流相关系数选择输入变量，依据相关系数最大时对应的滞时可大致估算出流域平均产汇流时间，进而选择输入变量的时间步数。由图可知，陆水和建溪流域分别在和滞时的相关系数最高，则分别选择前和前的降雨径流数据作为编码过程的输入，解码输入（即外源输入序

13、列）为模型的预报流量序列，对满足实际需求的预见期预报流量分别进行确定性预报评价，。采用试错法确定核函数个数和神经网络模型的超参数（如神经元数量、隐藏层层数、丢失率（）等）。其中，核函数个数、神经元数量和隐藏层数的优选范围分别为、（间隔为）和，丢失率优选范围为、和。本文采用算法训练模型。批次（）大小和迭代次数（）分别设置为和。研究结果和讨论建立、和三种模型，经试算法优选计算，编码器和解码器中均选择采用一层包含个神经元的神经网络。模型选择采用一层包含个神经元的神经网络结构。陆水和建溪流域的均选择个高斯核函数，丢失率优选为。在获得最优超参数后分别训练模型次，选

14、取结果最优的神经网络进行对比分析。采用、和三个指标来评价各模型确定性预报精度。采用、和四个指标评价模型量化不确定性的性能。确定性预报结果评价表显示了三种模型在陆水和建溪流域的确定性预报结果的评价指标。可以看出，预报精度随着预见期的增加而明显下降。根据、和指标可以看出，和模型预报性能相近，模型相对较差。以评价指标差异较大的验证期预见期为例进行说明。在陆水和建溪流域验证期预见期中，模型和值分别为和，和；模型分别为和，和；模型分别为和，和。和模型预见期的预报性能明显优于模型。图和图分别为、和模型在陆水和建溪流域的散点图。和分别表示训练期和验

15、证期散点图的相关系数。在陆水流域，验证期有较多高流量点在线以下，这可能因为训练期样本缺少验证期大量级的流量样本，导致各模型低估验证期的高流量点。同时，在和预见期的散点图差异明显。如图所示，和模型的散点分布相对紧凑，更接近理想线。建溪流域不同模型的散点图差异较小。在预见期内，模型在高流量处的散点相对最接近的理想线（图（），验证期相关系数为。因此，可以得出结论和模型的散点图相对最优，模型的散点图相对最差。不确定性量化性能评价表列出了模型概率预报的评价指标。随着预见期的延长，值逐渐减小，值和值逐渐增加，表明预报不确定性逐渐增大，概率预报性能不断降低。在训练期和验证期，模

16、型的值均接近或超过置信度，表明置信区间是合理可靠的。根据反映概率预报可靠性的指标可知，模型的值均超过，并接近理想值，其中，在陆水和建溪流域的验证期分别为和，这表明所表陆水和建溪流域三种模型在训练期和验证期的确定性预报结果的评价指标模型流域评价指标训练期验证期陆水建溪?（?）?（?）陆水建溪?（?）?（?）陆水建溪?（?）?（?）图陆水流域三种模型在预见期和的实测流量（）和预报流量（）散点图提模型的概率预报能够较好地捕捉预报不确定性，进一步反映了概率预报结果是合理可靠的。根据反映概率预报整体性能的指标可知，在陆水和建溪流域的值始终小于确定性期望值预报的值，在验证期

17、降幅分别在和范围内，这表明所提模型可以有效拟合目标变量的真实分布函数。图建溪流域三种模型在预见期和的实测流量（）和预报流量（）散点图表模型在陆水和建溪流域的概率预报评价指标流域评价指标训练期验证期陆水?（?）（）?建溪?（?）（）?为进一步验证模型的预报性能，在陆水和建溪流域的验证期分别随机选取两场洪水过程。图和图分别为陆水和建溪流域的洪水预报置信区间图。图模型在陆水流域?洪水事件的置信区间图从图可以看出，模型在陆水流域预见期可以较好地拟合实测流量，置信区间覆盖全部实测流量点，且区间宽度较窄，表明置信区间可以较好地反映预报不确定性。预见期的预报洪水拟合效果有所下降，在涨

18、水过程出现较大幅度波动，但仍然可以较为准确地预报洪峰及峰现时间；置信区间逐渐变宽，表明预报不确定性逐渐增大，但覆盖率仍接近。如图所示，模型在建溪流域预见期具有较好的预报效果。随着预见期的延长，在预见期，预报洪水过程线拟合效果降低，并高估了洪峰，预报峰现时间滞后两个时段，但仍然可以较好地拟合退水过程；置信区间变宽，表明预报不确定性增加，但仍能覆盖大多数实测流量点。图模型在建溪流域?洪水事件的置信区间图分析讨论根据前述评价指标可知，模型可以在不降低模型预报精度的前提下，获得相对较为可靠的概率预报。该模型的优势包括：（）无须假设分布函数。所提模型通过神经网络调整多个核函数的权重和参数来

19、拟合条件分布函数，可以避免分布函数假设。（）目标变量条件分布中核函数的参数和权重可以随模型输入变化，提高了应对不同量级流量概率预报的适应性。（）模型具有较高的预报精度，并可直接量化洪水过程预报的不确定性，为防洪减灾决策提供有效的风险信息。本研究也存在几个不足，包括：（）因增加了概率预报过程，模型训练成本有所增加；采用试错法优选网络参数，计算效率较低。（）条件密度函数可能更倾向于产生集中度高的概率预报性能，这一现象可能与训练神经网络使用的损失函数有关。采用目标变量在条件分布函数中的概率尽可能大作为网络训练标准，可能使神经网络预测的条件密度函数更加尖锐。（）将模型预报流量作为外源输入是在深度学

20、习可解释性方面的初步尝试，距离在内部结构或参数中实现物理意义上的解释，还有很多工作需要进一步研究。结论本研究提出了一种新的深度学习概率预报模型，将不确定性量化层（层）耦合至模型的输出层，构建了可以量化预报不确定性的模型。并以和模型为基准模型，从确定性预报和不确定性量化性能两个方面分析了所提模型的有效性。结论如下所示。（）根据、和指标可以看出，模型可以获得与模型相近的预报性能，并优于模型的预报性能。（）模型可以获得覆盖率接近置信水平的置信区间，同时根据和指标，模型的概率预报结果是合理可靠的，可以有效反映预报不确定性，并能产生相对接近预报量真实分布的条件分布。（）在深度学习模

21、型中采用混合密度网络逼近后验分布是可行的，模型可以获得时变的不确定性信息，且无须假设分布函数。后续研究可集中于参数优化算法和探讨洪水过程概率预报在调度中的应用等，并对流域滞时和预见期长度对预报精度的影响进行研究。同时，还可探讨在深度学习模型的损失函数中加入额外约束，使得概率预报性能兼顾可靠性和集中度。参考文献：张振东，罗斌，覃晖，等风光水互补系统时间序列变量概率预报框架水利学报，（）：，（）：，（），（）：殷仕明，徐炜，熊一橙，等基于迁移学习的长短时记忆神经网络水文模型水力发电学报，（）：刘章君，郭生练，许新发，等贝叶斯概率水文预报研究进展与展望水利学报，（）：，（）：，（）：，：崔震，郭生练，王俊，等基于混合模型的洪水预报研究人民长江，（）：，：，：，（）刘章君，郭生练，何绍坤，等基于函数的多变量水文不确定性处理器水利学报，（）：，：，（）：，（）：巴欢欢，郭生练，钟逸轩，等考虑降雨预报的三峡入库洪水集合概率预报方法比较水科学进展，（）：，（）：张浩风电功率时空不确定性预测方法研究北京：华北电力大学（北京），：，：（下转第页），（，；，）：，：；（责任编辑：李福田）（上接第页），（，；，）：，（），（），（），：；（责任编辑：耿庆斋）

展开阅读全文