收藏 分销(赏)

基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测.pdf

上传人:自信****多点 文档编号:2077891 上传时间:2024-05-15 格式:PDF 页数:10 大小:7.21MB
下载 相关 举报
基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测.pdf_第1页
第1页 / 共10页
基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测.pdf_第2页
第2页 / 共10页
基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第39卷第13期2023年7月农业工程学报Transactions of the Chinese Society of Agricultural EngineeringVol.39No.13July 2023113基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测葛建坤1,雷国相1,陈皓锐2.3*,张宝忠2.3,陈来宝4,白美健2.3,苏楠2.3,于子慧1(1华北水利水电大学水利学院,郑州450 0 45;2.中国水利水电科学研究院流域水循环模拟与调控国家重点实验室,北京10 0 0 48;3.国家节水灌溉北京工程技术研究中心,北京10 0 0 48;4.安徽省史杭灌区管理总局,六安2

2、 37 0 0 5)摘要:渠道泄水闸能够快速排除灌区入渠洪水,避免渠道漫顶。研究以史杭灌区灌口集泄水闸为例,以闸门调度流量为目标变量,以不同时段过去和未来降雨量、泄水闸闸上实时水位及其变化量为特征变量,比较8 种机器学习算法的预测精度,同时采用 shapleyadditiveexplanations(SH A P)法分析特征变量重要性。结果表明:1)集成学习算法预测评价指标优于传统回归算法,8 种机器学习算法中随机森林回归(randomforest regression,RFR)算法预测精度最高(训练集均方根误差、平均绝对误差、均方误差及决定系数分别为0.146 m/s、0.0 94m/s、0

3、.0 2 1m/s、0.97 6;测试集分别为0.306m/s、0.197 m/s、0.0 93m/s、0.931);2)采用SHAP法确定的特征变量重要性排序表明灌口集泄水闸闸上水位对于泄水闸调度流量的预测结果影响最大,占特征重要性值总和的34.6%;3)以过去6 h降雨量、过去9h降雨量、未来6 h降雨量、灌口集泄水闸闸上水位作为输入变量的RFR算法预测灌口集泄水闸调度流量效果最佳,训练集均方根误差、平均绝对误差、均方误差及决定系数分别为0.12 6 m/s、0.0 8 0 m/s、0.0 16 m/s、0.98 2;测试集分别为0.2 6 3m/s、0.164m/s、0.0 6 9m/s

4、、0.950,研究结果对灌区防洪调度决策具有重要参考价值。关键词:灌溉;随机森林;机器学习;调度流量;集成学习;SHAPdoi:10.11975/j.issn.1002-6819.202304081中图分类号:TV122葛建坤,雷国相,陈皓锐,等.基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测J.农业工程学报,2 0 2 3,39(13):113-122.doi:10.11975/j.ssn.1002-6819.202304081http:/www.tcsae.orgGE Jiankun,LEI Guoxiang,CHEN Haorui,et al.Irrigation distr

5、ict channel dispatch flow prediction based on SHAP importanceranking and machine learning algorithmJj.Transactions of the Chinese Society of Agricultural Engineering(Transactions of theCSAE),2023,39(13):113-122.(in Chinese with English abstract)http:/www.tcsae.org基于物理机制的明渠/河道泄水需在摸清灌区渠道来0引 言水汇入点、沿程汇流

6、集水区、泄水点和分水点的空间分灌区渠道除接受上游水库/渠道的供水外,还可能接布和水力拓扑关系的基础上,通过耦合产汇流模型、一受沿程的坡面汇流、平交河道的洪水汇入,在暴雨条件维明渠水流运动和调度优化模型进行防洪调度决策优化。下,渠道上游来流叠加沿程的各种面状(坡面洪水)和防洪调度是一个非线性复杂决策过程,这使得调度方案线状汇流(平交河道汇流),可能会导致渠道水位过高,的优化决策难以实现-2 。基于物理机制的防洪调度优化影响渠道的安全运行,灌区泄水闸能够快速宣泄这部分方法主要分为线性规划(linearprogramming,LP)、非洪水,确保汛期渠道安全。因此,如何合理的进行渠道线性规划(non

7、-linear programming,NLP)、动态规划泄水闸的决策是灌区管理者在汛期需要面对的问题。与(d y n a m i c p r o g r a m m i n g,D P)、鹅优化算法(pelican自然流域洪水过程类似,渠道洪水的发生和推进也包括optimization algorithm,POA)和遗传算法等。李其梁等3渠道沿程集水区的降雨产汇流过程和洪水在渠道中的演建立了基于线性规划的两湖河道联合调度数学模型,可进过程;与其不同的是,渠道中节制闸、分水闸和泄水为汛期洪水资源配置提供决策依据。非线性规划能够处闸的人工调度会对洪水入渠后的推进过程有较大的影响,理目标函数不可分

8、和非线性约束问题,能够应用于更复其边界条件较自然流域更为复杂,这也给合理开展渠道杂的优化调度场景中,林瑜等4 构建了基于马斯京根模防洪调度带来了挑战。型的非线性规划模拟河段渠道中的洪水演进过程,为汛期渠道断面流量决策提供了可靠的方法。但LP和NLP收稿日期:2 0 2 3-0 4-11修订日期:2 0 2 3-0 5-0 9基金项目:十四五国家重点研发计划课题(2 0 2 2 YFD1900504);中国水利水电科学研究院技术创新团队项目(ID145B022021);河南省高等学校青年骨干教师培养计划项目(2 0 2 0 GGJS100)作者简介:葛建坤,博士,副教授,研究方向为农业水资源高效

9、利用。Email:通信作者:陈皓锐,正高级工程师,研究方向为灌区水循环模拟与调控。Email:文献标志码:A文章编号:10 0 2-6 8 19(2 0 2 3)-13-0 113-10方法不能考虑单个泄水闸的状态,因此不适合处理灌区渠道调度决策问题。ZHAO等5 将单调关系与动态规划进行合并,提出了改进DP的新算法,该算法可以作为防洪调度的有用工具测试不同的洪水情景并确定最优决策。LIU等6 利用POA方法确定了考虑河道优化的汛期多目标最优调度规则。但DP和POA计算工作量大,泄doi:10.11975/j.issn.1002-6819.202304081114水闸数量较多时,容易造成“维数

10、灾难”,需要一定的降维方法。AFAN等7 以尼罗河高阿斯旺大坝为研究对象,采用遗传算法优化了河流流量的预测精度,确定了时间序列下预测洪水的有效输入参数,研究结果可为其他类似地区的河道防洪调控提供参考。但遗传算法编程较为复杂,且算法内包含的交叉率、变异率等参数的设定依然需要人工经验确定。基于物理机制的防洪调度优化模型不仅在各环节的物理过程控制方程的求解和耦合方面较为复杂,而且涉及大量的模型参数,其实际应用过程中对数据资料的要求和模型使用者的专业要求较高。因此,如果能够基于影响渠道泄水决策的主要影响因素获得相对容易监测的数据,开展渠道防洪调度的决策,可以避免上述物理机制模型的缺点。近年来,人工智能

11、技术发展迅速,机器学习作为人工智能技术的核心分支,能够学习经验数据中输入和输出之间的复杂关系,快速提取高维数据特征和处理非线性数据,且具有良好的容错性8 。高玮志等9 利用机器学习解决了太湖流域多层次防洪调度方案的评价问题。张帆等10 采用多种机器学习模型对洪水特征指标进行了评估,为防洪措施的制定提供了参考。尽管机器学习算法在先前研究中表现良好,但由于其特有的“黑箱”性质,无法解释各变量对预测结果的贡献程度。ShapleyAdditiveexPlanations(SH A P)作为当前热门的机器学习事后解释工具,能够检测特征之间的交互作用,从而提供更加全面的特征重要性排序结果11-12 。目前

12、已用于环境监测、土地利用、信息科学等1,13-14 重要领域,该方法能够清楚量化机器学习算法中特征变量的全局重要性,可为防洪调度中关键因素的识别以及机器学习算法优化提供重要帮助。目前,灌区渠道防洪调度决策依赖复杂物理机制的调度优化模型,决策者需要对各渠段在不同暴雨条件下的来洪过程、洪量和洪峰大小、渠道的承洪能力、泄洪效果等非常了解才能做出较为合理的调度决策,若了解不充分,则可能造成渠道水量过度下泄等问题,危害下游渠系建筑物的安全。鉴于此,为给灌区渠道防洪调度决策提供一种简单高效的方法,本研究以安徽史杭灌区灌口集泄水闸为例,基于实测的闸上水位、历史和预报降雨信息以及泄水调度流量数据,比较不同机器

13、学习算法的预测精度,同时采用SHAP法筛选特征变量组合,进一步优化算法精度。以期为灌区现代化管理提供技术支撑。1材料与方法1.1石研究区概况史杭灌区位于安徽省中西部和河南省东南部,是中国特大灌区之一。其中安徽部分由河、史河、杭埠河三大灌区组成(图1)。灌区地貌包括山丘和平原两大类型,对于途经山丘区的渠段,在遭遇暴雨时,渠道一侧坡面的降雨产流会汇入渠道,引起渠道水位过高,从而引发渠道运行安全问题,该问题在南方丘陵灌区具有典型代表性。史河灌区位于史杭灌区西部,该灌区农业工程学报(http:/www.tcsae.org)低Low:-78m图例Legend*省会城市Provincial capital

14、s。地级市Citics一省界Provincial boundaries江淮分水岭Jianghuaiwatershed大型河流Largerivers注:DEM为地表高程。Note:DEM is the surface elevation.Fig.1 Schematic diagram of irrigation area of Pi Shihang1.2影响因素分析和数据来源灌区渠道泄洪调度期间,对于特定的泄水闸而言,其所在渠道的集水区面积、土壤质地、下垫面条件、集水区坡面/入渠河道的地形和坡度、坡面或者入渠河道的糙率、渠道断面和坡度、渠道糙率等因素一般固定不变。灌区渠道在汛期关闭进水闸或分水闸

15、时,渠道无上游来水,洪水完全来自单元流域内的降雨15。渠道水位是汛期灌区管理人员进行洪水调度时的首要关注指标,各泄水闸段的渠道水位不能超过警戒水位,防止漫顶16 。通过咨询灌区管理部门可知,对于灌口集调度单元而言,当启动防洪调度时,单元进口闸(看花楼节制闸)关闭,即渠道上游来流始终为0,该单元沿渠也未受其他闸门影响(图2)。因此,灌口集泄水闸的调度方式主要取决于过去的落地雨量、未来预报的雨量以及泄水闸前的实时水位及动态变化量。为尽可能全面考虑泄水闸调度的影响因素,本研究选取过去1、2、3、6、9 h和未来1、3、6 h 累积降雨量、灌口集泄水闸闸上水位和闸上水位差作为特征变量,以灌口集泄水闸调

16、度流量作为目标变量(表1),其中降雨量以集水片区内部及其附近的8个降雨站点平均值代表面雨量(白塔畈、龚店、薛贩、万山桥、小高庙、朱小堰、红石嘴、梅山)。上述各类数据来源于安徽省水文局和史杭灌区管理总局。为检验特征变量是否能解释调度流量变化规律,对灌口集泄水闸调度流量Y进行分析。由图3可以看出,调度流量分布曲线在偏度及峰度上与正态分布曲线均有2023年的局管渠道包括5个泄水闸,渠道防汛调度以节制闸为界划分为4个调度单元,各调度单元来洪基本在单元内排除。灌口集调度单元进口为看花楼节制闸,出口为河套汀渡槽,该单元有2 片侧向坡面来水,分别通过白嗒河和坡面散流进入渠道,单元内设置了灌口集泄水闸用于排除

17、洪水。灌口集泄水闸单孔闸宽7 m,共5孔,设计流量2 6 5m/s,闸上设计水位57.32 m。史河淮区DEM/m0.10.20一灌区边界Irrigationdistrict boundaries水库Reservoir湖泊Lakes图1史杭灌区示意图N沸河漫区杭埠河澡区40 km第13期一定的相似度,采用柯尔莫哥洛夫-斯米尔诺夫检验(k o l mo g o r o v-s mi r n o v,K-S检验)得到变量Y及xiX i o的P值分别为0.2 2 5、0.140、0.131、0.133、0.12 1、0.0 7 5、红4石嘴枢纽!1集水集水闸区域区域Fig.2 Guan Kouji

18、drainage unit connection relationship diagram表1变量及说明Table 1 Variables and descriptions符号说明SymbolsDescriptionX1过去1h降雨量X2过去2 h降雨量X3过去3h降雨量X4过去6 h降雨量Xs过去9 h降雨量X6未来1h降雨量X7未来3h降雨量X8未来6 h降雨量灌口集泄水闸闸上水位X10过去0.5h闸上水位差Y灌口集泄水闸调度流量2.01.51.00.50图3灌口集泄水闸调度流量分布曲线Fig.3 Distribution curve of dispatching flow of Guan

19、 Koujidrainage gate1.3研究方法本研究所用方法分为预测方法和特征变量筛选方法葛建坤等:基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测调度单元3胡洪河港水闸庄史河上游防节洪单元坡面制散流闸洪三胡家岔庄河河泄水单位UnitsData series lengthmmmmmmmmmmmmmmmmmmms正态分布Normal distribution实际分布Actual distribution-4-2024调度流量Dispatchedflow1150.130、0.12 2、0.135、0.2 32、0.2 0 8(P 0.0 5),均服从正态分布,参考文献17 ,将xi

20、x i o 全部用于算法预测及验证。调度单元2史河总干渠动态边界史河下游防洪史河下游防洪徐小圩单元坡面散流泄水闸付家河付家史河下游防洪单元旁无名河河坡面散流集水区域集水区域1集水白塔河区域灌口集防洪单元坡面散流调度单元0图2 灌口集泄水单元连接关系图两大类,其中预测方法用来建立特征变量与调度流量之间的关系,特征变量筛选方法是在分析特征变量对调度数据系列长度流量预测结果的影响程度大小的基础上,筛选变量组合。预测方法选取了线性回归(linear regression,LR)、K 近邻回归(k-nearest neighbors regressor,KNR)、岭回归(r i d g e r e g

21、r e s s i o n,RD R)、决策树回归(decision treeregression,DTR)4种传统回归算法和支持向量回归20102020年(s u p p o r t v e c t o r r e g r e s s i o n,SVR)、自适应提升回归(a d a p t i v e b o o s t i n g r e g r e s s i o n,A BR)、极度梯度提升回归(extreme gradient boosting,regression,XGR)、随机森林回归(randomforest regression,RFR)4种集成学习算法进行比较。传统回归算

22、法中LR可判断变量与目标因子之间线性相关程度的强弱18 。KNR适宜对连续时间的数据进行预测19,符合本研究的数据类型。RDR能够处理自变量间多重共线性问题2 0 。DTR能够表现数据间复杂的非线性关系,对缺失值不敏感且训练速度较快,适合用于小规模数据集的回归预测2 1。集成学习算法能够串联传统机器学习算法中的多个基学习器,提高预测性能。本文采用的4种集成学习算法可分为3类,其中SVR和RFR分别属于堆叠算法(stacking)和装袋算法(b a g g i n g),A BR和XGR属于提升算法(boosting)。6Stacking集成的高层模型使用线性回归等基学习器进行组合输出2 ,ba

23、gging使用同质弱学习器,其输出投票或平均产生,最终获得比基学习器更小的方差;boosting串联各个基学习器调整样本的损失函数或权重,通过叠加来减少总模型的预测偏差2 3。其中ABR和XGR在拟合残差方式上有所不同。8 种机器学习算法的关键参数及说明见表2。评平岗调度单元1节洋西进水闸洋西干渠单元坡面散流制4闸!汲东干稻场泄水闸渠动态边界V汲东干渠史河下游防洪单元坡面散流3看花楼节制闸!一灌口集泄水闸河套汀渡槽洋东进水闸洋东干渠116分类Type传统回归算法Traditionl regression algorithm集成学习算法Integrated learning algorithm采

24、用 SHAP法对特征变量进行筛选。SHAP法能够提供多特征交互影响下各个特征对于预测结果的贡献值。将xix i o 作为特征变量,Y作为目标变量,对8种机器学习算法预测精度进行比较并挑选出最优算法,再利用SHAP法对特征变量进行筛选组合,确定最终的调度流量决策模型(图4)。各方法及说明见表2。样本!获取实测闸上水位历史和预报降雨信息数据!测试集传统机器学习算法构建!调度!预测LRKNRRDRDTRSVRABRXGRRFR方案方法决策!模型Fig.4 Technology roadmap of this study1)LR算法线性回归算法用于确定两个及多个变量之间定量关农业工程学报(http:/

25、www.tcsae.org)表2 算法参数及说明Table 2Algorithm parameters and description算法Algorithm线性回归(LR)K近邻回归(KNR)岭回归(RDR)决策树回归(DTR)支持向量回归(SVR)自适应提升回归(ABR)极度梯度提升回归(XGR)随机森林回归(RFR)泄水闸调度流量数据训练集集成学习算法构建训练模型证算法性能比较模拟精度,选择最优算法特征变量!筛选方法SHAP法确定最佳变量组合形成最终调度流量决策模型图4研究技术路线2023年参数及解释Parameter and its explanation取值Value是否需要计算截距f

26、it_interceptTrue是否复制训练数据copy_XTrue最邻近数据点数量n_neighbors5叶子结点个数leaf_size30距离计算方式P2(欧氏距离)正则项系数alpha1是否需要计算截距fit_interceptTrue每个内部节点(非叶子节点)包含的最少的样本数min_samples_split2每个叶子结点包含的最少的样本数min_samples_leaf1树的最大深度max_depth3多项式核函数的次数degree3残差收敛值tol104交叉验证次数cv10决策树的数量n_estimators1256学习率learning_rate0.2每个基础决策树分裂所需最小

27、样本数min_samples_split10每个基础决策树叶节点所包含的最小样本数min_samples_leaf5决策树的数量n_estimators1000树的最大深度max_depth5学习率learning_rate0.1指定树的叶子节点上最小样本数min_child_weight3惩罚项系数gamma0.1使用的数据占训练集的比例subsample0.7决策树的数量n_estimators1311每个基础决策树分裂所需最小样本数min_samples_split2每个基础决策树叶节点所包含的最小样本数min_samples_leaf1系18 ,通用计算式为J=biXi+b2x2+.+

28、bixi式中 为目标变量,x,为输入变量,b,为回归系数。2)KNR算法K近邻回归算法采用测量特征值之间距离的方法进行预测19,样本的回归预测输出值为75WyV=1=S式中w,为样本权重,S为训练样本数,y,为第v个样本的输出值。3)RDR算法岭回归是一种专用于处理共线性数据的回归方法2 0 ,一般回归分析的(矩阵)形式如下:J=X+8式中X为输入变量矩阵,为回归系数矩阵,为误差矩阵。4)DTR算法在机器学习中,决策树表示对象属性与其值之间的映射2 1。将输入空间划分为M个区域 R,R2,,RM,选定的划分区域相应输出函数为(4)iR式中M为区域个数,Rm为第m个区域空间,j为区域中的输入变量

29、,Jm为区域Rm的目标变量输出值。5)SVR算法支持向量机用于回归问题时寻求二分法以最小化到超平面最远样本点的“距离”2 4,遵循使用核技巧转(1)(2)(3)第13期换数据的技术找到最佳输出边界。位于边界得到内的点满足:j=wo(a)+c式中w为权向量,a为输入变量,(a)为高维特征空间,c为偏置常数。6)ABR 算法ABR采用迭代思想,分类输出取决于这些多个分类器的组合效果2 5。构建的最终强分类器为H(x)=sign(n(Z,ah(e)Jt=1式中h,为基学习器,,为每个基学习器的权重系数,T为基学习器个数,g为输入变量。7)XGR 算法XGR 是一种基于 CART(c l a s s

30、i f i c a t i o n a n d r e g r e s s i o ntree)的Boosting类集成学习模型2 6 ,其目标函数为9=Z,(s.Er,f(xa)+Z.0(f.)式中d为样本个数,K为提升树个数,ya为第d个样本xa的预测值。Z,2(f.)表示u颗树的复杂度。8)RFR算法随机森林回归是一种基于决策树的集成学习算法2 7 ,包含层次上的的随机性,进行回归预测时,从所有的特征输入值H中随机选择h个值构建每棵决策树,从这h个值中去选择优化每个分割节点时,从而降低相关性,提高预测能力。9)SHAP 法SHAP是一种将传统方法与博奔论和局部解释联系起来,根据预期表示一

31、致性和局部准确性的特征归因方法。SHAPvalue为样本中特征的分配数值,满足等式:Yn=yb+f(xn,1)+f(xn,2)+.+f(xn,P)(8)式中Y,为输出的SHAP值,yb为所有样本目标变量的均值,xn,1)为第n个样本中第1个特征变量对该样本预测的贡献值,xn,P)以此类推。Table3Prediction evaluation of dispatching flow based on 8 algorithms分类Type传统回归算法Traditional regression algorithm集成学习算法Integrated learning algorithm注:SRMSE

32、为均方根误差;SMAE为平均绝对误差;SMsE为均方误差;R为决定系数。Note:SRse is the root mean square error;SMAe is mean absolute error.SMse is mean square error;R?is the coefficient ofdetermination.由表3可得,传统回归算法中DTR训练集及测试集误差指标均为4种算法中最优,LR的训练集SMsE较最大的KNR仅降低了6.6%,其余指标均为4种算法中最差。因此,LR在传统回归算法中的预测精度最差。集成学习算法中SVR训练集及测试集SMAE较最大的ABR分葛建坤等:基

33、于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测1.4数据标准化与算法评价指标将搜集到的18 0 组变量数据按照4:1的比例分为训(5)练集与测试集,调用Python3.9进行算法预测与验证。1)为消除数据量纲对于研究效果的影响,模型数据采用Z-score标准化方法,其计算式如下:ZB=Z-z式中ZB表示标准化后的数值,Z表示原始数据,乙表示原始数据的平均数,表示原始数据的标准差。(6)2)为评估算法预测精度,利用灌口集泄水闸调度流量预测值与实际值之间的均方根误差(SRMSE)、平均绝对误差(SMAE)、均方误差(SMsE)和决定系数(R2)作为评价指标。其中SMSE、SM A E和S

34、MsE越接近0,表示模型偏差度越小;R越接近1,表明预测值与实际值之间的吻合度越高。具体计算公式如下:VFZL,(P-R.SRMSE=V(7)E(P-R.)SMSE=FZL,(P,-P)(R-R)R?V(Pk-P)V(Rk-R)式中Rk为第k组数据的实际调度流量值;Pk为第k组数据的预测调度流量值;R为R,的平均值;P为Pk的平均值;F为样本个数。2结果与分析2.1基于不同机器算法的调度流量预测精度比较为了验证8 种机器学习算法在整个数据集上是否适用,本研究同时对训练集和测试集进行预测,分析其SRMSE、SM A E、SM SE及R指标并进行比较(表3)。表3基于8 种算法的调度流量预测评价训

35、练集Training setSRMSESMAELR0.518KNR0.494RDR0.503DTR0.476SVR0.338ABR0.331XGR0.155RFR0.146117(9)(10)(11)(12)(13)测试集Test setSMSER0.4350.2680.3830.2870.4240.2600.3240.2270.2900.1140.2920.1090.0930.0240.0940.021别降低了0.7%、5.3%,降幅不大,其余指标均为4种算法中最差。因此,SVR在4种集成学习算法中的预测精度最差。对比SVR和DTR,SVR训练集及测试集误差指标均优于DTR。综上,集成学习算

36、法较传统回归算法预测精度更佳。集成学习算法间的预测精度也具有一定SRMSE0.7020.6090.7080.5760.7120.5480.7240.5110.8730.4630.8840.4330.9540.3540.9760.306SMAE0.4990.3830.4530.3810.3200.3380.2360.197SMSE0.3700.3320.3010.2610.2150.1870.1260.0930.7270.7560.7790.8080.8420.8530.9080.931118差异,RFR训练集SRMSE、SM A E、SM SE、R分别为0.146m/s、0.0 94m/s、0

37、.0 2 1m/s、0.97 6;测试集分别为0.30 6 m/s、0.197 m/s、0.0 93m/s、0.931,在集成学习算法中RFR的预测精度最高。DTR训练集SRMSEVSMAE、SM s E、R分别为0.47 6 m/s、0.32 4m/s、0.2 2 7 m/s、0.724;测试集分别为0.511m/s、0.38 1m/s、0.2 6 1m/s、0.808,相比DTR,RFR的预测精度更高。对比4种集成学习算法,XGR在训练集及测试集误差指标上均优于ABR,RFR的训练集SMAE与XGR相差不大,其余指标均优于XGR,集成学习算法的预测精度排序为:RFRXGRABRSVR,3类

38、集成学习算法的预测精度由高到低依次为装袋算法、提升算法、堆叠算法。综上,随机森林回归(RFR)在8 种算法中的预测精度最优(训练集SRMSE=0.146m/s、SM A E=0.0 94m/s、SMsE=0.021 m/s、R2=0.97 6,测试集 SRMSE=0.306 m/s、SMAE=0.197 m/s、SM s E=0.0 93 m/s、R=0.931)。2.2变量筛选优化2.2.1特征变量重要性分析机器学习算法中,特征重要性是指特征变量对目标变量的影响程度,特征的选择对机器学习算法预测精度有较大影响,数量过多和不足分别会产生过拟合、欠拟合的问题,模拟精度均无法达到最佳。为检验采用1

39、0 组变量进行随机森林回归算法预测是否出现过拟合现象,本研究对10 组变量进行重要性分析(表4),得到不同变量对于预测结果的影响权重,通过比较不同变量组合下随机森林回归算法预测误差指标,挑选最佳变量组合进一步优化算法。由表4得SHAP法确定的变量组合特征重要性排序为:X0 xxgxxxxxX0oX7,x g 对预测结果的影响最大,占SHAP值总和的34.6%。过去时段降雨Table 5 Evaluation metrics for 10 combined training sets and test sets based on SHAP method and RFR组合GroupX+X10+x

40、,+xg+x2+x3+x4+xg+xs+xXgXio+xi+x+x2+x3+x&+x+xs+xgXj+X+x2+x3+x4+xg+x,+XgXg+x2+x3+xg+xg+xs+XgX2+x3+xg+xg+xs+xgX:+x4+xg+xs+xgX4+xg+xs+XgX:+xs+XgXs+Xg3 讨 论3.1目标变量影响因子分析本研究选择的10 个特征变量可归类为水位和降雨2种类型。LONG等2 8 指出,水位波动对三峡大坝的日调节流量影响较大;JANE等2 9 也提出,水位流量关系是分析洪水成因,进行风险评估的重要内容;纪亚星等30 认为不同降雨重现期对理想区域的洪峰流量削减率不同;崔春光等31

41、 将中尺度数值模式的预报降雨信息输入新安江模型,结果表明预见期内的降水量直接影响洪水流量农业工程学报(http:/www.tcsae.org)XXsX8X4X3X2X6X10X72.2.2特征变量筛选根据表4建立10 种组合分析训练集和测试集误差指标及变化趋势(表5)。由表5可以看出,不同变量组合下,RFR训练集SMSE、SM A E、SRM SE及R?均优于测试集,依次去除特征重要性最小的因素,误差指标SRMSEVSMAE、SM SE呈现出先减小后增大的趋势,R?呈现出先增大后减小的趋势。可见,当把xix i o 作为输入变量时出现了过拟合现象,变量组合x4+x+xs+x训练集及测试集指标均

42、为10 种组合最优,由SHAP法确定以x4+xs+xg+x,作为输入变量时,随机森林回归(RFR)算法的预测效果最佳(训练集SRMsE=0.126m/s、SM A E=0.0 8 0 m/s、SMs=0.016 m/s、R2=0.98 2;测试集 SRMs=0.263 m/s、SMAE=0.164 m/s、SM s e=0.0 6 9 m/s、R=0.950)。其训练集及测试集R?较采用所有特征变量预测分别提高了0.6%、2.0%;SRM SE、SM A E、SM SE分别降低了13.7%、14.9%、2 3.8%、14.1%、16.3%、2 5.8%;可见变量选择对预测精度的影响较为显著。表

43、5基于SHAP法和RFR的10 种组合训练集及测试集评价指标训练集TrainingsetSRMsE/(ms*l)SMAE(m.s)0.1460.0940.1450.0930.1340.0860.1300.0840.1300.0830.1300.0820.1260.0800.1300.0820.1950.1320.3560.2522023年量(xix s)SH A P值总和为0.47 3,未来时段降雨量(x x g)SH A P值总和为0.2 8 7,可见过去时段降雨对泄水调度决策的影响程度比未来降雨更大。表4SHAP法特征重要性分析结果Table 4Results of features im

44、portance analysis of SHAP method符号SymbolsSMse:(m s:l)R20.0210.9760.0210.9770.0180.9800.0170.9810.0170.9810.0170.9810.0160.9820.0170.9810.0380.9580.1270.859预报的精度,以上研究均表明水位和降雨是影响流量的重要因素。由表4可得,在特征变量重要性排列中第一位为xg,其原因为闸上水位是影响灌口集泄水闸调度流量的直接因素,闸前水位高,其泄水流量必然趋向增大。降雨是诱发洪水的驱动因素和激发条件32 ,本研究中不同时段降雨量对泄水调度流量的影响不同,这与

45、鲁洋等13-41研究一致。表4中过去时段降雨对泄水调度决策的影响程度较未来降雨更大的原因是落地雨除去损失后的净雨为产流过程,未来降雨形成的径流过程需净雨通过坡面和沟道产生,降雨先后经历该2 个过程的变化,SHAP值SHAPvalue0.4150.2380.2350.0820.0800.0420.0340.0310.0230.018测试集TestsetSRMSE:(m.sl)SMAe(m.s:)0.3060.1960.3030.1970.2750.1830.2700.1810.2680.1730.2630.1700.2630.1640.2650.1730.5110.3580.7550.589SM

46、se(m.s)0.0930.0920.0760.0730.0720.0690.0690.0700.2610.570R20.9310.9320.9440.9460.9470.9490.9500.9480.8080.581第13期使径流的相关性弱于产流35。3.2不同机器学习算法预测精度差异从表3看出,集成学习算法误差指标明显优于传统机器学习算法,这是因为传统机器学习算法中各类基学习器在不同数据源上的学习效果不同,单一基学习器对于样本的学习误差可能较大。集成学习能够训练多个基学习器模型,得到一个较好的集成模型,从而提高整个模型的泛化能力36 ,由于基学习器的种类、训练模式以及输出方法不同,集成学习

47、算法的预测结果也不尽相同。由表3得到3类集成学习算法中装袋算法预测精度最高的原因是:特征变量和目标变量分布趋势较为相似,装袋算法对于训练模型差距不大的样本,能够通过投票或平均化最大程度还原目标值。赵敬涛等2 3 采用3类集成学习算法对企业自律性进行评估,得到预测精度由高到低依次为:提升算法、装袋算法、堆叠算法,与本研究有所不同,这是因为:企业自律性评价数据集同时存在离散类和连续类特征,装袋算法的各个基学习器的输出只作一个简单的投票或平均,其学习效果有相当大的局限性37 。而提升算法中梯度提升决策树(gradientboostingdecision tree,G BD T)的每个分类器都会在上一

48、轮训练基础上不断降低偏差,对于多特征数据集学习效果更佳。同时,赵敬涛等得到XGR预测精度优于ABR,与本研究结果一致,这是因为:ABR通过拟合残差逐渐减少残差,而XGR基于GBDT的每次计算都能减少残差,XGR较ABR可更大程度上减少误差。本研究对比8 种机器学习算法预测评价指标,随机森林算法预测精度高于其他算法的原因可能是:1)现有的随机森林算法不需要考虑一般回归问题所面临的多元共线性问题,在部分数据缺失或数据量相对较小的情况下仍能保持一定的精度38 ;2)随机森林算法具有一定的抗噪声能力;3)时间、降雨、水位及流量间的数据维度相差较大,随机森林算法无需做特征选择,对数据集的适应能力强。HA

49、SAN等39 以沿海地区为例,研究得到随机森林算法能够准确预估洪水敏感性,为防洪策略制定提供了可靠思路;高玮志等40 基于KNN和随机森林算法构建流域、区域、城镇多层次调度方案综合评价模型,为防洪调度方案的优选提供科学参考。以上研究结果均证实了随机森林算法在防洪调度决策上的可行性。3.3特征变量筛选对预测精度的影响机器学习算法模拟精度受数据集特征选择的影响41。STEPHEN等42 认为合理的特征选择可以消除数据中的噪声,提高模型性能。本研究采用SHAP法对所选10 组特征变量进行重要性排序,并分为10 种组合进行预测对比,结果表明,采用x4+xs+xg+x作为输入变量时,随机森林回归算法预测

50、精度最佳。同时,选用x4+xs+xg+x相比于选用全部变量也降低了数据收集成本和难度。综合2 0 10 2 0 2 0 年历史数据,过去6 h降雨量、过去9h降雨量、未来6 h降雨量、灌口集泄水闸闸上水位是影响灌口集泄水闸调度流量的主要因素。本研究基于机器学习构建的泄水调度决策模型,属于数据驱动型的黑箱模型,与相关的产汇流一洪水演进一泄水调度耦合性机理模型在本质上有较大区别,两者葛建坤等:基于SHAP重要性排序和机器学习算法的灌区渠道调度流量预测119各有其优缺点,机理模型虽然能够得到诸如入渠洪水流量过程、渠道及洪水位演进等中间要素的动态变化,但其需要的水文水动力方程耦合计算过程较为复杂;机器

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服