收藏 分销(赏)

基于随机森林算法的福建省降雨预测.pdf

上传人:自信****多点 文档编号:582949 上传时间:2024-01-02 格式:PDF 页数:4 大小:1.92MB
下载 相关 举报
基于随机森林算法的福建省降雨预测.pdf_第1页
第1页 / 共4页
基于随机森林算法的福建省降雨预测.pdf_第2页
第2页 / 共4页
基于随机森林算法的福建省降雨预测.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、以福建省2 0 2 1 年6 月一2 0 2 2 年5 月的云层气象数据为研究对象,按经纬度网格将福建省划分为5 个区域,通过随机森林分类算法依次对5 个区域是否降雨进行分类模型训练。结果显示,各区域预测准确率均达到9 6%以上,但不同区域的特征重要性程度不一,其中中云位总云量、低云位总云量、地表植物冠层地表水3个特征对各个区域是否降雨的影响较重要。关键词:LASSO回归;随机森林;特征选择;降雨预测中图分类号:X51;TP181(School of Mathematics and Statistics,Minnan Normal University,Zhangzhou 363000,Chi

2、na)Abstract:Based on the cloud meteorological data of Fujian Province from June,2021 to May,2022,Fujian Province isdivided into five regions according to the latitude and longitude grid.The random forest classification algorithm is used totrain the classification model of whether that the rainfall i

3、s in the five regions successively.The results show that thecorrection accuracy of each region reaches more than 96%.However,the importance of features in different regionsvaries,among which the total cloud cover at middle and low cloud level,and surface water of surface plant canopy havemore import

4、ant effects on rainfall in each region.Key words:LASSO regression;Random forest;Feature selection;Rainfall forecast福建省沿海地形较平坦,对夏季风抬升作用相对较弱,降水较少一些,西部有武夷山脉,对夏季风阻挡抬升作用较强,武夷山东南侧降水较多,故福建省的降雨量空间分布特征为东南沿海降水偏少,向西北内陆方向降雨增多,降水分布不均衡 。利用随机森林算法2-4,对福建省是否降雨进行预测研究。1数据集使用的数据来自美国国家大气研究中心、计算与信息系统实验室公开网站,其档案中的NCEPGDAS

5、/FN(https:/rda.ucar.edu/datasets/ds094.0/#sfol-wl-/data/ds094.0?p=33)业务为全球分析及订正数据。该数据为水平分辨率0.5 0.5 的网格气象数据,时间频率为每1 h从原始数据集sfluxgrbl中通过经纬度选取整个福建省的气象数据,时间跨度为2 0 2 1 年6 月1收稿日期:2 0 2 3-0 5-2 1基金项目:福建省自然科学基金(2 0 2 1 J01982)作者简介:朱宏宇(1 9 9 6),男,硕士研究生。研究方向:应用统计。通讯作者:刘群(1 9 8 7-),男,博士研究生,副教授。研究方向:数理统计。文献标志码:

6、AResearch on Rainfall Prediction in Fujian Province Basedon Random Forest AlgorithmZhu Hongyu,Liu Qun所示。区域龙岩南平泉州莆田三明福州宁德厦门漳州2石研究方法随机森林(randomforest)的基本组成单元是决策树,又称为分类回归树(CART5。分类回归树的基本思想是一种二分递归分割方法,在计算过程中充分49文章编号:1 6 7 4-8 6 46(2 0 2 3)1 4-0 0 49-0 4日2 4时至2 0 2 2 年5 月31 日2 4时,为每小时观测数据,共记录8 7 6 0 个数据。

7、通过经纬度网格划分,网格精度水平分辨率为0.5 0.5,将福建省划分为5 大区域,分别为龙岩、南平、福州宁德、泉州莆田三明及厦门漳州。使用变量见数据集 sfluxgrbl。选取云层气象数据具有更好的特征,对降雨的影响可解释性更高。各区域数据量及特征数量如表1表1 各区域原始降雨数据Tab.1 Original rainfall data of each region特征数量/个8484845454数据数量/h87608760876087608760Type利用二又树,在一定的分割规则下将当前样本集分割为两个子样本集,令生成的决策树的每个非叶节点都有两个分枝,这个过程在子样本集上重复进行,直至不

8、可再分为叶节点为止。由于单棵决策树精度不高,容易出现过拟合的问题,故需通过聚集多个模型来提高订正精度。随机森林采用 Bagging*c方法来组合决策树,利用Bootstrap8重抽样方法从原始样本中抽取多个样本,对每个样本进行决策树建模,组合多棵决策树的预测,通过投票得出最终预测结果。D,决策树1对每个训练样DD随机化Dk图1 随机森林示意图Fig.1 Schematic diagram of random forest3分类模型的建立与评估3.1随机森林分类模型的建立按照经纬度,将福建省一年之间的逐小时气象数据划分为5 个区域,分别为南平、福州宁德、龙岩、泉州莆田三明及厦门漳州。其中,福州宁

9、德与厦门漳州两大区域除目标特征label(是否降雨)之外,有5 4个气象特征,南平、龙岩及泉州莆田三明三大区域除目标特征label之外,有8 4个气象特征。每个区域降雨(非降雨)数据量分布如表2 所示。表2 各区域降雨(非降雨)数据量分布Tab.2Distribution of rainfall(non-rainfall)data in each region降雨数据量非降雨数据量区域/小时(标签为1)南平2041福州宁德1765龙岩1370泉州莆田三明1658厦门漳州906对各区域数据建立随机森林分类模型,将5 个区域的数据通过随机抽样分别按照7:3的比例随机划分,其中7 0%作为训练数据,

10、30%作为测试数据。分别选取1 0%特征数、30%特征数、5 0%特征数、7 0%特征数,CART决策树从0 2 0 0 变化时观察模型的误差变化情况如图2、图3、图4、图5 所示(南平区域)。图中横坐标表示决策树的数量,纵坐标表示模型的分类误差率,其中erroro实线表示非降雨(标签为0)的误差率,errorl短虚线表示降雨的误差率(标签为1),50errorOOB长虚线表示袋外数据两种类别综合的误差率。观察图2、图3、图4、图5、图6,随着决策树数量的增加,袋外数据的误差率先减小后趋于稳定。对比各特征数的模型,选取决策树1 0 0 棵、5 0%特征作为最终模型。0.10投票0.05(取均值

11、)本建决策树2立决-策树决策树k/小时(标签为0)67196995739071027854Typeerroroerror1errorooB输出预测结果0Fig.210%feature number0.090.060.030Fig.330%feature number0.1000.075.0.050.0.025.0Fig.450%featurenumber50100150200决策树/棵图2 1 0%特征数50100150200决策树/棵图330%特征数50100 150200决策树/棵图45 0%特征数erroroerror1errorooBTypeerroroerrorlerrorooB的数

12、据拟合后生成的变量重要性的排序,取前30 个,Typeerroro0.100errorlerrorooB0.0750.0500.025.050100150200决策树/棵图5 7 0%特征数Fig.570%feature number随机森林模型在拟合数据后会对数据特征有一个重要性的度量,对应随机森林模型认为训练特征的重要程度。图6 展现的是随机森林分类模型对南平区域CNWATsurfaceTCDCmiddle.cloud.layerSSRUNsurfaceTCDClow.cloud.layerCsuLFtop.of.atmosphereTMPo.o.1.m.below.groundUSWRF

13、top.of.atmosphereULWRFtop.of.atmosphereSoILwo.o.1.m.below.groundTcDCentire.atmosphere.considered.as.a.single.layer.TMAX2.m.above.groundHGT1.hybrid.levelPwATentire.atmosphere.considered.as.a.single.layer.SNoDsurfaceTMPo.4.1.m.below.groundTMPi.hybrid.levelVEGsurfaceTMPo.1.0.4.m.below.groundWEASDsurfac

14、eEvcWsurfaceSolLLo.0.1.m.below.groundEVBSsurfaceTCDCboundary.layer.cloud.layerPEVPRsurfaceLHTFLsurfaceCPRATsurfacePRESsurfaceTMPi2.m.below.groundGFLUXsurfaceV.GWDsurface3.2性能评估建立随机森林分类模型后,对比各区域误差率在不同特征下随着决策树数量的变化,选取误差率最小的参数训练模型,如表3所示,其中南平、龙岩两个区域选取5 0%特征数用来训练模型,福州宁德与泉州莆田三明两个区域选取30%特征数,厦门漳州区域选取70%特征数。

15、决策树数量南平、福州宁德、泉州莆田三明3个区域均选取1 0 0 棵,厦门漳州区域取1 30 棵决策树,龙岩区域选择1 5 0 棵决策树作为最终的模型参数。表4为模型在5 个区域袋外数据的混淆矩阵及各类别上的错误率、训练集袋外数据的误差率及测试集横坐标为平均下降基尼系数(Mean Decrease Gini),计算每个变量对分类树每个节点上观测值异质性的影响,该值越大表示变量的重要性越大。对5 个区域输出影响是否降雨的前30 个特征,结果表明,每个区域的重要性均不同,按重要性排序(选取影响较大的特征),福州宁德区域为低云位总云量、边界层总云量、中云位总云量、大气总云量、大气晴空顶部向上长波通量,

16、龙岩区域为地表降水速率、大气柱云功函数、中云位总云量、低云位总云量、地表植物冠层地表水,泉州莆田三明区域为地表暴雨地表径流、低云位总云量、中云位总云量、地表植物冠层地表水,厦门漳州区域为中云位总云量、低云位总云量、大气顶部晴空向上长波通量,南平区域为地表植物冠层地表水、中云位总云量、地表暴雨地表径流、低云位总云量。Importanceof Variables0100图6 南平区域变量重要性排序Fig.6 Importance ranking of variables in Nanping Region的准确率。观察表4可知,各区域的测试集准确率均达到9 6%以上,其中龙岩区域的0 0 B误差在

17、1%以下,测试集准确率达到9 9.5%,订正效果最好。表3各区域随机森林分类模型参数Tab.3Parameters of random forest classification model in each region区域南平福州宁德龙岩泉州莆田三明厦门漳州200MeanDecreaseGini300400特征数(%)5030503070500决策树(棵)10010015010013051表4各区域袋外数据混淆矩阵及准确率Tab.4 Confusion matrix and accuracy of out-of-pocket data in each region区域类别0南平10福州宁德1

18、0龙岩10泉州莆田三明10厦门漳州1“0表示非降雨,“1 表示降雨。4结论利用随机森林分类算法对福建省降雨进行预测研究,得出了以下结论:随机森林在对是否降雨的分类预测上能够表现出较好的效果,对福建省各区域是否降雨的判断准确率均达到9 6%以上。在是否降雨的预测上,不同区域的特征重要性程度不一,其中中云位总云量、低云位总云量、地表植物冠层地表水3个特征对各个区域是否降雨的影响较重要。参考文献:1】毛颖,刘隽,郑君亮,等.汛期期间福建省山区小时降雨特征分析J.海峡科学,2 0 2 2(0 2):1 1-1 5.04653944757108512112500775544855166132110211

19、301694840110534590分类误差率0.0140.0660.0210.0870.0030.0130.0080.0640.0060.0852】彭义春,张捷,覃左仕.基于随机森林算法的职位薪资订正J.智能计算机与应用,2 0 2 1,1 1(1 0):6 7-7 2.3】侯俊雄,李琦,朱亚杰,等.基于随机森林的PM2.5实时预报系统J.测绘科学,2 0 1 7,42(0 1):1-6.【4师彦文,王宏杰.基于新型不纯度度量的代价敏感随机森林分类器J.计算机科学,2 0 1 7,44(S2):9 8-1 0 1.5】张新蕾,张春蕾.基于随机森林算法的小学生成绩分析与订正研究J.教育观察,2

20、 0 2 2,1 1(1 4):5 2-5 5.【6 周志华.机器学习M.北京:清华大学出版社,2 0 1 6:2 4-46.7吴兴惠,周玉萍,邢海花.集成学习之随机森林分类算法的研究与应用J.电脑知识与技术,2 0 2 0,1 6(2 1):2 6-2 7.【8】余胜男,陈元芳,顾圣华,等.随机森林在降水量长期预报中的应用J.南水北调与水利科技,2 0 1 6,1 4(0 1):7 8-8 3.袋外数据误差率/%2.613.440.461.851.45测试集准确率/%97.7596.1799.5198.1097.65(上接第48 页)余热锅炉排烟温度也会相应改变,提高低压蒸汽压力,排烟温度急

21、剧升高,提高再热蒸汽压力,排烟温度显著下降,提高主蒸汽压力,排烟温度则有所升高。提高蒸汽温度对于蒸汽轮机发电量的提升作用有限,余热锅炉排烟温度也是略有升高。出于前期建设成本与运行安全性考虑,各级蒸汽温度取决于相应的过热器烟温,当余热锅炉结构形式确定时,蒸汽温度的优化余地很小。对于结构形式已经确定的余热锅炉,改变燃气轮机工况,其蒸汽参数与设计阶段有着相似的变化规律。主蒸汽压力在燃气轮机负荷越高时,对联合循环的影响就越大,而再热蒸汽压力正好相反,在燃气轮机负荷越低时,对联合循环的影响越显著。低压蒸汽压力对联合循环的影响不大,但对余热锅炉的排烟温度有着举足轻重的影响。52为了计算方便,本研究假设了一

22、些参数在匹配分析中一直保持不变,但这在实际生产中是不可能的,故得出的计算结果与实际情况可能稍有差别,然而这些假设参数在匹配分析过程中对结论的影响不大。参考文献:1】张刚,张怀涛,张玉雷.燃气蒸汽联合循环余热锅炉的发展和研究J.自动化博览,2 0 2 2,39(1 0):7 3-7 7.2厉剑梁.燃气-蒸汽联合循环机组余热锅炉优化研究D.北京:华北电力大学(北京),2 0 1 7.3焦树建.燃气蒸汽联合循环理论基础M.北京:清华大学出版社,2 0 0 3.4】焦树建.燃气轮机与燃气蒸汽联合循环装置M.北京:中国电力出版社,2 0 0 7.5】何宏,于兰兰,张栋芳.联合循环热力系统优化研究J.热力透平,2013,4(42):236 239.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服