1、ata100mResolutionuntainousAreasoftheWinterOlympicic Games J.Chinese Journal of Atmospheric Sciences(in Chinese),47(3):Jingfeng,SONGLinye,CHENuan,etal.z0z3arative Machine Learning-Based Correction Experiment for a 10 m Wind SpeedForecastXU徐景峰,宋林烨,陈明轩,等.2 0 2 3.冬奥会复杂山地百米尺度10 m风速预报的机器学习订正对比试验 .大气科学,47(
2、3):8 0 5-8 2 4.May20232023年5月ChinesSciencesVol.47 No.3学科第47 卷第3期805-824.doi:10.3878/j.issn.1006-9895.2209.22117冬奥会复杂山地百米尺度10 m风速预报的机器学习订正对比试验宋林烨2徐景峰1,22陈明轩杨璐?韩雷!1中国海洋大学,青岛2 6 6 10 02北京城市气象研究院,北京10 0 0 8 9摘要本文以传统机器学习算法XGBoost和深度学习算法CU-Net为基础,针对北京快速更新无缝隙融合与集成预报系统(RISE系统)预报的北京冬奥会延庆及张家口赛区10 0 米分辨率的冬季近地面
3、10 m风速数据,进行每日逐小时起报的未来逐6 小时间隔的冬奥高山站点及其周边地区风速预报偏差订正方法研究和对比分析。对于站点订正,首先将RISE系统预测的10 m风速插值到对应的自动气象站站点,然后根据风速等级表归类,针对每个分类单独构建XGBoost模型,每个区间模型合并后形成L-XGBoost,使用均方根误差和预报准确率作为评分标准,结果表明风速归类的L-XGBoost算法订正效果比不归类的原始XGBoost模型有一定提升,说明在传统机器学习中加入归类方法有助于改善复杂山地站点风速预报技巧。对于站点及其周边地区风速订正,本文在CU-Net模型基础上,通过引入不同深度的CU-Net子网络,
4、构建了新的算法模型CU-Net+,并考虑了预报日变化误差和复杂地形对10 m风速的影响,以自动气象站为中心构建空间小区域样本数据,对RISE系统风速预报偏差进行订正。试验结果表明,CU-Net和CU-Net+均可以充分挖掘时间和空间维度的风场变化规律,且CU-Net+模型风速订正结果优于CU-Net模型,有效降低了RISE产品的格点风速预报误差,也发现预报误差和复杂地形的引入对10 m风速偏差订正起到重要的正向作用。关键词同百米尺度预报复杂山地机器学习风速订正文章编号号10 0 6-9 8 9 5(2 0 2 3)0 3-0 8 0 5-2 0中图分类号P45文献标识码Adoi:10.3878
5、/j.issn.1006-9895.2209.22117Comparative Machine Learning-Based Correction Experiment for a 10 mWind Speed Forecast at a 100 m Resolution in Complex MountainousAreas of the Winter Olympic GamesXU Jingfeng2,SONG Linye,CHEN Mingxuan,YANG Lu,and HAN Lei1OceanUniversityofChina,Qingdao2661002 Institute of
6、 Urban Meteorology,China Meteorological Administration,Beijing 100089收稿日期2022-07-04;网络预出版日期2023-02-25作者简介徐景峰,男,1997 年出生,硕士研究生,主要从事人工智能与气象应用方向的研究。E-mail:通讯作者宋林烨,E-mail:资助项目北京市自然科学基金项目8 2 12 0 2 5、8 2 2 2 0 51,国家重点研发计划2 0 18 YFF0300102,北京市气象局科技项目BMBKJ202004011,国家自然科学基金项目42 2 7 50 12Funded byy Beijing
7、Natural Science Foundation(Grants 8212025,8222051),National Key Research and Development Program(Grant2018YFF0300102),Science and Technology Project of Beijing Meteorological Bureau(Grant BMBKJ202004011),National NaturalScience Foundation of China(Grant 42275012)806Vol.47ChinesernahericSciences47卷学科
8、Abstract Based on a traditional machine learning algorithm(XGBoost),a deep learning algorithm(CU-Net),and thewinter wind speed data from 10 m near the ground with a resolution of 100 m,this paper studied and compared thecorrection methods for wind speed forecast deviation in the mountainous stations
9、 and surrounding areas of the Yanqingand Zhangjiakou competition areas(Beijing Winter Olympic Games)using the rapid-refresh integrated seamlessensemble(RISE)system.For station correction,the 10-m wind speed predicted by the RISE system is interpolated to thecorresponding automatic weather station.Su
10、bsequently,a separate XGBoost model is constructed for each classificationaccording to the wind speed rating table.Afterward,each interval model was combined to form L-XGBoost,using theroot mean square error and forecast accuracy as its scoring standard.Investigations revealed that the correction ef
11、fect ofthe L-XGBoost algorithm for wind speed classification was better than the original XGBoost model without classification,indicating that introducing a classification method to traditional machine learning helped improve the wind speedprediction skills of the complex mountain stations.Subsequen
12、tly,for the wind speed correction of the station and itssurrounding areas based on the CU-Net model,this paper constructed a new algorithm model(CU-Net+)by introducingthe CU-Net sub-networks with different depths,considering the influence of daily forecast errors and complex terrains onthe 10-m wind
13、 speed.This paper also constructed spatial small-area sample data,considering the automatic weatherstation as the center,to correct the wind speed prediction deviation of the RISE system.The test results indicated thatalthough both CU-Net and CU-Net+fully mined the wind field change rules in time an
14、d space dimensions,the windspeed correction results of the CU-Net+model performed better than those of the CU-Net model,effectively reducingthe grid wind speed prediction error of RISE products.Hence,introducing prediction error and complex terrain plays animportant positive role in the deviation co
15、rrection of a surface 10 m wind speed-based investigation.Keywordss100 m scale forecast,Complex mountain,Machine learning,Wind speed correction1引言风与人类社会密不可分,关系着人们的日常生活、各类大型活动举办和公共安全,提高风速风向的精细化预报水平具有重要意义。众所周知,许多冬季运动项目,尤其是冬奥会雪上项目赛事都在地形十分复杂的山区举行,气象条件不仅直接关乎赛事的顺利举办,还关乎运动员水平发挥和生命安全,而这其中,高分辨率风速的精准预报就是关键之一。
16、受地形强迫、地面摩擦和日照辐射等的影响,山区各种边界层内的小尺度大气脉动、风速风向的空间变化和日变化特征及其影响机制复杂多变,导致山区小尺度风场预报难度和偏差远大于平原地区(Be n o i t e t a l.,2 0 0 2;高登义等,2 0 0 3;贾春晖等,2019;Wilczak et al.,2019;Shaw et al.,2019;Joe etal.,2021)。因此,研究适用于复杂地形下的高分辨率风速预报偏差订正方法、提升高山区风场预报的准确性就显得尤为重要(Howardand Clark,2007;Mitchell et al.,2020)。当前风速预测的主要方法之一是数值
17、天气预报(Numerical Weather Prediction,NWP)模式。NWP模式通过在给定初始和边界值的情况下求解大气运动和热力学方程组,预测未来一段时间的风速变化。然而NWP模式描述的大气物理运动过程有限且初始场不可能绝对准确(Lorenz,196 5;曾庆存,197 8;Muetal.,2002;丁瑞强和李建平,2 0 0 7;伍荣生等,2007;Fengetal.,2014;常俊等,2 0 15),导致风速预报不可避免存在一定的误差,尤其在复杂地形下,风速预报误差更大、预报准确性更低。因此对NWP模式输出的原始风速预报进行偏差订正是提升风速客观预报准确率的主要手段。常见的风速
18、预报订正主要是基于降尺度方法或统计方法,例如黎静(2 0 16)运用NWP与计算流体力学耦合模式(Co mp u t a t i o n a l Fl u i d D y n a mi c s,CFD),实现了研究区域内风场的降尺度订正。胡海川等(2 0 17)基于集合预报及历史观测资料对我国沿海若干个代表站点进行了10 m风速的订正研究,取得了较好效果。王在文等(2 0 19)利用相似集合方法对NWP的10 m风速进行了订正,在0 36 h预报时效段中,风速预报的均方根误差显著降低。随着交又学科的发展以及人工智能的浪潮推动,机器学习(含深度学习)在天气、气候领域发挥的作用越来越明显(海滢和陈
19、光华,2 0 19;Lietal.,2019;智协飞等,2 0 2 0;贺圣平等,2 0 2 1)。孔令彬等(2 0 14)使用支持向量机对人工观测数据和自动观测数据之间构建风速订正模型,有效减少了两种数据之间的相对误差。Linetal.(2 0 15)将风速按照季节分类,使用随机森林算法对阿联酋地区六年风807No.3XU Jingfeng et al.Coinparatlearnln-Based CorrectionExperimentfora 10m WindIviaenlne徐景峰等:冬奥会复杂山地百米尺度10 m风速预报的机器习订正对比试验3期速和风向数据进行了订正,并取得了一些成果
20、。孙全德等(2 0 19)基于Lasso回归提取若干个影响风速的物理量作为特征集,构建随机森林和深度学习模型并对NWP模式10 m风速进行订正,其订正结果相比传统模式统计输出(ModelOutputStatistics,M O S)有一定提高。在北京冬奥会中,也引入了人工智能技术以提升预报准确性(Xiaetal.,2020)。最近,任萍等(2 0 2 0)使用XGBoost算法、等权重平均法和线性回归算法构建了基于时间滞后的集成订正模型(Luetal.,2007),对北京地区NWP模式输出的10 m风速等气象要素进行订正,取得了较理想的结果。毛开银等(2 0 2 0)提出CD-XGBoost算
21、法,使用KMeans聚类算法根据原始特征对风速订正的贡献度对站点聚类,再结合风速的空间特征构建XGBoost订正模型,对全球NWP模式的10 m风速进行订正,使得10 m风速预测准确度有了明显提高。Hanetal.(2 0 2 1)提出了一种基于CU-Net的深度学习订正方法,对全球NWP模式的10 m风速格点预报数据进行订正,结果相比传统订正方法有了较大幅度提升。张延彪等(2 0 2 2)在CU-Net模型基础上引入稠密卷积块(H u a n g e t a l.,2 0 17)构建Dense-CUnet模型,并融合多元气象要素进一步构造出Fuse-CUnet模型,对全球NWP模式的10 m
22、风速预报偏差进行订正,效果均优于原始的CU-Net模型,有效减少了风速预报误差。但是,一方面前人研究大多集中于较大尺度区域范围,而较少研究地形结构复杂的小范围高山地区;另一方面,前人研究主要基于至少3km分辨率或更粗网格的NWP模式输出数据开展站点或格点风速预报订正,而很少基于百米级分辨率的网格化预报数据开展这方面的研究和对比分析。本文基于传统机器学习算法XGBoost和深度学习算法CU-Net,应用北京城市气象研究院研发的快速更新无缝隙融合与集成预报系统(Rapid-refresh Integrated Seamless Ensemble system,简称RISE系统)的10 0 m分辨率
23、冬季近地面10 m风速数据,针对北京冬奥会延庆赛区及张家口赛区(各约3km3km范围)的预报结果,进行每日逐小时起报的未来逐6 小时间隔的风速预报偏差订正方法研究和对比分析。RISE系统融合了雷达四维变分分析系统高时空分辨率三维风场(杨璐等,2019),并引入了复杂地形下高精度风场融合预报订正技术(杨璐等,2 0 2 2),可以获得京津冀地区500m分辨率、冬奥山地赛区10 0 m分辨率的近地面10 m风场格点分析和预报数据。在站点风速订正方面,基于传统机器学习算法XGBoost,首先将RISE系统预测的10 m风速格点数据插值到对应的自动气象站得到站点数据,再根据风力等级表归类,对每个分类选
24、取与风场相关联的物理量构建特征集,最后形成L-XGBoost进行建模,实现62 4h 预报风速的逐6 小时(6 h/12h/18h/24h)订正试验,并与原始XGBoost模型进行对比分析。考虑到基于L-XGBoost的站点订正只能对某一点进行风速偏差订正,无法对周围区域进行订正,空间代表性较为受限。冬奥赛区水平范围约在3kmX3km,R I SE系统的空间分辨率为10 0 m,一个赛区占据的网格数为30 30,且冬奥赛区地势复杂,单个站点风速情况不足以代表整个赛区风场情况,因此基于CU-Net算法模型构建空间数据集可以实现对站点及其周边区域的风速订正。根据不同的业务需求和具体的计算机资源情况
25、,可以选择最合适的算法开展复杂地形下的风速预报人工智能实时订正。采用深度学习算法时,首先将RISE系统预测的10 m风速格点按照自动气象站对应的经纬度切分为小区域样本,选取特征构建CU-Net+模型,对RISE系统10 m风速预测结果开展同样的逐6小时偏差订正,并评估与原始CU-Net模型订正的各类指标差异。本文的研究结果有助于减小复杂山地百米级分辨率近地面风速的预报误差,为人工智能方法在复杂山地高分辨率风速预报偏差订正中的应用探索一些新的思路。本文的主要内容安排如下:第2 节介绍研究区域和本文所采用的数据;第3节介绍本文采用的XGBoost、L-XG Bo o s t 传统机器学习模型和CU
26、-Net、C U-Ne t+深度学习模型;第4节为利用以上模型对RISE风速预报的订正结果;第5节为结论和展望。2研究区域和数据本文的研究区域为RISE系统冬奥山地赛区100m分辨率覆盖范围,具体经纬度范围约为(40.3680N41.2 6 8 7 N,114.9112 E116.0 96 9E)近似10 0 km100km范围,覆盖了从张家口赛区到延庆赛区的全部山地赛场及其周边区域。RISE系统采用兰勃脱投影,投影中心点经度为115.5E,投影参考纬度为40 N和42 N,西南角和东北角经808Vol.47ChinesrnaericSciences47卷科学纬度配置参数分别为(40.4N,1
27、15.0 E和41.2 N,116.0E)。本研究中,选取使用的自动气象站的站点海拔高度均不低于8 0 0 m。研究区域和站点如图1所示。延庆赛区自动站站点分布较为集中,主要分布在北京冬奥会延庆赛区赛道及其周边范围;张家口赛区站点分布主要集中于赛区西北方向的云顶场馆群核心区和西南方向的古杨树场馆群核心区。本文的预报资料来自RISE系统的实时业务输出产品,空间水平分辨率为10 0 m,预报时效为逐10min更新的未来12 4h逐小时滚动的2 m露点温度、2 m气温、2 m相对湿度、10 mU风、10 mV风等百米级网格化预报数据。本文的地面观测资料来自上述自动气象站逐1h观测数据,其气象要素包括
28、:瞬时风速、2 min平均风速、瞬时风向、2 min平均风向、1h之内最高气温、1h之内最低气温、1min之内平均气温、1min之内平均相对湿度、降水量、天气现象等。本文的研究对象是2 min平均风速。除了自动气象站资料外,RISE系统的100m分辨率融合分析场数据在本文中也作为“格点实况”数据。本文试验聚焦于北京冬奥会复杂山地的冬季风场,所用数据时段范围为2 0 2 12 0 2 2 年两年冬季,具体包括:2 0 2 1年13月、2 0 2 1年12 月和2 0 2 2年13月。其中,2 0 2 2 年1月上旬、2 0 2 2 年2 月中旬、2 0 2 2 年3月下旬数据作为测试集,其余时间
29、数据作为训练集。选择包含上、中、下旬的测试集,主要是考虑到一个月份中的上旬、中旬和下旬的气象特征可能存在差异,因此可使测试集更具有代表性。3方法与模型3.1传统机器学习模型3.1.1XGBoost模型XGBoost(C h e n a n d G u e s t r in,2 0 16)全称“Extreme Gradient Boosting。XG Bo o s t 采用GBDT框架(Gradient Boosting Decision Tree),属于基于决策树(McGovernetal.,2017)的集成机器学习算法。相比GBDT在优化时只用到损失函数一阶导数,XGBoost对损失函数进行
30、二阶泰勒展开,引入一阶导数和二阶导数,并在此基础上增加了正则化处理,可以有效控制模型的过拟合,提高预测精度。XGBoost在处理非结构化数据的问题上表现较为出色,可以高效地解决分类和回归问题。XGBoost的目标函数O定义如下:m3200观测站点41.4N现测站点28002400索礼区41N2000赤城县1600120040.6N延庆区800怀来县400115.1E115.5E115.9E116.3图1研究区域和站点分布(填色为海拔高度,单位:m)Fig.1Study area and station distribution(the shaded part indicates altitud
31、e.units:m)809No.3XU Jingfeng et al.Comparative MachineBasedCorrectionlerimentfora10mWind徐景峰等:冬奥会复杂山地百米尺度10 m风速预报的机习订正对比试验3期0()=Z,L(yi,y/-1+fi(xi)+Q(fi)+c,(1)这里,L(a,b)=(a-b),c 为常数项,yi表示i个样本的实际值,义表示第i个样本第迭代后模型预测值。2(f)是正则项,用于提高模型泛化能力,防止过拟合,具体如下:2(f)=T+ZLmg,1(2)2其中,T为叶子节点的数量,w;表示第j叶子节点的权值,和入为手动设置的参数,和入越
32、大,说明树的结构越简单。对目标函数O泰勒展开到二阶导数并让其等于0 之后得到最优的wi=-Gj/(H;+),将其再带入目标函数继续简化得:0(t)+yT+c,(3)2之4j=1 H;+入可以看到O(t)为所有叶子节点的得分之和,下一步遍历所有可能的划分点后选取最优划分点,分裂收益G为1(GL+GrR)2G-入,(4)2HL+HR+HL+HR+入G越大表示分裂后损失函数下降得越多,模型收敛越快。3.1.2L-XGBoost 模型考虑到北京地区冬季近地面风速受地形、城市下垫面粗糙程度和冷空气的影响向(乌日柴胡等,2019),风速随海拔高度一般呈对数或指数变化(李林等,2 0 0 6),风速呈现出山
33、区高平原低的现象,强风(10.8 ms)出现的频率也满足山区多平原少的特点。前人关于风速预报偏差的机器学习订正研究均未考虑风速的等级分布(任萍等,2020;Hanetal.2021;张延彪等,2 0 2 2),且局地风速的大小与温度、气压、湿度以及摩擦力和水平气压梯度力等密切相关,不同的风速下各气象要素的影响因子权重也各不相同。因此,为了提高XGBoost对不同风速范围订正的泛化能力,学习到各个物理量与风速之间更深层次的非线性规律,本文提出新的L-XGBoost模型,L-XGBoost模型由n个XGBoost子模型组成,其中n为风力等级表(聂若鹰,2 0 0 7)中风力划分的等级数量,每个子模
34、型负责订正风力等级表中的一个风力等级,本文选用的风力等级表如表1所示,图2 为以假设预报风速表1风力等级Table1Windgrade风力等级风速/ms描述10,1.5软风21.5,3.3轻风33.3,5.4 微风45.4,7.9和风57.9,10.7清劲风610.7,13.8强风713.8疾风软风(0-1.5ms-1)XG Bo o s t 模型轻风(1.5-3.3ms-1)XG Bo o s t 模型预报风速4.1预报风速为4.1ms-1的样本订微风(3.3-5.4ms-1)XG Bo o s t 模型ms-1的样本正结果和风(5.4-7.9ms-1)XG Bo o s t 模型清劲风(7
35、.9-10.7 ms-1)XG Bo o s t 模型预报风速为11ms-1的样本预报风速为11ms-1的样本订强风(10.7-13.8 ms-1)XG Bo o s t 模型正结果疾风(13.8 ms-1)XG Bo o s t 模型图2L-XGBoost模型架构组成Fig.2Schematic showing the L-XGBoost model architecture s composition810Vol.47ChinesaSciences47卷科学大小为4.1ms-l和11ms两个样本为例说明L-XGBoost模型架构组成。3.2深度学习模型3.2.1CU-Net模型U-Net深
36、度学习网络(Ronnebergeretal.,2015)被广泛应用于图像分割领域,且取得了相当瞩目的成果。中国学者(Han etal.,2021)在U-Net基础上提出CU-Net网络模型,并对全球NWP模式在京津冀地区预测的10 m风速、10 m风向、2 m相对湿度、2 m气温格点气象数据进行了预报偏差订正,把订正问题转换为深度学习领域的“图像到图像”(image-to-image)问题(Isola et al.,2017),取得了较好的订正效果。U-Net网络最大的特点就是网络呈现U型结构,核心部分为上采样、下采样和特征拼接部分。下采样的目的是为了增大感受野,缩放图片大小来降低参数量,以及
37、方便与上采样之间进行多尺度特征融合。而上采样的目的是为了恢复原来图片大小,提升图片分辨率、扩大特征图。U-Net上采样的主要方法有反卷积、插值法,这些上采样方法可能受人工因素的影响。CU-Net的创新点在于在上采样方面使用了子像素卷积(Su b-p i x e l c o n v o l u t i o n)(Sh i e t a l.,2 0 16),子像素卷积通过扩张通道的方式将图片重构,这个过程由网络自己学习,去除了其他上采样方法带来的人工因素干扰。U-Net的特征拼接是长连接,使用长连接可以提供上采样部分原有图像的信息,进一步减少下采样带来的信息损失。CU-Net具体网络结构如图3所示
38、,输入的风速格点样本数据大小为CXHXW,C 为征通道数,H为高度,W为宽度,图中C、H、W 分别为2、48、48,经过下采样模块的卷积层、池化层(LeCun etal.,1998)后特征通道数增多,宽度和高度均减少,上采样使用子像素卷积后通道数减少,宽度和高度逐步增大,且每上采样一次就需要和下采样中对应的通道数相同的部分尺度融合,即特征拼接,最终得到的C、H、W分别为1、48、48,即得到数据为单通道的4848像素的风速订正后结果。3.2.2CU-Net+模型CU-Net在气象要素的订正上取得成功的主要原因归功于子像素卷积和跳连接这两个部分,通过下采样,每下采样一次模型所提取的特征是不同的,
39、浅层次的采样可以提取图像要素的简单特征,深层次的采样可以提取图像要素更为抽象的特征。CU-Net的层次结构如图4所示,从图中可以看到CU-Net仅在采样的第四层就结束了下采样,也就是说仅仅使用了网络提取到的深层抽象特征。对于风速来说,风场演变规律极为复杂,复杂山地尤为明显,局地复杂地形和下垫面以及大尺度环流对山区局地风场均有显著影响,风场格点数据之间又存在非线性特性,所以不同层次的特征对训练结果均会有一12864641264664128128256128忆512256256256151251210245129x99x9.9X9.9x99x99x91024卷积层(conv3x3,ReLu)EX池
40、化层(max_pool,2x2)复制拼接(copyandcrop)子像素卷积(subpixellayer)图3CU-Net模型网络结构Fig.33 Network structure for CU-Net model811No.3XUJingfengetal.ComparativeMachineLXperimentfora10mWindearninsBaseatorrection徐景峰等:冬奥会复杂山地百米尺度10 m风速预报的机订正对比试验3期定影响。为了用到各个深层次的特征,本文使用U-Net+网络(Zhouetal.,2020)提供的思路构建新的CU-Net+网络,CU-Net+网络结构
41、如图5所示,CU-Net+由多个不同深度的CU-Net子网络融合而成,由于这些不同深度的CU-Net共用一个编码器,可以让网络自己选择合适的深度,收集合适的浅层和深层特征。除此之外,CU-Net+加入了密集的跳连接,这种密集的跳连接层可以使网络学习到风场更多非线性特征,增强模型的泛化能力。4试验结果4.1传统机器学习方法风速订正对比试验4.1.1数据处理由于RISE系统输出的预报产品为网格大小为Y0.0o.4LX1.0X1,32.02.2池化(max_pool)3.0X3.1子像素卷积(subpixellayer)跳连接(skip-connection)X4.0Xij卷积层(convoluti
42、onlayer)图4CU-Net模型网络层次结构Fig.4Network hierarchy structure for CU-Net modelY0.0Yo.10.20.30.41.0111213X2.02.1¥2.2池化(max_pool)X3.0¥3.1子像素卷积(subpixel layer)跳连接(skip-connection)4.0Xij卷积层(convolutionlayer)图5CU-Net+模型网络层次结构Fig.5Network hierarchy structure for CU-Net+model812Vol.47ChinesericSciences科47卷学1001
43、1001的格点数据,而自动气象站的实况数据为一维站点数据,二者数据格式不匹配,因此需要将格点预报数据插值到自动站站点上,鉴于格点数据的分辨率达到10 0 m,本次试验选取的插值方法为最近邻插值(李艳玲,2 0 16)。为了保证数据集的高质量,需要在插值前剔除无效的“脏数据”,即实况值或预报值缺失的数据,只有二者都有效时才记为有效数据。例如,2 0 2 2 年1月1418 日期间,延庆高山区竞速5号站观测设备由于太阳能供电不足导致每天北京时间凌晨0 2 时至上午0 9时之间观测数据均缺失。将数据插值后根据风力等级表归类,制作每个L-XGBoost子模型的数据集,以预报时效18 小时为例,处于各个
44、风力等级区间的训练样本数如表2 所示。通过表格发现处于分类6 和分类7 的样本数较少,这是因为北京地区风速大于10.7 ms的出现概率相对最小,即便是在冬季高山地带,强风和疾风的出现频率较其他区间的风来说依旧较低。样本量较少的情况下机器学习算法可能出现过拟合现象(La m e s k i e t a l.,2 0 15),导致训练集结果表现较好,测试集表现较差。避免过拟合的最有效方法是增加数据量,例如对于预报时效18 h来说,预报时效17 h和19h结果的物理特征之间具有一定的时间关联性,所以可以将17 h和19h处于分类6和分类7 的样本作为18 h模型的样本进行共同订正,以提高“大风”的数
45、据量,提升后各区间样本数目如表3所示,“大风”样本数量提升了三倍左右,基本满足模型训练数据量要求。4.1.2样本组成试验选取的特征要素包括站点实况数据、预测数据、海拔高度和误差四部分组成,标签为对应预表2风速区间对应样本数Table 2Number of samples corresponding to wind speedrange风速等级样本个数1701022890193637544311255102936384071756报时刻的实况10 m全风速资料。实况数据包括:2 min平均风速(ws2a)、2 m i n平均风向(wd2a)、2 m 温度(ts)、2 m 露点温度(tds)、2
46、m相对湿度(rhs)、2 m比湿(qs)。预测数据包括:10 mU风(usfc)、10 m V风(vsfc)、10 m 全风速(uvfc)。静态数据包括:地形高度(elev)。考虑到观测与预报之间的差值是比物理气象特征更为深层的特征,复杂地形条件下近地层大气运动状况和天气尺度系统带来的冷空气等对风速有着较为密切的影响。例如,贾春晖等(2 0 19)发现北京延庆一张家口地区的风速由于边界层湍流活动而具有明显的日变化特征,乌日柴胡等(2 0 19)指出延庆高海拔自动站风速特点为白天小夜间大,午间风速存在“峰平谷深”的特点。如果将预报时效前一天同一时刻的观测和预报的误差,以及当前时刻所对应的误差作为
47、模型的特征,可以很好地拟合风速的日变化规律,增强模型的泛化能力。令F的预报时效为n,则时刻t的观测与提前n小时预报结果之间的预测误差为d=O,-Ft-n,(5)以预报时效18 h为例,记第一类误差 eror1为a记第二类误差error2为d18ds,单个样本的构成如表4所示。4.1.3检验方法使用均方根误差(Root Mean Square Error,表3数据增强后风速区间对应样本数Table 3Number of samples corresponding to wind speedrange after data enhancement风速等级样本个数170102289019363754
48、43112551029361144375287表4单个样本组成Table 4Single sample composition模型特征静态数据实况数据预测数据误差标签elevws2a,wd2a,tsr,usfol8,vsfc/8,18d18ws2at+18-24t-18tdst,rhsr,qstNo.3813XU Jingfeng et al.Comparative MachineBasedCorrectionExperimentfora10mWind3期徐景峰等:冬奥会复杂山地百米尺度10 m风速预报的机器习订正对比试验RMSE)和预报准确率(ForecastAccuracy,FA)作为风速
49、订正的结果评估指标。对于均方根误差来说,其值越小,表示风速预测越准确,公式为NFRMSE:F;-(6)N人其中,N为所有站点总数,F为第i个站点的预报风速值,O;为第i个站点的观测值。风速预报准确率的定义为:风速预报的绝对误差不大于1ms-的样本占所有预报样本的百分比(孙全德等,2 0 19),公式为nFA=100%,(7)m其中,FA是风速预报准确率,n是满足预报误差不大于1ms的样本数量,m是样本的总量,准确率越高说明预报越贴近实际风速。4.1.4订正结果4.1.4.1总体订正结果图6 a-d和图7 a-d分别为L-XGBoost模型中各个风速区间的子模型对测试集预报时效6 h、12 h、
50、18h和2 4h的风速站点预报订正前后的RMSE误差和预报准确率FA指标结果。从图中可以看出,不同风力等级下其RMSE都有一定程度的降低,预报准确率也随之增加,其中RISE预报风速处于“疾风”和“强风”范围内的RMSE减小和预报准确率的提升最为明显(图6 和图7)。订正后,在四个预报时效“疾风”预报RMSE分别减少了73.28%、7 2.8 4%、6 8.6 3%和6 7.44%,“强风”预报RMSE分别减小了6 1.53%、6 2.6 6%、59.57%和56.54%(图6)。当采用预报准确率指标时,订正后四个预报时效“疾风”预报FA分别增加了51.47%、50.57%、46.32%和46.