收藏 分销(赏)

基于多要素协助的气象降水数据质量控制研究.pdf

上传人:自信****多点 文档编号:326951 上传时间:2023-08-15 格式:PDF 页数:4 大小:2.40MB
下载 相关 举报
基于多要素协助的气象降水数据质量控制研究.pdf_第1页
第1页 / 共4页
基于多要素协助的气象降水数据质量控制研究.pdf_第2页
第2页 / 共4页
基于多要素协助的气象降水数据质量控制研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、信息通信基于多要素协助的气象降水数据质量控制研究王婧,魏夏璐,吕腾”,吴作航?(1.福建省气象信息中心;2.福建省气象科学研究所,福建福州350 0 0 7)摘要:针对气象降水数据质量控制难度大,准确性低等问题,提出了基于多要素协助的气象降水数据质量控制方法,使用福州市区域站逐小时数据,分析降水数据的单站要素相关性和邻近站点的降水空间相关性,使用集成学习算法XGBoost(极度梯度提升算法)训练模型,综合考虑查全率和查准率选取异常判断的阈值,最终形成降水异常检测模型,并与多种质控方法进行结果比较。结果表明:(1)单站要素之间有弱相关性,邻近站点的降水数据相关性与空间分布有关,具有强相关性。(2

2、)与传统的变化率判断法,单站单要素方法,单站多要素方法进行结果比较,该方法可以明显区分出异常降水值,其准确性高效果好。(3)该方法泛化能力更好,总体性能优于传统的变化率判断法。关键词:多要素协助;质量控制;集成学习算法中图分类号:P413文献标识码:AStudy on Quality Control of Meteorological Precipitation Data Based on Multi-factor AssistanceWANG Jing,WEI Xialu,LYU Teng,WU Zuohang?(1.Fujian Meteorological Information Cen

3、ter,Fuzhou,Fujian 350007,China;2.Fujian Institute of Meteorological Sciences,Center,Fuzhou,Fujian 350007,China)Abstract:Aiming at the problems of difficult quality control and low accuracy of meteorological precipitation data,this paperputs forward a quality control method of meteorological precipit

4、ation data based on multi-factor assistance.By using the hourlydata of Fuzhou regional stations,it analyzes the correlation of single station elements and the spatial correlation of precipitationin neighboring stations,uses XGBoost(Extreme Gradient Lifting Algorithm)training model,comprehensively co

5、nsiders the recallrate and precision rate,selects the threshold of abnormal judgment,and finally forms a precipitation anomaly detection model,andThe results show that:(1)There is a weak correlation between the elements of a single station,and the correlation between pre-cipitation data of neighbori

6、ng stations is related to spatial distribution,which has a strong correlation.(2)Compared with the tra-ditional rate of change judgment method,single-station single-factor method and single-station multi-factor method,this methodcan clearly distinguish the abnormal precipitation value,with high accu

7、racy and good effect.(3)The generalization ability ofthis method is better,and its overall performance is better than that of the traditional change rate judgment method.Key words:multi-factor assistance;quality control;integrated learning algorithm1引言气象数据的质量控制是对所观测气象数据进行整合与分析,检查数据质量的同时进行记录,能够及时发现数据

8、中存在的问题并快速解决。由于获取气象数据的收集、传输、编码与解码的一系列环节中均有可能发生错误与偏差,气象数据的质量控制便显得尤为重要,不仅直接影响到气象数据的可信度,更对气象预报与气象服务有着至关重要的意义。随着近年来我国气象事业的发展,全国建立了大量的气象观测站,使得气象数据的数据量大幅提升。而伴随着气象数据量的增大2 ,收稿日期:2 0 2 3-0 2-2 6基金项目:福建省气象局青年科技专项(2 0 2 2 Q03)基于遥感的台湾海峡海温反演产品真实性检验研究。作者简介:王婧(1995-),女,福建三明人,助理工程师,硕士,主要研究方向为数据分析。i+*7 Fonseca N J G.

9、Printed S-Band 4x4 Nolen Matrix for Mul-tiple Beam Antenna ApplicationsJ.IEEE transactions onantennas and propagation,2009,57(6):1673-1678.8 Djerafi T,Fonseca N J G,Wu K.Planar Ku-Band 4x4 NolenMatrix in SIW TechnologyJ.IEEE transactions on micro-wave theory and techniques,2010,58(2):259-266.9 Tseng

10、 C H,Huang J Y,Tseng C H.Design of planar 8-by-16Butler matrix for 16-element switch-beam antenna arrayC/2018 Asia-Pacific Microwave Conference(APMC).IEEE,1532023年第0 5期(总第2 45期)文章编号:2 0 96-97 59(2 0 2 3)0 5-0 153-0 4气象数据有误的情况也逐渐增多,特别是针对强对流天气较多的沿海城市,降水数据具有随机性强,连续性差的特点3-4,相比于气温、湿度等连续数据,其数据质控难度大,准确性低 5

11、。降水数据直接影响着人们的日常生活,为了提供更加准确的气象服务,降水数据的质控显得极为重要。传统气象数据质量控制使用气候极值、数值变化率等简单的统计学检测方法,应用广泛,但检测方法较为粗糙 8-10 。大量专家学者针对数据质量控制提出了不少改进方案。任芝花等研制了由台站到省级、国家级的三级地面自动站观测资料*T+2018:1534-1536.10 Gruszczynski S,Wincza K,Sachse K.Reduced SidelobeFour-Beam N-Element Antenna Arrays Fed by 4xN ButlerMatricesJ.IEEE Antennas

12、and Wireless Propagation Let-ters,2006,5:430-434.11 Trinh-Van S,Lee J M,Yang Y,et al.A Sidelobe-Reduced,Four-Beam Array Antenna Fed by a Modified$4itimes4$Butler Matrix for 5G ApplicationsJ.IEEE Transactions onAntennas and Propagation,2019,67(7):4528-4536.Changjiang Information&Communications质量控制业务系

13、统,实现实时与历史的气象资料一体化。侯灵等12)使用气象资料业务系统(MDOS)并结合台站级的操作经验进行针对性的数据质量控制。林奕平等 13 分析影响质控的因素,强化网络运行监控和设备维护管理,从加强制度、设备、网络管理来提高质控效果。但目前多数改进方案对气象要素之间的关系和站点之间的空间关系的使用较为浅显,而各气象要素之间存在的相互影响与不同站点之间的空间关系均会对质量控制的准确性产生一定的影响,这就需要使用更新的算法模型探索要素之间的关系进而提高数据质量控制的水平。近年来集成学习在气象领域应用广泛,吴建生等 14使用集成学习算法构建气象预报模型,该短期气候预测模型能有效提高系统预测的准确

14、率。陈靖宇等 15 使用集成学习算法进行雷电特征的提取,分析雷电趋势和预警级别,并使用在雷电预测中。胡瑛使用集成学习分析数据的相关性和变动特点,构建雾霾污染预测模型。集成学习算法不仅适用于大量气象数据的处理,也能够快速处理多维数据,抗噪声能力强。目前发挥集成学习技术的优势,深入探索气象数据多要素关系,协助气象降水数据质量控制的研究较少。故本文使用国家气象信息中心的气象大数据云平台,选取2 0 2 1年到2 0 2 2 年福州市气象观测站点采集的气象数据,以降水数据为例,通过集成学习算法XGBoost进行数据质量控制,并将结果与传统的变化率控制方法、单站单要素方法和单站多要素方法进行对比,探索基

15、于集成学习的多要素协助在气象数据质量控制方面的可行性与可靠性。2基于多要素协助的气象数据质量控制方法2.1算法介绍多要素协助气象数据质量控制方法流程如图1所示,首先使用斯皮尔曼相关系数分别计算目标站点的气象要素和邻近站点的降水要素的相关性,根据相关系数绝对值排序选择要素。将要素值代入集成学习XGBoost算法中,生成多个弱学习器,弱学习器加权组合获得初步的拟合模型17 ,再使用综合查全率和查准率的F1数值选择阈值,最终获得多要素协助的检测模型。单站要素相关性分析相关性分析属性选择集成学习XGBoost训练弱学习器1弱学习器2弱学习器3.弱学习器,组合F阀值选择多属性协助检测模型图1多要素协助气

16、象数据质量控制方法流程图王婧等:基于多要素协助的气象降水数据质量控制研究集成学习XGBoost算法使用多个弱学习器进行加权组合获得最佳学习器。针对数值缺失值情况,其可以自动学习分裂方向。并且支持并行操作,速度快精度更高18,因此适用于处理大量气象数据,挖掘要素之间的关系,并且针对常见的数值缺失情况可以有效应对。2.2数据集介绍本文使用2 0 2 1年1月到2 0 2 2 年3月的福州市区域自动站逐小时数据,共355个区域自动站,数据量约37 1万条,数据集要素主要有时间、气温、气压、降水、能见度、湿度、风向、风速等。数据集经过简单的预处理后,将2 0 2 1年数据作为训练集训练模型,将2 0

17、2 2 年数据作为测试集。本实验在Win-dows10系统中,使用Python3.7语言和PyCharm2019编译器进行实验。2.3相关性分析通过观察降水数据,如图2 所示,降水数据突发性高,随机性强,连续性差。在日常业务处理中,经常出现因采集器故障、人为破坏等原因出现异常值。若仅仅使用降水数据来进行数据质量控制,其效果不乐观,因此使用其它气象要素进行辅助,进而实现降水数据的质量控制。141过去1h降水量1210-81614-20使用斯皮尔曼相关系数,计算目标站点降水量与本站多站空间点其它气象要素之间的相关系数,并取绝对值。从表1可知能见度要素与降水量呈负相关关系,湿度要素与降水量呈正相关关

18、系,相关系数不高,单站点要素之间具有弱相关性。表1气象要素相关性数值气象要素相关系数最小水平能见度-0.453 4相对湿度0.384 1最小相对湿度0.352 61 min平均能见度-0.334 610 min平均能见度-0.306 7同样使用斯皮尔曼相关系数,计算目标站点的降水量与邻近站点的降水量之间的相关系数,如图3可知,目标站点的相关系数为1,空间分布越接近目标站点的相关系数越高,空间分布越远离目标站点的相关系数越低。可见邻近站点降水数据相关性与空间分布有关,具有强相关性。1542022年3月9日7 时图2 降水量折线图2022年3月17 日15时2 0 2 2 年3月2 5日2 3时t

19、/h绝对值0.453 40.384 10.352 60.334 60.306 7Changjiang Information&Communications0.6926.10,760,8626.0-图3邻近站点降水数据相关系数图2.4集成学习XGBoost训练本文使用斯皮尔曼相关系数衡量要素之间的相关性,根据相关性进行特征选取。选取相关系数绝对值高于0.3的气象要素。对于邻近站点的降水数据,选取数值高于0.8 的邻近站点降水数据作为特征。即以目标站点的其它气象要素和邻近站点的降水数据为自变量数据集,使用集成学习XGBoost算法训练数据集,再根据多个弱学习器加权组合,可得降水数据拟合模型。如图4

20、可知,模型预测的降水量与真实降水量的趋势基本一致。6-4一/鲁里2图4基于集成学习XGBoost算法的拟合效果2.5阅值选取使用综合考虑查准率和查全率的F1数值,进行阈值的选取。图5是F1数值与阈值折线图,当阈值在0 到0.18 区间,F1数值因查全率上升,总体呈上升趋势。当阈值在0.18 时,F1数值最高,查全率和查准率处于相对较高的值。当阈值大于0.18,F1数值因查准率下降,总体呈下降趋势。1.0070.99-0.98-0.970.960.95-0.00155王婧等:基于多要素协助的气象降水数据质量控制研究站点相关系数当阈值取0.18 时,识别出的异常降水值如图6 所示,大部0.760.

21、7_0.710.810.820.870.87一0.86119.352022年3月5日8 时2 0 2 2 年3月5日2 3时2 0 2 2 年3月6 日14时F0.18,0.9883)0.25图5F1数值与值折线图分的异常降水值能被识别出来,未能被识别出来的异常值通常是与真实降水值接近的数值。结果图直观地表明多要素协助的降水数据质控方法的可靠性和准确性。0.826-0.82/0.7840.78119.40经度异常降水量真实降水量预测降水量11t/h0.50值口口口品品口2W口02022年3月5日3时图6 异常降水数据区分图3结果与分析为直观展示使用集成学习XGBoost的多要素协助算法的优劣情

22、况,本节从以下两个方面进行对比评价:(1)将多要素协助法使用在不同数据维度的质控结果进行对比,分别为:单站单要素、单站多要素、多站多要素。(2)将3种多要素协助法的质控结果与传统变化率判断方法进行结果对比。通过观察查准率(P)和查全率(R)曲线可以直观地评估算法的性能,图7 对比了变化率判断法和多要素协助法的P-R曲线。从图7 中可以看出划线在实线的下方,既当P相同时,多要素协助法的R值优于变化率判断法。当R相同时,多要素协助法的P值优于变化率判断法。说明多要素协助的质控方法泛化能力更好,性能优于传统的变化率判断质控方法。变化率判断法多要素协助法1.000.960.920.88-0.84-0.

23、800.760.920.751.00真实降水量未识别出的异常值口识别出的异常值口口口口口口口品口口口口2022年3月6 日4时t/h0.940.96R图7 P-R曲线图表2 是传统的变化率判断法、单站点降水要素判断法、单站点多要素判断法和多站点多要素判断法的查准率P、查全率口口口口口口口口口口口口口2022年3月7 日5时0.981.00Changjiang Information&CommunicationsR和F1的数值。从表2 与图8 中可以看出,随着数据维度的增加,基于多要素协助的质控算法的准确性不断提升;而变化率判断法虽优于多要素协助法中的单站单要素的质控结果,但准确性低于多要素协助

24、法中的多站多要素的质控结果。原因可能是变化率判断法是计算当前时次与上一时次数值的跳变率,因此质控结果受上个时次数值的影响较大,较容易产生误差,造成准确率下降。而多要素协助法受异常值的影响较小,同时由于多站点和多要素的加入协助,使其结果更可靠,质控准确性高效果好。表2 算法结果分析多要素协助法评价指标单站单要素单站多要素多站多要素查准率(P)0.9087查全率(R)0.947 5F1数值0.927 710.990.980.970.960.950.940.930.920.910.94总结与展望4.1总结本文使用2 0 2 1年到2 0 2 2 年福州市地面观测站点采集的降水数据,选择相关性较高气象

25、要素和邻近站点的降水要素。使用集成学习算法XGBoost训练模型,综合考虑查全率和查准率选取异常判断的阈值,最终形成降水异常检测模型,并与传统的变化率判断法、单站单要素方法、单站多要素方法进行结果比较,得出了以下结论:(1)降水数据随机性强,连续性差,单站要素有弱相关性,邻近站点降水数据相关性与空间分布有关,相关性最高达0.87,具有强相关性。(2)与传统的变化率判断法、单站单要素方法、单站多要素方法的质量控制结果相比,基于多要素协助的气象降水数据质量控制方法可以明显区分出异常降水值,查准率达99.0 2%,查全率达98.6 4%。其准确性更高效果更好。(3)基于多要素协助的气象降水数据质量控

26、制方法泛化能力更好,当查全率或查准率相同时,其总体性能优于传统的变化率判断法。4.2展望目前只使用地面区域站所获取的要素信息,未使用雷达、王婧等:基于多要素协助的气象降水数据质量控制研究卫星、海上浮标等途径获取的气象信息,在未来的工作中可以使用海陆空多源数据,探索多源多空间数值之间的关系,为降水数据质量的控制提供数据支持。在算法方面,本文目前只使用集成学习XGBoost算法,随着算法研究的不断深入,未来工作可以探索更多表现优异的集成学习算法,或者使用深度学习,多进行模型的融合,不断提升降水数据质量控制的准确性。在异常判断阈值的选择方面,目前只综合考虑了查全率和查准率,即查全率和查准率权重一致。

27、可以根据气象质量控制的实际情况,调整查全率和查准率的权重。参考文献:变化率判断法0.964 60.990 20.95330.986 40.959 00.9883公变化率判断单站单属性CP=RIF图8 算法结果柱状图1】林松,张华琳.气象资料业务系统操作平台省级数据质量控制分析 J.海峡科学,2 0 2 2(0 8):94-97,113.0.95912华韵子,林红.大容量气象数据可视化及实时空间分析技0.955 4术 J.大气科学研究与应用,2 0 12(1):7 6-8 4.3宋敏,覃正.国外数据质量管理研究综述 .情报杂志,2 0 0 7,2 60.957 2(2):7-9.4任芝花,刘小宁

28、,杨文霞.极端异常气象资料的综合性质量控制与分析 J.气象学报,2 0 0 5,6 3(4):52 6-533.5李晓利,邱刚,徐剑平.自动气象站运行监控及质量控制系统的设计与实现 J.气象水文海洋仪器,2 0 16,33(2):6 1-6 6.6 王海军,杨志彪,杨代才,等.自动气象站实时资料自动质量控制方法及其应用 J.气象,2 0 0 7,33(10):10 2-10 9.7陈柏,庆林.加密自动站市级中心站实时数据质量控制分析 J.安徽农业科学,2 0 0 8,36(2 9):12 9 9 4-12 9 9 6.单站多属性多站多属性8张志强,刘丽霞,谢晓芹,等.基于数据源依赖关系的信息评

29、价方法研究 J.计算机学报,2 0 12,35(11):2 392-2 40 2.9陈景阳,范德克.气象自动观测站数据处理方法研究 .智能城市,2 0 19,5(6):55-56.10】陈红霞.地面气象观测数据综合质量控制方法研究 .低碳世界,2 0 17(10):9 2-9 3.11任芝花,熊安元.地面自动站观测资料三级质量控制业务系统的研制 J.气象,2 0 0 7,33(1):19-2 4.12侯灵,杨玉红,乔文文.MDOS在气象资料业务中的应用 J.电脑知识与技术,2 0 19,15(15):2 55-2 57,2 6 0.13林奕平,黄顺帮,叶丽文,等.影响地面气象观测数据文件质量的

30、因素及对策 J.南方农业,2 0 2 1,15(15):18 4-18 5.14吴建生,刘丽萍,金龙.粒子群-神经网络集成学习算法气象预报建模研究 J.热带气象学报,2 0 0 8,2 4(6):6 7 9-6 8 6.15陈靖宇,汤德佑,伍光胜,等.基于特征提取和集成学习的雷电预测能力提升 J.热带气象学报,2 0 2 1,37(3):450-456.16胡瑛.基于集成学习的雾霾污染预测研究 D.兰州:兰州大学,2 0 2 0.17李占山,刘兆.基于XGBoost的特征选择算法 J.通信学报,2 0 19,40(10):10 1-10 8.18唐雅洁,林达,倪筹惟,等.基于XGBoost的双层协同实时校正超短期光伏预测 J.电力系统自动化,2 0 2 1,45(7):18-2 7.19靳志杰,霍志红,许昌,等.基于特征选择和XGBoost的风电机组故障诊断 J.可再生能源,2 0 2 1,39(3):353-358.156

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服