收藏 分销(赏)

基于CatBoost和XGBoost组合模型的水深反演.pdf

上传人:自信****多点 文档编号:581381 上传时间:2024-01-02 格式:PDF 页数:5 大小:2.96MB
下载 相关 举报
基于CatBoost和XGBoost组合模型的水深反演.pdf_第1页
第1页 / 共5页
基于CatBoost和XGBoost组合模型的水深反演.pdf_第2页
第2页 / 共5页
基于CatBoost和XGBoost组合模型的水深反演.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第43卷第3期2023年5月引文格式:曾书玉,谢涛,孔瑞瑶.基于CatBoost和XCBoost组合模型的水深反演J.海洋测绘,2 0 2 3,43(3):59-6 3.D01:10.3969/j.issn.1671-3044.2023.03.013海洋测绘HYDROGRAPHIC SURVEYING AND CHARTINGVol.43,No.3May.,2023基于CatBoost和XGBoost组合模型的水深反演曾书玉,谢涛12,孔瑞瑶1(1.南京信息工程大学遥感与测绘工程学院,江苏南京2 10 0 44;2.青岛海洋科学与技术国家实验室区域海洋动力学与数值模拟功能实验室,山东,青岛2

2、6 6 2 37)摘要:为获取高精度的水深信息以满足海洋研究各领域的需要,提出一种CatBoost和XGBoost模型组合的水深反演模型。选取Sentinel-2A卫星遥感数据,以瓦胡岛为研究区域,引入CatBoost和XCBoost模型,对二者进行线性组合,构建CatBoostXG Bo o s t 组合模型。实验结果表明:组合模型的决定系数、均方根误差、平均绝对误差以及平均相对误差分别为95.32%、1.2 9m、0.8 6 m、2 0.51%,与单一模型相比,组合模型的水深反演精度有一定提高。关键词:海洋遥感;水深反演;组合模型;CatBoost模型;XGBoost模型中图分类号:P23

3、71引言在海洋研究领域,获取水深信息是海上航行、海洋资源探测和环境保护等活动的基础。然而,在传统的船载水深探测中,船只难以到达某些特殊区域。而遥感探测具有成本低、覆盖广等优势,得以突破传统探测的局限性。多光谱遥感应用于水深反演的技术经历了长足的革新,时至今日有3种方法占主流1-2 。理论解析模型是利用辐射传输方程,建立辐亮度与水深之间的关系,然而该方法需要获取众多水体光学参数,获取过程过于复杂3。半理论半经验模型是先通过统计学方法得到一些参数,再利用理论模型辅助反演水深,但是精度有待提高4。近年来,基于机器学习的统计模型十分流行,这类模型是利用遥感数据与已知点水深值之间的统计关系对未知点的水深

4、值进行反演,模型构建较为简便,并且反演结果也有较高的可靠性。其中,在水深反演中,应用较为广泛的机器学习方法有BP人工神经网络(back propagation artificial neural network)、R BF神经网络(radial basis function neural network)、随机森林(random forest),反演精度较传统模型更高5-9O文献10 提出,单一模型侧重的信息不同,将多个模型进行组合可以更全面地利用信息,获得更优的预测结果。基于此思路,许多学者将多种经典机器学习方法组合应用于研究中1-13,预测精度较单一模收稿日期:2 0 2 2-12-0 7

5、;修回日期:2 0 2 3-0 4-19基金项目:国家重点研发计划(2 0 2 2 YFC3104900/2022YFC3104905);江苏省应急管理科技项目(YJGL-YF-2020-16);江苏省自然资源发展专项资金(海洋科技创新)项目(JSZRHYKJ202114)。作者简介:曾书玉(2 0 0 2-),女,湖北鄂州人,本科,主要从事海洋遥感研究。文献标志码:A文章编号:16 7 1-30 44(2 0 2 3)0 3-0 0 59-0 5型均有一定提升。基于机器学习的统计模型中,Boosting算法(提升方法)具有高效、参数少等优点。其中,CatBoost(c a t e g o r

6、 i c a l b o o s t i n g)模型能有效解决预测偏移问题14 ,XGBoost(extreme gradient boosting)模型精度高15。本文提出一种基于 CatBoost 和 XGBoost 的组合模型,以期结合两种模型的优势,提高水深反演精度,并将反演结果与单独使用Boosting算法的反演结果进行对比,评估组合模型的水深反演能力。2研究区概况与数据处理2研究区概况本文的研究区域位于瓦胡岛西南侧卡波雷里市附近。瓦胡岛地处美国夏威夷州,面积约为157 4km,位于2 115 N2145N,157 30 W 158 2 0 W之间。岛上地势起伏大,沿海地形复杂,全

7、年气候暖湿。2.2数据与预处理2.2.1多光谱遥感数据遥感数据采用了研究区域的Sentinel-2A卫星多光谱影像,成像时间为2 0 19年11月2 5日。卫星轨道高度为7 6 8 km,重访周期为10 天,获取图像的空间分辨率为10 m、2 0 m 和6 0 m,为方便后续操作将图像全部重采样为10 m空间分辨率。Sentinel-2A卫星使用的探测器是多光谱成像仪(MSI),拥有多个波段。利用Sen2cor插件,对卫星直接获取的数据进行大气校正,由L1C级数据生成L2A级数据16 602.2.2机载激光雷达数据研究区域的实测水深数据由机载SHOALS(scanning hydrograph

8、ic operational airborne lidarsurvey)系统采集得到。SHOALS 系统使用红、蓝光两种激光束对水深进行探测,探测深度最高可达50m,系统技术较为成熟。2.2.3潮汐数据由于本文采用的LiDAR测深数据获取的时间与遥感影像的成像时刻不同,所以要对LiDAR测深数据进行潮汐校正。将LiDAR测深数据加上瞬时潮高-0.0 5m,校正为多光谱遥感影像数据成像时刻的瞬时水深。3研究方法3.1CatBoost 模型CatBoost模型是一种梯度提升算法库,不易陷人过拟合问题,缓解了传统Boosting算法的预测偏移问题,泛化能力强。(1)减少过拟合问题。CatBoost模

9、型采用了完全对称树作为基模型,将树中每个叶子节点的索引编码为长度与树深度相等的二进制矢量,能够有效避免过拟合问题17 。(2)缓解预测偏移问题。CatBoost 模型对每一次迭代所需的无偏梯度估计进行建树,有效克服了预测偏移,同时也强化了模型的泛化能力。3.2XGBoost 模型XGBoost模型的主要思路是基于上一个学习器的结果和目标之间的偏差,生成下一个学习器,从而提高模型精度。该模型采用多个简单的基学习器,针对回归问题效果非常好。(1)拟合精度高。XGBoost模型利用二阶泰勒公式将损失函数展开,同时使用一阶导和二阶导,从而提高预测精度。(2)模型复杂度较低。XGBoost模型在梯度提升

10、树 GBDT(gradient boosting decision tree)的损失函数的基础上加入了正则化项,能够有效降低模型复杂度。3.3CatBoost-XGBoost 模型为了提高模型的水深反演能力,克服单一模型的局限性,本文在XGBoost模型的基础上引入CatBoost模型,提出了CatBoostXG Bo o s t 组合模型,表达式为式(1)。此组合模型不但拥有XGBoost模型精度高的优点,还继承了CatBoost模型不易过拟合的优点,弥补了XGBoost模型的预测偏移问题,强化了模型的泛化性能。CatBoost XG Bo o s t 组合模型对于单一模型的计算结果,进行加

11、权线性组合,海洋测绘以决定系数(R)为精度评价标准确定权重,建模流程见图1。随机选取样本点的8 0%作为模型的训练点,其余2 0%则作为测试点。CatBoost模型和XGBoost模型参数皆取初始值,利用训练点的多光谱影像所有波段的辐射亮度值和实测水深数据对模型进行训练,用测试点对模型进行精度评估。将两种单一模型的输出结果分别乘以权重w1、W2,其关系满足式(2),设w,初始值为1,w初始值为0,以一定的步长不断更新赋予两个单一模型的权重大小,并计算R,将反演精度最高的加权线性组合形式作为最终的组合模型。输人测试点辐射亮度值数据预处理XGBoost模型预测结果图1建模流程示意图组合模型的表达式

12、为:Z;=W,21;+W22i式中,Z,为组合模型反演水深值;z1VZ2i分别为CatBoost和XGBoost模型的反演水深值;W1、W2 分别为组合模型中CatBoost模型和XGBoost模型的权重系数,且满足式(2)。W,+W2=13.4精度评价本文涉及的精度评价指标有R、均方根误差(R M SE)、平均绝对误差(MAE)和平均相对误差(MRE)。R?=1-(3)RMSE=(4)nMAE=n第43卷GatBoost模型预测结果设置权重,输出组合模型计算决定系数否快定系数增大舍弃该组合模型保留该组合模型文是输出组合模型(1)(2)(5)第3期MRE=nZ式中,n为测试点个数;Z,为第i个

13、测试点的实际水深值与反演水深值之差;Z?为测试点实际水深值与其平均值之差;Z,为测试点实际水深值的平均值。R越高,说明反演结果越精确;RMSE、M A E、MRE越低,说明反演结果越精确。4结果与分析根据上述模型构建思路,绘制出组合模型决定系数随权重w,变化的曲线见图2。当w,取0.7 5、w取0.25时,组合模型的决定系数最大,也即水深反演结果的精度最高,此时组合模型的效果最优。0.952F0.9500.9460.0图2 决定系数与权重w,的变化关系示意图为了进一步评估组合模型的水深反演能力,本文分别计算了CatBoost、XG Bo o s t 和组合模型的4种精度指标,对比结果见表1。表

14、1各模型精度参数模型R/(%)RMSE/mCatBoost95.24XGBoost94.62组合模型95.32由表1可发现,3种模型的反演精度指标R均大于94%,反演得到的水深数据与实测的水深数据之间具有显著的相关性,表明CatBoost模型和XCBoost模型,以及CatBoost-XCBoost组合模型均适用于本研究区域的水深反演,具有较为理想的反演能力。CatBoost-XCBoost组合模型的R、R M SE、MAE3个指标的表现均是3种模型中最优的,分别为9 5.32%、1.2 9 m和0.8 6 m,仅在MRE上表现比XGBoost模型差,为2 0.51%。整体而言,CatBoos

15、t-XGBoost组合模型表现略优于另外两种单一模型,在该海域有更强的水深反演能力。图3(a)(c)分别为CatBoost模型、XGBoost模型、CatBoost-XGBoost组合模型的反演水深值与实测水深值的散点图,横轴为实测水深数据,纵轴为模型反演得到的水深数据,红色虚线为y=x参考线。3种模型的散点大体都集中在参考线附近,说明3种模型得到的反演结果均具有较强的可信度,模曾书玉,等:基于CatBoost和XCBoost组合模型的水深反演Z IAZ.0.20.41.301.391.2961型均具有一定的反演能力。图3(b)能够直观地看(6)出XGBoost模型的散点图较另外两个模型更为分

16、散,表明该模型在研究区域的反演能力略低于另外两种模型。其中,水深在10 m以内时,散点在参考线两侧聚集地尤为紧密,而组合模型图中的点则聚集得最为紧密,说明该水深范围内3种模型的反演精度均较高,并且组合模型的反演精度高于另外两者;而水深在10 2 0 m时,3种模型的表现均有所下降,其中XGBoost模型的散点聚集得最为松散、离参考线最远,CatBoost模型和组合模型的散点紧密程度与趋势性相当,略高于XCBoost模型;水深在20m以上时,3种模型图中的散点则普遍聚集得十分松散,偏差过大,反演结果非常不可信,模型的反演能力很弱。这种情况可能是由于随着水深的增加,水体对于可见光的吸收越来越强导致

17、遥感数据更难反映水深信息导致的。同时,随着水深的增加,散点更容易落到参考线以下,说明在水深较大时,3种模型均更倾向于低估水深。0.60.8MAE/mMRE/(%)0.8723.190.9413.290.8620.511.0WI301050030252015105003010500(c)Ca t Bo o s t-XG Bo o s t 组合模型图3反演水深与实测水深的散点示意图为更精确地测定不同水深范围内组合模型的反演精度,划分0 5、5 10、10 15、15 2 0、2 0 2 5m共5个水深区间,分别利用组合模型反演水深,计算预测精度,具体见图4。图中,折线直观地反映出在510m这个水深

18、区间内模型的精度最高,达到了0.91,在此之后反演精度随水深的增加而降低,在2025m的水深区间内精度急剧下降,R低至0.18。这一结果说明模型在浅水区的水深反演效果较好,51015202530实测水深/m(a)C a t Bo o s t 模型51015202530实测水深/m(b)XG Bo o s t 模型510152202530实测水深/m62而随着水深的增加,大量能量被水体吸收,到达深水区的能量很弱,辐射出的能量也就较少承载深水区的信息,给水深反演工作带来了很大困难,水深反演的精确性也难以保障。0.80.25图4决定系数与水深的关系示意图机器学习算法的性能与样本数有很大关联,一般而言

19、,样本数越多,算法性能越高。然而,实际情况中由于条件的复杂性,算法的性能高低也有一定的波动性。为了研究本实验条件下算法性能与样本数的关系,首先抽取10 0 个小样本,以10 0 为增幅逐步增加样本量直至2 40 0 个全体样本,训练模型,计算预测精度,结果见图5。由图5可见,组合模型的精度随样本数变化总体呈有微小波动的上升趋势。样本数由10 0 增加到500的过程中,曲线十分陡峭,精度上升迅速。曲线在样本数50 0 6 0 0 间出现了一个转折点,后续曲线的抬升幅度明显变缓。样本数大约在150 0 时,曲线的上升幅度很弱,趋于平缓,此时样本数的增加对于精度已经没有明显影响了。一定程度上,提高样

20、本数量有利于提高模型的精度,但是计算量也会随之而增加,所以把握合适的样本数量对于开展水深反演工作十分重要。0.94K0.9280.900.880图5决定系数与样本数的关系示意图5结束语本文以瓦胡岛为研究区,基于 Sentinel-2多光谱影像数据,分别利用CatBoost、XG Bo o s t 以及CatBoostXG Bo o s t 组合模型进行水深反演,并进行精度评估,结果表明:(1)基于CatBoost和XGBoost的组合模型得到的水深反演结果相较于单一模型,水深反演的精度有所提高,R、R M SE、M A E和MRE分别为95.32%、1.29m、0.8 6 m 和2 0.51m

21、,为获取精确的水深信息提供了新思路。海洋测绘(2)与单独应用XGBoost模型相比,引人CatBoost模型很好地缓解了预测偏移问题,模型的泛化性能有所提升。(3)针对当下水深反演模型有限且精度有待提高这一问题,本研究提出利用组合模型不仅丰富了水深反演模型,并且能够一定程度上提高水深反演精度。本文的组合模型基于瓦胡岛研究区构建,在特定的研究区精度较高,然而难以保证在其他海域也10155001000150020002500样本数第43卷2025水深区间/m能达到较高的反演精度,模型的普适性还要继续加强。未来计划在模型选择和改变模型融合方式等方面上进行改进,提高模型的普适性。参考文献:1马毅,张杰

22、,张靖宇,等浅海水深光学遥感研究进展J.海洋科学进展,2 0 18,36(3):331-351.2王锦锦,马毅,张靖宇基于模糊隶属度的多核SVR遥感水深融合探测J海洋环境科学,2 0 18,37(1):130-136.3LYZENGA D R.Passive remote sensing techniques formapping water depth and bottom features.J.AppliedOptics,1978,17(3):379-383.4许海蓬,马毅,梁建,等基于半经验模型的水深反演及不同水深范围的误差分析J海岸工程,2 0 14,33(1):19-25.5 王艳姣

23、,张培群,董文杰,等.基于BP人工神经网络的水体遥感测深方法研究(英文)JM a r i n e Sc i e n c eBulletin,2007(1):26-35.6曹斌,邱振戈,朱述龙,等.BP神经网络遥感水深反演算法的改进J测绘通报,2 0 17(2):40-44.7郑贵洲,乐校冬,王红平,等基于WorldView-02高分影像的BP和RBF神经网络遥感水深反演J地球科学,2 0 17,42(12):2 345-2 353.8温开祥,李勇,王华,等基于遥感和机器学习的内陆水体水深反演技术J热带地理,2 0 2 0,40(2):314-32 2.9孟然,沈蔚,纪茜,等GBDT模型在遥感水

24、深反演中的应用J环境生态学,2 0 2 1,3(5):1-5.10 BATES J M,GRANGER C W J.The Combination ofForecasts J.Operational Research,1969,20(4):451-468.11陈纬楠,胡志坚,岳菁鹏,等基于长短期记忆网络和LightGBM组合模型的短期负荷预测J电力系统自动化,2 0 2 1,45(4):91-97.12刘春红,杨亮,邓河,等.基于ARIMA和BP神经网络的猪舍氨气浓度预测J中国环境科学,2 0 19,39(6):2320-2327.13杨恒,岳建平,周钦坤利用SVM与ARIMA组合模型进行大坝

25、变形预测J.测绘通报,2 0 2 1(4):7 4-7 8.14孔瑞瑶,谢涛,马明,等.CatBoost模型在水深反演中的应用J.测绘通报,2 0 2 2(7):33-37.第3期15胡鹏,赵露露,高磊,等。XGBoost算法在多光谱遥感浅海水深反演中的应用J海洋科学,2 0 2 1,45(4):8 3-8 9.16袁超,张靖宇,肖洁,等。基于哨兵2 号卫星遥感影像的2 0 18 年苏北浅滩漂浮绿藻时空分布特征研究J.Water depth inversion based on CatBoost-XGBoost combined model(1.School of Marine Science

26、s,Nanjing University of Information Science and Technology,Nanjing 210044,China;2.Laboratory for Regional Oceanography and Numerical Modeling,Qingdao National LaboratoryAbstract:A bathymetric inversion model combining CatBoost and XGBoost models is proposed in order to obtainhigh precision bathymetr

27、ic information to meet the needs of various fields of Marine research.By selectingSentinel-2A satellite remote sensing data and taking Oahu island as the research area,CatBoost and XGBoostmodels were introduced to construct Catboost-XGboost combined model through linear combination of them.The exper

28、imental results show that the determination coefficient,root-mean-square error,mean absolute errorand mean relative error of the combined model are 95.32%,1.29 m,0.86 m and 20.51%,respectively.Compared with the single model,the accuracy of the combined model is improved to a certain extent.Key words

29、:ocean remote sensing;water depth retrieval;combined model;CatBoost;XGBoost曾书玉,等:基于CatBoost和XGBoost组合模型的水深反演ZENG Shuyu,XIE Taol.2,KONG Ruiyaofor Marine Science and Technology,Qingdao 266237,China)+三+三+三+三+三+三63海洋学报,2 0 2 0,42(8):12-2 0.17党存禄,武文成,李超锋,等基于CatBoost算法的电力短期负荷预测研究J电气工程学报,2 0 2 0,15(1):76-8

30、2.+(上接第48 页)Simplified dynamic precision orbit determination of HY-2B satellitesbased on spaceborne GPS dataQI Xinmin-2,WANG Jianbo2,JIA Yongjun,ZHANG Longping*,GUO Jingyun,JI Bing?(1.School of Marine Technology and Surveying and Mapping,Jiangsu Ocean University,Lianyungang222005,China;2.Key Laborat

31、ory of Marine Environment Detection Technology and Application,Ministry of Natural Resources,Guangzhou 510300,China;3.National Satellite Marine ApplicationCenter,Beijing 100041,China;4.Piesat Information Technology Co.,Ltd.,Beijing 100048,China;5.School of Surveying and Spatial Information,Shandong

32、University of Science and Technology,Qingdao 266590,China;6.Naval University of Engineering,School of Electrical Engineering,Wuhan 430033,China)Abstract:In order to study the reasonable order of EGM2008 gravity field model that meets the requirements ofHY-2B spaceborne GPS orbit determination and th

33、e simplified dynamic orbit determination accuracy of HY-2Bsatellites,this paper uses the 14-day spaceborne GPS observation data of HY-2B satellites and EGM2008gravity fields of diferent orders to simplify dynamic orbit determination.The results show that the EGM2008gravity field model of order 120 a

34、nd above can obtain high-precision orbit determination results.At the sametime,the inspection results show that the carrier phase residual results in the simplified kinetic legal orbit arestable between 6.26.8 mm,the overlapping track comparison results are better than 1cm in the orbital radial,tang

35、ential and normal directions,and the overall orbital accuracy of the SLR inspection results is better than4 cm.The orbit determination results meet the needs of altimetry satellites,and can provide reference forsubsequent scientific research on precision orbit determination of Chinas marine series satellites.Key words:low-orbit satellites;on-board GPS;precision rail setting;simplified kinetic methods;satellitelaser ranging

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服