收藏 分销(赏)

基于机器学习算法的干旱区绿洲地上生物量估算.pdf

上传人:自信****多点 文档编号:638793 上传时间:2024-01-22 格式:PDF 页数:9 大小:3.41MB
下载 相关 举报
基于机器学习算法的干旱区绿洲地上生物量估算.pdf_第1页
第1页 / 共9页
基于机器学习算法的干旱区绿洲地上生物量估算.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、生态环境学报 2023,32(6):1007-1015 http:/ Ecology and Environmental Sciences E-mail: 基金项目:国家自然科学基金项目(41561051);新疆维吾尔自治区自然科学基金项目(2020D01A79);国家自然科学基金项目(42261062)作者简介:王雪梅(1976 年生),女,教授,博士,硕士研究生导师,研究方向为干旱区资源环境遥感应用研究。E-mail:wangxm_ 收稿日期:2023-01-28 基于机器学习算法的干旱区绿洲地上生物量估算 王雪梅1,2,杨雪峰1,2,赵枫1,2,安柏耸1,黄晓宇1 1.新疆师范大学地理科

2、学与旅游学院,新疆 乌鲁木齐 830054;2.新疆干旱区湖泊环境与资源实验室,新疆 乌鲁木齐 830054 摘要:植被地上生物量是反映陆地生态系统固碳能力的重要指标,利用遥感技术开展干旱区植被地上生物量估算与空间反演,可为荒漠绿洲生态系统的健康评价与碳储量估算提供重要依据。以野外调查和实地采样数据为基础,利用 Landsat 8 OLI 多光谱影像提取的 7 个植被指数和 13 个波段变量构成 4 种建模变量组合,采用支持向量机(Support Vector Machine,SVM)、反向传播神经网络(Back Propagation Neural Network,BPNN)、极端梯度提升(

3、eXtreme Gradient Boosting,XGBoost)和随机森林(Random Forest,RF)这 4 种机器学习算法对新疆渭干河-库车河三角洲绿洲地上生物量进行遥感估算和空间反演。结果表明,(1)由波段变量和随机蛙跳算法优选变量构建的植被地上生物量反演模型,其估测精度明显优于全变量和指数变量,预测能力更为稳定。与 SVM 和 BPNN 算法相比,XGBoost 和 RF 算法构建的模型具有更好的估测效果,能更准确地估算研究区植被地上生物量。(2)在构建的估测模型中,波段变量结合 RF 算法模型的精度最高,稳定性最强,其建模集和验证集的决定系数分别为 0.898 和 0.74

4、2,平均绝对误差分别为 82.1 gm2和 79.2 gm2,均方根误差为 110.8 gm2和 132.1 gm2,相对分析误差均大于 1.8,模型拟合效果最佳。(3)研究区植被地上生物量的空间分异较为明显,整体呈现出绿洲区高,荒漠区低,由绿洲内部向绿洲外围逐渐降低的变化趋势。与其他 3 种机器学习算法相比,随机森林算法构建的估测模型具有良好的估测能力和稳定性,可准确估算干旱区绿洲地上生物量。同时,基于最优变量组合的机器学习算法模型为地上生物量反演提供了科学依据。关键词:机器学习算法;植被指数;光谱波段;地上生物量;空间反演;渭干河-库车河三角洲绿洲 DOI:10.16258/ki.1674

5、-5906.2023.06.001 中图分类号:Q948;X17 文献标志码:A 文章编号:1674-5906(2023)06-1007-09 引用格式:王雪梅,杨雪峰,赵枫,安柏耸,黄晓宇,2023.基于机器学习算法的干旱区绿洲地上生物量估算J.生态环境学报,32(6):1007-1015.WANG Xuemei,YANG Xuefeng,ZHAO Feng,AN Baisong,HUANG Xiaoyu,2023.Estimation of aboveground biomass in the arid oasis based on the machine learning algorit

6、hm J.Ecology and Environmental Sciences,32(6):1007-1015.植被地上生物量(aboveground biomass,AGB)是陆地生态系统生产力的重要体现,对陆地生态系统的构成和功能具有重要作用(陶冶等,2013)。研究植被地上生物量的传统方法主要有直接收获法、平均生物量法以及生物量经验模型等基于样地的清查方法。直接收获法操作简单,精度较高,但工作量较大,耗时费力,且会对样地内的植被及其生境造成一定程度的破坏,故常用于小区域尺度的草地和农作物生物量的精准估算(Byrne et al.,2011;党晓宏等,2017)。平均生物量法则以区域内典型

7、样地的单位面积平均生物量为基础,结合区域面积对植被生物量进行估算,常用于植被分布较为均一的草地、人工林地、灌草植被以及枯落物生物量的测定(方精云,2000;姚雪玲等,2019;童新风等,2018)。在生物量经验模型中,异速生长模型应用最为广泛,可通过测定标准株的胸径、树高、冠幅等各生态因子估算其地上生物量,并根据不同植被根茎比推算其地下生物量(杨宪龙等,2016;Khan et al.,2022)。在生物量经验模型的基础上,生物量过程模型逐渐发展起来。作为可解释植物生态过程的机理模型,生物量过程模型通过复杂的数学模型对植物的光合作用、呼吸作用和蒸散发等关键生理过程中的物质能量流动进行模拟,常用

8、于大尺度植被生物量的估算(薛海连等,2021)。随着对地观测技术与研究手段的不断发展,基于多源数据借助机器学习算法和机理过程模型估算植被地上生物量已成为植被碳储量研究的发展趋势(Sun et al.,2020;Cohen et al.,2021)。与传统的统计回归方法相比,支持向量机(Support Vector Machine,SVM)、反向传播神经网络(Back Propagation Neural Network,BPNN)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)以及随1008 生态环境学报 第 32 卷第 6 期(2023 年 6 月)机森林

9、(Random Forest,RF)等机器学习算法在处理大尺度、多源遥感数据方面具有显著优势,已逐渐用于森林、草地和农作物生物量的估算(Nesha et al.,2020;Morais et al.,2021;Wang et al.,2022)。丁 家 祺 等(2021)通 过 从 Landsat-8、ALOS PALSAR-2 和 Sentinel-1 数据中提取光谱信息,结合地形因子构建了多元线性回归(Multiple linear regression,MLR)、RF 和 SVM 模型,对湖南西北部森林地上生物量进行估测,研究发现 RF 模型相较于 MLR 与 SVM 模型具有更好的估测

10、能力。Huang et al.(2016)利用光学图像和合成孔径雷达图像对杭州西溪湿地公园的地上生物量进行估测,通过比较曲线估计、MLR 和 BPNN 模型的精度指标,发现 BPNN 模型的精度最高。邢晓语等(2021)利用高分一号卫星影像和野外调查数据对内蒙古锡林郭勒盟草原地上生物量进行遥感估算,进一步证实 RF 算法能够较好地解决生物量建模中的多元共线性问题,比 MLR 和 SVM 模型具有更好的适用性。张亦然等(2021)通过采集牧草冠层光谱反射率构建植被指数,利用 MLR 和 RF 以及 XGBoost算法构建草甸地上生物量估算模型,研究发现 RF与 XGBoost 算法在估算草地生物

11、量方面具有较好的效果。综上分析发现,以往的研究多侧重于单一植被类型的地上生物量估算,而对复杂地表多种植被地上生物量的反演相对较少。目前在干旱区绿洲地上生物量的估算主要集中在荒漠植被,且多以统计模型为主(张华等,2020;Zhou et al.,2023)。同时,已有研究还发现,合适的变量组合以及机器学习算法对准确估测复杂地表的植被地上生物量具 有 重 要 作 用(Wongchai et al.,2022;Tappayuthpijarn et al.,2022)。基于此,以新疆渭干河-库车河三角洲绿洲 2019 年 7 月不同植被类型地上生物量野外调查数据与同时期 Landsat 8 OLI遥感

12、影像为数据源,通过多种变量组合与机器学习算法构建干旱区绿洲地上生物量最佳估测模型,对植被地上生物量的空间分布格局进行定量反演,以期为绿洲生态系统生产力评价与碳储量的准确估算提供依据。1 材料与方法 1.1 野外调查与样品采集 渭干河-库车河三角洲绿洲位于新疆维吾尔自治区南部,塔里木盆地北缘,中天山南麓,为典型的冲洪积扇形平原绿洲。气候特点为夏季干热、冬季干冷,降水稀少、蒸发强烈,多年平均气温为11.6,多年平均降水量为 52 mm,多年平均蒸发量在 2000 mm 以上,为典型温带大陆性干旱气候。该绿洲的主要农作物为棉花(Gossypium spp.)和玉米(Zea mays),经济作物有红枣

13、(Ziziphus zizyphus)、核桃(Juglans regia L.)等;荒漠植被主要包括胡杨(Populus euphratica)、柽 柳(Tamarix ramosissima)、盐节木(Herculaneum strobilaceum)和 盐 穗 木(Halostachys caspica),以 及芦 苇(Phragmites australis)、骆驼刺(Alhagi sparsifdia)和白刺(Nitraria tangutorum Bobr)等(张殿岱等,2021)。该绿洲土壤类型较为多样,其中潮土、灌淤土和棕漠土分布十分广泛,而沼泽土和盐土也有一定的空间分布。201

14、9年7月1324日在渭干河-库车河三角洲绿洲开展了为期 12 d 的地上生物量调查工作,共调查 50 m50 m 大小的样地 94 个,其中农田植被样地 63 个,荒漠植被样地 31 个,调查样地分布如图1 所示。在调查样地内设置样方进行植被调查,农田植被样方大小为 50 m50 m;在荒漠植被样地内,调查 50 m50 m 乔灌草样方 1 个,10 m10 m 灌草样方 3 个以及 1 m1 m 的草本样方 5 个。主要调查植被物种的类型、频数、植被盖度、高度、冠幅等生长参数;同时,选择不同物种的标准株测量其株高、长短轴冠幅和基径,以及进行标准直立枝或整株的采样。在生物量测定过程中,将采集的

15、标准枝/株样本的各器官进行现场分离,用电子天平称其质量后分别装入写好标签的牛皮纸袋中,为确保测定结果的准确性,天平秤的精确度为 0.1 g。在室内80 恒温干燥箱内经 24 h 烘干处理后测定其干物质的质量。乔灌木地上生物量通过所采的标准枝生物量采用间接估算法进行整株生物量估算;矮小的草本和农作物可采用直接收获法获取整个标准株的生物量。依据样方内各物种的频数、植被盖度等生长参数以及标准株的生物量推算出各样地的植被地上生物量。在取样的同时还需进行立地条件调 图 1 研究区调查样地分布示意图 Figure 1 Distribution map of survey sample plots in t

16、he study area 王雪梅等:基于机器学习算法的干旱区绿洲地上生物量估算 1009 查,记录地表环境信息和每个样地中心点经纬度并进行景观拍照。1.2 光谱因子的选择与植被指数的计算 选择与野外调查同时期的 2019 年 7 月 26 日Landsat 8 OLI 遥感影像进行辐射定标和大气校正。首先打开原始影像头文件,采用辐射定标工具选择多光谱数据,设置输出格式为 BIL,数据类型为Float,转换系数为 0.1,即可输出辐射定标文件。打开大气校正工具导入辐射定标数据,选择传感器类型并输入研究区平均高程,然后确定大气模型为中纬度夏季(MLS),气溶胶模型选择乡村(Rural),设置多光

17、谱参数为 6602100 nm,完成影像校正后进行裁剪等预处理。为保证实地调查数据与遥感影像空间上完全匹配,需要将遥感影像重采样为 50m的空间分辨率。通过提取 Landsat 8 OLI 影像的海岸波段(b1)、蓝光波段(b2)、绿光波段(b3)、红光波段(b4)、近红外波段(b5),以及短波红外 1 波段(b6)和短波红外 2 波段(b7)的反射率,并计算各波段反射率的倒数。同时选取与地上生物量密切相关的 7 个植被指数,分别是归一化差值植被指数(Normalized Difference Vegetation Index,NDVI)、差值植被指数(Difference Vegetatio

18、n Index,DVI)、比值植被指数(Ratio Vegetation Index,RVI)、增强型植被指数(Enhanced Vegetation Index,EVI)、大 气 阻 抗 植 被 指 数(Atmospherically Resistant Vegetation Index,ARVI),以及土壤调整植被指数(Soil Adjusted Vegetation Index,SAVI)和修正土壤调整植被指数(Modified Soil-Adjusted Vegetation Index,MSAVI)。各植被指数的计算公式如下(Kaufman et al.,1992;Qi et al.

19、,1994;Gitelson et al.,1996):NDVI5454=()/()+Ibbbb(1)IDVI=b5b4(2)IRVI=b5/b4(3)IEVI=2.5(b5b4)/(b5+6b47.5b2+1)(4)IARVI=b5(2b4b2)/b5+(2b4b2)(5)ISAVI=(b5b4)(1+L)/(b5+b4+L)(6)2MSAVI5554=(1/2)(21(21)8()Ibbbb+(7)式中:INDVI归一化差值植被指数;IDVI差值植被指数;IRVI比值植被指数;IEVI增强型植被指数;IARVI大气阻抗植被指数;ISAVI土壤调整植被指数;IMSAVI修正土壤调整植被指数;

20、b2蓝光波段的反射率;b4红光波段的反射率;b5近红外波段的反射率;L土壤调节系数,研究中取值为 0.5。1.3 地上生物量估测模型 研究中选择 SVM、BPNN、XGBoost 和 RF 这4 种机器学习算法进行植被地上生物量估测模型的构建。模型的参数设置以及拟合过程可通过 R 语言编程实现,使用 R Studio 中的 R 包 e1071、nnet、xgboost 和 randomForest 算法完成模型的训练和验证。SVM 是一种基于统计学习理论的机器学习算法,包含线性、非线性和径向基函数等不同类型的核函数,可用于分类和回归问题。通过核函数,支持向量机可以转化为非线性模型。本研究以径向

21、基函数为核函数,通过反复训练和调试 Cost、Epsilon和 Gamma 这 3 个参数最终确定最优结果。BPNN 是一个多层渐进式神经网络,由输入、隐藏和输出 3 层构成。输入层主要负责向量的输入,经由神经元传输到隐藏层,确定合适的隐藏层及其神经元的数量,最后通过神经元传输到输出层与真实值进行比较。通过不断调整神经元之间的权值进行反复学习,直到满足输出条件。该算法具有很强的非线性处理能力以及自适应学习能力,抗噪声能力强,能快速建立输入与输出之间的映射关系,可用于模拟人脑学习,建立多元非线性关系。本研究中 BPNN 算法模型的隐含层设定为 15,迭代次数为1500,权重衰减分别为 3 和 5

22、,通过反复训练该模型以获得最佳效果。XGBoost 是一种集成学习算法,属于梯度提升树算法类别,其基本思想是让新的基模型去拟合前一模型的偏差,从而不断降低加法模型的偏差(Si et al.,2020;Ching et al.,2022)。通过调整 XGBoost训练集的步长(learning_rate)、最小损失函数下降值(gamma)和树的最大深度(max_depth)等关键参数,以达到优化模型的目的。RF作为集成学习思想下的产物,使用Bootstrap重采样技术从原始训练集中随机采样 m 个样本,共进行 n 次采样,生成 n 个训练集,形成可用于构建目标变量和建模因子之间关系的随机森林。该

23、算法具有极高的准确率、很好的抗噪声能力,以及不容易过拟合、训练速度快等优点,是目前应用最为广泛的机器学习算法之一。研究中通过指定 CART 决策树的数目 n 进行反复训练,从而寻找估测模型的1010 生态环境学报 第 32 卷第 6 期(2023 年 6 月)最优参数 mtry。1.4 模型精度评价 机器学习模型的估测精度和预测能力可通过决定系数(R2)、平均绝对误差(MAE)、均方根误差(RMSE)和相对分析误差(RPD)反映(Ghosh et al.,2020)。其中 R2越大,表明模型的拟合程度越高;MAE和RMSE值越小,则显示该模型估测效果越好,精度越高;RPD代表了模型的估测能力和

24、稳定性,当 1.4RPD1.8 时表明该模型估测能力一般;1.8RPD2 表示模型的估测能力较好;RPD2则说明该模型的估测能力极好,稳定性高。各评价指标的计算公式如下:=niiniiiyyyyR12122)()(1(8)=niiiyyn1MAE1(9)21RMSE)(1iiniyyn=(10)=niiyyn12SD)(11(11)式中:yi 调查样地生物量的实测值(gm2);生物量估测模型的估测值(gm2);y调查样地生物量的平均值(gm2);SD为调查样地生物量的标准差;n调查样地的数量。1.5 数据分析 通过对各调查样地植被地上生物量进行统计整理和数据运算,结合影像数据提取的各建模变量,

25、采用 R 语言的 4 种机器学习算法构建研究区植被地上生物量的估测模型;通过分析不同建模方法下研究区植被地上生物量的估测精度,最终确定出地上生物量的最佳估测模型,并采用 ArcGIS 10.2软件绘制研究区植被地上生物量的空间反演图。2 结果与分析 2.1 地上生物量的特征统计 通过对研究区各样地植被地上生物量进行基本统计分析(表 1),发现研究区 94 个调查样地的地上生物量(AGB)在 7.41448.5 gm2范围内变化,平均水平为 387.9 gm2,标准差为 319.4 gm2,变异系数为 82.3%,地上生物量整体水平偏低,具有中等程度的空间异质性。将调查的 94 个样本数据随机分

26、成 64 个训练样本和 30 个验证样本,分别用于模型的训练和验证。统计训练样本和验证样本的地上生物量发现,两种样本集的平均水平均较低,分别为 402.9 gm2和 355.8 gm2;变异系数分别为 81.7%和 84.5%,呈中等强度的空间变异。2.2 建模变量的选择 根据各调查样地中心点的地理坐标,在遥感影像上提取出各坐标点的波段反射率值以及波段运算得到的光谱指数,分别与调查样地实测生物量进行相关分析(见图 2)。通过相关显著性检验(P0.001),初步筛选出与研究区植被地上生物量存在极显著相关的 7 个植被指数和 13 个光谱波段共 20 个光谱因子,作为本研究中植被地上生物量估测模型

27、的建模变量。其中与地上生物量相关最为密切的植被指数为比值植被指数(RVI),相关系数为 0.77(P0.001);在各波段反射率中,与地上生物量相关最密切的是红光波段的倒数(1/b4),相关系数达到 0.81(P0.001)。将 7 个植被指数与13 个波段作为全变量(Total Variable,TV),7 个植被指数为指数变量(Index Variable,IV),13 个光谱波段为波段变量(Band Variable,BV),同时对全变量采用随机蛙跳算法筛选出 5 个植被指数(DVI、EVI、ARVI、SAVI 和 MSAVI)与 5 个光谱波段(1/b2、1/b3、1/b4、1/b5和

28、 1/b6)作为优选变量(Preferred Variable,PV),分别以这 4 种变量组合作为建模变量进行生物量估算模型的构建,从而筛选最佳估测模型对研究区的地上生物量进行空间反演。2.3 地上生物量反演模型的构建与验证 基于 SVM、BPNN、XGBoost 和 RF 这 4 种机器学习算法,以全变量(TV)、指数变量(IV)、波段变量(BV)和优选变量(PV)这 4 种变量组合作为建模变量,各调查样地的地上生物量为因变量,构建渭干河-库车河三角洲绿洲地上生物量的估测模型,具体估算精度如表 2 所示。在 SVM 模型中,4 种变量组合构建的反演模型估测效果均较好,模型的训练集和验证集

29、R2均大于 0.6,RPD值在 1.6 以上,反演模型具有较好的估测能力。进一 表 1 各样地地上生物量的基本统计特征 Table 1 Basic statistical characteristics of aboveground biomass in various sites 样本类型样本数地上生物量/(gm2)变异系数/%最大值最小值 平均值 标准差总体样本94 1 448.57.4 387.9 319.482.3 训练样本64 1 448.57.4 402.9 329.181.7 验证样本30 1 387.812.8 355.8 300.684.5 iy 王雪梅等:基于机器学习算法的

30、干旱区绿洲地上生物量估算 1011 步分析比较发现,全变量(TV)和波段变量(BV)构建的 SVM 模型估测效果优于指数变量(IV)和优选变量(PV)。其中,BV-SVM 模型的估测能力最佳,验证集的RPD达到 1.70,MAE和RMSE分别为 88.1 gm2和 149.1 gm2,估测精度较其他 3 种变量组合更高。相较于 SVM 模型,BPNN 模型具有更好的训练结果,训练集的RPD均在 2.0 以上,但模型整体验证效果较差,稳定性低。在 4 种组合变量构建的 BPNN 模型中,由优选变量构建的PV-BPNN 模型相较于其他 3 种组合变量具有较高的估测能力,验证集 R2为 0.617,

31、MAE和RMSE分别为 98.3 gm2和 155.4 gm2,RPD为 1.63。在XGBoost 模型中,4 种变量组合构建的反演模型均具有较好的估测能力,其中 BV 和 PV 组合模型的估测效果明显优于全变量(TV)和指数变量(IV)模型,且以优选变量构建的 PV-XGBoost 模型的验证效果最佳,R2为 0.719,MAE和RMSE分别为 100.0 gm2和 133.0 gm2,RPD达到 1.91。RF 模型作为一种先进的机器学习算法,与其他 3 种模型相比,估测能力有了明显的提高,4 种变量组合模型的训练集和验证集的RPD均在 1.8 以上,模型的估测能力较高,稳定性强。进一步

32、比较不同变量组合估测结果认为,BV 和 PV 组合构建的 RF 模型的估测能力明显优于 TV 和 IV 组合;与 PV-RF 模型相比,表 2 不同反演模型的估算精度 Table 2 Estimation accuracy of different inversion models 反演模型 变量组合 训练集 验证集 R2 MAE/(gm2)RMSE/(gm2)RPD R2 MAE/(gm2)RMSE/(gm2)RPD SVM TV 0.693 113.5 195.7 1.78 0.630 89.2 151.7 1.67 IV 0.683 125.3 198.1 1.75 0.616 90.3

33、 156.4 1.62 BV 0.695 117.7 194.4 1.79 0.642 88.1 149.1 1.70 PV 0.691 125.7 197.1 1.76 0.623 89.7 153.7 1.65 BPNN TV 0.844 101.2 139.5 2.49 0.571 99.1 163.5 1.55 IV 0.802 111.9 156.6 2.22 0.541 110.5 171.7 1.48 BV 0.836 102.1 142.3 2.44 0.542 100.4 168.8 1.50 PV 0.841 96.3 139.7 2.48 0.617 98.3 155.4

34、 1.63 XGBoost TV 0.731 118.4 178.8 1.94 0.665 116.1 151.6 1.67 IV 0.730 129.9 186.0 1.87 0.648 93.3 152.1 1.67 BV 0.754 134.2 171.0 2.03 0.670 101.9 146.0 1.74 PV 0.742 137.2 177.2 1.96 0.719 100.0 133.0 1.91 RF TV 0.885 84.3 118.7 2.93 0.716 83.7 135.2 1.87 IV 0.888 83.2 119.8 2.90 0.711 92.7 139.2

35、 1.82 BV 0.898 82.1 110.8 3.14 0.742 79.2 132.1 1.92 PV 0.894 79.7 113.1 3.07 0.775 92.6 133.4 1.90 *表示在 0.001 水平上(双侧)极显著相关 图 2 建模变量与地上生物量的相关系数矩阵 Figure 2 Correlation coefficient matrix between modeling variables and aboveground biomass 1012 生态环境学报 第 32 卷第 6 期(2023 年 6 月)BV-RF 模型的训练集和验证集的RMSE降低了 2.3

36、 gm2和 1.3 gm2,RPD分别由 3.07、1.90 提高至3.14 和 1.92,模型的估测精度更高,预测能力和稳定性更强。综合分析 4 种变量组合的建模效果认为,在BPNN 和 XGBoost 模型中,通过随机蛙跳筛选变量可以有效提高建模精度。估测精度最高的是 PV 组合,其次是 BV 和 TV 组合,而 IV 组合的估测精度最低。而在 SVM 和 RF 模型中,BV 组合构建的模型精度略高于其他 3 种组合。进一步比较 4 种机器学习算法构建的地上生物量估测模型发现,RF 算法明显优于SVM、BPNN和XGBoost;相较于BPNN算法模型,SVM 和 XGBoost 算法构建的

37、模型估测能力更为稳定。综合分析认为,由波段变量构建的随机森林模型 BV-RF 具有最佳的估测精度和稳定性,其验证集 R2为 0.742,MAE和RMSE分别为 79.2 gm2和 132.1 gm2,RPD为 1.92。为了进一步比较不同机器学习算法估算结果的准确性,分别对 4种机器学习模型的最佳估测结果绘制散点图(图3),分析发现 4 种算法模型的估测结果与实测值均表现出较为一致的拟合性,大多数散点在 11 线附近集中分布;其中 BV-RF 模型的估测值与实测值更为接近,估测结果能更准确反映研究区植被生长的实际状况,可作为研究区植被地上生物量的最佳估测模型。2.4 地上生物量的空间反演 以最

38、佳估测模型 BV-RF 模型的训练结果为基础,采用 R 语言对研究区植被地上生物量进行定量反演。利用归一化差值水体指数(Normalized Difference Vegetation Index,NDWI)提取水体并结合反演结果绘制研究区植被地上生物量空间分布图。由地上生物量空间反演图可以看出(见图 4),渭干河-库车河三角洲绿洲的地上生物量(AGB)呈现出明显的空间分异特征,AGB 整体呈扇形分布,绿洲内部的地上生物量明显高于绿洲外围。以农田为主的绿洲区域约占研究区总面积的 44.45%,AGB 在 300 gm2以上。其中位于塔里木河中游和渭干河下游的南部绿洲和东南区域,由于地势较 图

39、3 4 种机器学习算法构建的最优估测模型散点图 Figure 3 Scatter diagram of optimal estimation models constructed by four machine learning algorithms 王雪梅等:基于机器学习算法的干旱区绿洲地上生物量估算 1013 低,水资源丰富,植被生长状况良好,地上生物量相对较高,AGB 在 6501500 gm2之间变化,地表植被以高产农田和荒漠胡杨林为主;绿洲-荒漠过渡带的地上生物量普遍较低,AGB 主要分布在100300 gm2范围之间,地表以荒漠盐碱草地为主,约占研究区面积的 23.29%;而在荒漠

40、区,由于水资源缺乏植被覆盖极为稀疏,且地表主要为沙地和光板盐碱地,AGB 在 100 gm2以下,可占区域总面积的 32.26%。从空间分布格局来看,研究区植被地上生物量整体呈现出绿洲区高,荒漠区低,空间分异十分明显,由绿洲内部向荒漠腹地逐渐递减的变化特征。3 讨论与结论 3.1 讨论 随着机器学习算法和光谱技术的深入发展,植被地上生物量估算方法也在不断改进中,RF、XGBoost等非参数机器学习算法已成为目前植被地上生物量常用的估算方法。与传统的统计学习模型相比,机器学习模型具有更高的估测精度和更强的稳定性,针对非线性统计关系具有较好的估测效果(Tappayuthpijarn et al.,

41、2022)。在机器学习算法中,SVM 可处理小样本机器学习问题,并利用核函数应对非线性问题,在选择正确的核函数时需要相当的技巧,而在面对较大数据集时,SVM 算法学习效率很低。XGBoost 算法可实现并行处理,训练速度快,能防止模型过拟合,但该算法只适合处理结构化数据,不适合处理超高维特征数据。BPNN 虽具有较强的非线性映射能力和高度自学习自适应能力,但收敛速度慢,局部极小化问题突出。RF 算法可高度并行化训练数据,能够处理高维度数据,训练速度快,泛化能力强,估测精度高且稳定性强(Nesha et al.,2020;Morais et al.,2021)。相较于 BPNN算法模型,SVM、

42、XGBoost 与 RF 算法构建的模型在本次验证过程中具有更高的预测精度和稳定性。与其他机器学习算法和传统模型相比,RF 算法在地上生物量估算方面具有明显优势(Wang et al.,2022)。本研究结果进一步证实,RF 算法构建的模型,其估算精度和预测能力要明显优于 SVM、BPNN 和 XGBoost 算法模型。在机器学习过程中,如果样本容量不足,将会导致模型学习效果不佳。研究结果显示,4 种机器学习算法构建的模型相对分析误差均在 1.4 以上,说明实验所用的样本数量可达到机器学习算法模型的学习要求,其中 RF 模型的预测能力较好,稳定性最强。相关研究表明,植被地上生物量与气温、降水、

43、地形,以及土壤质地与养分条件有密切关系,其中降水、地形以及土壤养分是影响地上生物量的重要因素,直接决定了植被的碳固持能力(李妙宇等,2021;Yuan et al.,2019)。在今后的地上生物量估算研究中,除了深入挖掘遥感影像的光谱特征和纹理信息外,还需辅助地表环境要素,通过变量筛选结合多种机器学习算法,不断提高反演模型的估测精度和适用范围(Sun et al.,2020)。同时,雷达影像、高光谱卫星数据以及无人机影像等具有高空谱特征的遥感数据,在未来的植被地上生物量反演研究中将会展现出明显优势(Li et al.,2021;Sharma et al.,2022;Wang et al.,20

44、22)。3.2 结论 以 Landsat 8 OLI 多光谱遥感影像和地面实测样方为主要数据源,采用不同变量组合和多种机器学习算法对新疆渭干河-库车河三角洲绿洲地上生 图 4 研究区植被地上生物量反演图 Figure 4 Inversion map of vegetation aboveground biomass in the study area 1014 生态环境学报 第 32 卷第 6 期(2023 年 6 月)物量进行遥感估算。研究发现波段变量(BV)和随机蛙跳算法优选变量(PV)构建的地上生物量反演模型,其估测精度和稳定性明显优于全变量(TV)和指数变量(IV)模型。通过对 4 种

45、机器学习算法模型进行比较,认为 RF 算法模型较 XGBoost、SVM和 BPNN 模型具有更高的估测精度和更强的稳定性。由波段变量结合随机森林算法构建的 BV-RF模型的估测精度最高,预测能力最强。研究区植被地上生物量的空间反演结果表明,地上生物量存在明显的空间分异特征,主要表现为绿洲内部的地上生物量较高,而绿洲外缘生物量低,呈梯度分布的空间格局。参考文献:BYRNE K M,LAUENROTH W K,ADLER P B,et al.,2011.Estimating aboveground net primary production in grasslands:a comparison

46、 of nondestructive methods J.Rangeland Ecology&Management,64(5):498-505.CHING P M L,ZOU X,WU D,et al.,2022.Development of a wide-range soft sensor for predicting wastewater BOD5 using an eXtreme gradient boosting(XGBoost)machine J.Environmental Research,210(4-5):112953.COHEN A R,CHEN G,BERGER E M,et

47、 al.,2021.Dynamically controlled environment agriculture:integrating machine learning and mechanistic and physiological models for sustainable food cultivation J.ACS ES&T Engineering,2(1):3-19.GHOSH A K,DAS B S,REDDY N,2020.Application of VIS-NIR spectroscopy for estimation of soil organic carbon us

48、ing different spectral preprocessing techniques and multivariate methods in the middle Indo-Gangetic plains of India J.Geoderma Regional,23(3-4):e00349.GITELSON A A,KAUFMAN Y J,MERZLYAK M N,1996.Use of a green channel in remote sensing of global vegetation from EOS-MODIS J.Remote Sensing of Environm

49、ent,58(3):289-298.HUANG C D,YE X Y,DENG C B,et al.,2016.Mapping above-ground biomass by integrating optical and SAR imagery:A case study of Xixi National Wetland Park,China J.Remote Sensing,8(8):647.KAUFMAN Y J,TANRE D,1992.Atmospherically resistant vegetation index(ARVI)for EOS-MODIS J.IEEE Transac

50、tion on Geoscience and Remote Sensing,30(2):261-270.KHAN R W A,SHAHEEN H,2022.Biomass carbon stock estimation in lesser Himalayan subtropical broadleaf forests of Kashmir J.Taiwania,67(1):47-54.LI C H,ZHOU L Z,XU W B,2021.Estimating aboveground biomass using Sentinel-2 MSI data and ensemble algorith

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服