收藏 分销(赏)

基于信息量-机器学习耦合的野火灾害易发性评估.pdf

上传人:自信****多点 文档编号:2356753 上传时间:2024-05-28 格式:PDF 页数:9 大小:9.86MB
下载 相关 举报
基于信息量-机器学习耦合的野火灾害易发性评估.pdf_第1页
第1页 / 共9页
基于信息量-机器学习耦合的野火灾害易发性评估.pdf_第2页
第2页 / 共9页
基于信息量-机器学习耦合的野火灾害易发性评估.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、森林火灾防控Fire Science and Technology,October 2023,Vol.42,No.10基于信息量-机器学习耦合的野火灾害易发性评估岳韦霆1,任超1,2,梁月吉1,2(1.桂林理工大学 测绘地理信息学院,广西 桂林 541006;2.广西空间信息与测绘重点实验室,广西 桂林 541006)摘要:为充分发挥统计学和机器学习模型在野火灾害易发性分析和评估中的优势,以森林资源丰富且深受野火灾害困扰的桂林市为研究区,分别从气候、地形、水文以及人文等方面选 取 16 个 评 价 因 子。将 信 息 量(IV)模 型 分 别 与 逻 辑 回 归(LR)、人工神经网络(ANN)

2、、随机森林(RF)和极致梯度提升(XGBoost)4 种机器学习(ML)模型相耦合,对桂林市野火灾害易发性进行评价分析。结果表明,IV-XGBoost模型的 AUC 和准确率分别为 0.957和 0.921,具有最佳的预测性能,能够有效评估野火灾害的易发性,并为当地野火灾害的防治提供有价值的参考。关键词:野火易发性评价;信息量模型;机器学习模型;野火灾害;因子重要性分析中图分类号:X913.4;S762 文献标志码:A 文章编号:1009-0029(2023)10-1444-09野火是指发生在森林、草原和灌木丛等自然环境中的植被火灾1。该现象的发生受多方面因素的相互作用影响,如自然气候、地质地

3、形、水文环境、地表可燃性物质特征以及人为因素2-3。野火作为生态系统中的自然现象,能够促进植物更新、清除枯死植被,以维持生态系统的自然循环。然而,不受控制的野火已成为全球和地方范围内的主要环境问题4-5。它不仅对生态环境和生物多样性造成破坏,还会导致空气质量恶化、土地退化以及人类财产和安全的损失。因此,建立有效的野火预测模型并且准确判断野火的影响因素变得越来越重要6。随着计算机科学、地理信息系统以及遥感技术等领域的不断发展,大量预测方法已被广泛应用于野火灾害易发性的预测中,其分为定性分析和定量分析7。定性分析主要依据研究者的主观判断,而定量分析相较于前者,评价结果更加客观8。定量方法包括频率比

4、9、信息量10和证据权11等统计学方法,和人工神经网络12、逻辑回归模型13、支持向量机14、随机森林15等机器学习方法。汪瑾等16利用 LSTM 模型构建张家口市崇礼区林火预警模型。彭徐剑等学者17运用地理加权 Logistic回归方法对浙江野火时序变化特征进行了分析。梁赛英等18利用全局和地理加权 Logistic回归(LR)模型分析了雷州半岛热带野火的空间分布和驱动因素。DAS J19采用多种统计和加权建模方法来识别印度东部的森林火灾易感区,显示 LR 模型较统计学模型性能更优。MOHAN K V M 等20比较多个神经网络对野火易发性的预测性能,并从中选择最适应当地的预测模型。JAAF

5、ARI A等21应用了 5个基于决策树的分类器模型分析了扎格罗斯山脉野火空间格局。上述研究为野火灾害的防治与管理提供了重要参考。然而,对于统计学耦合机器学习模型的野火易发性研究相对较少,并且缺乏对中国华南地区野火的空间分布分析。本研究以野火灾害严峻的桂林市为研究区,选用2017-2022 年内的历史野火和 16 项影响因子为数据基础,利用信息量模型选取建模负样本,并采用 4 种机器学习模型耦合,构建野火易发性预测模型。通过对比各模型的预测性能并获取最佳模型,进而对影响该地区野火灾害的影响因素进行分析。本文通过对中国华南地区典型区域的野火易发性进行评价,不仅为类似研究提供借鉴,还为桂林市的野火灾

6、害的防治提供科学理论依据。1研究区概况桂林市地处南岭山系西南部,地处东经 10936501112930,北纬 241523262330,高程在 02 113 m之间。桂林市包含 17个区县,总面积约为 27 800 km2,占广西总面积的 11.74%。桂林市属亚热带季风气候,气候温和,雨量充沛,光照充足,热量丰富。森林资源丰富,森林覆盖率达 70.91%。近年来,桂林市森林山火频发,严重威胁人民的生命财产安全。2研究方法本研究的思路是将信息量模型与 4 种机器学习方法耦合,构建 4 种野火易发性预测模型,分析对比不同模型的预测性能,并分析桂林市的野火易发性评价因子对预测结果的贡献和影响。具体

7、步骤如下:首先,利用信息量模型计算各野火易发性因子不同属性区间对应的信息量值,并评价野火样本在各因子不同属性区间的分布情况。其次,基于 IV 模型选取机器学习模型中所用的负样本。然后,整合正负样本,对各样本点所在的空间位置与相对应的评价因子的信息量值进行空间匹配,划分训练集和验证集,并将其代入本文采用的 4种各具特色并有良好性能的机器学习模型,构建信息量与机器学习相耦合的野火易发性预测模型(IV-ML)。最后,运用多个评价指标对比分析各个模型的预测性能得到最优模型,并讨论各评价因子对最优模型的野火易发性预测的贡献。研究流程如图 1所示。基金项目:国家自然科学基金项目(42064003);广西自

8、然科学基金项目(2021GXNSFBA220046)2.1信息量模型本研究采用 IV模型阐明了野火发生分布与评价因子间的定量关系。将研究区内的野火在不同评价因子中的分布情况转化为可量化大小的信息量值,以衡量野火发生的易发性程度22。如式(1)所示。IVij=ln(Nij/Nsij/S)(1)式中:IVij为在第i个评价因子的第j个属性区间的信息量,其值大于 0 表示相对容易发生野火,值小于 0 表示相对不易发生野火;Nij为第i个因子的第j个属性区间中发生野火的个数;Sij为该区间内的栅格数量。N和S分别为整个区域内的野火数量和栅格数量。2.2机器学习模型LR 是一种涉及因变量和各种自变量的多

9、元回归模型,通常用于对二元因变量的统计可能性进行建模23。LR 模型计算速度快,可以从一个或多个输入变量计算野火事件发生的条件概率。如式(2)、式(3)所示。P=eY/(1+eY)(2)Y=B0+B1 X1+B2 X2+Bn Xn(3)式中:P为野火发生的概率,在 0,1 区间之内;X1,X2,Xn为影响野火事件发生的独立解释变量;B0为常数,B1,B2,Bn为逻辑回归系数,代表各评价因子的权重。ANN 是一种基于生物神经网络结构和功能的数学模型。其由多个神经元以及它们之间的连接构成,可以分为输入层、隐藏层和输出层。神经元之间的连接权重可通过反向传播算法训练和优化,以达到最优性能24。RF 是

10、一种基于决策树的集成学习算法,其决策树作为监督分类器可以提供多个级别的决策。由于集成减少了构建单个决策树时的不稳定性,它整合了分类和回归树的结果,从而减轻了一棵树的不连续性25。相较于 LR模型,RF对因子间的多重共线性的敏感性较低。XGBoost算法通过对 Boosting算法进行改进,在求解损失函数极值时加入正则化项,防止了过拟合,提高了模型精度26。与 RF相同的是,XGBoost是一个使用决策树作为构建块的集成学习器。不同的是,XGBoost 在集成学习过程中使用了提升,使其收敛更快,容错性更高。2.3精度评价指标本 研 究 使 用 阳 性 预 测 率(TPR)和 阴 性 预 测 率(

11、FPR)、总体准确性(OA)、F1 分数(F1-score)、Kappa 系数(KC)以及接受者操作特性(ROC)曲线 6种基于混淆矩阵的评估指标评估野火易发性预测模型的性能。其中,TPR 和 FPR 分别代表火点和非火点的预测正确率;OA表示模型对全部样本的预测正确率;F1-score 可以综合反映模型对正样本的预测性能;KC 用于评估样本的预测属性与实际属性间的一致性,当 KC 值大于 0.8时,表明具有高度的一致性。模型的拟合程度可以通过 ROC 曲线下的面积(AUC)来确定,其可以综合表示模型的预测性能,当 AUC 值大于 0.8时,该模型的预测性能优秀。计算公式如式(4)(10)所示

12、。TPR=TP/(TP+FN)(4)FPR=TN/(TN+FP)(5)OA=(TP+TN)/(TP+FN+TN+FP)(6)F1-score=2TP/(2TP+FN+FP)(7)KC=(Acc-Pe)/(1-Pe)(8)Pe=(TP+FN)(TP+FP)(TN+FN)(FP+TN)(TP+FN+FP+TN)2(9)AUC=(TP+TN)/(P+N)(10)式中:TP和TN分别为预测正确的火点和非火点的数量;FN和FP分别为预测错误的火点和非火点的数量;Pe为期望一致率;P为火点正样本的总数,N为负样本的总数。此 外,使 用 均 方 根 误 差(RMSE)分 别 衡 量 正 样 本(1)、负样本

13、(0)和全部样本(All)的预测值与实际值间的偏离程度27-28。计算公式如式(11)所示。RMSE(All;1;0)=1Ni=1N(Yi-f(Xi)2(11)式中:Yi和f(Xi)分别为第i样本的实际值和预测值;N为样本总数。3数据概况及预处理3.1野火样本2017-2021 年 的 桂 林 市 野 火 样 本 选 用 VIIRS(S-NPP)热异常产品数据集,空间分辨率为 375 m,采样频率为每天两次,具有良好的探测水平和监测精度29。由于VIIRS 产品获取的火点信息包含整个区域内的各类热源异常点30,而本文重点对野火灾害的发生进行易发性评估,因此需要对数据进行筛选。首先,依据初步获取

14、的VIIRS 火点数据中的“Confidence”属性字段,将置信度等级为“Low”的不合格数据筛出;其次,依据“Type”属性字段,去除“活火山”以及“水面探测”类型的样本;最后,依据由国家基础地理信息中心开发的 GlobeLand30的 30 m分辨率的地表覆盖类型产品,筛除位于“人造地表”和“水桂林市野火风险性评价历史野火点位数据收集与筛选野火评价因子选取与分析评价因子属性区间的信息量计算和评估划定选取范围并收集负样本数据集构建(训练集:验证集=7:3)LRANNRFXGBoost模型预测性能的对比分析图 1研究流程Fig.1Research flow1444消防科学与技术2023年 1

15、0 月第 42 卷第 10 期2.1信息量模型本研究采用 IV模型阐明了野火发生分布与评价因子间的定量关系。将研究区内的野火在不同评价因子中的分布情况转化为可量化大小的信息量值,以衡量野火发生的易发性程度22。如式(1)所示。IVij=ln(Nij/Nsij/S)(1)式中:IVij为在第i个评价因子的第j个属性区间的信息量,其值大于 0 表示相对容易发生野火,值小于 0 表示相对不易发生野火;Nij为第i个因子的第j个属性区间中发生野火的个数;Sij为该区间内的栅格数量。N和S分别为整个区域内的野火数量和栅格数量。2.2机器学习模型LR 是一种涉及因变量和各种自变量的多元回归模型,通常用于对

16、二元因变量的统计可能性进行建模23。LR 模型计算速度快,可以从一个或多个输入变量计算野火事件发生的条件概率。如式(2)、式(3)所示。P=eY/(1+eY)(2)Y=B0+B1 X1+B2 X2+Bn Xn(3)式中:P为野火发生的概率,在 0,1 区间之内;X1,X2,Xn为影响野火事件发生的独立解释变量;B0为常数,B1,B2,Bn为逻辑回归系数,代表各评价因子的权重。ANN 是一种基于生物神经网络结构和功能的数学模型。其由多个神经元以及它们之间的连接构成,可以分为输入层、隐藏层和输出层。神经元之间的连接权重可通过反向传播算法训练和优化,以达到最优性能24。RF 是一种基于决策树的集成学

17、习算法,其决策树作为监督分类器可以提供多个级别的决策。由于集成减少了构建单个决策树时的不稳定性,它整合了分类和回归树的结果,从而减轻了一棵树的不连续性25。相较于 LR模型,RF对因子间的多重共线性的敏感性较低。XGBoost算法通过对 Boosting算法进行改进,在求解损失函数极值时加入正则化项,防止了过拟合,提高了模型精度26。与 RF相同的是,XGBoost是一个使用决策树作为构建块的集成学习器。不同的是,XGBoost 在集成学习过程中使用了提升,使其收敛更快,容错性更高。2.3精度评价指标本 研 究 使 用 阳 性 预 测 率(TPR)和 阴 性 预 测 率(FPR)、总体准确性(

18、OA)、F1 分数(F1-score)、Kappa 系数(KC)以及接受者操作特性(ROC)曲线 6种基于混淆矩阵的评估指标评估野火易发性预测模型的性能。其中,TPR 和 FPR 分别代表火点和非火点的预测正确率;OA表示模型对全部样本的预测正确率;F1-score 可以综合反映模型对正样本的预测性能;KC 用于评估样本的预测属性与实际属性间的一致性,当 KC 值大于 0.8时,表明具有高度的一致性。模型的拟合程度可以通过 ROC 曲线下的面积(AUC)来确定,其可以综合表示模型的预测性能,当 AUC 值大于 0.8时,该模型的预测性能优秀。计算公式如式(4)(10)所示。TPR=TP/(TP

19、+FN)(4)FPR=TN/(TN+FP)(5)OA=(TP+TN)/(TP+FN+TN+FP)(6)F1-score=2TP/(2TP+FN+FP)(7)KC=(Acc-Pe)/(1-Pe)(8)Pe=(TP+FN)(TP+FP)(TN+FN)(FP+TN)(TP+FN+FP+TN)2(9)AUC=(TP+TN)/(P+N)(10)式中:TP和TN分别为预测正确的火点和非火点的数量;FN和FP分别为预测错误的火点和非火点的数量;Pe为期望一致率;P为火点正样本的总数,N为负样本的总数。此 外,使 用 均 方 根 误 差(RMSE)分 别 衡 量 正 样 本(1)、负样本(0)和全部样本(Al

20、l)的预测值与实际值间的偏离程度27-28。计算公式如式(11)所示。RMSE(All;1;0)=1Ni=1N(Yi-f(Xi)2(11)式中:Yi和f(Xi)分别为第i样本的实际值和预测值;N为样本总数。3数据概况及预处理3.1野火样本2017-2021 年 的 桂 林 市 野 火 样 本 选 用 VIIRS(S-NPP)热异常产品数据集,空间分辨率为 375 m,采样频率为每天两次,具有良好的探测水平和监测精度29。由于VIIRS 产品获取的火点信息包含整个区域内的各类热源异常点30,而本文重点对野火灾害的发生进行易发性评估,因此需要对数据进行筛选。首先,依据初步获取的VIIRS 火点数据

21、中的“Confidence”属性字段,将置信度等级为“Low”的不合格数据筛出;其次,依据“Type”属性字段,去除“活火山”以及“水面探测”类型的样本;最后,依据由国家基础地理信息中心开发的 GlobeLand30的 30 m分辨率的地表覆盖类型产品,筛除位于“人造地表”和“水桂林市野火风险性评价历史野火点位数据收集与筛选野火评价因子选取与分析评价因子属性区间的信息量计算和评估划定选取范围并收集负样本数据集构建(训练集:验证集=7:3)LRANNRFXGBoost模型预测性能的对比分析图 1研究流程Fig.1Research flow1445Fire Science and Technolo

22、gy,October 2023,Vol.42,No.10体”的非目标样本。最终,共获取 2 962个历史野火样本。3.2易发性评价因子本研究分别在地质地形、水文环境、地表覆盖、气候和人文 5方面选取 16个评价因子。评价因子的数据来源如下:SRTM V3_30m DEM,用于提取高程,坡度,曲率,坡向,曲率(平面、剖面),地形湿度指数(TWI)和水流强度指数(SPI);全国地理信息资源目录服务系统,用于提取 2020年地表覆盖类型、研究区道路和河流信息;世界土壤 数 据 库(HWSD),用 于 提 取 研 究 区 内 的 土 壤 类 型;Wordpop Open Population Repo

23、sitort,用于提取 2020年桂林市的人口密度;Landsat-8 多光谱图像,基于 Google Earth Engine(GEE)计算和提取 2017-2022 年内的年均NDVI;CHIRPS 降雨数据产品,基于 GEE 提取 2017-2022 年内的年均降雨量;ERA5-Land 再分析数据,基于GEE提取 2017-2022年内的平均气温和平均风速。为获取精细的野火易发性预测结果,选取 30 m30 m 分辨率的规则栅格作为野火易发性分析单元,并将所有因子重采样至相同大小的栅格内。整个研究区域可划分为 6 6348 137,共 30 938 552 个栅格。研究区内的各评价因子

24、如图 2所示。距河流距离/m02502505005001 0001 0002 0002 0003 0003 000km0 255075 100(k)距水系距离SPI19.8-3.5km0 255075 100(g)SPI距道路距离/m02502505005001 0001 0002 0002 0003 0003 000km012.5255075 100(j)距道路距离TWI26.71.9km0 255075 100(f)TWI土地类型AChACuALhATcCMdCMuFLcLVhLXfRGcRGdRKWRkm012.5255075 100(i)土壤类型剖面曲率34.5km012.525507

25、5 100(e)剖面曲率-29.5平均气温/20.314.2km0 255075 100(o)平均气温年均降雨量/mm2 6001 583km0 255075 100(n)年均降雨量年均 NDVI0.77-0.37km012.5255075 100(m)NDVI人口密度/人/km216 6192km0 255075 100(l)人口密度地表覆盖类型耕地林地草地湿地水体人造地表km0 255075 100(h)地表覆盖类型年均风速/m/s1.070.15km0 255075 100(p)平均风速坡面平面北东北东东南南西南西西北km012.5255075 100(c)坡向坡度77.60km012.

26、5255075 100(b)坡度高程/m2 1130km012.5255075 100(a)高程km012.5255075 100平面曲率30.4-33.9(d)平面曲率图 2评价因子Fig.2Assessment factors1446消防科学与技术2023年 10 月第 42 卷第 10 期本文对各因子的属性区间进行划分并计算 IV值。对于连续型因子,高程、坡度、SPI和 NDVI随着因子属性的增大,IV 值逐渐减小,表明其与野火发生呈负相关,气温和风速的 IV值与野火发生呈正相关,如图 3图 8所示。0251251392392-5505507217219099091 1291 1291

27、4071 4072 113面积野火数量信息量值50%40%30%20%10%0比例0.50.0-0.5-1.0-1.5信息量值05.65.611.411.417.017.022.322.327.827.833.833.841.941.977.6面积野火数量信息量值35%30%25%20%15%10%5%0比例0.50.0-0.5-1.0-1.5信息量值-3.50.20.21.91.93.23.24.24.25.45.47.17.19.59.520.1面积野火数量信息量值30%25%20%15%10%5%0比例0.40.20.0-0.2-0.4-0.6-0.8信息量值高程/m坡度/()SPI图

28、3高程的属性区划结果及信息量值 图 4坡度的属性区划结果及信息量值 图 5SPI的属性区划结果及信息量值Fig.3Attribute zoning and IV of elevation Fig.4Attribute zoning and IV of slope Fig.5Attribute zoning and IV of SPI0.150.340.340.420.420.510.510.600.600.700.700.810.810.930.931.1面积野火数量信息量值25%20%15%10%5%0比例0.60.40.20.0-0.2-0.4-0.6信息量值14.215.515.516.

29、316.316.916.917.517.518.118.118.818.819.519.520.6面积野火数量信息量值30%25%20%15%10%5%0比例0.50.0-0.5-1.0-1.5信息量值-0.370.100.100.260.260.360.360.430.430.490.490.540.540.590.590.79面积野火数量信息量值30%25%20%15%10%5%0比例1.51.00.50.0-0.5信息量值NDVI气温/风速/m/s图 6NDVI的属性区划结果及信息量值 图 7气温的属性区划结果及信息量值 图 8风速的属性区划结果及信息量值Fig.6Attribute z

30、oning and IV of NDVI Fig.7Attribute zoning and IV of temperature Fig.8Attribute zoning and IV of wind speed平面和剖面曲率绝对值较小时 IV值更大,即地势平坦更易发生野火灾害,如图 9图 10所示。-33.9-3.7-3.7-1.9-1.9-0.9-0.9-0.1-0.10.40.4-1.41.43.73.730.4面积野火数量信息量值50%40%30%20%10%0比例0.40.20.0-0.2-0.4-0.6-0.8-1.0-1.2信息量值平面曲率图 9平面曲率的属性区划结果及信息量值

31、Fig.9Attribute zoning and IV of plan curvature-29.5-4.6-4.6-2.1-2.1-0.9-0.9-0.1-0.10.60.61.61.63.63.64.5面积野火数量信息量值60%50%40%30%20%10%0比例0.20.0-0.2-0.4-0.6-0.8-1.0-1.2信息量值剖面曲率图 10剖面曲率的属性区划结果及信息量值Fig.10Attribute zoning and IV of profile curvature人口密度为 419,974 时,IV值较大,说明在人口分布较少的农村乡镇地区更易发生野火灾害,如图 11所示。31

32、331334204209749742 0252 0253 8393 8396 550面积野火数量信息量值90%80%70%60%50%40%30%20%10%0比例1.61.41.21.00.80.60.40.20.0-0.2-0.4信息量值6 55011 05911 05916 845人口密度/人/km2图 11人口密度的属性区划结果及信息量值Fig.11Attribute zoning and IV of population densityTWI处于 6.2,11.8 的地区,相较于其他区域更易发生野火,如图 12所示。1.94.94.96.26.27.77.79.79.711.811.

33、814.314.317.917.926.7面积野火数量信息量值35%30%25%20%15%10%5%0比例0.40.20.0-0.2-0.4-0.6信息量值TWI图 12TWI的属性区划结果及信息量值Fig.12Attribute zoning and IV of TWI1447Fire Science and Technology,October 2023,Vol.42,No.10降雨情况与野火间的相互关系较不明显,其野火易发区一般位于年降雨量极少和适中的地区,降雨量较少或过大时相对不易发生野火灾害,如图 13所示。1 5831 7141 7141 8171 8171 9131 9132

34、0062 0062 0992 0992 2112 2112 3652 3652 600面积野火数量信息量值20%18%16%14%12%10%8%6%4%2%0比例0.60.40.20.0-0.2-0.4-0.6信息量值降雨量/mm图 13年均降雨量的属性区划结果及信息量值Fig.13Attribute zoning and IV of annual rainfall对于离散型因子,坡向为东、南和东南的地区的 IV值大于 0,发生野火的概率较大,如图 14所示。桂林市林地区域发生的野火灾害最多,而耕地和草地相对于林地更易发生野火灾害,如图 15所示。土壤质地属 Ach(简育低活性强酸土)、AT

35、c(人为堆积土)、LVh(简育高活性淋溶土)的植被覆盖区域发生野火的数量和概率均较大。如图 16所示。野火数量随着距道路距离的增大而减少,其距离道路 0500 m 的区域的 IV 值大于 0,相对易发生野火灾害,如图 17所示。距水系 250100 m 的地区的 IV 值大于 0,相较于距水系过近或过远的区域,其水环境良好,易于植被生长,发生野火的概率较大。如图 18所示。因子的选择在预测野火易发性方面尤为重要,当因子间关联性较强时,会增加模型的运算时间,降低模型的预测精度。因此,本研究采用容差和方差膨胀因子(VIF)对评价因子进行多重共线性检验,以确定评价因子间是否相互独立。利用 SPSS

36、软件得到的因子共线性诊断结果如表 1所示。可见,16个评价因子均容差大于 0.2,VIF值小于 5.0,证明用于评价桂林市野火易发性的评价因子间相互独立,进行野火易发性分析时需要考虑所有因子。面积野火数量信息量值50%40%30%20%10%0比例0.50.0-0.5-1.0-1.5-2.0信息量值AChACuALhATcCMdCMuFLcLVhLXfRGcRGdRKWR面积野火数量信息量值80%70%60%50%40%30%20%10%0比例0.40.20.0-0.2信息量值耕地 林地草地湿地水体人造地表面积野火数量信息量值16%14%12%10%8%6%4%2%0比例0.20.0-0.2-

37、0.4-0.6-0.8-1.0信息量值平面东北东南西南西北北东南西坡向地表覆盖类型土壤类型图 14坡向的属性区划结果及信息量值 图 15地表覆盖类型的属性区划结果及信息量值 图 16土壤类型的属性区划结果及信息量值Fig.14Attribute zoning and IV of aspect Fig.15Attribute zoning and IV of surface cover type Fig.16Attribute zoning and IV of soil type02502505005001 0001 0002 0002 0003 0003 000面积野火数量信息量值35%30%

38、25%20%15%10%5%0比例0.20.0-0.2-0.4-0.6-0.8信息量值02502505005001 0001 0002 0002 0003 0003 000面积野火数量信息量值35%30%25%20%15%10%5%0比例1.00.50.0-0.5信息量值距道路距离/m距水系距离/m图 17距道路距离的属性区划结果及信息量值 图 18距水系距离的属性区划结果及信息量值Fig.17Attribute zoning and IV of distance to road Fig.18Attribute zoning and IV of distance to river 3.3建模负

39、样本在利用机器学习模型进行野火易发性评价时,负样本的选取会极大影响模型的预测精度和泛化能力31。为避免人的主观性和随机性造成的负样本选取误差,并使负样本选取具有一定的科学理论依据,利用基于统计学的 IV模型对负样本进行选取。首先利用式(12)叠加计算研究区内所有因子的总信息量,得到基于信息量的野火易发性预测模型。IV=i=116ln(Nj/Nsj/S)(12)其次,以 0 为分界线提取信息量值小于 0 的区域,得到负样本选取范围;最后,在划定的选取范围内,以 1 000 m 为间隔随机选取与正样本(火点)数量相等的 2 962 个负样本数据。至此,用于野火易发性建模所用的负样本点位获取完成,共

40、获取 5 924 个具有独立属性的建模样本。正负样本在研究区内的散布情况如图 19所示。1448消防科学与技术2023年 10 月第 42 卷第 10 期4野火易发性预测与评估本文将正样本的真实属性赋值为“1”,表示野火现象的发生;负样本赋值为“0”,表示没有野火的发生。整合所有正负样本,并按照 7:3的比例随机划分为训练集和验证集。训练集和验证集中的正负样本数量比例分别为 2 074:2 072和 888:890。其次,以样本点所在位置的因子IV 值作为模型输入,样本真实属性作为输出,分别利用LR、ANN、RF 和 XGBoost 构建 4 种 IV-ML 耦合的野火易发性预测模型。其中,L

41、R 模型在 SPSS 软件中进行训练;ANN、RF 和 XGBoost 模型在 PyCharm 软件中训练,利用所构建的模型预测研究区内 30 938 552 个栅格的野火易发性,并将其导入 ArcGIS软件中转为 TIFF影像。为对不同模型间的预测结果进行对比分析,本文统一按照 0,0.20,(0.20,0.40,(0.40,0.60,(0.60,0.80和(0.80,1.0 作为区划标准,将 4 种模型预测得到的研究区内野火易发性概率值划分为极低、低、中、高和极高 5个易发性等级,如图 20 所示。不同模型在研究区内的野火易发性分布情况相似,其高易发地区集中于桂林市南部、西南部和东北部,与

42、历史火点具有良好的拟合性。低易发性地区位于研究区北部、西北部和东部,野火灾害发生的概率较小。11000E11100E11000E11100E11000E11100E24300N25300N24300N25300N(a)IV-LR模型(b)IV-ANN模型11000E11100E0 25 50 75 100km0 25 50 75 100km极低低中高极高极低低中高极高11000E11100E11000E11100E11000E11100E11000E11100E24300N25300N24300N25300N(c)IV-RF模型(d)IV-XGBoost模型0 25 50 75 100km0

43、25 50 75 100km极低低中高极高极低低中高极高图 20桂林市野火易发性区划结果Fig.20Division results of wildfire susceptibility in Guilin表 2统计了不同模型的野火易发等级划分结果。表 2野火灾害易发性统计信息Table 2Statistical information of wildfire disaster susceptibility模型IV-LRIV-ANNIV-RFIV-XGBoost野火易发性等级极低低中高极高极低低中高极高极低低中高极高极低低中高极高分级栅格数量 Sij7 960 0052 789 4772 26

44、6 4212 650 05615 272 5929 963 7601 955 901793 724732 58517 492 5818 629 6983 440 2861 844 1342 014 75615 009 6788 147 6023 705 5272 149 2742 271 39514 664 753栅格数占比 P(Sij)25.728%9.016%7.326%8.566%49.364%32.205%6.322%2.565%2.368%56.540%27.893%11.120%5.961%6.512%48.514%26.335%11.977%6.947%7.342%47.400%

45、历史火点数量Nij64343658696862917147425348346568847434564689火点数占比 P(Nij)7.207%3.829%4.054%6.532%78.378%9.685%3.266%1.914%1.577%83.559%5.968%5.405%3.829%7.320%77.477%5.293%4.842%5.068%7.207%77.590%频率比(P(Nij)/P(Sij)0.2800.4250.5530.7631.5880.3010.5170.7460.6661.4780.2140.4860.6421.1241.5970.2010.4040.7290.98

46、21.637表 1评价因子多重共线性诊断结果Table 1Multicollinearity diagnosis results of assessment factors评价因子高程坡度坡向平面曲率剖面曲率TWISPI地表覆盖类型容差0.3390.3900.9830.7630.7710.6130.5650.640VIF2.9512.5651.0171.3111.2981.6321.7691.563评价因子土壤类型距道路距离距水系距离人口密度NDVI年总降雨量平均气温平均风速容差0.5920.9690.9860.5540.7440.8250.4770.687VIF1.6901.0311.014

47、1.8061.3431.2122.0981.45511000E 110300E11100E111300E11000E 110300E11100E111300E26300N25300N2500N24300N负样本选取范围研究区边界负样本(训练集)正样本(训练集)负样本(测试集)负样本(测试集)02550 75 100km图 19基于信息量法的负样本选取Fig.19Negative sample selection based on information value method1449Fire Science and Technology,October 2023,Vol.42,No.10经

48、分 析 可 知,IV-LR、IV-ANN、IV-RF 和 IV-XGBoost模型的高及极高易发区面积之和的占比分别为49.422%、56.540%、48.514%和 47.400%,其区域涵盖的野 火 样 本 分 别 为 77.928%、83.559%、77.477%和77.590%。此外,4 种模型极低易发区的频率比从小到大排序为:IV-XGBoostIV-RF IV-LR IV-RFIV-LRIV-ANN。可见,IV-XGBoost模型对野火样本具有最佳的拟合效果,区划结果最好。为评价各模型性能,本文选用多个指标对模型进行精度评价。各模型的 ROC曲线如图 21所示。1-特异性0.0 0

49、.2 0.4 0.6 0.8 1.01.00.80.60.40.20.0敏感度IV-LRIV-ANNIV-RFIV-XGBoost(AUC=0.947)(AUC=0.947)(AUC=0.955)(AUC=0.957)图 21不同模型的 ROC曲线Fig.21ROC curves of different modelsIV-LR、IV-ANN、IV-RF 和 IV-XGBoost 模型的训练集和验证集的 ROC-AUC 值均大于 0.9,表明 3 种野火易 发 性 预 测 模 型 均 有 优 秀 的 预 测 性 能。其 中,IV-XGBoost模型的 AUC 值为 0.957,AUC 值最高。

50、此外,采用多个混淆矩阵的评价指标对不同模型的预测精度进行分析,如表 3所示。在 4种模型中,IV-LR模型对正样本的预测准确性较高,对负样本的预测准确性最低,总体分类精度分别为0.908;IV-ANN 模型对正负样本的预测准确性均较低,总体分类精度分别为 0.908;IV-RF 模型对正样本的预测准确性最低,对负样本的预测准确性最高,总体分类精度为0.916。其次,IV-XGBoost 模型对正样本的预测准确性最高,总体分类精度为 0.921,F1 分数为 0.917,说明该模型对正样本的预测性能最好;Kappa系数值为 0.840,说明该模型的预测值与样本实际属性的一致性最高,可靠性最强。可

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服