收藏 分销(赏)

综合非滑坡样本选取指数与异...器学习的区域滑坡易发性建模_周超.pdf

上传人:自信****多点 文档编号:611462 上传时间:2024-01-15 格式:PDF 页数:16 大小:4.33MB
下载 相关 举报
综合非滑坡样本选取指数与异...器学习的区域滑坡易发性建模_周超.pdf_第1页
第1页 / 共16页
综合非滑坡样本选取指数与异...器学习的区域滑坡易发性建模_周超.pdf_第2页
第2页 / 共16页
综合非滑坡样本选取指数与异...器学习的区域滑坡易发性建模_周超.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、引用格式:周超,甘露露,王悦,等.综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模J.地球信息科学学报,2023,25(8):1570-1585.Zhou C,Gan L L,Wang Y,et al.Landslide susceptibility prediction based on non-landslide samples selection and hetero-geneous ensemble machine learningJ.Journal of Geo-Information Science,2023,25(8):1570-1585.DOI:10.12082/d

2、qxxkx.2023.220934综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模周超1,2,甘露露1,2,王悦2,3,吴宏阳1,2,喻进1,2,曹颖2,3*,殷坤龙2,31.中国地质大学(武汉)地理与信息工程学院,武汉 430074;2.三峡库区地质灾害野外监测与预警示范中心,重庆 404199;3.中国地质大学(武汉)工程学院,武汉 430078Landslide Susceptibility Prediction based on Non-Landslide Samples Selection andHeterogeneous Ensemble Machine Learnin

3、gZHOU Chao1,2,GAN Lulu1,2,WANG Yue2,3,WU Hongyang1,2,YU Jin1,2,CAO Ying2,3*,YIN Kunlong2,31.School of Geography and Information Engineering,China University of Geosciences(Wuhan),Wuhan 430074,China;2.Research Center of Geohazard Monitoring and Warning in the Three Gorges Reservoir,Chongqing 404199,C

4、hina;3.Faculty of Engineering,China University of Geosciences(Wuhan),Wuhan 430078,ChinaAbstract:The single machine learning-based landslide susceptibility prediction model has different focuses offeatures and a weak classification ability,and also the accuracy of traditional random sampling of non-l

5、andslideis low.To solve these problems,this study optimized Non-Landslide Samples(NLS)based on the informationvalue model and utilized Stacking heterogeneous ensemble models to evaluate the landslide susceptibility ofFengjie County in the Three Gorges Reservoir.Firstly,16 evaluation indexes were ext

6、racted based on multiplesources of topographic,geologic,and remote sensing data,including elevation,slope,aspect,profile curvature,plan curvature,lithology,distance to fault,topographic wetness index,stream power index,distance to river,normalized difference vegetation index,distance to road,and lan

7、d use,and the correlation analysis was carriedout to exclude high correlation indicators and construct the landslide susceptibility evaluation criteria system.Then,the NLS index was proposed based on the information value model to divide the non-landslide samplesinto two categories:information value

8、s less than or equal to 0,and greater than 0.Finally,the logistic regressionmodel was used to compare the non-landslide samples under different NLS conditions,and the NLS index wasused to obtain optimized non-landslide samples,which forms the training set with the same number of landslidesamples.Fin

9、ally,Random Forest(RF),Light Gradient Boosting Machine(LGBM),Gradient Boosting DecisionTree(GBDT),and homogeneous(Boosting-RF,Boosting-LGBM,Boosting-GBDT)and heterogeneousVol.25,No.8Aug.,2023第25卷 第8期2023年8月收稿日期:2022-11-30;修回日期:2023-02-28.基金项目:国家自然青年科学基金项目(41907253、41702330);湖北省重点研发计划项目(2021BCA219)。F

10、oundationitems:National Natural Science Foundation of China,No.41907253,41702330;Key Research and Development Pro-gram of Hubei Province,No.2021BCA219.作者简介:周超(1989),男,湖南常宁人,博士,副教授,主要从事空间信息技术与地质灾害风险预警方面的研究。E-mail:*通讯作者:曹颖(1988),女,江苏徐州人,博士,副教授,主要从事地质灾害风险评价与管理方面的研究。E-mail:8期周超 等:综合非滑坡样本选取指数与异质集成机器学习的区域

11、滑坡易发性建模(Stacking)ensemble methods based on these three models were compared for susceptibility evaluation.Theresults show that non-landslide sampling using NLS can produce non-landslide samples of high quality andgeneralization ability,which in turn improves the learning ability of the model and the

12、 accuracy of susceptibilityevaluation.The Stacking heterogeneous ensemble model has the best accuracy of 0.941,which is better than theBoosting homogeneous ensemble models(an accuracy of 0.902,0.897,0.870,respectively)and other singlemodels(an accuracy of 0.882,0.864,0.855,respectively).These result

13、s indicate that the Stacking heterogeneousensemble algorithm is capable of extracting landslide and non-landslide features from various spatial angles,realizing the complementary advantages and disadvantages of the models,significantly improving theperformance of machine learning,and obtaining bette

14、r predictions,and thus is a reliable landslide susceptibilityevaluation model.This study contributes to a better understanding of the landslide activity,improves thereliability of regional landslide hazard risk assessment,and provides support for carrying out reasonable land useplanning,disaster pre

15、vention,and mitigation strategies.Key words:landslide hazard;heterogeneous ensemble;Non-Landslide Sampling;susceptibility modeling;machine learning;Stacking;Boosting;Three Gorges Reservoir*Corresponding author:CAO Ying,E-mail:摘要:为解决基于机器学习的滑坡易发性建模存在的单模型分类能力弱和传统随机抽取非滑坡样本准确性不高的问题,本研究以三峡库区奉节县为例,应用优化的非滑坡

16、样本和Stacking异质集成机器学习模型进行滑坡易发性建模研究。首先,基于地形、地质和遥感影像等数据提取16个评价指标并进行相关性分析,剔除高相关指标,构建易发性评价指标体系;其次,基于信息量模型提出非滑坡样本选取(Non-Landslide Sampling,NLS)指数;最后,应用NLS指数选取更高质量的非滑坡样本,并与滑坡样本组成训练集;采用随机森林(Random Forest,RF),轻量级梯度提升树(Light Gradient Boosting Machine,LGBM),梯度提升决策树(Gradient Boosting Decision Tree,GBDT),以及以三者为基模

17、型的同质(Boosting)和异质(Stacking)集成方法进行易发性建模。结果表明:应用NLS指数能选取得到质量更高的非滑坡样本,提升了易发性建模精度;Stacking异质集成机器学习模型的精度最高,为0.941,优于3个同质集成模型和3个单模型,表明异质集成算法能显著提升机器学习建模的性能,是一种可靠的滑坡易发性评价方法。本研究的结果将有助于提升区域滑坡灾害风险评估的精确度。关键词:滑坡灾害;异质集成;非滑坡样本;易发性;机器学习;Stacking;Boosting;三峡库区1 引言滑坡是一种常见的地质灾害,每年都会造成大量人员伤亡,对人类生命和财产安全构成了严重威胁1-2。据统计,20

18、102019年,我国共发生山体滑坡约90 000起,造成约8 000人伤亡,经济损失高达数百亿美元3。科学、准确的滑坡易发性评价不仅有助于了解滑坡活动规律,还能预测可能发生滑坡的空间位置4,从而进行合理的土地利用规划与防灾减灾。滑坡易发性的评价方法可分为定性分析和定量分析2类5-6。定性分析基于专家的经验知识库,主观性较强,如层次分析法7和加权线性组合法8等。定量分析分为物理模型和基于数据驱动的统计模型。其中物理模型根据滑坡发生过程中的物理规律构建模型,并进行模拟,如TRIGRS模型9和Newmark位移模型10等,对岩土或水文数据的要求较高,难以推广到大范围区域11。统计模型多采用机器学习1

19、2-13,如逻辑回归14、随机森林15和支持向量机16等。但由于机器学习对不同特征的捕获侧重点不同,易出现局部最优解,模型存在局限性且泛化能力较差。而集成学习能结合单个模型的优点,充分学习滑坡与非滑坡的样本特征,取得更好的预测结果17。集成学习的原理是将多个基分类器通过某种策略组合在一起,构建新分类器来完成学习任务18,包含同质集成和异质集成2种方法。同质集成选择相同的学习器作为基分类器,模型之间的关联性较大,如Bagging和Boosting等,易发生过拟合问题19。异质集成算法则通过选取差异性更大的相异模型作为基分类器,从不同的数据空间角度提取特征,实现模型的优缺点互补,从而提高模型的精度

20、20,如Staking等。1571地 球 信 息 科 学 学 报2023年基于机器学习技术的易发性建模精度与非滑坡样本的选取质量密切相关21。目前,国内外对于易发性建模中非滑坡样本的选取方式主要有5种。随机法:从已知滑坡区域外随机选取14,所确定的非滑坡样本可能与滑坡区域的工程地质环境相似,属于潜在滑坡。缓冲法:从距历史滑坡一定缓冲范围外随机选取22,缓冲范围的确定具有较强的主观性。易发性法:从初始的极低易发区中随机选取23。坡度法:从坡度小于某一阈值的非滑坡区域中随机选取24。易发性法与坡度法选取的样本具有局限性,不足以反映非滑坡样本的总体特征。其他方法:基于自组织图(SOM)法25或基于相

21、似性抽样(SBS)法26,均过于依赖完整的滑坡清单来反映真实的特征空间,抽取的样本具有不确定性27。因此,如何准确选取高质量的非滑坡样本,仍是应用机器学习进行易发性建模需要解决的重要问题。综上所述,本文以三峡库区奉节县为例,应用信息量模型分析滑坡发育和各影响因素的关系;选取高程、坡度和地层岩性等13个指标建立滑坡易发性评价指标体系;采用提出的非滑坡样本选取指数对非滑坡样本进行优化;以随机森林(Random For-est,RF),轻量级梯度提升树(Light Gradient Boost-ing Machine,LGBM)和梯度提升决策树(GradientBoosting Decision T

22、ree,GBDT)3种机器学习方法为基模型,采用Stacking算法构建异质集成机器学习模型开展滑坡易发性建模,并与同质集成模型和基模型进行综合对比分析,以期建立一种精准可靠的滑坡易发性评价方法。2 研究方法2.1 易发性建模流程论文通过提出非滑坡样本选取指数优化机器学习建模中的非滑坡样本,并利用异质集成机器学习模型进行区域滑坡易发性建模(图1),主要步骤包括:通过野外调查,滑坡历史编录和遥感影像得到更新的滑坡编录数据;应用数字高程模型,地质图等数据提取滑坡易发性评价指标数据;采用信息量模型分析评价指标与滑坡空间发育的定量关系,并通过相关性分析剔除高相关指标,构建滑坡易发性评价指标体系;随机选

23、取70%/30%的滑坡作为训练/验证样本;应用信息量模型提出非滑坡样本选取指数,选取优化非滑坡样本;采用异质集成和机器学习耦合模型进行易发性预测建模;分析滑坡发育的影响因素,非滑坡样本的优化结果以及对模型的预测结果进行精度评估。2.2 非滑坡样本选取指数计算方法信息量模型是一种简单可靠的易发性评价方法28,公式如下:I=i=1nlog2Ni0/NiS0/S(1)式中:I为研究区的信息量预测值;i为第i个评价指标,n为评价指标的个数;Ni为评价指标i某一分级所占的面积;Ni0为评价指标i某一分级中发生滑坡灾害的面积总和;S为研究区的总面积;S0为含有滑坡灾害的单元面积之和。当信息量值大于0时,表

24、明该单元的地质环境对滑坡灾害的形成有促图1 滑坡易发性预测建模流程Fig.1 Flowchart of the landslide susceptibility assessment15728期周超 等:综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模进作用;当信息量值小于或等于0时,则表明该单元的地质环境不利于滑坡灾害的形成;信息量的绝对值越大,则表明作用越强。将未发生滑坡的区域按照信息量大于0和信息量小于或等于0分成2类。由于非滑坡样本的总数与滑坡样本保持一致,因此可将信息量大于0和信息量小于或等于0样本数的比值定义为非滑坡样本选取(Non-Landslide Samples,

25、NLS)指数,用来描述非滑坡样本选取的信息量分布情况,公式如下:NLS=X1X2(2)式中:NLS为非滑坡样本选取指数;X1为信息量小于或等于0的非滑坡样本数;X2为信息量大于0的非滑坡样本数。非滑坡样本选取的主要步骤如下。利用信息量模型,计算每个评价单元的信息量值I:统计评价指标每种类别中的滑坡灾害面积Ni0,类别所占的面积Ni,研究区的滑坡灾害总面积S0和研究区的总面积S,根据式(1)计算得到指标不同类别的信息量值,叠加所有的评价指标得到总信息量结果。将未发生滑坡的评价单元分为I0(数据集A)和 I0(数据集B)2类。基于逻辑回归模型,采用试算法确定最优NLS指数。计算得到在不同类型中的样

26、本数量,并采用随机函数分别进行选取,将各自得到的非滑坡样本组合在一起即为最终的非滑坡样本。2.3 模型原理2.3.1 机器学习模型梯度提升决策树,轻量级梯度提升树和随机森林都属于树型分类器,在优化方式和模型特征方面存在一定差异。本文以这3个模型分别作为单模型以及集成模型的基分类器进行易发性建模研究。(1)梯度提升决策树梯度提升决策树(Gradient Boosting DecisionTree,GBDT)以决策树作为底层分类器,采用加法模型,通过不断减小训练过程中产生的样本残差来完成学习任务29(图2)。GBDT算法先利用数据集来学习一棵决策树,在叶子处得到预测值以及残差,此后的决策树都基于前

27、面已训练好的决策树进行训练,每一次迭代都在残差减少的梯度方向上建立新的组合模型,即在迭代过程中使用提升树算法中损失函数的负梯度作为残差近似值,通过逐渐减小残差来最小化损失函数。GBDT算法的优点是所有树都相互关联,每创建一棵新树可减少之前的样本残差。(2)轻量级梯度提升树轻量级梯度提升树(Light Gradient BoostingMachine,LGBM)是一种基于树的梯度增强算法。它利用深度限制的按叶子生长算法代替了传统的按层生长策略,可以在提升精度的同时避免过拟合30。按叶子生长算法每次选择具有最大增益的叶子进行生长(图3),按与层生长策略相比,在分裂次数相同的情况下,按叶子生长算法可

28、以避免按层生长带来的更多误差,保证准确率的同时减少了增益较低的叶子节点的分裂计算,确保模型的高效性。(3)随机森林随机森林(Random Forest,RF)也是一种基于决策树的算法31。RF算法通过对大小为N的原始样本进行有放回的随机抽样,得到M个大小为N的新训练集,然后对新训练集进行决策树建模,组合多图2 GBDT算法原理29Fig.2 The architecture of GBDT图3 LGBM算法原理30Fig.3 The architecture of LGBM1573地 球 信 息 科 学 学 报2023年棵决策树的预测信息,通过投票(少数服从多数)方式得出最终的分类和预测结果。

29、随机森林对噪声和异常值的容忍性较高,对高维数据的分类问题有良好的可扩展性和并行性。2.3.2 集成学习模型集成学习通过一定的学习策略融合多个模型,可分为同质集成与异质集成2类。同质集成以相同模型作为基分类器进行集成,异质集成则选择相异模型进行集成。本文分别采用Boosting同质集成和Stacking异质集成算法进行集成建模对比研究。(1)Boosting算法Boosting算法的基本思想是给定一个基础学习器和一个训练样本集,给每个训练样本赋予相等的权值,然后利用基础学习器和训练样本进行多次训练;每次训练后会得到样本的预测函数,对训练失败的样本赋予较大权值,让基础学习器在后续的训练中重点学习,

30、将多次训练后得到的预测函数组成一个序列,其中预测效果好的函数权值较大,反之较小。最终的预测函数采用带权值的投票法对样本进行判别。本文中利用Boosting算法分别以GB-DT,LGBM和RF模型作为基础学习器生成3种同质集成模型,即Boosting-GBDT,Boosting-LGBM和Boosting-RF模型。(2)Stacking算法Stacking 集成是一种经典的异质集成学习算法,通过使用元分类器将不同的基分类器组合在一起,形成新的模型以获得更准确的预测结果32。如图4所示,首先将数据集分为训练集和验证集,采用K折交叉验证的方式,用基分类器对训练集和验证集进行预测,输出的预测信息和数

31、据集的真实分类结果整合为新的数据集,利用元分类器进行预测,得到最终的预测结果。本文以逻辑回归模型(Logistic Regression,LR)为元分类器,将基分类器GBDT,LGBM和RF模型组合在一起,形成异质集成机器学习模型,以Stacking集成模型代称。2.4 受试者工作特征曲线受 试 者 工 作 特 征 曲 线(Receiver OperationCharacteristic Curves,ROC)能准确反映特异性与敏感性的相互关系,已被广泛应用于滑坡易发性模型的精度评价中33。ROC曲线的纵轴为真阳性率(敏感性),代表研究区中各易发性等级内滑坡灾害的面积累加百分比;横轴为假阳性率

32、(特异性),代表研 究区中各易发性等级的面积累加百分比。为了更加鲜明地表示评价效果,通常用ROC曲线下面积(Area Under Curve,AUC)作为一个指标来衡量模型预测的准确程度。AUC的取值范围在01之间,ROC曲线越接近左上角,即AUC值越大,说明模型精度越高。图4 Stacking集成算法原理Fig.4 The architecture of Stacking15748期周超 等:综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模3 研究区概况与数据来源3.1 研究区概况奉节县位于重庆市东北部,在三峡库区腹心,地处 302919N312233N、109117E10945

33、58E。如图5所示,研究区平均海拔949 m,地势南北两端高,中部低,属于典型的高山低谷地貌。该县位于大巴山弧形褶断带、川东弧形凹褶带及川鄂湘黔隆褶带的交接部位,构造应力场复杂;区内出露均为沉积岩,从志留系至第四系均有分布,受构造控制,地层走向多呈北东向及近东西向,与山脉延伸大体一致。奉节县属于中亚热带温湿气候,四季分明,年降雨量分配不均,多集中在 59 月,占年降雨量的 67.52%,最大日降雨量为 80120 mm。由于区域地质环境复杂,人类工程活动频繁以及三峡库水位动态变化,奉节县滑坡等地质灾害类型多,规模大,危害深34。揭示滑坡的空间分布规律,分析并预测其空间位置,可以一定程度上减少滑

34、坡带来的经济财产损失与人员伤亡。3.2 数据准备与分析3.2.1 滑坡编录滑坡编录数据是进行滑坡易发性评价的基础资料,编录数据的完整性与准确性对滑坡易发性评价具有重要意义。以历史滑坡编录数据为基础,结合卫星影像和野外调查,最终确定奉节县共发育滑坡 1 525 处,其中单体滑坡的面积范围为115106 743 m2,中小型滑坡约占60%。从滑坡类型来看,土质滑坡居多,约占滑坡总数的89%,滑坡体厚度多在615 m之间,岩质滑坡仅占11%。3.2.2 评价指标根据奉节县内的滑坡特征及相关研究成果35-36,利用数字高程模型等数据提取坡度、地层岩性等共16个评价指标(图6)。其中坡度、坡向等评价指标

35、从数字高程模型(DEM)中提取;地层岩性及断层从1:5万地质图中提取;归一化植被指数(ND-VI)由Landsat-8遥感影像提取;土地利用类型从清华大学数据中心获取;道路从全国路网数据中提取(表1);河流从DEM中提取;河流距离、断层距离与道路距离分别对河流、断层和道路进行缓冲图5 研究区地理位置及滑坡分布Fig.5 Location and landslide distribution of the study area1575地 球 信 息 科 学 学 报2023年图6 滑坡易发性评价指标空间分布Fig.6 Spatial distribution of landslide suscep

36、tibility evaluation indexes15768期周超 等:综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模表1 数据类型与来源Tab.1 Data types and sources数据类型滑坡编录DEM地质图Landsat 8影像土地利用全国路网分辨率-10 m1:50 00030 m10 m1:100 000年份201420162018201420142015来源重庆市规划与自然资源局重庆市规划与自然资源局重庆市规划与自然资源局地理空间数据云(https:/ Steet Map(http:/www.openstreetmap.org/)表2 地层岩性类型分布T

37、ab.2 Lithological classification in the study area类型A 松散类岩组B 坚硬厚层砂岩组C 软硬相间砂泥岩互层D 软弱薄层粘土岩组E 碳酸盐岩类F 较软弱中薄层砂页岩组岩性性质粉质粘土,碎石土厚层长石砂岩、石英砂岩、粉砂岩紫红色泥岩、粉砂质泥岩、长石砂岩、粉砂岩与黄灰色块状长石岩屑砂岩薄层泥岩、页岩、粉砂岩灰岩、白云岩和少量泥岩绿色、灰绿色中薄层粉砂岩和砂页岩地层符号Q4el+dlJ3p,T3xj,J2xJ3S,J1z1,J1zJ2S,T2b,P3dT1,P1,P3w,C2h,D3SS1+2lr分析得到。根据岩土的形成条件、岩性组合特征及工程地质

38、的性质,岩性较好的坡体抗风化能较强,风化程度较弱,发育滑坡的可能性也就较小。研究区的地层岩性按岩性特征可分为6类:松散类岩组、坚硬厚层砂岩组、软硬相间砂泥岩互层岩组、软弱薄层粘土岩组、碳酸盐岩类和较软弱中薄层砂页岩组(表2)。滑坡的评价指标数据可分为离散型和连续型37,其中地层岩性和土地利用等属于离散型数据,坡度和NDVI等属于连续型数据。离散型数据可根据其固有的自然属性进行分级,如土地利用有耕地与建设用地等类别。连续型数据则先以极小间隔对其进行初步离散,再依据信息量值定量分析滑坡发育与评价指标之间的关系,以信息量值的突变点为临界值再次离散化,将对滑坡发育影响作用相同的分级状态合并为同一级。各

39、评价指标最终的信息量值计算结果如表3所示。4 滑坡易发性评价4.1 评价指标体系构建进行滑坡易发性评价时,为保证模型评价的准确性,参与建模的评价指标之间需具有相对独立性。开展评价指标间的相关性分析,剔除相关性较高的指标。采用Pearson相关系数分析评价指标之间的相关性,当 2 个因子间的相关系数大于0.5时,认为其具有较高的相关性38。由图7可知,曲率、地面粗糙度和地形起伏度的相关系数均大于0.5,相关性较高;因此,剔除曲率、地面粗糙度和地形起伏度3个高相关指标,将高程、NDVI、湿度指数、径流强度指数、剖面曲率、平面曲率、坡向、坡度、距河流距离、距道路距离、距断层距离、土地利用和地层岩性共

40、13个评价指标作为研究区的易发性评价指标。4.2 训练样本选取依据中国地质调查局 地质灾害调查技术要求(1:50 000)39,采用30 m空间分辨率的栅格作为基础评价单元。据表3叠加13个评价指标不同分级的信息量值,得到研究区的信息量总结果(图8)。研究区共有滑坡单元 93 687 个,随机选取 70%(65 581个)作为训练样本,剩余的则为检验样本。通过试算法将NLS指数设置为4,从数据集A中抽取X1=13 116个,数据集B中抽取X2=52 465个,即在信息量大于0的样本集中随机选取52 465个,在信息量小于或等于 0 的样本集中则随机选取1577地 球 信 息 科 学 学 报20

41、23年表3 滑坡易发性评价指标信息量值Tab.3 The information value of landslide susceptibility evaluation indexes评价指标高程/m坡度/径流强度指数湿度指数平面曲率曲率地面粗糙度坡向分级范围1 350331009121.6平面北东北东东南南西南西西北信息量1.4650.641-0.320-2.108-5.406-0.9470.5990.449-0.199-0.9610.008-0.352-0.950-0.978-1.180-0.4540.0330.4470.483-0.419-0.8720.0370.135-1.270-1

42、.0720.0400.148-1.2890.169-0.875-1.302-1.893-1.9940.294-0.025-0.212-0.0740.3160.153-0.307-0.181评价指标河流距离/m道路距离/m断层距离/mNDVI剖面曲率地形起伏度/m土地利用地层岩性分级范围2 3002 0002 0000.56274耕地林地建设用地水体裸地A 松散类岩组B 坚硬厚层砂岩组C 软硬相间砂泥岩互层D 软弱薄层粘土岩组E 碳酸盐岩坚硬岩组F 较软弱中薄层砂页岩组信息量0.4630.415-0.283-0.978-1.1960.7040.3560.218-0.163-0.484-0.107

43、-0.0800.083-0.2400.049-3.2750.4040.4740.164-0.877-1.4880.0260.049-1.402-0.3700.6000.011-0.762-1.5220.926-0.2930.8220.0000.2971.6620.5111.1200.546-3.6500.66215788期周超 等:综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模13 116个,共同组成65 581个非滑坡样本。将滑坡样本与非滑坡样本组合在一起形成模型的训练样本集。4.3 易发性预测建模依据信息量值对评价指标进行归一化处理(表3),以减少指标之间的量纲影响并保证模型

44、精度;滑坡与非滑坡标签则分别用1和0表示。利用Stacking异质集成机器学习模型进行易发性预测建模,为验证模型性能,同时采用3个单模型(RF,GB-DT 和 LGBM)和 3 个同质集成模型(Boosting-RF,Boosting-GBDT和Boosting-LGBM)模型分别进行易发性建模,模型参数通过试算法获取(表4)。利用训练好的模型对研究区的所有栅格单元开展滑坡易发性预测,得到易发性指数值。随后按易发性指数值从大到小依次划分为极高易发性(5%)、高易发性(10%)、中易发性(15%)、低易发性(25%)和极低易发性(45%)共5个等级,结果如图9所示。图7 滑坡易发性评价指标相关性

45、分析Fig.7 Correlation analysis of landslide influencing factors表4 模型参数设置Tab.4 Parameters of the used models模型名称RFGBDTLGBMBoosting-GBDTBoosting-LGBMBoosting-RFStacking模型参数决策树个数=120,最大树深度=5损失函数=l s,学习率=0.1,决策树个数=100Bagging比例=0.8,Bagging频率=6基分类器数量=45,学习率=1基分类器数量=5,学习率=1基分类器数量=10,学习率=1类别概率值=True图8 基于信息量模型

46、的初始滑坡易发性Fig.8 Landslide susceptibility map of the information model1579地 球 信 息 科 学 学 报2023年5 结果与分析5.1 滑坡发育影响因素分析奉节县的滑坡主要发育在松散类岩组发育区,高程小于450 m,土地利用类型为耕地和道路距离小于200 m的区域,其信息量分别为最高的1.662、1.465、0.926和0.704。研究区的松散类岩组主要分布在第四系全新统残积层,由于结构松散,力学强度低,是滑坡发育主要物质基础;剧烈的人类工程活动主要发生在低海拔区域,耕种和切坡等活动都将破坏自然斜坡的稳定性。此外,三峡库区库水

47、位在145175 m之间周期性调度,库水位升降形成的岩土体劣化,动水压力和浮托力都将诱发滑坡的密集发育40。然而,当高程大于1 350 m,地层岩性为碳酸盐岩坚硬岩组时,对应信息量分别为-5.406和-3.650,几乎不发育滑坡。研究区的高海拔地区工程活动少且为硬岩分布区,不具备滑坡发育所需的外界诱发因素和物质基础。5.2 非滑坡样本选取采用 23 组不同的 NLS 指数进行了易发性建模,为确保试验结果的可靠性,每组试验重复5次(表5)。由试验可知,随着NLS指数的取值减小,非滑坡样本的多样化特征逐渐增多,预测精度不断提高;当NLS取值为4或3时,更能表征非滑坡区域的工程地质环境特征,其建模精

48、度为最高的0.801。随着NLS指数的逐渐增大,信息量值较大的样本也被选取作为非滑坡样本,降低了样本的质量,建模精度逐渐降低。NLS指数能准确的刻画非滑坡样本的分布情况,有效的选取具有多样性和代表性的非滑坡样本,提升样本的质量,保证易发性建模的精度。常用的非滑坡样本选取方法是采用随机函数从当前未发生滑坡的所有区域中随机选取。由于随机选取的多变性,建模的精度随样本选取质量发生波动,不确定性较大。而基于信息量模型提出的NLS指数按照信息量值将非滑坡样本分为2大类,并以比值的形式具体化,可以保障非滑坡样本选取的质量图9 滑坡易发性分级Fig.9 Landslide susceptibility ma

49、ps15808期周超 等:综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模和稳定性。5.3 模型精度评价5.3.1 频率比统计分析为了定量分析易发性分区图,使用频率比来衡量预测结果的可靠性与准确性。频率比的定义为滑坡易发性分区内滑坡栅格数占总滑坡栅格数的比例与该分区总栅格数占总研究区栅格数比例的比值,可表征滑坡在各易发区中的强度。频率比在极低易发区中值越小,在极高易发区中值越大,表明该模型预测效果越好。据统计,Stacking集成模型的预测结果在极高、高、中、低和极低易发区的滑坡面积比分别为0.63、0.25、0.08、0.03和0.01,对应的频率比分别为12.58、2.54、0

50、.53、0.13和0.01;极高和高易发区的滑坡面积比和频率比最高,而极低和低易发区的滑坡面积比和频率比最低,说明该模型的易发性分区结果较为合理。Stacking集成模型中落入极高易发区的滑坡面积比高达0.63,比同质集成模型高0.190.27,比单模型高0.250.30;落入极低易发区中的滑坡面积比仅为0.01(图10)。总体而言,Stacking集成模型在极高易发区的分类正确率更高,在极低易发区的误分类率更低,能更好地预测滑坡的空间分布情况。5.3.2 ROC曲线分析通过ROC曲线结果(图11)可以发现,异质集成(Stacking)模型的易发性建模精度最好,其AUC值为最高的0.941。3

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服