基于梯度提升的优化集成机器学习算法对滑坡易发性评价：以雅鲁藏布江与尼洋河两岸为例.pdf

资源描述

1、引文格式：林琴，郭永刚，吴升杰，等.基于梯度提升的优化集成机器学习算法对滑坡易发性评价：以雅鲁藏布江与尼洋河两岸为例J.西北地质，2024，57（1）：1222.DOI：10.12401/j.nwg.2023031Citation：LIN Qin，GUO Yonggang，WU Shengjie，et al.Evaluation of Landslide Susceptibility by Optimization IntegratedMachine Learning Algorithm Based on Gradient Boosting:Take Both Banks of Yarlung

2、 Zangbo River and Niyang River asExamplesJ.Northwestern Geology，2024，57（1）：1222.DOI：10.12401/j.nwg.2023031基于梯度提升的优化集成机器学习算法对滑坡易发性评价：以雅鲁藏布江与尼洋河两岸为例林琴，郭永刚*，吴升杰，臧烨祺，王国闻（西藏农牧学院水利土木工程学院，西藏林芝860000）摘要：雅鲁藏布江与尼洋河两岸地质构造活跃，山体滑坡时常发生，滑坡易发性评价能有效的减少因灾害发生所造成的对人类生命和财产的伤害。笔者基于基尼系数的加权随机森林、XG-Boost 和 LightGBM 算法在滑坡易发

3、性中的性能。选取 188 个滑坡样本和 7 个影响因素，应用五折交叉验证法训练模型，训练过程中同时考虑特征选择算法、运用贝叶斯方法优化超参数后，采用precision、recall、F1、Accuracy 指标对各个级别的预测结果进行分析。结果表明：在高程为321 544 m 与 2 7223 752 m、坡度为 3040、距断裂带、河流与道路 200 m 以内的区域最容易发生滑坡；滑坡极高与高易发性分布为 12.14%和 12.41%，低和极低易发性占比分别为 26.47%与29.55%，区内一半以上的地区不容易发生滑坡灾害；LightGBM 模型在

4、所有模型中表现最好，AUC值为 0.843 2，准确度为 0.853 1，F1 分数为 0.834 5；墨脱县的达木乡、帮辛乡，林芝县的丹娘、里龙、扎西饶登乡，朗县的陇村，工布江达的江达乡位于极高易发区，发生滑坡概率极大，在这些地区应采取相应的地质灾害防治措施。关键词：梯度提升；XGBoost；LightGBM；机器学习；滑坡易发性中图分类号：P642.22文献标志码：A文章编号：1009-6248（2024）01-0012-11Evaluation of Landslide Susceptibility by Optimization Integrated Machine LearningA

5、lgorithm Based on Gradient Boosting:Take Both Banks of YarlungZangbo River and Niyang River as ExamplesLIN Qin，GUO Yonggang*，WU Shengjie，ZANG Yeqi，WANG Guowen（College of Water Conservancy and Civil Engineering,Tibet Agriculture and Animal Husbandry University,Linzhi 860000,Xizang,China）Abstract：The

6、geological structures on both banks of the Yarlung Zangbo river and the Niyang river are active,收稿日期：2022-10-17；修回日期：2023-10-21；责任编辑：贾晓丹基金项目：国家自然科学基金重点支持项目“高原重大工程地质灾害监测与分析”（U21A20158），西藏农牧学院研究生创新计划“基于层次分析法的林芝地区滑坡灾害稳定性模糊综合评价”（YJS2022-25），西藏自治区科技重点研发计划项目“基于大数据下西藏重大水电工程强震监测关键技术”（XZ202201ZY0034G）联合资助。作者

7、简介：林琴（1997），女，硕士研究生，从事西藏重大地质灾害监测。Email：。*通讯作者：郭永刚（1966）男，教授，从事水利水电工程强震安全监测和高原地质灾害监测与分析。Email：。第 57 卷第 1 期西北地质Vol.57No.12024 年（总 233 期）NORTHWESTERN GEOLOGY2024（Sum233）and landslides occur frequently.The landslide susceptibility assessment can effectively reduce the damage to hu-man life and prope

8、rty caused by disasters.This paper studies the performances of Weighted Random Forests,XGBoost and LightGBM algorithms based on Gini coefficient in landslide susceptibility.Select 188 landslidesamples and 7 influencing factors,and use the 50fold crossvalidation method to train the model.During thetr

9、aining process,the feature selection algorithm is considered at the same time,and the Bayesian method is usedto optimize the hyperparameters.Analysis of forecast results at the level.The results show that landslide is mostlikely to occur within the elevation of 321 544 m and 2 7223 752 m,the gradien

10、t of 3040,and the dis-tance of 200 m from the fault zone,river and road.The extremely high and high landslide prone areas accountfor 12.14%and 12.41%respectively,and the low and extremely low landslide prone areas account for 26.47%and 29.55%respectively.More than half of the areas in Nyingchi prefe

11、cture are not prone to landslide disasters.Among all models,LightGBM model performs best,with AUC value of 0.843 2,accuracy of 0.853 1,and F1score of 0.834 5.Damu township and Bangxin township in Motuo county,Danniang,Lilong,Zhaxi Raodengtownship in Linzhi county,Long village in Lang county,and Jian

12、gda township in Gongbujiangda county are po-sitioned in extraordinarily highrisk areas,with a excessive likelihood of landslides.Corresponding preventionand control measures should be taken in these areas.Keywords：gradient boosting；XGBoost；LightGBM；machine learning；landslide susceptibility雅鲁藏布江与尼洋河位

13、于青藏高原东南部，盆地内山脉纵横起伏，形成大量冲沟、峡谷和河流。内部动力作用非常活跃，地壳中初始高压应力释放，盆地岩石结构松弛。崩塌、滑坡和泥石流等自然灾害频繁发生（苏立彬，2020；武辰爽，2021）。滑坡是自然和人类活动引起的对土壤的破坏（Taalab et al.，2018）。它是一种以大量岩石、碎屑或泥土向坡面移动为特征的自然灾害。无论是由自然还是人类活动造成的滑坡，每年都会造成重大的经济损失（Tien et al.，2018）。因此，利用高效稳定的滑坡灾害评估技术，针对滑坡易发区，快速准确地识别高易发区的灾害，预测滑坡灾害的发生，可以有效地提高灾害预测的效率，减少滑坡灾害造成的损失，

14、为防灾减灾提供参考（张琪等，2023；周硼焜等，2023）。滑坡易发性划区是通过滑坡发生后的影响因子属性来预测滑坡发生的概率，是滑坡预测的有效方法（沈玲玲等，2016；孟晓捷等，2022）。滑坡易发性评价通常采用传统的定性方法和定量方法（贾俊等，2023）。定性方法依赖于专家在历史资料和滑坡清单的经验和意见，如加权线性组合与层次分析法（Rehman et al.，2022），但计算结果受人为因素影响。定量方法包括数据模型和确定性模型。确定性模型可以提供精确的分析结果，但需要大量的数据，尤其是在大尺度地区实践中难以获得（杨创奇等，2022）。近年来，包括机器学习和统计学的数据驱动模型在地质灾害研

15、究方面取得了显著进展，如证据权模型（WoE）（Batar et al.，2021）、频率比（FR）（Khanet al.，2019）和确定性系数法（CF）（乔德京等，2020）等。这些算法计算简便，甚至在一些大型区域也能适用，但是过分依赖样本质量且无法有效处理复杂的滑坡及其影响因子之间的关系。机器学习中的随机森林（Arabameri et al.，2019）、决策树（Hong et al.，2018）、BP神经网络（康孟羽等，2022；张林梵等，2022）、梯度提升等也被广泛地运用在滑坡识别中（张文龙等，2023），较好地解决了非线性关系表达的问题，提高了滑坡识别的精度。然而，这些模型通常依赖

16、于单一的学习器，滑坡易发性所涉及的影响因子众多，通常很难获得理想的预测结果，容易发生过拟合现象。因此，笔者利用集成学习将多个单学习器组合起来进行区域滑坡易发性评估，以比较其与传统方法更具有优越性和高效性。近年来，大量基于机器学习的方法被成功应用于地质灾害研究，而较新的梯度提升（Boosting）模型，包括 XGBoost 和 LightGBM 模型，在滑坡易发性方面很少被研究与比较，且不平衡类分布可能会影响特征选择的假设。在此基础上，笔者以雅鲁藏布江与尼洋河两岸为例，首次引入了基于基尼系数的加权随机森林作为特征选择过程过程，并与基于 Boosting 算法的 XGBoost和 LightGBM

17、模型对研究区滑坡易发性进行分析和比较。1研究区与数据 1.1研究区笔者选取雅鲁藏布江下游与尼洋河两岸为研究对象（图 1）。研究区位于西藏自治区林芝市西部，第 1 期林琴等：基于梯度提升的优化集成机器学习算法对滑坡易发性评价：以雅鲁藏布江与尼洋河两岸为例13 E 92099551，N 27553036，总面积约为68 000 km2，包括工布江达县、波密县、米林县、朗县、墨脱县。研究区属于典型的高原丘陵、高山峡谷地貌，是世界陆地垂直地貌落差最大的地带，区内地形起伏大，呈现北高南低走势，山脉多为东西走向，绝大多数为高海拔大起伏山地，其次为高海拔极大起伏山地与中高海拔极大起伏山地，最高海拔 7 7

18、82 m，地处米林县与墨脱县的交界地带。研究区位于高原温带湿润半湿润季风区气候带寒带跨越到热带。地区水汽含量高,雨季开始得早，结束晚，持续时间长，年平均降水量约为 650 mm，年平均气温为 9.1。研究区内有日土青丁断裂、达机翁朗县断裂、贾桑断裂、札达邛多断裂等断裂带，主要出露底层有盆地相上三叠统的砂岩、夹板岩、火山岩以及海相下中三叠统的千枚岩、砂岩、含砾状灰岩等。由于高降雨量以及土壤和板块内动力活跃，该区域极易发生滑坡。1.2数据来源与处理主要数据来源包括：地理空间数据云的 ASTERGDEM 30 m 分辨率数字高程数据，基于 ArcGIS 软件对坡度信息进行了提取。15 万地质图来源于

19、中国地质调查局，用来提取地层岩性性质。Landsat8影像来源于地理国情普查，用于土地利用数据的提取。滑坡数据出自中国科学院资源环境科学数据中心。断层带从地震活动断层探察数据中心获取。笔者在已有的研究方法上将 30 m30 m 栅格大小设定为基础的评价单元（Tanyas et al.，2019），研究区域划分为 123 156 296 个网格。同时为了解决样本不均衡问题，笔者采用下采样方式从非滑坡区选取等量滑坡点组成 188 个样本点（Polykretis et al.，2018），滑坡单元设为 1，非滑坡单元设为 0，从中随机抽取70%（131）数据作为训练样本，剩

20、余 30%（57）作为测试样本。滑坡点具体流程见图 2。N低:0高:8 589高程(m)河流点090180 km工布江达县墨脱县波密县米林县朗县察隅县林芝县图1研究区地理位置及滑坡分布Fig.1Geographical location and landslide distribution of the study area 94 个滑坡点94 个非滑坡点高程坡度断层带河流道路地层岩性土地利用归一化处理贝叶斯算法网格搜索五折交叉验证Gini-RFXGBoostLightGBM训练集(70%)测试集(30%)易发性分区易发性评价图2流程图Fig.2Flow Chart14西北地质NORTHWES

21、TERN GEOLOGY2024 年 2评价因子选取与独立性检验 2.1评价因子选取已有对雅鲁藏布江流域的研究结果和现场勘查表明：河水对河谷的不断侵蚀作用加上高海拔高寒区冻融加剧滑坡区岩石的风化，使得雅鲁藏布江流域极易孕育滑坡（赵永辉，2019）；地层岩性是滑坡产生的重要因素（赵永辉，2021）；坡度为滑坡发生的主控因素（王瑞琪等，2019）。再根据对研究区的地质灾害形成条件与地质环境背景研究分析，选取高程、坡度、断裂带与断层、河流、道路、地层岩性、土地利用 7 个评价因子。利用 ArcGIS 软件，将高程、坡度、地层岩性、土地利用 4 个连续型因子结合分布规范，采用自然间断法将研究区分为 5

22、个等级（图 3a图 3d），对于离散型因子例如断裂带与断层、河流、道路利用多环缓冲区工具建立 0200、200400、400600、600800、800 m 共 5 个等级范围（图 3e图 3g）。N075150 kmg0200200400400600600800800高程(m)N075150 kme0200200400400600600800800断裂带和断层(m)N075150 kmf0200200400400600600800800河流(m)N075150 km321 5441 5442 7222 7223 7523 7524 6174 6177 782高程(m)aN075150 km

23、中上元古界白垩纪第三纪三叠纪古近纪地层岩性cN075150 km05.95.910.910.916.616.623.823.857.9b坡度()N075150 kmd土地利用林地草地建设用地水域未利用地图3各评价因子分级图Fig.3Grading chart of evaluation factors统计各评价因子分级范围内滑坡点数量并绘制蔟类柱状图（图 4）。结果表明：当高程处在 321 544 m时，滑坡发生的最多，占总数的 30.9%，其次是出现在2 7223 752 m 范围内。其原因是在海拔低于 1 544 m时，开挖坡脚等人类活动频繁，随着海拔的提升，坡度增大，加剧了滑坡的发生；随

24、着坡度上升，滑坡数也增加，直到坡度上升达到阈值 40,发生灾害的概率降低，由原来的 41.5%逐渐降低到 16.0%；当地层岩性为雅鲁藏布江带闪片岩时，相比其他岩性，滑坡发生最频繁；草地土壤侵蚀严重，是浅层滑坡的重要原因。本第 1 期林琴等：基于梯度提升的优化集成机器学习算法对滑坡易发性评价：以雅鲁藏布江与尼洋河两岸为例15 研究中大量滑坡点分布在坡度为 1020的草地上；断裂带与断层会降低岩层的强度和完整性，是滑坡易发性增大的关键，在距断层带 200 m 以内容易发生滑坡，滑坡点占总数的 41.5%，离断裂带与断层越远滑坡灾害越少；河岸受水流不断冲刷，土石在地下水及重力作用下越发失稳，因此越

25、靠近河流越容易发生滑坡，滑坡在距河流 200 m 以内，发生次数最多，达到 40.4%；修建铁路、公路时因大力爆破、强行开挖，常使坡体下部失去支撑而发生下滑，距离道路 200 m 以内的滑坡数占了总数一半以上达到 52.1%，距离道路越远，滑坡活动减少。文中结论与相关研究均吻合（Kouhart-siouk et al.，2021；Zweifel et al.，2021）。2.2评价因子独立性检验为了研究各评价因素的相对独立性以及评价模型的准确性和可靠性，笔者采用皮尔逊相关系数计算影响评价因子的相关性。皮尔逊相关系数是用于度量两个变量之间的线性关系，利用两个变量间的协方差和变量的标准差进行计算而

26、来（Lee et al.，2020）。X,Y=XY XYNvuuutX2(X)2NY2(Y)2N（1）式中：X，Y 表示变量，N 表示取值个数。变量间呈现极弱相关时，相关系数为 0.00.2；0.20.4 表示变量之间弱相关性。将评价因子的 7 个属性值代入式（1）计算，结果见表 1，发现相关性最高为坡度与道路（R=0.349 3），其他变量间相关关系均小于 0.4。总体而言，变量的共线性不强。表 1 因子间皮尔逊相关系数表Tab.1Pearson correlation coefficient between factors因子高程道路河流坡度断裂带与断层地层岩性土地利用类型高程1.000

27、00.162 40.155 40.170 80.231 70.256 40.029 8道路0.162 41.000 00.140 50.349 30.207 60.093 00.002 5河流0.155 40.140 51.000 00.126 90.067 20.301 10.012 2坡度0.170 80.349 30.126 91.000 00.237 10.051 00.064 9断裂带与断层0.231 70.207 60.067 20.237 11.000 00.196 00.265 4地层岩性0.256 40.093 00.301 10.051 00.196 01.000 00.0

28、72 5土地利用类型0.029 80.002 50.012 20.064 90.265 40.072 51.000 0 3雅鲁藏布江与尼洋河两岸滑坡易发性评价 3.1基于 GiniRF 的滑坡易发性评价随机森林（Random Forest）是一种基于决策树模型的 Bagging（Bootstrap AGgregation）的优化版，由于其具有对特征鲁棒性强、适用于高维稠密性数据、并行集成、对不平衡的数据集可自动调整误差、微调超参数等优势，可以获得准确结果，常被用于各种分类和回归任务（Alsahaf et al.，2018）。它的基本单元是决策树，但其本质是集成学习方法，是机器学习的一个 30.

29、9%20.2%29.8%16.0%3.2%6.4%19.1%17.0%41.5%16.0%13.8%2.1%18.1%8.5%57.4%6.4%59.6%26.6%5.3%2.1%41.5%29.8%12.8%2.1%13.8%40.4%28.7%12.8%4.3%13.8%52.1%27.7%12.8%4.3%3.2%0102030405060700102030405060321 5441 5442 7222 7223 7523 7524 6174 6177 78201010202030304040元古界角闪片岩白垩纪石英岩第三纪闪长岩古近纪花岗岩雅鲁藏布江带角闪片岩林地草地建设用地水域未利

30、用地020020040040060060080080002002004004006006008008000200200400400600600800800高程(m)坡度()地层岩性土地利用断裂带与断层(m)河流(m)道路(m)滑坡占比(%)滑坡数滑坡数滑坡占比评价因子图4各评价因子与灾害点的关系Fig.4Relationship between assessment factors and disaster points16西北地质NORTHWESTERN GEOLOGY2024 年分支，其核心思想始终为 Bagging。然而，已经做了一些特有的改进，随机森林使用 CART 决策树作为基学习器

31、。基于 Gini 系数的随机森林建立在许多决策树上并支持各种特征权重度量。其中之一为特征与不平衡数据输出的相关性，一旦分类器测量了 Gini 系数，这种特征选择技术就在 RF 中采用了权重调整技术。Gini 指数具有在特定节点中划分二进制类的能力（Disha et al.，2022）。对于具有两个以上不同值的属性，考虑属性子集，通过调整不平衡类分布的随机森林算法中的权重，使用 Gini 系数标准来分裂树，计算特征重要性得分。GI 值越高，特征对模型预测的平均贡献越大，模型的解释能力越好，所有 GI 特性之和为 1。GIm=|K|k=1k,kpmkpmk=1|K|k=1p2mk（2）VIM(Gi

32、ni)ij=mMVIM(Gini)jm（3）VIMj=VIMjci=1VIMi（4）GImpmkVIM(Gini)ij公式（2）：为基尼指数，K 代表 k 个类别，表示节点 m 中 k 的比例；公式（3）：表示特征 i 在第 j 颗树的权重；公式（4）表示对所求出的所有重要度得分进行归一化处理。笔者把 94 个滑坡点记为1，等量非滑坡点记为0，将 7 个评价指标因子的属性提取至训练集，构造随机森林二分类模型，并从 sklearn 库中调用 RandomForest Classifier 方法，将训练集代入 RF 模型进行训练。同时为了确保结果的可靠性和准确性，在原本的参数设定基础上，采用贝叶斯

33、优化算法搜索最优参数值。优化结果中，当每次迭代完成后更新权重时的步长取0.1，max_depth 取 4，num round 取 30 时，效果最佳。用测试集对 RF 模型进行预测，结合公式（3），将得到各评价因子的权重归一化后导入 ArcGIS 中的栅格计算器生成滑坡易发性图，采用自然间断法将分区图划分为极高、高、中、低、极低 5 个等级（图 5），易发性越高代表越容易发生滑坡。3.2XGBoost 易发性评价XGBoost 是一种基于决策树模型和梯度提升的集成机器学习算法，为了控制模型的复杂度，它将正则化项添加到损失函数中，正则项包括每个叶子节点权重的平方和与节点个数。XGBoost 处理

34、缺失值并通过学习模型选取缺失值最佳的默认分割方向（Inan etal.，2021）。描述的数据在预处理过程之后，基于 Python3.6与 R 语言，采用 Scikit-learn 构建 XGBoost 多分裂滑坡易发性模型（Alsahaf et al.，2018）。同时为了在独立的验证数据集上对子序列进行测试降低偶然性，选取最优子树，通过贝叶斯算法优化，利用五折交叉验证获得每个模型评价度量的平均值，所有测试集的平均指标被认为是最终结果。将预测结果导入 ArcGIS 绘制滑坡易发性图（图 6）。样本集在所选参数值上的交叉验证准确度结果显示：当进行第 5 次五折交叉后，训练集和测试集的 AUC

35、值达到最大值并趋于稳定（图 7）。N极高高中低极低075150 km图6基于 XGBoost 的滑坡易发性图Fig.6Susceptibility zoning map of XGBoost 3.3LightGBM 易发性评价Light Gradient Boosting Machine（LightGBM）是一种高性能、开源、快速的分类、回归、排名的方法，同时也是基于决策树算法的梯度提升算法。LightGBM采用直方图算法来降低内存消耗，使数据分割更简单，将浮点的连续特征离散化为式子中的 k 个离散值，构 N极高高中低极低075150 km图5GiniRF 模型滑坡易发性分区图Fig.5Sus

36、ceptibility zoning map of GiniRF第 1 期林琴等：基于梯度提升的优化集成机器学习算法对滑坡易发性评价：以雅鲁藏布江与尼洋河两岸为例17 造一个宽度为 k 的直方图，将数据进行遍历训练，计算直方图中每个离散值的累积统计信息，在特征选择中，只要根据直方图离散值搜索最佳的分割点即可（Zeng et al.，2019）。在 4.2 使用方法基础上，将研究区的 123 156 296个栅格提取各评价因子的属性值到点，生成123 156 2967的表格，导入训练好的机器学习模型中，预测每个栅格发生滑坡的概率，利用点转栅格工具将所有的点生成栅格数据，再用自然间断法将研究区的滑

37、坡易发区分为极高、高、中、低、极低 5 个类别（图 8）。图 9 为LightGBM 的学习曲线。4滑坡易发性评价结果验证 4.1易发性分区结果与对比基于 ArcGIS，分别统计 3 种不同机器学习模型在每个易发性分区的栅格个数与滑坡点个数（表 2），3种模型的滑坡易发性结果呈现出一定的差异，但整体趋同。GiniRF、XGBoost 和 LightGBM 模型均在极低类别中的百分比值最高。对于 GiniRF 模型，从极高到极低易发性的面积比分别为 11.99%、12.63%、19.58%、26.77%和 29.03%。XGBoost 模型的极高、高、中、低和极低易发性区域分别占 12.05%、

38、12.50%、19.62%、26.78%和 29.05%。对于 LightGBM 模型，极低、低、中、高和极高易发性区域分别占 12.14%、12.41%、19.43%、26.47%和 29.55%。根据滑坡位置的分布可以看出，大多数历史滑坡记录位于高易发性地区，正如 GiniRF、XGBoost 和 LightGBM 模型所预测的那样。LightGBM 模型的性能最高，其次为 XG-Boost 与 GiniRF。表 2 机器学习模型易发性分区对比Tab.2Comparison of machine learning model vulnerability zones类别机器学习模型GiniR

39、FXGBoostLightGBM栅格个数栅格占比（%）滑坡点个数滑坡占比（%）栅格个数栅格占比（%）滑坡点个数滑坡占比（%）栅格个数栅格占比（%）滑坡点个数滑坡占比（%）极高14 766 43911.994423.4014 840 33312.055227.6614 951 17412.145629.79高15 554 64012.636836.1715 394 53712.507238.3015 283 69612.417539.89中24 114 00319.583820.2124 163 26519.624021.2823 929 26819.434222.34低32 968 94026

40、.772211.7032 981 25626.78105.3232 599 47126.4784.26极低35 752 27429.03168.5135 776 90529.05147.4536 392 71429.5573.72 1.000.750.50值0.2500510训练集-AUC-平均值变量训练集-AUC-标准差测试集-AUC-平均值测试集-AUC-标准差图7XGBoost 五折交叉验证结果Fig.7XGBoost 50%ross validation results N极高高中低极低075150 km图8基于 LightGBM 的滑坡易发性图Fig.8Susceptibility

41、zoning map of GiniRF 训练集-误差率训练集-多类别对数损失测试集-多类别对数损失测试集-误差率1.00.80.60.40.20051015训练次数值202530图9LightGBM 学习曲线Fig.9LightGBM learning curve18西北地质NORTHWESTERN GEOLOGY2024 年根据评价因子的选取及易发性评价分区图可知，滑坡高和极高易发区多位于墨脱县的达木乡、帮辛乡，林芝县的丹娘、里龙、扎西饶登乡，朗县的陇村，工布江达的江达乡。在这些地区应采取相应的地质灾害防治措施。特别是位于雅鲁藏布江与尼洋河两岸海拔较低、坡度为 3040，距河流、道路、断裂

42、带 200 m以内的区域。究其原因，这类地区位于雅鲁藏布江与尼洋河两岸南部与印度板块和亚欧板块交界，地壳运动剧烈，孕育一系列区域性断裂，断裂带与断层降低了岩层的完整性和强度，并且高程多位于 2001 000 m，大多数坡度小于 40，在此范围内人工多进行切坡建房和道路建设等强烈活动，造成大量的裸露斜坡，加上长期的流水作用，使河流两岸遭受严重的侵蚀和冲刷，导致沉积物饱和，从而降低斜坡的完整性，使斜坡运动或质量运动，且距道路越近，道路建设所造成的破坏性会对边坡稳定性产生负面影响，因此滑坡灾害频发。相反，滑坡低易发区主要分布在工布江达县的错高、朱拉区，林芝市的冲果俄、港阿如，米林县的苏鲁胖地区，其特

43、点是坡度较缓、人类活动较少，远离道路、河流、断裂带。4.2模型精度比较在机器学习中，性能指标通常用于二进制分类中测试集的正确预测数。笔者使用准确度（Accuracy）、精确度（Precision）、召回率（Recall）、F1 分数、（ROC）曲线和 AUC 值 6 个指标对不同机器学习模型的精度进行了评价。准确度分数是评估模型在二元分类问题中的性能的最常用指标，表示在所有样本中，能被正确识别的概率；精确度是通过计算模型预测为真时实例为正样本的频率来评估模型性能的度量；召回率是模型正确检测真阳性实例的度量；F1 分数是召回率和精度之间的权衡指数，同时考虑了 FP 和 FN，使模型整体更具准确性

44、。具体公式如下：准确度=TP+TNTP+FP+TN+FN（5）精确度=TPTP+FP（6）召回率=TPTP+FN（7）F1=2PrecisionRecallPrecision+Recall（8）式中：TP 和 TN 分别为真阳性和真阴性，代表正确分类的像素数；FP 和 FN 分别是假阳性和假阴性，代表错误分类的像素数。为了得到不同机器学习算法在测试数据集上的预测准确性，基于上述方法，利用公式（5）公式（8）计算精确度、精确度、召回率和 F1 指数，随机抽取30%样本作为测试样本，得出模型的泛化能力和准确率（表 3）。可以看出，基于不同框架算法的预测性能不一样。3 种机器学习模型中，LightG

45、BM 模型在超参数优化下其 AUC（0.843 2）、ACC（0.853 1）、F1 分数（0.834 5）、Precesion（0.825 1）均高于另外两种机器学习模型。表 3 各机器学习模型准确率Tab.3Accuracy of each machine learning model机器学习模型GiniRFXGBoostLightGBMAUC0.752 40.803 50.825 65fold0.822 50.835 80.843 2ACC0.723 40.814 80.825 65fold0.753 40.835 90.853 1F1-score0.775 20.786 70.802

46、15-fold0.802 60.825 60.834 5Precesion0.783 40.796 80.804 55fold0.802 60.813 20.825 1 在机器学习中，ROC 曲线被广泛应用于二分类问题中来评估分类器的可信度（张玘恺等，2020）。AUC为 ROC 曲线下面积。AUC=1 表示该曲线存在至少一个阈值能得出完美预测。曲线纵轴为真阳率 TPR，横轴为假阳率 FPR，越靠近左上角，则认为该判断指标预测能力越好。从这条 ROC 曲线可以看出，经过网格搜索与 5 折交叉验证后的蓝色曲线 LightGBM 模型更接近左上角，AUC 值为 0.843 2，与 GiniRF 模

47、型的0.822 5 有较大提升，且准确率高于 XGBoost 模型的0.935 8（图 10）。XGBoost 相比 GiniRF 而言，对模型的损失函数进行了改进，并加入了模型复杂度的正则项，而 LightGBM 是在 XGBoost 基础上，优化了模型的训练速度。因此，LightGBM 的泛化能力最好，易发性划区可靠性高。4.3典型滑坡验证对比近几年来雅鲁藏布江与尼洋河两岸发生的滑坡事件（表 4），将 9 个滑坡信息导入生成的滑坡易发性图中，可知 3 个滑坡点位于中易发区，3 个滑坡点位于高易发区，剩余均出现在极高易发区。第 1 期林琴等：基于梯度提升的优化集成机器学习算法对滑坡易发性评价

48、：以雅鲁藏布江与尼洋河两岸为例19 为了进一步验证本研究分析方法的可靠性，选择羌纳巴嘎滑坡与墨脱县公路滑坡两处滑坡现场调查进行对比验证（图 11）。西藏自治区林芝地区米林县羌纳乡巴嘎村滑坡位于 E 942434，N 292016；所处地形地貌为高山河谷地貌；下付基为板岩；斜坡结构为岩土复合斜坡，坡度为 30；植被覆盖率一般，土地利用较低；滑坡前缘至斜坡下方公路，后缘至斜坡山脊处，滑坡体主要为碎土石，滑床为板岩。该滑坡变形特征主要为前方公路开挖斜坡坡脚，导致斜坡失稳。林芝地区墨脱县公路地处E 933810，N 290828，滑坡长为 30 m，宽为 40 m，厚度为 2 m，面积为 1 200

49、m，体积为 2 400 m3，坡度为 35，坡向为 260，滑坡侧边界、前缘清晰可辨。该滑坡微地貌为陡坡，地层岩性为泥岩，位于白龙断层附近，斜坡结构类型为土质斜坡，坡形为凸形，滑坡下方人类活动较少，仅有一小段公路，表 4 近几年以来滑坡事件Tab.4Landslide events in recent years地区位置发生时间来源易发性分区林芝市加拉村E 945404，N 2941452018.10.29新华社中林芝市加拉村下游7公里处E 945424，N 2941272022.01.22中国青年网中林芝市波密县古乡索通村羌纳自然村E 952741，N 3000212017.8.24中国军视

50、网中林芝市朗县辖区560国道K80处E 924924，N 2904032022.7.22朗县公安局高林芝市米林县派镇加拉村E 945404，N 2941452018.10.17西藏之声高林芝市朗县E 930048，N 2904422022.7.23朗县住建局高林芝市墨脱县达木乡E 952746，N 2929352021.7.4中国自然资源报极高国道559线波密至墨脱路段E 970203，N 2919142019.5.16西藏自治区交通运输厅极高林芝市墨脱县达木珞巴民族乡小学E 952752，N 2929462020.8.26新京报极高 1.00.80.60.40.2000.20.4假正例率真正

展开阅读全文