收藏 分销(赏)

基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf

上传人:自信****多点 文档编号:274698 上传时间:2023-06-26 格式:PDF 页数:12 大小:1.17MB
下载 相关 举报
基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf_第1页
第1页 / 共12页
基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf_第2页
第2页 / 共12页
基于地理信息相似度的负样本...在泥石流易发性评价中的应用_刘国栋.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、书书书Journal of Engineering Geology工程地质学报10049665/2023/31(2)-0526-12刘国栋,秦胜伍,孟凡奇,等 2023 基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用J 工程地质学报,31(2):526537 doi:1013544/jcnkijeg20220317Liu Guodong,Qin Shengwu,Meng Fanqi,et al 2023 Application of geographic information similarity based absence sampling method to debris

2、flow sus-ceptibility mappingJ Journal of Engineering Geology,31(2):526537 doi:1013544/jcnkijeg20220317基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用*刘国栋秦胜伍孟凡奇高峰熊良文潘宏宇姚靖宇乔双双(吉林大学建设工程学院,长春 130026,中国)(山东省国土空间生态修复中心,济南 250014,中国)(自然资源部黄河三角洲土地利用安全野外科学观测研究站,济南 250014,中国)摘要本文以吉林省永吉县为研究区,结合历史资料与现场实际情况,研究了基于地理信息相似度的负样本采样策略在

3、泥石流易发性评价中的应用,并探索了不同取值范围下选取的负样本对最终易发性评价结果的影响。本次研究选取了高程、坡度、坡向、平面曲率、剖面曲率、年平均降水量、归一化植被指数、地形湿度指数、断层密度、道路密度、水系密度、人口密度、土地利用类型、岩土体类型等 14 个因子,依离散型与连续型两种分类采用不同方法计算单因子相似度,综合获得全区地理信息相似度后按其不同阈值进行负样本采样,并以支持向量机模型为基础模型,采用受试者工作特征曲线、正样本准确率和预报效率曲线 3 种评价方法进行了评价。结果显示:当负样本的地理信息相似度值逐渐增大时,模型精度和正样本准确率逐步降低,预报效率先增后降,易发程度由高估向低

4、估变化;在地理信息相似度取值范围 00.5 内选取的负样本兼顾了模型准确性与土地利用价值,并具有最高的预测效率,是一种优秀的负样本取样策略。本次研究结果与实际较为相近,基于地理信息相似度的负样本采样策略有效提升了负样本质量,提高了预测效率,合理平衡了易发区划分与土地利用的矛盾,可为研究区防灾政策的制订、区域防灾的土地规划提供依据,也为区域泥石流易发性评价提供了一种新的思路。关键词泥石流;易发性评价;负样本采样;地理信息相似度中图分类号:P642.23文献标识码:Adoi:1013544/jcnkijeg20220317*收稿日期:20220611;修回日期:20221212基金项目:国家自然科

5、学基金(资助号:41977221)This research is supported by the National Natural Science Foundation of China(Grant No 41977221)第一作者简介:刘国栋(1995),男,硕士生,主要从事地质灾害防治研究 E-mail:liugd20 mailsjlueducn通讯作者简介:秦胜伍(1980),男,博士,教授,博士生导师,主要从事工程地质、地质灾害治理方面研究与教学工作 E-mail:qinsw jlueducnAPPLICATION OF GEOGAPHIC INFOMATION SIMILAITY

6、 BASEDABSENCE SAMPLING METHOD TO DEBIS FLOW SUSCEPTIBILITYMAPPINGLIU GuodongQIN ShengwuMENG FanqiGAO FengXIONG LiangwenPAN HongyuYAO JingyuQIAO Shuangshuang(College of Construction Engineering,Jilin University,Changchun 130026,China)(Shandong Provincial Territorial Spatial Ecological estoration Cent

7、er,Ji nan 250014,China)(Yellow iver Delta Land Use Security Field Scientific Observation and esearch Station,Ministry of Natural esources,Ji nan 250014,China)AbstractTaking Yongji County of Jilin Province as a study area,we investigated the application of the geographicinformation similarity based a

8、bsence sample sampling method to debris flow susceptibility mapping,and exploredthe influence of the selected negative samples under different value ranges on the final susceptibility mapping re-sults We selected 14 factors including elevation,slope,aspect,plane curvature,profile curvature,mean annu

9、alprecipitation,normalized difference vegetation index,topographic wetness index,fault density,road density,watersystem density,population density,land-use,and geotechnical type Then,we used different methods to calculatesingle-factor similarity based on two classifications:discrete and continuous A

10、fter synthetically obtaining the region-wide geographical information similarity,we sampled negative samples according to their different thresholds Sub-sequently,we chose the support vector machine model as the base model,and three methods(OC,positive sampleaccuracy and forecast efficiency curves)a

11、s evaluate system The results show that:Firstly,the geographical infor-mation similarity based absence sample sampling method can effectively improve the quality of negative samplesSecondly,when the value of geographical information similarity of negative samples gradually increases,the modelaccurac

12、y and positive sample accuracy gradually decrease,the forecast efficiency first increases and then decreasesAt last,the negative sample selected within the geographic information similarity range of 0 to 0.5 balances modelaccuracy with land-use value and has the highest predictive efficiency,making

13、it an excellent negative sample sam-pling strategy The sampling strategy of negative samples based on the similarity of geographical information effec-tively improves the quality of negative samples,enhances the prediction efficiency,reasonably balances the contra-diction between the division of sus

14、ceptibility zones and land-use,and provides a new way of thinking on the evalua-tion of regional debris flow susceptibilityKey wordsDebris flow;Susceptibility assessment;Negative samples sampling;Geographic information similarity0引言随着全球气候变化与人类加剧对山区的开发建设,泥石流灾害的发生频率与日俱增,对人类的影响也愈加严重(陈荟竹等,2018)。泥石流往往具有突

15、发性,这使得常规的手段难以准确判断其发生的空间位置,而泥石流易发性评价作为一种区域性的易发性预测手段,对防灾减灾工作显得尤为重要。自 20 世纪 70 年代以来,学者们对泥石流进行了系统研究。在泥石流易发性评价方向,总体上可划分为经验方法和数据驱动方法两个阶段。早期受各种条件的限制,易发性评价以经验方法(张文等,2010)、模糊推理系统(杨晨晨等,2020)为主,其主要是以专家的知识与历史经验为基础来判断泥石流易发程度。但这种方法主观性强,准确性难以保证。而数据驱动方法(Zezere et al,2017)作为一种定量分析方法在逐步发展起来。此方法主要是从已发生的泥石流样本中来获取泥石流易发性

16、 影响因素关系,从而建立线性或非线性模型来预测研究区内未知区域的泥石流易发性。数据驱动方法种类繁多,如信息量法(张以晨等,2018)和频率比法(仉义星等,2019)等。近年来,随着人工智能技术及其硬件支持条件的发展,机器学习凭借其强大的非线72531(2)刘国栋等:基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用性建模能力受到专家学者的青睐,各种机器学习模型被广泛应用于泥石流易发性的评价中,如逻辑回归(于淼等,2021)、随机森林(高泽民等,2021)、人工神经网络(付锦涛,2020)、支持向量机(Xiong etal,2020)、深度学习(Chen et al,2020)以及各类

17、耦合模型等。整体来看,数据驱动模型在一定程度上克服了经验方法的主观局限,可以更好地挖掘泥石流易发性与其影响因子之间的关系,为泥石流的易发性评价提供了新思路。无论使用哪种数据驱动方法,均需使用样本来训练模型。目前按照使用样本的类别可分为两类:一是仅使用泥石流样本点(以下简称“正样本”)的单分类方法,如单分类支持向量机(Mohammady etal,2012)等。另一种是使用泥石流样本点和非泥石流样本点(以下简称“负样本”)的二分类方法,如上述的随机森林和支持向量机等。尽管部分学者证明单分类方法在易发性评价中有一定的预测精度,但更多的研究表明,负样本对最终泥石流敏感性结果的合理性有着重要贡献(En

18、gler et al,2004),单分类方法由于缺乏负样本的约束,极易将低易发区推测为高易发区,从而导致整体易发性的高估。综合来看,二分类方法能够较好地反应研究区内的泥石流易发性概况,应用也更为广泛。但二分类方法对样本的选择非常敏感,不同训练样本可能导致最终的泥石流易发性区划有着显著差异(Feizizadeh et al,2014),这种差异甚至大于模型选择带来的差异。在泥石流易发性预测的实际问题中,泥石流点的选择是确切可信的,这部分样本主要是各地的地质灾害调查人员通过实地调查获得。与传统的二分类模型有确定的负样本不同,泥石流易发性评价中的负样本是不确定的,泥石流灾害点以外的区域也有可能是潜在

19、的泥石流灾害区域(黄发明等,2021)。本质上,这是一个典型的只有正样本和未标记样本的 PU(Positive-unlabeled learning)学习问题(甘洪啸,2017),最常用的解决方法是两阶段技术(Yao et al,2022),即首先通过某种策略挖掘出部分可信的负样本,然后利用此负样本与已有的正样本组成一个传统的二分类模型来进行后续工作。针对样本来说,当样本的影响因子相似时,其发生概率也是相似的(Hudson,1992)。换言之,负样本的选取就是选用那些与已知正样本相似度较低的样本,问题的关键就在于如何定义相似度。目前常用的负样本采样策略有以下 3 种:第 1 种是缓冲区控制采样

20、法(刘艳辉等,2021),即在正样本周围划定缓冲区,在缓冲区外随机采样。这种方法有着严重的缺陷,首先是缓冲区的范围在不同地区没有公认值,主观性强;其次是缓冲区外的点仍然可能包含潜在泥石流点,只是因为缺少诱发条件而尚未发生。因此基于缓冲区控制取样法的负样本整体质量一般。第 2 种方法是间谍技术采样法(Yao et al,2022)。间谍技术采样法从理论上选取了较为可靠的负样本,克服了主观因素,但是往往需要间谍样本有足够的量,否则整体的结果可信度较低。而已发生泥石流灾害在区域内往往面积占比相当小,难以满足大量的间谍样本的要求。第 3 种方法是 1-DNF技术采样法(赫枫龄等,2007)。使用 1-

21、DNF 所选取的负样本准确率较高,但是此方法对负样本选取过于严格,致使正样本特征过于庞大,在某些情况下甚至会出现负样本为 0 的极端情况。综合来看,学者们对泥石流易发性评价中的负样本采样策略进行了详细的探索,各种方法相对于完全随机取样的方式都有不同程度的进步,但是也存在采样条件苛刻、受样本数量限制等各种局限性,且对负样本选取阈值对最终结果的影响研究也较少。针对上述负样本采样中存在的问题,本文以吉林省永吉县为例,以支持向量机模型为基础模型,采用了一种基于地理环境相似度(缪亚敏等,2016)的负样本采样方法,利用 PU 学习两阶段技术进行区域的泥石流易发性评价。该方法可以有效克服负样本采样过程中主

22、观性等局限,提高负样本的可信度,并对不同阈值下选取的负样本对最终泥石流易发性区划的影响进行了探索比较,为泥石流易发性评价中样本的合理选择提供一种新思路,为研究区防灾政策的制订、区域防灾的土地规划提供依据。1研究区概况研究区永吉县位于吉林省中东部,地处东经12548091264001,北纬 431807433500之间,幅员面积约 2625 km2。永吉县属松嫩平原向长白山地的过渡地段的前沿,地形地貌为低山丘陵区,区内地势总体上东南高,西北低。境内水系发育,属第二松花江中游水系,气候类型为北温带大陆性干寒季风型气候,四季分明,年平均气温约 5 9,年平均降水量约 600700 mm,降水集中在

23、68 月。研究区的构造类型复杂,断裂褶皱发育,岩性以花岗岩、安山岩及其变质岩为主。区内各类复杂825Journal of Engineering Geology工程地质学报2023的地质条件与集中的降水,致使永吉县泥石流灾害频发。根据笔者对区内地质灾害历史资料的收集与实地调查显示,永吉县共发育泥石流灾害 129 处,规模以中小型为主,类型以水石流为主。研究区地理位置及泥石流灾害分布见图 1。图 1研究区地理位置与泥石流灾害点分布图Fig 1Location of the study area and the spatial distribution of debris flow samples

24、2影响因子选取泥石流灾害的发生是地质环境变化的结果,而地质环境是一个受诸多因素影响的系统,因而合理的选取影响因子描述地理环境差异对泥石流易发性评价有着重要影响(杨光等,2019)。通过广泛的文献阅读和对实地环境的分析,本次工作共选取了高程、坡度、坡向、平面曲率、剖面曲率、年平均降水量、归一化植被指数(NDVI)、地形湿度指数(TWI)、断层密度、道路密度、水系密度、人口密度、土地利用类型、岩土体类型 14 个因子,其数据源、数据类别、精度见表 1,各类因子详情见图 2。高程(图 2a)决定了泥石流物源的势能,对坡体的应力有着重要影响,研究区东部有大量山体起伏地形,对降雨、植被覆盖等内容均会有影

25、响;坡度(图 2b)是泥石流发生的控制因素之一,在一定的坡度范围内,坡度增加会增大坡体破坏的概率,从而使表 1影响因子信息Table 1Impact factor information data影响因子数据源类别精度高程先进对地观测卫星连续型125 m坡度先进对地观测卫星连续型125 m坡向先进对地观测卫星连续型125 m平面曲率先进对地观测卫星连续型125 m剖面曲率先进对地观测卫星连续型125 m归一化植被指数哨兵二号卫星连续型10 m地形湿度指数先进对地观测卫星连续型125 m断层密度地质图连续型1 50 000水系密度地质图连续型1 50 000岩土体类型地质图离散型1 50 000

26、道路密度地质图连续型1 50 000人口密度第 6 次人口普查连续型土地利用类型第 2 次全国土地调查离散型年均降雨量国家青藏高原科学数据中心连续型1000 m得泥石流更易启动;坡向(图 2c)与研究区风向、光照、降雨等有一定关联,这会间接影响植被覆盖率、岩体分化程度等;平面曲率(图 2d)通过计算坡向的坡度来实现,它描述倾斜角度变化的速度。它对泥石流的速度影响很大,是泥石流形成和演化的调节因素;剖面曲率(图 2e)通过计算高程的坡度实现,它描述斜坡的形态特征,凸型坡更易发生应力集92531(2)刘国栋等:基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用图 2研究区泥石流影响因子F

27、ig 2Debris flow impact factors of the study areaa 高程;b 坡度;c 坡向;d 平面曲率;e 剖面曲率;f NDVI;g TWI;h 断层密度;i 水系密度;j 岩土体类型;k 道路密度;l 人口密度;m 土地利用;n 降水量035Journal of Engineering Geology工程地质学报2023中现象从而引发泥石流;NDVI(图 2f)是地表覆盖的一种表征方式,茂密的植被有助于稳定岩土体,减少泥石流的发生(胡卸文等,2020);TWI(图 2g)是径流模型的一个地形因素,一般来说,TWI 值越大,土壤含水量越大,越容易达到饱和,

28、更容易产生径流。因此 TWI 对泥石流的发生具有显著影响;断层(图 2h)是孕育泥石流的重要因素,构造带发育的地带岩土体破碎,强度更低,为泥石流提供大量的物源;水系(图 2i)是区域水文地质的重要体现,泥石流是受当地水文特征控制的灾害事件,水系密度也是泥石流易发性评价中的常用因子;不同的岩土体类型(图 2j)具有不同的强度、结构特征,从而形成不同厚度、不同性质的地表沉积物,影响泥石流的物源条件;道路密度(图 2k)和人口密度(图 2l)是人类活动强度的直观体现,高强度的人类活动影响会破坏植被,产生大量松散堆积物,促进泥石流的发育;土地利用类型(图 2m)会影响土壤的水土保持条件进而影响泥石流的

29、发生过程;年均降水量(图2n)是泥石流灾害的重要诱发因素,泥石流的发生往往与降雨直接相关。降雨引起的地表水在冲刷松散沉积物的过程中逐渐演变成泥石流。本次研究的降水数据来源于“国家青藏高原科学数据中心(ht-tp:datatpdcaccn)”(彭守璋,2020)。3研究方法3.1因子共线性检查由于选取因子较多,有必要考虑其共线性问题。当多个因子存在共线性时,一个因子变化会导致其他因 子 的 同 步 变 化,这 会 使 得 最 终 模 型 破 坏(O brien,2007)。为避免此种问题,本文利用 IBMSPSS Statistics 软件计算因子的皮尔逊相关系数来完成因子的共线性检查。皮尔逊相

30、关系数(r)是一种广泛应用的度量线性相关性的统计方法(Merghadi et al,2018),其取值范围为-1,1,其绝对值越大,表示变量线性相关性越强。皮尔逊相关系数的计算公式如下:r=ni=1(Xi?X)(Yi?Y)ni=1(Xi?X)2ni=1(Yi?Y)2(1)式中:r 代表皮尔逊相关系数;n 代表样本数量;Xi、Yi代表样本 i 的数据值;?X、?Y 代表样本的平均值。3.2地理信息相似度当泥石流在某种地理环境下发生的频率越高,通常可以认定这种环境是泥石流发生的典型条件,与典型条件越相似,泥石流发生概率越大。基于此思路,计算研究区内各点与典型条件的相似度来确定地理信息相似度。在已经

31、遴选出的 14 个影响因子中,可分为离散型和连续型两种。本次研究对其分别采用频率比法和核密度估计进行地理信息相似度的计算。频率比法(李文彦等,2020)是一种常见的双变量模型,通过计算频率比可以判断离散因子的哪一类别更易发生泥石流,其计算公式为:Fij=Pij/PrAij/Ar(2)式中:Fij表示第 i 个因子第 j 类的频率比值;Pij表示第 i 个因子第 j 类的泥石流数量;Pr表示研究区泥石流总数量;Aij表示第 i 个因子第 j 类的面积;Ar表示研究区总面积。为方便表示,并与后续连续型因子进行统一,通过标准化方法将其归一到 01 之间,得到离散型因子与典型类别的相似度:Sij=Fi

32、j min(Fi)max(Fi)min(Fi)(3)式中:Sij为第 i 个因子第 j 类与典型类别的相似度;Fi为第 i 个因子的各类频率比的集合;min()、max()分别表示取最小、最大值。核密度估计(冯象初等,2017)是一种用样本估计整体概率密度函数的方法,并且对于连续型因子来说,此种方法不依赖选取的区间长度。假设有 n个泥石流点,其 x 影响因素的值为 x1,x2,xn,则影响因素 x 的核密度估计如下:f(x)=1nhni=1kx xih()(4)式中:f(x)为泥石流点的概率密度函数;h 为带宽;k()为核函数,本次研究采用较为常用的高斯核函数,其计算公式如下:kx xih()

33、=12e(xxi)22h2(5)h=43n()02(6)式中:是影响因素 x 的标准差。与离散型因子统一,采用同样标准化方法进行归一化获得连续型因子与典型环境的相似度:13531(2)刘国栋等:基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用Sx=f(x)min(f(x)max(f(x)min(f(x)(7)通过综合离散型与连续型两种因子的影响,最终获得地理信息相似度:S=f(S1,S2,Si,Sn)(8)式中:S 表示某一点的地理信息相似度;n 表示影响因子的数目;f()表示综合方法,可取加权平均法、最小因子法等,本次研究采用平均值法。3.3基于支持向量机模型的易发性评价方法支持

34、向量机模型是建立在 Vapnik-Chervonenkis(VC)维数理论和最小结构风险理论基础上的一种机器学习方法。SVM 在小样本、多维、非线性数据问题的处理中表现出卓越的性能(杨帆等,2019),对泥石流易发性评价这种样本数量小、影响因素多的问题尤为适用。SVM 本质上是通过某种非线性变化将数据投射到某一高维的特征空间中,在此空间中建立超平面使之能够尽可能地将训练样本正确分类,并使分类间隔最大。这也使 SVM 在样本信息有限的情况下,避免了过度拟合的情况,获得了良好的泛化能力,其实现如下:对给定的训练集(x1,y1),(x2,y2),(xn,yn),xim,yi+1,-1,i=1,2,3

35、,n,其中,m代表因子的维数,n 代表训练样本个数,定义目标函数如下式:f(x)=x+b(9)式中:代表权重系数;b 代表偏差量。经过整理,最优超平面问题可以表示为如下的约束优化问题,即求式(10)()的最小值:()=122styixi b ,xi+b yi,i=1,n(10)对于线性不可分的情况,可以在约束条件中引入惩罚系数 C 和松弛变量 两个参数,在一定程度上可以解决无法完成严格分类、过度拟合等问题,从而增强 SVM 的泛化。式(10)转化为下式:()=122+Cni=1(1+2)styixi b ,xi+b yi,i=1,n(11)最后通过拉格朗日函数将式(11)转化为对偶形式,其中核

36、函数可以把数据映射到高维,最终得到回归函数为:f(x)=ni,j=1(i*i)K(xi,xj)+bstni=1(i*i)=00 i C0 *i C(12)式中:i,*i代表拉格朗日因子;K(xi,xj)代表核函数,常见的核函数包括径向基核函数、线性核函数、多项式核函数等。本文采用径向基核函数,其形式为:K(xi,xj)=e|xixj|222(13)式中:代表径向基核函数的超参数,定义了训练样本相似度的特征长度尺度。34模型验证3.4.1模型评价受试者工作特征曲线(OC 曲线)是目前用来评价泥石流敏感性模型性能的有效方法之一(Pourghasemi et al,2012)。OC 曲线以伪阳性率为

37、 x 轴,以真阳性率为 y 轴,真伪阳性率计算公式如下:TP=TPTP+FN(14)FP=FPFP+TN(15)式中:TP 代表真阳性率;FP 代表伪阳性率;TP代表泥石流点正确分类为泥石流点的数目;FN 代表泥石流点错误分类为非泥石流点的数目;FP 代表非泥石流点错误分类为泥石流点的数目;TN 代表非泥石流点正确分类为非泥石流点的数目。OC 曲线的 x,y 轴并不是函数关系,它事实上代表了一个分类器在不同阈值下的分类效果,它有效表现了分类器的敏感性。OC 的曲线下的面积(AUC)值可以直观地判断分类器的性能,其取值范围为 0.5,1,其越大代表分类器的性能越优越。3.4.2正样本准确率本次研

38、究希望获得不同负样本取值对泥石流易发性评价结果的影响,针对泥石流易发性评价问题,可确定的只有正样本,故只能使用正样本进行准确率评价。选取泥石流发生范围内所有栅格数目作为总测试集,利用不同的负样本取值获得这些栅格的易发性值,选取合适的阈值(本次研究选取为 0.5),当易发性值大于阈值时认为分类正确,反之分类错误,计算各情况的正样本准确率:235Journal of Engineering Geology工程地质学报2023Acc=ncnt(16)式中:Acc 代表正样本准确率;nc代表泥石流范围内易发性值大于阈值的栅格数目;nt代表泥石流范围内栅格总数。3.4.3预报效率曲线虽然正样本准确率一定

39、程度可以反映模型的预测经度,但由于仅有正样本进行验证,如若在极端情况下模型将全区判断为高易发区,此时正样本准确率为 100%,却不具有任何意义。实际生产中,易发性分区需要合理衡量泥石流易发性与土地利用、经济发展的关系,避免上述情况的发生。因此,一个有效的模型,不仅应当有较高的准确性,也应限制高易发区的大小,使更多的灾害点落在有限面积的高易发范围内。只有这样,易发性评价工作才能高效判断易发性的同时兼顾珍贵土地资源的利用。本次针对不同负样本取样结果,采用预报效率曲线(缪亚敏等,2017)评价泥石流易发性的合理性,具体步骤如下:统计不同易发性阈值下的累积面积比例 Pi,并统计落在累积面积中的泥石流灾

40、害点占总灾害点的比重 Ei,参考 OC 曲线,以 Pi 为 y 轴,以 Ei 为 x 轴,建立预报效率曲线。同样,预报效率曲线的曲线下面积直观代表了泥石流预报的效率,其值域为 0,1,值越接近 1,预报效率越高。3.5研究流程本次研究主要技术路线与研究流程见图 3。4结果分析4.1共线性检查结果利用皮尔逊相关系数判断各因子的相关性,结果见图 4。通常当相关系数小于 0.7 时,可认为因子之间没有显著的线性相关关系。结果中,各因子相关系数绝对值均小于 0.55,表明各因子之间相关性较弱。因此,可利用所选取的 14 个因子进行易发性的评价。4.2地理信息相似度结果利用 3.2 小节方法分别计算正样

41、本和未标记样本的地理信息相似度,统计结果见图 5。未标记样本的地理信息相似度值分布较为分散,在各个区间图 3技术路线图Fig 3Technology roadmap均有展布。正样本的地理信息相似度则集中在大于0.5 的区间内,仅有少部分分布在小于 0.5 的区间内,可能是偶然因素、人工因素等原因使这部分泥石流未落在典型区间内。4.3易发性评价结果本次研究以永吉县为研究区,利用 PU 学习两阶段技术进行区域的泥石流易发性评价。在第 1 步负样本选取过程中,采用地理信息相似度方法对未标记样本进行负样本采样。为探讨不同值域下负样本选择对易发性制图的影响,将地理信息相似度按照 0.1 的步长取为 0,

42、0.1)、0.1,0.2)、0.2,0.3)、0.3,0.4)、0.4,0.5)5 种范围以及 0,0.3)、0,0.5)、0,0.7)3 种宽幅范围进行采样。考虑地理信息相似度大于 0.5 的样本更倾向于发生泥石流,故本次研究仅大于 0.5 的值域仅设置一组 0.5,0.6)作为对照组。在第 1 步选取负样本后,与永吉县正样本组成训练样本,采用支持向量机模型进行泥石流易发性评价。为避免取样的随机性对评价结果的影响,每种负样本取样均进行 10 次,各结果取平均值,易发性结果如图 6 所示。33531(2)刘国栋等:基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用图 4皮尔逊相关系数

43、矩阵结果Fig 4The results of the Pearson correlation matrix图 5地理信息相似度频率分布直方图Fig 5The histogram frequency distribution diagram of geographic information similarity resulta 未标记样本;b 正样本4.4模型验证分析按照 3.4 小节中的模型验证方法对不同负样本采样结果进行评价,结果见表 2。当在地理信息相似度值很低的区域选取负样本时,全部负样本与正样本特征迥异,此时负样本质量极高且稳定,模型可以轻易将训练样本中的正负样本正确区分,故 OC

44、 曲线下面积值均较大,模型精度较高。但是由于负样本此时仅能代表研究区内非泥石流区域的典型特征,4.2 小节中由于偶然因素435Journal of Engineering Geology工程地质学报2023图 6不同负样本采样策略的泥石流易发性评价结果图Fig 6Debris flow susceptibility maps of different negative samples samplinga 值域 0,0.1);b 值域 0.1,0.2);c 值域 0.2,0.3);d 值域 0.3,0.4);e 值域 0.4,0.5);f 值域 0.5,0.6);g 值域 0,0.3);h 值域

45、 0,0.5);i 值域 0,0.7)表 2验证结果Table 2Validation results负样本地理信息相似度取值范围OC曲线下面积正样本准确率预报效率曲线下面积 0,01)09991000%0682 01,02)0982992%0704 02,03)0932978%0784 03,04)0904942%0797 04,05)0876900%0811 05,06)0717776%0740 0,03)0943981%0827 0,05)0927937%0882 0,07)0819857%0722未落在典型区间内的正样本发挥了重要作用,导致SVM 分类面向负样本区域偏移。此时区内大面积

46、的区域被判断为高易发区,易发程度的结果两极化。大面积的高易发区也致使该种取样策略正样本准确率非常高,但此种高正确率是以牺牲土地利用价值实现的,这从极低的预测效率也能看出。总体来看,仅在极低地理环境相似度区域选取负样本可获得极高的模型精度,但是没有使用价值。随着负样本所在的地理信息相似度取值增大,研究区内高易发性区域比例相较前者逐步降低,极值化现象也略有缓解。此时负样本与正样本的特征差异逐步缩小,表现在 OC 曲线下面积逐渐减小,正样本准确率也逐渐降低,此时偶然正样本的影响被规避,预报效率逐渐上升。当负样本所在的地理信息相似度取值增大到0.5 以上,此时负样本与正样本交混在一起,负样本质量变差且

47、不稳定,此时模型很难将正负样本区分53531(2)刘国栋等:基于地理信息相似度的负样本采样策略在泥石流易发性评价中的应用开,错误预报数量大幅增加,这使得 OC 曲线下面积和正样本准确率呈断崖式下跌,预报效率也转而向下。此时低预测精度使得研究区内高易发区的分布失去意义,模型失效。对于 3 种宽幅范围内选取负样本的策略,随着取值范围的增加,负样本质量逐渐变差,OC 曲线下面积和正样本准确率均呈现下降趋势,预测效率则呈现先上升后下降的趋势。值域为 0,0.5)的负样本采样策略成为最优解,研究区高易发性区域趋于合理,极值化现象也同步解决。总体来看,负样本选取既需要避免与正样本有较多的相似特征以保证模型

48、基本的预测正确率,也需要避免全部选取极端不同点以抑制易发性的高估。本次研究中,地理信息相似度 00.5 的宽幅范围内选取负样本的策略成为最优策略,取得了最高的预测效率和较高的 OC 曲线下面积和正样本准确率。5结论样本的合理选取在泥石流易发性评价过程中是极为重要的,本文以吉林省永吉县为例,采用了一种基于地理环境相似度的负样本采样方法对研究区的泥石流易发性进行了评价,并对地理环境相似度不同值域的负样本采样策略进行对比,得出结论如下:(1)基于地理环境相似度的不同负样本采样对结果的影响呈现一定的规律性。在一定阈值内,随着负样本地理信息度值的增加,预测精度降低,但预测效率增加;当超出此阈值后,预测精

49、度和预测效率均呈现下降趋势。(2)选取一个合理阈值(本次研究为 0.5),在此阈值之下的宽幅范围内进行负样本采样的采样策略具有良好的性能,降低了部分极端样本点的影响,有效提升了负样本质量。此方法兼顾了模型精度与土地使用价值,提高了预测效率,与实际情况更为相近。综上所述,本次研究采用的基于地理信息相似度的负样本采样策略,有效提升了负样本质量,提高了预测效率,合理平衡了易发区划分与土地利用的矛盾,为研究区防灾政策的制订、区域防灾的土地规划提供依据,也为区域泥石流易发性评价上提供了一种新的思路。参考文献Chen H Z,Liu X L,Qiu J A 2018 Citespace based com

50、prehensive analy-sis on debris flow risk of China during recent 30 yearsJ Journal ofEngineering Geology,26(2):286295Chen Y,Qin S W,Qiao S S,et al 2020 Spatial predictions of debris flowsusceptibility mapping using convolutional neural networks in JilinProvince,ChinaJ Water,12(8):2079Engler,Guisan A,

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服