收藏 分销(赏)

基于mRMR算法的滑坡多源特征选择.pdf

上传人:自信****多点 文档编号:1987101 上传时间:2024-05-13 格式:PDF 页数:4 大小:851.45KB
下载 相关 举报
基于mRMR算法的滑坡多源特征选择.pdf_第1页
第1页 / 共4页
基于mRMR算法的滑坡多源特征选择.pdf_第2页
第2页 / 共4页
基于mRMR算法的滑坡多源特征选择.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、1引言滑坡是地质灾害中最为常见的灾害形式之一,对人类社会造成了巨大的经济损失和人员伤亡1。滑坡灾害的预测和预警一直是地质灾害领域研究的热点与难点之一。通过特征选择能够筛选滑坡的主要成灾因子,使多维数据复杂的问题得以简化,因此这一方法在滑坡灾害研究中得到了广泛应用。当前国外的主要相关研究包括:采用现场调查统计的方法对滑坡主要特征进行选择2,但此法实验周期过长,时效性较差;利用逻辑回归的方法对影响滑坡的特征因子进行筛选3,该方法过滤掉了过多的有效特征,导致最后的预报精度不高;采用机器学习的方法对滑坡影响因子进行分类4,该方法只考虑了影响滑坡的少数因素。国内方面也有学者们针对滑坡灾害多源特征的选取问

2、题展开研究:黄鑫等人5采用统计学的相关系数法进行特征分析及相关性研究,该方法受异常数据的影响较大;程少康等人6对传统的主成分分析(PCA)数据降维方法加以改进,提出了加权型 PCA 和 KPCA,该方法能够有效降低数据维度,同时考虑了各类致灾因子所占的影响权重,但矩阵运算过多导致计算复杂、时间过长;郭伏等人7提出灰色关联分析(GRA)方法,该方法能够筛选出对滑坡变形具有促进作用的因子,但数据指基于 mRMR 算法的滑坡多源特征选择*张垚(西安工程大学电子信息学院,西安 710600)摘要:鉴于特征选择在滑坡灾害预测和预警中的重要性,为降低数据复杂度和提高预报模型的准确性,以陕西省子洲县滑坡重点

3、整治示范区的监测数据为研究对象,提出一种基于最大相关最小冗余(mRMR)算法的滑坡灾害多源特征选择方法。通过对滑坡灾害多源特征数据进行处理和分析,使用该算法选择出具有代表性和区分度的特征。实验结果表明,该方法可以有效选择出影响滑坡灾害发生的重要特征,特征选择后可减少传统传感器布置数量,降低初期投资成本,同时降低算法难度及计算时间并提高预报的准确性和实时性。关键词:特征选择;mRMR 算法;滑坡灾害DOI:10.3969/j.issn.1002-2279.2023.05.007中图分类号:TP391;P642.22文献标识码:A文章编号:1002-2279(2023)05-0027-04Mult

4、i-Source Feature Selection of Landslide Based on mRMR AlgorithmZHANG Yao(School of Electronics and Information,Xian Polytechnic University,Xian 710600,China)Abstract:In view of the importance of feature selection in landslide disaster prediction and earlywarning,in order to reduce the data complexit

5、y and improve the accuracy of the prediction model,a multi-source feature selection method of landslide disaster based on mRMR algorithm is proposed,taking themonitoring data of the key landslide remediation demonstration area in Zizhou County,Shaanxi Provinceas the research object.By processing and

6、 analyzing the multi-source features data of landslide disaster,the representative and differentiated features are selected by using the method.The experimental resultsshow that the method can effectively select the important features that affect the occurrence of landslidedisasters.After feature se

7、lection,the number of traditional sensors can be reduced,the initial investmentcost can be reduced,the algorithm difficulty and calculation time can be reduced,and the accuracy andreal-time performance of the forecast can be improved.Key words:Feature selection;mRMR algorithm;Landslide disaster基金项目:

8、国家自然科学基金项目(62203344);陕西省技术创新引导专项(2020CGXNX-009,2020CGXNG-009);陕西省自然科学基础研究计划(2022JM-322);陕西省教育厅服务地方专项(22JC036)作者简介:张垚(1997),男,陕西省渭南市人,硕士研究生,主研方向:滑坡灾害多源特征选择及预报模型。收稿日期:2023-07-19*微处理机MICROPROCESSORS第 5 期2023 年 10 月No.5Oct.,2023微处理机2023 年标受主观因素影响较大,存在一定的局限性。针对以上研究中存在的问题,本研究将采集的滑坡特征数据使用 mRMR 特征选择算法与导致滑坡发

9、生相关性大的特征保留,将冗余的特征剔除,以此减少非必要监测传感器的数量、降低信息的采集成本,同时可以降低预报模型训练时的复杂度。2mRMR 算法2.1算法原理最大相关最小冗余(Max-Relevance and Min-Redundancy,mRMR)算法是由彭汉川团队8提出,它以不同的方式在相关性和冗余性之间进行权衡,并且以互信息作为计算准则来衡量特征之间的冗余度以及特征与目标变量之间的相关性。通过最大化特征与目标变量的相关性以及最小化特征之间的冗余度来进行特征选择,最终使得特征之间的差异性很大,而同目标变量的相关性也很大。mRMR 算法是一种过滤型算法,具有计算复杂度低、鲁棒性好、效率高的

10、优点,适用于滑坡复杂环境中的特征选择。互信息是信息论里有用的信息度量,它可以用来评价变量之间的相关性。若两个随机变量之间的互信息值越大,则它们之间的相关性就越强;若两个随机变量相互独立,则它们之间的互信息值为零。对于两个离散型随机变量,互信息可定义为:对于两个连续型随机变量,互信息可定义为:式(1)与式(2)中,P(x,y)是 X 和 Y 的联合概率分布函数;p(x)和 p(y)分别为 X 和 Y 的边缘概率分布函数。互信息具有非负性、对称性、独立性、自信息性和边界性的特点,其中对称性是度量变量间的互相依赖和独立关系的重要依据,即有:在获得变量的相关性之后,最大相关性和最小冗余度计算方法分别由

11、以下目标函数定义:最大相关最小冗余算法的特征选择标准由下式定义:在式(4)、式(5)和式(6)中,S 为输入特征集合;椎为输出特征集合;y 为目标变量;I(xi,y)为输入特征变量和输出目标变量之间的互信息;I(x,yj)为输入特征之间的互信息;D 是特征集 S 中各特征 xi与目标变量 y 之间所有互信息的均值,表示两者之间的相关程度;R 是特征集 S 中各特征 xi与 xj之间所有互信息的均值,表示特征之间的冗余大小。可使用增量式搜索方法将优化问题表述成如下的操作:这一操作表示假设当前已进行 m-1 次选择,选出了具有 m-1 个特征的特征子集 Sm-1。在进行第 m次选择时,在剩下的特征

12、空间 X-Sm-1中需要通过上式来寻找使得 mRMR 最大化的特征。当进行某次选择时,若取得的最大值等于零或小于某一设定阈值时,则停止选择,已选特征即为特征优选结果。实质上,该过程也相当于不断地遍历和计算得到局部最优特征的过程。因此,mRMR 的本质就是用标准即相关性和冗余性来对特征进行重要性排序。2.2算法流程mRMR 特征选择算法流程框图如图 1 所示。可概括如下:1)计算出各个特征之间以及各个特征与目标变量的互信息;2)最大化最大相关与最小冗余之间的差值,得到评价函数;3)通过评价函数式对原始数据集内部的特征进行评分,并对评分按照从高到低的原则对这些特征进行重要性排序。评分越优,说明该特

13、征与目标变量之间的相关性越高,重要性程度也就越高,包含的有用信息量就越多,与其它特征之间的冗余度越低;4)最终选取一定数目的特征子集组成最优特征子集。(1)(,)(,)(,)logd d()()x X y Yp x yI X Yp x yx yp x p y(2)(,)(,)(,)logd d()()p x yI X Yp x yx yp x p y(3)(,)(,)I X YI Y X1max(,)max(,)iixSD S yI x yS2,1min()min(,)ijijx xSR SI x xS(4)(5)max(,)max()D RDR(6)原始数据集计算互信息计算最大相关与最小冗余

14、得到评价函数评价特征获得最优特征子集排序选择111max(,)(,)1jmimjjixX SxSI xyI x xm图 1mRMR 特征选择算法基本流程窑28窑5 期3数据来源及预处理研究采用的数据来源于陕西省榆林市子洲县气象监测数据、地面监测数据、地质勘探数据以及人类活动影响数据等。相关实验数据来源于子洲县滑坡重点整治示范区的监测数据。获取到的相关特征有:降雨量、土壤含水率、土压力、裂缝位移、人类活动影响、斜坡倾角、高程、坡形特征,共 8 类。数据集使用的是 2018 年 5 月到 2019 年 5 月之间的 500 组数据(每 12 小时采集一次)。将所有数据分为训练集与测试集两部分,其中

15、,选择 80%作为训练集,20%作为测试集。前 400 组数据输入建立预测模型作为模型的训练数据,剩余的 100 组数据用来检测预报模型的精确度。滑坡的多源特征有定性和定量之分。针对定性类型数据,需要将其转化为定量数据,然后同定量数据一起做归一化处理,作为滑坡特征选择的输入。对收集到的滑坡多源特征(降雨量、土壤含水率、土压力、裂缝位移、人类活动影响、斜坡倾角、高程、坡形特征)进行分析。由于高程、坡形特征、斜坡倾角、及人类活动影响属于定性数据,需要转化为定量数据,依据对数据的统计分析、工程经验、现有的划分方法划分对应离散区间,结果如表 1 所示。由于不同监测设备采集到的滑坡相关数据,其特征与特征

16、之间的属性、量纲不同,数据的不统一性质很容易影响预报模型的精度,因此在研究滑坡灾害预测模型时,将多种传感器采集来的不同属性信息进行数据预处理,之后再将其作为模型的输入进行训练,从而确保滑坡预报的科学性与准确性。具体步骤如下:1)基于程序判断滤波,对数据采用偏差的方法进行清洗。首先,根据生产经验,确定出相邻两次采样信号之间可能出现的最大偏差;然后,将两次相邻的采样值相减,求出其增量(以绝对值表示);然后,将该增量与两次采样允许的最大偏差进行比较,若超过此偏差,则取上次采样值作为本次采样值,若小于或等于此偏差,则将本次采样信号作为本次采样值。该步骤能克服因偶然因素引起的脉冲干扰。2)对多种特征数据

17、进行归一化处理,变换公式如下式所示:式中,X 代表归一化后的数据;x 为采集到的数据;xmin和 xmax为该样本数据的最大值和最小值。对收集到的多源特征做归一化处理,处理后的部分数据如表 2 所示。4实验分析在实验研究中,针对 mRMR 算法而言,初始特征为获取到的滑坡灾害多源特征,包括降雨量、土壤含水率、土压力、裂缝位移、人类活动影响、斜坡倾角、高程、坡形特征,共 8 类;目标变量则为滑坡灾害的发生概率。将陕西省榆林市子洲县地质灾害研究区收集到的 8 类滑坡初始特征共 500 组样本数据输入到mRMR 算法中。定义 x1、x2、x3、x4、x5、x6、x7、x8分别为降雨量、土壤含水率、土

18、压力、裂缝位移、人类活动影响、斜坡倾角、高程、坡形特征;y 为滑坡灾害发生概率;输出滑坡各个特征的评分及重要性排序,如图 2所示。根据相关工程实践经验,定义评分设定阈值为 70,即若某一滑坡特征的评分超过 70 分时,则表坡形特征0.71编号 降雨量123455000.480.220.390.410.890.760.240.470.360.720.7160.650.854990.730.52裂缝位移 高程0.650.170.750.290.530.670.410.520.680.350.550.840.820.760.750.07土壤含水率0.210.080.150.340.230.210.0

19、30.32土压力0.590.510.570.540.660.670.780.82表 2滑坡部分特征归一化数据表数据范围取值十分强烈0.75耀1.00序号因子C120001500耀20001000耀15001000200耀0.260.26耀0.460.46耀0.780.78耀1.000耀0.29高程/mC2斜坡倾角/(毅)20耀300.29耀0.4830耀500.48耀0.7550耀650.75耀1.0065耀900.29耀0.48C3坡型特征凹形坡0耀0.25阶梯形坡0.25耀0.50直线形坡0.50耀0.75凸形坡0.75耀1.00微弱0耀0.25C4人类活动较强烈0.25耀0.50强烈0.

20、50耀0.75表 1滑坡定性特征及指标量化表(7)minmaxminxxXxx张垚:基于 mRMR 算法的滑坡多源特征选择窑29窑微处理机2023 年明该特征为描述滑坡灾害发生的重要特征。在图 2 中,研究基于 mRMR 算法的特征选择,滑坡各个特征评分从高到低依次排序为:x1越87.532、x6越80.641、x4越75.423、x5越70.149、x7越54.473、x3越52.393、x2越46.324、x8越39.548,可见其中 x1、x6、x4、x5满足实验设定阈值的要求。实验发现,当对第 5 类特征(高程)进行评分时,其评分相比前 4 类特征大幅下降,与前 4 类特征评分存在显著

21、差异,且从第 4 类特征(人类活动影响)之后的特征评分变化波动已不再明显、下降趋势较为缓慢,这说明前 4 类主要的输入特征和滑坡发生概率相关性较强,后 4 类特征和滑坡发生概率相关性相对较弱,即前 4 类特征能够较好地表征滑坡灾害的发生,需要将其保留,后 4 类滑坡特征较为冗余,需要将其剔除。因此,最终将 8 类滑坡初始特征经过 mRMR 算法处理后的前 4 类特征(降雨量、斜坡倾角、裂缝位移、人类活动影响)作为滑坡预报模型的输入参数,用于神经网络模型的训练,该方法降低了模型数据结构的复杂度,同时为后期传感器优化布设提供了依据,有助于节约成本。5结束语所提出的基于 mRMR 算法的滑坡多源特征

22、选择方法,具有以下优势:方法原理简单、计算方便、复杂度低、效率高;泛化能力强,并且适用于多维小样本数据;对于非线性的变量直接进行筛选,缩短了模型的训练步数和仿真时间。通过该方法进行特征选择,8 类滑坡初始特征经选择后降低为 4 类,实验结果表明该方法降低了数据的复杂度、消除了部分特征的冗余度,对于提高模型的鲁棒性、降低传感器设备的监测采集成本具有一定的工程实践意义,可为有关部门的决策提供科学依据。参考文献:1王恭先.滑坡防治工程措施的国内外现状J.中国地质灾害与防治学报,1998,9(1):1-9.WANG Gongxian.Present sitnuation of engineering

23、measuresfor preventing and controlling landslide in China and abroadJ.The Chinese Journal of geological hazard and control,1998,9(1):1-9.2ZHUANG Yu,XING Aiguo,LENG Yangyang,et al.Inves-tigation of characteristics of long runout landslides basedon the multi-source data collaboration:a case study of t

24、heShuicheng basalt landslide in Guizhou,ChinaJ.Rock Me-chanics and Rock Engineering,2021,54(8):3783-3798.3RAI D K,XIONG Donghong,ZHAO Wei,et al.An inves-tigation of landslide susceptibility using logistic regressionand statistical index methods in Dailekh District,NepalJ.Chinese Geographical Science

25、,2022,32(5):834-851.4MENG Zhenjiang,MA Penghui,PENG Jianbing.Charac-teristics of loess landslides triggered by different factors inthe Chinese Loess PlateauJ.Journal of Mountain Science,2021,18(12):3218-3229.5黄鑫,权朝斌,王辉,等.多维关联因素筛选条件下的堆积层滑坡体积预测研究J.河南科学,2020,38(4):645-653.HUANG Xin,QUAN Chaobin,WANG Hu

26、i,et al.The pre-diction of landslide volume of accumulation layer under thecondition of multi-dimensional correlation factor screeningJ.Henan Science,2020,38(4):645-653.6徐根祺,李丽敏,温宗周,等.基于宽度学习模型的泥石流灾害预报J.山地学报,2019,37(6):868-878.XU Genqi,LI Limin,WEN Zongzhou,et al.Debris flow dis-aster prediction base

27、d on broad learning modelJ.MountainResearch,2019,37(6):868-878.7李丽敏,陈鹏年,温宗周,等.基于 FMPCE 与 OPF 的泥石流灾害预报模型J.单片机与嵌入式系统应用,2021,21(4):52-55.LI Limin,CHEN Pengnian,WEN Zongzhou,et al.Predictionmodel of debris flow disaster based on FMPCE and OPFJ.Microcontrollers&Embedded Systems,2021,21(4):52-55.8PENG Hanchuan,LONG Fuhui,DING C.Feature selectionbased on mutual information criteria of max-dependency,max-relevance,and min-redundancyJ.IEEE Transactionson Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.图 2mRMR 特征选择重要性排序图滑坡特征降雨量斜坡倾角坡形特征土壤含水率土压力高程人类活动影响裂缝位移806040200窑30窑

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服