收藏 分销(赏)

基于LLE和SVM的地震断层自动识别方法.pdf

上传人:自信****多点 文档编号:581609 上传时间:2024-01-02 格式:PDF 页数:11 大小:15.05MB
下载 相关 举报
基于LLE和SVM的地震断层自动识别方法.pdf_第1页
第1页 / 共11页
基于LLE和SVM的地震断层自动识别方法.pdf_第2页
第2页 / 共11页
基于LLE和SVM的地震断层自动识别方法.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于 LLE 和 SVM 的地震断层自动识别方法邹冠贵1,2,丁建宇1,任珂1,殷裁云3,董青山1(1.中国矿业大学(北京)地球科学与测绘工程学院,北京100083;2.中国矿业大学(北京)煤炭资源与安全开采国家重点实验室,北京100083;3.华能煤炭技术研究有限公司,北京101100)摘要:传统地震资料的断层解释主要依靠解释者的知识和经验,存在工作量大、效率低的问题。基于机器学习的断层识别方法,可以融合已有的地质资料、解释人员的知识和经验,构建高质量的数据集,增加解释的准确率。为了提高机器学习方法断层解释的准确率,构建基于局部线性嵌入(LLE)和支持向量机(SVM)算法的断层识别方法。首先

2、,介绍了 LLE 和 SVM 算法的基本原理,说明各算法的计算过程和主要参数;然后建立断层正演模型,分析不同属性的断层响应特征,针对训练数据集中多种地震属性之间的信息冗余,分别通过 LLE 和主成分分析(PCA)2 种算法对地震属性数据进行降维,引入的量化指标计算结果表明 LLE 算法对于非线性数据体有较好的降维效果;利用西上庄井田 6 条巷道、5 口钻井揭露的 11854 个已知构造信息的数据点,分别训练SVM,PCA-SVM 和 LLE-SVM 断层识别模型;以准确率 A、查全率 R、查准率 P、F 作为模型的衡量标准,对比各模型在工区数据上的预测分类性能;其中,LLE-SVM 模型综合表

3、现最佳,查准率可达 94.4%,远高于其他模型;最后,利用构建的各模型对整个工区进行预测,并结合实际揭露情况和人机交互解释结果进行分析。综合结果表明,基于 LLE 和 SVM 的断层识别方法在去除冗余信息的同时能够有效突出断层响应特征,减少主观人为因素的影响,提高断层解释的效率。关键词:断层识别;地震属性优化;煤田三维地震;局部线性嵌入;支持向量机中图分类号:P631.4文献标志码:A文章编号:02539993(2023)04163411Automatic identification method of seismic fault based on LLE and SVMZOUGuangui

4、1,2,DINGJianyu1,RENKe1,YINCaiyun3,DONGQingshan1(1.College of Geoscience and Surveying Engineering,China University of Mining and Technology-Beijing,Beijing100083,China;2.State Key Laboratoryof Coal Resource and Safety Mining,China University of Mining and Technology-Beijing,Beijing100083,China;3.Hua

5、neng Coal Technology ResearchCo.,Ltd.,Beijing101100,China)Abstract:Thefaultinterpretationoftraditionalseismicdatamainlyreliesontheknowledgeandexperienceoftheinter-preter,whichhastheproblemsofheavyworkloadandlowefficiency.Inordertoconstructhigh-qualitydatasetsandin-creasetheaccuracyofinterpretation,m

6、achinelearningcanintegratetheexistinggeologicaldata,theknowledgeandex-perienceoftheinterpreter.AfaultrecognitionmethodbasedonLocalLinearEmbedding(LLE)andSupportVectorMa-chine(SVM)algorithmsisconstructedtoimprovetheaccuracyoffaultinterpretationbymachinelearningmethods.First,thebasicprinciplesofLLEand

7、SVMalgorithmsareintroducedtoillustratethecalculationprocessandmainparametersofalgorithms.Thenafaultforwardmodelingmodelisestablishedtoanalyzethefaultresponsecharacteristicsofdifferentat-收稿日期:20220223修回日期:20220530责任编辑:韩晋平DOI:10.13225/ki.jccs.2022.0226基金项目:国家重点研发计划资助项目(2018YFC0807803)作者简介:邹冠贵(1981),男,

8、福建龙岩人,副教授。E-mail:通讯作者:任珂(1993),男,山东寿光人,博士研究生。E-mail:引用格式:邹冠贵,丁建宇,任珂,等.基于 LLE 和 SVM 的地震断层自动识别方法J.煤炭学报,2023,48(4):16341644.ZOUGuangui,DINGJianyu,RENKe,etal.AutomaticidentificationmethodofseismicfaultbasedonLLEandSVMJ.JournalofChinaCoalSociety,2023,48(4):16341644.第48卷第4期煤炭学报Vol.48No.42023年4月JOURNALOFCH

9、INACOALSOCIETYApr.2023tributes.Aimingattheinformationredundancyamongvariousseismicattributesinthetrainingdataset,theseismicattrib-utedataaredimensionallyreducedbyLLEandprincipalcomponentanalysis(PCA).TheintersectiondiagramshowsthattheLLEalgorithmhasabetterdimensionalityreductioneffectfornonlineardat

10、avolumes.TheSVM,PCA-SVMandLLE-SVMrecognitionmodelsoffaultweretrainedbyusing11854knownstructuralinformationdatapointsrevealedbysixroadwaysandfivedrilledwellsintheXishangzhuangCoalfield.AccuracyrateA,recallrateR,precisionratePandFvaluewereusedasthemeasurementstandardstocomparethepredictionandclassific

11、ationperformanceofeachmodelintheresearcharea.Amongthem,theLLE-SVMmodelhasthebestoverallperformance,withaprecisionrateof94.4%,muchhigherthanthoseofothermodels.Finally,thewholeresearchareaispredictedbyusingthemodels,andanalyzedbycombiningtheactualdisclosureandartificialinterpretationresults.Thecompreh

12、ensiveresultsshowthatthefaultidentific-ationmethodbasedonLLEandSVMcaneffectivelyhighlightthefaultresponsecharacteristicswhileremovingredund-antinformation,reducetheinfluenceofsubjectivefactors,andimprovetheefficiencyoffaultinterpretation.Key words:faultidentification;seismicattributesoptimization;3D

13、coalfieldseismic;locallylinearembedding;sup-portvectormachine断层是煤矿开采中常见的一种地质构造,主要是由于地壳运动引发岩层断裂造成的1。在进行煤层开采时不可避免地遇到各种地质构造,若在生产时忽视了地质构造或者采取的安全措施不当,则很容易引发煤矿地质灾害,给煤矿带来重大的经济损失和人员伤亡2。因此,查明断层分布是构造解释的重要组成部分。传统断层解释是研究人员根据地震剖面上同相轴的不连续性来判别,这种方法不仅工作量很大,而且很难发挥地震多属性解释的优势。为了打破传统断层解释方法的局限性,一系列的断层增强属性从三维地震数据体中被提取出来,

14、如相干体属性通过道间相似性的计算,描述地层的横向不均匀性3;曲率属性通过沿层曲率值的计算,反映地层受构造应力挤压时层面弯曲的程度4;混沌体属性通过局部构造张量特征值相对大小和不同特征值的组合运算,衡量振幅值的规律性和混乱性,从而突出特殊地质体的边界等5。这些地震属性是地震数据通过数学计算得到的运动学、动力学、几何学及统计学特征,一定程度上可以强化和反映地层的不连续性6,但是本质上依然是单属性解释方法。近年来,伴随着人工智能领域的发展,出现了很多基于机器学习算法的断层自动识别方法,这些方法利用多种地震属性构建训练数据集,通过模型参数优化实现断层识别,可以有效减少解释的多解性,是一种真正的多地震属

15、性断层解释方法。如 BP 神经网络算法7、支持向量机8、卷积神经网络9等。支持向量机(SVM)作为一种新型的模式分类方法,其本质是寻找分类平面,在面对小样本数据时,SVM 算法构建的模型相较其他算法具有更强的鲁棒性10。目前支持向量机被广泛用于解决煤层气和瓦斯涌出量预测11-12、煤层顶底板导水断裂带高度预测13、底板突水量预测及突水危险性评价14等问题。已有的研究表明:在训练数据集中,随着地震属性数量的增加,一是可能带来数据冗余,造成信息的重复和浪费15,比如方差体属性和相干体属性的相关性很高,这两种地震属性都可以表征断层构造;二是大量属性中包含着许多彼此相关的因素,带来计算效率的降低16。

16、已有的机器学习训练数据集构建方法表明:优化技术是解决此类问题的有效途径,可以降低多解性提高预测精度17-18。常见的优化方法主要有主成分分析(PCA)、局部线性嵌入(LLE)等。PCA为地震属性融合过程中一种常用的属性优化方法,其核心思想是通过坐标旋转消除原数据空间的多重共线性,从而达到线性降维的目的19。JAHAN 等20使用 PCA 来对地震资料多种属性进行融合的方式来进行断层识别和提取。但是,地震属性之间不仅存在线性关系,还存在非线性关系。相较于 PCA,局部线性嵌入(LLE)可以对高维空间上的数据点进行降维,使其低维空间的局部邻域关系与原嵌套空间相同,更适合于解决地震数据的非线性特征降

17、维问题21。山西省西上庄煤矿小断层发育,笔者以该矿一二分区西翼为研究靶区,在三维地震资料的基础上,提取多种地震属性构建特征集,分别通过 LLE 和主成分分析(PCA)2 种算法对地震属性数据进行降维,对比分析 SVM 算法的断层识别效果,从而为煤田三维地震资料解释断层分布提供了一种新的思路。1基本原理1.1LLE 算法原理LLE 算法是 ROWEIS 和 SAUL 在 2000 年提出的非线性降维方法22。假设每个数据点与它近邻点位于流形的一个线性或近似线性的局部领域,此时每第4期邹冠贵等:基于 LLE 和 SVM 的地震断层自动识别方法1635个样本点就可以通过近邻点来线性表示,在重建低维流

18、形时,使得重构误差最小,令其每个数据点的局部近邻关系与原空间保持一致2325。算法实现共需要3 个步骤:X=x1,x2,xN RDNxi(1)对样本数据集,寻找每个样本点 的 k 个近邻点,其中,R 为实数域;D 为数据维度;N 为样本数。(W)(2)计算样本点的局部重建权值矩阵。通过定义一个代价误差函数:min(W)=Ni=1?xikj=1wijxij?2(1)xij(j=1,2,k)xikwijxixijkj=1wij=1式中,为 的 个近邻点;为 与之间的权重,且要满足条件。(3)将所有的样本映射到低维空间中。映射条件满足:min(Y)=Ni=1?yikj=1wijyij?2(2)(Y)

19、yixiyij(j=1,2,k)yi式中,为损失函数;为的输出向量;为 的 k 个近邻点,且满足:ki=1yi=0,1NNi=1yiyTi=I(3)mmwij(i=1,2,N)NNxjxiWi,j=wijWi,j=0其中,I 为的单位矩阵。这里存储在的稀疏矩阵 W 中,当为 的近邻点时,否则。损失函数可重写为min(Y)=Ni=1Nj=1Mi,jyTiyi(4)NN其中,M 为的对称矩阵,其表达式为M=(IW)T(IW)(5)YMmMm+1m要使损失函数值达到最小,则取 为的最小个非零特征值所对应的特征向量。在处理的过程中,将的特征值从小到大排序,第 1 个特征值几乎接近于 0,则舍去第 1

20、个特征值。通常取 2间的 个特征值对应的特征向量作为输出结果。1.2SVM 算法SVM 算法是 CORTES 和 VAPINK 于 20 世纪 90年代提出的26,是使用最为广泛的核学习算法。它的基本思想为将原低维输入空间中的非线性问题映射到高维特征空间中进行求解。SVM 的研究重点是寻求最优的超平面,最大限度地减小训练数据的分类错误10,27-28。SVM 具体算法为minR(w,)=12wTw+CNi=1i(6)yi(wTxib)1i,i=1,2,N(7)C式中,为惩罚系数,它会对分类器错分样本数产生影响;为松弛变量。加入核函数后得到最终的 SVM 分类函数为f(x)=sgn(SVaiyi

21、K(xi,x)+bi)(8)aibiK(xi,x)(xi)(xj)xixj其中,SV 为支持向量;、为拉格朗日乘子;为核函数,核的值分别等于特征空间和中 2个向量和的内积,即K(xi,xj)=(xi)(xj)(9)核函数的种类有很多,其中最常用的是高斯核函数,因为其易于实现且具有非线性的映射能力,对处理非线性数据体有较好效果。高斯核函数的表达式为K(xi,xj)=exp(g xixj2)(10)其中,g 为核函数参数。如果 g 过大,高斯分布形态又高又瘦,会造成只会作用于支持向量样本附近,模型出现过拟合;反之,g 过小,模型容易出现欠拟合。2断层正演模拟分析为探讨不同地震属性对断层的响应特点,

22、以及测试 LLE 算法对地震属性降维的效果,笔者基于交错网格有限差分法构建断层正演模型,计算并提取地震属性,观察断层对不同地震属性的响应情况,并以 PCA线性降维方法作为参照,对比 2 种降维方法在模型数据上的降维效果。为了尽可能使模型符合实际情况,正演模型构建时参考了研究区西上庄矿的实际地质构造情况。断层正演模型(图 1)参数如下:模型分为3 层,上层为砂岩层,速度均为 3000m/s,密度为 2.7g/cm3;中间为煤层,埋深 300350m,速度为 2000m/s,密度 1.5g/cm3,层厚为 4m;下层为泥岩层,速度为 2800m/s,密度为 2.2g/cm3。煤层内包含 6 个断层

23、,其中 3 个为正断层,3 个为逆断层,自左至右断层落差分别为 5、14、4、17、3、20m。模型地震道间距为 1m,震源为雷克子波,频率 50Hz。采用垂直激发,自激自收,并加入了标准差 10%的白噪声。模型正演得到地震剖面,利用地震解释软件追踪目标层位(图 2)。根据研究经验,提取对断层响应特征明显的属性,包括方差、混沌体、能量、倾角、瞬时频率、瞬时相位、瞬时振幅、均方根振幅、最大振幅、最小振幅和弧长,一共提取 11 种属性。将各属性值分别进行归一化处理后投影到坐标系中,如图 3(a)所1636煤炭学报2023年第48卷示。可以看出:断层信息与各属性值分布均具有一定规律性,这表明通过这些

24、属性可以区别断层与非断层;同时还可以观察到部分属性与断层之间存在相似的关系,这反映了信息的冗余问题。如果将这些属性信息全部用于断层识别,很容易造成模型训练过程中的过拟合,因此需要对属性数据进行降维处理。道号埋深/m14 m3 m040801201602002402803205205405605806006205 m4 m17 m20 m砂岩层煤层泥岩层图1正演模型Fig.1Forwardmodel60040020004080120160200240280320道号时间/ms图2模型正演剖面Fig.2Cross-sectionofforwardmodeling对提取得到的 11 种地震属性值分别

25、进行 LLE 降维和 PCA 降维。以累计方差贡献率大于 95%的标准,PCA 降维算法选取的主成分个数为 7;以重构误差最小为标准,LLE 算法近邻点取值为 3,嵌入维度取值为 2,降维后的特征响应情况如图 3(b)、(c)所示。为了分析 2 种算法的降维效果,笔者引入量化指标来进行评价,其主要思想为:对于一个较好的降维方法而言,任意 2 个点在高维空间中如果是近邻点,那么降维后它们在低维空间中也应当是近邻点29。该指标的计算如式(11)所示,它的值介于 0 和 1 之间,指标值越小意味着降维结果中近邻信息保持得更好,也就是降维结果更理想。Index=1pqpa=1qb=1DH(a,b)DL

26、(a,b)(11)DH(a,b)DL(a,b)a=式中,为归一化后的高维空间中的距离矩阵;为归一化后的低维空间中的距离矩阵;1,2,p b=1,2,q;。经过计算,PCA 降维的数据集 Index 值为 4.62104,LLE 降维的数据集 Index 值为 2.75104。该指标的计算结果证明,LLE 算法的降维效果更加理想。地震属性数据在经过 LLE 降维后,既减少了数据中的冗余信息,又很好的保留了原始数据的拓扑关系,保证了断层和非断层点仍然可以通过新产生特征进行区分。3案例在正演模拟结果的基础上,为了进一步分析LLESVM 断层识别方案的可行性和适用性,尝试对实际三维地震数据进行应用。3

27、.1研究区概况本次的研究靶区是西上庄井田,其位于山西省阳泉市及晋中市寿阳县境内。井田地处山西省黄土高原的中高山区,井田内地势陡峻,地形高差悬殊。一第4期邹冠贵等:基于 LLE 和 SVM 的地震断层自动识别方法1637方差混沌体倾角瞬时频率瞬时相位均方根振幅最大振幅最小振幅弧长能量瞬时振幅(a)原始属性1.00.501.00.501.00.501.00.501.00.501.00.501.00.501.00.501.00.501.00.50道号1.00.50050100150200250300350归一化后的原始属性值主成分 1主成分 2主成分 3主成分 4主成分 5主成分 6主成分 7(b)

28、PCA 降维后特征1.00.501.00.501.00.501.00.501.00.501.00.50道号1.00.50050100150200250300350PCA 降维后主成分值维度 1维度 2(c)LLE 降维后特征1.00.50道号1.00.50050100150200250300350LLE 降维后各维度值图3断层处的特征响应情况Fig.3Characteristicresponsesatfaults1638煤炭学报2023年第48卷般相对高差 150300m,地势西高东低,南高北低。井田内大部为基岩裸露区,局部为新生界地层所覆盖。井田内可采煤层有:山西组 3、6、15 号煤层,太

29、原组 8、9、12、15、15 下号煤层。其中,15 号煤层是本次解释目标层,位于山西组中部,煤层厚度 2.955.12m,平均 3.75m,煤层结构简单,偶含 12 层夹矸。研究靶区的勘探面积为 4km2,工作面内已有 6 条巷道、5 口钻井,其在矿区内的分布及断层揭露情况如图 4 所示,已揭露的 4 条断层 F1、F2、F3 和 F4 的断层信息见表 1。F2F4F3F1断层井无断层井巷道和断层揭露的已知断层巷道普-13-34-35-3普-20300 mN图4研究靶区已有巷道、钻井分布Fig.4Distributionofexistingroadwayanddrillingintheres

30、earchtargetarea表 1 已揭露断层的基本信息Table 1 Basic information on exposed faults断层正逆倾角/()落差/m延展长度/mF1正708006398F2正6070020475F3正708005210F4逆60700177123.2地震属性提取与降维利用工区内测井数据以及地震波的波阻抗关系在地震数据解释软件中标定并追踪目标煤层。提取和上述正演模型相同的 11 种地震属性,全区共提取数据点 149996 个,图 5 为部分地震属性的可视化展示。根据巷道、测井揭露的断层和非断层点信息标记标签,其中断层点的信息来自图 4 中的断层 F1、F2和

31、 F4,断层 F3 留作验证。断层点标记为“1”,非断层点标记为“0”,共标记数据点 11854 个,包含断层数据点 4578 个,非断层数据点 7276 个。由于地震属性数据的量纲不同,数据量差别很大,所以在进行降维处理前,通过式(12)将工区内的所有数据进行标准化,标准化后的数据在 0,1 内且无量纲。将标准化后的数据复制为 3 组,对 3 组数据分别进行不同的操作,分别是保持原始数据不变、将数据进行PCA 降维和进行 LLE 降维变换。yi=xixminxmaxxmin(12)式中,yi为归一化后样本值;xi为归一化前样本值;xmax为样本最大值;xmin为样本最小值。dKKKKKKd在

32、将数据集进行 PCA 降维时,确定的主成分个数为 4,该主成分取值下累计方差贡献率达 95%。LLE 算法主要有 2 个输入参数:嵌入后的维数 和样本邻近点数。降维的质量和这 2 个参数有很大关系。其中,近邻点个数 的选取在 LLE 算法中起到关键作用,如果选取太大,那么每个邻域会更趋近于整体,LLE 会丢失非线性特征,不能体现局部特性;如果 选取太小,LLE 则不能保持样本点在低维空间中的拓扑结构,通常情况下 取值在 10 左右,笔者对 在 6,12上进行测试。本征维数 是指降维映射后的输出维数,如果本征维数选取得太大,输出数据则会受到噪声的影响;如果本征维数选取得过小,则不能正确地提取地震

33、属性样本数据的固有特征。本文地震属性数据集降维的目标维度在 4,10 进行测试。KddKdd=5 K=6确定参数的范围后,通过网格搜索法来确定最佳的 和,使得重构后的数据和原始数据误差最小。将邻近点数 K 和目标维度 的取值组成网格,每一个网格就是(K,d)的一种取法,计算每一对参数的重构误差,选择重构误差最小的参数组合。数据集通过 LLE降维后的重构误差整体上是随着邻近点数 和嵌入维度 增加而增加,如图 6 所示。其中,在“五角星”标记处,存在误差最小值 3.212062731016,此时对应的最佳参数取值为,。3.3SVM 模型参数寻优C为了构建 SVM 模型,分别将 3 组数据集中的巷道

34、、断层已揭露的标记有标签的样本点选出,用于训练和构建基于支持向量机算法的断层识别模型。支持向量机模型在构建过程中,其分类性能除了和输入数据集有关外,还取决于惩罚系数 和核函数参数 g。第4期邹冠贵等:基于 LLE 和 SVM 的地震断层自动识别方法1639针对支持向量机的参数选择问题,本研究采用基于粒子群优化算法的参数选择方法。粒子群优化算法(ParticleSwarmOptimization,PSO)由 KENNEDY和 EBERHART 在 1995 年提出,它通过个体间的协作来寻找最优解,拥有效率更高,更容易实现的优点。PSO 求解优化问题时,问题的解对应于寻找搜索空间中一只鸟的位置,这

35、些鸟被称为“粒子”,每一个“粒子”都有自己的位置和速度 2 个属性,分别决定飞行的方向和距离,还有一个优化函数决定的适应值。每一个粒子记录并追随当前最优粒子在搜索空间中寻找最优解。PSO 初始化为一群随机粒子,通过迭代找到最优解。在每一次迭代中,粒子通过跟踪 2 个极值来更新自己,一个是粒子本身找到的最优解叫个体极值,另一个是整个种群找到的最优解叫做全局极值。在找到 2 个最优解时,粒子根据 2 个公式来更新自己的速度和位置。算法具体步骤如下:C设定 SVM 中的惩罚系数 和参数 g 作为粒子群中的粒子,将 SVM 分类正确率作为适应度函数,表达200300400500CDP600700800

36、900100150200Inline00.050.10方差属性值(a)方差体200300400500CDP600700800900100150200Inline(b)均方根振幅200300400500CDP600700800900100150200Inline(c)混沌体011均方根振幅/103混沌体属性值22012图5地震属性平面Fig.5Planargraphofseismicattributes45最小值6789106789101112Kd05101520253035404550重构误差/1012图6网格搜索结果Fig.6Resultsofgridsearch1640煤炭学报2023年第

37、48卷式为S=ctct+cf100%(13)ctcf式中,为支持向量机分类正确数;为分类错误数。利用建模的数据集分别计算 2 个粒子的适应度值,并利用式(14)及式(15)对 2 个粒子的速度和位置进行更新:vin(t)=vin(t1)+c1r1jpinxin(t1)+c2r2jpgnxin(t1)(14)xin(t)=xin(t1)+vin(t)(15)n1 n N c1c2r1jr2jvin(t)tinxin(t)tinpin(t)tinpgn(t)tn式中,为维数,;和为正常数;和为0,1 范围内的 2 个随机数;为 时刻、第 个粒子在第 维度上的速度;为 时刻、第 个粒子在第 维度上的

38、位置;为 时刻、第 个粒子在第 维上的个体最优值;为 时刻、所有粒子在第 维上的最优值。将已知标签的各数据集按照 73 的比例分为训练集和测试集。在利用训练集训练过程中,通过 PSO搜索 SVM 模型的最佳参数 C 和 g。以经过 LLE 降维的数据集为例,参数训练过程中,其适应度值随进化代数变化情况如图 7 所示。由图 7 可以看出,SVM 模型在进化到 30 代后,最佳适应度值就不再变化,此时参数 C 取值为 22.8736,参数 g 取值为 76.2821。其他 2 组数据集开展同样的参数寻优过程,最终各模型的最佳参数取值见表 2。98969492908886848280适应度02040

39、6080100进化代数最佳适应度平均适应度图7适应度值随进化代数变化(LLE 降维数据)Fig.7FitnessvaluechangeswithevolutionaryAlgebra(LLEdimensionalityreductiondata)表 2 PSO 参数寻优结果Table 2 PSO parameter optimization results模型CgSVM7.4314193.7622PCA-SVM5.8401159.2297LLE-SVM22.873676.28213.4模型评价在利用测试集进行模型评价时,为了更好地评价各 SVM 模型的断层识别能力,本研究选用了 4 个参数评价

40、模型性能,分别是准确率 A、查准率 P、查全率R 和 F。各参数的计算方法见表 3 和式(16)(19)。其中,准确率 A 是指预测正确的样本点在总样本点中占的比例,是评价预测效果的常用指标。查准率 P 是指预测正确的断层样本在所有预测为断层样本中占的比例。查全率 R 是指预测正确的断层样本在确实为断层的样本中占的比例,代表了模型在断层样本的预测能力。F 值通过查准率 P 和查全率 R 两项指标计算调和平均数得到。4 种指标代表了不同的意义,在使用 4 种指标进行比较时,好的模型并不一定在全部指标上优于其他模型,优秀的模型是综合考虑实际应用场景和需求,得到合适的结果。表 3 评价指标交叉矩阵T

41、able 3 Cross matrix of evaluation index样本标签(1/0)推测断层(1)推测非断层(0)揭露的断层(1)正确正例(TP)错误的负例(FN)揭露非断层(0)错误的正例(FP)正确的负例(TN)各模型评价参数的计算结果如图 8 所示。其中准确率最高的是 LLE-SVM 模型为 0.836895,最低的是 PCA-SVM 模型为 0.790051;查准率最高的是LLE-SVM 模型为 0.944009,最低的是 SVM 模型为0.810863;查全率最高的是 SVM 模型为 0.626217,最低是LLE-SVM 模型为0.613984;F 最高的是LLE-SV

42、M模型为 0.744042,最低的是 SVM 模型为 0.706678。综合来看 LLE-SVM 模型有最好的预测性能。SVM0.804 8920.810 8630.626 2170.706 678PCA-SVM0.790 0510.822 5810.625 7670.710 801LLE-SVM0.836 8950.944 0090.613 9840.744 042准确率 A评价值查准率 P查全率 RF00.20.40.60.81.0图8各模型评价结果Fig.8EvaluationresultsofdifferentmodelsA=TP+TNTP+TN+FP+FN(16)第4期邹冠贵等:基于

43、 LLE 和 SVM 的地震断层自动识别方法1641P=TPTP+FN(17)R=TPTP+FP(18)F=21/P+1/R(19)3.5研究区预测及分析将训练得到的模型对整个研究区内的断层分布进行预测,对预测结果进行成图,如图 9 所示。其中图 9(a)(c)分别为原始数据预测结果、PCA 降维后预测结果、LLE 降维后预测结果。为了更好地对各模型预测结果进行分析,将巷道、钻井揭露的断层分布以及该研究区内人工解释的断层分布情况均标记到图 9 中。通过这些信息,对预测情况进行分析:整体看来,没有进行降维处理的原始数据预测结果,预测的异常区域偏大,断层连片分布严重;PCA-SVM 模型预测的异常

44、区域比原始数据少,与人工解释的断层走向基本一致,但在断层 F3 处并没有异常响应;原始数据通过 LLE 降维后,在断层 F3 处存在异常响应。从图 9 中的断层展布来看,各模型预测的断层走向和断层延展长度大致相同,最大不同之处在于每个断层垂直于走向方向的分布形态,即断层的“胖瘦”情况。当断层“过胖”时,代表更多的非断层点被预测为断层点,此时查准率将会降低;反之,当模型预测的断层形态清晰且准确时,模型的查准率就会升高。LLE 模型较好的分布形态与该模型较高查准率的模型评价结EGFABF2F4F3F1普-13-34-35-3普-2CF2F4F3F1普-13-34-35-3普-2HF2F4F3F1普

45、-13-34-35-3普-2断层井无断层井巷道和断层揭露的已知断层巷道人工解释断层模型预测异常区标记区域A200000300400500CDP600700800900100200Inline(a)SVM 模型的预测结果200300400500CDP600700800900100200Inline(b)PCA-SVM 模型的预测结果200300400500CDP600700800900100200Inline(c)LLE-SVM 模型的预测结果图9各模型预测断层展布Fig.9Faultdistributionpredictedbyeachmodel1642煤炭学报2023年第48卷果相吻合。图

46、9(a)中的区域 A 和图 9(c)中区域H 处,人工解释未解释出断层,但从巷道实际揭露情况来看,A 区域实际存在落差 5m 的小断层 F3。这说明相较于人工断层解释,机器学习模型在小断层识别上具有一定优越性。在区域 G 处,尽管人工解释此区域存在断层,但 PCA-SVM 和 LLE-SVM 两种模型在该区域响应都较弱。从巷道揭露的情况看,G 区域经过巷道的部分并没有断层,因此判断该区域存在断层的可能性较小。4结论(1)利用 PCA 和 LLE 算法分别对正演模拟数据进行降维,量化指标的评价结果表明:LLE 算法可以充分发挥非线性优势,保留地震数据间的拓扑关系,降维效果更加理想。(2)相较于

47、LLE-SVM 模型,SVM 模型和 PCA-SVM 具有较高的查全率 R,并且在全区预测图上表现为大面积的异常区域。这一结果说明:原始属性集本身存在信息冗余导致的模型过拟合问题;PCA 降维后的属性集虽然可以避免信息的重复,但在线性降维过程中,破坏了原有的数据结构,导致模型分类精度相对较低。(3)LLE-SVM 模型以牺牲小部分查全率 R 为代价得到了更高的查准率 P,预测结果也与实际揭露更加匹配。这表明利用 LLE 算法对地震属性进行降维,大大提高了数据的有效信息密度;在保留原始数据集有效信息的同时,可以有效地压制噪声。(4)LLE-SVM 断层识别方法具有很强的可行性和适用性,具有广泛的

48、应用前景;目前西上庄井田揭露的断层数量有限,后续的回采验证可以有助于对模型进一步完善和分析。参考文献(References):彭苏萍,程桦.煤矿安全高效开采地质保障体系M.北京:煤炭工业出版社,2001:103109.1彭苏萍.我国煤矿安全高效开采地质保障系统研究现状及展望J.煤炭学报,2020,45(7):23312345.PENGSuping.Currentstatusandprospectsofresearchongeologic-alassurancesystemforcoalminesafeandhighefficientminingJ.JournalofChinaCoalSocie

49、ty,2020,45(7):23312345.2BAHORICH M S.Stratigraphic and structural interpretation with3DcoherenceJ.SegTechnicalProgramExpandedAbstracts,1996,14(1):1566.3杜文凤,彭苏萍.利用地震层曲率进行煤层小断层预测J.岩石力学与工程学报,2008,27(S1):29012901.DUWenfeng,PENGSuping.Seismichorizoncurvatureforpredict-ingsmallfaultincoalseamJ.ChineseJour

50、nalofRockMechanics4andEngineering,2008,27(S1):29012901.RANDENT,PEDERSENSI,SNNELANDL.Automaticdetectionandextractionoffaultsfromthree-dimensionalseismicdataJ.SEGTechnicalProgramExpandedAbstracts,2001,20(1):551.5石瑛,王赟,芦俊.煤田地震多属性分析技术的应用J.煤炭学报,2008,33(12):13971402.SHIYing,WANGYun,LUJun.Applicationofseim

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服