收藏 分销(赏)

基于改进XGBoost的地震多属性地质构造识别方法.pdf

上传人:自信****多点 文档编号:2265710 上传时间:2024-05-24 格式:PDF 页数:9 大小:4.65MB
下载 相关 举报
基于改进XGBoost的地震多属性地质构造识别方法.pdf_第1页
第1页 / 共9页
基于改进XGBoost的地震多属性地质构造识别方法.pdf_第2页
第2页 / 共9页
基于改进XGBoost的地震多属性地质构造识别方法.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、投稿网址:2023 年 第23 卷 第29 期2023,23(29):12442-09科 学 技 术 与 工 程Science Technology and EngineeringISSN 16711815CN 114688/T引用格式:杨楚龙,王怀秀,刘最亮.基于改进 XGBoost 的地震多属性地质构造识别方法J.科学技术与工程,2023,23(29):12442-12450.Yang ChuLong,Wang Huaixiu,Liu ZuiLiang.Seismic multi-attribute geological structure identification method ba

2、sed on improved XGBoostJ.Science Technology and Engineering,2023,23(29):12442-12450.矿冶工程基于改进 XGBoost 的地震多属性地质构造识别方法杨楚龙1,王怀秀1,刘最亮2(1.北京建筑大学电气与信息工程学院,北京 102616;2.华阳新材料科技集团有限公司,阳泉 045000)摘 要 地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有

3、效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting,XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12 种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification,BSC)与合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)相结合形成 BSC

4、-SMOTE 算法。用 BSC-SMOTE 算法对原始数据集进行平衡,再利用平衡后的数据集训练 XGBoost 分类器,并用贝叶斯优化(Bayesian optimization,BO)对该分类器进行超参数寻优,最后用此分类器预测构造。以山西新元煤矿责任有限公司东翼矿区为研究区域,实验结果显示,改进 XGBoost 算法模型的预测精确度为 0.95,比未改进的 XGBoost 算法提高了 0.16,比 K-近邻(K-nearest neighbor,KNN)、随机森林和支持向量机(support vector machine,SVM)等传统算法提高了 0.15 以上。改进 XGBoost 模型

5、的预测结果经可视化后与实际揭露构造对比基本吻合,说明该模型能够有效地识别出地质构造体。关键词 地震属性融合;地质构造识别;不平衡数据;机器学习中图法分类号 TD163;文献标志码 A收稿日期:2022-10-25;修订日期:2023-07-06基金项目:国家重点研发计划(2018YFC0807806);北京建筑大学 2022 年度研究生创新项目(PG2022090)第一作者:杨楚龙(1996),男,湖北洪湖人,硕士研究生。研究方向:机器学习,煤矿地质构造识别。E-mail:354957940 。通信作者:王怀秀(1966),女,汉族,安徽歙县人,博士,教授。研究方向:传感与检测技术,煤矿地质构

6、造识别,机器学习与人工智能。E-mail:。Seismic Multi-attribute Geological Structure IdentificationMethod Based on Improved XGBoostYANG Chu-long1,WANG Huai-xiu1,LIU Zui-liang2(1.School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 102616,China;2.Huayang New

7、 Material Technology Group Co.,Ltd.,Yangquan 045000,China)Abstract Seismic attributes can be used to interpret and predict geological structures,and therefore are widely used in the identifi-cation of coal mine geological structures.However,in general,the distribution of regions without structures a

8、nd regions with structuresin the exploration area is unbalanced,with many more regions without structures than with structures.In machine learning,traditionalclassifiers tend to be biased towards the majority class,making it difficult to effectively identify structures.To solve this problem,animprov

9、ed extreme gradient boosting(XGBoost)construction recognition method for imbalanced datasets was proposed.Firstly,twelveseismic attributes extracted from a three-dimensional seismic exploration dataset were used as dataset features and actual disclosed geo-logical structures as dataset labels to con

10、struct a multi-attribute dataset.Then,redundant features were filtered based on the correlationbetween features and labels.Next,the boundary sample classification(BSC)algorithm was combined with the synthetic minority over-sampling technique(SMOTE)to form the BSC-SMOTE algorithm.The original dataset

11、 was balanced using the BSC-SMOTE algorithm,and the balanced dataset was then used to train the XGBoost classifier.The classifier was further optimized using Bayesian optimization(BO)to search for hyperparameters.Finally,the classifier was used to predict structures.Taking the Dongyi mining area of

12、ShanxiXinyuan Coal Mine Co.,Ltd.as the research area,the experimental results show that the prediction accuracy of the improved XGBoostalgorithm model is 0.95,which is 0.16 higher than the original XGBoost algorithm,and more than 0.15 higher than the traditional al-投稿网址:2023,23(29)杨楚龙,等:基于改进 XGBoost

13、 的地震多属性地质构造识别方法12443gorithms such as KNN,random forest and SVM.The prediction results of the improved XGBoost model are basically consistent with theactual exposed structure after visualization,which shows that the model can effectively identify geological structures.Keywords seismic attribute fusio

14、n;geological structure identification;unbalanced data;machine learning 煤炭在现在以及将来很长一段时间仍为中国的最主要能源来源,是中国赖以生存和发展的物质基础1。进入21 世纪以来,大型化和向深处掘进成为煤矿的发展趋势,许多煤矿的地质条件处于不稳定状态,而煤矿的地质构造会引起矿井突水、瓦斯爆炸、塌方等一系列安全问题2-4。地质构造的存在严重威胁着矿井生产的安全,为此急需解决地质构造位置的预测,为提高煤炭的产量和保证煤矿安全提供有力的支持5。地震属性可以用来预测地质构造,而这些地震属性可以从三维地震勘探成果数据体中提取出来6-

15、7。地震数据经过一系列数学变换和处理,从中可以提取出关于地震波的几何属性、动力学属性、运动学属性和统计学属性,这些属性就称之为地震属性。地震属性经提取后对其进行分析利用,最后用来预测8。矿井中的地质情况十分复杂,影响地质构造的因素众多,利用单一的地震属性往往不能够准确地识别出构造,因此利用地震多属性融合技术十分有必要。地震属性的研究早在 20 世纪 90 年代就开始了,何隆运9于1992 年将波形合成追踪法融合地质属性,该方法建立了地震信息与地质信息间的对应关系,并利用此对应关系解决了许多复杂的地质问题,取得了良好的地质勘探成果。进入 21 世纪以来,随着机器学习和人工智能的蓬勃发展,地震多属

16、性融合技术与各种算法的结合更加紧密。金龙等10将支持向量机(support vector machine,SVM)应用于地震属性融合,SVM 是一种理论基础严密、鲁棒性强的机器学习算法,但是其在解决大数据量样本以及多分类问题上具有一定的局限性。丁峰等11用主成分分析(principal component analysis,PCA)根据主分量对多个地震属性进行排序,取前 3个主分量进行 RGB 颜色融合,该方法可在一定程度上提高地震属性分析的效率。但是 PCA 属于“有损失”压缩,会损失一些有用的信息。杨久强等12把深度神经网络应用于地震属性的融合中,深度神经网络一般含多个隐藏层,理论上可以模

17、拟任何的复杂函数,对模型的拟合能力十分强大,但是其容易出现过拟合、梯度爆炸的问题。上述研究虽然取得了一定的成果,但是仍然存在着属性选择较为单一、不能全面反映地质构造特征的问题。在大数据时代,各行各业都面临着海量的数据,但是这些数据大部分都存在类别不均衡的问题。面对此类问题,传统的分类算法会自动地忽略少数类,并把少数类样本归类到多数类样本中以提高分类准确率13。例如,在二分类问题中,多数类样本的比例为 98%,少数类样本的比例为 2%,分类器即使把任意样本都预测为多数类,该分类器的准确率都可以达到 98%。该分类器会导致大量的少数类被分为多数类,这种情况在一些特殊应用场所会造成严重后果。例如在医

18、院的癌症诊断中,正常病例占大多数,而真正的病例只占少数,医生关心的是怎么把这些真正的病例识别出来,在这种情况下把真正病例判断为正常病例的代价非常大。类似的情况在电信诈骗检测、煤矿地质构造识别中也很常见。在实际矿区中,构造体只占矿区的极少数部分,矿区大部分区域都为无构造,而目前关于地质构造识别的研究大都没有考虑这一因素。因此,在不平衡数据的情况下识别构造体具有重要的现实意义。为了克服上述问题,现提出一种基于边界样本分类算法(boundary sample classification,BSC)的合成少数类过采样技术(synthetic minority over-sam-pling techni

19、que,SMOTE)算 法 BSC-SMOTE。BSC-SMOTE 算法把处于正负样本边界的样本进行分类,只对“边界样本”进行合成,有效地避免正负样本边界模糊的问题。再用平衡后的数据集训练极限梯度提升(extreme gradient boosting,XGBoost)分类器,并使用贝叶斯优化(Bayesian optimization,BO)算法对该分类器进行超参数寻优,最后使用优化后的XGBoost 分类器对构造体进行识别。1 方法原理及其改进1.1 SMOTE 算法原理及其改进合成少数类过采样 技 术(SMOTE)14是 由Chawla 等于 2002 年提出的,该算法的提出主要是为了改

20、进随机过采样的弊端。随机过采样在合成新的少数类样本时,只是简单的对样本进行复制,这种简单的随机复制容易导致算法模型过拟合,不利于模型的泛化能力。而 SMOTE 算法不是对少数类样本进行简单的复制,而是根据一定的规则合成新的少数类样本。但是 SMOTE 在生成新样本时容易受样本集分布的影响,容易发生分布边缘化的问题,模糊样本的边界,如表 1 所示。SMOTE 过采样的主要思想是:对样本集中每一个少数类样本 Xi,计算其到其他所有少数类样本的投稿网址:12444科 学 技 术 与 工 程Science Technology and Engineering2023,23(29)欧式距离,然后对这些距

21、离按从小到大的顺序进行排序,找出与其最近的 K 个样本,最后按照式(1)对该样本 Xi与其 K 近邻 Xk进行插值处理生成新的少数类样本 Xnew,其中 rand(0,1)表示0 1 的随机数。SMOTE 算法合成少数类的示意图如图 1 所示。Xnew=Xi+rand(0,1)Xi-Xk(1)SMOTE 在生成新样本时容易受样本集分布的影响,发生分布边缘化的问题。对处于多数类样本与少数类样本分界处的少数类样本,在其选择 K 近邻样本时,这些邻居样本也分布在边界上,因此插值产生的新样本也处于边界上,反复迭代产生的新样本会模糊边界。极端情况下,如果有少数类样本分布于多数类样本之中,那么由它合成的新

22、样本也会落在多数类样本之中。在这种情况下,样本集虽然得到了平衡,但是无形中给模型的分类增加了难度。针对 SMOTE 算法容易模糊边界的问题,提出了基于边界样本划分的 BSC-SMOTE 算法,该算法强化了边界的界限,使之更有利于算法的分类,如表 2 所示。该算法的主要思想是:对样本集中每一个少数类样本 Xi,计算其到其他所有样本的欧式距离,然后对这些距离按从小到大进行排序,找出与其最近的 K 个样本,如果其 K 个最近邻中全部为多数类样本则将此少数类样本划分为噪声样本,如果表 1 SMOTE 算法Table 1 SMOTE algorithm算法 1:SMOTE 算法输入:总样本集 S,其中少

23、数类样本集为 T,多数类样本集为 P,近邻个数为 K。1:根据少数类样本集 T 和多数类样本集 P 计算采样倍率 N。2:计算出 T 中每一个样本 Xi到其他少数类样本的欧式距离,并找到其中最近的 K 个。3:根据采样倍率 N,从 K 近邻中找到 M 个样本;4:按照式(1)在 Xi和这 M 个样本之间合成新的少数类样本。输出:均衡后的数据集 Snew。图 1 SMOTE 示意图Fig.1 Schematic diagram of SMOTE其 K 个最近邻中有一半以上为多数类则将此少数类样本划分为边界样本,如果其 K 个最近邻中有一半以上为少数类样本则将此少数类样本划分为安全样本。最后,只对

24、边界样本按照式(1)进行插值处理,对安全样本和噪声样本不做处理。BSC-SMOTE 算法合成少数类的示意图如图 2 所示。表 2 BSC-SMOTE 算法Table 2 BSC-SMOTE algorithm算法 2:BSC-SMOTE 算法输入:总样本集 S,其中少数类样本集为 T,多数类样本集为 P,近邻个数为 K。1:根据少数类样本集 T 和多数类样本集 P 计算采样倍率 N。2:计算出 T 中每一个样本 Xi与 S 中样本的欧式距离,并找到其中最近的 K 个。3:计算 Xi的 K 近邻样本中的多数类样本个数 M。4:根据 M 与 K 的关系对 Xi进行划分。若 M=K,即 Xi的 K

25、近邻全为多数类样本,则 Xi被划分为噪声样本;若0M K/2,即 Xi的 K 近邻中多数类样本少于一半,则 Xi被划分为安全样本;若 K/2M K,即 Xi的 K 近邻中多数类样本占多数,则 Xi被划分为边界样本。5:计算边界样本 Xi在 T 中的 K 近邻,根据采样倍率 N,从 K 近邻中选取 M 个样本按式(1)进行插值处理。输出:均衡后的数据集 Snew。图 2 BSC-SMOTE 示意图Fig.2 Schematic diagram of BSC-SMOTE1.2 XGBoost 算法在解决不平衡数据的分类问题时,通常有两种解决思路15,一种是对数据集进行平衡,使得改造后的数据集均衡;

26、另一种思路是对算法层面进行一些改进,例如使用集成学习算法。XGBoost 的全称为 extreme gradient boosting,可翻译为极限梯度提升算法,是集成算法的一种。XGBoost 是由陈天奇等16于 2016 年所提出的,自XGBoost 提出以来,各种机器学习竞赛均由 XGBoost算法所统治。XGBoost 具有运行速度快,同时支持投稿网址:2023,23(29)杨楚龙,等:基于改进 XGBoost 的地震多属性地质构造识别方法12445分类和回归、精度高、拥有正则化、防止过拟合等优点。XGBoost 是在梯度提升树(gradient boosting de-cision

27、tree,GBDT)的基础上进行改进的,GBDT 只使用了一阶导数信息,XGBoost 在 GBDT 的基础上还使用了二阶导数信息,并且 XGBoost 可以自己定义代价函数,其代价函数引入了正则项用于控制模型的复杂度,使 XGBoost 学习出来的模型更简单,泛化性能更高。其主要思想为:先训练一棵树,得到预测结果,把预测值和真实值的差值记作残差,用残差代替真实值。然后在第一棵树的基础上训练第二棵树,得到第二棵树的残差,用残差代替真实值,以此类推直到第 K 棵树,最后把 K 棵树的预测值加起来得到最终结果。XGBoost 是由 k 个基分类器集成的一个分类器,例如第 t 次迭代的树模型是 ft

28、(xi),有y(t)i=tk=1fk(xi)=y(t-1)i+ft(xi)(2)式(2)中:y(t)i为第 t 次迭代后样本 i 的预测值;y(t-1)i为前 t-1 棵树的预测结果;ft(xi)为第 t 棵树模型的预测结果。目标函数 obj 的定义为obj=ni=1l(yi,yi)+Kk=1(fk)(3)式(3)中:l(yi,yi)是预测值和真实值的差距,称之为损失函数;(fk)为正则化项,用于控制模型的复杂度。由目标函数的定义可知,目标函数的值越小,代表预测值与真实值越接近。XGBoost 需要调节的超参数众多,其中最常用且最重要的参数如表 3所示。表 3 XGBoost 常用超参数Tab

29、le 3 XGBoost common hyperparameters超参数名称参数含义默认取值n_estimators基分类器数量100learning_rate学习率0.1colsample_bytree随机抽取特征比例1max_depth基分类器最大深度3reg_lambdaL2 正则权重1用 BSC-SMOTE 算法平衡后的数据集训练XGBoost分类器,得到 BSC-SMOTE-XGBoost 模型。1.3 贝叶斯优化算法贝叶斯优化(BO)是一种全局优化算法,具有高效性和鲁棒性的优点,能够在非常少的采样次数下快速找到全局最优解,因此被广泛地运用在超参数优化、机器学习模型优化、神经网络

30、结构搜索等领域。贝叶斯优化算法的原理是通过贝叶斯公式,将先验分布和观测数据结合起来,计算后验分布,并不断更新后验分布,最终找到全局最优解17。贝叶斯公式为P(fD)=P(Df)P(f)P(D)(4)式(4)中:f 为待优化的函数;D 为已知数据;P(fD)为已知数据 D 的情况下,待优化函数 f 的后验概率;P(Df)为函数 f 的似然函数,表示在函数 f下,数据 D 出现的概率;P(f)为先验概率,表示对函数 f 的先验分布的假设;P(D)为归一化因子,用于将后验概率归一化为概率分布。通过最大化后验概率 P(fD),可以找到最优函数 f。在每次迭代中,贝叶斯优化算法使用已知的数据 D 来更新

31、函数 f 的后验概率分布,然后根据后验概率分布选择下一个函数参数进行评估。这个过程不断迭代,直到找到最优的函数参数。用贝叶斯优化算法对所得到的 BSC-SMOTE-XGBoost 模型进行超参数寻优得到 BO-BSC-SMOTE-XGBoost 模型,其中待优化函数 f 为 XGBoost 的目标函数 obj。找到最优函数 f就找到了 XGBoost 的最优超参数组合。2 地震属性融合与筛选2.1 数据获取与分析地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。以山西新元煤矿三维地震勘探成果数据体为基础,提取出 12 种地震属性。这 12 种地震属性分别为:倾角

32、、最小振幅、最大振幅、瞬时相位、瞬时频率、均方根振幅、方差体、相干体、曲率、主频、瞬时振幅和平均能量。这 12 种地震属性的最大值、最小值和平均值如表 4 所示。可知,各个属性之间极差以及平均值差异较大,加上各属性的量纲不同,如果直接对这些属性进行融合,各个属性之间的差异会影响最后数据融合的效果。为了消除各个地震属性之间的差异,就需要对属性进行数据标准化处理。采用离差标准化消除各个属性之间量纲的差异,并把各个属性通过线性变换映射到0,1。离差标准化的转换公式为x=x-min(x)max(x)-min(x)(5)式(5)中:x 为原始属性的值;min(x)为属性最小值;max(x)为属性最大值;

33、x为标准化后的属性值。以经过标准化处理后的 12 种地震属性作为数据集的特征,以山西新元煤矿有限公司前方实际揭露的地质构造作为数据集的标签,由此构成数据集的特征和标签。数据集的标签为 3 类:无构造(标签记为0)、陷落柱(标签记为1)、断层(标签记为2)。投稿网址:12446科 学 技 术 与 工 程Science Technology and Engineering2023,23(29)其中断层破坏了煤岩体内部应力场的初始平衡状态,使煤层发生滑动位移,大规模的断层会造成煤矿停产和工作面搬家,甚至会造成透水、瓦斯突水等安全问题18。陷落柱会影响煤层分布的连续性及稳定性,同时陷落柱会对工作面的布

34、置和推进产生巨大影响,导致工作面的开采效率大幅降低19。通过对矿方提供的数据进行分析,发现已揭露的矿区中,无构造区域占绝大多数,而断层和陷落柱只占一少部分。新元煤矿已揭露矿区数据分布情况如表 5 所示。由表5 可知东翼勘探区无构造标签数最多,数据的不平衡程度最高,且断层和陷落柱较为发育,具有一定的典型性,故选取东翼勘探区作为研究区域。表 4 地震属性的数据分布情况Table 4 Data distribution of seismic attributes地震属性名称最大值最小值平均值方差体17.83-0.021.28均方根振幅/m36 885.702 225.8022 386.66平均能量/

35、J803 083 648632 536.13306 285 420倾角/()6.6270.000.67瞬时相位/rad45.24-47.27-1.57主频/MHz72.8028.1648.67瞬时频率/Hz205.0472.3975.12最小振幅/m28 261.330 1-10 302.562 511 710.36最大振幅/m43 764.425 8026 341.78相干体0.9990.8560.980曲率/m-14.967 190.123 9882.30瞬时振幅/m44 115.070 3-3 799.501 227 319.49表 5 已揭露矿区数据分布Table 5 Data dis

36、tribution of exposed mining areas矿区无构造标签数陷落柱标签数断层标签数不平衡比例北采区14 3861 017771 0.07 0.005一采区15 0304173010.0280.002西翼65 9791 16520410.0180.003东翼124 03576763510.0060.005东翼南部96 1311 30965710.0140.0072.2 地震属性优选在选择特征时,如果特征选择偏少,模型学习不到足够的信息,会影响模型的效果。如果特征选择过多,其中可能存在着噪声,也不利于模型的学习。特征重要性是用来描述特征对于标签的重要性,特征重要性越大表明特征

37、对于标签的贡献越大,反之特征对于标签的贡献越小。互信息法是一种用来衡量特征与标签相关性的过滤方法,互信息法既可以用于回归也可以用于分类,它的返回值在0 1,返回 0 证明特征与标签不相关,返回 1 证明特征与标签完全相关。互信息的计算公式为I(X;Y)=xXyYp(x,y)log2p(x,y)p(x)p(y)(6)式(6)中:X 和 Y 为两个随机变量;x 为随机变量 X可能取的值;y 为随机变量 Y 可能取的值;X 和 Y 的边缘分布分别为 p(x)与 p(y),联合概率分布为p(x,y)。利用互信息法计算特征与标签之间的关系如图 3 所示。如图3 所示,所有的特征对于标签的相关性都大于0,

38、证明所有的特征都与标签相关,其中瞬时振幅与标签的相关性最大为 0.141。但曲率、均方根振幅等特征与标签的相关性比较低,为了找出真正对算法模型有效的特征,以特征相关性为变量画出学习曲线。首先以0 0.141 为特征相关性的范围画出学习曲线,如图4 所示,可以看出,当特征相关性阈值设为0.10 左右时,分类算法的准确度可以达到最高。进一步缩小阈值范围,以 0.09 0.11 为范围画出学习曲线如图 5 所示。图 3 特征相关性Fig.3 Feature correlation图 4 大范围学习曲线Fig.4 Large scale learning curve投稿网址:2023,23(29)杨楚

39、龙,等:基于改进 XGBoost 的地震多属性地质构造识别方法12447图 5 小范围学习曲线Fig.5 Small range learning curve从图 5 可以看出,当特征相关性为 0.102 5 时,算法准确率达到最高,所以设置特征相关性阈值为0.102 5,即只保留相关性大于等于0.102 5 的特征,小于 0.102 5 的特征全部舍去。通过属性筛选,最后只保留了瞬时振幅、平均能量、最小振幅、主频、瞬时相位和最大振幅这 6 个特征。3 实验验证与分析3.1 评价指标通常情况下,分类器性能的好坏可以使用准确率(accuracy)作为评价指标,但是在数据集不平衡的情况下,单纯比较

40、分类器准确率的高低没有太大的意义。因为准确率把多数类分类错误的代价和少数类分类错误的代价没有区分开,显然把少数类分类错误的代价比把多数类分类错误的代价要大。此时可以使用精确率(precision)、F1(F1score)和召回率(recall)这些更加科学的指标来评价模型,这些指标都是建立在混淆矩阵的基础上,混淆矩阵如表 6所示。精确率的定义是所有预测为正类的样本中真正是正类的比例,其计算公式为P=TPTP+FP(7)表 6 混淆矩阵Table 6 Confusion matrix类别被分为正类被分为负类正类TPFN负类FPTN 注:真阳性(true positive,TP):被分类器正确分类

41、的正例数据;真阴性(true negative,TN):被分类器正确分类的负例数据;假阳性(false positive,FP):被错误地标记为正例数据的负例数据;假阴性(false negative,FN):被错误地标记为负例数据的正例数据。召回率的定义是所有正确预测为正的样本占所有实际为正的比例,其计算公式为R=TPTP+FN(8)F1同时兼顾了精确率和召回率,是两者的调和平均值,F1的值越大表示分类器越有效,其计算公式为F1=2PRP+R(9)3.2 模型构建首先把东翼勘探区数据集按照 7 3分成训练集和测试集,对训练集运用 BSC-SMOTE 算法进行平衡,然后用平衡后的训练集训练 X

42、GBoost,再用贝叶斯优化算法对 XGBoost 进行超参数寻优,最终形成了 BO-BSC-SMOTE-XGBoost 模型。贝叶斯优化算法寻优的过程和模型训练过程如图 6 和图 7所示。图 6 贝叶斯优化过程Fig.6 Bayesian optimization process图 7 模型训练过程Fig.7 Model training process投稿网址:12448科 学 技 术 与 工 程Science Technology and Engineering2023,23(29)如图 6 所示,当迭代次数为 30 次时,模型取得了最小误差值,即 XGBoost 的目标函数 obj 取

43、得最小值,此时模型对应的超参数为最优超参数组合,并且如图 7 所示此时模型的准确率最高,最优参数组合如表 7 所示。将改进后的 XGBoost 算法与 KNN、随机森林,SVM 以及未改进的 XGBoost 算法进行对比,对比结果如表 8 所示。表 7 最优超参数组合Table 7 Optimal hyperparametric combination超参数名称最优取值n_estimators234learning_rate0.15colsample_bytree0.8max_depth6reg_lambda20表 8 算法对比(东翼)Table 8 Algorithm comparison(

44、Dongyi)算法准确率召回率F1KNN0.410.250.31随机森林0.800.600.69SVM0.570.320.41XGBoost0.790.540.64改进 XGBoost0.950.910.93浅蓝色区域为开采的范围;红色区域为陷落柱;深蓝色区域为断层图 8 东翼预测构造分布图Fig.8 Distribution of predicted structures on the Dongyi 通过实验对比发现,提出的改进 XGBoost 算法在精确 率、召 回 率、F1均 有 明 显 的 提 升,改 进XGBoost算法模型的预测精确度为 0.95,比未改进的 XGBoost 算法提

45、高了 0.16,比 KNN、随机森林和SVM 等传统算法提高了 0.15 以上。把算法模型获取的模型参数应用于东翼勘探区,得到东翼勘探区构造预测结果,并把预测结果经软件可视化得到如图 8 所示的预测构造图。经过与东翼实际揭露构造(图 9)对比,可以发现预测构造的数量与实际构造的数量基本相同,且预测构造的坐标与实际构造的坐标吻合,说明本文算法模型能够克服类别不平衡的影响,较为精确地识别出地质构造。4 结论为研究不平衡数据条件下的地质构造体识别的问题,通过理论分析与实例验证。得出以下结论。(1)煤矿的地质构造体(断层,陷落柱)是造成煤炭减产,煤矿事故频发的因素之一,预测煤矿的地质构造体具有重要的现

46、实意义。通过对三维地震勘探成果数据体的地震属性进行融合分析后可以用来预测构造体。(2)在众多地震属性中,不是所有的地震属性都对算法模型的构建有用,筛选出与标签相关的属投稿网址:2023,23(29)杨楚龙,等:基于改进 XGBoost 的地震多属性地质构造识别方法12449棕色线条为开采的巷道;红色线条围成的区域为陷落柱;蓝色线条围成的区域为断层图 9 东翼实际揭露构造分布图Fig.9 Distribution of actual exposed structures on the Dongyi性能够提高模型的准确率和效率。(3)实际的应用中,构造体的数量只占勘探区的极少部分,这种分布的不均衡

47、会直接影响算法模型的分类性能,可以通过改善这种分布的不均衡来提高模型的分类性能。(4)XGBoost 具有运行速度快,同时支持分类和回归、精度高、拥有正则化、防止过拟合等特点。贝叶斯优化算法考虑之前的参数信息,不断地更新先验,能够又快又准地找到 XGBoost 的最佳超参数组合。参考文献1 滕吉文,王玉辰,司芗,等.煤炭、煤层气多元转型是中国化石能源勘探开发与供需之本J.科学技术与工程,2021,21(22):9169-9193.Teng Jiwen,Wang Yuchen,Si Xiang,et al.Diversified transforma-tion of coal and coalb

48、ed methane:Chinas fossil energy exploration,development,supply and demandJ.Science Technology and En-gineering,2021,21(22):9169-9193.2 丁涛.煤田地质构造发育规律分析J.能源与节能,2022,18(6):64-65.Ding Tao.Analysis on the development law of coal geological struc-tureJ.Energy and Energy Conservation,2022,18(6):64-65.3 苟治伦

49、,毛薪杰,郭煜.复杂地质条件采煤工作面过地质构造带瓦斯综合治理技术研究 J.煤炭技术,2021,17(1):96-98.Gou Zhilun,Mao Xijie,Guo Yu.Research on comprehensive gascontrol technology of coal face with complex geological conditions-passing through geological structure zone J.Coal Technology,2021,17(1):96-98.4 杨帮武.浅谈煤矿应对地质构造的战略布局J.江西煤炭科技,2022,22(1

50、):119-121.Yang Bangwu.Talking about the strategic layout of coal mines in re-sponse to geological structuresJ.Jiangxi Coal Science and Tech-nology,2022,22(1):119-121.5 王木胜.煤矿地质构造分析在煤矿安全生产中的应用J.冶金管理,2021,13(23):94-95.Wang Musheng.Application of coal mine geological structure analy-sis in coal mine sa

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服