收藏 分销(赏)

基于机器学习的隧道地质勘察岩性识别分析及应用研究.pdf

上传人:自信****多点 文档编号:2348603 上传时间:2024-05-28 格式:PDF 页数:9 大小:4.76MB
下载 相关 举报
基于机器学习的隧道地质勘察岩性识别分析及应用研究.pdf_第1页
第1页 / 共9页
基于机器学习的隧道地质勘察岩性识别分析及应用研究.pdf_第2页
第2页 / 共9页
基于机器学习的隧道地质勘察岩性识别分析及应用研究.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、引用格式:程勇,王琛,刘夏临,等.基于机器学习的隧道地质勘察岩性识别分析及应用研究J.隧道建设(中英文),2023,43(9):1549.CHENG Yong,WANG Chen,LIU Xialin,et al.Application of machine learning-based lithology identification analysis for tunnel geological surveyJ.Tunnel Construction,2023,43(9):1549.收稿日期:2022-09-05;修回日期:2023-09-11基金项目:新疆维吾尔自治区科技重大专项(2020

2、A03003-1);中交集团重点专项(2020-ZJKJ-ZDZX01)第一作者简介:程勇(1975),男,湖北武汉人,1997 年毕业于同济大学,隧道与地下工程专业,本科,教授级高级工程师,现从事隧道与地下工程设计、科研、管理方面的工作。E-mail:654521051 。基于机器学习的隧道地质勘察岩性识别分析及应用研究程 勇1,王 琛2,刘夏临1,3,刘继国1,3,陈世纪4,黄 胜4(1.中交第二公路勘察设计研究院有限公司,湖北 武汉 430056;2.中国交建总承包经营分公司,北京 100088;3.中国交建隧道与地下空间工程技术研发中心,湖北 武汉 430056;4.中山大学土木工程学

3、院,广东 珠海 519082)摘要:为提高水平定向钻勘察中岩性识别的效率,基于机器学习算法采用钻进参数识别围岩岩性。以新疆某隧道工程为例,通过对水平定向钻的工作原理进行分析,采用钻进速度、校正后的钻孔底部压强、泥浆压力和进浆流量作为输入特征预测围岩岩性。对KNN(k-nearest neighbor)算法和随机森林算法各设置 48 个超参数,测试集的平均准确率分别为 83.28%和 93.04%,模型不存在欠拟合和过拟合问题。将五分类问题转化为 5 个二分类问题,2 种算法的准确率、精确率、召回率、F1值基本均在 90.00%以上,受试者工作特征(receiver operating char

4、acteristic,ROC)曲线中曲线下面积(area under curve,AUC)也接近于 1。使用 Smote 过采样后的KNN 算法和随机森林算法都具有良好的鲁棒性和泛化能力,但综合各项评价指标可知,使用随机森林模型预测围岩岩性的效果更佳。关键词:隧道;地质勘察;水平定向钻;岩性识别;KNN 算法;随机森林算法;机器学习DOI:10.3973/j.issn.2096-4498.2023.09.012文章编号:2096-4498(2023)09-1549-09中图分类号:U 45 文献标志码:A开放科学(资源服务)标识码(OSID):A Ap pp pl li ic ca at ti

5、 io on n o of f MMa ac ch hi in ne e L Le ea ar rn ni in ng g-B Ba as se ed d L Li it th ho ol lo og gy y I Id de en nt ti if fi ic ca at ti io on n A An na al ly ys si is s f fo or r T Tu un nn ne el l G Ge eo ol lo og gi ic ca al l S Su ur rv ve ey yCHENG Yong1,WANG Chen2,LIU Xialin1,3,LIU Jiguo1,

6、3,CHEN Shiji4,HUANG Sheng4(1.CCCC Second Highway Consultants Co.,Ltd.,Wuhan 430056,Hubei,China;2.China Communications Construction General Contracting and Operation Branch,Beijing 100088,China;3.CCCC Research and Development Center on Tunnel and Underground Space Technology,Wuhan 430056,Hubei,China;

7、4.School of Civil Engineering,Sun Yat-Sen University,Zhuhai 519082,Guangdong,China)A Ab bs st tr ra ac ct t:In horizontal directional drilling surveys,the lithology of the surrounding rock is generally determined by coring or drilling into rock chips.However,owing to the limitation of coring efficie

8、ncy during drilling,determining the lithology of the surrounding rock throughout the entire borehole line based on rock chips is a tedious process.Therefore,to improve the efficiency of lithology identification,the authors use machine learning algorithms to identify the surrounding rock lithology us

9、ing drilling parameters.A case study is conducted on a tunnel in Xinjiang,China,and the drilling speed,corrected bottom pressure of the borehole,mud pressure,and feed flow rate are input features to estimate the surrounding rock lithology based on the analysis of the working principle of horizontal

10、directional drilling.Forty-eight hyperparameters are set for each k-nearest neighbor(KNN)and the random forest algorithms and the average accuracies of the test set are 83.28%and 93.04%,respectively,with no underfitting or overfitting concerns in the models.Furthermore,the five classification issues

11、 are transformed into five binary classification problems;the accuracy,precision,recall,and F1 values of both algorithms are above 90.00%.The area under-curve values in the receiver 隧道建设(中英文)第 43 卷operating characteristic curves are close to 1.The results show that the KNN and random forest algorith

12、ms have good robustness and generalization ability after using Smote oversampling;however,the random forest model is more effective in predicting the rock properties of the surrounding rocks when the evaluation metrics are combined.K Ke ey yw wo or rd ds s:tunnel;geological survey;horizontal directi

13、onal drilling;lithology identification;k-nearest neighbor algorithm;random forest algorithm;machine learning0 引言 随着我国西部大开发发展战略的不断推进,西部各类基础设施也在不断改进1。然而,西部地区地质情况复杂,工程建设和安全面临着较大的挑战2-3,例如:在隧道建设中,新疆某些地区的地应力高、温度低、地震烈度高、海拔高和断裂带多等特征给施工带来了极大的困难4。因此,隧道建设前期的勘察工作尤为关键。目前,常用的勘察手段主要是垂直孔勘察。然而这一方法有一定的局限性,水平定向钻探作为新的勘

14、察手段可在一定程度上弥补垂直孔勘察的不足5-6,同时,水平定向钻探施工工作量少,且可以更加真实地反映隧道内的地质情况7。随钻测量(measurement while drilling,MWD)是水平定向钻钻进中应用钻孔过程监测技术获取钻机工作参数(如推进压力、转速、转矩、钻进速率等)的测量技术,在多参数自动获取方面具有巨大优势。自 20 世纪六七十年代以来,研究人员就开始了钻进参数与岩石可钻性指标之间的相关性研究8-9,目前已有大量研究成果。对于长距离水平定向钻,主要依靠取芯或岩屑试验来判别围岩岩性,但这 2 种方法效率低、成本高。机器学习方法是目前人工智能学习研究的热点课题,它的目标在于使机

15、器在大量数据中学习规律,以便对新任务具有分析和解决的能力。很多研究致力于使用各种钻进参数来预测围岩相关信息。李哲等10使用水平钻孔进行隧道的超前地质预报,通过转矩、转速、推进压力、钻进速度 4 个物理量提出钻进功速比概念,并证明了钻进功速比与隧道围岩岩性、结构面有很好的响应特征。Schunnesson11通过监测采集到了冲击钻进过程中的钻速、转速、推进力和转矩,有效预报了岩体的围岩类别及其结构特征。Mostofi 等12通过现场测试得到的钻头转矩、转速、进尺速率、钻头质量对地层单轴抗压强度、弹性模量、剪切模量进行预测,并采用 K-Means 聚类算法对地层进行划分。王琦等13使用自主研发的岩石

16、钻探系统开展了不同强度完整岩石的数字钻探试验,通过钻探试验结果建立了钻进参数与岩石单轴抗压强度的定量关系模型,该模型与单轴压缩试验结果的差异率平均值小于 10%,证明了该模型的科学性。房昱纬等14使用神经网络对楚大公路九顶山隧道超前钻探测试数据进行识别,涉及到的特征值为水平定向钻参数(钻速、转矩、推进力和转速),结果证明了采用神经网络模型进行地层识别的科学性和有效性。陈湘生等15指出,机器学习具有分析数据能力强、无需依靠先验的理论公式和专家知识等优势,可以通过收集盾构工程的相关参数来对围岩信息进行反演。然而,盾构施工相关数据是在工程施工阶段收集的,反演的围岩信息不能用于设计阶段,存在数据应用滞

17、后的问题。王玉杰等16基于数字钻进技术建立了钻进参数与岩块单轴抗压强度之间的定量关系,可以准确且快速地测量岩块单轴抗压强度。由于围岩的岩性与其硬度等相关,因此钻进参数与硬度也存在一定的关系,所以本文采用水平定向钻钻进相关参数预测围岩岩性。针对目前基于水平定向钻钻进参数进行岩性识别研究的不足,本文依托新疆某隧道工程勘察项目,选取232 组钻探数据并进行预处理,基于 KNN(k-nearest neighbor)17-18和 随 机 森 林 算 法(random forests,RF)192 种监督学习算法,构建适用于水平定向钻钻进数据的机器学习模型,最终形成隧道围岩判别评价方法,以期为隧道地质勘

18、察与围岩分类评价提供一种新的思路。1 工程概况1.1 工程信息 某公路隧道是乌尉高速公路的重要一环,是连接乌鲁木齐和尉犁的纵向大通道,也是新疆南北贸易往来的通道。隧道全长22.69 km,最大埋深为1 112.66 m。隧道施工面临高地应力、高寒、高地震烈度、高海拔和多断裂带等问题,施工过程中发生岩爆的可能性极高,且岩爆最大的破坏力可达到中级地震的程度。因此,对隧道沿线工程地质进行准确、详细的勘察非常必要。隧道区位图如图 1 所示。1.2 沿隧道轴线的岩性分布 隧道进口处至 1 593 m 钻孔内岩屑均为凝灰质砂岩,灰绿色,矿物成分以石英、长石、云母为主,岩性无较大的变化;1 5941 750

19、 m 钻孔内岩屑为凝灰质砂岩与花岗闪长岩混合;1 7512 024 m 钻孔内岩屑中开始出现碳质板岩颗粒,返浆池浆液颜色由土黄色变为黑色;2 0252 063 m 钻孔内岩屑中石英与片状岩屑含量增多;2 0642 271 m 钻孔内岩屑中石英与长石含量逐渐增多。简化后的勘察成果图如图 2 所示,隧道岩性分布如表 1 所示。0551第 9 期程 勇,等:基于机器学习的隧道地质勘察岩性识别分析及应用研究图 1 隧道区位图Fig.1 Tunnel location(a)俯视图(b)纵断面图图 2 勘察成果图Fig.2 Survey results表 1 隧道岩性分布Table 1 Tunnel li

20、thology distribution深度/m围岩岩性样本数量01 593凝灰质砂岩1621 5941 750花岗闪长岩161 7512 024碳质板岩282 0252 063石英片岩42 0642 271片麻状花岗岩222 钻进参数的选取与校正2.1 钻进参数的选取水平定向钻进技术用于隧道地质勘察时,随钻测量系统一般可以测量钻头深度、钻进速度、钻进压力、泥浆流量和泥浆压力等参数。钻进时钻杆推力和转矩提供钻头破岩动力,同时带压循环泥浆为钻头旋转提供动力。根据工作原理分析可知,钻进压力、钻进速度、泥浆压力和进浆流量均与钻头破碎围岩的过程相关。这些钻进参数可以反映围岩的相关硬度、节理裂隙等信息。

21、将水平定向钻用于地质勘察时,因为在钻头处安装传感器可能会影响到钻进的效率,所以水平定向钻施工中收集到的参数多数为地面处测量的数据。由于钻孔设计轨迹是弯曲的,且钻杆与孔壁、钻杆与钻井液存在摩擦,钻孔底部处的压强与地面的实测钻压会有一定的差异。因此,在采用机器学习识别围岩岩性之前需要计算出钻孔底部处的压强,使用钻孔底部的压强可以更准确地反映钻孔底部的实际情况。综上分析,选用钻孔底部压强、钻进速度、泥浆压力和进浆流量作为机器学习的特征值。2.2 钻孔底部压强矫正 水平定向钻机为 GD3500-L 型钻机,钻机的具体设计参数如表 2 所示。当起下钻时,除旋转管柱的质量外,阻力是一种负载。在钻进过程中,

22、旋转管柱会损失转矩,因此钻头用于破坏岩石的功率大大低于旋转平台的功率。阻力和转矩损失的原因有很多,包括压差卡钻、井眼不稳定、井眼清洁不良以及与钻柱侧力相关的摩擦相互作用。目前已有 Johancsik 等20、Sheppard 等21、Faghih22提出了 3 种摩擦力计算模型进行钻孔底部压强的校准。表 2 GD3500-L 型水平定向钻机参数Table 2 Parameters of GD3500-L horizontal directional drilling rig主机外形尺寸/(mmmmmm)主机质量/t发动机功率/kW液压系统额定工作压力/MPa动力头输出最大转矩/(Nm)动力头最

23、大拉力/kN动力头最大推拉速度/(m/min)钻杆直径/mm钻杆长度/mm泥浆最高压力/MPa履带最高行走速度/(km/h)17 9003 4403 30045264235112 0003 58045168/1409 600202.5 该工程水平定向钻进总距离为 2 270.8 m,距离较长,且从水平定向钻勘察的纵断面图(图 2(b)可知,纵断面中钻进轨迹较为笔直,因此假定钻进过程中轨迹倾角 恒定;在俯视图(图 2(a)中,钻进轨迹近似于圆弧,故将偏转的方位角 变化量视为恒定值。从水平定向钻勘察俯视图(图 2(a)中可知,钻进高程随着钻进距离的增加缓慢变大,所以将钻井液从泥浆池运送到钻孔底部的

24、沿程损失较大,且钻井液冲打在钻孔底部上也会损失一部分能量;此外,钻杆的横截面积较小,所以最终由环空压力产生的作用在钻杆横截面上的力较小。因此,本次分析中忽略钻孔底部环空压力对钻杆横截面上的作用力。综上所述,选用Sheppard 模型21对钻孔底部的压强进行校正,压强随着钻进深度的变化率为 ss=Wbcos +k(ss+Wbsin)2+(sssin)212。(1)1551隧道建设(中英文)第 43 卷=s-sss。(2)式(1)(2)中:s为测量钻进压强,Pa;s 为钻进深度,m;Wb为单位长度钻杆压强,Pa/m;为纵断面钻进轨迹倾角,();k 为基于钻机推力的摩擦因数;/s 为纵断面钻进轨迹倾

25、角变化率,()/m,此处为0;为俯视图中钻进轨迹偏角,();为钻孔底部的压强,Pa。钻杆自重=Ag。(3)纵断面钻进轨迹倾角=90-arctanHD()。(4)式(3)(4)中:A 为钻杆的横截面积,m2;为钻杆密度,kg/m3;g 为重力加速度,m/s2;H 为进尺高度,m,最终为 37.92 m;D 为进尺距离,m,最终为 2 271 m。Sheppard 等21提出的模型中,平面内的摩擦力被简化。对于简化条件下的阻力计算,使用的摩擦因数为 0.20.4,平均值为 0.3,故本次计算取摩擦因数为0.3。进尺在 0 1 000 m 时采用的钻杆直径 D1为0.14 m,横截面积对应表 3 中

26、的 A1;进尺在 1 001 2 270 m 时采用的钻杆直径 D2为 0.168 m,横截面积对应表 3 中的 A2。钻杆壁厚均为 0.009 m,长度 l 为9.6 m。表 3 钻杆参数Table 3 Drill pipe parametersD1/mD2/mA1/m2A2/m2/(kg/m3)l/m0.140.1681.9210-32.3110-37 870.009.60 校正后的钻孔底部压强和钻进速度随钻进深度的变化曲线如图 3 所示,泥浆压力和进浆流量随钻进深度的变化曲线如图 4 所示。机器学习校正后的输入样本如表 4 所示。图 3 钻孔底部压强和钻进速度随钻进深度的变化曲线Fig.

27、3 Drilling speed and downhole pressure curves with drilling depth图 4 泥浆压力和进浆流量随钻进深度的变化曲线Fig.4 Variation of slurry pressure and feed flow rate with drilling depth表 4 机器学习校正后的输入样本Table 4 Sample of machine learning inputs序号特征输入钻进速度/(m/h)钻孔底部压强/MPa泥浆压力/MPa进浆流量/(L/min)围岩岩性(代号)118.485.482.001 200.00凝灰质砂岩(

28、1)219.085.783.001 200.00凝灰质砂岩(1)320.195.973.001 200.00凝灰质砂岩(1)416.755.273.001 200.00凝灰质砂岩(1)2293.115.306.001 900.00片麻状花岗岩(5)2302.895.396.001 900.00片麻状花岗岩(5)2313.325.306.001 900.00片麻状花岗岩(5)2322.505.396.001 900.00片麻状花岗岩(5)3 分析方法与数据处理3.1 分析流程 机器 学 习 大 致 可 分 为 监 督 学 习(supervised learning)、非监督学习(unsuperv

29、ised learning)和半监督学习(semi-supervised learning)3 类,它们最主要的区别是训练数据中是否带有标签。对于钻孔围岩分类问题,一般是已知围岩岩性而进行的训练与测试,故属于监督学习问题。对于分类问题,每个样本都具有特征值和目标值等属性值,本文中钻进速度、钻孔底部压强、泥浆压力和进浆流量为特征值,地层岩性为目标值。常 见 的 分 类 算 法 有 ANN(artificial neural network)、朴素贝叶斯、KNN、决策树、支持向量机和随机森林23。本文采用常规算法和集成算法进行案例分析。KNN 算法模型较为简单,对数据的分布无要求,适用于数据量较小

30、、数据分布均衡的场景中;随机森林算法是一种集成分类算法,不需对数据进行过多处理,它由多个组合分类的决策树模型构成,每一棵决策树都有投票权来选择最优的分类结果。目前已有研究表 明,在 对 121 个 UCI(University of California,2551第 9 期程 勇,等:基于机器学习的隧道地质勘察岩性识别分析及应用研究Irvine)数据集分类时,随机森林算法在 179 种分类算法中分类性能最优秀24。因此,本研究采用 KNN 算法和随机森林算法进行岩性识别。机器学习分析流程如图 5 所示。图 5 机器学习分析流程图Fig.5 Analysis flowchart of mechi

31、ne learning3.2 数据预处理 由图 5 中步骤 1 获取特征参数和目标参数,由表1 可看出不同围岩岩性样本数量差别很大。在分类问题中,各类别有均衡的样本数量是很重要的。如果各类别样本数量差别很大,在模型训练时的预测结果可能会偏向样本数量大的样本,导致模型分析不准确。因此,有必要采用重采样的方法来避免模型出现偏差。本研究中,使用 Smote 算法25对花岗闪长岩、碳质板岩、石英片岩和片麻状花岗岩 4 类数据进行过采样处理,处理后各类别均有 162 个样本,5 个类别共 810 个样本。过采样后样本与原样本相比未出现大偏差,基本达到了平衡样本的需求。在进行算法分析之前,通常需要对不同量

32、纲和数量级的特征值数据进行归一化处理,按照最大值和最小值将样本值映射到 0,1 区间,避免样本中的极端值对分析结果产生影响。归一化的公式为x1=x-xminxmax-xmin。(5)式中:x 为归一化处理前的数值;xmin、xmax分别为样本中的最小值和最大值;x1为归一化后的数值。本研究分析的围岩有 5 种岩性,是一个五分类问题。为了方便分析和评估模型,将问题转化为 5 个二分类问题,因此需要对目标值进行处理,处理流程如图6 所示。以凝灰质砂岩为例,预测凝灰质砂岩时为正例,其他岩性围岩时为反例,其混淆矩阵见图 7。图 6 分类问题转化流程图Fig.6 Flowchart of classif

33、ication problem transformation图 7 二分类混淆矩阵(以凝灰质砂岩为例)Fig.7 Dichotomous confusion matrix(tuffaceous sandstone as an example)3.3 数据集的划分分类模型会出现欠拟合和过拟合 2 类问题。若机器学习模型没有从训练数据中得到充分的学习,模型的学习效率不高,就会出现欠拟合问题;若模型从训练数据中学习过度,导致训练时错误率低,而测试集的准确率比训练集低得多,就会出现过拟合问题。不同的方法估计分类模型有不同的误差,出现这些问题与训练集和测试集模型的样本选择有关。本研究 810 个样本中,

34、70%用于训练,30%用于测试模型。在 KNN 和随机森林 2 种算法中,设置取值相同的超参数对模型进行对比评估。KNN 算法的超参数是 K 值,随机森林算法的超参数为树的数量 N,超参数的取值为区间3,50中的整数。在这 48 个模型中,选取测试集准确率最高的模型进行分析和评估。4 模型训练与评估4.1 模型的训练和测试按照 3.3 节中训练集和测试集的比例,设置不同的超参数进行训练,训练后用于验证测试集,记录测试集准确率最高时对应的超参数,结果如表 5所示。表 5 最佳模型超参数表Table 5 Optimal model hyperparameters 算法最佳超参数(K 或 N)测试集

35、准确率/%KNN390.53随机森林3293.83 图 8 和图 9 示出不同超参数下 KNN 算法和随机森林算法的准确率。当 K 取值为 3 时,KNN 算法的测试集准确率最高,为 90.53%。48 个模型训练集和测试集准确率平均值分别为 83.78%和 83.28%,但不同3551隧道建设(中英文)第 43 卷的模型准确率差别较大,随着 K 值增大,测试集和训练集的准确率均在降低,这是由 KNN 算法的原理决定的 距离 K 个学习样本的欧氏距离决定该样本的属性,在有限的样本中当 K 值越来越大时,会出现其他样本的数值,从而导致准确率逐渐降低。所以在实际使用KNN 模型时,K 值不应该取得

36、很大。图 8 不同超参数下 KNN 算法的准确率Fig.8 Accuracy of different hyperparameter of KNN图 9 不同超参数下随机森林算法的准确率Fig.9 Accuracy of different hyperparameters of random forest 在 48 个不同超参数取值中,随机森林算法的训练集和测试集平均准确率分别为 99.59%和 93.04%。当 N 为 32 时,测试集准确率最高,为 93.83%。从图 8和图 9 中可知,相较于 KNN 算法,随机森林算法的准确率较为稳定。对于每个算法的 48 个模型,比较训练集和测试集是

37、为了检查模型是否过拟合或欠拟合。KNN 算法测试集与训练集的结果相差不大,而随机森林算法测试集与训练集的结果平均相差 7.00%左右,2 个算法模型都没有出现欠拟合和过拟合的情况。4.2 模型评估 除了准确率(Ac)之外,还引入了精确率(Pr)、召回率(Re)和 F1值对模型进一步评估。4 个评价指标中,准确率用于衡量模型正确预测样本的能力;精确率和召回率分别用于衡量模型所有预测为正的样本中实际为正样本的概率和实际为正的样本中被预测为正样本的概率;F1值是一个综合性的指标,同时考虑了精度和召回率。精确率、召回率和 F1值越接近 1,模型的性能就越好。4 个评价指标的计算见式(6)(9),其中,

38、TP、FP、FN 和 TN 的含义见图 7。Ac=TP+TNTP+FN+FP+TN。(6)Pr=TPTP+FP。(7)Re=TPTP+FN。(8)F1=2RePrRe+Pr。(9)选取表 5 最佳超参数对应的 2 个模型进行评估。图 10 和图 11 分别示出 KNN 算法最佳模型和随机森林算法最佳模型的 4 个评价指标。图中 1、2、3、4、5 分别代表凝灰质砂岩、花岗闪长岩、碳质板岩、石英片岩和片麻状花岗岩。从算法的角度分析可知,随机森林算法的 4 个评价指标均高于 KNN 算法。对凝灰质砂岩(1)和花岗闪长岩(2)的识别中,随机森林算法 4 个评价指标数值为 95.00%左右,而 KNN

39、 算法的 4 个评价指标数值为 90.00%95.00%;对碳质板岩(3)、石英片岩(4)和片麻状花岗岩(5)的识别中,2 种算法的4 个评价指标均值相差不大,但是随机森林算法的偏差更小、更稳定。从不同围岩岩性的角度出发,石英片岩(4)的 4 个评价指标值都很大,机器学习的效果最好。总体上看,2 种算法的评价指标都比较理想,但随机森林算法要优于 KNN 算法。图 10 KNN 算法最佳模型评价指标数值Fig.10 Diagram of different evaluation indicators for KNN4551第 9 期程 勇,等:基于机器学习的隧道地质勘察岩性识别分析及应用研究图

40、11 随机森林算法最佳模型评价指标数值Fig.11 Different evaluation indicators for random forests 评价模型的另一个重要指标是受试者工作特征(receiver operating characteristic,ROC)曲线。ROC 曲线是一种分类模型效果评价方法,通过其曲线下面积(area under curve,AUC)、敏感度、特异性和最佳分界点等关键参数,可确定岩性识别模型的阈值。ROC 曲线主要根据图 7 中的混淆矩阵绘制。在 ROC 曲线中,曲线下面积(AUC)越大、越接近于 1,模型的性能越好;越接近于 0.5,模型的性能越差。

41、KNN 算法和随机森林算法的 ROC 曲线以及 AUC值分别如图 12 和图 13 所示。真阳率表示正确的预测为正的数量与原本为正的数量之比;假阳率表示错误的预测为正的数量与原本为负的数量之比。无论是从算法角度还是从不同岩性的角度,KNN 算法和随机森林算法 AUC 值都趋近于 1,表明模型分类性能良好,模型的鲁棒性较强、泛化能力较好。同时,随机森林算法在不同超参数下测试集的准确率较高且较稳定。由于随机森林算法的准确率、精确率、召回率和 F1值总体比 KNN 算法更高、更稳定。因此,在本案例选取的常规算法和集成算法中,随机森林算法的效果较好。图 12 KNN 算法 ROC 曲线及 AUC 值F

42、ig.12 ROC curve of KNN algorithm and AUC values图 13 随机森林算法 ROC 曲线及 AUC 值Fig.13 ROC curve of random forest algorithm and AUC values4.3 过采样算法评估 进行岩性识别之前,使用 Smote 算法对不平衡的样本数据进行扩充,每一个类别数据量都增添到 162组,得到了一个平衡的数据集。按照 3.3 节中训练集和测试集的比例,设置不同的超参数对未采用 Smote 的数据集进行训练。未使用Smote 算法进行数据过采样的围岩岩性识别准确率如图 14 所示。在 48 个不同超

43、参数模型中,KNN 算法的训练集和测试集的平均准确率分别为 79.67%和77.74%,与经过 Smote 过采样后的模型准确率相差不大。当 K 取 4 时,测试集准确率最高,为 81.43%。图 14 未使用 Smote 算法进行数据过采样的围岩岩性识别准确率Fig.14 Accuracy of lithology prediction without Smote 48 个模型中,随机森林算法训练集准确率很高,接近于 100.00%,而测试集准确率接近 80.00%。训练集和测试集准确率相差很大,训练的随机森林模型存在过拟合现象。48 个模型中,采用 Smote 过采样后随机森林测试集的平均

44、准确率为 93.04%,比未过采样的模型准确率高,且没有出现过拟合现象。当 N 取4 时,测试集准确率最高,为 80.00%。未使用 Smote 算法的最佳测试模型的预测结果如表 6 所示。虽然 2 种算法总体的测试结果较高,但由5551隧道建设(中英文)第 43 卷于样本数量非常不均衡,样本数量少的岩性类别得不到充分的训练和验证。表 6 未使用 Smote 算法的最佳测试模型的预测结果Table 6 Best test model prediction results without Smote算法围岩类别测试样本数正确个数准确率/%KNN凝灰质砂岩(1)514690.19花岗闪长岩(2)4

45、125.00碳质板岩(3)9555.56石英片岩(4)11100.00片麻状花岗岩(5)5480.00总计705781.43随机森林凝灰质砂岩(1)51492.16花岗闪长岩(2)400碳质板岩(3)9555.56石英片岩(4)100片麻状花岗岩(5)5480.00总计705680.00 在 232 个样本中,凝灰质砂岩数量 162 个,其余类别围岩样本数量过少。训练集和测试集也存在着样本不平衡的问题,样本数量少的类别得不到很好的机器学习训练。在 70 个测试样本中,5 个围岩类别的数量分别为 51、4、9、1、5,后 4 个围岩类别的岩性识别准确率变化幅度大,个别案例难以代表整体,模型结果说

46、服力不强。所以,在样本不平衡的情况下采用 Smote 算法进行过采样是必要的,进行过采样后的模型数据量大且均匀、鲁棒性好、泛化能力强,没有出现过拟合或者欠拟合等问题。5 结论与讨论5.1 结论 1)分别对 KNN 算法和随机森林算法的 48 个不同超参数模型进行比较,2 种算法测试集平均准确率分别为83.28%和93.04%,随机森林算法比 KNN 算法准确率高且更稳定。2)将岩性识别的五分类问题转化为 5 个二分类问题进行分析,采用每一类别岩性的准确率、精确率、召回率、F1值、ROC 曲线和 AUC 值对模型进行评估。随机森林算法的 4 个评价指标总体上优于 KNN 算法。总体的评价结果表明

47、,随机森林算法的围岩岩性识别效果更好。3)原始数据量少且各类别的数据差异大,机器学习算法模型的结果不符合大数据分析要求,说服力不强;而采用 Smote 算法处理后的数据集很平衡,训练模型的鲁棒性好、泛化能力强,没有出现过拟合或者欠拟合等问题,在样本不平衡时建议使用此方法对数据进行处理。5.2 讨论 1)本文使用理论分析方法对钻孔底部压强进行求解,但理论分析和实际有偏差。目前已有钻进技术可以直接测量钻孔底部压强,但是在本案例中未使用此技术,在今后的研究中应考虑采用此技术进行测量,以更真实地反映钻孔底部压强。2)本文研究中案例样本数量有限,且涉及的围岩岩性类别仅有 5 种,由于自然界的围岩类别较多

48、,故本方法尚不能应用于实际勘察中。今后的研究应该注重对于不同类别岩性的数据收集,形成一个庞大的数据库,为机器学习提供强有力的支撑。3)本文研究只选取了有代表性的常规分类算法和集成分类算法对岩性识别进行初步的探讨和分析,在数据库丰富的基础上仍需要对各种算法进行细致调参、相互比较和筛选。此外,机器学习算法注重教学模型分析而淡化工程中出现的物理问题,如何解释机器学习方法的可行性和说服力是目前需要解决的问题。参考文献(R Re ef fe er re en nc ce es s):1 李杰.双循环格局下西部大开发促进区域协调发展机理效应论析 J.四川大学学报(哲学社会科学版),2022(1):161.

49、LI Jie.The mechanism and effect of the western development on promoting the harmonious regional development under the dual-cycle pattern J.Journal of Sichuan University(Philosophy and Social Science Edition),2022(1):161.2 王志佳,揭基红,李胜民,等.独龙江隧道岩爆相似材料配比试验研究J.防灾减灾工程学报,2020,40(2):279.WANG Zhijia,JIE Jihon

50、g,LI Shengmin,et al.Study on similar material ratio for rock burst test in Dulongjiang tunnelJ.Journal of Disaster Prevention and Mitigation Engineering,2020,40(2):279.3 李佳.单轴和双轴压缩下裂隙性岩石力学特性试验研究D.成都:西南交通大学,2014.LI Jia.Experimental study on mechanical properties of cracked rock under uniaxial and bia

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服