1、基于贝叶斯算法优化的 CatBoost 矿压显现预测柴敬1,2,张锐新1,欧阳一博1,张丁丁1,2,王润沛1,田志诚1,刘泓瑞1,韩志成1(1.西安科技大学能源学院,陕西西安710054;2.教育部西部矿井开采及灾害防治重点实验室,陕西西安710054)摘要:通过传统的监测手段获取矿压数据并采用统计学或机器学习算法对矿压进行预测已不能满足矿山智能化发展要求,需要寻求新的方法提升矿压数据监测及矿压预测的准确性和实时性。基于三维相似物理模型试验,搭建分布式光纤监测系统,沿模型走向和高度 2 个方向预埋分布式光纤,在模拟工作面开采过程中采集来压数据,并引入光纤布里渊频移平均变化度作为判断是否来压的指
2、标;通过对光纤监测数据进行噪声去除、归一化及相空间重构等预处理,将一维初始监测数据转换为三维数据;使用贝叶斯算法对 CatBoost 算法进行迭代参数寻优,在达到最大迭代次数后将最优参数组合装载到 CatBoost 算法中,通过训练得到矿压显现预测模型。结果表明:贝叶斯算法比传统网格搜索法的迭代次数更少、误差更小;与随机森林(RF)、梯度提升决策树(GBDT)和极值梯度提升树(XGBoost)算法相比,CatBoost 算法的预测精度更高、泛化能力更强;基于贝叶斯算法优化的CatBoost 矿压显现预测模型能准确预测出测试集中的 3 次来压,且整体预测趋势与实测值较为吻合,平均绝对误差为 0.
3、0091,均方根误差为 0.0077,决定系数为 0.9339。关键词:矿压显现预测;CatBoost;分布式光纤;贝叶斯优化参数;光纤布里渊频移平均变化度;相空间重构中图分类号:TD323文献标志码:ACatBoostminepressureappearancepredictionbasedonBayesianalgorithmoptimizationCHAIJing1,2,ZHANGRuixin1,OUYANGYibo1,ZHANGDingding1,2,WANGRunpei1,TIANZhicheng1,LIUHongrui1,HANZhicheng1(1.SchoolofEnergy,
4、XianUniversityofScienceandTechnology,Xian710054,China;2.KeyLaboratoryofWesternMineExploitationandHazardPreventionofMinistryofEducation,Xian710054,China)Abstract:Obtaining mine pressure data through traditional monitoring methods and using statistical ormachine learning algorithms to predict mine pre
5、ssure can no longer meet the requirements of intelligentdevelopmentinmines.Itisnecessarytoseeknewmethodstoimprovetheaccuracyandreal-timeperformanceofminepressuredatamonitoringandprediction.Basedonthree-dimensionalsimilarphysicalmodelexperiments,adistributedfiberopticmonitoringsystemisconstructed.The
6、distributedfiberopticcablesarepre-embeddedalongthemodelsdirectionandheight.Pressuredataiscollectedduringthesimulatedminingprocessoftheworkingface,and the optical fiber Brillouin frequency shift mean variation degree is introduced as an indicator todetermine whether the pressure is coming.By preproce
7、ssing the optical fiber monitoring data such as noiseremoval,normalizationandphasespacereconstruction,theone-dimensionalinitialmonitoringdataisconvertedintothree-dimensionaldata.ThemethodusesBayesianalgorithmtoiterativelyoptimizetheparametersoftheCatBoostalgorithm.Afterreachingthemaximumnumberofiter
8、ations,theoptimalparametercombinationis收稿日期:2022-11-16;修回日期:2023-07-28;责任编辑:盛男。基金项目:国家自然科学基金资助项目(41027002,51804244)。作者简介:柴敬(1964),男,宁夏平罗人,教授,博士研究生导师,主要研究方向为采矿工程、实验岩石力学及光纤传感,E-mail:。引用格式:柴敬,张锐新,欧阳一博,等.基于贝叶斯算法优化的 CatBoost 矿压显现预测J.工矿自动化,2023,49(7):83-91.CHAIJing,ZHANGRuixin,OUYANGYibo,etal.CatBoostmine
9、pressureappearancepredictionbasedonBayesianalgorithmoptimizationJ.JournalofMineAutomation,2023,49(7):83-91.第49卷第7期工矿自动化Vol.49No.72023年7月JournalofMineAutomationJul.2023文章编号:1671251X(2023)07008309DOI:10.13272/j.issn.1671-251x.2022110065loadedintotheCatBoostalgorithm.Thepredictionmodelforminepressureap
10、pearanceisobtainedbytraining.TheresultsshowthattheBayesianalgorithmhasfeweriterationsandsmallererrorsthantraditionalgridsearchmethods.Compared with random forest(RF),gradient boosting decision tree(GBDT)and extreme gradientboosting(XGBoost),the CatBoost algorithm has higher prediction accuracy and s
11、tronger generalizationcapability.TheCatBoostminepressureappearancepredictionmodeloptimizedbytheBayesianalgorithmcanaccuratelypredictthethreeweightinginthetestset.Theoverallpredictiontrendisinlinewiththemeasuredvalue,withmeanabsoluteerrorof0.0091,root-mean-squareerrorof0.0077,anddeterminationcoeffici
12、entof0.9339.Key words:prediction of mine pressure appearance;CatBoost;distributed optical fiber;Bayesianoptimizationparameters;opticalfiberBrillouinfrequencyshiftmeanvariationdegree;phasespacereconstruction 0引言上覆岩层在深部高地应力、高地温、高瓦斯、高水压等环境和高强度开采扰动下,出现工作面煤壁片帮、支架“压死”等矿压显现现象的频次不断上升,致使开采设备损坏,威胁人员作业安全,严重影响煤
13、矿安全生产。因此对矿压显现的有效精准预测迫在眉睫,已成为现阶段煤矿安全生产的重要研究课题之一1-4。崔铁军等5利用小波分解技术对液压支架数据进行分解,通过混沌优化后的泛函网络预测矿压。赵毅鑫等6从液压支架工作阻力数据入手,分析了大采高综采工作面的矿压显现规律,并采用深度学习预测矿压。贾澎湃等7基于工作面压力传感器监测 数 据,采 用 堆 叠 长 短 期 记 忆(LongShort-TermMemory,LSTM)网络对工作面多源矿压进行预测。贺超峰等8选用 20 个工作面的矿压观测数据,利用BP 神经网络预测了工作面周期来压。通过传统的监测手段9-11获取矿压数据,并采用统计学或机器学习算法对
14、矿压进行预测,在一定程度上对煤矿开采过程中矿压显现规律的定量化研究起到了推动作用。但随着近年来人工智能技术被逐步应用于煤炭生产中,我国煤炭开采已逐渐向无人化、智能化发展,从促进矿山智能化发展的角度出发,对矿压监测及预测的实时性和准确性有了更高的要求,因此需要寻求新的监测手段来对矿压进行实时、全过程的动态监测,研究矿压预测方法来提升矿压预测精度。近年来,分布式光纤以高分辨率、高感知性、抗干扰、不影响监测对象等优点,在边坡、大坝、地下硐室、桥梁、矿山采场监测中得到广泛应用12-14。为进一步满足煤矿有效监测矿压的安全需求,许多学者开始使用分布式光纤监测数据对矿压预测展开研究。柴敬等15将分布式光纤
15、布置在监测覆岩变形的三维立体相似模型中,提出使用光纤频移平均变化度来表征来压及其规律。冀汶莉等16采用随机森林(RandomForest,RF)算法结合多步逆向云变换算法对矿压进行预测,但仅在数据量较少或数据维度(特征)较少的情况下适用,当数据量较大或特征较多时,可能无法较好地对数据进行拟合。王润沛17、柴敬等18提出了较为全面的光纤数据分析方法,采用混沌理论和极值梯度提升树(eXtremeGradientBoosting,XGBoost)算法预测矿压,但 XGBoost 算法需要在预测时对整个数据集进行频繁遍历,导致预测效率较低。CatBoost 算法的提出为解决上述问题提供了一种全新的思路
16、。CatBoost 是 2017 年由 Yandex 公开发布的一种基于梯度提升决策树(GradientBoostingDecisionTree,GBDT)的集成学习框架19,其采用“有序原则”方式解决了 XGBoost 算法频繁遍历的问题;将传统的梯度增强算法转换为有序增强算法,提高了泛化能力,使得算法对于特征较少的数据也有较强的适用性,降低了过拟合的可能,增强了鲁棒性。另外,CatBoost 通过贪婪策略构造分类特征的组合,并将这些组合作为附加特征,有助于捕获高阶依赖关系,进一步提高预测精度。鉴于此,本文引入CatBoost 算法建立矿压显现预测模型,并通过贝叶斯算法对模型参数进行优化,可
17、提高矿压预测精度和效率。1三维相似物理模型及光纤监测系统搭建1.1三维相似物理模型搭建根据陕北某矿地质特征及物理力学参数,搭建三维相似物理模型,基本参数见表 1。该模型模拟上覆岩层总厚度为 1870mm,推进长度为 2700mm,模型前后边界各留设 500mm 的边界煤柱,左侧边界留设 200mm 的边界煤柱,岩性分布和工作面布局及推进方向分别如图 1、图 2 所示。由于三维相似物理模型体积较大,普通的煤层开挖方式并不适用,所以试验采用抽条管的形式模拟煤层开挖。在 60mm 厚的84工矿自动化第49卷底板上方铺设矩形镀锌方管,方管截面尺寸为100mm50mm,用于模拟煤层厚度和煤层开挖步距。表
18、1三维相似物理模型基本参数Table1Basicparametersofthe3Dphysicalsimilaritymodel参数值参数值长度/mm3600宽度/mm2000高度/mm2000开挖步数54煤层厚度/mm100开挖步距/mm50几何相似比1200开挖时间间隔/h0.5容重相似比1.561应力相似比3801黄土细砂岩粗砂岩细砂岩砂质泥岩粗砂岩细砂岩粗砂岩粗砂岩细砂岩6 号煤粗砂岩2 0003 600地表图1岩性分布Fig.1Lithologydistribution8001 200煤层3 600工作面 2推进方向推进方向采空区采空区边界煤柱工作面 1煤层图2工作面布局及推进方向F
19、ig.2Workingfacelayoutandadvancingdirection1.2分布式光纤监测系统搭建为全面检测采动影响下的覆岩变形特征,在三维相似物理模型中布置分布式光纤监测系统。模型中的分布式传感光纤分为 2 组,分别为沿模型走向方向的水平光纤 FH11、FH12、FH21 和 FH22,沿模型高度方向的垂直光纤 FV11、FV12、FV21 和 FV22,如图 3 所示。模型中埋设的分布式传感光纤总长度约为 225m,其中用于直接测试的光纤长度约为70m,连接光纤长度为 155m。2 0002 0003 600FH21FH11FH22FH12FV22FV21FV12FV111
20、315345图3分布式光纤监测系统布置Fig.3Layoutofdistributedopticalfibermonitoringsystem分布式传感光纤采用预埋式埋设方式,在模型铺装过程中完成光纤监测系统的安装。在模型铺装至设计层位时,将光纤安装在模型岩层内部,通过光纤固定卡尺每隔 200mm 固定光纤,保证光纤平直地埋设在岩层内部。同时在垂直光纤的顶部和底部安装缠绕固定器,用于固定垂直光纤,并具有给定预应力的作用。2矿压显现预测模型2.1光纤布里渊频移平均变化度表征矿压原理由分布式光纤传感原理可知,光纤在试验过程中的布里渊频移变化度与温度、应变之间有着线性相关性,而在温度保持不变的条件下
21、,光纤布里渊频移变化度只受应变的影响,若试验温度保持在 5以内,此时的布里渊频移变化度很小,基本可以忽略不计。在利用分布式光纤监测矿压的过程中,上覆岩层在开采过程中的信息变化可以通过布里渊频移的改变来反映。在煤层开挖前布里渊频移基本不会有明显的变化,而在开挖过程中,布里渊频移会在上覆岩层变形破坏时产生较为明显的变化。布里渊频移变化度与上覆岩层的变形破坏程度呈正相关,基于此规律,推导出光纤布里渊频移平均变化度的表达式:Dl=1nni=1|Bi|ni=1|Bi1|(1)DllnBii in式中:为光纤在开挖距离 处的布里渊频移平均变化度;为光纤上总的采样点个数;为每次开挖时光纤上第(=1,2,)个
22、采样点的布里渊频移。某个时间段上覆岩层的变形程度可由该时间段相邻前后 2 次的布里渊频移的差值表示。布里渊频移变化曲线会随开挖的进行出现“尖峰”,可以此作为判断指标来衡量上覆岩层是否来压。2023年第7期柴敬等:基于贝叶斯算法优化的 CatBoost 矿压显现预测852.2CatBoost 预测原理mX=X1,X2,Xn1Xi=xi,xi+1,xi+(m1)xii i=1,2,n1对光纤布里渊频移变化度数据集进行预处理,利用 Takens 相空间重构理论,对数据集进行一维投影,用互信息法确定延迟时间,用预测误差最小法确定嵌入维数,将数据集转换为随开挖距离变化的时 间 序 列 X,其 中,为光纤
23、上第()个采样点的布里渊频移变化度。经过相空间重构后的样本为xi+1+(m1)=f(xi,xi+1,xi+(m1)(2)Y=Y1,Y2,Yn1Yi=xi+1+(m1)通过学习得到映射函数 f(),使得测试集的 Y 通过 映 射 函 数 映 射 到 训 练 集 的 Y,其中,Y 与真实值的误差要尽可能小。CatBoost 作为一款升级版的 GBDT 算法,相比传统的 GBDT 算法做出了以下改进。1)由于 GBDT 算法使用标签的平均值来衡量节点是否分裂,这种衡量条件会导致信息在一定程度上缺失,从而导致梯度偏差和预测偏移问题。为解决该问题,CatBoost 算法利用排序提升策略,加入先验项和权重
24、系数,针对不同样本建立相对独立模型,并根据梯度值不断训练基学习器,实现无偏梯度估计20。k=ni=1Ii=kyi+apnni=1Ii=k+a(3)Ii=k=1i=k0其他(4)kkkkiiyiiap式中:为第 个训练样本的第 个类别特征;为的无偏梯度估计;I 为指示函数;为每次开挖第个采样点数据的第 个类别特征;为第 个采样点数据的标签;为权重系数;为先验项。2)CatBoost 算 法 不 像 GBDT 算 法 一 样 使 用CART 树作为基学习器,而是选用健忘决策树,保证了迭代过程中每层的分裂特征一致,左右子树完全对称且保持平衡,降低了模型的复杂度,从而提升预测准确度、训练速度和内存利用
25、率。2.3贝叶斯算法优化参数为进一步提升 CatBoost 算法在矿压预测时的精度,在训练过程中对 CatBoost 算法进行参数优化,寻求最优参数组合来更好地适配算法,从而最大程度地提升预测精度。本文通过贝叶斯算法优化参数,主要分为以下 2 个步骤。1)利用概率模型代替原始待评估模型的目标函数,通过迭代不断增加信息量并修正检验。本文选取灵活度较高的高斯过程求解概率模型21-22。g(1),g(2),g(n1)iP()=(0,2)2假 设 训 练 集 为 M,未 知 的 目 标 函 数 集 合 为,为训练集 M 中的样本,超参数为,当存在观测噪声 且假设噪声满足独立同分布的高斯分布(为先验模型
26、的预测方差),可得边际似然分布:P(i|M,)=wP(i|g()P(best|M)d(5)best式中为观测值的最优解。best通过极大似然估计对边际似然分布最大化得到。2)选择一个采集函数,由后验模型构造效用函数,确定下个采集点。本文使用常用的期望提升函数,寻找当前最优情况下的期望增量最大值。采集函数为(|,)=Emax(0,g()g(best)(6)E式中:为先验模型的预测均值;()为当前最优情况下的期望。2.4预测流程矿压显现预测流程如图 4 所示,具体步骤如下。开始搭建三维相似物理模型并获取数据数据归一化处理重构数据相空间划分训练集和测试集初始化 CatBoost 参数贝叶斯算法优化
27、CatBoost 参数设置目标优化函数及参数优化区间迭代寻求最优参数组合达到最大迭代次数?获取最优参数组合YN训练 CatBoost 矿压显现预测模型输出预测结果结束图4矿压显现预测流程Fig.4Flowofminepressureappearanceprediction步骤 1:搭建三维相似物理模型,预埋分布式光纤监测系统,采集试验数据。步骤 2:对试验数据进行预处理,即去噪、归一化处理和相空间重构。步骤 3:将处理后的数据载入 CatBoost 算法中,然后设定贝叶斯算法的目标优化函数和参数优化区间,设置初始化点和迭代次数,对 CatBoost 算法的参数进行调整。86工矿自动化第49卷步
28、骤 4:判断是否达到最大迭代次数,若是则停止迭代,输出使算法性能指标达到最优的参数组合,否则返回步骤 3 继续调整参数。步骤 5:存储当前最优参数组合,将其装载到CatBoost 算法中,通过训练得到最终的矿压显现预测模型。3实验与结果分析3.1光纤监测数据预处理针 对 光 纤 监 测 数 据,采 用 经 验 模 态 分 解(EmpiricalModeDecomposition,EMD)进行去噪处理。EMD 将数据分解成 5 个本征模函数(IntrinsicModeFunction,IMF)分量及 1 个 Res 分量,如图 5 所示。可看出 IMF1IMF2 分量波形紊乱,IMF3IMF5
29、分量波形中的毛刺和剧烈震荡位置极大减少。通过散布熵对各分量进行进一步分析,通过计算得到 IMF1IMF5 分量的散布熵,分别为 4.713,3.779,2.701,2.520,2.131。比较相邻分量的散布熵比值,其中 IMF2 分量与 IMF3分量的散布熵比值最大,为 1.399。因此将噪声分量和有效分量的临界位置锁定在 IMF3 分量,判定为噪声的 IMF1 分量和 IMF2分量直接去除。05001 0001 5002 0002 5003 000930931400140140014033003301000100830834100410Res频率/MHz工作面开挖距离/mmIMF5频率/MH
30、zIMF4频率/MHzIMF3频率/MHzIMF2频率/MHzIMF1频率/MHz原始信号频率/MHz图5EMD 分解效果Fig.5EMDdecompositioneffect经去噪后所得的数据结合式(1)分析可知,试验过程中共出现 1 次初期来压和 10 次周期来压,即布里渊频移平均变化度“尖峰”总计出现 11 次,初次来压出现在工作面推进至 900mm 处,剩余 10 次周期来压分别出现在工作面推进至 1050,1150,1250,1350,1500,1650,1800,2000,2150,2400mm 处,如图 6 所示。050100150200250300350400频移平均变化度/M
31、Hz5001 0001 5002 0002 5003 000工作面开挖距离/mm初次来压周期来压图6工作面开采全过程矿压曲线Fig.6Minepressurecurveofthewholeprocessofworkingfacemining为尽可能消除检测误差,采用极值法对数据进行归一化处理,之后对归一化数据进行相空间重构,将一维的时间序列数据扩充到三维,处理后数据见表 2。将经过相空间重构的数据集划分为训练集和测试集,二者比例为 73。3.2贝叶斯算法迭代寻优CatBoost 算法参数见表 3 所示。分别使用常用的网格搜索法和贝叶斯算法进行参数优化,并选用平均绝对误差(MeanAbsolut
32、eError,MAE)和均方根误差(RootMeanSquaresError,RMSE)作为指标对优化结果进行对比,结果见表 4。可看出贝叶斯算法比传统网格搜索法的迭代次数更少、误差更小。贝叶斯算法对 CatBoost 算法的参数寻优过程如图 7 所示。可看出当迭代到第 21 次时,准确率最高,为 94.7%,此时对应的最优参数组合:最大树数为 72,学习率为 0.16,树的最大深度为 9,L2 正则化参数为 6。3.3对比算法选取为验证本文预测模型的有效性,选用集成学习算法中常用的 RF,GBDT,XGBoost 算法作为对比算法来构建矿压预测模型。1)RF 算法。RF 算法采用 Boots
33、trap 重抽样方法来创建随机样本,按一定的比例选取抽中数据和未抽中数据,分别作为初始样本集和验证集。数据选择完成后进行 CART 树的建立,CART 树通过最优属性分裂而成,并且所有的 CART 树都不做剪枝操作。每棵树的独立性由随机数据和特征保证,采用2023年第7期柴敬等:基于贝叶斯算法优化的 CatBoost 矿压显现预测87每棵树的平均值作为最终的预测值。为达到最佳预测效果,对影响预测效果较大的树木数和深度进行优化,根据贝叶斯算法,确认树木数为 18、深度为5 时,预测效果最好。2)GBDT 算法。GBDT 算法在回归问题上与RF 算法基本一致,都是采用 CART 回归树,GBDT
34、主要在梯度提升方向做出了改进,通过在梯度方向不断降低损失函数,起到提升算法效果的作用。同样为达到该算法的最佳预测效果,优化影响预测效果较大的树木数和深度,根据贝叶斯算法,确认树木数为 20、深度为 6 时,该算法的预测效果最佳。3)XGBoost 算法。XGBoost 算法的损失函数利用二阶泰勒展开得到解析解优化 CART 树,并加入正则化项对算法复杂度进行控制。XGBoost 算法对预测精度影响较大的有树木数、深度和叶子惩罚项,根据贝叶斯算法,确认树木数为 65、深度为 5、惩罚项为 1 时,该算法的预测效果最佳。表2光纤布里渊频移平均变化度相空间重构Table2Phasespacereco
35、nstructionofopticalfiberBrillouinfrequencyshiftmeanvariationdegree序号开挖距离/mmx1x2x3Y序号开挖距离/mmx1x2x3Y120000.0000260.0015790.0024742715000.8640750.8388630.7213041.00000022500.0000260.0015790.0024740.0021532815500.8388630.7213041.0000000.86953133000.0015790.0024740.0021530.0013542916000.7213041.0000000.8
36、695310.41387643500.0024740.0021530.0013540.0021863016501.0000000.8695310.4138760.57457454000.0021530.0013540.0021860.0195773117000.8695310.4138760.5745740.33671964500.0013540.0021860.0195770.0204043217500.4138760.5745740.3367190.42257375000.0021860.0195770.0204040.0158863318000.5745740.3367190.42257
37、30.65692585500.0195770.0204040.0158860.0140983418500.3367190.4225730.6569250.54445496000.0204040.0158860.0140980.0289253519000.4225730.6569250.5444540.547804106500.0158860.0140980.0289250.0464073619500.6569250.5444540.5478040.572263117000.0140980.0289250.0464070.0278813720000.5444540.5478040.5722630
38、.731946127500.0289250.0464070.0278810.0167083820500.5478040.5722630.7319460.453583138000.0464070.0278810.0167080.4521903921000.5722630.7319460.4535830.564985148500.0278810.0167080.4521900.4917974021500.7319460.4535830.5649850.815280159000.0167080.4521900.4917970.6892014122000.4535830.5649850.8152800
39、.751002169500.4521900.4917970.6892010.5708644222500.5649850.8152800.7510020.7453541710000.4917970.6892010.5708640.5991834323000.8152800.7510020.7453540.6928831810500.6892010.5708640.5991830.6540414423500.7510020.7453540.6928830.7962331911000.5708640.5991830.6540410.4472534524000.7453540.6928830.7962
40、330.9403752011500.5991830.6540410.4472530.7216254624500.6928830.7962330.9403750.8406922112000.6540410.4472530.7216250.6980594725000.7962330.9403750.8406920.7220122212500.4472530.7216250.6980590.7725444825500.9403750.8406920.7220120.6734142313000.7216250.6980590.7725440.6403614926000.8406920.7220120.
41、6734140.5937092413500.6980590.7725440.6403610.8640755026500.7220120.6734140.5937090.4735912514000.7725440.6403610.8640750.8388635127000.6734140.5937090.4735910.3940522614500.6403610.8640750.8388630.721304表3CatBoost 算法参数Table3ParametersofCatBoostalgorithm参数名称作用默认值搜索范围iterations最大树数提升精度100040,130learn
42、ing_rate学习率提升精度0.030.01,0.30depth树的最大深度提升精度63,10l2_leaf_regL2正则化正则化,减小过拟合31,10表4参数优化结果对比Table4Comparisonoftheparameteroptimizationresults优化方法迭代次数MAERMSE网格搜索法550.0730.089贝叶斯算法300.0650.07988工矿自动化第49卷3.4模型性能评判指标选取本文选取回归问题中常用的 3 项评估指标作为统一的模型性能评判指标,分别为 MAE、RMSE 和决定系数 R2。MAE 用来反映预测值与真实值绝对误差的平均值,RMSE 用来反映预
43、测值与真实值偏差的样本标准差。在非线性拟合中,MAE 和 RMSE越小,表明拟合度越高,预测越准确。R2用来反映模型中捕获到的信息占真实标签中所带信息的比例,R2越接近 1,表明模型对信息的拟合度越好。3.5结果分析3.5.1预测结果对比测试集选取 16 次开挖的实测值,分别采用经贝叶斯算法优化后的 RF,GBDT,XGBoost,CatBoost 算法对矿压进行预测,结果如图 8 所示。从图 8 可看出,16 次开挖中总计出现了 3 次布里渊频移平均变化度“尖峰”,分别出现在开挖距离为 2000,2150,2400mm 处。CatBoost 算法整体预测效果最好,16 次开挖过程中 3 次矿
44、压均被预测出来,且整体趋势与实测值较符合。XGBoost 算法虽然也正确预测出 3 次周期来压,但其在开挖距离为2450mm 处时泛化能力减弱,使得相对误差变大。RF 算法在前 9 次开挖时预测精度较高,后 7 次开挖时预测效果较差。GBDT 算法在 16 次开挖中仅正确预测出 2 次周期来压,且整体预测误差较大。00.880.900.92准确率/%L2 正则化树的最大深度学习率最大树数0.940.9602.65.27.810.42.14.26.38.410.500.0880.1760.2640.35228568411214051015202530迭代次数720.16960.947图7贝叶斯算
45、法参数寻优结果Fig.7ParameteroptimizationresultsofBayesianalgorithm1 9001001502002503003502 1002 3002 5002 700工作面开挖距离/mm(a)RF 算法预测结果(b)GBDT 算法预测结果(c)XGBoost 算法预测结果(d)CatBoost 算法预测结果频移平均变化度/MHz1 9001001502002503003502 1002 3002 5002 700工作面开挖距离/mm频移平均变化度/MHz1 900501001502002503004003502 1002 3002 5002 700工作面开
46、挖距离/mm频移平均变化度/MHz1 9001001502002503003502 1002 3002 5002 700工作面开挖距离/mm频移平均变化度/MHz实测值RF 预测值实测值GBDT 预测值实测值XGBoost 预测值实测值CatBoost 预测值图8光纤布里渊频移平均变化度实测值与预测值Fig.8MeasuredvaluesandpredictedvaluesofopticalfiberBrillouinfrequencyshiftmeanvariationdegree2023年第7期柴敬等:基于贝叶斯算法优化的 CatBoost 矿压显现预测89不同算法性能指标对比见表 5。可
47、看出相比其他 3 种算法,CatBoost 算法测试集的决定系数 R2最接近 1,MAE 与 RMSE 也最小。表5不同算法性能指标对比Table5Comparisonofperformanceindicatorsofdifferentalgorithms算法RMSEMAER2RF0.01790.01350.8746GBDT0.03250.03710.8599XGBoost0.01150.00920.9078CatBoost0.00910.00770.93393.5.2泛化性能对比为进一步验证 CatBoost 算法的泛化能力,选取不同的训练样本数据量进行预测训练,RMSE 对比如图 9 所示
48、。可看出即使训练样本数据量增加,CatBoost 算法的 RMSE 依然最小,表明 CatBoost 算法的泛化能力较好。00.51.01.52.02.53.03.54.0RMSE/%RFGBDTXGBoostCatBoost50607080训练样本比例/%图9不同算法泛化能力对比Fig.9Comparisonofgeneralizationabilityofthedifferentalgorithms 4结论1)通过贝叶斯算法对 CatBoost 算法进行参数优化,与传统网格搜索法相比,贝叶斯算法的迭代次数可减少约 45%,误差减少约 11%,参数优化效果显著提升。2)通过三维相似物理模型试
49、验测得表征矿压规律的光纤频移数据,数据经预处理及相空间重构后,输入经贝叶斯算法进行参数寻优后的 CatBoost 算法进行矿压预测,预测值与实测值基本吻合,MAE 为0.0077,RMSE 为 0.0091,决定系数 R2为 0.9339。3)CatBoost 算法在训练样本量增加的过程中,RMSE 仍保持较低,表明 CatBoost 算法泛化性能较好。4)基于贝叶斯算法优化的 CatBoost 矿压显现预测模型仅考虑了工作面开采过程中单一影响因素,未对导致矿压的其他因素进行关注,后续将重点关注多信息融合下的矿压预测。参考文献(References):袁亮.“煤炭精准开采背景下的矿井地质保障”
50、专辑特邀主编致读者J.煤炭学报,2019,44(8):2275-2276.YUANLiang.Invitededitor-in-chiefofthealbumMineGeological Guarantee in the Context of Precise CoalMiningtoreadersJ.JournalofChinaCoalSociety,2019,44(8):2275-2276.1张俊文,钟帅,梁珠擎.矿区生态环境“三位一体”治理技术研究J.煤炭技术,2020,39(6):106-109.ZHANG Junwen,ZHONG Shuai,LIANG Zhuqing.Studyon