基于FL-XGBoost算...——以胜利油田牛庄地区为例_彭英.pdf

资源描述

1、第30卷第1期油气地质与采收率Vol.30,No.12023年1月Petroleum Geology and Recovery EfficiencyJan.2023收稿日期：2022-05-15。作者简介：彭英（1970），男，河北迁安人，高级工程师，博士，从事油气勘探数据分析及勘探信息系统开发管理工作。E-mail：。基金项目：国家自然科学基金项目“储层天然气水合物相变和渗流多场时空演化规律”（51991365），山东省自然科学基金项目“基于多源数据融合的浊积岩有效储层预测方法”（ZR2021MF082）。文章编号：1009-9603（2023）01-0076-10DOI：10.13673/

2、37-1359/te.202205031基于FL-XGBoost算法的砂泥岩识别方法以胜利油田牛庄地区为例彭英1，李克文2，朱应科1，徐志峰2，杨澎涛1，孙秀玲3（1.中国石化胜利油田分公司物探研究院，山东东营 257000；2.中国石油大学（华东）计算机科学与技术学院，山东青岛 266580；3.山东胜软科技股份有限公司，山东东营 257000）摘要：砂泥岩识别任务通常基于测井曲线，依据经验公式、实地岩心取样、交会图和聚类分析等传统方法实现，但这些方法难以充分利用测井曲线所包含的砂泥岩特征，且精度低、效率低，人为影响因素大。为此，以测井和录井资料为基础，综合砂泥岩识别的关键技术难点，

3、对测井参数进行敏感性分析，以选取适当的影响因素，通过多项预处理操作构建完整的训练数据集，并根据测井标签稀疏性的特点，引入Focal Loss函数，提出FL-XGBoost模型，进而开展胜利油田牛庄地区砂泥岩识别。研究结果表明，采用FL-XGBoost算法的砂泥岩识别模型对研究区砂泥岩识别的准确率达到了0.827。通过5种公开分类数据集设计对比实验，证明FL-XGBoost算法在识别分类领域上具有强泛化能力。关键词：FL-XGBoost算法；迭代决策树；机器学习；砂泥岩识别；测井资料中图分类号：TE319文献标识码：AFL-XGBoost algorithm-based method for i

4、dentifying sandstoneand mudstone：A case study of Niuzhuang area in Shengli OilfieldPENG Ying1，LI Kewen2，ZHU Yingke1，XU Zhifeng2，YANG Pengtao1，SUN Xiuling3（1.Geophysical Exploration Research Institute of SINOPEC Shengli Oilfield Company,Dongying City，Shandong Province，257000，China；2.College of Comput

5、er Science and Technology，China University of Petroleum（East China），Qingdao City，ShandongProvince，266580，China；3.Shandong Shengruan Technology Co.，Ltd.，Dongying City，Shandong Province，257000，China）Abstract：sandstone and mudstone identification tasks are usually based on logging curves and rely on tr

6、aditional methodssuch as empirical formulas，field core sampling，cross plots，and cluster analysis，but these methods fail to make full use ofthe sandstone and mudstone features contained in the logging curves.At the same time，these traditional methods have lowaccuracy and slow efficiency and are great

7、ly affected by human factors.To address the above problems，this paper uses logging data as the basis，combines the key technical difficulties of sandstone and mudstone identification,and conducts sensitivity analysis on logging parameters，so as to select appropriate influencing factors and construct

8、a complete training dataset through several pre-processing operations.In addition，the paper introduces the Focal Loss function and proposes theFL-XGBoost model according to the sparsity of logging labels and carries out sandstone and mudstone identification in Niuzhuang area of Shengli Oilfield.The

9、experimental results show that the sandstone and mudstone identification model usingthe FL-XGBoost algorithm achieves an accuracy of 0.827 in identifying the sandstone and mudstone in the study area.Finally，the strong generalization ability of the FL-XGBoost algorithm in the identification classific

10、ation field is verifiedthrough five publicly classified dataset design comparison experiments.Key words：FL-XGBoost algorithm；iterative decision tree；machine learning；sandstone and mudstone identification；logging data第30卷第1期彭英等.基于FL-XGBoost算法的砂泥岩识别方法 77 岩性识别对石油勘探开发具有重要意义，已成为众多学者关注的焦点。砂泥岩识别是储层预测工作中非常重

11、要的环节1，也是诸多研究的基础，其所需的测井资料通常由专家按经验解释完成，因此识别结果存在一定的主观性。在常规的砂泥岩识别方法中2-6，地震反演作为砂体预测的常规技术已得到广泛应用，但不论是叠后反演还是叠前反演，均受限于地震的纵向分辨率，井间预测结果分辨率较低、可靠性较弱，准确率有待进一步提高。对于岩性信息的获取多依靠实地岩心取样、交会图和聚类分析7等传统方法和数理统计方法，但这些方法仍存在人力和时间成本较高等局限，因此有必要提出更可靠、稳定的学习算法以解决地质应用中砂泥岩自动识别分类的问题。近年来，随着计算机硬件性能的高速提升以及大数据技术的不断发展，对石油工业的发展产生了巨大的推动作用8。

12、因此，将迅速发展的大数据技术与测井曲线相结合识别砂泥岩，已成为目前储层研究砂泥岩识别的重要手段9-14。机器学习算法从井点出发，充分挖掘地震属性与测井岩性敏感曲线之间的数据关系，最大限度地发挥地震属性的利用价值，其预测结果的纵向分辨率高于确定性反演，井间可靠性优于地质统计学反演。随机森林算法15-17的训练速度快、准确率较高，能够有效地运行于大型数据集，且引入随机性，不易过拟合；该算法对于不平衡的数据集可以平衡误差，但对于小型数据或低维数据（测井数据），则难以产生较好的分类，易出现很多相似的决策树，导致真实的预测结果被掩盖。深度神经网络算法18-22可以较好地解决非线性问题，进而实现面向相关专

13、业领域的迁移学习，这是建立在充足训练数据量的基础之上，但若在岩性识别任务的训练过程中，面对较为稀少的测井数据，神经网络在推理过程中无法提取足够的测井特征，易导致过拟合问题23，使得模型无法获得较高的准确率。XGBoost是一种基于迭代决策树模型的集成学习算法24-26，是基于利用一阶导数相关信息的迭代决策树（Gradient Boosting Decision Tree，简称GBDT）的改进算法，在很大程度上提高了模型的训练速度和预测的准确度。对于深度学习算法而言，XGBoost算法只适用于处理结构化的特征数据，而直接对测井、录井曲线等数据进行处理则较为困难，且XGBoost算法的参数过多，调

14、参复杂。由以上分析可以得出，诸如随机森林、深度神经网络等机器学习算法可以较好的解决相关地质问题，已经获得了显著的效果，为提升地质工作效率提供了新的思路和方法，然而在砂泥岩识别领域仍存在关键技术难点：样本集的选取以及预处理对于机器学习算法的性能具有较大影响。砂泥岩岩性数据复杂多样，根据测井参数与岩性的分析，选取合适的测井曲线参数是影响砂泥岩识别准确性的关键之一。因此，需基于特定样本数据设计相关人工智能算法与超参数调优策略，充分发挥智能算法的优势，以满足砂泥岩识别准确性的需求。为此，笔者以测井和录井资料为基础，考虑砂泥岩识别的关键技术难点，对测井参数进行敏感性分析，以明确影响因素；通过多项预处理操

15、作构建完整的训练数据集，根据测井标签稀疏性的特点，将 Focal Loss 函数引入 XGBoost 算法（FL-XGBoost算法），对胜利油田牛庄地区构建砂泥岩识别模型；并将随机森林、深度神经网络算法的训练结果作为对照，以最终砂泥岩识别分类结果的准确率作为评价标准，验证FL-XGBoost算法应用于测井砂泥岩识别的可行性；最后通过5种公开分类数据集设计对比实验，验证FL-XGBoost算法在识别分类领域上的强泛化能力。研究成果可以为FL-XGBoost算法对砂泥岩识别的可行性提供理论依据，为传统的测井岩性识别提供新的思路。1相关理论GBDT算法是一个树结构（可以是二叉树或非二叉树）27，由

16、多棵决策树组成，以所有决策树的结论累加起来作为最终答案，具体原理为：每个非叶子节点表示一个特征属性的测试，每个分支代表这个特征属性在某个值域的输出，而每个叶子节点存放一个类别，迭代决策的过程是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果27。GBDT算法的思路是不断地添加决策树，进行特征分裂以生长一棵决策树，且每次添加一个决策树，为学习一个新函数，进而拟合上次预测的残差。当训练完成得到k棵决策树，则要预测一个样本的分数，其实就是根据这个样本的特征，在每棵决策树中落到对应的一个叶子节点，每个叶子节点即对应一个分数，最后只需

17、将每棵决策树对应的分数相加即为该样本的预测值。XGBoost算法是基于二阶泰勒展开式将损失函数展开，并且将正则项置于目标函数之外，这降低了模型的复杂度，更易于获得最优解，通过控制目标函数的不断下降，使得模型能够更好地收敛，有 78 油气地质与采收率2023年1月效避免过拟合，从而提高了预测准确率。该算法在训练前对数据进行预处理，将其结果保存，在后面的迭代中可以重复使用，从而降低计算复杂度，实现并行化，提高整体计算效率。2基于 FL-XGBoost 算法的砂泥岩识别模型构建基于GBDT与XGBoost算法，将不平衡样本分类思想引入训练损失函数，构建基于FL-XGBoost算法的砂泥岩识别模型。结

18、合砂泥岩识别存在的关键技术难点，首先对测井参数进行敏感性分析，以明确影响因素，通过多项预处理操作构建完整的训练数据集并将其输送至FL-XGBoost模型中进行训练，迭代计算FL损失并判断是否继续收敛，期间进行超参数调优，最终获得训练完备的砂泥岩识别模型。基于FL-XGBoost算法的砂泥岩识别流程如图1所示。图1基于FL-XGBoost算法的砂泥岩识别流程Fig.1Flow chart of sandstone and mudstone identificationbased on FL-XGBoost algorithmFocal Loss是LIN等于2017年专门为解决不平衡分类问题提出的

19、损失函数28。其从2个方面解决数据类别不平衡的问题：损失函数更加倾向于关注少数类样本。避免易分类样本主导模型训练过程而导致的性能降低。相对于庞大的地震数据体，测井与录井标签数据存在稀疏性，基于机器学习算法的砂泥岩识别可视为非平衡样本训练问题。FL-XGBoost算法的思路与集成学习中的GBDT算法的类似。FL-XGBoost算法训练时每一次迭代会增加一棵决策树来拟合上一次迭代过程中的真实值与预测值之间的 FL残差，进而逐渐逼近真实值，其训练过程中的目标函数为：obj=LFL+i=1n()fi（1）i=1n()fi为复杂度函数项，也称为正则化项，将LFL展开得到：LFL=|-()1-y?clgy

20、?c,-()1-()y?clg()1-y?cyc=1yc=0（2）在（2）式中，通过引入系数来调整测井标签中不同参数在损失函数中的权重，引入聚焦稀疏系数来调整易分类样本和难分类样本的损失权重。将()fi展开得到：(fi)=T+12j=1Twj2（3）新生成的决策树需拟合上一迭代预测的残差，即第t次迭代目标函数，其砂泥岩识别结果可以表示为：obj(t)=i=1nlyc,y?(t-1)c+ft(xc)+(fk)+k=1t-1(fi)（4）将损失函数使用泰勒二阶展开，引入正则项并去除常数项后得到：obj(t)=i=1n|giwq(xc)+12hiwq(xc)2+T+12j=1Twj2（5）将（5）式

21、中表示的所有训练样本按照叶子节点进行分组得到：obj(t)=j=1T|()i ngiwj+12()i nhi+wj2+T（6）FL-XGBoost算法中经过k次迭代后，形成的决策树模型对第c个样本的输出结果为：y?c=k=1Kfi(xc)fk F（7）fk=wq(x)w RTq:Rd 1,2,.,T（8）3应用实例分析3.1研究区概况牛庄洼陷为济阳坳陷东营凹陷中南部的次级第30卷第1期彭英等.基于FL-XGBoost算法的砂泥岩识别方法 79 洼陷，为渤海湾盆地油气最丰富的地区之一。其南北两侧均受断层控制，构造活动较为频繁，沉积岩性主要为深灰色的厚层泥岩、灰质砂岩和泥质粉砂岩等。牛庄洼陷发育多

22、种类型的油气藏，对其地层岩性的准确识别可为后期的油气预测奠定基础。3.2数据获取及预处理本次研究数据来源于牛庄洼陷220口井的测井及录井数据，其中200口井的测井曲线为las文件格式，20口井的测井曲线为文本文档，采样间隔均为0.125 m。目标任务为完成纯泥岩、砂岩、其他泥岩（除纯泥岩之外的泥岩）、其他岩层（除纯泥岩、砂岩、其他泥岩三者之外的岩层）4类岩性的识别。利用实际采集到的测井和录井数据，检查标签数据，建立样本库，并对样本数据进行预处理，包括：异常值处理。根据业务专家制定的不同特征的合理取值范围，对数据中的特征值设置阈值并进行过滤，对超过阈值的不合理值依据临近数据或单井平均数据进行修正

23、。缺失值处理。对于测井曲线中的缺失数据，利用贝叶斯估计插补缺失值。重采样。将测井数据采样间隔为0.1 m的井应用插值进行重采样，采样间隔为0.125 m；对标签数据进行上采样，以保证标签类别均衡。数据归一化。在机器学习领域中，不同特征向量往往具有不同的量纲和单位，这样会影响数据分析的结果。为了消除特征向量的量纲影响，需进行数据标准化处理，以解决数据指标之间的可比性。而原始数据经过数据归一化处理后，各指标处于同一数量级，适合进行综合对比评价（图2）。最终将整个数据划分为训练集、测试集和验证集。训练集和测试集数据是利用岩屑录井资料确定，为避免岩屑录井资料的错误，在岩屑录井图上，显示4条岩性曲线，即

24、自然电位曲线（SP）、自然伽马曲线（GR）、井径曲线（CAL）和声波时差曲线（AC）。业务专家现场对岩性分类进行审定，去除不可靠的岩性分类，最终完成纯泥岩、砂岩、其他泥岩、其他岩层4类样本的标定工作，按点构建1 048 575条样本数据。4 个点构建 1 个深度段，按深度段构建28 619条样本数据（表1）。3.3特征参数提取针对测井曲线数据进行多维度表征，测井曲线图2数据重采样和归一化示例Fig.2Diagram of data resampling and normalizationDEPTH/m1 800.0001 800.1251 800.2501 800.3751 800.5001

25、800.6251 800.7501 800.8751 801.0001 801.1251 801.2501 801.3751 801.5001 801.6251 801.7501 801.8751 802.0001 802.1251 802.2501 802.3751 802.500AC/（sm-1）351.755 0351.032 0351.508 0352.059 0351.496 0349.598 0345.678 0343.309 0341.647 0342.945 0348.015 0352.259 0358.608 0361.819 0364.199 0364.672 0364.0

26、52 0362.492 0358.579 0355.594 0351.436 0SP/mV136.404 0136.269 0136.084 0135.872 0135.591 0135.390 0135.314 0135.282 0135.284 0135.351 0135.461 0135.628 0135.984 0136.397 0136.659 0136.875 0137.023 0136.966 0136.808 0136.580 0136.157 0CNL/%26.988 027.153 027.828 028.542 029.815 030.552 031.119 031.17

27、0 030.887 030.590 030.321 030.327 030.570 030.745 030.599 030.210 029.393 028.914 028.510 028.338 028.005 0DEN/（gcm-3）2.196 02.190 02.185 02.185 02.183 02.183 02.184 02.185 02.185 02.185 02.187 02.197 02.208 02.226 02.237 02.246 02.248 02.245 02.240 02.230 02.222 0GR/API55.290 053.292 051.212 050.66

28、9 051.181 052.149 053.355 053.831 054.465 055.259 057.202 058.808 061.481 063.232 065.250 065.911 065.629 064.840 063.747 063.224 062.552 0重采样归一化DEPTH/m1 800.0001 800.1251 800.2501 800.3751 800.5001 800.6251 800.7501 800.8751 801.0001 801.1251 801.2501 801.3751 801.5001 801.6251 801.7501 801.8751 80

29、2.0001 802.1251 802.2501 802.3751 802.500AC0.484 00.481 00.483 00.484 00.483 00.477 00.465 00.457 00.452 00.456 00.472 00.485 00.505 00.515 00.522 00.523 00.522 00.517 00.505 00.495 00.483 0SP0.786 00.784 00.782 00.779 00.774 00.772 00.771 00.770 00.770 00.771 00.773 00.775 00.780 00.786 00.790 00.7

30、94 00.796 00.795 00.793 00.789 00.783 0CNL0.404 00.408 00.421 00.435 00.460 00.475 00.486 00.487 00.482 00.476 00.470 00.470 00.475 00.479 00.476 00.468 00.452 00.442 00.434 00.431 00.424 0DEN0.382 00.375 00.370 00.370 00.367 00.367 00.368 00.370 00.370 00.370 00.372 00.384 00.396 00.417 00.430 00.4

31、40 00.443 00.439 00.433 00.422 00.413 0GR0.190 00.169 00.147 00.141 00.147 00.157 00.170 00.175 00.182 00.190 00.211 00.228 00.256 00.275 00.297 00.304 00.301 00.292 00.281 00.275 00.268 0 80 油气地质与采收率2023年1月按点构建以及按 0.5 m 每段提取特征参数。牛庄洼陷主要为砂泥岩沉积，且该区测井资料大多是2010年以前测得，9条基础测井曲线齐全，其他测井曲线较少，其中与岩性相关的测井曲线有 GR，

32、SP，AC和CAL曲线，而CAL曲线受钻井和裂缝的影响较大，因此选取AC，GR和SP这3条测井曲线作为岩性识别的基础数据。录井资料的采样间隔为0.5 m，测井资料的采样间隔为0.125 m，为了匹配录井数据，将测井资料按照0.5 m进行特征参数提取，特征参数有最大值、最小值、平均值、标准差、中位数、累加值、数值排序的百分比；经过特征参数与岩性参数交汇分析，优选最大值、最小值、中位数、平均值作为测井曲线特征，分别提取每条测井曲线同一时窗内的最大值、最小值、中位数和平均值作为曲线的特征。将处理后的特征数据与录井数据按深度进行匹配构建样本数据，并将样本数据划分为训练集和验证集，其中训练集样本占样本总

33、数的 80%，验证集样本占样本总数的20%。标签共包含4类，分别为纯泥岩、砂岩、其他泥岩和其他岩层。3.4砂泥岩识别结果对比分别使用 FL-XGBoost 和 XGBoost、随机森林、深度神经网络算法学习胜利油田牛庄洼陷的砂泥岩样本数据，并进行超参数设置、模型性能以及应用效果的对比分析。3.4.1FL-XGBoost算法为契合砂泥岩识别，改进目标函数的计算方式，进一步提高模型的精确度，并将目标函数的优化问题转化为求二次函数的最小值问题，利用损失函数的二阶导数信息训练决策树模型，同时将树复杂度作为正则化项加入到目标函数中，以提升模型的泛化能力。XGBoost模型中有多个超参数，选出对模型影响较

34、大的超参数作为网格搜索法遍历寻优的参数，其余超参数为默认值。在本次应用实例中，分别对以FL-XGBoost算法和XGBoost算法为基础设计的30棵决策树构建对比实验，即初始迭代30次。初始学习率采用0.01，控制每次迭代更新权重时的步长，设置每棵决策树的初始深度为3，最大值为20，并且设置早停轮数，防止模型过拟合。由表2可知模型学习率、决策树的最大深度和迭代产生决策树超参数的数量分别为10，10和5，将以上参数进行组合得到500条超参数组合。运用网格搜索法，遍历网格中的500条超参数组合，寻找最优超参数组合。随机取80%的训练集数据分批输表1样本数据的样式Tabel1Sample data

35、style井名A6A6A6A6A6A6A6A6A6A6A6A6A6A6A6A6A6A6A6层顶深/m1 000.01 000.51 001.01 001.51 002.01 002.51 003.01 003.51 004.01 004.51 005.01 005.51 006.01 006.51 007.01 007.51 008.01 008.51 009.0层底深/m1 000.51 001.01 001.51 002.01 002.51 003.01 003.51 004.01 004.51 005.01 005.51 006.01 006.51 007.01 007.51 008.0

36、1 008.51 009.01 009.5GRmean0.314 00.351 80.320 00.297 00.312 00.252 20.318 80.313 50.286 60.296 70.342 50.342 20.378 90.378 70.366 60.294 20.250 40.305 90.331 9SPmean0.330 90.332 00.330 70.331 40.329 90.331 80.329 00.331 00.332 00.332 10.334 10.333 00.331 70.332 00.331 60.332 00.331 90.333 80.333 2A

37、Cmean0.641 00.620 70.562 80.615 60.433 60.312 60.479 70.622 20.662 40.653 00.639 10.642 90.632 60.614 40.614 30.614 40.614 30.621 20.638 4GRmax0.320 50.361 30.351 80.335 50.337 80.269 70.335 60.327 90.296 30.329 50.345 40.351 90.400 60.397 70.386 70.312 50.257 40.341 60.347 0SPmax0.331 60.332 30.331

38、 00.331 80.330 50.334 00.333 50.329 50.331 70.332 20.332 50.334 90.334 40.332 30.332 40.332 60.332 10.332 50.334 4ACmax0.642 50.636 20.578 90.637 20.567 50.371 80.548 90.652 90.665 70.660 70.642 40.645 60.643 30.616 90.641 50.627 90.643 40.643 40.646 2GRmin0.309 10.334 90.276 50.271 40.270 60.241 70

39、.293 40.299 30.273 20.274 80.339 80.337 90.359 80.383 00.328 60.269 60.242 60.274 30.303 0SPmin0.330 60.331 50.330 40.330 60.329 40.331 40.329 70.328 70.330 10.331 80.332 00.333 10.331 40.331 30.331 40.331 30.331 60.331 60.333 0ACmin0.639 40.599 20.548 20.592 00.304 50.272 90.410 30.581 70.658 30.64

40、5 60.636 90.639 00.621 30.622 90.614 00.615 50.632 00.637 80.638 2GRmed0.313 10.355 60.325 90.290 50.319 80.248 70.323 20.313 50.288 40.291 20.342 50.339 50.377 60.386 90.375 60.297 30.250 80.308 00.338 8SPmed0.330 70.332 20.330 70.331 60.329 70.332 80.332 10.328 90.331 00.332 00.332 10.334 20.333 1

41、0.331 60.332 10.331 50.332 00.331 70.333 8ACmed0.641 00.623 70.562 00.616 70.431 30.303 00.479 80.627 00.663 00.652 90.638 50.643 50.632 90.613 80.614 30.620 70.639 00.640 40.642 1岩性分类BBBBBBBBBBBBBBBBBBB第30卷第1期彭英等.基于FL-XGBoost算法的砂泥岩识别方法 81 入到XGBoost模型中，用剩余20%的数据集对模型的精度进行评估。根据评估结果的精确度调整模型所用样本和超参数。利用训

42、练好的 XGBoost 模型，按照0.5 m为一段对新井的测井数据进行预测，并输出预测结果，将预测结果与标签值进行比较，只统计纯泥岩和砂岩预测正确的数量，其他泥岩和其他岩性不参与统计。其中，预测准确率=（纯泥岩预测为泥岩+砂岩预测为砂岩）/（泥岩样本总数+砂岩样本总数）。表2FL-XGBoost算法参数设置Tabel2Parameter settings of FL-XGBoost algorithm超参数模型学习率决策树的最大深度迭代产生决策树的数量取值范围0.01，0.110，20100，500步长0.011100表3显示在1 000条超参数组合中具有代表性的组合与预测准确率，当决策树的最

43、大深度为20、最优迭代次数为487次，FL-XGBoost模型的预测准确率达到最高值，为0.827，其在测试集下的推理速度为0.192 0 s，在迭代超过487次以后，预测准确率出现持续的下降，推测模型出现过拟合现象。由此得到，当FL-XGBoost模型在更加侧重于测井资料方面训练，而非无关（负）样本训练时，模型的预测精表3XGBoost模型与FL-XGBoost模型迭代及识别结果Tabel3Iteration and identification results of XGBoostand FL-XGBoost models算法XGBoostFL-XGBoost决策树的最大深度1015201

44、01520最优迭代次数312334451278329487学习率0.030.050.010.040.050.01准确率0.7210.7240.8130.7140.7560.827度将会得到显著提高。3.4.2随机森林算法随机森林算法通过集成学习的方法集成多棵决策树，每一棵都是一个分类器，对于每一个输入样本，每棵决策树与分类结果是一一对应的，通过集成分类投票结果，将投票次数最多的类别指定为最终的输出。笔者将测井数据集作为输入，在基尼指数与交叉熵2种标准下，对随机森林算法进行训练，并展示了迭代产生数、评判标准、决策树的最大深度等超参数对砂泥岩识别结果的影响（图 3）。由图3可知，随着迭代次数的增加

45、，随机森林算法对砂泥岩的识别精度也在提高，但对于诸如测井数据的小样本数据，识别效果并不是最优的。在多参数设置最优的情况下，测试集的识别精度仅为74.13%，其在测试集下的推理速度为0.214 6 s。3.4.3深度神经网络算法深度神经网络算法是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。笔者将测井数据集作为输入，设计对应的深度神经网络模型，通过控制不同的隐含层数目与迭代次数进行训练，最终得到不同的砂泥岩识别结果（表4），在多参数设置最优的情况下，测试集的识别精度仅为0.745，其在测试集下的推理速度为1.453 1 s。深度神经网络算法

46、虽然具有强大的非线性拟合能力，但这是建立在充足训练数据量基础之上的。面对较为稀少的测井数据量，该模型在推理过程中无法提取足够的测井特征，导致模型无法获得较高的准确率。综合来看，采用FL-XGBoost算法的砂泥岩识别结果与采用随机森林、深度神经网络算法所得到的识别结果进行比较（图4），结果表明在使用交叉验证测试模型精度及相同训练数据下，使用FL-XGBoost模型的训练速度最快，识别准确率有明显提图3随机森林算法结果分析Fig.3Result analysis of random forest algorithm 82 油气地质与采收率2023年1月表4深度神经网络模型及识别结果Tabel4D

47、eep neural network model and identification results迭代次数2050201002050隐含层数目2层2层3层3层4层4层准确率0.6550.6900.6770.7040.7360.745升，同时计算复杂度更低，为砂泥岩的测井识别提供了新的思路。3.5公共数据集及实验对比分析在通用的分类识别问题中，业内常采用准确率、F1值、AUC等作为评估指标，其计算所需的混淆矩阵如表5所示。利用混淆矩阵可计算相应的准确率、召回率、F1值和AUC等评估指标，其计算式如下：Pre=TPTP+FP（9）Rec=TPTP+FN（10）F1=2 Pre RecPre+R

48、ec（11）AUC=i Pcranki-NP()NP+12NP NN（12）KEEL是一种集成海量标准分类数据集的综合库，为验证FL-XBoost算法的有效性以及不同智能算法之间的性能差异，采用KEEL中的mushroom（蘑菇是否有毒的分类数据集）、magic（魔法射线望远镜数据集）、spambase（电子邮件分类数据集）、titanic图4不同算法的识别结果对比Fig.4Comparison of identification effects of different algorithms第30卷第1期彭英等.基于FL-XGBoost算法的砂泥岩识别方法 83 表5混淆矩阵Tabel5Co

49、nfusion matrix真实类别正类负类预测类别正类TPFP负类FNTN（泰坦尼克轮船乘客的幸存分类数据集）、phoneme（声音分类数据集）等5种公共数据集，其分别为特征数不同、样本量不同的代表性数据集。利用训练完备的随机森林、深度神经网络、XGBoost 和 FL-XGBoost算法分别对这5个数据集进行预测，并以准确率、F1值和AUC作为评价指标，其数据集信息与预测结果如表6所示。由表6可知，FL-XGBoost算法在5种公开数据集中的预测结果均优于随机森林、深度神经网络和XGBoost算法，由于XGBoost算法中的正则化项可在一定程度上解决稀疏测井数据过拟合问题，不仅使用一阶导数

50、，还推理二阶导数，使得损失函数更加精确。在此基础之上，FL-XGBoost算法的损失函数相比于均方根误差、交叉熵等损失，Focal Loss更加适用于难训练的样本，如测井曲线、录井数据等。因此，FL-XGBoost算法的预测准确率相对于随机森林、深度神经网络、XGBoost算法具有明显提升，具备更好的泛化能力。4结论以测井、录井资料为基础，结合砂泥岩识别任务存在的关键技术难点，对测井参数进行敏感性分析，以选取适当的影响因素。通过多项预处理操作构建完整的训练数据集，根据测井标签稀疏性的特点，将Focal Loss函数引入XGBoost算法，并对胜利油田牛庄洼陷构建砂泥岩识别模型，相比于随机森林和

展开阅读全文