1、Vol.42 No.10Oct.2023石油化工应用PETROCHEMICAL INDUSTRY APPLICATION第42 卷第10 期2023年10 月可解释机器学习在油气产量预测中的研究进展侯梦瑶,潘晓甜,张春晓,马含含(西安石油大学石油工程学院,陕西西安7 10 0 6 5)【摘要合理进行油气产量预测对实际油气田的开发和生产具有重要的指导作用。近年来,随着人工智能的兴起,机器学习等技术的提出为油气产量的预测提供了新思路。机器学习方法利用收集到的地质、钻完井、生产等多种类型的数据来充分挖掘数据内部的规律,从而进行合理的油气产量预测。虽然机器学习模型因其高精度的结果被应用于许多领域,但复
2、杂的机器学习模型缺乏可解释性和透明度,在一定程度上阻碍了其应用。本文综述了基于机器学习进行油气产量预测的国内外研究现状,并概括了几种常用的可解释方法,详细指出了机器学习方法进行油气产量预测的不足之处,并展望了可解释机器学习模型在该领域的研究趋势与发展方向。【关键词 可解释;机器学习;产量预测中图分类号 TE328D01:10.3969/j.issn.1673-5285.2023.10.002【文献标识码 A文章编号 16 7 3-52 8 5(2 0 2 3)10-0 0 0 5-0 5Research progress of interpretable machine learning in
3、oil and gas production forecastingHOU Mengyao,PA N Xiaotian,ZHANG Chunxiao,MA Hanhan(College of Petroleum Engineering,Xian Shiyou University,Xian Shaanxi 710065,China)Abstract JRational oil and gas production forecasting is an important guide to the develop-ment and production of actual oil and gas
4、fields.In recent years,with the rise of artificial in-telligence,techniques such as machine learning have been proposed to provide new ideas foroil and gas production forecasting.Machine learning methods use a variety of types of datacollected,such as geology,drilling and completion,and production,t
5、o fully explore the in-ternal patterns of the data to make reasonable oil and gas production forecasts.However,while machine learning models are used in many fields for their high accuracy results,thelack of interpretability and transparency of complex machine learning models hinders theirapplicatio
6、n to some extent.This paper reviews the current status of domestic and internation-al research on oil and gas production forecasting based on machine learning,and outlinesseveral commonly used explainable methods,points out in detail the shortcomings of ma-chine learning methods for oil and gas prod
7、uction forecasting,and looks forward to the re-search trends and development directions of explainable machine learning models in this field.Key words Jinterpretable;machine learning;production forecasting*收稿日期:2 0 2 3-0 4-2 8作者简介:侯梦瑶(19 9 9),女,西安石油大学在读研究生。E-mail:6在油田开发过程中,油气产量预测是一项非常重要的工作,合理进行石油产量预
8、测可以有效评估油田的开发潜力,有助于全面认识油藏以及改善油井的工作制度,进而提出相应的发展策略。产量预测方法可以分为基于物理机理的预测方法和基于数据驱动的预测方法。基于物理机理进行建模时,建模方法主要包括解析、半解析及数值模拟方法等。但是,基于物理机理的预测方法在实际应用时存在许多端,比如它对数据的要求很高,但实际所获取的多为一些杂乱数据,若数据处理不完善会对模型预测的准确度影响较大。基于物理机理的传统产量预测方法建模周期长,工作量大,尤其在复杂的地质及工程条件下,预测效果通常会不理想。另外,一些理想化假设的引人与求解方法的复杂程度都限制了物理机理预测方法在现场的应用。为解决上述基于物理机理的
9、传统油气产量预测中存在的问题,研究人员开始利用机器学习等数据驱动方法建立油气产量与储层、压裂等参数之间的模型,从而对油气产量进行合理预测!。虽然机器学习进行油气产量预测的优势很大,但是目前的研究仍存在一定问题。比如模型在训练时需要进行超参数的优化,但是这方面的研究有限。另一方面,由于算法的最小可解释性和黑箱性质,这些先前建立的模型很难被大多数人所理解2。打开黑厘子至关重要 3-4,它可以让工作人员轻松理解机器学习的内部逻辑 5-,进一步从各个方面来分析影响因素的作用规律。本文就以上问题调研了基于机器学习建立产量预测模型的方法,并详细介绍了几种可解释分析方法。1基于机器学习的油气产量预测研究现状
10、WANG等 7 在2 0 19 年开发了一种综合数据挖掘方行油气产量预测之后,可以利用XAI工具提高机器学作者时间随机森林、支持SCHUETTER J 等(9)2018LUO Cuofan 等(i0l2019谷建伟等川2020马先林等 122022石油化工应用用2 0 2 3 年法来评价加拿大西部沉积盆地Montney组的油井生产动态,定性和定量的评价了增产参数与第一年产油量之间的关系。此外,比较了四种常用的监督学习方法,包括随机森林(RF)自适应增强(AdaBoost)支持向量机(SVM)和神经网络(NN),以估计第一年的井产量。并且采用递归特征消去交叉验证(RFECV)确定了影响非常规油藏
11、第一年采油的最重要因素。研究发现,最终确定用来建立准确预测模型的重要变量为:井纬度、经度、井垂深、单井泵人支撑剂、井横向长度和单井注人流体,与其他机器学习方法相比,RF的预测性能最好。LI等18 在2 0 2 0 年对陵页岩气田主区块地质和裂缝工程数据采用了一种新的分段产量预测方法。对三种机器学习方法,包括支持向量回归(SVR)核脊回归(KRR)和随机森林(RF)进行了训练和测试。在进行模型训练前,先使用偏相关分析和递归特征消除方法,对自变量进行处理以选出最佳参数,即层数、40/7 0 目低密度陶粒、支撑剂总体积、砂比、簇数和簇间距。结果表明,RF的均方根误差最小,即预测精度最高。另外,该研究
12、在进行水力压裂处理前,利用局部依赖图成功地优化了地质和裂缝工程参数,这在一定程度上也提高了预测精度。近几年来学者们基于机器学习建立油气产量预测的一些研究见表1。然而,尽管一系列研究表明基于机器学习的数据驱动方法可以很好的进行油气产量预测 3-15,但其所建立的大多数预测模型都是黑盒子模型,这就意味着人们很难理解模型的行为和思维过程。在进行油气产量预测时,通过可解释分析有助于理解模型内部的预测机制,由此来给开发者一些意见。实际上,可解释人工智能(Explainable Artificial Intelligence,XAI)已成为智能油田一个新兴研究领域,在使用机器学习方法进表1基于机器学习的油
13、气产量预测技术研究方法研究内容建立生产指标的向量回归、梯度对比训练集数据、单个验证数据集和k倍交叉验证的结果,得出k倍预测模型增强机器等随机森林、深度神经网络Lasso算法梯度提升树、随机森林等第42 卷研究成果进行变量重要性分析以获得对系统性能关键驱动因素的可靠评估。交叉验证的效果最佳预测6 个月的所建立的非线性模型在预测能力方面表现较好,另外,地质和完井参累计石油产量数在预测中都是至关重要的利用Lasso算法选出解释能力强的主成分,理解影响参数与油田产量预测油田产量之间的关系,提高模型的可解释性,而且整体预测效果良好,精度较高预测水平井产量梯度提升树模型预测精度最高,使用SHAP方法进行可
14、解释分析得出与可解释分析储层段长和排量是影响产量的最关键因素第10 期习的可解释性、公平性和透明度。2可解释方法概述2.1建建模前的可解释建立模型之前的可解释性主要包括数据分析和特征工程。数据分析是开展可解释性分析的第一步,可以通过变量相关性分析、数据可视化等工作对数据进行详细的了解,这是开展后续工作的基础。特征工程包括数据预处理、特征构造和特征选择。特征工程是从数据中提取有效的特征,作为模型的输人,从而提高模型的预测精度。数据预处理包括数据清洗和不平衡数据处理等工作。特征构造是通过对原始特征进行加工、组合来生成新的特征。特征选择是因为当特征维度很大时不但会使得模型难以训练,又容易导致过拟合。
15、2.2建模中的可解释建模时所用到的模型中有一类其本身是可解释的,称为自解释模型。这类模型通常结构简单,容易理解,传统的自解释模型包括线性模型、逻辑回归、朴素贝叶斯等。但在实际应用时,为了提高预测精度,通常会使用黑盒子模型进行预测。针对黑盒子模型,可以使用代理模型的方法进行解释,即使用可解释的模型来模仿黑盒子的行为,尽量做到在保证预测精度的基础上降低模型复杂度。2.3建模后的可解释大多数候选模型不被认为是内在可解释的,此类模型通常被称为黑盒子模型。各个领域的研究人员开发了多种XAI工具,以帮助理解基于人工智能(AI)的黑盒子模型。对于已经建立好的黑盒子模型进行解释,也就是理论界常说的建模后的可解
16、释,主要用来理解这些特征是如何影响预测结果的。建模后的可解释可以分为全局与局部解释性两大类型7。借助全局可解释性能够清晰的了解模型的内在逻辑和运行机制,同时还可以将参数和学习形式以最简单的方式进行展示。借助这种解释方法可以很好的认识模型学习的具方法全局/局部部分依赖图(PDP)18)全局个体条件期望(ICE)1g)局部累计局部效应(ALE)20)全局特征重要性全局侯梦瑶等可解释机器学习在油气产量预测中的研究进展体过程。根据数据样本学习到的具体内容制定具体形式的对策等。对于局部可解释性来说,可以据此了解模型对于特定的输入而做出决策的细节过程,也可以从中知道具体特征对于预测结果具有何种贡献。这部分
17、主要运用模型无关的解释方法,接下来详细介绍一下SHAP和LIME两种方法,其余几种常用的方法见表2。2.3.1SHAPSHAP是一种基于博奔论的方法,是一类加性解释模型,用于描述机器学习模型的性能。为了产生一个可解释的模型,SHAP使用了一种加性特征属性方法,即输出模型被定义为输人变量的线性相加,所有特征的贡献值的和即为模型的最终预测。SHAP用以下公式定义:e(2)=4o+Z/l9,)式中:。-预测模型在数据集上的平均预测值,即SHAP值;,-特征j对样本z的贡献值;z-联合向量,即特征存在(z=1)或不存在(z=0);M-输入特征数量。三特征的示意流程图见图1,红色表示特征是正贡献作用,蓝
18、色则表示特征是负贡献作用。可以看出对于每一个样本,SHAP都能详细地分析出特征的影响力和影响的正负性。SHAP可以很好的进行全局和局部解释。在先前的研究中可以找到 SHAP更详细的解释 2 1-2 。02.3.2LIMEELIME(本地可解释模型-不可知性解释),顾名思义,本地可解释模型-不可知性解释(LIME)是一种工具,用于理解和解释底层机器学习模型,同时保持模型不可知 2 3 。LIME的工作假设是非线性模型可以用小尺度的线性模型近似。该算法略微扰动了示例的特征值,在其邻域内创建了一组类似的示例,这是特表2 模型无关的解释方法比较优点PDP图的概念直观,易于理解,解释性很强比PDP图更直
19、观ALE图的解释很明确;ALE图的计算速度比PDP图快结果简洁易懂,直接给出每一个特征权重值的清晰解释7(1)平均值预测值x)-图1三个输入变量SHAP方法缺点PDP图的特征个数最多只能为两个;对特征之间的独立性要求较高ICE图只能有意义的显示一个特征当特征强相关时,解释会很困难特征重要性度量与模型的误差有关;得不到因素对模型结果的正负影响特征1-P2$3特征21一一一8征空间的一个子空间。指数核用于定义邻域。LIME用以下公式定义解释:(x)=argmin L(f,g,)+2(g)式中:G是可解释模型的集合;2(g)定义了所有gEG的解释的复杂度,目标是使(g)最小,从而具有可解释的简单模型
20、;正在解释的黑盒子模型用f表示;T,定义了实例周围的邻域大小;L(f,g,T,)是可解释模型g与原始黑盒子模型f之间预测接近度的度量(即保真度)。最终目标是最小化L(f,g,T),同时使2(g)低到足以被人类解释,从而保证可解释性和局部保真度。3结论和建议(1)基于机器学习的油气产量预测模型结合了地质、生产等多种类型的数据,充分挖掘数据内部的规律,极大的提高了模型预测的精确性。(2)在数据挖掘预测模型中,“特征越多,性能越好”的做法不再被接受。通过合适的算法进行特征选择在一定程度上可以提高预测结果的准确度。特征选择结果越稳定,更能为可解释模型的建立提供支持。(3)实际上,在绝大多数模型中,可解
21、释性与准确率是互斥关系。关于深度学习的可解释性研究仍没有可靠的可解释方法。因此,在构建模型的过程中引人一种有效机制来兼顾模型的准确率和可解释性在各个领域均具有重大意义。(4)可解释性研究在石油工业中的应用作为较新的研究方向,仍存在许多呕待解决的问题等待着后来者去探索研究。参考文献:1 MOHACHECH S D.Data-driven reservoir modelingC.SPEAsia Pacific Oil&Gas Conference and Exhibition 2018,162018.2 WATSON D S,KRUTZINNA J,BRUCE I N,et al.Clinical
22、applications of machine learning algorithms:Beyond theblack boxJJ.BMJ:British Medical Journal,2019,364:1-4.3GUIDOTTI R,MONREALE A,RUGGIERI S,et al.A surveyof methods for explaining black box models J.ACM Com-puting Surveys,2018,51(5):93.4RIBEIRO M T,SINGH S,GUESTRIN C.Why should i trustyou?Explainin
23、g the predictions of any classifier CJ.Pro-ceedings of the 22nd ACM SIGKDD International Confer-ence on Knowledge Discovery and Data,2016.石油化工应用月2 0 2 3 年5纪守领,李进锋,杜天宇,等.机器学习模型可解释性方法、应用与安全研究综述 J.计算机研究与发展,2 0 19,56(2)(10):2071-2096.6AZODI C B,TANG Jiliang,SHIU S H.Opening the blackbox:Interpretable ma
24、chine learning for geneticists JJ.TrendsGenet,2020,36(6):442-455.7WANG Shuhua,CHEN Shengnan.Insights to fracture stimu-lation design in unconventional reservoirs based on machinelearning modeling J.Journal of Petroleum Science and En-gineering,2019,174:682-695.8LI Juhua,JI Lei.Productivity forecast
25、for multi-stage fractur-ing in shale gas wells based on a random forest algorithmJ.Energy Sources,Part A:Recovery,Utilization and Environ-mental Effects,2020,(11):1-10.9SCHUETTER J,MISHRA S,ZHONG Ming,et al.A data-ana-lytics tutorial:Building predictive models for oil productionin an unconventional
26、shale reservoir J.SPE Journal,2018,23(4):1075-1089.10 1LUO Guofan,TIAN Yao,SHARMA A,et al.Eagle ford wellinsights using data-driven approaches.InternationalPetroleum Technology Conference,2019.11谷建伟,周鑫,王硕亮.基于Lasso算法的油田产量预测方法 J.科学技术与工程,2 0 2 0,2 0(2 6):10 7 59-10 7 6 3.121马先林,周德胜,蔡文斌,等.基于可解释机器学习的水平井产
27、能预测方法 J.西南石油大学学报(自然科学版),2022,44(4):81-90.13 NEJAD A M,SHELUDKO S,SHELLEY R F,et al.A casehistory:Evaluating well completions in the eagle ford shaleusing a data-driven approachC.SPE Hydraulic FracturingTechnology Conference,2015.14SHELLEY R,NEJAD A,GULIYEV N,et al.Understandingmulti-fractured horizo
28、ntal Marcellus completions C.SPEEastern Regional Meeting,2014.15檀朝东,贺甲元,周彤,等.基于PCA-BNN的页岩气压裂施工参数优化Jl.西南石油大学学报(自然科学版),2020,42(6):56-62.SHWARTZ-ZIV R,TISHBY N.Opening the black box ofdeep neural networks via information Jl.arXiv Preprint,2017,(3):1-19.17全文君.数据挖掘过程中的可解释性问题研究 D.重庆:重庆大学,2 0 18.18FRIEDMAN
29、 J H.Greedy function approximation:A gradientboosting machineJ.The Annals of Statistics,2001,29(5):1189-1232.19GOLDSTEIN A,KAPELNER A,BLEICH J,et al.Peekinginside the black box:Visualizing statistical learning withplots of individual conditional expectation J.Journal of(下转第2 5页)第42 卷第10 期三类区域(无夹层底水油
30、藏区、夹层局部遮挡底水油藏区和夹层全遮挡边水油藏区)采用不同策略进行开发。(2)依据研究成果制定了不同区域的开发调整策略:无夹层底水油藏区为“大泵提液、井间加密”,夹层局部遮挡底水油藏区为“层内分注、适当提液”,夹层全遮挡边水油藏区为“井网转换、产液优化”。(3)研究成果指导了渤海Q油田A砂体的开发调整工作,调整后该砂体开发效果明显改善,矿场应用效果较好,为同类型油藏开发提供了借鉴。参考文献:1侯君,程林松.常规底水油藏水锥高度计算方法研究 J.西安石油大学学报(自然科学版),2 0 0 6,2 1(3):2 3-2 6,114.2李传亮.水锥形状分析一与朱圣举先生商摊 J.新疆石油地质,2
31、0 0 2,2 3(1):7 4-7 5.3章威,李廷礼,刘超,等.底水油藏直井水锥形态的定量描述新方法 J.天然气与石油,2 0 14,32(3):34-37.4袁淋,李晓平,延懿宸.底水油藏水平井临界产量确定新方法 J.天然气与石油,2 0 15,33(1):6 5-6 8.5范子菲,林志芳.底水驱动油藏水平井临界产量公式及其变化规律研究 J.石油勘探与开发,19 9 4,2 1(1):6 5-7 0.6程秋菊,冯文光,彭小东,等.底水油藏注水开发水淹模式19 章威,张吉磊,龙明,等.渤海Q油田复杂底水油藏高含水探讨 J.石油钻采工艺,2 0 12,34(3):9 1-9 3.期精细注水研
32、究 J.石油地质与工程,2 0 19,33(6):6 6-7章威,龙明,李军,等.生产动态确定底水油藏油井水淹范围的新方法 J.天然气与石油,2 0 17,35(4):6 8-7 2.8黄纯金,吴冬旭,王加一,等.侏罗系边底水油藏注水开发效果评价 J.石油化工应用,2 0 15,34(3):5 5-5 7,6 2.9许宁,张方礼,王占红.巨厚层砂砾岩底水油藏注水开发研章威等渤海复杂底水油藏开发调整策略制定及应用2010,32(3):101-106,195.25究 J.断块油气田,2 0 0 4,11(4):30-32,9 1.10江琴雷6 4断块砂砾岩底水油藏注水开发效果评价 J.石油地质与工
33、程,2 0 13,2 7(1):5 6-5 8,139.11张建东,王磊,钱战宏,等.马北一号底水油藏注水开发效果评价研究 J.青海石油,2 0 12,30(4):43-46.12 周国文,谭成仟,郑小武,等H油田隔夹层测井识别方法研究 J.石油物探,2 0 0 6,45(5):5 42-5 45.13张昌民,尹太举,张尚锋,等.泥质隔层的层次分析一一以双河油田为例 J.石油学报,2 0 0 4,2 5(3):48-5 2.14严耀祖,段天向.厚油层中隔夹层识别及井间预测技术 J.岩性油气藏,2 0 0 8,2 0(2):12 7-131.15柳成志,张雁,单敬福.砂岩储层隔夹层的形成机理及分
34、布特征以萨中地区PI2小层曲流河河道砂岩为例J.天然气工业,2 0 0 6,2 6(7):15-17.16张睿.油藏数值模拟基础数据库 J.科技资讯,2 0 12,(2 9):66.17 张吉磊,龙明,何逸凡,等.渤海Q油田隔夹层发育底水稠油油藏精细注采技术 J1.石油钻探技术,2 0 18,46(2):7 5-80.18 张吉磊,缪飞飞,张弛,等.基于渗流屏障的底水油藏精细注水研究与应用 J.北京石油化工学院学报,2 0 2 0,2 8(4):29-34.69.20薛永超,程林松,张继龙.夹层对底水油藏开发及剩余油分布影响研究J西南石油大学学报(自然科学版),(上接第8 页)Computat
35、ional and Graphical Statistics,2015,24(1):44-65.22 LUNDBERG S M,LEE S I.A unified approach to interpre-20MILLER T.Explanation in artificial intelligence:Insightsfrom the social sciences Jl.Artificial Intelligence,2019,267:1-38.21MOLNAR C.Interpretable machine learning M J.L,2020.ting model predictions c.31st Conference on Neural In-formation Processing Systems,2017.23 LUNDBERG S M,ERION G G,LEE S I.Consistent individ-ualized feature attribution for tree ensembles J.arXivPreprint,2018,(2):1706-1711.