收藏 分销(赏)

应用基于密度聚类的频繁模式增长算法进行煤层气产能分析.pdf

上传人:自信****多点 文档编号:752829 上传时间:2024-03-04 格式:PDF 页数:4 大小:1.57MB
下载 相关 举报
应用基于密度聚类的频繁模式增长算法进行煤层气产能分析.pdf_第1页
第1页 / 共4页
应用基于密度聚类的频繁模式增长算法进行煤层气产能分析.pdf_第2页
第2页 / 共4页
应用基于密度聚类的频繁模式增长算法进行煤层气产能分析.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、SCIENCE&TECHNOLOGY INFORMATION科技资讯 2023 NO.16 能 源 与 环 境科技资讯SCIENCE&TECHNOLOGY INFORMATION应用基于密度聚类的频繁模式增长算法进行煤层气产能分析吕茵1,2 王杨 2 高永伟 1(1.河南省地震局 河南郑州 450018;2.西南石油大学计算机科学学院 四川成都 610500)摘要:由于传统的煤层气产能分析算法存在影响因素不够全面,运行效率低和人为设置聚类参数缺乏说服力的问题。因此,该文在煤层气产能分类的基础上,对分类结果进行回溯,挖掘煤层气产能影响因素的规律,将基于密度聚类算法(Density-Based S

2、patial Clustering of Application with Noise,DBSCAN)与频繁模式增长算法(Frequent-Pattern Growth,FP-Growth)关联度分析算法优化结合,提出新的基于DBSCAN的FP-growth煤层气产能分析模型,找出影响煤层气产能的关键因素及其对应的参数范围。该文是深度学习与煤层气开发交叉学科的应用与研究,致力于煤层气产能分析评价体系的构建,为提高煤层气单井产气量,提升措施选井的决策效率有积极影响。关键词:煤层气产量 DBSCAN聚类 FP-Growth关联度分析算法 频繁项集 措施选井中图分类号:TE-9文献标识码:A 文章编

3、号:1672-3791(2023)16-0181-04Analysis of CBM Productivity by Using FP-Growth Based on DBSCANLYU Yin1,2 WANG Yang2 GAO Yongwei1(1.Henan Earthquake Agency,Zhengzhou,Henan Province,450018 China;2.School of Computer Science,Southwest Petroleum University,Chengdu,Sichuan Province,610500 China)Abstract:The

4、traditional analysis algorithm of CBM productivity has the problems such as the incomplete influence factors,low operation efficiency and unconvincing artificial setting of clustering parameters,so based on the classification of CBM productivity,this paper traces classification results,excavates the

5、 laws of the influence factors of CBM productivity,optimizes and combines the correlation analysis algorithm based on DBSCAN and FP-Growth,puts forward a new analysis model of FP-Growth CBM productivity based on DBSCAN,and finds out the key factors affecting CBM productivity and their corresponding

6、parameter range.This paper is the application and research of deep learning the interdisciplinary of CBM development,and is committed to constructing the analysis and evaluation system of CBM productivity,which has a positive impact on improving the gas production of the single CBM well and promotin

7、g the decision-making efficiency of measure well selection.Key Words:CBM productivity;DBSCAN clustering;FP-Growth correlation analysis algorithm;Frequent item set;Measure well selectionDOI:10.16661/ki.1672-3791.2302-5042-6842基金项目:中国地震局地震应急与信息青年重点任务(项目编号:CEAITNS202324(ITNS)-2023)资助。作者简介:吕茵(1995),女,硕士

8、,助理工程师,研究方向为机器学习、人工智能、大数据、石油工程计算、地震信息化。王杨(1980),女,博士,教授,研究方向为图像处理、石油工程计算、人工智能。高永伟(1991),男,硕士,工程师,研究方向为信息安全、数据挖掘、地震信息化。181SCIENCE&TECHNOLOGY INFORMATION科技资讯能 源 与 环 境 2023 NO.16 SCIENCE&TECHNOLOGY INFORMATION科技资讯目前,传统能源日益紧缺引发了全世界的能源竞争,加快能源发展已经成为世界各国共识。煤层气作为非常规天然气之一,其发展受到全世界各个国家的高度重视1。我国的煤层气地质资源量排名在美国与

9、俄罗斯之后,约占全球的1/7,但我国煤田地质条件复杂,治理和利用瓦斯难度大,在理论和技术方面都存在许多关键性难题,基础理论研究和技术创新仍然存在短板2。为了促进我国的生态文明建设,使生态能源朝着绿色、环保、安全的标准发展,近年来,国家对煤层气的勘探开发高度重视,通过科学手段归纳总结煤层气产气规律为创新煤层气开采方式,提升煤层气开采效率,对推动能源高质量发展有积极影响3。本文基于现有的机器学习方法,在现有方法的基础上加以改进,结合煤层气测井、压裂、排采等真实资料对煤层气的产量值,找出影响高、中、低这3种类别产能对应的参数范围4。本文的主要贡献为提出了基于密度聚类算法(Density-Based

10、Spatial Clustering of Application with Noise,DBSCAN)的频繁模式增长算法(Frequent-Pattern Growth,FP-Growth)煤层气产能分析模型,使用DBSCAN基于密度的聚类算法筛选出重要特征,将聚类的结果做一标记,最终使用FP-Growth关联度分析算法完成产能影响因素的评价5。1 应用方法分析1.1 DBSCAN算法DBSCAN是以密度作为评价标准的空间聚类。该算法有效地规避了数据中的噪声,并且将密度值大于某一阈值的数据自动聚为一类,DBSCAN算法可以聚成任意形状的簇,其中簇指的是密度相连的最大点的集合6。DBSCAN算

11、法实现过程中用到两个参数,分别为扫描半径(eps)和最小包含点数(minPts),通常在二维空间聚类中,minPts的取值为4,本次实验minPts的取值亦为47。1.2 FP-Growth算法关联分析,又被称作关联规则挖掘,是指从看似毫无关联的数据中挖掘出其相关联的规则信息。该算法最早是在20世纪90年代初由AGRAWAL R等学者提出8,关联分析的主要任务是在大规模数据集中寻找关联关系。支持度(support):定量评估频繁项集(k-项集)频繁共现度(即覆盖度)的统计量。关联规则支持度的定义为:support(AB)=P(AB)(1)置信度(confidence):用具体的数值来评估一个频

12、繁项集的准确度的值。关联规则用表达式来具象地表示,其中A和B是两个互不相交的项集,即AB=。关联规则的置信度定义如下confidence(AB)=P(B|A)=support(AB)support(A)(2)FP-Growth 算法是对 Apriori 算法的优化9,FP-Growth算法与Apriori算法的不同是FP-Growth算法使用了特殊的数据结构,这样可以降低对数据库扫描的次数从而减少了一定程度的浪费,加快了算法运行的速度。设M=M1M2Mn是数据集中所有不同项的集合,事物T是M的非空子集,即TM。而数据集D是事务集合,且事务数为N。以表1的事务集为例。(1)通过扫描表1,可以得到

13、一个频繁项集及其支持度的数目。接下来,将得到的频繁项集按照从大到小排列如下式的集合L所示,设支持度为2,则有L=M2:7M1:6M3:6M4:2M5:2(3)(2)建立FP-Tree10,基于此,以null为根节点创建一条路径,第二次扫描表1,以TID为001的事物为例,共包含3项,根据L的排列顺序,得到一条路径。(3)遍历表中的项,得到所有事务的路径。若路径的节点相同,那么将相同节点的计数加1,创建频繁项头表。(4)挖掘FP-Tree,对频繁项头表以降序排列,通过由小及大遍历频繁项头表得到条件模式基,并获得最终的频繁项集11-12。综上,FP-Growth算法主要为以上4个步骤,即创建FP-

14、Tree和挖掘条件FP-Tree。从上述步骤可以看出FP-Growth算法只需两次扫描数据库,不但提升了算法的效率,并且不产生候选项集。1.3 基于DBSCAN的FP-Growth煤层气分析评价方法在论文 A Novel Multi-Input AlexNet Prediction Model for Oil and Gas Production13的多输入AlexNet产量预测模型中,对产量值进行了高、中、低的聚类,在此实验基础上首先将测井、压裂数据同高、中、低产量数据进行相关性分析,主要使用皮尔逊相关性分析的方法14。表1 事务数据表TID0010020030040050060070080

15、09项M1,M2,M5M2,M4M2,M3M1,M2,M4M1,M3M2,M3M1,M3M1,M2,M3,M5M1,M2,M3182SCIENCE&TECHNOLOGY INFORMATION科技资讯 2023 NO.16 能 源 与 环 境科技资讯SCIENCE&TECHNOLOGY INFORMATION经过皮尔逊相关系数计算后,通过将产能类别与特征经过皮尔逊相关性分析,从中筛选出若干个特征,为接下来模型的输入做准备。由于关联性分析算法的输入为事物集,所以需要将筛选出的特征转变为事物集作为FP-Growth算法的输入,假设有m个特征符合上述筛选条件,那么接下来对筛选出的m个特征每个分别做D

16、BSCAN聚类运算,因为DBSCAN聚类运算无须指定聚类的簇的个数K,如若特征A经过DBSCAN运算后,输出C个类别,那么将特征A的每个数据标记为Ai,其中i123C,以此类推,标记完m个特征的所有数据后,将产能的高、中、低分别标记为数字0,1,2。接下来,根据标记过的数据建立煤层气关键参数的FP-Growth模型同时输入事物数据库,计算各个项集的支持度,依次构建节点表与FP树,从FP树中找出频繁项,最终找到每个条件模式下的频繁项集。综合测井和压裂相关资料,通过皮尔逊相关系数计算,筛选出绝对值大于0.5的特征有6个,相关参数与产气量的相关性分析表如表2所示。基于DBSCAN的FP-Growth

17、关联度分析评价模型的步骤如下:首先,对所有特征关于煤层气产能高中低的值做相关性分析,计算出皮尔逊相关系数,若相关系数大于0.5,则保留该特征,若小于0.5,则舍弃;其次,对保留下来的每个特征做DBSCAN聚类,并将其聚类的结果进行标记;接下来根据标记完成的结果,构建FP-Growth事物数据库;再次,计算每个项集的支持度,并且构建节点表与FP树;最后,由条件模式树挖掘频繁模式,挖掘出的频繁模式就是对高、中、低这3个产能类别的分类规则,基于DBSCAN的FP-Growth关联度分析评价模型的流程图如图1所示。2 实验结果分析2.1 实验数据此次实验使用的数据来源于新疆地区煤层气开发的真实数据,一

18、共含有156口煤层气井,每口井有其对应的测井和压裂以及排采资料,在测井资料的特征包括DEPTH(深度)、SP(自然电位)、GR(自然伽马)、LLS(浅侧向)、LLD(深侧向)等,测井资料中的数据较为复杂,还有多个特征此处不再一一列出。在压裂资料中,共有砂比、排出排量、排出累计、沙量累计、套压等5个特征。2.2 基于DBSCAN的FP-Growth关联度分析评价模型实验结果将皮尔逊相关系数大于0.5的特征分别用DBSCAN算法聚类,其聚类后的结果的标记如表3所示。另外,将煤层气井产量的低产、中产、高产分别标记为0、1、2,生成的事物数据库见表4。通过FP-Growth算法得出的关联规则能够帮助分

19、析各个因素之间的关联程度,以及特定因素在一定的范围内分别对高、中、低这3种类别的产能的影响最大。对事物数据表进行进一步的分析,根据FP-Growth算法的挖掘结果,筛选出与产能相关的挖掘结果(即挖掘结果中有字母O的项集),共挖掘出21个频繁项集,11条关联规则。因篇幅有限,仅给出部分结果进行展示,FP-Growth算法挖掘得出的一些频繁项集见表5。表2 相关参数与产气量相关性分析事务数据表参数关联度排序套压/MPa0.891砂比/%0.822PERM/10-3m20.723GR/API0.644SW/%0.585POR/%0.556表3 DBSCAN聚类后结果标记参数标记符号聚类后标记套压/M

20、PaTT1T2T3砂比/%SS1S2S3PERM/10-3m2PP1P2GR/APIGG1G2SW/%WW1W2POR/%RR1R2图1 基于DBSCAN的FP-Growth关联度分析评价模型流程图183SCIENCE&TECHNOLOGY INFORMATION科技资讯能 源 与 环 境 2023 NO.16 SCIENCE&TECHNOLOGY INFORMATION科技资讯3 结语本文围绕煤层气产能评价体系的总结,通过将聚类算法与关联度分析结合,找出影响产能的重点因素与它们的参数范围。本文中对所有的算法性能和实验结果进行了详细分析,实验过程中使用煤层气开发中的真实数据。本文是机器学习与煤

21、层气开发领域的一次全新结合。本文介绍了DBSCAN算法、FP-Growth算法,以及本文创新提出的基于DBSCAN的FP-Growth煤层气产能分析算法。DBSCAN算法是基于密度聚类的聚类算法,FP-Growth是数据挖掘的算法,本文首次提出的基于DBSCAN的FP-Growth算法模型,首次将两种算法巧妙结合:首先通过皮尔逊相关性分析,得到影响产量类别的决定性因素;其次经过DBSCAN算法对筛选出的每个因素进行聚类;最后通过FP-Growth算法模型构建产量分析评价体系,最终找到影响产量类别的相关因素及其范围。参考文献1 陈龙伟,汪关妹,冯小英,等.沁水盆地LB区块煤系地层渗透率预测J.石

22、油地球物理勘探,2020,55(S1):85-91,8.2 DANESH N N,ZHAO Y X,TENG T,et al.Predic-tion of Interactive Effects of CBM Production,Faulting Stress Re-gime,and Fault in Coal Reservoir:Numerical SimulationJ.Journal of Natural Gas Science and Engineering,2022,99:104419.3 高肇凌,郭雪,张少雷,等.基于模糊PID控制的煤层气智能排采系统应用J.石油化工自动化,20

23、16,52(1):46-49.4 巩泽文,贾建称,许耀波,等.基于测井信息的煤层顶板水平井抽采煤层气技术J.天然气工业,2021,41(2):83-91.5 那幸仪,贾俊铖,赵晓筠,等.基于小波变换和LSTM模型的城市天然气负荷预测J.计算机应用与软件,2021,38(12):61-66.6 夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法J.中国科学院研究生院学报,2009,26(4):530-538.7 万佳,胡大裟,蒋玉明.多密度自适应确定DBSCAN算法参数的算法研究J.计算机工程与应用,2022,58(2):78-85.8 AGRAWAL R,SRIKANT R.Fas

24、t Algorithms for Mining Association Rules in Large DatabasesC/Proceeding of Proceedings of 20th International Conference on Very Large Data Bases.1994:487-499.9 HAN J,MICHELINE K.Data Mining:Concepts and TechniquesM.Morgan Kaufmann Publishers Inc,2006.10 AHMED S A,NATH B.Identification of Adverse Di

25、sease Agents and Risk Analysis Using Frequent Pattern MiningJ.Information Sciences,2021,576:609-641.11 白勇,张占龙,熊隽迪.基于FP-Growth算法和GRNN的电力知识文本挖掘J.计算机科学,2021,48(8):86-90.12 范明,李川.在FP-树中挖掘频繁模式而不生成条件FP-树J.计算机研究与发展,2003,40(8):1216-1222.13 WANG Y,LV Y,GUO D,et al.A Novel Multi-Input AlexNet Prediction Model

26、 for Oil and Gas ProductionJ.Math-ematical Problems in Engineering,2018,2018:5076547.14 王涓,吴旭鸣,王爱凤.应用皮尔逊相关系数算法查找异常电能表用户J.电力需求侧管理,2014,16(2):52-54.表4 煤层气关键参数FP-Growth事物数据库TID001002003004005152153154155156项集T2S1P2G2W2R2O1T3S1P2G2W1R1O0T3S1P2G2W1R1O0T3S1P1G2W1R2O0T3S1P1G1W2R2O2T1S3P2G1W2R2O1T1S3P2G1W2R1O1T1S3P1G1W1R2O2T1S2P1G1W1R1O2T1S3P1G1W2R2O2表5 频繁项集频繁项集G2O0T1O2G2W1O0P2O1G1R2O2P2W2O1R1O0P1G1O2T1P1G1O2S3W2O1支持度38332926222019161210184

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服