收藏 分销(赏)

高亏格坝基地质体Kmeans-ERT自动建模研究.pdf

上传人:自信****多点 文档编号:1468689 上传时间:2024-04-28 格式:PDF 页数:13 大小:3.74MB
下载 相关 举报
高亏格坝基地质体Kmeans-ERT自动建模研究.pdf_第1页
第1页 / 共13页
高亏格坝基地质体Kmeans-ERT自动建模研究.pdf_第2页
第2页 / 共13页
高亏格坝基地质体Kmeans-ERT自动建模研究.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 42 卷第 9 期 水 力 发 电 学 报 Vol.42,No.9 2023 年 9 月 Journal of Hydroelectric Engineering Sept.2023 收稿日期:收稿日期:2023-03-22 接受日期:接受日期:2023-05-05 基金项目:基金项目:水利部重大科技项目(SKS-2022109)作者简介:作者简介:谭添文(1998),男,硕士生.E-mail: 通信作者:通信作者:王佳俊(1991),男,助理研究员.E-mail:jiajun_2014_ 高亏格坝基地质体 Kmeans-ERT 自动建模研究 谭添文,王佳俊,吕明明,王晓玲,余 佳(天津大

2、学 水利工程仿真与安全国家重点实验室,天津 300350)摘摘 要:要:高亏格地质体是多处镂空的复杂地质构造,如坝基的互层、破碎带等。基于地层面的地质建模方法在处理高亏格地质体时存在自动化程度低、主观误差较大等缺点;基于体元的建模方法虽然可以实现自动化,但存在数据冗余的不足,且难以适应水利水电工程钻孔数据分布不均、地质体局部突变等特点。针对上述问题,提出一种基于栅格体元的高亏格坝基地质体 K 均值-极端随机树(Kmeans-ERT)自动建模算法。首先,针对高亏格地质体的随机性和突变性,采用鲁棒性较强的极端随机树算法构建分类模型;其次,采用 K-means 算法对地层样本进行聚类,根据聚类结果动

3、态调整分裂阈值;最后,提出边缘检测算法识别模型边界,进而隐藏内部体元,实现模型轻量化。工程应用表明,所提出模型可以实现坝基高亏格地质体的自动建模,平均准确率相较支持向量分类(SVC)、K 近邻算法(KNN)、随机森林、深度森林和 BP 神经网络分别提高 17.4%、19.1%、4.7%、6.5%和 17.1%,模型内存缩减率达 69.3%;与人工建模方法和其余自动建模算法相比,所提出模型在精度和效率上具有优势。关键词:关键词:水利水电工程;三维地质建模;隐式建模;高亏格地质体;K-means;极端随机树 中图分类号:中图分类号:TV221.2 文献标志码:文献标志码:A DOI:10.1166

4、0/slfdxb.20230911 论文引用格式:论文引用格式:谭添文,王佳俊,吕明明,等.高亏格坝基地质体 Kmeans-ERT 自动建模研究J.水力发电学报,2023,42(9):112-124.TAN Tianwen,WANG Jiajun,LYU Mingming,et al.Automatic modeling of high genus geological bodies at dam foundation based on Kmeans-ERT J.Journal of Hydroelectric Engineering,2023,42(9):112-124.(in Chines

5、e)Automatic modeling of high genus geological bodies at dam foundation based on Kmeans-ERT TAN Tianwen,WANG Jiajun,LYU Mingming,WANG Xiaoling,YU Jia(State Key Laboratory of Hydraulic Engineering Simulation and Safety,Tianjin University,Tianjin 300350,China)Abstract:Geological bodies with high genus

6、are complex structures that feature a variety of cavities,such as the interbedded strata and fracture zones at dam foundation.In handling these structures,the common geological modeling methods based on surface reconstruction have poor performance in automation and low accuracy,while methods using v

7、olume element representation can realize automatic modeling,but at a cost of redundant voxel data.Besides,previous algorithms can hardly suit the unevenly distributed borehole data or the multivariate shapes of high genus strata in hydropower engineering.This paper develops an automatic geological v

8、oxel modeling method based on the K-means-modified extremely randomized trees(Kmeans-ERT).First,to classify the ambiguous and complex high genus strata,ERT is selected as the base prediction model because of its robustness.Then,the K-means 谭添文,等:高亏格坝基地质体 Kmeans-ERT 自动建模研究 113 algorithm is adopted to

9、 modify ERT by adding a clustering analysis progress at each node to calculate dynamically the distribution of random split values.Moreover,a boundary recognition algorithm is constructed to optimize the model by hiding interior voxels.Engineering application shows our new model can automatically re

10、construct high genus strata.Compared to SVC,KNN,random forest,deep forest,and BP neural network,the model improves the average accuracy by 17.4%,19.1%,4.7%,6.5%and 17.1%respectively,and it sees a 69.3%decrease in memory cost.This verifies our new method has accuracy and efficiency superior to manual

11、 geological modeling or other automatic algorithms.Keywords:hydropower engineering;3D geological modeling;implicit modeling;high genus geological structure;K-means;extremely randomized trees 0 引言引言 高亏格地质体是自然因素和地层各向异性综合作用形成的多处镂空的复杂地质结构。水利水电工程中常见互层、破碎带等高亏格地质构造,严重影响水工建筑物稳定性,其建模分析对工程选址和成本控制具有重要意义1。目前,水利

12、水电工程地质建模常采用基于地层面的表示方法2-4,采用插值算法补全地质曲面,进而重建地质体,如离散光滑插值5、非均匀有理 B 样条6等。然而,基于地层面的三维地质建模方法需要人为剖切模型,自动化程度较低,且在处理高亏格地质体时存在地质曲面失真、变形等问题7。基于体元的地质建模方法可以通过建立数学模型实现复杂地质体的自动建模,其代表是多点地质统计学8。该方法使用符合实际储层结构和地质体几何形态的二维或三维栅格图像进行训练,生成与训练图像特征一致的模型9-12;在此基础上,有学者进一步引入深度学习中的生成对抗网络(generative adversarial networks,GANs)建立地质多

13、尺度结构的预测模型13-15。然而,目前基于体元的自动建模大多应用于矿产储层和沉积相建模16-17,在水利水电工程中应用较少。其主要原因在于:水利水电工程主要基于钻孔数据进行地质建模,存在数据集容量有限、缺少物探信息等制约因素,多点地质统计和 GANs 等隐式建模方法难以适用;水利水电工程地质建模更关注地质体表面形态,使用体元模型存在大量冗余数据,增大模型计算和渲染难度。由于钻孔数据包含地质体成层规律,可将三维地质建模问题转化为根据钻孔数据对栅格体元进行分类的问题。现有研究中,Smirnoff 等18将支持向量机(support vector machine,SVM)应用于地层属性二元及多元分

14、类,实现了三维地质建模中多元地层的自动分类重建;郭甲腾等19研究了 SVM超参数对分类效果的影响,建立了精细化的地质体体元分类模型。高亏格地质体结构复杂,具有镂空、多值曲面结构,可适用数据驱动的栅格体元建模方法20;除此之外,考虑到坝基地质体局部随机性强,且钻孔数据量有限,因此要求算法能够从小样本集中准确提取地层规律。极端随机树(extremely randomized trees,ERT)通过全数据集训练和阈值随机策略提升决策树的多样性,具有较强的鲁棒性和泛化性能21,能够更好地适应地质体局部随机性和突变性强的特点,因此本研究拟采用 ERT 算法建立高亏格地质体分类模型。由于坝基地质体空间分

15、布存在差异性22,直接应用 ERT 算法会导致树结构冗杂和模型过拟合。针对该问题,在构造决策树过程中采用 K 均值算法(K-means)对到达每一子节点的样本数据进行聚类分析,并根据聚类结果动态调整分裂阈值的随机分布参数,进而提出了适应水利水电工程高亏格地质体特征的 Kmeans-ERT 算法。体元模型是对实体的真三维表达23,可描述地质体表面形态与内部属性分布,但其内部体元数量较多导致计算和实时渲染速度慢24。然而,水电工程三维地质建模的主要目的是获取地质体表面形态和空间分布,采用体元建模存在内部体元堆叠问题,导致模型数据冗余。对于 512512512 大小范围的体元数据,若不采用压缩算法进

16、行优化,其存储将需要 16384 MB 的空间,极大地影响模型的实时处理和可视化性能25-26。针对该问题,本文提出边缘检测算法识别模型内外关系,简化体元结构,进而在场景中隐藏内部单元数据,实现模型轻量化。综上,本文针对水利水电工程高亏格地质体局114 水力发电学报 部随机性与突变性以及地层数据分布不均等难点,提出了一种基于体元的 Kmeans-ERT 自动建模算法,实现了高亏格复杂地质体的分类重建;针对模型内部体元冗余的问题,提出了边缘检测算法单独显示边界体元,缩减模型内存占用,提高了模型实时计算与渲染速度。工程应用表明,相比于支持向量分类、K 近邻、随机森林、深度森林和 BP 神经网络分类

17、算法,提出的 Kmeans-ERT 算法在高亏格地质体分类精度更高,且边缘检测算法有效解决了体元模型数据冗余的难题。1 研究路线研究路线 本文提出的三维高亏格地质体的 Kmeans-ERT 建模研究包括建模方法研究、模型优化和工程应用 3 部分。研究框架如图 1 所示。具体实现步骤如下:(1)选用 ERT 算法进行分类建模,针对坝基钻孔数据的特点采用 K-means 算法对个体决策树的分裂阈值选取模式进行改进,根据聚类结果动态调整分裂阈值,使不同地层分类结果差异更加显著。(2)定义内部体元为冗余体元,处于地层分界处体元为边界体元。设计边缘识别算法隐藏冗余体元,缩减体元模型的内存占用,实现模型渲

18、染的整体优化。(3)以泸定水电工程坝基高亏格地质建模为例进行分析,将 Kmeans-ERT 模型与人工手动建模和其他自动分类算法进行对比分析,从分类精度、鲁棒性和效率角度证明本研究提出的自动建模方法的优越性。图图 1 基于基于 Kmeans-ERT 的高亏格地质体体元建模方法的高亏格地质体体元建模方法 Fig.1 Voxel geological modeling of high genus strata based on Kmeans-ERT 谭添文,等:高亏格坝基地质体 Kmeans-ERT 自动建模研究 115 2 模型方法模型方法 2.1 极端随机树算法极端随机树算法 极端随机树(ER

19、T)通过构建多棵决策树实现对输入向量集的分类,是一种有监督集成学习算法27-28。决策树从根节点开始生长,在每一个节点上基于特征子集随机生成对应的分裂阈值,并沿着集合纯度梯度最大的方向进行分裂,直至抵达叶结点;每一棵决策树的构建均使用完整训练集,决策树之间彼此独立,其结构如图 2 所示。现有研究表明,ERT 结构简单、算法原理清晰,同时由于采取节点随机分裂的策略,决策树具有多样性,算法集成后灵活性和鲁棒性更强21,29-31。考虑到水利水电工程坝基地质体结构复杂多变、建模数据量小等特点,ERT 可满足要求。图图 2 极端随机树算法结构极端随机树算法结构 Fig.2 Structure of e

20、xtremely randomized trees 本文使用钻孔数据集训练 ERT 分类模型,通过对研究区域所有体元逐一分类实现自动化建模。然而,坝基范围内钻孔集中分布于中心部位,地层信息分布不均,高亏格地质体由于存在镂空其样本点可能在同一钻孔中间断出现(见图 3)。ERT 算法在整个研究空间内随机选取阈值划分地层的策略与上述坝基建模数据特征不符,易导致决策树结构冗杂、模型过拟合等问题,因此有必要结合钻孔数据特点改进算法。图图 3 坝基地层样本间断特征坝基地层样本间断特征 Fig.3 Discontinuity of stratum samples at dam foundation 2.2

21、基于基于 Kmeans-ERT 的坝基地质体建模的坝基地质体建模 由于空间坐标是钻孔数据特征向量的主要组成,其包含的距离信息未被算法充分利用,因此本研究拟利用样本点空间聚类分布为体素所属地层分类提供先验信息。K-means 是一种基于欧氏距离的聚类算法,能够反映样本相似度与彼此距离的相关性,从而在非监督状态下寻找最优簇划分32。该算法预先随机选择K个样本作为初始聚类中心,随后根据每个样本与聚类中心的距离将其划入到最近的聚类簇中,并通过迭代计算簇的聚类中心更新簇内的样本,直至生成的每个聚类簇内部紧凑,类间独立33。针对坝基地质体的数据分布特征,本文采用K-means 算法改进 ERT。在决策树构

22、建过程中,首先使用 K-means 对每一节点的样本集进行聚类分析获取钻孔样本分布的先验信息;由于使用标注数据集,可根据节点中地层类别数量确定K值;聚类完成后,决策树基于K个聚类中心的特征向量动态调整分裂阈值的随机分布。根据聚类结果不同,分为三种情况进行讨论:(1)存在两个优势簇。若当前节点 K=2,或仅存在两个簇的样本数量占节点比例相差低于116 水力发电学报 20%,且合计占比高于 80%,则基于这两个聚类的 分裂具有最高的信息增益。设聚类簇分别为1C和2C,随机节点分裂阈值iS遵从以下分布:2(,)iiiSN (1)122CCiiiXX (2)1221212()nnjijiXXnn(3)

23、式中:iX为样本第i个特征的值;i为两个聚类中心中点第i个坐标值;2i为聚类1C和2C样本第i个特征值的方差,1n、2n分别为其样本个数。其原理如图 4 所示。(2)仅存在一个优势簇。若某个簇占比高于60%,优先对该类进行划分可降低后续分类难度,可将其余样本视为一个聚类簇,随后按情况(1)中方法处理。(3)存在三个或以上聚类大小相近的簇。除上述两种情况外,结果中可能缺乏明显优势聚类,则将样本占比高于 10%的聚类簇两两组合生成一组分裂阈值,按其中信息增益最大的特征阈值进行分裂。信息增益采用基尼系数评价,计算公式为:21Gini11nniiniipppB (4)式中:ip为节点上数据属于第i类的

24、概率,由节点 中属于第i类的样本比例表示;B为样本子集。图图 4 分裂阈值选取(两个优势簇)分裂阈值选取(两个优势簇)Fig.4 Strategy of splitting two dominant clusters 因此,节点分裂值的随机范围被限制在两个聚类中心连线中点坐标为均值的正态分布区间内。该分布符合坝基钻孔数据外围疏、中间密的特点,能够最大程度地对节点内的优势聚类进行划分;同时利用 K-means 得到的地层样本分布信息指导决策树构建,有效解决了高亏格地质体建模环境下节点分裂的盲目性。改进前后算法流程如图 5 所示。图图 5 极端随机树决策树构建流程极端随机树决策树构建流程 Fig.

25、5 Construction of ERT decision tree 谭添文,等:高亏格坝基地质体 Kmeans-ERT 自动建模研究 117 2.3 边缘体元检测算法边缘体元检测算法 由于坝基地质建模更加关注地质体表面形态,因此为了降低模型的内存大小设计边缘识别算法进行内外部体元识别,进而隐藏内部体元提升渲染效率。本文提出的边缘体元检测算法流程如下:(1)张量化模型数据。算法对研究区域的所有体元完成分类后即可生成三维体元模型,如图 6所示。为了高效识别模型中地质体边界,以三维张量的形式储存模型数据,从而实现算法批量识别冗余体元。图图 6 体元数据张量可视图体元数据张量可视图 Fig.6 V

26、isualization of 3D voxel data tensor (2)边界体元识别。当某一体元在任一方向上的相邻体元与自身属性不同时,即可判定为边界体元;同时为了增强边界连续性,当与对角位置属性相异时,也判定为边界体元。该特征可描述为地质体的属性在边界处的离散梯度之和不为 0,即:,1,1,0,1f xa yb zcf x y za b c 0,(5)以(,)x y z 所代表体元为例,其对应属性为 l,提取其邻近333范围内体元属性的三维张量 V,共 27 个元素,设计如下边缘检测算法:1,0sgn()0,01,0 xyxxx(6)333,111Bor()sgn()i j kijk

27、Vl(7)式中:sgn为符号函数;l为中心体元属性值。若Bor()0v,则周围体元属性值与中心体元相同,该体元为内部体元;若Bor()0v,说明周围至少存在一个与自身属性不相同的体元,可将该体元标记为边界体元。边界体元标记完成后,对其余体元进行消隐并重新生成模型,优化模型内存占用。值得注意的是,考虑到后续模型动态更新,仍需要保存完整体元数据。算法伪代码如下:边界识别算法 输入:体元数据三维张量 D,标记张量 M,维度均为(,)I J K 输出:去冗余三维张量 D0 1 Begin:2 初始位置0(1,1,1)p 3 while 1xI:4 while 1yJ:5 while 1zK:6 提取张

28、量 D 中以0p为中心领域 V 7 根据式(7)计算Bor()v 8 if Bor0:9 (,)1M x y z 10 else:11 (,)0M x y z 12 1zz 13 更新位置 p 14 1yy 15 1xx 16 将与标记张量 M 所有 0 元素位置对应的 D 中元素置零,得到 D0 17 return D0 18 End 3 工程应用工程应用 3.1 试验数据试验数据 以我国泸定水利水电工程为案例进行研究,该 工程坝基覆盖层主要为第四系全新统(4Q)和上更新统(3Q)冰水堆积物、冲积物等;下覆岩石为晋宁-澄江期侵入岩,岩性以花岗岩(42)和石英闪长岩(32O)为主。坝基处覆盖层

29、结构松散,局部 沉积出现间断,形成具有高亏格几何特征的地质体。在坝基处选取40根勘测钻孔作为建模数据来源,并随机选取其中6根钻孔作为测试集对建模精度进行验证;所使用钻孔数据地层信息在勘测阶段完成标定,共包含8类地层。为使对钻孔数据进行升采样,在同一钻孔相邻分界点间内插多个间隔点;同时为了让模型能够识别出地表形态,在钻孔顶部虚拟出空气层,类别编号为0。采样前共有钻孔数据记录389条,经升采样并对数据集进行划分后,训练集包含3000个样118 水力发电学报 本,测试集包含870个样本,约占数据总量20%;训练集中不同地层占比差异较大,样本不平衡现象显著。所有样本点经可视化后如图7所示。图图 7 地

30、层样本点分布地层样本点分布 Fig.7 Distribution of stratum samples 3.2 Kmeans-ERT 模型构建模型构建 算法超参数设置如下:K-means最大迭代次数为30,聚类簇数量由节点剩余地层自动更新;决策树数量为100,叶节点最大样本数为2,不限制决策树深度。由于工程钻孔数据在XYZ方向的坐标范围基本一致,但数值量级较大,为提高算法效率对研究空间进行整体平移,使数据大致分布在原点附近。最终形成的研究区域为顶点(-100,15,-30),(65,90,25)包围的立方体空间,如图8所示,范围内待分类体元总数为680625。图图 8 研究区域范围研究区域范围

31、 Fig.8 Space of study area 模型完成训练后,使用准确率、F1分数、Kappa系数和杰卡德系数评价Kmeans-ERT算法在测试集上的表现,综合反映建模精度以及不平衡数据集下各地层分类能力。各指标得分分别为0.916、0.853、0.893和0.845,如图9(a)所示。结果表明,在利用有限工程钻孔数据的条件下,Kmeans-ERT算法能够挖掘数据内部规律,总体建模精度较高,对多数类和少数类的分类表现较为平衡。为评价算法在空间上表现的差异性,本研究分别统计了不同测试钻孔的分类准确率,如图9(b)所示。由图可知,在大部分钻孔上算法的准确率均接近或超过90%,但在钻孔6上表

32、现欠佳,原因在于地层走向在该位置发生突变,导致基于周围钻孔样本的预测出现偏差。(a)分类指标结果 (b)钻孔分类准确率 图图 9 Kmeans-ERT 模型评价指标模型评价指标 Fig.9 Evaluation indexes of Kmeans-ERT 为充分评估算法对每一类地层的分类性能,本文采用混淆矩阵和ROC曲线对分类结果进行可视化分析。在混淆矩阵中,每一行、列分别表示样本的真实类别和预测类别,根据对角线两侧的元素分布可看出分类器的具体错分情况。ROC曲线(receiver operating characteristic curves)是一种评价模型分类性能的可视化方法34,曲线横坐

33、标为负样本中预测错误的比例,即假正率(false positive rate,FPR),纵坐标为正样本中预测正确的比例,即真正率(true positive rate,TPR);对于集成学习算法,曲线下面积(area under curve,AUC)可反映算法对某个类的识别精度和单棵决策树的性能优劣。结果如图10所示。由图10可得,样本元素集中分布在混淆矩阵对角线上,且大部分类的ROC曲线接近1.0y,表明Kmeans-ERT对坝基各个地层样本的分类精度较高。分析混淆矩阵中分类错误的情况,可发现谭添文,等:高亏格坝基地质体 Kmeans-ERT 自动建模研究 119 错分数据主要落入相邻属性地

34、层,由于地层的空间分布及地质特征接近,样本在钻孔数据中间断出现,导致算法多次划定边界产生较大误差。(a)地层样本混淆矩阵 (b)ROC 曲线(地层 0-3)(c)ROC 曲线(地层 4-8)图图 10 各地层分类情况各地层分类情况 Fig.10 Classification results for each stratum 3.3 边缘体元检测及可视化边缘体元检测及可视化 由于Kmeans-ERT算法基于随机过程确定节点分裂阈值,算法生成的模型存在不确定性。根据一次典型试验结果进行分析:研究区域内除空气层外共有体元558834个,经去冗余体元处理后剩余体元数为171539,缩减率达69.3%。

35、结果表明,算法有效缩减了模型内存,降低了模型渲染的性能损耗,且模型优化效果随单个地层的体积增加而提升。体元数据可视化结构如图11所示。图图 11 体元数据内部视图体元数据内部视图 Fig.11 Inner sight of regular voxel grid 最终模型经Dual Contouring35算法平滑处理后进行可视化展示,如图12(a)所示。由图可见,在研究区域内覆盖层各处厚度不均,整体呈松散破碎状,且局部地层存在明显突变;其中地层6具有高亏格地质体典型特征,其几何特征及在空间中的分布如图12(b)所示,其中其余地层经透明化处理。由图可见,该地质体表面存在倒转多值曲面,且多处存在穿

36、透型孔洞。若使用常规地层面建模方法,在镂空处需要使用多个地质曲面裁剪拼接,建模效率大大降低,因此使用基于栅格体元的建模方法具有较好的适用性。(a)研究区域地质模型 (b)高亏格地质体几何特征 图图 12 坝基高亏格三维地质体模型坝基高亏格三维地质体模型 Fig.12 3D geological model of high genus strata at dam foundation 120 水力发电学报 4 讨论讨论 4.1 自动建模与人工建模准确性和效率对比自动建模与人工建模准确性和效率对比 本文基于非均匀有理 B 样条曲面(Non-uniform rational B-splines,NU

37、BRS)进行人工手动建模,其流程如下:首先根据各个横截面的钻孔提取地层分界面,并手动连接绘制地质曲线作为曲面插值的依据和边界约束;随后生成包含整个研究范围的包围盒(bounding box)作为原始地质体,并根据地层走向和接触关系从地层分界点插值生成NURBS 曲面对原始地质体进行切割,同时组合多个曲面对地层的形态进行细分;最后对局部具有高亏格特征的结构进行处理,处理流程如图13所示。图图 13 基于基于 NUBRS 曲面的人工建模流程曲面的人工建模流程 Fig.13 Manual modeling procedure based on NUBRS 为验证本文提出方法的实际建模准确性,以上一节

38、中具有高亏格特征的地层 6 为例,对比分析自动建模与人工手动建模结果,准确性以测试钻孔处样本点准确率统计。建模结果及误差对比分别如图 14 及表 1 所示。(a)Kmeans-ERT (b)人工建模方法 图图 14 建模结果对比建模结果对比 Fig.14 Comparison of modeling results 表表 1 测试钻孔准确率测试钻孔准确率 Table 1 Model accuracies at drillholes 序号 Kmeans-ERT 方法 人工建模方法 1 1 1 2 0.925 0.956 3 0.942 0.960 4 0.923 0.947 5 0.926 0.

39、926 6 0.900 0.919 对比两种建模结果可得,采用本文方法建立的高亏格地层模型与人工建模结果相比准确率误差保持在 3%以内,表明模型准确性水平与人工建模基本一致。在效率方面,采用本文算法自动建模共计用时34 min,而专业建模人员人工建模时间为1 h 33 min,约为自动建模用时的 2.74 倍。后者效率低下的主要原因在于建立高亏格地质体模型时需要较多的专家知识介入以判断地层走向和分析地层的接触关系,并根据其他侵入地层的样本点推理出地质体的高亏格形态,这一过程耗时较长。需要说明的是,人工建模的用时随地质工程师专业能力的不同会出现显著差异。综上所述,本文自动建模算法在准确性与人工建

40、模水平一致的前提下,极大提升了建模效率。4.2 极端随机树模型极端随机树模型 K-means 改进效果对比改进效果对比 为评价 K-means 对 ERT 算法的改进效果,将本文算法与常规 ERT 以及采用近年来提出的快速搜索和密度峰值聚类(clustering by fast search and find of density peaks,CFSFDP)36改进的 CFSFDP-ERT 算法进行对比,分别基于三种模型进行 200 次模拟试验,统计结果如表 2 所示。改进前 ERT 模型的平均准确率接近 0.9,Kappa 系数波动范围在0.81 以上,表明 ERT 算法本身具有较强的鲁棒性

41、及泛化性能,能够适应水利水电工程建模数据特征。表表 2 试验统计结果试验统计结果 Table 2 Statistical results of numerical experiments 多分类指标 ERT Kmeans CFSFDPAcc 平均值 0.8878 0.9082 0.9012 标准差/10-21.124 0.8873 0.5954 F1 平均值 0.7754 0.8351 0.8333 标准差/10-22.259 1.497 0.9034 Kappa平均值 0.8580 0.8747 0.8749 标准差/10-21.365 1.087 0.7335 Jaccard平均值 0.7

42、984 0.8201 0.8202 标准差/10-21.807 1.455 0.9827 Kmeans-ERT 建模准确率、F1 分数、Kappa、杰卡德系数与常规 ERT 相比平均提升 2.30%,7.70%,1.95%和 2.72%,与 CFSFDP-ERT 相比各项平均指标基本一致。可知采用 K-means、CFSFDP改进对自动建模分类精度提升显著,尤其是对不平谭添文,等:高亏格坝基地质体 Kmeans-ERT 自动建模研究 121 衡数据集中少数类的识别更加灵敏。在稳定性方面,Kmeans-ERT 相比于常规 ERT 同样有较大提升,但标准差略高于 CFSFDP-ERT。图 15、图

43、 16 记录了各算法的多次试验具体表现。由图可见,Kmeans-ERT 的各方面表现均优于常规 ERT 算法,仅出现少数异常点,且在多次试验中各项指标波动幅度更小,表明其鲁棒性更强;CFSFDP-ERT 与 Kmeans-ERT 的波动范围基本重合,但前者异常点较少,主要原因是 CFSFDP 算法能够对非球形的空间簇进行聚类。总体而言,两者在建模精度上水平基本一致,CFSFDP 改进的 ERT稳定性有一定优势。然而,考虑到 ERT 的决策树和节点数量众多,聚类分析的计算量庞大,因此对聚类算法的效率具有较高要求。在这一方面,CFSFDP-ERT 模型训练用时为 467.567 s,Kmeans-

44、ERT 模型训练用时为54.616 s,后者仅为前者的 11.68%。原因在于CFSFDP 算法需要建立空间中所有点的距离矩阵,计算复杂度为O(n2),相比之下 K-means 的计算复杂度为O(n),其中n为样本点数量。综合上述分析,Kmeans-ERT 显著提升了分类精度,同时算法效率较高,因此具有更好的适用性。图图 15 K-means 改进前后表现对比改进前后表现对比 Fig.15 Performance comparison before and after K-means modification 图图 16 K-means 与与 CFSFDP 改进表现对比改进表现对比 Fig.1

45、6 Performance comparison between K-means and CFSFDP modification 122 水力发电学报 4.3 Kmeans-ERT 模型与模型与 SVC、KNN、RF、BPNN、DF 算法表现对比算法表现对比 为验证Kmeans-ERT算法在精度和效率上的先进性,使用多种机器学习分类算法进行横向比较。基于已有的自动建模研究,本文中取了多个分类算法作为对照,包括SVC19、KNN37、随机森林算法(random forest,RF)38、深度森林算法(deep forest,DF)39以及多层前馈神经网络(back propagation neu

46、ral network,BPNN)。经网格搜索优化并综合考虑运算效率,各算法的超参数取值如表3所示。表表 3 算法超参数取值算法超参数取值 Table 3 Hyper-parameters settings 分类算法 超参数 SVC C=5000,=0.3333,kernel=rbf KNN k=5,criterion=Euclidean RF n_trees=100,criterion=gini,min_ samples_leaf=2,min_samples_split=3 Kmeans-ERT K-means:k=auto,max_iter=30;ERT:决策树超参数设置同 RF DF n

47、_estimators=10,max_layers=10,n_tolerant_rounds=5 BPNN hidden_layers=(10,10,10,10),activation=relu,optimizer=adam,alpha=110-4根据各算法多次试验结果,计算各自的评价指标均值及分布,结果如图17及图18所示。由图可知,Kmeans-ERT准确率相较于其余算法分别提升17.35%,19.14%,4.69%,6.51%和17.1%;F1分数提升11.77%,15.49%,4.45%,6.49%和30.9%;Kappa系数分别提升21.88%,26.25%,5.91%,8.64%和

48、25.1%;Jaccard系数提升幅度分别为31.60%,34.85%,8.53%,11.86%和35.4%。结果表明Kmeans-ERT算法具有较大优势。需要说明的是,由于Kappa系数和Jaccard系数基于混淆矩阵进行计算,错分少数类样本对指标的影响较大,因此差异更为显著。图图 17 多算法分类平均表现多算法分类平均表现 Fig.17 Average performances of different algorithms 图图 18 多次试验统计结果多次试验统计结果 Fig.18 Statistical results of multiple experiments 谭添文,等:高亏格

49、坝基地质体 Kmeans-ERT 自动建模研究 123 箱型图展示了 200 次试验中算法结果的分布统计,由于同一训练集下 SVC 和 KNN 多次试验结果不变,在图中以虚线表示。图18表明,Kmeans-ERT 算法多次试验的平均表现均优于其他分类算法,表明其对坝基高亏格地质体分类精度更高。综合分析图 17 及图 18,具有深度学习模式的DF、BPNN 算法表现不佳,主要原因是本文使用的钻孔数据特征数量较少,样本容量小,深度模型难以收敛。在算法效率评价方面,分别训练上述算法对本文研究区域内体元进行分类建模,记录各算法分类完成总用时,如表 4 所示。由表 4 可得,各自动建模算法相比于人工建模

50、均能大幅缩减建模用时,其中 Kmeans-ERT 算法用时较短,在本文对比的算法中处于优势地位。因此Kmeans-ERT 在效率上具有先进性。表表 4 各算法建模用时各算法建模用时 Table 4 Computational costs of different algorithms 算法 用时/s 算法 用时/s 人工 334800 ERT 1934 SVC 1769 Kmeans-ERT 2061 KNN 2523 DF 3427 RF 2738 BPNN 3231 5 结论结论 针对水利水电工程坝基高亏格地质体地层数据分布不均、地质体局部突变等问题,本文提出一种基于体元的 Kmeans-

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服