基于Spark的扩展孤立森林算法并行化改造实验设计_应文豪.pdf

资源描述

1、实验技术与管理第 40 卷第 4 期 2023 年 4 月 Experimental Technology and Management Vol.40 No.4 Apr.2023 收稿日期:2022-11-23 基金项目:中国高等教育学会“十四五”规划专项课题（21JSYB16）；国家自然科学基金项目（61972059）作者简介:应文豪（1979），男，江苏常熟，博士，副教授，主要研究方向为数据挖掘、大数据分析，。通信作者:钟珊（1983），女，湖南娄底，博士，副教授，主要研究方向为机器学习、分布式计算，。引文格式:应文豪，孙中强，王诗愉，等.基于 Spark 的扩展孤立森林

2、算法并行化改造实验设计J.实验技术与管理,2023,40(4):75-81.Cite this article:YING W H,SUN Z Q,WANG S Y,et al.Experimental design of Spark-based parallelization transformation of extended isolated forest algorithmJ.Experimental Technology and Management,2023,40(4):75-81.(in Chinese)ISSN 1002-4956 CN11-2034/T DOI:10.16791

3、/ki.sjg.2023.04.010 基于 Spark 的扩展孤立森林算法并行化改造实验设计应文豪1，孙中强2，王诗愉1，钟珊1，龚声蓉1,2（1.常熟理工学院计算机科学与工程学院，江苏苏州 215000；2.苏州大学计算机科学与技术学院，江苏苏州 215000）摘要：针对海量或高维数据进行异常检测实验时，往往检测速度较慢、效率较低。针对此问题，设计了一种基于 Spark 分布式计算的扩展孤立森林异常检测算法改造实验。实验基于 Spark 框架，分别在数据抽样、训练、预测等阶段设计并行化改造方法，通过与单核条件下的算法对比，验证了并行化方法在保证准确性的前提下执行效率得到大大

4、提高。此实验对加深学生对大数据分布式并行处理知识的理解，引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。关键词：大数据并行化；异常检测；孤立森林；数据挖掘；实验设计中图分类号：TP391.4 文献标识码：A 文章编号：1002-4956(2023)04-0075-07 Experimental design of Spark-based parallelization transformation of extended isolated forest algorithm YING Wenhao1,SUN Zhongqiang2,WANG Shiyu1,ZHONG Shan1,GONG

5、Shengrong1,2(1.School of Computer Science and Engineering,Changshu Institute of Technology,Suzhou 215000,China;2.School of Computer Science and Technology,Soochow University,Suzhou 215000,China)Abstract:When performing anomaly detection experiments on massive or high-dimensional data,the detection s

6、peed is often slow and the efficiency is low.For this problem,a comprehensive experimental design of distributed machine learning for parallelizing the extended isolated forest anomaly detection algorithm is proposed,relying on the high-performance advantage of Spark distributed computing.Based on t

7、he Spark framework,the experiment designs parallel transformation methods in data sampling,training,prediction stages.Compared with the algorithm running on a single core,it is verified that the execution efficiency of parallelization method is greatly improved under the premise of ensuring accuracy

8、.This experiment plays a positive role in deepening students understanding of distributed parallel processing knowledge of big data and guiding their interest in learning massive data mining related technologies.Key words:big data parallelization;abnormal detection;isolated forest;data mining;experi

9、mental design 数据科学与大数据技术专业是“新工科”中比较有代表性的专业，是一个实践性很强的新兴交叉复合型专业。而机器学习和分布式并行计算是该专业的两大核心专业课程，当学生学习这两门课程后，需要借助相对复杂、具备应用背景的综合性实验来巩固加深对知识点的理解和运用。本文以在金融欺诈检测、医疗诊断和网络安全入侵等领域运用非常广泛的异常检测1为应用背景，设计了一种利用 Spark 分布式计算框架对扩展孤立森林异常检测算法进行分布式处理和并行化改造的综合性实验。通过本实验，学生可以对76 实验技术与管理分布式并行程序设计在机器学习算法上的应用形成更全面的认识，同时深刻体验其在

10、处理海量数据挖掘时表现出的高效率。1 实验技术背景 1.1 异常检测近年来，国内外学者对异常检测有很多深入探讨，提出了许多创新性异常检测算法，为异常检测的进一步研究奠定了基础。文献2对常见的异常检测算法进行了分类总结，根据异常检测所涉及的技术的差异，将其分为基于连接函数的异常检测方法3（copula-based outlier detection，COPOD）、基于距离的异常检测方法4和基于密度评估的异常检测方法等。其中LOF（local outlier factor）5是一种基于密度评估的局部离群因子检测方法，通过计算局部可达密度来得到每一个数据实例的局部离群属性，再根据设定的阈值判断该数

11、据实例是否异常。由于基于密度评估的局部异常检测方法时间复杂度均在2(n)6，这种方法在大规模数据集上的计算成本很高，还可能导致距离计算上的“维数灾难”问题7。因此，设计出在高维数据集上表现良好的异常检测算法具有重要意义。1.2 孤立森林算法孤立森林（isolation forest，iForest）算法是一种具有线性复杂度且基于相似度模型的异常检测算法。iForest 采用轴平行划分策略，利用数据集中离群值“少而不同”的特点采用子采样方法构建 iTree，将数据遍历划分到 iTree 的节点中，根据数据在 iTree 中所处的深度识别该数据的“异常”程度。iForest 不需要计算距离或密度

12、，也不需要构建完全的模型，且具备线性复杂度，因而能高效处理高维数据8。但由于 iForest采用轴平行划分数据策略，可能会导致孤立超平面交叉，进而产生异常分数分布不准确区域，最终使该算法对噪声特征的鲁棒性较差。Sahand 等9发现 iForest算法对局部异常点不敏感，于是提出扩展孤立森林算法（extended isolation forest，EIF），该算法可以随机生成各种角度的切割超平面，并将 iForest 轴平行的孤立条件更替为使用随机斜率10的超平面，有效解决了iForest 对于局部离群值异常检测不敏感的问题。1.3 Spark 技术由加州大学柏克莱分校 AMP 实验室研究开

13、发的Spark，是当前大数据场景下快速通用的并行化计算分析引擎11。Spark 模块架构如图 1 所示。Spark 拥有众多模块组件，包括为结构化数据提供分布式查询的 Spark SQL，为机器学习提供通用工具和算法实例的 Spark MLlib，以及支持批处理和流式计算的 Spark Streaming 等。此外，Spark 兼容大部分现存的大数据运行环境，能够以 Local、Standalone、YARN 等模式运行，且同时支持 HDFS、Hbase、Hive等各种数据源12。图 1 Spark 模块架构 Spark 的运行架构主要包含集群资源管理器 Cluster Manager、执行作

14、业的任务节点 WorkerNode、作业控制节点 Driver，以及每个 WorkerNode 上负责执行 Task的 Executor 节点，如图 2 所示。相比基于进程维护的Hadoop Map Reduce13计算框架，Spark Executor 节点采用多线程方式执行具体任务，节省了任务的启动资源开销。图 2 Spark 运行架构 Spark 的作业运行逻辑如图 3 所示，主要包括四个阶段。（1）注册并申请资源。首先由 Driver 控制节点启动一个 SparkContext，用来进行资源请求、任务分配和监控，从而为 Task 创建基本运行环境。（2）分配资源。由 Cluster M

15、anager 集群资源管理器为相应的 Executor 节点分配资源，并启动进程。（3）注册并申请 Task。SparkContext 对象能够根据弹性分布式数据集（resilient distributed datasets，RDD）之间的依赖关系构建 DAG（directed acyclic graph）图，并提交到 DAGScheduler，进而将 DAG 图解析成若干 Stage，然后将 Taskset 转交给 TaskScheduler管理和监控。只有在 Executor 向 SparkContext 申请执行 Task 时，TaskScheduler 任务调度器才会将 Task 分

16、配给各个 Executor 节点，同时启动线程池执行，并分配对应的应用程序代码。（4）注销。Task 会将在 Executor 上的执行结果反馈给 TaskScheduler，再反馈给 DAGScheduler，在最应文豪，等：基于 Spark 的扩展孤立森林算法并行化改造实验设计 77 图 3 Spark 基本运行流程终执行完毕后，Executor 释放所有当前占有资源并申请注销。2 实验设计 2.1 EIF 算法性能瓶颈分析 EIF 算法通过对数据空间进行划分，计算样本对象在 EIF 算法模型中的平均路径长度，然后计算样本对象的异常分数并根据设定的阈值来实现异常检测。然而，在大数据业务

17、情况下，EIF 算法的性能瓶颈体现在以下几个方面：（1）EIF 算法检测精度与 iTree 的构建数量在一定程度上呈正相关，可以依靠大数据分析的优势，通过构建大量 iTree 组成高检测精度的 EIF 模型。但是，大规模的构建过程通常会带来大量的迭代计算，最终导致算法的执行效率较低。（2）在单元计算节点情况下，如果要构建大规模的 iTree，往往会受到机器的最大内存容量限制，进而影响算法能够处理的数据规模。（3）另一方面，EIF 在构建 iTree 时会进行多次向量间点乘运算，造成在大规模高维数据中高额的计算成本。因此，基于内存的 Spark 实现 EIF 算法的并行化版本（extended

18、isolation forest based on spark，EIFS）是一件十分有意义的工作。2.2 EIF 算法并行策略实验设计 EIFS 并行算法框架如图 4 所示，主要包括数据预处理阶段、EIF 算法模型构建阶段和异常预测阶段。其中，实现并行化主要是在 EIF 算法模型构建阶段和异常预测阶段。（1）数据预处理阶段。此阶段对数据集 D 进行随机数据抽样获取子数据集。其中，数据集 D 是鉴于Spark 的弹性数据集 RDD，此阶段不适合实现并行化，因为分布在 RDD 各分区上的数据存在数据倾斜现象，且各分区上的数据分布情况可能已与原数据集不符。为保证抽样数据的全局随机性，EIFS 要预先

19、计算数据集 D 的数据总量，再针对数据实例的行号进行随机抽样，最终得到 t 组（iTree 棵数）子数据集，每一组子数据集包含 m（iTree 中样本数量）个数据，使用数据图 4 EIFS 并行算法框架 78 实验技术与管理行号能够降低对集群内存资源的占用和节点间的运输成本。Driver 端将抽样数据行号广播分发到各个 Executor，Executor 再根据数据行号从训练数据集中拉取对应的数据实例，构建用于模型训练阶段的子数据集。（2）EIF 模型构建阶段。EIF 算法中每个 iTree 的构建过程是相互独立的，符合并行化的基本要求。根据数据抽样阶段得到的子数据集 D1、D

20、2 等，构建 iTree的任务可以使用 map 算子广播分配到各个 Executor 执行。iTree 的构建是一个迭代划分子数据集的过程，划分依据是子数据集中选取的随机斜率n?和随机截距p?构成的孤立超平面，最后由 Driver 全局聚合构建所有iTree，得到 EIF 模型。（3）异常预测阶段。模型构建阶段完成后，每个Executor 都获得了 EIF 模型，且每个待预测的数据实例 d 相互独立。因此可将计算平均路径长度和异常预测结果的任务分发到不同的 Executor，尽可能利用集群并行化优势，提高算法的执行效率。2.3 EIF 数据抽样并行化实验设计在 EIF 算法中，数据抽样结果会

21、影响算法模型的检测精度。基于 Spark 的分布式数据集 RDD 的数据分区在逻辑上保存在不同的集群节点上。因此，在分布式数据集 RDD 上进行均匀随机抽样时，很容易出现抽样不平衡14现象。EIFS 数据抽样过程可大致分为 Driver 端的数据采样和 Executor 端的数据筛选两个阶段15。（1）Driver 端的数据采样。Driver 根据数据集总量对数据的行号进行无放回的随机抽样，并将数据行号最终映射为对应的键值对。Driver 端的数据采样过程可分为计算总数据量、确定采样数、数据抽样和抽样映射四个阶段。（2）Executor 端数据筛选。为减少 Spark 集群的网络传输和 IO

22、负载，节点间传输的变量应尽量小，最后在 Driver 端将 rowInfo 进行序列化后，通过 Spark广播分发到各个 Executor。该步骤中，各个 Executor先提取数据集 Dataset 中的数据实例并转换成 RDD，然后使用 Driver 端分发的 rowInfo 数据行号对 RDD 数据集进行筛选过滤，使用 flatMap 算子对 RDD 中的每行数据实例进行映射组合，此时 RDD 数据集的大小即随机抽样后的样本数为 maxSamplesnumTrees，最后使用 reduceByKey 算子对筛选映射后的 RDD 进行操作，将具有相同 iTree 索引的数据实例进行聚合，此

23、时 RDD 中数据集的大小为 numTrees。2.4 EIF 训练模型的并行化实验设计经过数据抽样后，进入 EIF 算法并行化的模型训练阶段，即将抽样后的数据集基于 map 算子在不同的Executor 上进行并行计算。其中构造 iTree 是实现 EIFS 的核心部分。各个Executor 节点利用数据抽样阶段筛选映射的 rddPerTree数据对象，通过一系列 transform 和 action 算子操作，得到二维数组形式的训练数据，其中行对应数据实例，列对应数据特征，每棵 iTree 基于这些训练数据进行并行构建。iTree 构建的实现逻辑为：首先判断当前节点所处高度是否超过 iT

24、ree 的最大高度限制，或当前子数据集是否已不可被划分。若是，则构造 EIFLeafNode 叶子节点，反之则进行下一步。随机生成斜率)0,1n?，并从每个特征值区间内随机选取一个值作为截距p?。在确定孤立超平面后，针对数据集 X 中一个给定的数据点x?，对其划分的孤立条件为，如果满足公式()0 xpn-?，则将数据点x?划分到当前节点的内部左子树，否则划分到内部右子树。当各 Executor 节点上并行构建 iTree 的任务完成后，Driver 端将各 Executor 节点构建的 iTree 孤立树进行全局聚合，得到包含 numTrees 棵 iTree 的数组

25、，最后得到训练完成的算法模型 EIFModel。2.5 EIF 模型预测的并行化实验设计 EIFS在训练阶段对数据集 DataFrame进行一系列并行化转换和计算，最后由 Driver 端全局聚合得到EIFModel 模型。EIFS 在异常预测阶段的实现类EIFModel继承了 Model 抽象类，核心方法是 transform()方法，主要是利用现有的算法模型对数据进行并行化预测。在异常预测阶段，Driver 使用广播分发 EIFModel 到各个集群节点 Executor 上，每一个测试数据集 DataSet中的数据实例都会遍历 EIFModel 模型中的 iTree，计算平均路径长度并进

26、行异常分数评估，最后通过阈值比较完成异常预测。若每个集群节点的 Executor 都使用广播分发的 EIFModel 进行预测，则异常预测阶段的执行效率将会大幅提高。并行异常预测的逻辑流程如图 5 所示。图 5 并行异常预测流程应文豪，等：基于 Spark 的扩展孤立森林算法并行化改造实验设计 79 并行异常预测的主要步骤如下。（1）并行计算异常分数。Spark 允许使用自定义函数即 UDF（user defined function）对 DataSet 进行操作16。DataSet 中的所有数据实例都作为输入参数，每行数据实例都会根据 Driver 端广播分发的 EIFModel遍历 iT

27、ree，计算平均路径长度和异常分数，最后通过比较阈值完成异常预测。（2）并行异常预测。在异常预测方法中，输入参数是测试数据集 testDataset。代码实现逻辑为：首先处理测试数据集 testDataset 的约束文件，将特征实例封装成 featureCol 列。计算随机抽样大小，确定每棵 iTree 的数据量 maxSamples，为计算 iTree 的平均路径长度做准备。封装计算每个数据实例异常分数的 UDF 函数。对测试数据集 testDataset 进行基于列的操作，Spark SQL 可以将对 testDataset 测试数据集的列操作转换为执行效率更高的 map 算子。用anom

28、alyScoreUDF 函数对 featureCols 筛选特征下的数据实例进行异常分数计算。计算任务可以由 Driver 端广播分发给 Executor 进行并行计算。整个过程是高度并行化的。基于实验人员设定的检测阈值参数封装具有异常预测功能的 anomalyPredictUDF 函数，最后将预测结果列 predictionCol 封装到新的 DataSet 中。3 实验配置 3.1 软硬件支持本实验采用单机多核测试，Spark 的 Local 模式可以启动多个 Executor 进程并行计算，机器配置如表 1所示，实验所需的软件环境配置如表 2 所示。表 1 硬件环境配置名称配置 C

29、PU Intel(R)Core(TM)i7-8 核数/个 12 内存/G 16 表 2 软件环境配置名称版本操作系统 Windows 10 Java 版本 JDK 1.8.0_311 Maven 版本 3.6.3 Scala 版本 2.12.15 Spark 版本 3.1.2 Hadoop 版本 3.2 Python 版本 3.7.0 3.2 实验评价标准（1）AUC。异常检测场景下，存在样本不平衡问题，本文选用异常检测常用的评估指标 AUC17来对算法预测的正确率进行检验。（2）加速比。加速比是用来衡量并行系统或程序并行化的性能指标，在大多数并行系统中，在数据规模确定的情况下，程序的加

30、速比随节点数的增加而增加。其计算公式为：1ppTST=（1）其中，p表示算法并行度，1T表示单节点串行情况下执行算法的时间开销，pT表示并行度为p时并行算法的时间开销。当pSp=时，即加速比等于程序并行度时，pS可称为线性加速比。当某一并行化算法的加速比为线性加速比时，将算法的并行度加倍，则算法的执行效率也会随之加倍。3.3 实验数据本实验选用 UCI 中的 4 个数据集进行评估18，样本数从小到大依次为 Breastw、Satellite、Shuttle 和Http。表 3 对数据集进行了说明。由于 EIFS 算法属于无监督学习，对数据的预处理仅仅利用数据实例除标签外的部分，在异常预测阶段

31、再利用这些标签对 EIFS算法的检测精度等进行评估。稍大规模的 Http 数据主要用于 EIFS 算法的弹性测试实验。表 3 实验数据集数据集样本数量异常数据比例/%特征数 Breastw 683 35 9 Satellite 6 435 33 36 Shuttle 49 097 7 9 Http 567 498 0.40 3 4 算法实验与结果验证 4.1 算法有效性验证根据 iForest 原论文，算法参数 numTrees 为 100、maxSamples 为 256 时算法效率和精度最高，本实验同样指定 EIF 和 EIFS 的参数 numTrees 为 100、maxSamp

32、les 为 256。1）算法准确性验证。由表 4 可以看出，虽然单机版 EIF 算法在数据集上的 AUC 值大多高于并行化后的 EIF 算法，但 EIFS算法的 AUC 指标与单机版的 EIF 算法基本无明显差表 4 AUC 值对比数据集 EIF EIFS Breastw 0.98 0.94 Satellite 0.71 0.68 Shuttle 0.97 0.99 Http 0.99 0.99 80 实验技术与管理别。因此，并行化后的 EIF 算法能够满足异常检测需求，与单机版的 EIF 算法大体一致。2）算法执行效率验证。为研究 EIFS 算法在大规模数据下的执行效率，选

33、用数据量较大的 Http 数据集，比较 EIF 和 EIFS 的时间开销。单核情况下的 EIF 算法、基于 Spark 并行化的单核 EIF 算法和 4 核 EIF 算法的实验结果如图 6所示。图 6 算法执行效率对比由实验结果可知，单核条件下，并行化的 EIF 算法的执行时间为 21 s，而 Python 实现版本为 56 s。由此可见，基于内存的 Spark 平台相比 Python，能够更好地利用内存计算优势，即经并行化改造后的算法执行效率显著提升。4.2 数据可扩展性实验为验证 EIFS 算法处理大规模数据集的能力，采用对原始数据集进行拼接方式生成大规模合成数据，即 Http 数据集

34、的 100 万、300 万、500 万行数据的合成版本。在本实验条件中，Spark 的计算节点数量设置为 4，即四核。1）不同 iTree 数目下的算法执行效率对比实验。从图 7 可以看出，随着 iTree 构建数量的增加，单机和并行化实现的 EIF 算法在不同数据集规模下的运行时间都为线性增长趋势，但单机版算法增长更为陡峭，并行化后的算法增长较为平缓。尽管并行化算法EIFS也需要构建大量iTree，但EIFS能够充分利用Spark集群的并行化计算能力，从而大幅降低了计算成本。2）不同数据规模下的算法执行效率对比实验。分别设定建树棵树为 500 和 1 000，由图 8 的实验结果可以看出，随

35、着数据集规模的增长，并行化算法EIFS 和单机算法 EIF 的计算成本都呈线性增长。但EIFS 的曲线斜率较单机版明显较小，尤其是在大规模数据集上，EIFS 的曲线斜率缓慢降低，体现出分布式并行计算在处理大规模数据集时的巨大优势。图 7 不同 iTree 规模下算法执行效率对比图 8 不同数据集规模下算法执行效率对比应文豪，等：基于 Spark 的扩展孤立森林算法并行化改造实验设计 81 4.3 弹性测试实验 EIFS 模型参数采用了 EIF 算法推荐的参数：numTrees=100、maxSamples=256。Spark 上每个 Executor的内存设置为 1 G，计算节点数量为 1

36、12 的加速比。实验结果如图 9 所示，EIFS 算法的执行效率能够随着 Executor 节点数（并行度）的增加而增加，即算法的加速比逐渐增大。当总数据量为 500 万、计算节点数为 12 时，EIFS 算法加速比提高到 2.81。图 9 计算节点数目下算法加速比对比由实验结果可知，EIFS 算法具有一定的弹性扩展能力，且能够高效处理大规模数据集的异常检测。但随着节点数的增加，EIFS 执行效率的提升幅度有所降低，因为节点数增加会导致 Spark 集群之间网络通信时间随之增加。因此，只要设定合理的并行化参数，就能够利用较少的资源达到较好的效果。5 结语本文设计了一种大数据背景下的分布式机

37、器学习综合实验，实现了对异常检测算法 EIF 在 Spark 平台上的并行化改造，还构建了丰富的对比实验用以验证改造效果。实践证明，该实验教学以应用为驱动，使理论与实践深度融合，加强了学生对分布式并行计算知识的理解，能够为后续的综合项目实训及毕业设计打下坚实基础。参考文献(References)1 QIU C,PFROMMER T,KLOFT M,et al.Neural transformation learning for deep anomaly detection beyond imagesC/Proceedings of the 38th International Conferen

38、ce on Machine Learning,PMLR,2021:87038714.2 DOMINGUES R,FILIPPONE M,MICHIARDI P,et al.A comparative evaluation of outlier detection algorithms:Experiments and analysesJ.Pattern Recognition,2018(74):406421.3 LI Z,ZHAO Y,BOTTA N,et al.COPOD:Copula-based outlier detectionC/2020 IEEE International Confe

39、rence on Data Mining(ICDM).IEEE,2020:11181123.4 FRATTASI S,DELLA ROSA F.Mobile positioning and tracking:From conventional to cooperative techniquesM.West Sussex:John Wiley&Sons,2017.5 ALGHUSHAIRY O,ALSINI R,SOULE T,et al.A review of local outlier factor algorithms for outlier detection in big data s

40、treamsJ.Big Data and Cognitive Computing,2020,5(1):1.6 BOUKERCHE A,ZHENG L,ALFANDI O.Outlier detection:Methods,models,and classificationJ.ACM Computing Surveys(CSUR),2021,53(3):137.7 姚树春，刘正，张强.基于混合遗传算法与互信息分析的高维小样本特征选择J.计算机应用与软件，2020,37(1):247255.8 THUDUMU S,BRANCH P,JIN J,et al.A comprehensive surve

41、y of anomaly detection techniques for high dimensional big dataJ.Journal of Big Data,2020,7(1):1426.9 SAHWD H,CARRASCO K M,BRUNNER R J.Extended isolation forestJ.IEEE Transactions on Knowledge and Data Engineering,2019,33(4):14791489.10 PAWELCZYK M,BROELEMANN K,KASNECI G.Learning model-agnostic coun

42、terfactual explanations for tabular dataC/Proceedings of The Web Conference 2020,Taipei,CN,2020:31263132.11 DSCHL A,KELLER M E,MANDL P.Performance evaluation of GPU-and cluster-computing for parallelization of compute-intensive tasksJ.International Journal of Web Information Systems,2021,17(4):37740

43、2.12 SEN R,ROY A,JINDAL A,et al.AutoExecutor:Predictive parallelism for spark SQL queriesJ.Proceedings of the VLDB Endowment,2021,14(12):28552858.13 CHIANG D L,WANG S K,WANG Y Y,et al.Modeling and analysis of Hadoop MapReduce systems for big data using Petri NetsJ.Applied Artificial Intelligence,202

44、1,35(1):80104.14 胡文娟.人工智能的不平衡数据集异常点抽样算法J.计算机仿真，2020,37(11):324328.15 BODEPUDI H.Faster The slow running RDBMS queries with spark frameworkJ.International Journal of Scientific and Research Publications,2020,10(11):287291.16 ZHANG G,XU Y,SHEN X,et al.UDF to SQL translation through compositional lazy

45、inductive synthesisJ.Proceedings of the ACM on Programming Languages,2021,5(OOPSLA):126.17 OBUCHOWSKI N A,BULLEN J A.Receiver operating characteristic(ROC)curves:review of methods with applications in diagnostic medicineJ.Physics in Medicine&Biology,2018,63(7):0701.18 侯博文.基于 LSH 及信息熵的 IForest 算法优化及其并行化研究D.西安：西安电子科技大学，2020.（编辑：张文杰）

展开阅读全文