收藏 分销(赏)

基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究.pdf

上传人:自信****多点 文档编号:2120180 上传时间:2024-05-16 格式:PDF 页数:8 大小:1.63MB
下载 相关 举报
基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究.pdf_第1页
第1页 / 共8页
基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究.pdf_第2页
第2页 / 共8页
基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、研究报告基基于于 Spark MLlib 中决策树算法对阿尔及利亚森林火灾中决策树算法对阿尔及利亚森林火灾的预测研究的预测研究高丰伟,田睿,周浩,胡洁*南京林业大学信息科学技术学院,江苏南京2100372022-11-15收稿,2023-04-07网络版发表开放科学(资源服务)标识码(OSID):基金项目国家自然科学基金(11804162)高丰伟(1996),男,硕士,*通信作者摘要摘要应用阿尔及利亚森林火灾数据,通过 SparkMLlib 中的决策树算法,提出过滤相关性高的特征参数提升模型性能,对森林火灾进行预测研究。对温度、风速、雨及加拿大森林火险气候指数(FWI)系统中主要指标等特征参数

2、,结合森林火灾的分类情况,使用信息增益标准为 Gini 的二叉决策树,建立基于决策树的火灾预测模型,对样本数据进行分类预测;提出分析不同特征参数之间的相关性,剔除相关性高的特征参数,利用大数据计算框架 Spark 建立机器学习工作流,将计算相关性的皮尔森系数与决策树分类算法结合了起来,从而优化模型,提高预测分类精度。预测模型改进前,即未进行相关性分析的森林火灾预测分类总精度为 94.94%;预测模型改进后,即进行相关性分析,剔除了相关性较高的特征参数数据,森林火灾预测分类总精度为 97.17%,准确率提高了近 3%。使用 SparkMLlib 中的机器学习算法在森林火灾预测分类方面准确率总体较

3、高,尤其在将多种数据挖掘算法结合后,模型性能得到提高,预测分类精度更高。关键词关键词森林火灾;SparkMLlib;决策树;相关性分析;FWI 系统森林火灾是一种危害极大的自然灾害,它以突发性强、破坏性大、难以处置为特点,对人类的生产生活产生严重影响。在我国,每年森林火灾平均发生一万多次,森林被烧毁的面积达到上百万公顷。森林火灾不仅损失大量林木,并且会破坏森林生态系统平衡,对森林环境造成不可逆的伤害。因此如果能够对森林火灾的发生做出预测,及时地进行预警,能够极大地预防或避免森林火灾的发生。在森林防火预测研究中,离不开数据挖掘。Spark 十分擅长处理机器学习方面的问题。在使用Spark 框架时

4、,可以将迭代计算这种对 I/O 和 CPU 消耗巨大的计算操作放进内存运行极大地提高了计算效率。MLlib 是 Spark 框架的一部分,是分布式机器学 习 库。MLlib 和 Spark 中 的 Spark SQL、SparkStreaming、GraphX 等其他 Spark 子框架可以进行无缝的数据共享和相互操作1-2,方便构建机器学习在线训练模型,在森林防火预测研究中的数据挖掘起着至关重要的作用。决策树算法是一种经典的机器学习算法,由决策树算法衍生了数量繁多的成熟系统,这些系统已在语音识别、模式识别、医疗诊断等领域得到了广泛的应用,并且在森林防火预测分类研究中也越来越受到重视。加拿大森

5、林火险气候指数系统(以下简称 FWI 系统)指标体系以大量点火试验、天气资料以及火灾资料为基础,以时滞平衡含水率理论为理论基础,把气象条件、地理位置、日照时数与可燃物含水率有机结合了起来,是全球最常用的火灾天气危险等级指数系统之一。作为全球最常用的火灾天气等级引用格式引用格式:高丰伟,田睿,周浩,等.基于 SparkMLlib 中决策树算法对阿尔及利亚森林火灾的预测研究J.四川林业科技,2023,44(5):2431.GAOFW,TIANR,ZHOUH,etal.ForestfirepredictioninAlgeriabasedondecisiontreealgorithminSparkML

6、libJ.JournalofSichuanForestryScienceandTechnology,2023,44(5):2431.doi:10.12172/202211150002.第44卷第5期四川林业科技Vol.44,No.52023年10月JournalofSichuanForestryScienceandTechnologyOct.,2023四川林业科技四川林业科技编辑部编辑部系统,其应用和研究区域较为广泛,包括在北美、南美、欧洲、非洲、亚洲等主要国家和地区都有对应研究。FWI 系统在 20 世纪 80 年代首次引入我国后,一系列研究表明,FWI 系统适合在云南、黑龙江、内蒙古自治区

7、、吉林、四川、新疆和山西应用3。通过对阿尔及利亚部分地区的火灾发生情况和监测的气象数据,基于 SparkMLlib 使用机器学习算法,对气象数据进行数据挖掘,以实现对森林火灾的预测分类。阿尔及利亚位于非洲北部,也是 FWI系统的覆盖国家之一,其北部地区为地中海气候,冬季温和多雨,夏季炎热干燥,降雨量相对较少。阿尔及利亚是受世界上森林火灾影响较大的国家之一,火灾发生时段主要集中在夏季,特别是在每日的中午到下午 4 时这个区间。根据相关记录显示,除人为因素外,在阿尔及利亚分布较广的阿尔法草等植被被认为是高度易燃的物种,尤其是在湿度几乎为零的旱季,它们促进了火灾的快速蔓延。2008至 2017 年间

8、,超过 320409hm2的森林被烧毁,火灾超过 31513 起。2012 年,阿尔及利亚记录了超过 5110起火灾和烧毁面积达到了 99061hm24-5。基于 SparkMLlib 机器学习框架,对阿尔及利亚北部两地区森林气象监测数据使用决策树模型进行训练并进行火灾分类预测。通过计算气象数据之间相关性以及根据气象因子与 FWI 系统之间的关系,对特征变量进行筛选,从而优化了决策树模型,提高了森林火灾分类预测的准确率。基于此,可为我国的森林火灾预测分类研究提供新的思路。1 材料与方法材料与方法 1.1 数据准备数据准备1.1.1数据来源数据来源使用 UCI 机器学习库中提供的阿尔及利亚森林火

9、灾数据集。数据集包括 11 个特征变量,包括日期、温度、相对湿度(RH)、风速(WS)、降雨量以及 FWI 系统中 6 个火险天气指数。由于2012 年是 2007 年至 2018 年记录的火灾发生率最高的一年,因此使用 2012 年 6 月至 2012 年 9 月监测得到的 4 个气象因子和 6 个 FWI 系统的火险天气指数数据作为实验数据。FWI 系统与每日 14 时的温度、相对湿度、空旷地 10m 高的风速和地方标准时中午测量的 24h 的总降水量这四种气象因子关系密切。系统由 6 个部分组成,前 3 个指标分别代表森林凋落物中不同层的湿度,包括细小可燃物湿度码(FFMC)、粗腐殖质湿

10、度码(DMC)和干旱码(DC)。每天的湿度码通过当天测量的气象数据值以及前一天的湿度码计算得到。森林可燃物的干燥速率对于不同类型是不同的,伴随着每天天气变化,可燃物湿度也发生变化。系统的后 3 个指标是火灾行为码,由 3 个湿度码和风速生成,分别表示森林中的可燃物的蔓延速度、有效可燃物的数量和代表火灾强度的火灾天气指标,即初始蔓延速度(IISI)、累积指数(BUI)和火险天气指数(FWI)6。该数据集包含 244 个实例,包括位于阿尔及利亚东北部的 Bejaia 地区和位于阿尔及利亚西北部的SidiBel-abbes 地区,各 122 个实例。每个实例中又包含了日期、温度、相对湿度(RH)、风

11、速(WS)降雨量以及 FWI 系统中 6 个火险天气指数,总共2684 个原始数据。阿勒颇松(Pinus halepensisMill.)是地中海盆地干旱地区分布最广的针叶树,也是阿尔及利亚北部分布较多的植被,其物种对气候表现出可塑性生长反应,尤其对干旱十分敏感,也是阿尔及利亚北部地区较容易发生火灾的植被类型。根据以上并结合阿尔及利亚环境气候等因素,本次主要选择温度、相对湿度(RH)、风速(WS)、降雨量为气象因子进行数据挖掘及森林火灾分类预测。人为因素同样是对森林火灾发生产生影响的一大因素,但因为本文重点在于研究对已有数据进行数据挖掘以及数据特征之间的相关性分析,人为因素受当地政策及文化等主

12、观因素影响较强,因此本次暂不考虑人为因素对预测的影响。1.1.2数据清洗对于阿尔及利亚森林火灾数据集中的数据清洗过程包括缺失值处理和异常值处理:(1)对于缺失的处理:缺失值处理的常用方法主要有删除记录、不处理和数据插补等,综合本次森林火灾数据集数据样本规模分析,删除记录和不处理显然会对最终分析结果的准确性和客观性产生影响9。因此,本次采用数据插补法对缺失值进行处理。本实验中的数据插补方法选为拉格朗日插值法:已知 n-1 次多项式过 n 个点:y=a0+a1x+a2x2+an1xn1(1)(x1,y1),(x2,y2)(xn,yn)从数据样本中 n 个点代入多项式:高丰伟,等:基于 SparkM

13、Llib 中决策树算法对阿尔及利亚森林火灾的预测研究研究报告25y1=a0+a1x+a2x2+an1xn1y2=a0+a1x+a2x2+an1xn1yn=a0+a1x+a2x2+an1xn1求出拉格朗日多项式为:L(x)=ni=0yinj=0,j,ixxjxixj(2)xL(x)将缺失值对应的 代入公式(2),就能得到缺失值的插补值。(2)对于异常值的处理:在 FWI 系统指数中,出现指数值小于零的情况,视为异常情况,本文将该值视为缺失值。利用现有的 FWI 数据,采用拉格朗日插值法对其填补。1.2 研究方法研究方法1.2.1不同特征参数的相关性分析r在 相 关 性 分 析 中,使 用 皮 尔

14、 森 相 关 系 数(PearsonCorrelationCoefficient)是当前主流的一种分析方法10-11。皮尔森相关系数是一种线性相关系数,描述了两个变量之间线性相关的程度,在 19 世纪 80 年代由卡尔皮尔逊总结前人的方法演变而来12。样本相关系数(样本皮尔逊系数),可通过估算样本中的协方差和标准差得到,常用 代表,其定义的公式如下:r=ni=1(XiX)(YiY)ni=1(XiX)2ni=1(YiY)2XY其中,、表示样本平均值。使用 SparkMLlib 库中的 Statistics.corr()函数对数据集的 11 个属性两两进行相关性分析,得到相关性系数热图,如图 1

15、所示。相关性系数是区间分布在 0.2269-0.994 之间。其中 DMC 指数和 DC 指数的相关性系数为 0.9610,DMC 指数和 BUI 指数的相关性系数为 0.9946,DMC 指数和 FWI 指数相关性系数为 0.9006,DC 指数和 BUI 指数相关性系数为 0.9826,DC 指数和 FWI 指数相关性系数为 0.8675,ISI 指数和 FWI 指 数 相 关 性 系 数 为 0.9382,BUI 指 数 和FWI 指数相关性系数为 0.8992。将以上相关性系数大于 0.8 的两个特征筛选出来。需要说明的是FFMC、DMC、DC、ISI、BUI 和FWI 是根据地方标准

16、时中午测量的 24 小时的总降水量、空气相对湿度、风速和 24 小时降水量计算得出,FWI 系统中的火险指数与温度、湿度等气象因子密切相关。因此在筛选出相关性系数大于 0.8 的特征后,根据 FWI系统中火险天气指数的特点,我们剔除了 BUI、DMC及 FWI 三个特征参数,它们之间有较强的相关性。1.2.2决策树模型决策树(DecisionTree)是机器学习中分类和回归的常用方法。由于易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征相互作用,因此决策树得到了广泛的使用13-15。对于本文使用数据集来说,分类结果是由发生火灾以及不发生火灾两种组成,因此选择

17、二叉决策树。决策树的学习主要包括 3 个步骤:一是特征选择,二是决策树的生成,最后是剪枝。(1)特征选择。为了提高决策树学习的效率,往往选取的训练数据都是具有分类能力的特征。特征选择的准则一般为信息增益(或信息增益比、基尼指数等),衡量信息增益的熵越大,代表着随机变量的不确定性就越大,信息增益的描述可归纳为公式如下:g(D,A)=H(D)H(D|A)TemperaturerhwsRainffmcdmcdcisibui0.66020.22800.24580.48200.33180.34650.74770.65260.21240.57460.54230.34710.04100.26210.6094

18、0.53280.31390.09920.28420.57370.96100.67070.58150.04330.36800.79550.74450.71390.54300.33900.06180.27090.60030.99460.9946Correlation0.02290.98260.74160.61070.48070.02290.29630.68120.90060.86750.93820.8992rhwsRainffmcdmcdcisifwibui图 1 不同特征参数相关性分析Fig.1 Correlationanalysisofdifferentcharacteristicparame

19、ters四川林业科技2023年第 44卷第 5期26g(D,A)ADH(D)H(D|A)DAD为特征 对训练数据集的信息增益,与分别为集合的经验熵和特征 给定条件下的经验条件熵之差。(a)真实火灾发生情况真实火灾发生情况(b)预测火灾发生情况预测火灾发生情况信息增益比的描述可归纳为公式如下:gR(D,A)=g(D,A)HA(D)gR(D,A)ADHA(D)DAD为特征 对训练数据集的信息增益比,分别为集合的经验熵和特征 给定条件下的经验条件熵之比。H(D)=ni=1|Di|D|log2|Di|DnA其中,是特征 取值的个数。KKpk基尼指数可描述为:在分类问题中,假设有个类,样本点属于第类的概

20、率为,如下公式:Gini(p)=Kk=1pk(1 pk)=1Kk=1p2kK=2在本实验中特征选择标准为基尼指数,由于只存在两类,因此。(2)决策树的生成。主要流程为:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息最大的特征作为几点特征,由该特征的不同取值建立子节点,再对子节点递归地调用以上方法,构建决策树。直至所有特征信息增益均很小或无特征可选时终止。(3)决策树的剪枝。对决策树进行剪枝,以防止对未知测试数据的分类出现过拟合的现象。剪枝往往由极小化决策树整体的损失函数进行实现。损失函数定义为:Ca(T)=C(T)+a|T|TC(T)|T|Ca(T)aTa为任意子树,为对训练数据的

21、预测误差,在训练,为子树的叶子节点个数,为参数是时的子树 的整体损失,参数 权衡训练数据的拟合程度与模型的复杂度。1.2.3建立训练模型基于 SparkMLlib 的决策树分类模型首先对原始火山数据集进行数据清洗,对原始数据集中的缺失值及异常值进行数据处理,处理方法主要为拉格朗日插值和填补。使用 caseclass 类定义一个森林数据类 forest,读取火灾数据集并创建一个 forest 模式的RDD 并 转 换 为 DataFrame。创 建 决 策 树 模 型DecisionTreeClassifier,通过 setter 的方法来设置决策树的参数,下面简要介绍一下 DecisionTr

22、eeClassifier模型对象中部分常用的参数含义。(1)featurescol:用来设置特征列名的参数,默认值为“features”。(2)impurity:用来设置信息增益标准的参数,支持信息增益“entropy”和基尼指数“gini”,默认值为“gini”。(3)labelcol:用来设置标签列名的参数,默认值为“label”。(4)maxdepth:设置树的最大深度,默认值为5。例如,将 maxdepth 值设置为 0,表示只有一个叶子节点;将 maxdepth 值设置为 1,表示有一个根节点和两个叶子节点。(5)predictioncol:用来设置预测列名的参数,默认值为“pred

23、iction”。(6)rawpredictioncol:用来设置原始预测值(置信度)的列名参数。本次实验需要设置特征列(featurescol)和待预测列(labelcol),同时设置信息增益标准为 Gini。构建机器学习流水线,使用训练集调用 fit 方法对模型进行训练,得到训练模型后使用测试集调用transform 方法对其进行预测。结合原始数据分类情况分析预测结果,并得到错误率。SparkMLlib 的决策树分类模型流程图如图 2 所示。2 结果与分析结果与分析 2.1 使用决策树模型对森林火灾预测结果使用决策树模型对森林火灾预测结果将数据集随机分成训练集和测试集,其中训练开始处理原始火

24、灾数据集读取火灾数据集处理特征标签70%训练集训练模型测试模型结束创建决策树模型测试集得到训练模型分析结果评估模型30%图 2 构建决策树模型流程Fig.2 Processofconstructingdecisiontreemodel高丰伟,等:基于 SparkMLlib 中决策树算法对阿尔及利亚森林火灾的预测研究研究报告27集占 70%,测试集占 30%,使用训练集对模型进行训练,得到决策树模型。使用测试集对模型进行测试,结果如图 3 所示。左侧甘特图显示了 6 月9 月之间阿尔及利亚火灾发生天数情况,右侧甘特图为预测 6 月9 月之间的火灾发生天数。总体上看,预测结果基本一致,个别天数出现

25、了预测错误。如6 月的第 21 天和 7 月的第 13 天都与真实数据的分类情况产生了差异。调用函数 Evaluator(),计算测试数据预测准确率,并通过程序控制台打印输出,预测准确率为 94.94%(精确小数点后两位)。其中测试样本数量为 40,预测分类正确数量为 38,有 2 天的预测分类结果与实际出现了不相符的情况。为了提高预测准确率,对数据集中不同特征参数的进行研究分析,去除相关性较高的特征参数,优化模型后,再进行预测。2.2 优化模型后森林火灾预测结果比较优化模型后森林火灾预测结果比较在原有模型的基础上,对处理数据集阶段做出优化。即对样本数据中相关性高的特征进行剔除。通过 1.2.

26、1 节分析,本试验将累积指数(BUI)指数、FWI 系统中的 Duff 湿度代码(DMC)指数及火灾天气指数(FWI)指数三个特征参数进行剔除。使用训练集对模型进行训练,得到决策树模型。使用测试集对模型进行测试,结果如图 4 所示。左侧甘特图显示了 6 月9 月之间阿尔及利亚火灾发生天数情况,右侧甘特图为预测 6 月9 月之间的火灾发生天数。总体上看,预测结果基本一致,也出现极个别的预测错误。例如 7 月的第 7 天与真2 4 6 8 10 12 14 16 18 20 22 24Day(a)真实火灾发生情况Month109876526 28Fire30Month10ClassClass987

27、65Not fire2 4 6 8 10 12 14 16 18 20 22 24Day(b)预测火灾发生情况Month109876526 28Fire30Month10Prediction OpPrediction Op98765Not fire图 3 原始数据分类与预测分类情况对比Fig.3 Comparisonbetweenoriginaldataclassificationandforecastclassification2 4 6 8 10 12 14 16 18 20 22 24Day(a)真实火灾发生情况Month109876526 28Fire30Month10ClassCla

28、ss98765Not fire2 4 6 8 10 12 14 16 18 20 22 24Day(b)改进后预测火灾发生情况Month109876526 28Fire30Month10PredictionPrediction98765Not fire图 4 改进后预测分类与真实分类情况对比Fig.4 Comparisonbetweenimprovedpredictionclassificationandrealclassification四川林业科技2023年第 44卷第 5期28实数据的分类情况产生了差异。同样调用函数Evaluator(),计算测试数据预测准确率,并通过程序控制台打印输出

29、,预测准确率为 97.17%(精确小数点后两位)。其中测试样本数量为 34,正确预测分类数量为 33,出现了 1 天的预测结果与实际不符的情况。相比较剔除相关性高的特征数据前的预测,准确率提高了约 3%。模型改进前后预测情况对比见表 1。表1改进前后预测准确率对比Tab.1 Comparisonofpredictionaccuracybeforeandafterimprovement模型Model误差天数Errorday准确率Accuracyrate改进前Beforeimprovement294.94%改进后Afterimprovement197.17%通过以上结果可以得出,利用 SparkM

30、Llib 计算特征参数相关性并过滤,对决策树分类预测模型起到了优化的作用。因此在使用 SparkMLlib 计算框架时,将多种数据挖掘算法进行组合,从而对森林火灾预测的准确性进行了提升。3 讨讨 论论本文选取阿尔及利亚森林火灾数据作为分析对象,经过数据清洗将数据处理成适合本文研究模型需要的数据。利用 Spark 大数据框架,结合原有数据集和森林火灾分类情况,提出基于 Spark 的决策树预测分类模型,并对森林火灾数据样本中的特征参数进行相关性分析,通过对比不同特征参数的相关性系数,以及考虑 FWI 系统中火险天气指数与气象因子之间的密切关系,剔除了相关性较高的一些特征参数,从而优化模型。模型优

31、化前预测准确率达到94.94%,优化后,模型预测准确率达到 97.17%,提高了近 3%。本文创新点在于利用大数据运算框架 SparkMLlib 对阿尔及利亚森林火灾数据进行数据挖掘以及分类预测。将大数据技术与森林火灾预测相结合,为森林火灾预测方向提供一个新的思路。本次实验也存在一些局限性,例如影响森林火灾发生的因素除温湿度等气象因素外,人为因素也是一重要影响因素。不同地区的人文文化差异、生产经营活动,都会对森林火灾的发生产生影响,需要具体问题具体分析。此外,季节也是影响森林火灾又一大因素,夏季森林火灾的发生次数明显高于冬季。在接下来的研究中,需要进一步研究分析特征参数相关性方法,进行降维,例

32、如主成分分析(PCA)等,并考虑融合多种数据挖掘算法,将季节性因素的影响也融入研究,使预测结果更准确更全面。参考文献1付仲明.ApacheSpark 分布式并行计算框架优化技术研究D.长沙:湖南大学,2020.FUZM.ResearchonoptimizationtechnologyofAPACHESPARKdistributedparallelcomputingframeworkD.Changsha:Hunanuniversity,2020.DOI:10.27135/ki.ghudu.2020.002335.2夏正龙,姚蓉,朱亮,等.基于 Spark 的探空逆温识别算法实现J.湖北农业科学,

33、2021,60(S1):335339.XIAZL,YAOR,ZHUL,etal.RealizationofinversiontemperatureidentificationalgorithmbasedonSparkJ.Hubeiagriculturalscience.Hubeiagriculturalscience.,2021,60(S1):335339.3杨美清,姚启超,方克艳,等.加拿大森林火险天气指数系统在全球及中国的应用J.亚热带资源与环境学报,2021,16(1):4854.YANGMQ,YAOQC,FANGKY,etal.ApplicationsofCanadianForestF

34、ireWeatherIndexSystemintheWorldandChinaJ.JournalofSub-tropicalResourcesandEnvironment,2021,16(1):4854.4NadiaBouguenaya,MohamedBenyahiaandMohamedAliBouzidi.SynopsisofFiresForestintheProvinceofSidiBelAbbes:AnalysisandCartographyJ.JournalofAgriculturalScienceandTechnologyB3(2013)745-750.5H.Mouissa,R.A.

35、Fournier.MappingstandvolumesofPinushalepensisMillinasemi-aridregionusingsatelliteimageryoftheSnalbaCherguiforestinnorth-centralAlgeriaJ.JournalofAridEnvironments92(2013)63e75.6信晓颖,江洪,周国模,余树全,王永和.加拿大森林火险气候指数系统(FWI)的原理及应用J.浙江农林大学学报,2011,28(02):314318.XINXY,JIANGH,ZHOUGM,etal.Canadianforestfireweatheri

36、ndex(FWI)system:areviewJ.JournalofZhejiangA&FUniversity,2011,28(02):314318.7Gordon B.Bonan.Forests and Climate Change:Forcings,Feedbacks,and the Climate Benefits of ForestsJ.SCIENCE,320(,5882,):14441449.8MikeFlannigan,AlanS.Cantin,WilliamJ.deGroot,etal.Globalwildlandfireseasonseverityinthe21stcentur

37、yJ.ForestEcologyandManagement,294(2013)5461.高丰伟,等:基于 SparkMLlib 中决策树算法对阿尔及利亚森林火灾的预测研究研究报告299韩戈白,陈迪,王博,等.基于 ARIMA 和误差修正的航材消耗预测模型J.电子质量,2019(02):2430.HANGB,CHEND,WANGB,etal.AircraftMaterialConsumptionPredictionModelBasedonARIMAandErrorCorrectionJ.Electronicmass,2019(02):2430.10李文栋.基于 Spark 的大数据挖掘技术的研究

38、与实现D.济南:山东大学,2015.LIWD.ResearchandimplementationofSpark-basedbigdataminingtechnologyD.Jinan:Shandonguniversity,2015.11师栋瑜.基于 Spark 框架的并行林业文本分类算法的研究与实现D.北京:北京林业大学,2019.SHIDY.ResearchandimplementationofparallelforestrytextclassificationalgorithmbasedonSparkFrameworkD,Beijing:BeijingForestryUniversity,

39、2019.12QuinlanJR.Inductionofdecisiontrees.MachineLearning,1986:1-356.13Faroudja Abid,Nouma Izeboudjen.Predicting Forest Fire in Algeria Using Data Mining Techniques:Case Study of the DecisionTreeAlgorithmJ.SpringerNatureSwitzerlandAG,2020,M.Ezziyyani(Ed.):363370,2020.14季桂树,陈沛玲,宋航.决策树分类算法研究综述J.科技广场,2

40、007(01):912.JIGS,CHENGPL,SONGH.AsurveyofdecisiontreeclassificationalgorithmsJ.TechnologyPlaza,2007(01):912.15王会青,陈俊杰,侯晓晶,等.决策树分类的属性选择方法的研究J.太原理工大学学报,2011,42(04):346,348+352348+352.WANGHQ,CHENJY,HOUXJ,etal.ResearchonanAttributeSectionMethodforDecisionTreeJ.JournalofTaiyuanuniversityoftechnology,2011,

41、42(04):346,348+352348+352.16王青文.面向公交车时序数据的异常检测算法研究D.哈尔滨:哈尔滨工程大学,2021.DOI:10.27060/ki.ghbcu.2021.001523.WANGWQ.ResearchonanomalydetectionalgorithmforbustimeseriesdataD.Haerbing:HarbinEngineeringUniversity,2021.17陈佳,欧阳金源,冯安琪,等.边缘计算构架下基于孤立森林算法的 Dos 异常检测J.计算机科学,2020,47(02):287293.CHENJ,OUYANGJY,FENGAQ,e

42、tal.DOSanomalydetectionbasedonisolatedforestalgorithminedgecomputingarchitectureJ.ComputerScience,2020,47(02):287293.18文斌,谢献强,孙萌,等.基于加权 Logistic 回归模型的森林火灾预测J.林业与环境科学,2019,35(04):7983.WENB,XIEXQ,SUNM,etal.ForestfirepredictionbasedonweightedLogisticregressionmodelJ.Forestryandenvironmentalscience.,201

43、9,35(04):7983.19ROBERTC.HOLTE.VerySimpleClassificationRulesPerformWellonMostCommonlyUsedDatasetsJ.MachineLearning,1993,11:6391.20EvanR.Sparks,AmeetTalwalkar,VirginiaSmith,etal.MLI:AnAPIforDistributedMachineLearning.J.CoRR,2013,abs/1310.5426.四川林业科技2023年第 44卷第 5期30Summary for“基于 Spark MLlib 中决策树算法对阿尔及

44、利亚森林火灾的预测研究”Forest Fire Prediction in Algeria Based on Decision TreeAlgorithm in Spark MLlibGAOFengwei,TIANRui,ZHOUHao,HUJie*CollegeofInformationScienceAndTechnologyNanjingForestryUniversity,Nanjing210037,China*Correspondingauthor,AbstractBasedontheAlgerianforestfiredata,throughthedecisiontreealgori

45、thminSparkMLlib,thecharacteristicparameterswithhighcorrelationwasputforwardtoimprovetheperformanceofthemodelandpredictforestfires.Forthecharacteristicparameters,suchastemperature,windspeed,rainandthemainindicatorsintheCanadianforestfireweatherindex(FWI)system,incombinationwiththeclassificationoffore

46、stfires,adecisiontreebasedfirepredictionmodelwasbuiltusingtheinformationgaincriterionforGinisbinarydecisiontree,andthesampledatawasclassifiedandpredicted.Thecorrelationbetweendifferentfeatureparametersisanalyzed,andthefeatureparameterswithhighcorrelationareeliminated.Themachinelearningworkflowwasest

47、ablishedbyusingthebigdatacomputingframeworkSpark,andthePearsoncoefficientforcalculatingthecorrelationwascombinedwiththedecisiontreeclassificationalgorithm,soastooptimizethemodelandimprovethepredictionclassificationaccuracy.Beforetheimprovementofthepredictionmodel,thetotalaccuracyofforestfirepredicti

48、onclassificationwithoutcorrelationanalysiswas94.94%.Aftertheimprovementofthepredictionmodel,thecorrelationanalysiswascarriedout,andthecharacteristicparameterdatawithhighcorrelationwaseliminated.Thetotalaccuracyofforestfirepredictionclassificationwas97.17%,andtheaccuracyratewasimprovedbynearly3%.Them

49、achinelearningalgorithminSparkMLlibhadahighaccuracyinforest fire prediction and classification,especially after combining various data mining algorithms,the modelperformancewasimprovedandthepredictionandclassificationaccuracywashigher.Key wordsForestfire;SparkMLlib;Decisiontree;Correlationanalysis;FWIsystemdoi:10.12172/202211150002高丰伟,等:基于 SparkMLlib 中决策树算法对阿尔及利亚森林火灾的预测研究研究报告31

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服