收藏 分销(赏)

第七章-机器学习、大数据技术和图像处理技术在农业中的应用.pptx

上传人:w****g 文档编号:9319434 上传时间:2025-03-21 格式:PPTX 页数:112 大小:1.38MB
下载 相关 举报
第七章-机器学习、大数据技术和图像处理技术在农业中的应用.pptx_第1页
第1页 / 共112页
第七章-机器学习、大数据技术和图像处理技术在农业中的应用.pptx_第2页
第2页 / 共112页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,编辑母版文本样式,第二级,第三级,第四级,第五级,2018/11/23,#,机器学习与大数据技术,作者:牟少敏教授,第七章,随机森林在棉蚜等级预测中的应用,基于邻域核函数的局部支持向量机在树木图像分类中的应用,局部支持向量回归在小麦蚜虫预测中的应用,机器学习、大数据技术和图像处理技术在农业中的应用,基于,Spark,的支持向量机在小麦病害图像识别中的应用,Hadoop,平台下基于粒子群的局部支持向量,机,深度学习在小麦蚜虫短期预测中的应用,创新与贡献,研究意义,选题背景,第七章,7.1,简介,机器学习、大数据以及图像处理技术,的迅速发展,为其在农业中的应用提供了强有力的支撑。如:,为了提高,农业生产效率,,2017,年,9,月美国的卡耐基梅隆大学机器人科学家提出了,FarmView,计划,就是设计和实现集人工智能、物联网技术、计算机视觉和大数据技术于一体的农业智能机器人。,传统的病虫害预测预报方法有统计法、实验法和观察法。本章主要结合我们的科研工作,介绍机器学习、大数据技术和图像处理技术在农业病虫害预测预报等方面的应用。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,棉花是我国的重要经济作物,在山东省滨州地区种植比较广泛。棉蚜是造成棉花减产的主要害虫之一,由于棉蚜虫害的特点是发生时间,长,、,繁殖,速度,快,、,危害严重,、,难,防治,因此制约了滨州地区棉花的高产和优产。影响棉蚜发生的条件中气象条件和天敌数量均会对棉蚜的发生产生直接影响。本节主要介绍随机森林在棉蚜等级预测中的应用。,随机森林算法(,Random Forest,,,RF,),由加利福尼亚大学的,Leo Breiman,提出的一种由多棵决策树构成的集成分类算法。,7.2.1,随机森林原理,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,Bagging,算法是,1996,年由,Breiman,首次提出。,Bagging,算法在训练过,程中抽取部分数据样本进行训练,从,而提高了随机森林的训练速度,在规,模大的数据集里体现明显。抽样时采,取有放回的抽样方法,这样使得一些,出现概率低的样本被选取的概率也会降低,减少了样本中噪点的影响。,Bagging,算法的分类过程:分类的过程类似于简单多数投票法,是从基分类器集合中各分类器的分类结果中选取分类器投票数最多的分类结果的过程。具体的过称为:首先各分类器对数据集的测试样本进行分类,并把每个分类器的分类结果记录下来,然后对分类器的选取结果进行统计,得票数最多的分类结果就是最终模型的分类结果。,Bagging,算法的原理如图,7-1,所示。,图,7-1 Bagging,算法原理图,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,随机子空间算法随机抽取特征集的部分进行训练,提高了高维数据集的训练过程。该算法的工作原理如下:,(,1,)采用无放回的抽样方法在特征集中随机抽取一部分特征形成特征子集。,(,2,)对特征子集的数据进行训练,形成基分类器。,(,3,)重复上述步骤,1,和步骤,2,,直到生成,n,个分类器。,(,4,)把生成的每个分类器对需要分类的测试样本进行分类,并且对分类器分类的结果进行统计,最终分类器投票数最多的分类结果就是最终的分类结果。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,随机森林算法以决策树为基分类树,引入了上述两个随机化的过程,结合了,Bagging,算法和随机子空间算法的优点,从而使得每棵分类树具有不同的分类能力。采用,Bagging,算法的有放回抽样对训练集进行抽样,并结合随机子空间的算法,使得训练集中只抽取部分特征进行训练。当输入待分类样本时,随机森林输出的结果由每棵决策树的分类结果投票决定。,随机森林是一个树型分类器,的集合,。,作为算法中的元分类器是由,CART,算法组成但没有剪枝的分类回归树,。,作为独立分布的随机向量,决定了每棵决策树的生长;参数,X,作为分类器的输入向量。,7.2.2,随机森林构建,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,随机森林的算法,构建的步骤如下。(,1,)首先假设数据集的样本总数为,N,,,N,为每棵决策树采样的样本数。在,N,个样本中有放回的随机性选择,n,(,nN,)个样本,用选取的,n,个样本训练一棵决策树。,(,2,)假定每个样本有,M,个属性,在每棵决策树的节点需要分裂时,从,M,个属性中随机选择,m,(,mM,)个属性,然后从已选择的,m,个属性中依据,Gini,指标选择最佳属性作为当前节点的分裂属性。,(,3,)每棵决策树的节点分裂过程是遵循步骤(,2,)进行的,从而使得决策树中的每个节点不纯度达到最小值,直到不能分裂,此过程不对树进行剪枝。,(,4,)根据生成的多个树分类器对新的测试数据,进行测试,分类结果按每个树分类器的投票而决定,即分类公式为,(,7-1,),创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,公式(,7-1,)中用,majority vote,表示多数投票,,Ntree,表示随机森林树的个数。随机森林的随机性体现在样本的随机选择和属性的随机选择,有了这两个因素,即使每棵树没有进行剪枝也不会出现过拟合。,随机森林模型构建中需要设置,n,和,m,两个参数。,Breiman,指出,在模型训练过程中,随机从特征集中抽取特征的个数,m,对于随机森林的分类性能有较大影响,因此,m,的选择是模型训练过程当中比较重要的环节。在随机森林的实际应用中,随机森林树的数量,n,一般取值比较大,,m,取值为,或 。,7.2.3,袋外数据,OOB,和,OOB,估计,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,在随机森林模型训练过程中每次进行抽样生成自助样本集,全样本集中有一部分的样本数据不会出现在自助样本集中,没有选取的样本个数比例是初始训练样本集的,(,其中,N,是初始训练样本集中的样本个数)。当,N,足够大时,,收敛于,1/e,0.368,。公式结果表明约有,37%,的样本不会选中,我们称这,37%,的样本数据为袋外数据(,Out Of Bag,,,OOB,)。袋外数据可以用来预测,Bagging,算法生成的基分类器的分类能力,用袋外数据准确率作为分类器的预测指标。袋外数据准确率对基分类器提供的分类结果准确率的预判有重要的参考作用。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,使用袋外数据对随机森林泛化误差进行估计,也称为,OOB,估计。进行,OOB,估计时每棵生成的决策树计算出了,OOB,误差率,并且需要耗费很少的资源就可以得到随机森林的泛化误差估计。交叉验证也能用来进行估计泛化误差,在进行交叉验证法估计时,由于数据的划分和合并处理导致算法运行过程中进行大量的计算,这样就使得算法的时间复杂度和空间复杂度过高,导致随机森林算法的运行效率变低。和交叉验证相比,,OOB,估计的效率是很高的。,Wolpert,等人建议,,OOB,估计一般作为随机森林泛化误差估计。,7.2.4,实验结果与分析,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,本实验将随机森林用于数据分类预测中,几乎不需要输入准备,模型训练速度快,样本选择具有随机性,而且随机森林不易产生过拟合,从而有着更好的效率和准确率。,1,数据预处理,数据的预处理是数据进行分类的前提,有时数据影响因子的冗杂和数据本身的不平衡性会影响最终结果预测的准确性,所以进行实验之前对数据进行预处理,可以提高数据集分类的速度和精确度。,不平衡性是指数据中的被解释变量分布不均衡,如果数据集的被解释变量在类别的分布上差别较大,可以认为该数据集是不平衡的。对不平衡数据的进行分类时,机器学习算法可能产生不稳定,导致预测结果可能是有偏差的,而且预测的精度可能变得具有误导性。机器学习算法在不平衡数据集上精度下降的主要原因有以下两点:,算法模型的目标是最小化总体的误差,小类对于总体误差的贡献是很低的。,算法模型本身假设数据集是分布平衡的,假定不同类别的误差带来相同的损失。,从表,7-1,到表,7-3,可以看出,总数据集、训练集合测试集是不平衡的。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,类别,记录数,数据所占比,1,198,0.798,2,50,0.202,类别,记录数,数据所占比,1,155,0.799,2,39,0.201,类别,记录数,数据所占比,1,43,0.800,2,11,0.200,表,7-1,总体数据集的不平衡性结果,表,7-2,训练集不平衡性结果,表,7-3,测试集不平衡性结果,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,由表,7-1,看出全部实验数据的类别比例约为,4:1,,由表,7-2,和表,7-3,看出测试集和训练集的数据类别比例也是,4:1,,数据中类别是,2,的数据量偏少,这会导致模型训练时没法从样本量少的类别中获取足够的信息来进行精确预测。因此本实验进行前选择了对数据进行平衡性修补。本实验选择的是过采样和欠采样相结合的方式对数据进行不平衡性修正。通过表,7-1,、表,7-2,和表,7-3,看出训练集和测试集类别的比例和总体数据集的比例是一样的,所以我们只对总体实验数据集中的类别是,2,的数据进行了补充,补充之后的数据平衡性结果如表,7-4,所示。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,类别,记录数,数据所占比,1,100,0.493,2,103,0.507,表,7-4,修正之后的数据平衡性结果,补充之后的数据类别比例约为,1:1,,属于平衡数据集,这样模型建立时不会因为没有获取到足够的信息导致预测精度的下降,因此补充后的数据集可以用来构建模型。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,2,棉蚜发生的影响因子及筛选,(1),棉蚜发生的影响因子,棉蚜虫害的发生受多种因素的影响,主要包括以下几种影响因素:,1,)温度对棉蚜发生的影响,温度的适宜是导致棉蚜数量急剧增长的主导因素,棉蚜生长发育的适宜温度是,24,28,,平均气温高于,29,对棉蚜有抑制作用。,2,)湿度和降水对棉蚜的影响,降水是抑制棉蚜种群数量增长的重要因素。降水不仅对棉蚜有冲刷作用,另一方面能增加田间湿度,导致蚜茧蜂寄生蚜量会增多,抑制蚜的增长,。,3,)天敌对棉蚜发生的影响,天敌也是造成棉蚜种群数量减少的主要因素,棉蚜的天敌包括:瓢虫、蜘蛛、食蚜蝇、草蛉、蚜茧蜂等,棉蚜的主要天敌是瓢虫,对棉蚜的数量增长起抑制作用,与棉蚜的增长相关性比较大。,4,)施氮量对于棉蚜的影响,Cisneros,等研究表明,棉蚜的发生与施氮量呈正相关,即氮肥水平高的农田,蚜虫发生趋于严重。但也有研究表明,蚜虫的发生与施氮肥水平二者呈不相关或负相关。,5,)二氧化碳浓度对于棉蚜发生的影响,大气,CO,2,浓度对于棉蚜的生长发育和繁殖都有影响,,CO,2,浓度升高显著影响棉蚜的相对生长率。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,(2),影响因子的筛选,由于各种因素的限制,前期采集到的数据中只包括了气象数据和棉蚜天敌数据。在滨州市采集的气象数据中包括了,15,个影响因子数据:,20-20,时降水量(,X1,),极大风速(,X2,),平均本站气压(,X3,),平均风速(,X4,),平均气温(,X5,),平均水汽压(,X6,),平均相对湿度(,X7,),日照时数(,X8,),日最低本站气压(,X9,),日最低气温(,X10,),日最高本站气压(,X11,),日最高气温(,X12,),最大风速(,X13,),最小相对湿度(,X14,),天敌数据(,X15,)。为了减少因子中变量的冗余性,提高变量的独立性,所以需要对这,15,个影响因子数据进行皮尔逊相关性分析,计算影响因子和棉蚜等级之间的相关系数。用,R,软件计算得到的相关系数如表,7-5,所示。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,X,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13,X14,X15,相关系数,0.05,0.12,-0.22,-0.019,0.30,0.34,0.13,-0.09,-0.19,0.30,-0.22,0.23,-0.0019,0.19,0.19,表,7-5,相关系数,X,X1,X2,X3,X5,X6,X7,X9,X10,X11,X12,X14,X15,相关系数,0.05,0.12,-0.22,0.30,0.34,0.13,-0.19,0.30,-0.22,0.23,0.19,0.19,表,7-6,筛选后相关系数,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,从表,7-5,的相关系数得出,影响因子中的,20-20,时的降水量、日照时数、平均风速、最大风速这,4,个气象因子的相关系数偏小,说明这四个气象因子对于等级的分类预测影响较小。另外因为棉蚜的增长受相对湿度影响较大,降雨量的多少会影响相对湿度的大小,所以对,20-20,时降水量因子进行了保留。目前在棉蚜发生程度预测的论文中只考虑了气象因子的影响,从表,7-5,中看到,X15,的相关系数是比较大的,说明天敌和棉蚜的发生相关性比较大,所以影响因子数据中最终保留了前期加的棉蚜天敌数据。筛选后的相关系数表如表,7-6,,表中的一条记录表示,5,到,9,月份采集到的一天的数据。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,3,评价指标,虫害发生统计方法,我国对于虫害发生预测预报的方法可以分为以下几种类型。,虫害发生量预测:,可以提前预测虫害的发生量或者虫害的密度,通过预测得到的发生量大小给农作物提供防治的方法。,虫害发生期预测:,在虫害常见的发生期中主要分为始见期、始省期、高峰期、省末期和终见期。我们可以通过预测虫害的发生时期确定虫害的防治方法,以便确定防治时期适当。,虫害发生程度预测:,虫害发生的分级标准主要分为轻发生、偏轻发生、中等发生、偏重发生、大发生、特大发生,6,个等级。通过预测虫害的发生等级及时明确农作物受虫害危害情况,以便制定防止策略。,虫害分布预测:,预测虫害发生的面积和区域范围,主要是针对一些迁飞性害虫的扩散方向和范围进行预测预报。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,主要是从虫害的发生程度进行的预测分析,具体应用在棉蚜虫害发生程度预测当中。按照,2010,中国农业出版社出版的主要农作物病虫害测报技术规范应用手册对棉蚜的发生程度分级标准进行划分等级。棉蚜发生程度分级标准如表,7-7,所示。,级别,1,2,3,4,5,轻发生,偏轻发生,中等发生,偏重发生,大发生,百株蚜量(头),50000,表,7-7,棉蚜发生程度分级标准,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,(2),预测评判标准,为了对模型的泛化能力和预测能力进行评判,采用,OOB,估计和模型的预测准确率作为模型的预测评判标准。使用袋外数据对随机森林泛化误差进行估计,进行,OOB,估计时每棵生成的决策树计算出了,OOB,误差率,,OOB,误差率在利用训练集进行模型训练时自动计算数值,,OOB,误差率的大小体现模型泛化能力的好坏。模型预测准确率体现模型预测性能的优劣。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,4,实验结果与分析,(1),基于随机森林的棉蚜等级预测本实验的编程语言是,R,语言,在,RStudio,环境下运行,加载,RandonForest,包,将数据导入进行实验。,随机森林算法的优点是在运算量没有显著提高的前提下提高了分类预测精度,并且对于多元共线性不敏感,对缺失数据的分类预测表现比较稳健,而且模型训练速度快,样本选择具有随机性不易产生过拟合。本实验将随机森林算法用于棉蚜虫害等级的短期预测中,提高了棉蚜预测的效率和准确率,及时的为农业生产者提供准确的预警信息,提前采取防治措施,从而降低棉蚜对棉花的危害。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,基于随机森林的棉蚜短期预测模型如下:,有放回的进行随机抽样。随机森林对训练集中的样本有放回的随机选择,选择的样本数小于训练集总的样本数。,设置模型参数。随机森林预测模型中树的个数,n,取,100,,,n,的数量选取依据如图,2,所示,通过计算得出节点,m,为,4,。,模型训练。通过训练集中选取的样本对模型进行训练,得到模型的,OOB,和模型内分类的误差率。,预测。使用构建的随机森林预测模型对测试集进行分类预测,结合表,7-7,得到棉蚜的发生程度。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,随机森林预测模型的构建流程图如下图,7-2,所示。,图,7-2,随机森林预测,模型,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,(2),实验结果分析,实验采用的数据是滨州市植保站。,表,7-8,训练集分类结果,类别,1,2,分类误差率,1,143,15,9.5%,2,3,155,1.9%,从表,7-8,可以看出,实验分类结果中等级,1,的分类错误率为,9.5%,,等级,2,的分类错误率为,1.9%,,表明模型分类结果中每一类的分类错误率都比较小,棉蚜虫害等级判别的准确率比较高。测试样本的分类准确率为,82.2%,,测试集实验分类结果如表,7-9,所示。随机森林模型内含有判别函数,输入采集到的样本数据可以判别棉蚜的等级,部分样本数据的棉蚜等级预测结果如表,7-10,所示,,Y1,代表的是随机森林模型预测的等级结果,,Y2,代表的是棉蚜实际等级。结合表,7-10,可以得到棉蚜的发生程度,从而提前对棉区采取相应的防治措施,减少棉蚜给棉花带来的危害。,创新与贡献,研究意义,选题背景,第七章,7.2,随机森林在棉蚜等级预测中的应用,类别,1,2,1,36,4,2,4,1,表,7-9,测试集分类结果,序号,X1,X2,X3,X5,X6,X7,X9,X10,X11,X12,X14,X15,Y1,Y2,1,0,32766,10077,227,162,58,10058,171,10091,273,46,0,1,1,2,32700,71,10083,226,228,84,10074,192,10092,270,58,10,2,2,3,0,96,10025,307,345,79,10010,262,10038,344,55,12,2,2,4,7,100,10053,191,133,63,10020,158,10074,251,28,5,1,1,5,32700,63,10023,290,234,61,10011,243,10034,339,32,37,2,2,6,0,32766,10015,302,357,84,9992,242,10040,352,61,7,2,1,7,0,32766,10079,227,249,91,10065,197,10086,275,70,12,1,1,表,7-10,棉蚜预测等级,实验将随机森林算法用于棉蚜等级的短期预测中,实验结果表明模型泛化性好,误分类率低。随机森林为棉蚜虫害等级预测提供了一种新的方法。,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,支持向量机在解决小样本、高维模式分类等问题时,具有全局优化、泛化能力强的特点。但其不能够有效地利用样本局部信息且在处理非凸数据集时存在不足。针对此问题,,Brailovsky,等人于,2006,年首次提出了局部支持向量机算法。,Zhang,等人将,KNN(K Nearest Neighbor),算法与支持向量机进行结合,提出一种新的局部支持向量机,称为,SVM-KNN,。局部支持向量机与支持向量机相比具有较高的分类精度,已被广泛的用于生物信息和网络流量预测等领域,。,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,支持向量机与局部支持向量机都是将分类样本通过核函数映射到高维空间,H,中,使之具有线性可分性。核函数的实质是一种映射关系,将样本数据从输入空间,映射到高维空间,H,中。核函数的定义如下。,设,,,为定义在,上的函数,若存在从,到高维空间,H,的映射,(,7-2,),使得,,则称,为一个核函数。,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,名称,表达式,说明,Gauss,径向基核,Gauss,径向基核是最为常用的核函数,多项式核,其中,多层感知核,为标量,为偏离参数,傅里叶核,且q是 的常数,为常数,B-,样条核,是 阶B-样条核函数,表,7-11,常用核函数,对于局部支持向量机,目前缺乏一种能够有效处理图像纹理信息的核函数。将,Victor L.Brailovsky,等人提出的邻域核函数应用于局部支持向量机中,使其能够有效的处理图像数据,以弥补局部支持向量机在图像分类上的不足。,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,7.3.1,邻域核函数,邻域核函数能反映图像像素点邻域信息变化的差异,对图像的分类具有重要意义。假设有两幅大小为,M,(,M=NN,)像素点的图像,分别存储于两个矩阵中。将图像中某个像素点编号为,t,,并对每幅图像的相邻像素点进行编号,如图,7-3,所示。,t:-11,t:-7,t:-6,t:+8,t:+12,t:-9,t:-3,t:-2,t:+4,t:+10,t:-5,t:-1,t,t:+1,t:+5,t:-10,t:-4,t:+2,t:+3,t:+9,t:-12,t:-8,t:+6,t:+7,t:+11,图,7-3,对像素点进行编号,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,根据图像像素点的编号,定义图像的二级,(d=2),邻域核函数,K(x,,,y),,如公式,(7-3)-,(,7-4),所示,。,(7-3),(7-4),二级邻域核函数使用像素点,t,的四邻域像素的变化信息。其中,,S,的取值为,2,,,M,为图像像素点的总个数,,x,和,y,分别为两幅图像中对应的像素点。可以看出,二级邻域核的实质是将两幅图像中,t,像素点及其邻域点求积的累加和。通过,K(x,,,y),值的大小反映两幅图像邻域信息变化的差异。对于像素点取值为,1,的二值化图像来说,两幅图像邻域信息变化差距越大,则,K(x,,,y),的值越小。反之,,K(x,,,y),的值越大。,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,根据二级邻域核函数,可以定义三级,(d=3),邻域核函数,如公式,(7-5)-(7-6),所示,。,(7-5),三级邻域核函数中,S,的取值为,4,。,n,级邻域核函数的定义依次类推,在此不再进行赘述。,(,7-6,),创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,7.3.2,基于邻域核函数的局部支持向量机,通过邻域核函数的定义可以看出邻域核函数能较好的反映不同图像之间邻域信息变化的差异。将邻域核函数应用于局部支持向量机中,提出一种新的局部支持向量机算法,-,基于邻域核函数的局部支持向量机,(Neighborhood-LSVM),,该算法能够在一定程度上提高图像的分类精度,基于邻域核函数的局部支持向量机算法如图,7-4,所示。,图,7-4,基于邻域核函数的局部支持向量机,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,(1),图像预处理:统一图像大小,并将图像灰度化。,(2),提取图像纹理特征值:针对树木图像数据集的特点,本文提取了树木图像的对比度、相关性、熵等纹理特征值。,(3),将所有图像进行二值化处理:图像中每个像素点的取值定为,+1(,黑,),或,-1(,白,),。,(4),利用提取的图像纹理特征值,使用,K,近邻算法选取测试图像的,K,个近邻图像。对于选取的近邻图像和测试图像使用二级邻域核函数计算,K(x,,,y),的值,,公式,(7-7),中,的取值如下:,(5),使用,K(x,,,y),的值构建分类模型,对测试图像进行分类。,(,7-7,),创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,7.3.3,实验结果与分析,为检验基于邻域核函数的局部支持向量机在图像分类上的有效性,使用树木图像数据集进行测试。树木图像数据集共采集白玉兰、槐树等,8,种树木,351,幅图像。树木图像数据集如表,7-12,所示。,编号,C1,C2,C3,C4,C5,C6,C7,C8,名,称,白玉兰,暴马丁香,槐树,黄连木,黄山栾,美国,黑核桃,柿,乌桕,数量,50,33,65,39,29,16,30,89,表,7-12,树木图像数据集,根据树木图像数据集共进行了,8,组实验。针对每组实验分别使用基于邻域核函数的局部支持向量机,(Neighborhood-LSVM),、局部支持向量机,(SVM-KNN),和标准支持向量机,(SV,M),三种算法。,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,测试编号,训练图像数,测试图像数,标准化图像大小,图像种类,1,235,116,256*256,C1-C8,2,101,53,256*256,C3,、,C8,3,235,116,800*800,C1-C8,4,93,46,800*800,C1,、,C8,5,86,44,800*800,C3,、,C8,6,102,52,800*800,C3,、,C8,7,83,32,800*800,C1,、,C3,8,83,32,1000*1000,C1,、,C3,在每组实验中,,SVM-KNN,算法使用不同的,K,值进行测试,对于,Neighborhood-LSVM,算法只是选取部分,K,值进行测试。分别取每种分类算法中分类精度最高的结果进行展示。实验数据集如表,7-13,所示,分类精度如表,7-14,所示。,表,7-13,实验数据集表,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,测试编号,Neighborhood-LSVM,SVM-KNN,SVM,1,0.4237,0.4661,0.2881,2,0.7547,0.7547,0.7170,3,0.3898,0.1864,0.1610,4,0.8085,0.5106,0.4468,5,0.6136,0.5227,0.5000,6,0.7143,0.6071,0.5893,7,0.9375,0.8750,0.5625,8,0.9063,0.8125,0.5625,表,7-14,分类精度结果,将表,7-15,的分类精度绘制成折线图如图,7-5,所示。,图,7-5,分类精度折线图,创新与贡献,研究意义,选题背景,第七章,7.3,基于邻域核函数的局部支持向量机在树木图像分类中的应用,由图,7-5,可以看出,针对树木图像数据集,,Neighborhood-LSVM,的分类精度要高于,SVM-KNN,,,SVM,是三种分类方法中精度最低的。,使用,SVM,算法对树木图像进行分类时,首先提取,图像特征值,然后使用所有训练图像的特征值训练分类模型,最后使用分类模型进行分类。,SVM-KNN,与,SVM,不同之处是,SVM-KNN,需要根据提取的特征值选取测试图像的,K,个近邻,使用,K,个近邻图像的特征值训练分类模型,最后使用分类模型进行分类。,Neighborhood-LSVM,算法根据图像的特征值选取测试图像的,K,个近邻图像,对于选中的,K,个近邻图像借助于邻域核函数构建分类模型,而放弃使用提取的图像特征值构建分类模型。相对于前两种算法,,Neighborhood-LSVM,中影响分类结果的因素更为广泛和准确,减少了对图像特征值提取的依赖,因此其分类精确度要高于,SVM,和,SVM-KNN,算法。,基于邻域核函数的局部支持向量机利用图像像素点邻域变化等信息,提高了图像分类精度。,经树木图像数据,集测试验证,结果表明该算法对图像的分类精度高于标准的,SVM,和,SVM-KNN,,为图像的分类提供了一种可行方案。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,近年来,随着对支持向量机研究的深入,,Steinwart,于,2002,年证明了在一般情况下,支持向量机并不能满足全局一致性。为进一步改进支持向量机,满足算法的一致性需求。,2006,年,ZHANG,等人在局部学习算法的启发下提出了局部支持向量机的思想。局部支持向量机不但具有适合小样本、非线性、高维模式的优势,同时能够满足算法的一致性要求。,我们将局部支持向量回归应用于小麦蚜虫百株蚜量预测中,构建基于局部支持向量回归的小麦蚜虫短期预测模型,可以提高小麦蚜虫预测的准确率,具有一定的研究和应用价值。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,7.4.1,小麦蚜虫预测原理,小麦蚜虫的预测一般分为长期预测、中期预测和短期预测三种类型,其中短期预测由于其期限较短,预测准确率较高而使用广泛,短期预测的期限一般是,7-10,天。对小麦蚜虫的短期发生情况进行预测,可以帮助农民能够及时掌握小麦蚜虫近期的发生情况,以便采取有效的防治措施。通常构建小麦蚜虫短期预测模型主要步骤如下。,(,1,)数据的获取。通过田间采集直接计数或者通过传感采集与小麦蚜虫发生相关的农田信息。,(,2,)数据预处理。对采集到的小麦蚜虫数据进行统计分析以及对影响因子进行特征选择、特征变换以及归一化处理。,(,3,)构建预测模型。将预处理后的数据划分为训练集和测试集两部分。利用训练集数据进行模型参数的学习。,(,4,)模型的评价。通过测试集检验预测模型的预测效果,使用均方误差等评价指标对模型的预测效果进行评价。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,7.4.2,数据来源与预处理,1,数据来源,实验采用的数据主要包含两部分:,1990-2013,年山东烟台地区小麦蚜虫百株蚜量数据和烟台地区气象数据。将,1990-2007,年(,1992-1994,年无)的,78,条数据作为训练集,,2008-2013,年的,26,条数据作为测试集。预测对象为小麦蚜虫的百株蚜量以及发生程度,其中发生程度据分为,5,级,轻发生(,1,级)、偏轻发生(,2,级)、中发生(,3,级)、偏重发生(,4,级)、大发生(,5,级),主要以小麦蚜虫发生盛期的百株蚜量来确定,各级指标如表,7-15,所示。影响因子为虫源基数(,x19,)以及降雨量、气温、日照时数等气象因子(,x1-x18,)。,发生程度,1,2,3,4,5,百株蚜量,(,头,,Y),Y 500,500,Y1500,1500,Y2500,2500,Y3500,Y3500,表,7-15,小麦蚜虫发生程度分级指标,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,2,特征选择,选择正确有效的特征,对回归模型的构建及预测预报具有重要意义。特征选择作为数据预处理的一个重要过程,其主要任务是去除不相关或者冗余的特征。首先,特征选择可以揭示各个特征对预测对象的重要程度;其次,进行选择特征,可以删掉无关的特征,从而降低数据的维数,缩小问题规模,提高模型的构建效率;最后,特征选择可以使得构建的模型具有更好的泛化能力。,相关分析是研究随机变量之间是否存在某种依存关系的一种常用方法,通过相关分析找到各影响因子与预测对象的相关关系,可以达到特征选择的目的。相关分析得到的相关关系是一种非确定性的关系,它并不能确切到由其中的一个变量去精确决定另一个变量的程度。,Pearson,相关系数和,Spearman,相关系数是相关分析中常用的两种相关系数。其中,,Pearson,相关系数研究的是连续数据之间的相关关系,适用于两个变量之间的相关关系的计算;,Spearman,相关系数是一种秩相关系数,通过将两列数变为相应的等级,根据等级之差来计算相关系数。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,小麦蚜虫短期预测模型的构建,其影响因子包含多个气象因子,考虑到各气象因子之间存在一定的相关关系,因此通过相关分析删除无关的或者冗余的影响因子,提高构建预测模型的准确率和泛化能力。另外,特征选择主要研究的是各个影响因子与预测对象的相关关系,属于变量之间的相关关系,因此采用,Pearson,相关系数计算相关关系。影响因子,与预测对象,的,Pearson,相关系数的,计算公式如下:,(,7-8,),其中,,,,,为 ,,的样本方差和协方差。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,将百株蚜量与,19,个影响因子进行相关分析,相关系数以及显著性检验结果如表,7-16,所示,其中,r,为相关系数,,p,为显著性检验的,P,值。,变量,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,r,0.00495,0.00495,0.00495,-0.03086,-0.12044,0.01201,0.23146,0.12303,-0.03104,0.0991,p,0.9602,0.9602,0.9602,0.7558,0.2233,0.9037,0.0181,0.2134,0.7545,0.3169,变量,x11,x12,x13,x14,x15,x16,x17,x18,x19,r,0.0991,0.0991,-0.11039,0.28725,-0.11984,0.13983,-0.07264,0.02879,0.79788,p,0.3169,0.3169,0.2646,0.0031,0.2256,0.1569,0.4637,0.7717,.0001,表,7-16,相关分析结果,取显著性水平为,0.5,,由表,7-16,相关分析的显著性检验结果可知,变量,x1-x4,、,x6,、,x9,、,x18,的,P,值均明显大于,0.5,,与百株蚜量的相关关系不显著,因此,使用其余,12,个变量预测百株蚜量的值。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,3,归一化处理,归一化方法是一种常用的数据预处理方法。归一化方法主要有两种,一种是为了数据处理的方便,将数据映射为,0,、,1,之间的小数,另一种是去掉量纲,将有量纲的表达式,化为无量纲的表达式,成为纯量。由于不同影响因子的取值范围差距较大,为了避免“大数吃小数”的情况,选用第二种归一化的方法,对各个影响因子进行无量纲化处理,去掉其量纲,公式如下:,(,7-9,),针对小麦蚜虫数据,通过多次对比实验发现,仅对影响因子进行归一化比对影响因子及预测对象均归一化的效果明显好,因此,将小麦蚜虫的各个影响因子归一化到,0,,,1,范围内,预测对象未进行归一化处理。,创新与贡献,研究意义,选题背景,第七章,7.4,局部支持向量回归在小麦蚜虫预测中的应用,7.4.3,支持向量回归与局部支持向量回归,1,支持向量回归,支持向量回归解决回归问题的基本思路为:
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服