1、第六章 害虫预测预报方法知识要点:知识要点:n害虫测报工作与要求害虫测报工作与要求n害虫发生期预报基本方法害虫发生期预报基本方法n害虫发生量预报基本方法害虫发生量预报基本方法n害虫的数理统计预报方法害虫的数理统计预报方法n可视化预报方法可视化预报方法(专题二)其它数理统计法n1.时间序列分析法时间序列分析法n2.灰色系统预测灰色系统预测n3.列联表分析法列联表分析法n4.判别分析判别分析n5.1马尔科夫链预报法马尔科夫链预报法n5.2模糊数学法模糊数学法n6.神经网络预测法神经网络预测法1.时间序列分析法时间序列分析法1.1 虫情测报中的应用:虫情测报中的应用:n方差分析周期外推预报法方差分析
2、周期外推预报法n周期图分析预报法周期图分析预报法n平稳随机时间序列预报法平稳随机时间序列预报法1.2时间序列分析法数学模型简介时间序列分析法数学模型简介n时间序列的定义时间序列的定义n时间序列分析方法简介时间序列分析方法简介 n时间序列分析软件时间序列分析软件 1.2.1时间序列的定义时间序列的定义n时时间间序序列列分分析析是是概概率率统统计计学学科科中中应应用用性性较较强强的的一一个个分分支支,在在金金融融经经济济、气气象象水水文文、信信号号 处处理、机械振动等众多领域有着广泛的应用理、机械振动等众多领域有着广泛的应用n按照时间的顺序把随机事件变化发展的过程记按照时间的顺序把随机事件变化发展
3、的过程记录下来就构成了一个时间序列。对时间序列进录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。它将来的走势就是时间序列分析。n简单的说时间序列即简单的说时间序列即:指将某一统计指标数据按指将某一统计指标数据按照时间顺序排列起来而形成的统计序列,也称照时间顺序排列起来而形成的统计序列,也称时间数列或动态数列。时间数列或动态数列。例子例子n重复掷一枚骰子,按先后次序纪录点数重复掷一枚骰子,按先后次序纪录点数n昨日上证综合指数一天的变化情况昨日上证综合指数一天的变化情况n最近最近1年来人民币兑美元
4、汇率的变化年来人民币兑美元汇率的变化n1900年以来上海市年最高气温记录年以来上海市年最高气温记录n同一对象在不同时刻的表现同一对象在不同时刻的表现(注意注意:它与回归分析的区别它与回归分析的区别)1.2 时间序列的定义时间序列的定义 n随机序列随机序列(随机过程随机过程):按时间顺序排列的一组随按时间顺序排列的一组随机变量机变量n观察值序列观察值序列:随机序列的随机序列的 个有序观察值,称之个有序观察值,称之为序列长度为为序列长度为 的观察值序列的观察值序列n随机序列和观察值序列的关系随机序列和观察值序列的关系n观察值序列是随机序列的一个实现观察值序列是随机序列的一个实现n我们研究的目的是想
5、揭示随机时序的性质我们研究的目的是想揭示随机时序的性质n实现的手段都是通过观察值序列的性质进行推断实现的手段都是通过观察值序列的性质进行推断描述性时序分析案例描述性时序分析案例n德国业余天文学家施瓦尔发现太阳黑子的活动具有德国业余天文学家施瓦尔发现太阳黑子的活动具有1111年左右的周期年左右的周期频域分析方法频域分析方法n原理原理n假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动n发展过程发展过程n早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规
6、律 n后来借助了傅里叶变换,用正弦、余弦项之和来逼近某个函数后来借助了傅里叶变换,用正弦、余弦项之和来逼近某个函数 n20世纪世纪60年代,年代,引入引入最大熵谱估计理论,进入现代谱分析阶段最大熵谱估计理论,进入现代谱分析阶段 n特点特点n非常有用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有非常有用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有一定的使用局限性一定的使用局限性时域分析方法时域分析方法n原理原理n事件的发展通常都具有一定的惯性,这种惯性用统事件的发展通常都具有一定的惯性,这种惯性用统计的语言来描述就是序列值之间存在着一定的相关计的语言来描述就是序列值之间存在着一
7、定的相关关系,这种关系,这种自相关关系自相关关系通常具有某种统计规律。通常具有某种统计规律。n目的目的n寻找出序列值之间相关关系的统计规律,并拟合出寻找出序列值之间相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势合模型预测序列未来的走势n特点特点n理论基础扎实,操作步骤规范,分析结果易于解释,理论基础扎实,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法是时间序列分析的主流方法 时域分析方法的分析步骤时域分析方法的分析步骤n考察观察值序列的特征考察观察值序列的特征n根据序列的特征选择适当的拟合模
8、型根据序列的特征选择适当的拟合模型n根据序列的观察数据确定模型的口径根据序列的观察数据确定模型的口径n检验模型,优化模型检验模型,优化模型n利利用用拟拟合合好好的的模模型型来来推推断断序序列列其其它它的的统统计性质或预测序列将来的发展计性质或预测序列将来的发展 1.4 时间序列分析软件时间序列分析软件 n常用软件常用软件nS-plus,Matlab,Gauss,TSP,Eviews,Spss 和和SAS n推荐软件推荐软件SASn在在SAS系统中有一个专门进行计量经济与时间序列分析的系统中有一个专门进行计量经济与时间序列分析的模块:模块:SAS/ETS。SAS/ETS编程语言简洁,输出功能强编
9、程语言简洁,输出功能强大,分析结果精确,是进行时间序列分析与预测的理想的大,分析结果精确,是进行时间序列分析与预测的理想的软件软件n由于由于SAS系统具有全球一流的数据仓库功能,因此在进行系统具有全球一流的数据仓库功能,因此在进行海量数据的时间序列分析时它具有其它统计软件无可比拟海量数据的时间序列分析时它具有其它统计软件无可比拟的优势的优势 2.灰色系统预测灰色系统预测-2.1灰色系统理论的产生和发展动态n1982邓聚龙发表第一篇中文论文邓聚龙发表第一篇中文论文灰色控制系统灰色控制系统标志着灰标志着灰色系统这一学科诞生。色系统这一学科诞生。n1985灰色系统研究会成立,灰色系统相关研究发展迅速
10、。灰色系统研究会成立,灰色系统相关研究发展迅速。n1989海洋出版社出版英文版海洋出版社出版英文版灰色系统论文集灰色系统论文集,同年,英,同年,英文版国际刊物文版国际刊物灰色系统灰色系统杂志正式创刊。目前,国际、国杂志正式创刊。目前,国际、国内内200多种期刊发表灰色系统论文,许多国际会议把灰色系多种期刊发表灰色系统论文,许多国际会议把灰色系统列为讨论专题。国际著名检索已检索我国学者的灰色系统统列为讨论专题。国际著名检索已检索我国学者的灰色系统论著论著500多次。灰色系统理论已应用范围已拓展到工业、农多次。灰色系统理论已应用范围已拓展到工业、农业、社会、经济、能源、地质、石油等众多科学领域,成
11、功业、社会、经济、能源、地质、石油等众多科学领域,成功地解决了生产、生活和科学研究中的大量实际问题,取得了地解决了生产、生活和科学研究中的大量实际问题,取得了显著成果。显著成果。2.2灰色系统理论的主要内容n灰色系统理论经过10多年的发展,已基本建立起了一门新兴学科的结构体系,其主要内容包括以“灰色朦胧集”为基础的理论体系、以晦涩关联空间为依托的分析体系、以晦涩序列生成为基础的方法体系,以灰色模型(G,M)为核心的模型体系。以系统分析、评估、建模、预测、决策、控制、优化为主体的技术体系。重要数据处理方法有:灰色关联分析 灰色统计 灰色聚类2.3灰色系统预测模型n灰色系统预测模型建立对原始序列
12、作1-AGO,作紧邻均值生成。确定模型与时间响应式,求 的模拟值。n灰色系统模型的检验误差检验,计算X与 的灰色关联度3.列联表分析法n列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 一般,若总体中的个体可按两个属性A与B分类,A有r个等级A1,A2,Ar,B有c个等级B1,B2,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为 频数,将rc个nij排列为一个r行c列的二维列联表,简称rc表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。4.判别分析判别分析n判别分析又称判别分析又称“分辨法分辨法”,是在分类确定
13、的条件下,根据,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。定系数,并计算判别指标。据此即可确定某一样本属于何类。判别分析有二级判别、多级判别、逐步判别等多种方法,在气判别分析有二级判别、多级判别、逐步判别等多种方法,在气候分类、农业区划、
14、土地类型划分中有着广泛的应用。候分类、农业区划、土地类型划分中有着广泛的应用。n判别分析主要的数学方法:马氏距离判别法、判别分析主要的数学方法:马氏距离判别法、Bayes判别判别法、法、Fisher判别法。判别法。5.马尔科夫链预报法与模糊数学法马尔科夫链预报法与模糊数学法5.1 模糊数学简介:模糊数学简介:n模糊数学是研究和处理模糊数学是研究和处理模糊性模糊性现象的一种数学理论和方法现象的一种数学理论和方法。1965 年美国控制论学者年美国控制论学者L.A.扎德发表论文扎德发表论文模糊集合模糊集合,标志,标志着这门新学科的诞生。着这门新学科的诞生。n现代数学建立在集合论的基础上。一组对象确定
15、一组属性,人们现代数学建立在集合论的基础上。一组对象确定一组属性,人们可以通过指明属性来说明概念,也可以通过指明对象来说明。符可以通过指明属性来说明概念,也可以通过指明对象来说明。符合概念的那些对象的全体叫做这个概念的外延,外延实际上就是合概念的那些对象的全体叫做这个概念的外延,外延实际上就是集合。一切现实的理论系统都有可能纳入集合描述的数学框架。集合。一切现实的理论系统都有可能纳入集合描述的数学框架。经典的集合论只把自己的表现力限制在那些有明确外延的概念和经典的集合论只把自己的表现力限制在那些有明确外延的概念和事物上,它明确地规定:每一个集合都必须由确定的元素所构成,事物上,它明确地规定:每
16、一个集合都必须由确定的元素所构成,元素对集合的隶属关系必须是明确的。元素对集合的隶属关系必须是明确的。n对模糊性的数学处理是以将经典的集合论扩展为模糊集合论为基对模糊性的数学处理是以将经典的集合论扩展为模糊集合论为基础的,乘积空间中的模糊子集就给出了一对元素间的模糊关系。础的,乘积空间中的模糊子集就给出了一对元素间的模糊关系。对模糊现象的数学处理就是在这个基础上展开的。对模糊现象的数学处理就是在这个基础上展开的。模糊集合与隶属度n在模糊集合中,给定范围内元素对它的隶属关系不一定只有“是”或“否”两种情况,而是用介于0和1之间的实数来表示隶属程度,还存在中间过渡状态。比如“老人”是个模糊概念,7
17、0岁的肯定属于老人,它的从属程度是 1,40岁的人肯定不算老人,它的从属程度为 0,按照查德给出的公式,55岁属于“老”的程度为0.5,即“半老”,60岁属于“老”的程度0.8。查德认为,指明各个元素的隶属集合,就等于指定了一个集合。当隶属于0和1之间值时,就是模糊集合。模糊数学研究对象和发展模糊数学研究对象和发展n模糊数学是以不确定性的事物为其研究对象的。模糊集合的出现是数学适应描述复杂事物的需要,查德的功绩在于用模糊集合的理论找到解决模糊性对象加以确切化,从而使研究确定性对象的数学与不确定性对象的数学沟通起来,过去精确数学、随机数学描述感到不足之处,就能得到弥补。n在模糊数学中,目前已有模
18、糊拓扑学、模糊群论、模糊图论、模糊概率、模糊语言学、模糊逻辑学等分支。模糊数学的应用模糊数学的应用 模糊数学是一门新兴学科,它已初步应用于模糊控制、模模糊数学是一门新兴学科,它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面。在气象、结构力学、信息检索、医学、生物学等各个方面。在气象、结构力学、控制、心理学等方面已有具体的研究成果。然而模糊数学最控制、心理学等方面已有具体的研究成果。然而模糊数学最重要的应用领域是计算机职能,不少人认为它与新一代计算重要的应用领域是计算机职能,不少人认
19、为它与新一代计算机的研制有密切的联系。机的研制有密切的联系。目前,世界上发达国家正积极研究、试制具有智能化的模目前,世界上发达国家正积极研究、试制具有智能化的模糊计算机,糊计算机,19861986年日本山川烈博士首次试制成功模糊推理机,年日本山川烈博士首次试制成功模糊推理机,它的推理速度是它的推理速度是10001000万次万次/秒。秒。19881988年,我国汪培庄教授指导年,我国汪培庄教授指导的几位博士也研制成功一台模糊推理机的几位博士也研制成功一台模糊推理机分立元件样机,分立元件样机,它的推理速度为它的推理速度为15001500万次万次/秒。这表明我国在突破模糊信息处秒。这表明我国在突破模
20、糊信息处理难关方面迈出了重要的一步。理难关方面迈出了重要的一步。5.马尔科夫链预报法与模糊数学法马尔科夫链预报法与模糊数学法5.2 马尔科夫链模型简介:马尔科夫链模型简介:n马尔科夫分析法的基本模型为:马尔科夫分析法的基本模型为:X(k+1)=X(k)P 公公式中:式中:X(k)表示趋势分析与预测对象在表示趋势分析与预测对象在t=k时刻的状时刻的状态向量,态向量,P表示一步转移概率矩阵,表示一步转移概率矩阵,X(k+1)表示趋势表示趋势分析与预测对象在分析与预测对象在t=k+1时刻的状态向量。时刻的状态向量。n必须指出的是,上述模型只适用于具有马尔科夫性的必须指出的是,上述模型只适用于具有马尔
21、科夫性的时间序列,并且各时刻的状态转移概率保持稳定。若时间序列,并且各时刻的状态转移概率保持稳定。若时间序列的状态转移概率随不同的时刻在变化,不宜时间序列的状态转移概率随不同的时刻在变化,不宜用此方法。由于实际的客观事物很难长期保持同一状用此方法。由于实际的客观事物很难长期保持同一状态的转移概率,故此法一般适用于短期的趋势分析与态的转移概率,故此法一般适用于短期的趋势分析与预测。预测。马尔科夫过程的稳定状态n在较长时间后,马尔科夫过程逐渐处于稳定状态,且与初始状态无关。马尔科夫链达到稳定状态的概率就是稳定状态概率,也称稳定概率。n趋势分析中,要设法求解得到分析对象的稳态概率,并以此做趋势分析。
22、在马尔科夫分析法的基本模型中,当X=XP时,称X是P的稳定概率,即系统达到稳定状态时的概率向量,也称X是P的固有向量或特征向量,而且它具有唯一性。n 时间:tn 状态:xn 即为过程X(tn)的所有可能取值 状态空间:I=x1,x2,xn-1,xn n马尔可夫过程具有如下属性(马尔可夫性)马尔可夫过程分类马尔可夫链马尔可夫序列纯不连续马尔可夫过程连续马尔可夫过程马尔可夫链n离散的时间对应离散的状态n 状态空间 I=i1,i2,in-1,inn n时刻Xn的概率分布向量 PXn=in PXn=j|Xn-1=in-1 一步转移概率齐次马尔可夫链齐次马尔可夫链n齐次马尔可夫链:如果转移概率与所处的时
23、刻n无关:Pij PXn=j|Xn-1=i 例子例子 晴天晴天 阴天阴天 下雨下雨晴天晴天 0.50 0.25 0.25阴天阴天 0.375 0.25 0.375下雨下雨 0 0 1分分 析析1.初始分布:假设第一天出现三种天 气的概率相等P0=()2.Pij:表示天气从状态i转到j的概率 转移概率矩阵 状态转移图1230.50.25第四天天气概率分布如果An趋向于定值,马氏链具有稳定状态6.神经网络预测法神经网络预测法-概述nRumelhart,McClelland于1985年提出了BP网络的误差反向后传BP(Back Propagation)学习算法nBP算法基本原理n利用输出后的误差来估
24、计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计。J.McClelland David Rumelhart BP神经网络模型n三层BP网络2.4.1 BP神经网络模型n激活函数n必须处处可导n一般都使用S型函数 n使用S型激活函数时BP网络输入与输出关系n输入n输出2.4.1 BP神经网络模型n输出的导数n根据根据S型激活函数的图形可知型激活函数的图形可知,对神经网络进行训练,应该将对神经网络进行训练,应该将net的值尽量控制的值尽量控制在收敛比较快的范围内在收敛比较快的范围内 BP网络的标准学习算法n学习的过程:n神经网络在外
25、界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。n学习的本质:n对各连接权值的动态调整n学习规则:n权值调整规则,即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。BP网络的标准学习算法-算法思想n学习的类型:有导师学习n核心思想:n将输出误差以某种形式通过隐层向输入层逐层反传n学习的过程:n信号的正向传播 误差的反向传播将误差分摊给各层的所有将误差分摊给各层的所有单元各层单元的误单元各层单元的误差信号差信号修正各单元权修正各单元权值值BP网络的标准学习算法-学习过程n正向传播:n输入样本输入层各隐层输出层n判断是否转入反向传播阶段:n若输出层的实际
26、输出与期望的输出(教师信号)不符n误差反传n误差以某种形式在各层表示修正各层单元的权值n网络输出的误差减少到可接受的程度进行到预先设定的学习次数为止附:支持向量机及应用简介机器学习的基本问题和方法从给定的函数集中选择出能够最好地逼近系统响应的函数系统(S)学习机器(LM)输入x输出y有指导机器学习的目的是根据给定的训练样本,求出对某系统输入输出之间依赖关系的估计,使它能够对未知输入作出尽可能准确的预测。可以一般地表示为:变量y与x存在一定的未知依赖关系,即遵循某一未知的联合概率F(x,y)(x 和y 之间的确定性关系可以看作是其特例),有指导机器学习问题就是根据N个独立同分布观测样本在一组函数
27、f(x,w)中求一个最优的函数 f(x,w0)对依赖关系进行估计,使期望风险最小支持向量机(SVM)支持向量机(Surpport Vector Machines)简称SVM,是统计学习理论中最年轻的内容,也是最实用的部分。其核心内容是在1995 年左右,由Vapnik和Chervonenkis提出的,目前仍处在不断发展阶段。支持向量分类(Classification)线性分类器分类面点x0到平面+b=0的距离为最优分类面最大间隔(margin)分类面方程为支撑面之间的距离叫做分类间隔线性可分的最优分类模型作广义Lagrange乘子函数由KKT条件,有非支持向量的系数为0 b*也由支持向量求得,
28、事实上将 代入目标函数,由对偶理论知,系数可由如下二次规划问题解得给定x的分类结果特点:稳定性、鲁棒性、稀疏性等最大间距:由于对则线性不可分(软间隔)线性不可分的情况引入松弛变量不可分的解方程subject to作Lagrange函数最优性条件由KKT条件若若max系数的解方程C不同带来的影响支持向量回归(Regression)问题线性回归:给定训练集(xi,yi),找个线性函数f(x)=wTx+b,来拟合数据最小二乘法(Least Square)其中 为回归误差.记 ,则目标函数可写为解为最小二乘解的不足:数值稳定性问题,增加新数据对解都有影响,为使模型尽量简单需进行假设检验.脊回归(Rid
29、ge Regression)数值稳定性较好.还可写为敏感损失回归敏感损失函数(-Insensitive Loss)支持向量机算法的应用领域nSVM的应用主要于模式识别领域n贝尔实验室对美国邮政手写数字库进行的实验分类器错误率人工表现2.5%决策树C4.516.2%最好的两层神经网络5.9%SVM4.0%SVM与神经网络(NN)的对比SVM的理论基础比NN更坚实,更像一门严谨的“科学科学”(三要素:问题的表示、问题的解决、证明)SVM 严格的数学推理NN 强烈依赖于工程技巧推广能力推广能力取决于“经验风险值”和“置信范围值”,NN不能控制两者中的任何一个。NN设计者用高超的工程技巧弥补了数学上的
30、缺陷设计特殊的结构,利用启发式算法,有时能得到出人意料的好结果。“我们必须从一开始就澄清一个观点,就是如果某事不是科学,它并不一定不好。比如说,爱情就不是科学。因此,如果我们说某事不是科学,如果我们说某事不是科学,并不是说它有什么不对,而只是说它不是科学并不是说它有什么不对,而只是说它不是科学。”by R.Feynman from The Feynman Lectures on Physics,Addison-Wesley同理,与SVM相比,NN不像一门科学,更像一门工程技巧,但并不意味着它就一定不好!主要应用领域n手写数字识别n语音识别n人脸识别n文本分类支持向量机研究支持向量机研究n如何针
31、对不同的问题选择不同的核函数仍然是一个悬而未决的问题。n标准的SVM对噪声是不具有鲁棒性的,如何选择合适的目标函数以实现鲁棒性是至关重要的。支持向量机算法研究支持向量机算法研究n支持向量机的本质是解一个二次规划问题,虽然有一些经典(如对偶方法、内点算法等),但当训练集规模很大时,这些算法面临着维数灾难问题。为此,人们提出了许多针对大规模数据集的SVM训练算法。支持向量机算法研究n训练SVM的绝大多数算法都是针对分类问题,只有一小部分算法考虑了回归函数的估计问题。n提高算法效率、降低复杂度。2011-2012学年第二学期学年第二学期昆虫生态昆虫生态测报测报期末考查方案期末考查方案 适用班级植保0
32、91-2,083-6n根据昆虫研究法课程的教学大纲和实践性较强的课程特点特制定如下成绩考查方案:n平时成绩占期末总成绩30%,平时成绩打分依据为考勤记录和实验报告成绩。n期末考查成绩占总成绩70%,按学校规定用统一答题纸书写并统一格式书写封面。期末考查试卷纸封面见下:昆虫生态测报期末考查试卷昆虫生态测报期末考查试卷n姓名:n班级:植保(阿拉伯数字)班n学号:考查内容分三个题:考查内容分三个题:n一、利用图书馆中文文献资源或highwile免费数据库、学术Google等搜索引擎检索一篇虫害发生的多元线性回归模型有关的文献。抄出文题、作者和杂志名及年期号。然后列出自变量与因变量内容、回归方程及相关系数。说明模型检验结果或历史符合率分析结果。二、检索一篇其他模型文献n二、检索一篇模糊回归模型、灰色系统预测模型、BP神经网络模型、时间序列模型、支持向量机模型或其他预测模型的虫害发生文献。抄出文题、作者和杂志名及年期号。解释文献的输入因子、输出因子、数据处理方法。说明模型检验结果或历史符合率分析结果。三、写一篇虫害预测设计n三、根据自己的本课程知识和相关学科知识,设计一个校园周围农田或校内花卉的虫害发生预测方案。列出所设计方案的输入因子、输出因子、数据处理方法,要求该方案有可行性和科学性。谢谢大家