资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,(专题二)其它数理统计法,1.,时间序列分析法,2.,灰色系统预测,3.,列联表分析法,4.,判别分析,5.1,马尔科夫链预报法,5.2,模糊数学法,6.,神经网络预测法,1.,时间序列分析法,1.1,虫情测报中的应用:,方差分析周期外推预报法,周期图分析预报法,平稳随机时间序列预报法,1.2,时间序列分析法数学模型简介,时间序列的定义,时间序列分析方法简介,时间序列分析软件,1.2.1,时间序列的定义,时间序列分析是概率统计学科中应用性较强的一个分支,在金融经济、气象水文、信号 处理、机械振动等众多领域有着广泛的应用,按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。,简单的说时间序列即,:,指将某一统计指标数据按照时间顺序排列起来而形成的统计序列,也称时间数列或动态数列。,例子,重复掷一枚骰子,按先后次序纪录点数,昨日上证综合指数一天的变化情况,最近,1,年来人民币兑美元汇率的变化,1900,年以来上海市年最高气温记录,同一对象在不同时刻的表现,(,注意,:,它与回归分析的区别,),1.2,时间序列的定义,随机序列,(,随机过程,):,按时间顺序排列的一组随机变量,观察值序列,:,随机序列的 个有序观察值,称之为序列长度为 的观察值序列,随机序列和观察值序列的关系,观察值序列是随机序列的一个实现,我们研究的目的是想揭示随机时序的性质,实现的手段都是通过观察值序列的性质进行推断,描述性时序分析案例,德国业余天文学家施瓦尔发现太阳黑子的活动具有,11,年左右的周期,频域分析方法,原理,假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动,发展过程,早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律,后来借助了傅里叶变换,用正弦、余弦项之和来逼近某个函数,20,世纪,60,年代,,引入,最大熵谱估计理论,进入现代谱分析阶段,特点,非常有用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有一定的使用局限性,时域分析方法,原理,事件的发展通常都具有一定的惯性,这种惯性用统计的语言来描述就是序列值之间存在着一定的相关关系,这种,自相关关系,通常具有某种统计规律。,目的,寻找出序列值之间相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势,特点,理论基础扎实,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法,时域分析方法的分析步骤,考察观察值序列的特征,根据序列的特征选择适当的拟合模型,根据序列的观察数据确定模型的口径,检验模型,优化模型,利用拟合好的模型来推断序列其它的统计性质或预测序列将来的发展,1.4,时间序列分析软件,常用软件,S-plus,,,Matlab,,,Gauss,,,TSP,,,Eviews,Spss,和,SAS,推荐软件,SAS,在,SAS,系统中有一个专门进行计量经济与时间序列分析的模块:,SAS/ETS,。,SAS/ETS,编程语言简洁,输出功能强大,分析结果精确,是进行时间序列分析与预测的理想的软件,由于,SAS,系统具有全球一流的数据仓库功能,因此在进行海量数据的时间序列分析时它具有其它统计软件无可比拟的优势,2.,灰色系统预测,-,2.1,灰色系统理论的产生和发展动态,1982,邓聚龙发表第一篇中文论文,灰色控制系统,标志着灰色系统这一学科诞生。,1985,灰色系统研究会成立,灰色系统相关研究发展迅速。,1989,海洋出版社出版英文版,灰色系统论文集,,同年,英文版国际刊物,灰色系统,杂志正式创刊。目前,国际、国内,200,多种期刊发表灰色系统论文,许多国际会议把灰色系统列为讨论专题。国际著名检索已检索我国学者的灰色系统论著,500,多次。灰色系统理论已应用范围已拓展到工业、农业、社会、经济、能源、地质、石油等众多科学领域,成功地解决了生产、生活和科学研究中的大量实际问题,取得了显著成果。,2.2,灰色系统理论的主要内容,灰色系统理论经过,10,多年的发展,已基本建立起了一门新兴学科的结构体系,其主要内容包括以,“,灰色朦胧集,”,为基础的理论体系、以晦涩关联空间为依托的分析体系、以晦涩序列生成为基础的方法体系,以灰色模型(,G,,,M,)为核心的模型体系。以系统分析、评估、建模、预测、决策、控制、优化为主体的技术体系。重要数据处理方法有:,灰色关联分析,灰色统计,灰色聚类,2.3,灰色系统预测模型,灰色系统预测模型建立,对原始序列 作,1-AGO,,作紧邻均值生成。确定模型与时间响应式,求 的模拟值。,灰色系统模型的检验,误差检验,计算,X,与 的灰色关联度,3.,列联表分析法,列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 一般,若总体中的个体可按两个属性,A,与,B,分类,,A,有,r,个等级,A1,A2,Ar,,,B,有,c,个等级,B1,B2,Bc,从总体中抽取大小为,n,的样本,设其中有,nij,个个体的属性属于等级,Ai,和,Bj,,,nij,称为 频数,将,rc,个,nij,排列为一个,r,行,c,列的二维列联表,简称,rc,表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。,4.,判别分析,判别分析又称,“,分辨法,”,,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。判别分析有二级判别、多级判别、逐步判别等多种方法,在气候分类、农业区划、土地类型划分中有着广泛的应用。,判别分析主要的数学方法:马氏距离判别法、,Bayes,判别法、,Fisher,判别法。,5.,马尔科夫链预报法与模糊数学法,5.1,模糊数学简介:,模糊数学是研究和处理,模糊性,现象的一种数学理论和方法。,1965,年美国控制论学者,L.A.,扎德发表论文,模糊集合,,标志着这门新学科的诞生。,现代数学建立在集合论的基础上。一组对象确定一组属性,人们可以通过指明属性来说明概念,也可以通过指明对象来说明。符合概念的那些对象的全体叫做这个概念的外延,外延实际上就是集合。一切现实的理论系统都有可能纳入集合描述的数学框架。经典的集合论只把自己的表现力限制在那些有明确外延的概念和事物上,它明确地规定:每一个集合都必须由确定的元素所构成,元素对集合的隶属关系必须是明确的。,对模糊性的数学处理是以将经典的集合论扩展为模糊集合论为基础的,乘积空间中的模糊子集就给出了一对元素间的模糊关系。对模糊现象的数学处理就是在这个基础上展开的。,模糊集合与隶属度,在模糊集合中,给定范围内元素对它的隶属关系不一定只有,“,是,”,或,“,否,”,两种情况,而是用介于,0,和,1,之间的实数来表示隶属程度,还存在中间过渡状态。比如,“,老人,”,是个模糊概念,,70,岁的肯定属于老人,它的从属程度是,1,,,40,岁的人肯定不算老人,它的从属程度为,0,,按照查德给出的公式,,55,岁属于,“,老,”,的程度为,0.5,,即,“,半老,”,,,60,岁属于,“,老,”,的程度,0.8,。查德认为,指明各个元素的隶属集合,就等于指定了一个集合。当隶属于,0,和,1,之间值时,就是模糊集合。,模糊数学研究对象和发展,模糊数学是以不确定性的事物为其研究对象的。模糊集合的出现是数学适应描述复杂事物的需要,查德的功绩在于用模糊集合的理论找到解决模糊性对象加以确切化,从而使研究确定性对象的数学与不确定性对象的数学沟通起来,过去精确数学、随机数学描述感到不足之处,就能得到弥补。,在模糊数学中,目前已有模糊拓扑学、模糊群论、模糊图论、模糊概率、模糊语言学、模糊逻辑学等分支。,模糊数学的应用,模糊数学是一门新兴学科,它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面。在气象、结构力学、控制、心理学等方面已有具体的研究成果。然而模糊数学最重要的应用领域是计算机职能,不少人认为它与新一代计算机的研制有密切的联系。目前,世界上发达国家正积极研究、试制具有智能化的模糊计算机,,1986,年日本山川烈博士首次试制成功模糊推理机,它的推理速度是,1000,万次,/,秒。,1988,年,我国汪培庄教授指导的几位博士也研制成功一台模糊推理机,分立元件样机,它的推理速度为,1500,万次,/,秒。这表明我国在突破模糊信息处理难关方面迈出了重要的一步。,5.,马尔科夫链预报法与模糊数学法,5.2,马尔科夫链模型简介:,马尔科夫分析法的基本模型为:,X(k+1)=X(k)P,公式中:,X(k),表示趋势分析与预测对象在,t=k,时刻的状态向量,,P,表示一步转移概率矩阵,,X(k+1),表示趋势分析与预测对象在,t=k+1,时刻的状态向量。,必须指出的是,上述模型只适用于具有马尔科夫性的时间序列,并且各时刻的状态转移概率保持稳定。若时间序列的状态转移概率随不同的时刻在变化,不宜用此方法。由于实际的客观事物很难长期保持同一状态的转移概率,故此法一般适用于短期的趋势分析与预测。,马尔科夫过程的稳定状态,在较长时间后,马尔科夫过程逐渐处于稳定状态,且与初始状态无关。马尔科夫链达到稳定状态的概率就是稳定状态概率,也称稳定概率。,趋势分析中,要设法求解得到分析对象的稳态概率,并以此做趋势分析。在马尔科夫分析法的基本模型中,当,X=XP,时,称,X,是,P,的稳定概率,即系统达到稳定状态时的概率向量,也称,X,是,P,的固有向量或特征向量,而且它具有唯一性。,时间:,t,n,状态:,x,n,即为过程,X(t,n,),的所有可能取值,状态空间:,I=x,1,x,2,x,n-1,x,n,马尔可夫过程具有如下属性(马尔可夫性),马尔可夫过程分类,马尔可夫链,马尔可夫序列,纯不连续马尔可夫过程,连续马尔可夫过程,马尔可夫链,离散的时间对应离散的状态,状态空间,I=i,1,i,2,i,n-1,i,n,n,时刻,X,n,的概率分布向量,PX,n,=i,PX,n,=j|X,n-1,=i,n-1,一步转移概率,齐次马尔可夫链,齐次马尔可夫链,:,如果转移概率与所处的时刻,n,无关,:,P,ij,PX,n,=j|X,n-1,=i,例子,晴天 阴天 下雨,晴天,0.50 0.25 0.25,阴天,0.375 0.25 0.375,下雨,0 0 1,分 析,初始分布,:,假设第一天出现三种天,气的概率相等,P,0,=(),2,.,P,ij,:,表示天气从状态,i,转到,j,的概率,转移概率矩阵,状态转移图,1,2,3,0.5,0.25,第四天天气概率分布,如果,A,n,趋向于定值,马氏链具有稳定状态,6.,神经网络预测法,-,概述,Rumelhart,,,McClelland,于,1985,年提出了,BP,网络的误差反向后传,BP(Back Propagation),学习算法,BP,算法基本原理,利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计。,J.McClelland,David,Rumelhart,BP,神经网络模型,三层,BP,网络,2.4.1 BP,神经网络模型,激活函数,必须处处可导,一般都使用,S,型函数,使用,S,型激活函数时,BP,网络输入与输出关系,输入,输出,2.4.1 BP,神经网络模型,输出的导数,根据,S,型激活函数的图形可知,对神经网络进行训练,应该将,net,的值尽量控制在收敛比较快的范围内,BP,网络的标准学习算法,学习的过程:,神经网络在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。,学习的本质:,对各连接权值的动态调整,学习规则:,权值调整规则,即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。,BP,网络的标准学习算法,-,算法思想,学习的类型:有导师学习,核心思想:,将输出误差,以某种形式,通过隐层向输入层逐层反传,学习的过程:,信号的正向传播 误差的反向传播,将误差分摊给各层的所有单元各层单元的误差信号,修正各单元权值,BP,网络的标准学习算法,-,学习过程,正向传播:,输入样本输入层各隐层输出层,判断是否转入反向传播阶段:,若输出层的实际输出与期望的输出(教师信号)不符,误差反传,误差以某种形式在各层表示修正各层单元的权值,网络输出的误差减少到可接受的程度,进行到预先设定的学习次数为止,附:支持向量机及应用简介,机器学习的基本问题和方法,从给定的函数集,中选择出能够最好地逼近系统响应的函数,系统(,S,),学习机器(,LM,),输入,x,输出,y,有指导机器学习的目的是根据给定的训练样本,求出对某系统输入输出之间依赖关系的估计,使它能够对未知输入作出尽可能准确的预测。可以一般地表示为:变量,y,与,x,存在一定的未知依赖关系,即遵循某一未知的联合概率,F,(,x,y,),(,x,和,y,之间的确定性关系可以看作是其特例),有指导机器学习问题就是根据,N,个独立同分布观测样本,在一组函数,f,(,x,w,),中求一个最优的函数,f,(,x,w,0,),对依赖关系进行估计,使期望风险,最小,支持向量机,(,SVM,),支持向量机,(Surpport Vector Machines),简称,SVM,,是统计学习理论中最年轻的内容,也是最实用的部分。其核心内容是在,1995,年左右,由,Vapnik,和,Chervonenkis,提出的,目前仍处在不断发展阶段。,支持向量分类,(Classification),线性分类器,分类面,点,x,0,到平面,+b=0,的距离为,最优分类面,最大间隔,(margin),分类面方程为,支撑面之间的,距离叫做分类,间隔,线性可分的最优分类模型,作广义,Lagrange,乘子函数,由,KKT,条件,有,非支持向量的系数为,0,b,*,也由支持向量求得,事实上,将 代入目标函数,由对偶理论知,系数可由如下二次规划问题解得,给定,x,的分类结果,特点,:,稳定性、鲁棒性、稀疏性等,最大间距,:,由于对,则,线性不可分,(,软间隔,),线性不可分的情况,引入松弛变量,不可分的解方程,subject to,作,Lagrange,函数,最优性条件,由,KKT,条件,若,若,max,系数的解方程,C,不同带来的影响,支持向量回归,(Regression),问题,线性回归,:,给定训练集,(,x,i,y,i,),找个线性函数,f,(,x,)=,w,T,x,+,b,来拟合数据,最小二乘法,(Least Square),其中 为回归误差,.,记,则目标函数可写为,解为,最小二乘解的不足,:,数值稳定性问题,增加新数据对解都有影响,为使模型尽量简单需进行假设检验,.,脊回归,(Ridge Regression),数值稳定性较好,.,还可写为,敏感损失回归,敏感损失函数,(,-Insensitive Loss),支持向量机算法的应用领域,SVM,的应用主要于模式识别领域,贝尔实验室对美国邮政手写数字库进行的实验,分类器,错误率,人工表现,2.5%,决策树,C4.5,16.2%,最好的两层神经网络,5.9%,SVM,4.0%,SVM,与神经网络(,NN,)的对比,SVM,的理论基础比,NN,更坚实,更像一门严谨的“,科学,”,(三要素:问题的表示、问题的解决、证明),SVM,严格的数学推理,NN,强烈依赖于工程技巧,推广能力,取决于“经验风险值”和“置信范围值”,,NN,不能控制两者中的任何一个。,NN,设计者用高超的工程技巧弥补了数学上的缺陷,设计特殊的结构,利用启发式算法,有时能得到出人意料的好结果。,“,我们必须从一开始就澄清一个观点,就是如果某事不是科学,它并不一定不好。比如说,爱情就不是科学。因此,,如果我们说某事不是科学,并不是说它有什么不对,而只是说它不是科学,。”,by,R.Feynman,from,The Feynman Lectures on Physics,Addison-Wesley,同理,与,SVM,相比,,NN,不像一门科学,更像一门工程技巧,但并不意味着它就一定不好!,主要应用领域,手写数字识别,语音识别,人脸识别,文本分类,支持向量机研究,如何针对不同的问题选择不同的核函数仍然是一个悬而未决的问题。,标准的,SVM,对噪声是不具有鲁棒性的,如何选择合适的目标函数以实现鲁棒性是至关重要的。,支持向量机算法研究,支持向量机的本质是解一个,二次规划问题,虽然有一些经典(如对偶方法、内点算法等),但当训练集规模很大时,这些算法面临着维数灾难问题。为此,人们提出了许多针对大规模数据集的,SVM,训练算法。,支持向量机算法研究,训练,SVM,的绝大多数算法都是针对分类问题,只有一小部分算法考虑了回归函数的估计问题。,提高算法效率、降低复杂度。,2011-2012,学年第二学期,昆虫生态测报,期末考查方案,适用班级植保,091-2,,,083-6,根据,昆虫研究法,课程的教学大纲和实践性较强的课程特点特制定如下成绩考查方案:,平时成绩占期末总成绩,30%,,平时成绩打分依据为考勤记录和实验报告成绩。,期末考查成绩占总成绩,70%,,按学校规定用统一答题纸书写并统一格式书写封面。期末考查试卷纸封面见下:,昆虫生态测报期末考查试卷,姓名:,班级:植保,(阿拉伯数字)班,学号:,考查内容分三个题:,一、利用图书馆中文文献资源或,highwile,免费数据库、学术,Google,等搜索引擎检索一篇虫害发生的多元线性回归模型有关的文献。抄出文题、作者和杂志名及年期号。然后列出自变量与因变量内容、回归方程及相关系数。说明模型检验结果或历史符合率分析结果。,二、检索一篇其他模型文献,二、检索一篇模糊回归模型、灰色系统预测模型、,BP,神经网络模型、时间序列模型、支持向量机模型或其他预测模型的虫害发生文献。抄出文题、作者和杂志名及年期号。解释文献的输入因子、输出因子、数据处理方法。说明模型检验结果或历史符合率分析结果。,三、写一篇虫害预测设计,三、根据自己的本课程知识和相关学科知识,设计一个校园周围农田或校内花卉的虫害发生预测方案。列出所设计方案的输入因子、输出因子、数据处理方法,要求该方案有可行性和科学性。,谢谢大家,
展开阅读全文