预测模型数据处理方法.pptx

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,预测模型,最近几年，在全国大学生数学建模竞赛常常出,现预测模型或是与预测有关的题目，例如疾病的传,播，雨量的预报，人口的预测等。什么是预测模型？,如何预测？有那些方法？对此下面作些介绍。,预测的目的在于认识自然和社会发展规律，以及在不同历史条件下各种规律的相互作用，揭示事物发展的方向和趋势，分析事物发展的途径和条件，使人们尽早地预知未来的状况和将要发生的事情，并能动地控制其发展，使其为人类和社会进步服务。,一预测的前期准备工作,为保证预测结果的精确度，预测之前必须做一系列的准备工作：,（一）数据的准备：,数据的收集和整理；,数据的分析和处理；,数据的内涵及数量；,数据处理的原则,准确,，处理后的数据能正确反映事物发展的未来趋势和状况；,及时,，数据的处理要及时；,适用,，处理的数据能满足建模的需要；,经济,，要尽量减少数据处理的费用，以降低预测成本；,一致,，处理的数据在整个比较性。使用期间内必须是一致的，具有可比较性,数据处理的方法,（,1,）,判别法,通过对历史数据的判断，选择其中可代表整个预测过程中很可能发生的模式的数据作为建模数据,（,2,）,剔除法,如果数据量比较大，且非必须具备连续的数据量，这时可剔除数据中受随机干扰的异常值；,（,3,）,平均值法,在数据比较少或需要连续数据时，则可采取平均值法对数据进行处理。,（,4,）,拉平法,由于条件发生变化，常常使一些厉史数据不能反映现时的情况，例如，大型钢铁厂、化肥厂、或油气田的建成投产或开发，可以使产量猛增，这时历史数据将发生突变，出现一个转折，如用这类数据建模，则需要处理。这时拉平法是一种较好的方法。它的原理是对转折点前的数据加一个适当的量值，使其与折点后的数据走向一致。,（,5,）,比例法,销售条件与环境的变化常常会引起一个企业产品市场销售比例的改变。当比例变化较大时，说明销售条件与环境对销售的影响己超过其他因素对销,售的影响，也说明以前的销售统计数据所体现出的销售发展规律不再适用之于目前的情况了。如果仍然利用这些数据建立预测模型，将无法体现销售条件和环境变化后的销售量变化的规律，用这样的模型进行预测，将会造成较大的误差。因此，如果还想利用这些数据建立模型，进行预测，就应该把它们处理成能体现条件与环境发生变化之后的情况的数据。对于这类数据，比例法就是一种比较有效的处理方法。,（,6,）,移动平均和指数平滑法,如果原始数据总体走向具有一定规律性，但因受随,机因素干扰，数据离散度很大，采用平均值法也难以处理。这时可采用一次、二次、甚至三次移动平均和指数平滑对数据进行平滑，用平滑的数据建模。,在分解预测时，为处理季节数据，则必须采用高次幂的移动平均法，对数据平滑。,（,7,）,差分法,有些模型，例如鲍克斯,-,詹金斯模型只能处理平稳数据，如果原始数据为非平稳数据，则需釆取差分处理。差分有三种主要类型：前向差分、后向差分、中心差分。,前向差分,：在处理时间数列时，一阶前向差分定义为,一阶前向差分是当时间由,t,变到,t+1,时，的改变量。,二阶前向差分定义为,后向差分,：在处理时间数列时，一阶后向差分定义为,一阶后向差分是当时间由,t,递推到,t-1,时，的改变量。,二阶后向差分定义为,中心差分,：在处理时间数列时，一阶中心差分定义为,二阶中心差分为,在处理时间数列时，主要应用后向差分。一次多项式数据通过一阶差分就可转换为平稳数据，二次多项式和三次多项式数据分别通过二阶和三阶差分可转换为平稳数据，而三次以上的高次多项式在应用中很少采用。,二预测的数学准备,在预测过程中需要很多数学知识，主要有微分方程、概率与数理统计、线性规划和非线性规划等等。但使用最多的是统计学的相关知识：常用的统计量、参数的估算、假设检验、区间估计等。这些我们就不做介绍了。,定量预测法,时间序列模型,时间序列模型主要研究事物的自身发展规律，借以预测事物的未来趋势。主要方法有移动平均、指数平滑、分解预测、鲍克斯詹金斯模型、多变量模型以及类推法等。,特点和应用范围,时间序列一般指一组按时间顺序排列的数据，展示了研究对象在一定时期的发生变化过程。时间序列模型，就是根据预测对象时间变化特征，研究事物自身的发展规律，探讨未来发展趋势，是一种重要的定量预测方法，包括多种模型，主要适用于经济预测、商业预测、需求预测、库存预测等，预测期限主要为中、短期，不适用于有拐点的长期预测。,（一）移动平均值模型,移动平均法是一种最简单的适应模型，是在算术平均的基础上发展起来的一种预测方法。,算术平均虽能代表一组数据的平均水平，但它不能反映数据的变化趋势，而原始数据虽然存在某种趋势，但数据可能是零散的或杂乱无章的，无法直接加以分析。移动平均法克服了上述弱点，其基本方法是，选一个固定的周期,N,，对数据进行平均，每递推一个周期就加上后一个数据，舍去初始数据，依次类推，直至把数据处理完毕。,以,N=5,为例：,表示第五、第六个周期的一次移动平均值，依次类推。若移动平均的周期为,N,，则可得到计算移动平均值的一般公式,：,其中，,表示第,t,期的一次移动平均值,可见，移动平均法实际上是对于某一期数据，取前,N,个数据进行平均，,N,个数权数相同，而其它数据的权这样，经过移动平均，将消除数据列中异常的因素，对数据进行修匀。一般情况下，如果数据没有明显的周期变化和趋势变化，可用第,t,期的一次移动平均值作为,t+1,期的预测值，即,其一般公式为,表,1,中的的第一列和第二列，即是原始数据与一次移动平均值的对比。始取,N=3,的,3,期移动平均，则第三期数据的移动值为,5766.33,，是,l,由（,5600,5796,5930,）,/3,得到的。如用于预测，它可以作为第,4,期的预测值。在一次移动平均值的基础上，应用移动平均的原理，还可以进行二次甚至多次的移动平均，二次移动平均，就是以一项移动平均值为原始数据，再进行一次移动平均，如以,N=5,为例：其公式为其公式为,式中：,表示第,9,期的二次移动平均值，,其一般公式为,二次移动平均使原始数据得到了进一步修匀，使其显现线性趋势。表,1,中的第三列数据为,N=3,的二次移动平均值。,序列,原始数据,一次移动平均值,二次移动平值,1,2,3,4,5,6,7,8,9,10,11,5600,5796,5930,6092,6257,6567,6851,7141,7436,7738,8045,5775.3,5939.3,6093.0,6305.3,6558.3,6853.0,7142.7,7438.3,7739.7,5935.9,6112.5,6318.9,6572.2,6851.3,7144.7,7440.2,移动平均值表（,1,）,式中：,-,预测超前期数,通过查表（多项式模型参数估算公式）可知：,对于上表中的数据，如以,11,期数据预测,12,期值，当取,N=3,时，则有：,在二次移动平均值的基础上，可建立线性模型：,预测方程为,使用移动平均法，最重要的是移动周期,N,的选,择。因为,式中：,移动平均值方差,原始数据点方差,N ,数据点数,也就是说，移动平均修匀后的方差，随着,N,的加大而减少。也就是,N,越大，对原始数据修匀能力越强。下表数据可清楚反映这一规律。,（,1,）,月份,（,2,）,期数,（,3,）,实际,销售额,（,4,）,三个月,移动平均值,（,5,）,五个月,移动平均值,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,200.0,135.0,195.0,197.5,310.0,175.0,155.0,130.0,220.0,277.0,235.0,176.7,175.8,234.2,227.5,213.3,153.3,168.3,209.2,244.2,207.5,202.5,206.5,193.5,198.0,191.4,203.5,（某日用品电器销售额的移动平均预测）表（,2,）,然而修匀能力与对外界变化的反映速度是互相矛盾的，两者不能兼得。因此，对于,N,值一般应视具体情况，采用折衷办法确定。根据过程的实际发展趋势，,N,值大体有如下四种选择方法：,（,1,）,水平式,也就是趋势保持不变，移动平均值是无编差的，,M,值与,N,值无关。,（,2,）,脉冲式,趋势仅在某一段时间突然增加或减少，随后又保持不变，,N,取得越大，,M,的误差越小，因此,N,应取得较大些。,（,3,）,阶梯式,趋势仅在开始一段时间保持不变，然后增加或减少到一个新的水平后又保持不变，,N,取得越小，,M,的误差越小，因此,N,应取得较小。,（,4,）,斜坡式,趋势周期的递增或递减，,M,总是比实际趋向落后，因此,N,应取得越小越好。,一般情况下，如欲加大原始数据的修句力度，则,N,宜取大些，如果希望加大对外界变化的反映力度，刨,N,宜取小些。,N,的取值范围一般为,3,20,。,例,我国,1980,1990,年工业劳动人数见表，用二次移动平均数法预测,1991,1994,年的劳动人数。,年份,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,人数,5600,5796,5930,6092,6257,6567,685,714,7436,7738,8045,1980,1990,年我国工业劳动人数（万人）（表,3,）,首先，选择移动平均周期,N,。本例中数据趋势较明显，呈直线趋势，为尽量反映近期变化动向，可取,N=3,。利用移动平均公式，首先计算一次移动平均数：,在此基础上再计算二次移动平均数：,计算结果见（表）。根据表（,3,）的数据可建立线性趋势模型：,前已计算得：,则：,由此得,1991,1994,年劳动人数分别为,8338.7,，,8638.2,，,8937.7,，和,9236.2,万人。,（二）指数平滑模型,在时间序列预测过程中，一般来说历史数据对未来发展的影响是不等价的，数据由近及远对未来的影响价值递减。如果这种递减遵循指数规律，并以此进行预测，则可采用指数平滑法。指数平滑法比移动平均法需要的数据量少，计算更为方便。,一次指数平滑公式为,其中,t,期数据的指数平滑值，,a,平滑常数，,0a1,现期数据值。,对上式递推展开则得,依此类推可得一次指数平滑的一般公式为,上式表明，数据列,的权数分别是,a,，,a(1-a),，,即离,t,时刻越远,的数据，,权数越小，而且权数的变化呈指数几何级数。,用一次指数平滑法进行预测时，将,t,期的平滑值作为,t+1,期的预测值，即,

展开阅读全文