资源描述
数据分析与筛选
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。
一:分析方法
列表法:
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
作图法:
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
二:数学建模中的数据分析
2.1.基本概率分布
在数学建模中对数据进行分析时通常要考虑数据的概率分布情况,这样可以更好的了解数据总体的分布情况,以及分布是否稳定等一些数据的相关特征,其中常用的概率分布有:
正态分布:密度函数:
分布函数为:
:若随机变量X1,X2,X3,.......Xn相互独立,都服从标准正态分布N(0,1),则随机变量
是服从自由度n的分布,记Y~t(n)。
服从自由度为n的t分布,记为T~t(n)。
F分布F(n1,n2)
若X~,且相互独立,则随机变量
服从自由度为(n1,n2)的F分布,记为F~F(n1,n2)。
在对随机现象的观察和研究中,人们发现有许多随机变量,它们是由大量的相互独立的随机因素的综合影响而形成的,而其中每个因素在总的影响中所起的作用又很小,且各因素的作用还是相对均匀的,则这种随机变量往往服从或近似服从正态分布。
数据分析在生活中的运用非常广泛,最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。
2.2.异常数据的挖掘和处理[1 ]
在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失[2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。 ]
异常数据的挖掘方法
所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以用以下几种方法进行挖掘:
3σ检测法[2 ]
一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列),都分布在其均值周围,标准差σ能反映其离散程度。统计数据可以是来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的0ε>,有:
特别地有,即统计数据与其均值的偏差超过3σ 比例不超过1/9则由不等式 ,即在正态分布下统计数据与平均值的离差大于3的概率仅为0.27%,所以可将那3σ 些有均值之差的绝对值超过3σ的统计数据视为异常数据。 根据概率论中的中心极限定理,
因此3σ检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。
2.3利用聚类分析法对数据处理
聚类分析又称群分析,是研究分类问题的一种多元统计方法。在聚类分析的过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。
1、数据在聚类分析之前要进行数据的变换,常用的方法有
a中心化变换:
变换后的数据均值为0,而协方差不变。
B.标准变换:
其中sj是标准差;变换后的数据每个变量的样本均值为0,而且标准变换后的数据与变量的量纲无关;
2、由聚类分析法的基本思想,即可得出
① 数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时为了便于计算和比较,或改变数据的结构;
② 计算n各样品两两间的距离,得到样品间的距离(常用欧式距离)矩阵;
③ 初始(第一步:i=1)n个样品各自构成一类,类的个数k=n,第i类,此时类的间距就是样品距离,然后对样品执行并类过程④和⑤;
④ 对步骤3得到的距离矩阵,合并类间距离最小的两类为一新类,此时类的总个数k减少一类,即k=n-i+1;
⑤ 计算新类与其他类的距离,得到新的距离矩阵,若合并后的总个数k仍然大于1,重复以上的过程,
⑥ 画谱系聚类图;
⑦ 觉定分类个数及各类的成员。
2.4.典型例子——市场占有率问题
一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市场范围有4种测算方法:
(1).总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。
(2).目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市场,因而它的目标市场份额总是大于它在总体市场中的份额 。
(3).相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大的 3个竞争者的销售总量之比。如:一个企业的市场份额是30%,而它的3个最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就是30%÷40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一定实力。
4.相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者的销售量之比。若高于100%,表明该企业是这一市场的领袖。
三、数据筛选
数据的筛选在数学建模中占有很重要的地位,它是数学建模的第一步,我们只有得到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中我们遇到的数据量往往是巨大的。为了保证我们所用的方法能够在原始数据的支持下得以实现,我们必须要对数据进行筛选,使得解决方法简单化。但是我们又要保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。
数据筛选有很多种不同的方法
3.1:随机抽样
从一个总体的样本X中随机抽取出n个个体,这样称对总体X进行随机抽样,其中n叫做样本容量,这n个个体构成了样本。在随机抽样过程中满足随机性和独立性两个特征,即对于每一次的抽样在总体中的每一个个体被抽到的概率都相同,每次抽取的结果不会影响到下一次的抽取。
这样的随机抽样适用于对总体的概率分析等统计方面的应用,比如可以分析数据中的最大值、均值、众数等数据特征不能够对数据的
3.2利用粗差法筛选数据
1基本假设
利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种筛选数据的方法,其主要的运用体现在矿井通风阻力测定数据前处理的运用中,以及其他相类似的数据处理。以下我们就以矿井的通风阻力为例介绍粗差筛选数据的方法。
在进行通风阻力测量时,要求选择合理的测量路线,在每条测量路线上选择合理的测量点,每个测量点至少要求5个数据。在测量期间,如果巷道通风状况等条件保持稳定,则某点的数据样本符合正态分布,且其平均值近似为真值。
某测点测量数据的样本x=(x1,x2,x3.....xn),n>5,的方差为
(1)
设允许的测量误差为a(0<a<1,一般取0.05或0.1),那样本均值近似代替真值,则样本值的最大允许范围为:
(2)
样本x的最大可能方差为:
(3)
测量数据之间的两两误差,则误差矩阵可以表达为 (4)
矩阵的无穷范数为:
(5)
2分析方法
某点的测量数据不存在粗差,则在给定的测量误差范围内有:
则认为存在粗差。
如果某此测量数据xi粗差中偏移最大的值,则在公式(4)所表示的误差矩阵中,当i=k时,取最大值,也可以表示为公式(5),即取误差矩阵的无穷范数时的测量误差xj-k为偏差最大的数据,亦称最大粗差。
如果某次测量数据较多,在保证计算可靠性的基础上,为了减少计算量或统一规范,也可以采用该方法进行有效筛选。
经过逐次筛选,将测量数据按偏移量从小到大按顺序依次排序,直到为止,这样就可以得到测量数据的正常取值范围。同时,为了保证测量的可靠性,一般要求具有代表性的数据至少有3个。
以上就是利用粗差来晒选数据的基本步骤,在筛选数据时的重要依据就是样本数据与无穷范数的差值,而无穷范数是通过误差矩阵经过公式(5)得到的。通过这样的方法就可以将数据筛选。
3.3利用自组织方法进行数据筛选
自组织理论是基于神经网络和计算机科学的迅速发展而产生和发展起来的。它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合起来。其主要思想是通过简单的初始输入(局部变量)的交叉组合产生第一代中间候选模型,再从第一代中间候选模型中选出最优的若干项组合而产生第二代中间候选模型,重复这样一个产生、选择和遗传进化过程,使模型复杂度不断增加,直到选出最优复杂度模型为止。本文利用自组织方法进行数据筛选和建立税收预测模型,并在数据筛选基础上建立线性回归预测模型和BP神经网络预测模型,然后结合时间序列的预测模型,利用自组织方法建立组合预测模型。通过预测结果比较得出了组合预测模型比其它单个模型具有更高的预测精度。其重要的应用体现在对税收收入的的预测问题上。
税收收入预测可以使用统计技术,其使用的模型一般分为时间序列模型和回归模型。时间序列模型的缺点在于不能充分利用与税收收入密切相关的经济因素,导致预测的数据不准确和不稳定。回归模型虽然考虑了经济因素,但需要事先知道其它经济因素与税收收入间的函数关系,而且为了获得比较精确的预测结果,需要大量的计算。许多实验表明BP神经网络用于税收等经济指标的预测也是一种适合的方法。神经网络的优点在于它具有模拟多变量而不需要对输入变量做复杂的相关假定的能力,只要利用以往的历史数据,就可以从训练过程中通过学习来抽取和逼近隐含的输入/输出非线性关系。但BP神经网络也有缺点,特别是在复杂系统建模时输入变量确定主观化等缺陷。为结合回归模型、时间序列模型和神经网络模型的优点,有人利用自组织方法将多种模型的预测结果进行组合,实现自组织方法的组合预测模型。所谓组合预测,就是将不同的预测方法进行适当的组合,综合利用各种方法所提供的有用信息,从而尽可能地提高预测精度。为提高预测的精度,自组织理论在复杂系统的模拟、预测、模式识别、样本聚类等诸方面都有成功的应用
利用自组织方法对数据进行预处理
利用自组织方法,将税收收入作为因变量,其余变量作为自变量,通过自组织GMDH方法的实现工具KnowledgeMiner 5.0建立模型得到税收与相关变量的模
型的方程为:
Y=-190.456894-0.033271X7+0105339X2+0.736523X9其中,决定系数R2=0.9934,预测误差平方和:0.0079,平均绝对百分比误差:4.53%,近似误差:0.0066。
从模型的拟合效果看,除1985年左右的拟合税收数据与实际税收相差超过5%之外,其余年份的数据拟合误差大多小于5%,说明回归模型建立成功。
根据该方程可知,该组变量中最能反映税收变化的变量有财政支出总量、城乡储蓄存款年末余额、社会消费品零售总额。自组织方法挖掘结果表明,由于相关性等原因,尽管税收收入与很多经济指标相关联,如与GDP之间就有非常密切的关系,但从拟合和预测的角度讲,并不是经济指标越多越好,也不一定是有密切关联的就一定选用,而应该选择最恰当的组合。
4.组合预测模型的建立
(1)利用以上变量建立四个单项模型。
①自组织方法建立模型Y1
:Y1=-190.456894-0.033271X7+0.105339X2+0.736523X9
②多元线性回归模型Y2:利用最小二乘法,根据实际税收观测值与回归估计值的偏差平方和最小为原则,通过SPSS软件计算得多元线性回归方程:Y2=-432.738+0.158X2-0.077X7+0.7652X9
通过拟合检验,除1985年左右的拟合税收数据与实际税收数据相差超过5%以外,其余年份的数据拟合误差大多小于3%,说明时间序列模型建立成功。
③时间序列模型Y3:时间序列模型基本思想是将预测对象随时间推移而形成的数据序列视为一个随机序列,即除去个别的因偶然原因引起的观测值外,认为时间序列是一组依赖于时间的随机变量。这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来就可以从时间序列的过去值及现在值来预测其未来值。时间序列模型一般有:自回归(AR)模型、自回归滑动平均)模型等。这里使用AR模型,时滞因子为1,通过KnowledgeMiner建立时间序列模型:
Y3(t)=-58.077019+1.182588Y3(t-1),其中t=2,3,…21,Y3(1)=629.89
通过拟合检验除1985年左右的拟合税收数据与实际税收数据相差超过5%之外,其余年份的数据拟合误差大多小于3%,说明时间序列模型建立成功。
(2)自组织方法组合预测模型。组合预测理论“组合预测”思想是由J.M.Bates和C.W.J Granger 1969年首次提出,其研究成果引起了预测学界的高度重视,其应用范围也逐渐扩大。组合预测理论的基本原理是:通过个体预测值的加权算术平均而得到其组合预测值,在确定加权权重(也称组合权重)时,以组合预测误差方差最小为原则。其本质就是将各种单项预测看作代表不同信息的片段,通过信息的集成分散单个预测特有的不确定性和减少总体的不确定性,从而提高预测精度。组合预测模型为:Y=(fY1,Y2,Y3,Y4),利用以上四种预测方法的数据拟合值和历年实际税收数据,使用KnowledgeMiner 5.0进行挖掘的组合预测模型:Y=47.07665+0.7708Y1-0.22236Y3+0.42303Y4
自组织方法挖掘的结果舍弃了按照观测值与回归估计值的偏差平方和最小为原则的线性回归方程而选用自组织方法建立的方程。研究表明,通过自组织理论数据挖掘得到的方程比按照观测值与回归估计值的偏差平方和最小为原则的线性回归方程在有噪声的情况下预测效果更佳。通过实际比较也确实发现自组织方法建立的方程拟合效果略差,而预测效果较好。
由于神经网络模型对数据的拟合非常精确,若只使用神经网络的训练数据通过自组织方法进行数据挖掘,很可能数据挖掘的结果会出现组合预测模型只与神经网络模型的结果相关而舍弃其它模型的预测结果,因此在使用自组织方法进行数据挖掘时不应全部使用神经网络拟合数据,而应适当使用预测数据。
5. 预测结果从中国统计年鉴取得2002~2004年财政支出总量、城乡储蓄存款年末余额、社会消费品零售总额和税收收入数据,见表2。分别通过以上建立的四个模型进行税收收入预测,并与实际税收收入进行比较,见表3。其预测误差平方和(FSSE)的计算。
通过自组织建模方法可挖掘出税收与各经济指标间的内在联系。线性回归模型、时间序列模型、神经网络模型都可较好地做相关预测工作;组合预测方法可进一步提高预测效果。由于税收收入很大程度上还受政策因素等影响(1985年前后税收数据),因此在进行数据选择和整理时还需尽量考虑这一因素。
参考文献:
[1].李明建,通风阻力测量数据粗差筛选方法的数学模型,煤炭科学研究总院,重庆
[2]:冯杰、黄力伟、王勤、尹成义,《数学建模原理与案例》2006年148901号
展开阅读全文