多元回归分析的应用研究.doc

资源描述

目录摘要： 1 关键词： 1 Abstract： 1 Key words： 1 引言 2 1 一元线性回归的思想及其应用举例 3 1.1 一元线性回归模型 4 1.2 一元线性回归模型的检验 5 1.3 一元线性回归模型举例 6 2 多元线性回归模型的思想及其应用举例 9 2.1 多元线性回归的数学模型 9 2.2 多元线性回归模型的检验 10 2.3 多元线性回归模型应用举例 11 2.3.1 研究问题的提出 11 2.3.2 数据采集与多元回归分析 11 2.3.3 EXCEL作回归分析确定待定系数的值 12 2.3.4 总结 13 3 前进法、后退法、逐步回归法思想及其举例 14 3.1 前进法 14 3.1.1 前进法回归分析的应用 15 3.1.1.1 回归方程 15 3.1.1.2 回归方程及系数检验 15 3.2 后退法 15 3.2.1 后退法回归分析的应用 16 3.2.1.1 回归方程 16 3.2.1.2 回归方程及系数的检验 16 3.3 逐步回归法 16 3.3.1 逐步回归分析的应用 17 3.3.2 研究结果比较 18 致谢 18 参考文献 19 附录 20 多元回归分析的应用研究摘要:回归分析方法是多元统计分析的各方法中应用最广泛的一种，也是数理统计中最成熟最常用的方法，主要是研究变量间的相互依赖关系。首先，本文通过建立一元线性回归模型，阐述了一元线性回归模型的基本统计思想以及它在实际问题研究中的应用原理。然后，推广建立了多元线性回归，运用SPSS等统计软件建立了由熟料化学成分分析结果预测抗压强度的模型，来指导水泥生产配比的调整，其更好的论证了多元线性回归，最优回归模型的检验、评价及预测。最后，通过前进法、后退法、逐步回归法，阐述了各个方法的思想以及步骤，论证了在多元回归方法中，并不是所有的自变量都对因变量有显著影响这一思想，举例说明了各方法的优缺点，保证所有子集为最优回归子集。同时我们也看出线性回归模型在解决这类经济增长、预测问题上有很好的效果，其作用具有很好的参考价值。关键词：一元线性回归；多元线性回归；前进法；后退法；逐步回归 Multiple Regression Analysis of Applied Research Abstract:Regression analysis method is the most widely used in various methods of multivariate statistical analysis of a, is also the most mature and most commonly used method in mathematical statistics, mainly is the study of mutually dependent relationship between variables. First of all, through the establishment of a yuan linear regression model, this paper expounds the basic statistical idea of a yuan linear regression model and its application in the actual problem research principle.Then, established the multivariate linear regression, using the statistical software of SPSS was established by the clinker chemical composition analysis result prediction model of compressive strength, to guide the adjustment of the ratio of cement production, its better demonstrates the multiple linear regression, the optimal regression model of inspection, evaluation and prediction.Finally, through the former entered, regressive method, stepwise regression method, this paper expounds the different methods of thought and steps, demonstrated in multivariate regression method, and not all the independent variables on the dependent variable has a significant impact on the ideas, the advantages and disadvantages of each method is illustrated by an example, ensuring that all subsets of the optimal subset regression.At the same time we also see that the linear regression model to deal with the problem of this kind of economic growth, forecast has very good effect, its action has the very good reference value. Key words：A yuan linear regression;Multiple linear regression;Before the law;Back method;Stepwise regression method 引言回归分析是对客观事物数量依存关系的分析，是一种重要的统计分析方法，广泛地应用于各类社会现象变量之间的影响因素和关联的研究。由于客观事物的联系错综复杂，很多现象的变化往往受到两个或多个因素的影响。为了全面揭示这种复杂的依存关系，准确的测定现象之间的数量变动，提高预测和控制的准确度，就要建立多元回归模型进入深入、系统的分析。多元回归分析是研究多个自变量与某个应变量之间相关关系的一种常用统计方法。一般地，我们有定义1.1 称为多元线性回归模型，其中是未知参数。是个未知参数，称为回归参数，称为回归系数，称为被解释变量，是个可以精确测量并控制的一般变量，称为解释变量（自变量），为了区别，称(1.1)为理论回归模型。在回归模型中，因变量和自变量都是一维的，称它为一元回归模型；若是多维，也是多维，则称它为多重回归模型。多元回归分析，是经济预测中常用的一种方法，通过建立经济变量与解释变量之间的数学模型，对建立的数学模型进行检验，在符合判定条件的情况下把给定的解释变量的数值代入回归模型，从而计算出经济变量的未来值即预测值。对于回归模型中的解释变量，有两种处理方法：一种当作确定性变量处理，另一种当作随机变量处理，所得计算公式式相同。其一般步骤是：首先取得解释变量和响应变量的多次观测值，这些观测值可能是实验得到的，也可能是调查出的；然后根据这些数据确定经验公式的类型，建立数学模型，列出待估参数；再用这些数据进行拟合；最后作统计分析。数据拟合是计算方法的内容，它也能解决回归分析中的数据拟合，但回归分析与计算方法的数据拟合不同，计算方法的数据拟合只估计未知参数，而回归分析不仅仅估计参数，而且要对拟合的结果作统计分析。就回归分析的发展而言，它自身的完善和发展至今是统计学家研究的热点课题。例如自变量的选择、稳健回归、回归诊断、投影寻踪、分位回归、非参数回归等模型仍有大量研究文献出现。在回归模型中，当自变量代表时间、因变量不独立并且构成平稳序列时，这种回归模型的研究就是统计学中的另一个重要分支—时间序列分析。它提供了一系列动态数据的处理方法，帮助人们科学的研究分析所获得的动态数据，从而建立描述动态数据的统计模型，以达到预测、控制的目的。对于满足基本假设的回归模型，它的理论已经成熟，但对于违背基本假设的回归模型的参数估计问题近些年仍有较多研究。在实际问题的研究应用中，人们发现经典的最小二乘估计的结果并不总是令人满意，统计学家从多方面进行努力试图克服经典方法的不足。例如，为了克服设计矩阵的病态性，提出了以岭估计为代表的多种有偏估计。斯泰因（Stein）于1955年证明了当维数P大于2时，正态均值向量最小二乘估计的不可容性，既能够找到另一个估计在某种意义上一直优于最小二乘估计，从此之后人们提出许多新的估计，其中主要有岭估计、压缩估计、主成分估计、Stein估计，以及特征根估计。为了解决自变量个数较多的大型回归模型的自变量的选择问题，人们提出了许多关于回归自变量选择的准则和算法；为了克服最小二乘估计对异常值的敏感性，人们提出了各种稳健回归；为了研究模型假设条件的合理性及样本数据对统计推断影响的大小，产生了回归诊断；为了研究回归模型中未知参数非线性的问题，人们提出了许多非线性回归方法，这其中有利用数学规划理论提出的非线性参数估计方法、样条回归方法、微分几何方法等；为了分析和处理高维数据，特别是高维非正态数据，产生了投影寻踪回归、切片回归等。近年来，新的研究方法不断出现，如非参数统计、自助法、刀切法、经验贝叶斯估计等方法都对回归分析起着渗透和促进作用。就回归分析的应用而言，多元回归方法因其实用性及有效性，在现今社会越来越多的领域得到广泛应用。早些时候，苑玉风应用多元回归分析和逐步回归分析，研究某种汽车发动机用球墨铸铁活塞环球化率的影响因素，并建立了相关关系。李金海在多元回归数学模型基础上，提出了多元回归方法的应用步骤。另外这一方法也被广泛的应用于预报各种气象参数，牛桂萍，黄祖英用多元回归分析做暴雨的长期预报，虽然误差较大，但他们同时指出有待于因子本身作进一步的改进。此外，多元回归分析方法也被越来越多的应用于预报各种自然灾害，王震宇等将这一方法用于滑坡预报，并用实例证明了能在一定程度上解决滑坡的预报问题。袁宇运用多元回归分析法，建立了化学污染面积，纵身与诸条件的关系，快速估算预测出突出性化学污染危害，并提前做出防范措施。索南仁欠也提出了水质污染的多元回归分析方法，这一方法的建立有助于我们更好地直观了解水质的最显著污染因素及在具体治污过程中，更有针对性地实施合理治污方案。对于太湖大面积的蓝藻事件，如果我们也应用这一方法，提前预测并做好防范工作，那污染所带来的危害及经济损失一定会有所减少。由此看来，回归模型技术随着它自身的不断完善和发展以及应用领域的不断扩大，必将在统计学中占有更重要的位置，也必将为人类社会的发展起着它独到的作用。 1 一元线性回归的思想及其应用举例一元线性回归是描述两个变量之间统计关系的最简单的回归模型。一元线性回归虽然简单，但通过一元线性回归模型的建立过程，我们可以了解回归分析方法的基本统计思想以及它在实际问题研究中的应用原理。在实际问题的研究中，经常需要研究某一现象与影响它的某一最主要因素的关系。如影响粮食产量的因素非常多，但在众多的因素中，施肥量是一个最主要的因素，我们往往需要研究施肥量这一因素与粮食产量之间的关系；在消费问题的研究中，影响消费的因素很多，但我们可以之研究国民收入与消费额之间的关系，因为国民收入是影响消费的最主要因素；保险公司在研究火灾损失的规律时，把火灾发生地与最近的消防站距离作为一个最主要的因素，研究火灾损失与火灾发生地和最近的消防站距离之间的关系。上述几个例子都是研究两个变量之间的关系，它们的一个共同点是：两个变量之间有着密切的关系，但它们之间密切的程度并不能有一个变量唯一确定另一个变量，即它们之间的关系是一种非确定性的关系。那么它们之间到底有什么样的关系呢？下面将举例说明。用下表1-1数据做出销售额数据与广告额数据之间的散点图，并对其做一元回归分析。表 1-1 产品销售额与广告额数据广告额（万元）产品销售额（万元）广告额（万元）产品销售额（万元） 4894 6809 5511 7784 4703 6465 6107 8724 4748 6569 5052 6992 5844 8266 4985 6822 5192 7257 5576 7949 5086 7064 6647 9650 运用EXCEL。得出销售额与广告额之间的散点图如下图 1-1所示：图1-1 销售额与广告额的散点图由图1所示的趋势线和回归方程和拟合的R平方值得到销售额与广告额之间的一元回归直线方程为：拟合度为，其拟合度非常高，拟合效果好，因此，该方程可以用于解释销售额的变化和销售额的预测。如每增加1万元的广告额，销售额将会增加1.6324万元。 1.1 一元线性回归模型通过以上例子我们看出它只考虑两个变量间的关系，即与间的线性关系可以看做是回归模型的特例，那么我们就可以定义一元线性回归模型的数学形式如下：称为变量对的一元线性理论回归模型。其中，是未知参数，称为回归常数，称为回归系数，称为被解释变量（因变量），是个可以精确测量并控制的一般变量，称为解释变量（自变量），是随机误差，且为了由样本数据得到回归参数和的理想估计值，使用普通最小二乘估计。定义离差平方和为为寻找参数的估计值，定义的离差平方和达到最小，则满足对其分别求偏导数，并令其为零，则有经整理其方程组得到的最小二乘估计为其中得到其回归直线 1.2 一元线性回归模型的检验（1）检验，其检验回归系数的显著性。原假设为对立假设是构造统计量为其中，是的无偏估计，当原假设成立时，其统计量服从自由度为的分布，给定显著性水平，当时接受，认为对的一元线性回归不成立。（2）检验。，根据平方和分解式简写为构造统计量其中服从自由度为的分布，给定显著性水平，当说明回归方程显著，对有显著的线性关系。 1.3 一元线性回归模型举例某快餐店已经在全国建立了多家分店。其成功的重要经验之一就是:店要建在学校附近。在新建立一家分店之前，管理层需要对这个新店的年销售额做出估计，这一估计用于确定新建餐馆的规模。管理人员认为，设在某校园附近餐馆的年销售额与该学校的人数有关。初步的看法是，设在规模大、学生人数多的学校附近的餐馆的年销售额高于设在规模小、学生人数少的学校附件的餐馆的年销售额。为研究新餐馆的年销售额随当地学生人数的变化规律，该快餐店收集了它的10个坐落在校园附近的销售分店的年销售额与其所在地学生人数的数据，这些数据如表1-2 表1-2 10个分店的年销售额及分店驻地学生人数餐馆序号学生人数（1000人）年销售额（1000人） 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 图1-2 学生人数与餐馆年销售额关系散点图譬如，对第一个分店，，表示该店坐落在有2000名学生的一所学校附近，年销售额为5800元；第二分店附近的一所学校有6000名学生，它的销售额达105000元；余类推。以学生人数为横轴，年销售额为纵轴，将观察结果组成的数据对在直角坐标系中描出相应的散点图。如图1-2，从图1-2可见，数据点大致落在一条直线附近，这显示这两个变量近似地就有线性关系。设随机变量与变量之间存在某种线性相关关系，这里，是可以控制的（或可以观察的）变量，设其中，称为随机误差。未知参数都不依赖于，式（1-1）称为一元线性回归模型。它描述了相依变量（销售额）与一个独立变量（学生人数）之间的线性关系。按前述假设，（1-7）式等价于方程，该式表示当已知时，可以精确地算出数学期望，由于表示不可控制的随机因素，通常就用作为的估计值，由样本得到（1-7）式的估计则方程为关于的估计回归方程或回归方程，其图形称为回归直线，式中表示的估计。系数采用最小二乘法计算，这里我们用的多项式拟合命令实现，其程序见附录1所示,得因此，用最小二乘法求得的估计回归方程是：回归直线如图1-2所示，可以看到它与所有的数据点都很接近。如果有充足的理由相信这个方程真实地反映了与之间的关系。对于给定的的值，我们就能够预测出可以信赖的的值，譬如，若一个新建的分店坐落在一所16000名学生的学校附近，那么有：即，这家分店的年销售额会达到140000元。变量与之间线性关系是统计意义上的，因此必须要对这种线性关系作统计检验。假定与的回归具有的形式。如果变量与之间确有这样的关系，即变量的值对的值施加了影响，则不会为零。因此，应该检验假设（1）检验经推导可知，的估计服从正态分布，即′其中而得无偏估计为残差平方和，可以得出，故，于是中的估计量就是，故可使用检验法对进行检验，检验统计量当为真时，此时其的拒绝域是：其中，为显著性水平。当假设被拒绝时，认为回归效果是显著的，反之，就认为回归效果不显著。将表1-2中的数据带入，可以计算出，且而对和自由度为的条件下，可以计算出临界值现在，故在显著水平下拒绝，即认为，认为回归效果是显著的。（2）检验在回归模型中只有一个独立变量的情况下检验和检验产生同样的结论。也就是说，若用检验法拒绝了，改用检验法同样会得到拒绝的结论。当为真时，统计量简写为其中服从自由度为的分布，将表2的数据带人，可以计算得又知且，所以通过计算可得对于，得出由于成立，故拒绝所获结论与检验相同。由次，我们有充分的理由相信方程真实地反映了与之间的关系。由以上可以看到，通过一元回归模型很好的解决的该快餐店的销售额估计，从而使其扩大经营有依可循，能有效的避免决策失误，减少经济损失，增大经济效益．可以说线性回归模型在解决这类经济增长、预测问题上有很好的效果。 2 多元线性回归模型的思想及其应用举例 2.1 多元线性回归的数学模型设随机变量与一般变量的线性回归模型为其中，是个未知参数，称为回归参数，称为回归系数，称为被解释变量（因变量），是个可以精确测量并控制的一般变量，称为解释变量（自变量），是随机误差，且称为理论回归方程。对一个实际问题，获得组观测数据则线性回归模型式可以表示为写成矩阵形式为其中对于多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样，采用最小二乘估计，即寻找的估计值即离差平方和最小。使其满足对其分别求偏导数，并令其为0，以上方程组经整理后，用矩阵形式表示的正规方程组移向得当存在时，即得回归参数的最小二乘估计为得出多元线性回归预测模型为 2.2 多元线性回归模型的检验对于多元线性回归方程的显著性检验与一元线性回归方程的显著检验既有相同之处，也有不同之处。下面将介绍两种统计检验方法即检验和检验。（1）检验，检验是对整个回归方程的显著性检验，为此提出原假设为建立对进行检验的统计量，利用总离差平方和的分解简写为则统计量如下在正态假设下，当原假设成立时服从自由度为的分布，于是，可以利用统计量对回归方程的总体显著性进行检验。当时，拒绝原假设，认为在显著性水平下，与有显著的线性关系即回归方程是显著的，反之，当时，认为回归方程不显著。（2）检验，检验是用来对每个回归系数是否有意义进行的检验。构造统计量其中是矩阵主对角线的第个元素，服从自由度为的分布。当给定显著性水平，如果则认为对有显著影响，否则认为其线性效果不显著。（3）检验，检验是用于检验回归方程对样本观测值的拟合程度，其计算公式为复相关系数说明这一组影响因素与的相关程度，值越接近1，说明利用多元线性回归的效果越好。 2.3 多元线性回归模型应用举例 2.3.1 研究问题的提出水泥熟料的强度在水泥生产中是一个关键性的指标，甚至可以说是水泥熟料质量好坏的结论性指标。由于其测量周期长，数据不能及时反馈给用户，同时企业又不能因为此项指标的缺失而拒绝发货，因此多数水泥企业出厂管理采用强度累计增长率即二元回归的方法预测水泥熟料强度。经过长期实践证明，累计增长率的方法确实可以作为预测水泥熟料强度的依据，但要做到水泥企业的精细化管理，其预测的准确程度还有待商榷。影响水泥熟料强度的因素很多，如：矿物组成数量、化学成分、熟料的烧结状况、熟料矿物晶体的晶型等。累计增长率的方法完全忽略了这些关系，本文提及的多元回归分析强调化学成分与水泥熟料强度的关系，运用多元回归的方法预测水泥熟料的强度。众所周知水泥熟料的水化产物主要有4种，分别为：。其中对水泥熟料强度起主要作用的是和对水泥熟料的影响较大。水泥熟料的强度是其矿物组成物理特性的表现，直接获取水泥熟料水化产物的含量比较困难，但其化学成分通过化学分析的方法却能得到较精确的结果，水泥熟料的化学成分能间接反映其水化产物。是水泥熟料水化的有害成分，含量过高会影响水泥的安定性。因此本文选取水泥熟料中的化学成分的含量与水泥熟料强度进行多元回归分析。 2.3.2 数据采集与多元回归分析选取生产工艺状况比较稳定、熟料全分析及物检数据准确度符合分析、检验要求、并具有代表性的若干组检验数据作为回归分析基础数据，原始数据应不少于20 组。在此采集千业水泥公司6、7 月份熟料检验结果列于附录表2-1 根据常规熟料化学分析项目，建立多元线性回归分析的数学模型如下：式中：为预测的熟料抗压强度；分别表示熟料化学分析中的百分含量；为待定系数。 2.3.3 EXCEL作回归分析确定待定系数的值创建一个EXCEL工作表，并将所采集的数据组熟料化学分析及物检数据输入表中。然后将光标移到列、回归系数行的单元格，单击“粘贴函数”打开粘贴函数中的“函数分类（C）”选择其中“查找与引用”，在“函数名(N)”中选择“INDEX”然后按“确定”，此时在编辑栏中出现“=INDEX()”。再在“=INDEX()”的括号内输入表格定位：(LINEST(I5:I30，B5:H30)，8)，此时编辑栏中显示=INDEX(LINEST(I5:I30，B5:H30)，8)，单击编辑栏的“√”即可得出的值。将光标移到x1下回归系数行的单元格，采用同样方法输入=INDEX(LINEST(I5:I30，B5:H30)，7)，，即可得出x1的数值，移动光标到相应系数下单元格，同样方法，只需将公式中最后一个数字依次改为“6、5、4、3、2、1”，即可依次得出的值。在EXCCEL中可以方便地用所求公式对强度结果进行验算，将光标移到上面EXCCEL工作表的单元格J5，单击后单击“粘贴函数”打开粘贴函数中的“函数分类（C）”选择其中“全部”，在“函数名(N)”中选择“SUMPRODUCT”然后按“确定”，此时在编辑栏中出现“=SUMPRODUCT()”。再在“=SUMPRODUCT()”的括号内输入：“B5:H5，C2:I2”，然后再加上即“+B2”，此时编辑栏中显示=SUMPRODUCT(B5:H5，C2:I2)+B2。单击编辑栏的“√”，即可得出6.17 的抗压强度预测值见表2-1。将光标移到单元格J5 的右下角，当其变为黑十字时，按下鼠标左键，向下拖至单元格J30，即可得出所有相应的抗压强度预测值。将光标移到工作表的单元格K5，单击后在上方编辑栏内输入公式“J5-I5”即可得出6.17 的物理检测值和预测值的差，采用同样方法向下拖至单元格K30，即可得出所有相应的误差值。其统计分析结果见表2-1 其预测公式在SPSS中选择工具一数据分析一回归，其输出结果见下表2-2，以及附录表2-3 表2-2 系数表模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) 2.017 1.000 2.017 .059 x1 .687 .011 .953 61.450 .000 x2 .537 .012 .661 45.534 .000 x3 .878 .026 .399 34.349 .000 x4 -1.088 .030 -.364 -36.399 .000 x5 -1.497 .021 -.780 -71.426 .000 x6 .126 .008 .170 14.897 .000 x7 .477 .011 .509 44.921 .000 将所有结果保留2位有效数字，则水泥熟料强度预测公式(1)为：式中：每个回归系数下面括号中的数值是与其互相对应的值.其中为水泥熟料强度预测值，分别代表水泥熟料中：元素的含量。由以上回归方程可以看出，它与EXCEL所得到的回归系数值极匹配，所选取的回归方程准确性较好，在实际测量中结果也令人满意。下面对模型进行检验。（1）检验根据显著性水平，查分布表，得通过统计软件计算处理得到从以上可得三个回归系数的检验均通过，同理检验通过，所选择的自变量是影响强度的的主要因素。（2）检验通过计算机得到根据显著性水平，查分布表得，因为，所以，检验通过，表明回归方程的回归效果显著。整体上对有高度显著的线性关系。（3）复相关系数，决定系数，由决定系数看回归方程高度显著。本文所得的回归经验公式是建立在生产工艺较稳定，化学分析结果和熟料强度有较好的线性相关关系的基础上。采用此方法，对焦作千业水泥有限责任公司2007年6月17日至2007 年7月16日期间生产较为正常的熟料抗压强度进行了预测（见附录表2-1），与物检实际抗压强度相比，其绝对强度误差最大值为，绝对平均强度误差为，相关性很好，并且以水泥熟料水化机理、矿物组成与其强度的关系为依据，强调水泥熟料中化学成分对其强度的影响，选用多元回归的分析方法，打破传统累计增长率的预测形式、预测模型更加科学，具有指导水泥生产配比调整的意义。 2.3.4 总结在多元线性回归分析中，我们知道回归方程中所包含的自变量越多，那么回归平方和就越大，则剩余平方和就越小，一般情况下剩余标准差也随之减少，回归方程效果越好，而精度也越高。在“最优”回归方程中总希望包括尽可能多的自变量，特别是对因变量有显著影响的自变量不能遗漏。但回归方程所包括的自变量太多，也带来不利的一面，首先，若要求自变量多，则在预测时必须测定许多量，并且计算也不方便;其次，如果在回归方程中包括有对因变量y 不起作用或作用极小的自变量，那么剩余平方和也不会由于自变量的增加而减少，相反由于的自由度的减少，反而使剩余标准差增大，这就影响回归方程的精度;第三，由于存在着对因变量影响不显著的自变量，以致影响回归方程的稳定性，使预测效果下降。因而，在“最优”回归方程中，又希望不包括对因变量影响不显著的自变量。综上所述，所谓最优回归方程，就是在回归方程中包括所有对因变量有显著影响的自变量，而不包括对因变量影响不显著的自变量的回归方程。最优回归方程的建立，是采取将自变量逐个引入的方法。引入自变量的条件是:该自变量的偏回归平方和经检验是所有自变量中最显著的。同时，每引入一个新变量后，要求对已引入的自变量逐个进行检验，将偏回归平方和变得不显著的自变量及时剔除。由于每步都作检验，因而保证了最后所建立的回归方程中所有自变量都是显著的。上述这种建立最优回归方程的理论和方法，称为逐步回归分析。 3 前进法、后退法、逐步回归法思想及其举例 3.1 前进法前进法的思想是变量有少变多，每次增加一个，直至没有可引入的变量为止，具体做法是首先将全部个自变量分别对因变量建立个一元线性回归方程，并分别计算这个一元回归方程的个回归系数的检验值，记为，选其最大值记为给定显著性水平，若，则首先将引入回归方程，为了方便，设就是。接下来因变量分别与建立个二元线性回归方程，对这个回归方程中的回归系数进行检验，计算值，记为，选其最大者记为若，则接着将引入回归方程。以上述方法接着做下去，直至所有的未被引入方程的自变量的值均小于时为止。这时，得到的回归方程就是最终确定的方程。每步检验中的临界值与自变量数目有关，在用软件计算时，我们实际使用的是显著性值做检验。 3.1.1 前进法回归分析的应用例4 现实生活中，影响一个地区居民消费的因素很多，例如，一个地区的人均生产总值、收入水平、消费价格指数、生活必需品的花费等。本例选取9个解释变量研究城镇居民家庭平均每人全年的消费性支出，解释变量为：居民的食品花费，居民的服装花费，居民的居住花费，居民的医疗花费，居民的教育花费，地区的职工平均工资，地区的人均，地区的消费价格指数，地区的失业率。本例选取2009年《中国统计年鉴》我国的30个省、市、自治区（西藏地区失业率数据缺失，因此从样本中剔除西藏）2008年的数据，以居民的消费性支出（元）为因变量，以如下9个变量为自变量作多元线性回归。数据见附录，其中，自变量单位为元，的单位为。对例题4城镇居民消费性支出关于9个自变量做回归数据，用前进法做变量选择，取显著性水平。 3.1.1.1 回归方程从中可以看到，前进法依次引入，则城镇居民消费性支出关于9个自变量的回归方程为 3.1.1.2 回归方程及系数检验（1）回归模型的假设检验：从表中可以看出，其值小于0.05，则说明居民消费性支出的回归系数不为0，其回归模型有统计意义。（2）偏回归系数的假设检验：表中，则在0.05的显著性水平下，该各回归系数不为0.说明对各个自变量有显著影响。（3）衡量线性回归模型优劣的标准，其复决定系数，表明：用样本量和模型中自变量的个数进行调整后，模型中自变量有的解释力比前四次回归都显著，这也说明了与之间高度的线性相关关系。 3.2 后退法后退法。是将全部自变量回归，然后对每个自变量做显著性检验，剔除最不重要的变量.后退法其具体做法是对个回归系数进行检验，记求得的值为，选其最小者记为给定显著性水平，若，则首先将从回归方程中剔除，为了方便，设就是。接着对剩下的个自变量重新建立回归方程，进行回归系数的显著性检验，像上面那样计算出，如果又有，则剔除，重新建立关于个自变量的回归方程，依此类推，直至回归方程中所剩余的个自变量的检验值均大于临界值，没有可剔除的自变量为止，这时，得到的回归方程就是最终确定的方程。 3.2.1 后退法回归分析的应用对例4城镇居民消费性支出关于9个自变量做回归数据，用前进法做变量选择，取显著性水平。 3.2.1.1 回归方程后退法依次引入了其最优回归模型如下：居住，医疗保健，教育，平均工资，人均，消费价格指数 3.2.1.2 回归方程及系数的检验（1）回归模型的假设检验：从表中可以看出拒绝原假设，说明回归方程显著，其回归模型有统计意义。（2）偏回归系数的假设检验：表中检验的结果，值分别等于3.602，3.121，3.014，2.683，8.397，1.738，3.502各自值为0.002，0.005，0.006，0.013，0.000，0.096，0.002在显著性水平，则拒绝原假设，该各偏回归系数均不为0，且对居民消费性支出有显著影响。（3）衡量线性回归模型优劣的标准：复决定系数为调整的复决定系数表明：用样本量和模型中自变量的个数进行调整后，模型中自变量有的解释力比前两次回归都显著，这也说明与之间高度的线性相关关系。 3.3 逐步回归法逐步回归的基本思想是有进有出。具体做法是将变量一个一个引入，每引入一个自变量后，对已选入的变量进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其剔除。引入一个变量或从回归方程剔除一个变量，为逐步回归的一步，每一步都要进行检验，以确保每次引入新的变量之前回归方程中只包含显著的变量，这个过程反复进行，直到既无显著的自变量选入回归方程，也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷，保证了最后所得的回归子集是最优回归子集。在逐步回归法中要注意的一个问题是引入自变量和剔除自变量的显著性水平值是不同的，要求引入自变量的显著性水平小于剔除自变量的显著性水平，否则可能产生“死循环”。 3.3.1 逐步回归分析的应用

展开阅读全文