讲有关分析与回归分析.doc-资源下载-咨信网-让知识获取变得高效

讲有关分析与回归分析.doc

1、第二讲相关分析与回归分析第一节相关分析 1．1 变量的相关性 1．变量的相关性分两种，一种是研究两个变量X与Y的相关性。本节只研究前者，即两个变量之间的相关性；。 2．两个变量X与Y的相关性研究，是探讨这两个变量之间的关系密切到什么程度，能否给出一个定量的指标。这个问题的难处在于“关系”二字，从数学角度看，两个变量X、Y之间的关系具有无限的可能性，一个比较现实的想法是：确立一种“样板”关系，然后把X、Y的实际关系与“样板”关系比较，看它们“像”到了什么程度，给出一个定量指标。 3．取什么关系做“样板”关系？线性关系。这是一种单调递增或递减的关系，在

2、现实生活中广为应用；另外，现实世界中大量的变量服从正态分布，对这些变量而言，可以用线性关系或准线性关系构建它们之间的联系。 1．2 相关性度量 1．概率论中用相关系数(correlation coefficient)度量两个变量的相关程度。为区别以下出现的样本相关系数，有时也把这里定义的相关系数称为总体相关系数。可见相关系数是判断变量间线性关系的重要指标。 2．样本相关系数我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度。这个估计称为样本相关系数，或Pearson相关系数。它能够根据样本观察值计算出两个变量相关系数的估计值。

3、和总体相关系数一样，如果，称X和Y不相关。这时它们没有线性关系。多数情况下，样本相关系数取区间(-1, 1)中的一个值。相关系数的绝对值越大，表明X和Y之间存在的关系越接近线性关系。 1．3 相关性检验两个变量X和Y之间的相关性检验是对原假设 H0：Corr(X,Y) = 0 的显著性进行检验。检验类型为t。如果H0显著，则X和Y之间没有线性关系。 1．4 计算样本相关系数Correlate\Bivariate 例1 数据data02，计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。打开Correlate\Bivariate对话框，

4、将变量salary、salbegin、educ和prevexp输入Variables，点击OK，即得表格：表格中的Pearson Correlation指样本相关系数，例如起始薪金与受教育年限的相关系数为0.633；Sig.为相关性检验结果，起始薪金与受教育年限的相关性检验结果为Sig.=0.000，在0.05和0.01的水平下，都能否定它们不相关的假设。N为观察值个数。 1．5 偏相关系数 1．控制变量以上在计算变量X和Y的相关系数时，并没有考虑有其他变量的影响。例如：计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890，但是当前薪金显然

5、还受到受教育年限(educ)的影响，这个影响在计算相关系数时没有被扣除，因此0.890这个数字不完全真实。如扣除educ的影响，在计算salary和salbegin的相关系数，就更接近真实了。这个被扣除的变量就叫控制变量，这里educ便是控制变量。控制变量可以不止一个。 2．偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系数(partial correlation)，计算命令为：Correlate\Partial. 例2 数据data02，计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。在Partial Correlations对话框中，将变量salary

6、salbegin输入Variables，将变量educ输入Controlling for，然后OK，得：其中Corrlation指偏相关系数，df自由度，Significance是对原假设H0：pCorr(X,Y)＝0检验结果得到的水平值。可见：偏相关系数值等于0.795；不能接受不相关的假设。第二节线性回归方程 2．1 一元线性回归方程 1．相关分析是以线性关系为“样板”，讨论变量X和Y的相关程度，这一程度用相关系数表示。我们不禁要问：这个“样板”是什么？也就是把这个做“样板”的线性表达式：给出来，这也就相当于把系数b0和b1估计出来。这样，变量X

7、和Y的关系就可以表示成为：其中e为误差，是一个随机变量。显然，相关系数绝对值越大，误差e在表达式中占的比重就越小，也就是线性部分占的比重越大，这就有可能用线性表达式(1)近似表达变量X和Y的关系。称线性表达式(1)为变量Y对于X的（一元线性）回归方程。回归分析的主要任务是回答： 1）回归方程(1)能否近似代表变量X和Y的关系。这实际是对线性部分与误差部分各占比重的估量； 2）怎样估计回归方程(1)，也就是怎样估计参数b0和b1。显然，在任务2）完成前，任务1）无从开始。 2．回归的基本假设解决回归分析的主要任务还是要从样本：入手。套用(2)

8、样本(3)可以写成：以下所有分析推导都从(4)出发。显然，需要用到一些数学方法。为此提出以下基本假设：假设1 E(ei) = 0，i=1,2,…,n；假设2 Var(ei) = s2 = const，i=1,2,…,n；假设3 Cov(ei, ej) = 0，i¹j；假设4 ei～N(0, s2)，i=1,2,…,n。 3．回归系数b0、b1的最小二乘估计这一部分内容实际是估计回归方程。作为变量X和Y实际关系的近似，自然要求回归方程(1)计算出的Y值与样本观察值具有最小误差。即把X代入(1)计算出的Y值：与实际观察到的Yi误差

9、最小。回归系数的估计式。通过它，可以完全确定回归方程。 4．回归方程的评价确定了回归方程后，一个重要问题浮出水面：这个回归方程有多大的代表性？能否投入使用？ 1）平方和分解公式公式中的三个平方和分别叫做：总平方和(total) 残差平方和(Residual) 回归平方和(Regression) 于是(9)式也可以写成： ST = SE + SR。设就是平方和分解公式。平方和分解公式指出一个事实：残差平方和SE与回归平方和SR之和是一个常量，而残差平方和SE越大，表明回归方程跟样本观察值拟合得越差，反之则越好。

10、但从回归平方和SR看，则正好相反，即：SR越大，回归方程跟样本观察值拟合得越好。 2）判决系数与复相关系数定义回归平方和SR与平方总和ST的比值称为回归方程的判决系数，用R2表示判决系数，则有：判决系数的算术平方根称为回归方程的复相关系数。显然：。判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。判决系数也回答了(2)中线性部分所占比重的问题。 3）回归方程的显著性检验原假设 H0：b1 = 0 （回归方程不显著）检验统计量：在给定检验的显著性水平a0（例如0.05）后，如果计算得统计量F对应得水平值Sig.

11、受H0，这时称原假设H0不显著，也就是回归方程显著，这就意味着：接受回归方程近似代表变量Y和X的关系。 5．回归分析命令Regression\Linear 例3 数据data04，计算身高(high)与体重(weight)的相关系数，并以身高为自变量，体重为因变量求线性回归方程，同时计算判决系数、检验回归方程的显著性（取检验水平a0＝0.05）。打开Linear Rgression对话框，将因变量体重(weight)输入Dependent，将变量身高(high)输入Independent，点击OK，得输出文件表格系列：该表格是变量进入或移出回归方程的记录，它指出：

12、进入方程的变量是high，没有变量移出方程，使用的方法为Enter（在回归方程的优化一节中会讨论）。两个注是：a.所有提供的自变量都进入方程。b.因变量是weight。模型概况表格。其中R Square是判决系数，R是复相关系数，Adjusted R Square是校正的判决系数（容以后介绍）。注a.预测元素为：(常数)，high。即回归方程等号右端是这两部分组成。方差分析表。这部分做回归方程的显著性检验，原假设H0：回归方程不显著。表中Sum of Square一列：Regression是回归平方和，Residual是残差平方和，Total是总平方和。df是相应的自由

13、度，Mean Square为对应均方和，它的定义是： Mean Sqare = Sum of Square ¸ df F是统计量的值， F = Regression Mean Square ¸ Residual Mean Square 最后的Sig.是F值对应的显著性。由于Sig.=0.000<0.05，故原假设H0为不显著，即回归方程显著。最后一个表格是系数表：其中Unstandard Coefficients（非标准化系数）给出回归方程的常数项(Constant)与变量high的系数，它们在B列中显示。因此，回归方程是： 2．2 多元线性回归方程 1．

14、模型在变量Y和变量X1,X2,…,Xp，(p≥2)之间建立关系：其中e为随机变量，表示误差。线性部分对于(X1, X2,…,Xp,Y)的一个容量为n的观察值应有对(14)中的随机误差ei有与一元线性回归相同的假设。称(12)为变量Y对于变量X1,X2,…,Xp的p元线性回归方程。它的基本问题和一元线性回归方程相同，也是：回归方程如何估计；回归方程能否近似代表原变量的实际关系。 2．回归系数的估计引入以下向量：，，则(14)可以表示为矩阵形式：残差平方和：将其对求导数：如果矩阵可逆，解得：这

15、就是参数的最小二乘估计。 3．回归方程的显著性检验原假设：H0：b1 = b2 =¼ = bp = 0（回归方程不显著）检验统计量：其中SR、SE定义同一元回归。 4．回归系数的显著性检验多元线性回归分析也有有别于一元线性回归的特殊问题，回归系数的显著性即是其一。 1）偏回归平方和 2）回归系数的显著性检验原假设 H0：bj=0 （自变量Xj不显著）备选假设 H0：bj¹0 （自变量Xj显著）检验统计量它等价于统计量其中：。 5．关于校正的判决系数(Adjusted R Square)

16、由于判决系数R2的值会随自变量个数增加而变大，因此它不能正确反映方程的拟合效果。校正判决系数旨在消除这种影响。它定义为： 2．3 利用回归方程做预测回归方程用途的主要部分是可以用它来做预测。 1．所谓回归方程的预测，就是在给定点利用回归方程对变量Y作出估计。这是一个典型的点估计问题，估计量就是回归方程。 2．从估计的角度出发，回归方程的预测除点估计外，还有区间估计，即估计变量Y的置信区间。例4 数据data05，求变量Y对于变量X1, X2, X3, X4的4元非标准化线性回归方程，并做显著性检验（水平取0.05），同时利用所得回归方程预测no=14的Y值

17、在Linear Regression对话框中：将因变量Y输入Dependent，将自变量X1, X2, X3, X4输入Independent(s)，将no输入Selection Variable并点击Rule ,在菜单中选择not equal to并填入14。返回，点击Save ,在Save对话框中选择Predicted Values中的Unstandardized和Prediction Intervals中的Individual，填入需要的置信度。返回，OK 。从表中可知，回归方程是：在0.05的显著性水平下，自变量都不显著。此表显示，在0.05的显著性水平下

18、回归方程显著。进一步还能得到判决系数为0.982，校正判决系数为0.974，复相关系数为0.991。关于no=14观察值的Y预测值在原始数据文件中生成的新变量PRE_1中，为94.19281，95％置信区间的左、右端点分别由新变量LICI_1和UICI_1给出，由是知为(69.87367, 118.51195)。例5 数据data05，求变量X1的偏回归平方和。在例4中，ANOVA表给出回归平方和是2667.899，按照偏回归平方和的定义，求Y对于X2,X3,X4的回归方程，此时ANOVA表格显示回归平方和为2641.949，故变量X1的偏回归平方和等于 D

19、SR(X1) = 2667.899 - 2641.949 = 25.95 也就是方程中少了自变量X1，回归平方和就要损失25.95。 2．4 回归方程的优化本节讨论在给定的显著性水平下，建立一个所有自变量都显著的回归方程的不同方法。为区别以下的方法，称上一节讨论的建立回归方程的方法为强制进入法(Enter方法)。 1．前进法(Forward) 第一步建立p个一元线性回归方程：在通过显著性检验的回归方程中，选择F值最大者留下，不妨设这个方程就是：第二步用入选的自变量X1与其余p-1个自变量生成p-1个搭配：X1, Xj, j=2,…,p，求出p

20、1个回归方程：再从显著的方程中，选择X2最显著的方程留下。以下的步骤与以上相同，直到剩下的自变量中没有一个显著为止，最后的方程即所求。例6 数据data05，用前进法求回归方程。做法同例2，只是在Linear Regression对话框的Mathod一栏将Enter改变为Forward。此表显示：进入变量检验的临界概率为0.05，即显著水平大于此值的变量都要出局。在此标准下，X4首选入方程，X1次选入方程，其他变量落选。此表显示：第一个方程（自变量只有X4）的判决系数为0.645，而第二个方程（自变量为X4和X1）的判决系数为0.967，有了

21、很大的提升。此表显示：第一、第二两个回归方程都显著。此表显示：第一个方程是，方程中没有不显著变量；第二个方程是，方程中也没有不显著变量。此表显示每次筛选中未进入方程的变量。注意未进入第二个方程的变量X2和X3，它们的Sig.值分别是0.052和0.070，均大于临界概率0.05，这就是它们被淘汰的原因。 2．退后法(Backward) 做法与前进法相反。即第一步将所有的p个自变量都进入方程，从第二步开始，每一步都将方程中最不显著的自变量剔除，直到方程中没有不显著的自变量为止。例7 数据data05，用后退法求回归方程。打开Linear Regres

22、sion对话框，Method一栏改为Backward，其他一切做法照旧。点击OK ,得输出：此表显示：剔除变量的临界概率为0.100，第一个方程按照后退法应该把所有自变量都进入方程，所以Model 1显示X4,X3,X1,X2全都进入方程，注意这时Method显示的是Enter而非Backward，想一想这是为什么。第二个方程也就是Model 2把X3剔除出去，这时Method显示Backward。第三个方程即Model 3又把X4剔除出去，以后没有剔除动作，这Model 3就是最终结果。这张表格无需多做解释。提醒读者，从中可以看到随自变量个数增加，判决系数确有增大的趋势。

23、这张表也无需多做解释，它指出三个模型都显著。这是被剔除变量的清单。Model 2中变量X3被剔除理由是它的Sig.值为0.896，远大于临界值0.100，并且是所有Sig.值大于临界值的变量中最大的一个。类似解释Model 2。这是三个回归方程的清单：模型1方程为按系统给的0.100的检验水平，除X1显著外，其余自变量均不显著，而且Sig.最大者为X3达到0.896，故剔除X3，重新回归，得模型2，方程为自变量X4不显著，剔除之，重新回归，得模型3，方程为此方程中已经没有不显著自变量。 3．逐步回归法(Stepwise) 前进法中，每一步向方

24、程内引入一个最显著的自变量。由于新变量的引入，回归方程中原有的自变量的显著水平会发生相应的变化，有的变量原来是显著的，现在成为不显著。对于每一步可能产生的新的不显著变量，前进法没有提出如何处理，而是让它们继续留在回归方程内。换句话说，变量一旦进入方程，就不会被剔除出方程。逐步回归法就是针对这一缺点，在每一步，不仅引入一个最显著的变量，还把已经存在于方程内的变得不显著的自变量，剔除掉最不显著的那个。如此直到方程中没有不显著的自变量为止。 2．5 回归方程的诊断 1．共线性(Collinearity)诊断 1）共线性的含义 p(³2)元线性回归方程中，如果自变量X1,X2,…

25、Xp也构成一个显著的线性模型。换言之：存在一个自变量，不妨设它是X1，如果用X1作因变量，对于剩下的自变量X2,…,Xp构成一个显著的p-1元线性回归方程：（2）变量Xj的容限(Tolerance) 设是以自变量Xj为因变量，与其他 p-1个自变量构成的p-1元线性回归方程的判决系数，称为变量Xj的容限。它是判断回归方程共线性的重要指标。显然有：，并且：Tol(Xj) 的值越小，自变量Xj的共线性越显著。 2．残差独立性判断 1）残差残差(Residual)指实际观察值与预测值之差：残差向量：（1）残差的均值为零，即有：

26、（2）残差的协方差矩阵 2）Durbin-Watson统计量当n充分大时，，其中的是残差序列的一阶自相关系数的估计。可见此时的d值约在区间[0, 4]之内，而当d=2时，可判定残差序列独立。附录：二阶段最小二乘法(Two-stage Least-squares) 一．自变量与因变量互为影响最小二乘估计适用于自变量单向影响因变量。但在许多经济学问题中，出现自变量和因变量双向影响的现象。例如：价格与需求；工资水平与工作表现；收入水平与受教育程度。以下是一个实例：研究收入(LW)与受教育水平(Educ)、种族（Black，是否黑人）、年龄

27、Age)的线性回归方程。有：此外，一个不争的事实是：受教育水平(Educ)也受收入(LW)的影响。解决的办法是另外寻找一些与受教育水平(Educ)和收入(LW)只有单向影响的自变量，用以预测受教育水平，这个预测模型是：用Educ的预测值代入原回归模型，进行估计。二．二阶段最小二乘法 Regression\2-Stage Least Squares Dependent因变量：LW Explanatory解释变量（原回归方程的自变量）： Educ, Black, Age Instrument工具变量（预测方程的自变量）： Fed, Med, Black, Age 21 / 21

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？