SPSS教程04(带图)-回归分析及多元线性回归三大问题-chenxy.doc

资源描述

简单教程 04 1. 相关配套数据已经上传百度文库： 2. 配套软件 SPSS 17.0 已经上传百度文库；百度文库搜索“SPSS简单教程配套数据及软件_chenxy” 百度云盘链接； 5. 回归分析 2 5.1 一元线性回归分析 2 5.2 回归分析—曲线估计 5 5.3 多元线性回归分析 10 5.3.1 多元线性回归分析—强制全部回归分析 10 5.3.2 多元线性回归分析_逐步回归分析 11 5.4 多元线性回归三大问题 13 5.4.1 问题1：判定多重共线性 13 5.4.2 对多重共线性处理 17 5.4.3 问题2：判定异方差 21 5.4.4 对异方差处理 26 5.4.5 问题3：判定序列相关 36 5. 回归分析一元线性回归分析多元线性回归分析回归：揭示出不确定数量关系的内在数量变化规律，并通过一定的表达式 (回归方程 ) 描述数量之间的这种内在关系的方法。被解释变量：必须是刻度级数据解释变量：可以是刻度级、顺序级、名义级的变量但是都必须用Numeric 型来定义 5.1 一元线性回归分析效果检验系数检验操作步骤 1 （数据见文件 20151105_回归分析）回归系数的显著性检验—T检验 H0：回归方程不显著 H1：回归方程显著 ~ t（n-k）针对回归系数的统计量的显著性检验决定了相应的变量能否作为解释变量进入回归方程。 Analyze-> Regression-> Linear Enter 强行全部回归 Continue->OK 结果如下 SSR = 27272426.508 SSE= 254044.393 F= 27.576 P = 0.000 < 0.05；故拒绝原假设H0；有95%的把握认为回归方程显著操作步骤2 回归方程的效果检验判定相关系数法判定相关系数越接近1 表明回归平方和占离chat平方和的比例越大，用x的变动解释y变动的部分就越多，回归的效果就越好。判定相关系数R 0.9 以上非常好 0.8 以上很好 0.7以上比较好 0.6以上一般 0.6 以下不好分析结果如下 1. 0.956 自变量（人均月收入，广告投入）和因变量（销售额）之间存在着极度相关关系 2. 由表可知：判定相关系数为0.915；说明回归平方和占总离差平方和的比例91.5%，用（人均月收入，广告投入）的变动解释（销售额）变动的比例为91.5%，且该回归的效果非常好；调整的判定系数（校正的判定系数）公式（待补充）R^2 校正后不考虑自由度校正与否不会差异太大操作步骤 3 系数检验：含常数项的检验一元 2 个二元 3 个以此类推 H0：=0； H1：0；（决定了这个变量是否进入回归方程） 1. Constant P值 = 0.01 < 0.05 即选择B一列反之 P值>0.05; 则该方程不含常数项，选择Standardized (标准化系数) 检验其他系数： 2. X1能不能进入回归方程 P=0.001<0.05 即这个变量能进入回归方程 3. X2能不能进入回归方程 P=0.007<0.05 即这个变量能进入回归方程 y = 8.577 + 599.454+2116.516 附注：从而判断实际最后得到的方程的最高次项判定该模型实际含义 5.2 回归分析—曲线估计操作步骤1 （数据文件见 20151112_回归分析_曲线估计）（以下英文步骤了解即可，暂不实际操作，后面通过转化成中文界面再实际操作） Analyze ->Regression-> Curve Estimation 进入下面窗口勾选相应多选框 Model : 所有曲线名字点击右上角Save 按钮查看该窗口暂不 Continue->OK 第一次操作由于输出表格过多且相应曲线模型较多，转换成汉语界面，该次分析转换成汉语界面，便于了解输出结果的具体模型名称，查看输出结果： General 将 language 选择 Simplified Chinese OK 中文操作步骤：分析 -> 回归 -> 曲线估计勾选各选择项了解各模型具体含义点击右上角保存按钮继续 -> 确定确定输出界面分析首先会根据所勾选的曲线估计模型生成每一种曲线估计对应的三个表格 Model Summary 模型总汇表格 ANOVA 表格 Coefficients 系数表格首先根据模型总汇表中 R和R方值（R Square）简单比较各曲线的模型优劣，选择R和R方值越接近1的模型越合适，然后具体筛选，分析然后以一两种表格举例具体分析分析案例 1 ：注释：必须满足三个条件 1. R Square >= 0.6 回归效果好 2. P < 0.05 回归方程显著 3. 系数检验任意通过一项模型才可以采用条件一：模型总汇表检验相关系数判定回归效果好坏 R为自变量和因变量之间的相关系数，R=1.0说明两者之间完全相关 R方（R Square）为判定相关系数判定相关系数越接近1 表明回归平方和占离差平方和的比例越大，用自变量的变动解释因变量变动的部分就越多，回归的效果就越好。条件二： ANOVA表格判定回归方程显著性效果由P值检验法：该P=0.00<0.05 故拒绝原假设H0；有95%的把握认为回归方程显著条件三：系数检验 ( 二次项一般表达式 ) 由各项均含有自己的假设检验P值，故自下而上从常数项的P值往上判断 1. 由常数项（Constant）对应P=0.813>0.05 故采用标准化系数；即该二次项不含常数项；（若P值<0.05 则采用未标准化系数对应B列） 2. 由苗龄和苗龄^2 对应系数各位 0.005 和 0.000 均小于 0.05 故都可进入回归方程最后得到模型：（这个P=0.05 比较特殊个人观点暂且化为 P<=0.05 ）分析案例 2 ：同样的分析结果如下 R=1.0 因变量和自变量完全相关 R=1.0 R Square=1.0 回归效果好 P=0.00 < 0.05 回归方程显著系数检验由常数项 P值=0.337 >0.05 故采用标准化系数由三项P值均大于 0.05 故该模型不可采用引申：三次项一般形式：若方程最高次项系数 a 的 p值 > 0.05 其他项满足则最后模型方程为：其实质是二次曲线估计 5.3 多元线性回归分析 5.3.1 多元线性回归分析—强制全部回归分析操作步骤 1 （数据文件见 20151112_多元线性回归分析_强制全部回归分析） Analyze -> Regression -> Linear OK 得出结果如下结果分析如下： R=0.949 自变量和因变量之间高度相关 R Square=0.883 回归效果很好 P值<0.05 回归方程显著系数检验： P值=0.168 >0.05 故不含常数项且采用规范化系数有 X1 粮食平均单价 P值=0.007 < 0.05 有 X2 人均收入 P值=0.000 < 0.05 最后模型如下： 5.3.2 多元线性回归分析_逐步回归分析操作步骤 1 （数据文件见 20151112_多元线性回归分析_逐步回归分析） Analyze -> Regression -> Linear 年龄证券市场以外年收入受教育程度入市年份输出结果如下：由于是逐步检验，依次加入因变量 Model 表示4个因变量依次加入形成的的模型组合方式如上 a b c d 四种模型由P值均 < 0.05 故4种模型回归方程显著具体分析4个模型，各模型系数检验在依次加入前三个因变量 P值均 <= 0.05 即不同系数项均通过假设检验，可以加入到回归方程中最后模型4得出最终结果不同系数项均通过假设检验，可以加入到回归方程中；各个模型被删除的变量即不包含的变量的假设检验，用于辅助判定上表中可以看出，各模型中，各项系数检验均 > > 0.05 故也可以判定各模型缺失项可以进入回归方程 5.4 多元线性回归三大问题多重共线性异方差问题序列相关问题 5.4.1 问题1：判定多重共线性多重共线性后果：多重共线性判别指标 1. 容忍度对应于解释变量xj的容忍度定义为是解释变量xj与方程中其他所有解释变量之间的复相关系数平方，可以衡量xj与其他解释变量的线性相关程度。如果 <0.1 则可能存在多重共线性 2. 方差膨胀因子一般认为，方差膨胀因子大于10时，就认为存在多重共线性。 3. 相关系数矩阵自变量间的相关系数矩阵：如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断，并不全面。 4. 特征根 Eigenvalue 该方法实际上就是对自变量进行主成分分析，如果相当多维度的特征根等于0，则可能有比较严重的共线性。 5. 条件指数由Stewart等提出，当某些维度的该指标数值大于30时，则能存在共线性。选择奇数个判别因子要么5个要么3个避免偶数个判别因子出现相互矛盾的现象多共线性问题的处理（理论） 1. 逐步删除不重要的（t 相对小的）解释变量，采用多种自变量筛选方法相结合的方式，建立一个最优的逐步回归方程。可直接用逐步回归法完成。 2. 增大样本量，可部分的解决共线性问题 3. 从专业的角度加以判断，人为的去除在专业上比较次要的，或者缺失值比较多，测量误差比较大的共线性因子。 4. 进行因子分析，用提取的因子代替原变量进行回归分析。其他方法： (1)用变量的比例代替原来的变量，即用相对数变量替代绝对数变量：（2）差分法（3）逐步回归分析（4）偏最小二乘回归（5）岭回归（6）恰当处理滞后变量。操作步骤 1 （数据文件见 20151112_多重共线性） Analyze->Regression->Linear 可支配收入金融资产服装价格指数一般价格指数点击 statistics 共线的诊断 Continue -> ->OK 输出结果如下 (1)特征根（Eigenvalue）：（3,4,5）多个维度特征根约为0证明存在多重共线性； (2)条件指数（Condition Index）：（3,4,5）大于30时提示我们可能存在多重共线性 (3)看相关系数矩阵，找到数值接近1的相关，这也提示出可能存在多重共线性。用SPSS处理，主要采用： 1、使用Transform中的Create time series命令，对数据进行一阶差分处理后，重新使用Linear Regression命令，采用自变量全部入选法，做线性回归分析。 2、针对自变量存在的严重多重共线性，普通最小二乘法明显变坏的问题，可以在SPSS软件中运用岭回归分析。岭参数K值从0到1，步长可以取0.05。 3、采用逐步回归方法 5.4.2 对多重共线性处理操作步骤 1 （数据文件见 20151112_多重共线性） Transform -> Create Time Series -> ->OK 输出结果如下数据窗口生成新的五列数据添加新创建的五列数据因变量： DFF（服装消费）自变量（其他四个 DFF列数据）操作步骤 2 ： Analyze->Regression->Linear —> OK 输出结果如下表格分析：由表格（ Model Summary ）判定相关系数 R^2 = 0.511 ＜0.6　所以该模型回归效果不好由表格（ ANOVA) ）P=0.484＞0.05，接受原假设，有95%把握认为该方程没有显著性故不要下一步系数检验，且该种处理方式不适用操作步骤 3 ： Analyze —> Regression -> Linear -> 点击 Reset 添加原始数据因变量服装消费其他自标量：可支配收入；...；一般价格指数 —> OK 输出结果如下表格分析：由以上操作步骤共产生两个模型：且由表格可以看出第一个模型：R^2 =0.998 回归效果好且P=0.00 <0.05 回归方程显著但是在系数检验中存在很多系数无法进入回归方程故判断存在多重共线性不适用第一个模型：R^2 =0.998 回归效果好且P=0.00 <0.05 回归方程显著并且通过系数检验，较多系数可以进入回归方程故该模型适用得出结果如下：常数项系数 P=0.098 > 0.05 故采用标准化引申回归分析选择方法的区别： Enter：所有X一次性全部进入 Forward：X一个一个进，每次进入P-value最小的X，直到未进入的X都不significant Backward：所有的X先一次性进入，然后一个一个剔除，每次剔除P-value最大的X，直到保留的X全都significant Stepwise：X一个一个进，但是进入新的X以后，会重新审查所有已进入X的P-value，如果进入新的X导致原来的X的P-value从significant变成不significant，则把原来的X剔除 5.4.3 问题2：判定异方差问题内涵（了解）：是指随着解释变量的变化，被解释变量的方差存在明显的变化趋势(不具有常数方差的特征)这也是经济与管理领域中经常出现的问题之一。异方差造成的后果：回归方程的估计值不具有实用价值判定是否存在异方差问题的方式 1. 散点图判断（不完全准确） 2. 求e变量的绝对值与残差的等级相关系数绝对值大存在非齐性方差操作步骤 1 ( 数据文件见 20151119_异方差 ) Analyze -> Regression -> Linear 点击 plots “DEPENDNT” 因变量。 “ZPRED” 标准化预测值。 “ZRESID” 标准化残差。 “DRESID” 删除残差。 “ADJPRED” 调节预测值。 “SRESID” 学生氏化残差。 “SDRESID” 学生氏化删除残差。从图形看可能存在异方差,进一步通过等级相关系数判断操作步骤 2 ： Analyze -> Regression -> Linear 记得 Reset 点击 save 按钮：残差非标准化 Continue -> OK 出现一列新的数据对该列数据绝对值化 Transform -> Computer Variable -> 依次 1.录入新变量名称； 2.选择方法all； 3.选择函数abs 双击； 4. 双击处理对象 OK-> 数据增加新的一列操作步骤 3 ：计算绝对值(abs1) 和非标准残差绝对值的相关系数 Analyze -> correlate -> Bivariate 选择 Spearman系数 Person系数表示两个变量的积矩相关系数 Kendall’s tau-b 和 Spearman 表示两个变量的等级相关系数 -> OK 输出结果如下：表格分析由表格可知： P=0.000 < 0.05 拒绝原假设H0，故有99%的把握认为存在异方差显著等级 ** 5.4.4 对异方差处理方法一直接回归：以1/收入为权重，作如下回归直接回归（1）定义变量“储蓄/收入”和“1/收入” （2）进入一元线性回归过程用加权最小二乘法估计回归系数 -》继续上面数据进行操作增加两个新变量： 1. 储蓄除以收入 2. 收入的倒数操作步骤 1 （数据文件见： 20151119_异方差）：变量一： Transform -> Computer variable 点击 Reset 点击 OK 变量二： Transform -> Computer variable 点击 Reset 点击 OK 操作步骤 2 ：（检验异方差）Analyze -> Regression -> Linear 绘制散点图 Analyze -> Regression ->Linear 点击 save Continue -> OK 表格分析由表格可知：判定相关系数 R^2 = 0.774 回归效果比较好 P= 0.000 回归方程显著由系数检验结果： y = -722.47x + 0.088 现实含义：两边同乘以收入得到：储蓄 = -0.722.47 + 0.088 收入操作步骤 3 ：检验异方差是否得到改善 Analyze -> Regression -> Linear 点击 save continue -> OK 非标准残差绝对值化 Transform -> Computer Variable -> OK 结果如下判定 abs2 和收入的倒数的相关系数 Analyze -> Correlate -> Bivariate 由表格可知 P=0.289 > 0.05 所以接收原假设,即有95%的把握认为内无异方差方法二：加权-最小二乘法估计回归系数操作步骤 1 （ 2数据文件见：0151119_异方差_最小二乘法）：注意：收入的倒数小数位数值设为 7 显示如下 Analyze -> Regression-> Linear 点击 OK 输出结果如下：表格分析：由上表的出结果如下： 1. R^2 =0.933 回归效果好 P=0.000<0.05 回归方程显著 2. 系数检验后，方程如下：（与第一种方法得出结果作比较）判定该回归方程是否可以直接使用，必须通过等级相关系数检验三步： 1. 添加未标准化异方差 Analyze -> Regression -> Linear 点击 save 勾选 OK 2. 绝对值化未标准化异方差 Transform -> Computer Variable 3. 计算自变量（收入）和绝对值的相关系数 Analyze -> correlate -> Brivariate 操作步骤 2 ： Analyze -> Regression -> Weight Estimation -> OK 输出结果如下表格分析：由上表的出结果如下： 1. R^2 =0.936 回归效果好 P=0.000<0.05 回归方程显著 2. 系数检验后，方程如下：（与第一种方法得出结果作比较）判定该回归方程是否可以直接使用，必须通过等级相关系数检验三步： 1. 添加未标准化异方差 Analyze -> Regression -> Linear 点击 save 勾选 OK 2. 绝对值化未标准化异方差 Transform -> Computer Variable 3. 计算自变量和绝对值的相关系数 Analyze -> correlate -> Brivariate 5.4.5 问题3：判定序列相关自相关问题，是指随着不同期的样本值(不同编号的样本值)之间存在相关关系，这也是经济与管理领域中经常出现的问题之一。经济管理问题中产生序列相关的主要原因： 1. 遗漏重要变量 2. 经济变量的滞后性 3. 采用错误的回归形式 4. 因数据加工整理而导致误差项之间出现自相关性。检验工具：DW 统计量（公式了解即可）公式：其中；由于：； DW 判定区间如下观察、检验序列相关——图示和DW值检查自相关的原因，若不是遗漏重要变量或回归形式选择错误，则用恰当方法处理；常用方法是：（1）迭代法—广义差分法（2）一阶差分法序列相关的诊断 yt 操作步骤 1 ：（数据文件见 20151126_序列相关） Analyze -> Regression -> Linear xt 点击 statistic 勾选 Continue-> 点击 plots 画散点图 Continue -> 点击 save 勾选残差非标准化点击 continue -> OK 输出结果如下：由表格DW = 0.934 故存在正一阶序列相关并由DW值并结合图形诊断出存在序列相关序列相关处理方法一：广义差分法操作步骤 2 ：由上述操作的出 DW = 0.934 由此得出 ρ = 0.533 第一步： transform Compute中的LAG(1) 函数产生两个新变量和 Transform -> Computer Variable -> ->OK 结果如下同理生成新变量 Transform -> Computer Variable -> LAG（gnp） -> OK 结果如下根据公式继续产生两个新变量 Transform -> Computer Variable -> 进口额-0.533 * -> OK 结果如下： Transform -> Computer Variable -> Gnp - 0.533 * -> OK 输出结果如下对新生成的两个因变量自变量进行诊断： Analyze -> Regression -> Linear 依次点击 Statistic Plots Save 勾选相应属性（省略） -》诊断序列相关输出结果如下： DW = 1.428 < 2 图像（省略）由DW值并结合图形诊断出依然存在序列相关当且 DW 近似等于2时完全没有自相关故需要继续迭代第二次迭代继续重复上述操作由和由Lag(1) 生成和由 DW = 1.428 根据公式推出 ρ = 0.286 继而得到由公式得到通过对新因变量自变量进行诊断得到第二次结果： DW = 1.815 < 2 图像（省略）由DW值并结合图形诊断出依然存在序列相关且数据显示如下：第三次迭代继续重复上述操作由和由Lag(1) 生成和由 DW = 1.815 根据公式推出 ρ = 0.0925 继而得到由公式得到和通过对新因变量自变量进行诊断得到第三次结果： DW = 1.932 近似等于 2 图像（省略）由DW值并结合图形诊断可能不存在序列相关数据显示如下：若再次进行第四次迭代（四次迭代后的数据见 20151126_序列相关_四次迭代数据.sav ）根据 DW = 1.932 ρ = 0.034 并计算出继而求出进行诊断得出结果 DW值反而降低了由此提出待解决疑问：是不是 DW 在迭代到2时会继而减少？还是本次迭代结果DW值得减少仅仅是一个意外情况：即DW值迭代到 2 的近似值后可能增加也可能减少？序列相关处理方法二：一阶差分法操作步骤 3 ：方法一：用 transform Compute中的LAG函数产生和，再产生； Transform -> Computer Variable -> 方法二：用transform Compute中的Create time Series直接产生； Transform -> Create time series -> 两种方法依次生成数据；且数据结果相应，如下图所示方法一：生成数据方法二：生成数据 Analyze -> Regression -> Linear 依次点击 statistic Plots Save 勾选相应选项并点击 Option 取消勾选 include constant equation 得出结果得出DW = 2.020 近似等于 2 并结合图形判断已处理该种序列相关情况由此得出结论：方法二：对新产生的自变量和因变量进行过原点的回归拟合，则效果更好。后续步骤回归分析回归效果显著性检验系数检验得到最后回归方程

展开阅读全文