资源描述
简单教程 04
1. 相关配套数据 已经 上传百度文库:
2. 配套软件 SPSS 17.0 已经上传百度文库;
百度文库搜索“SPSS简单教程配套数据及软件_chenxy”
百度云盘链接;
5. 回归分析 2
5.1 一元线性回归分析 2
5.2 回归分析—曲线估计 5
5.3 多元线性回归分析 10
5.3.1 多元线性回归分析—强制全部回归分析 10
5.3.2 多元线性回归分析_逐步回归分析 11
5.4 多元线性回归三大问题 13
5.4.1 问题1:判定多重共线性 13
5.4.2 对多重共线性处理 17
5.4.3 问题2:判定异方差 21
5.4.4 对异方差处理 26
5.4.5 问题3:判定序列相关 36
5. 回归分析
一元线性回归分析
多元线性回归分析
回归:揭示出不确定数量关系的内在数量变化规律,并通过一定的表达式 (回归方程
) 描述数量之间的这种内在关系的方法。
被解释变量:必须是刻度级数据
解释变量:可以是刻度级、顺序级、名义级的变量 但是都必须用Numeric 型来定义
5.1 一元线性回归分析
效果检验
系数检验
操作步骤 1 (数据见文件 20151105_回归分析)
回归系数的显著性检验—T检验
H0:回归方程不显著 H1:回归方程显著
~ t(n-k)
针对回归系数的统计量的显著性检验决定了相应的变量能否作为解释变量进入回归方程。
Analyze-> Regression-> Linear
Enter
强行全部回归
Continue->OK 结果如下
SSR = 27272426.508 SSE= 254044.393
F= 27.576
P = 0.000 < 0.05;故拒绝原假设H0;有95%的把握认为回归方程显著
操作步骤2
回归方程的效果检验
判定相关系数法
判定相关系数越接近1 表明回归平方和占离chat平方和的比例越大,用x的变动解释y变动的部分就越多,回归的效果就越好。
判定相关系数R 0.9 以上 非常好
0.8 以上 很好
0.7以上 比较好
0.6以上 一般
0.6 以下 不好
分析结果如下
1. 0.956 自变量(人均月收入,广告投入)和因变量(销售额)之间存在着极度相关关系
2. 由表可知:判定相关系数为0.915;说明回归平方和占总离差平方和的比例91.5%,用(人均月收入,广告投入)的变动 解释 (销售额)变动的比例为91.5%,且该回归的效果非常好;
调整的判定系数(校正的判定系数)
公式(待补充)R^2 校正后 不考虑自由度校正与否不会差异太大
操作步骤 3
系数检验: 含常数项的检验
一元 2 个
二元 3 个
以此类推
H0:=0; H1:0;
( 决定了这个变量是否进入回归方程 )
1. Constant P值 = 0.01 < 0.05 即选择B一列
反之 P值>0.05; 则该方程不含常数项,选择Standardized (标准化系数)
检验其他系数:
2. X1能不能进入回归方程 P=0.001<0.05 即这个变量能进入回归方程
3. X2能不能进入回归方程 P=0.007<0.05 即这个变量能进入回归方程
y = 8.577 + 599.454+2116.516
附注:从而判断实际最后得到的方程的最高次项判定该模型实际含义
5.2 回归分析—曲线估计
操作步骤1 (数据文件见 20151112_回归分析_曲线估计 )
( 以下英文步骤了解即可,暂不实际操作,后面通过转化成中文界面再实际操作 )
Analyze ->Regression-> Curve Estimation 进入 下面窗口 勾选相应多选框
Model : 所有曲线名字
点击右上角Save 按钮 查看 该窗口
暂不 Continue->OK
第一次操作由于输出表格过多且相应曲线模型较多,转换成汉语界面,该次分析转换成汉语界面,便于了解输出结果的具体模型名称,查看输出结果:
General 将 language 选择 Simplified Chinese
OK
中文操作步骤 :
分析 -> 回归 -> 曲线估计 勾选各选择项
了解各模型具体含义
点击右上角 保存 按钮
继续 -> 确定
确定
输出界面分析 首先会根据 所勾选的 曲线估计模型 生成每一种曲线估计对应的三个表格
Model Summary 模型总汇表格
ANOVA 表格
Coefficients 系数表格
首先根据 模型总汇表 中 R和R方值(R Square) 简单比较各曲线的模型优劣,选择R和R方值越接近1的模型越合适,然后具体筛选,分析
然后以一两种表格举例具体分析
分析案例 1 :
注释:
必须满足三个条件
1. R Square >= 0.6
回归效果好
2. P < 0.05
回归方程显著
3. 系数检验任意通过一项
模型才可以采用
条件一: 模型总汇表 检验相关系数 判定回归效果好坏
R为自变量和因变量之间的相关系数,R=1.0说明两者之间完全相关
R方(R Square)为判定相关系数
判定相关系数越接近1 表明回归平方和占离差平方和的比例越大,用自变量的变动解释因变量变动的部分就越多,回归的效果就越好。
条件二: ANOVA表格 判定回归方程 显著性 效果
由P值检验法:该P=0.00<0.05 故拒绝原假设H0;有95%的把握认为回归方程显著
条件三:系数检验 ( 二次项一般表达式 )
由各项均含有自己的假设检验P值,故自下而上从 常数项的P值往上判断
1. 由常数项(Constant)对应P=0.813>0.05 故采用标准化系数;即该二次项不含常数项;(若P值<0.05 则采用未标准化系数对应B列)
2. 由 苗龄 和 苗龄^2 对应系数各位 0.005 和 0.000 均小于 0.05 故都可进入回归方程
最后得到模型:(这个P=0.05 比较特殊 个人观点 暂且化为 P<=0.05 )
分析案例 2 :
同样的分析结果如下
R=1.0 因变量和自变量 完全相关
R=1.0 R Square=1.0 回归效果好
P=0.00 < 0.05 回归方程显著
系数检验
由常数项 P值=0.337 >0.05 故采用标准化系数
由三项P值均大于 0.05 故该模型不可采用
引申:
三次项一般形式 :
若方程最高次项系数 a 的 p值 > 0.05 其他项满足
则最后模型方程为 : 其实质是 二次曲线估计
5.3 多元线性回归分析
5.3.1 多元线性回归分析—强制全部回归分析
操作步骤 1 ( 数据文件见 20151112_多元线性回归分析_强制全部回归分析 )
Analyze -> Regression -> Linear
OK 得出结果如下
结果分析如下:
R=0.949 自变量和因变量之间 高度相关
R Square=0.883 回归效果很好
P值<0.05 回归方程显著
系数检验:
P值=0.168 >0.05 故不含常数项 且采用规范化系数
有 X1 粮食平均单价 P值=0.007 < 0.05
有 X2 人均收入 P值=0.000 < 0.05
最后模型如下:
5.3.2 多元线性回归分析_逐步回归分析
操作步骤 1 ( 数据文件见 20151112_多元线性回归分析_逐步回归分析 )
Analyze -> Regression -> Linear
年龄
证券市场以外年收入
受教育程度
入市年份
输出结果如下:
由于是逐步检验,依次加入因变量
Model 表示4个因变量依次加入形成的的模型组合方式 如上 a b c d 四种模型
由P值 均 < 0.05 故4种模型 回归方程显著
具体分析4个模型,各模型系数检验
在依次加入前三个因变量 P值均 <= 0.05 即不同 系数项均通过假设检验,可以加入到回归方程中
最后模型4得出最终结果 不同 系数项均通过假设检验,可以加入到回归方程中;
各个模型被删除的变量即不包含的变量的假设检验,用于辅助判定
上表中可以看出,各模型中,各项系数检验均 > > 0.05
故也可以判定 各模型缺失项可以进入回归方程
5.4 多元线性回归三大问题
多重共线性
异方差问题
序列相关问题
5.4.1 问题1:判定多重共线性
多重共线性后果:
多重共线性判别指标
1. 容忍度
对应于解释变量xj的容忍度定义为
是解释变量xj与方程中其他所有解释变量之间的复相关系数平方,可以衡量xj与其他解释变量的线性相关程度。
如果 <0.1 则可能存在多重共线性
2. 方差膨胀因子
一般认为,方差膨胀因子大于10时,就认为存在多重共线性。
3. 相关系数矩阵
自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。
4. 特征根 Eigenvalue
该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。
5. 条件指数
由Stewart等提出,当某些维度的该指标数值大于30时,则能存在共线性。
选择 奇数 个判别因子 要么5个 要么3个
避免偶数个判别因子出现 相互矛盾的现象
多共线性问题的处理 (理论)
1. 逐步删除不重要的(t 相对小的)解释变量,采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。可直接用逐步回归法完成。
2. 增大样本量,可部分的解决共线性问题
3. 从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。
4. 进行因子分析,用提取的因子代替原变量进行回归分析。
其他方法:
(1)用变量的比例代替原来的变量,即用相对数变量替代绝对数变量:
(2)差分法
(3)逐步回归分析
(4)偏最小二乘回归
(5)岭回归
(6)恰当处理滞后变量。
操作步骤 1 (数据文件见 20151112_多重共线性 )
Analyze->Regression->Linear
可支配收入
金融资产
服装价格指数
一般价格指数
点击 statistics
共线的诊断
Continue ->
->OK 输出结果如下
(1)特征根(Eigenvalue):(3,4,5)多个维度特征根约为0证明存在多重共线性;
(2)条件指数(Condition Index):(3,4,5)大于30时提示我们可能存在多重共线性
(3)看相关系数矩阵,找到数值接近1的相关,这也提示出可能存在多重共线性。
用SPSS处理,主要采用:
1、使用Transform中的Create time series命令,对数据进行一阶差分处理后,重新使用Linear Regression命令,采用自变量全部入选法,做线性回归分析。
2、针对自变量存在的严重多重共线性,普通最小二乘法明显变坏的问题,可以在SPSS软件中运用岭回归分析。岭参数K值从0到1,步长可以取0.05。
3、采用逐步回归方法
5.4.2 对多重共线性处理
操作步骤 1 (数据文件见 20151112_多重共线性 )
Transform -> Create Time Series ->
->OK 输出结果如下
数据窗口生成新的五列数据
添加新创建的五列数据
因变量: DFF(服装消费)
自变量(其他四个 DFF列数据)
操作步骤 2 :
Analyze->Regression->Linear
—> OK 输出结果如下
表格分析:
由表格( Model Summary ) 判定相关系数 R^2 = 0.511 <0.6 所以该模型回归效果不好
由表格( ANOVA) )P=0.484>0.05,接受原假设,有95%把握认为该方程没有显著性
故不要下一步系数检验,且该种处理方式不适用
操作步骤 3 :
Analyze —> Regression -> Linear -> 点击 Reset
添加原始数据
因变量 服装消费
其他自标量:
可支配收入;...;一般价格指数
—> OK 输出结果如下
表格分析:
由以上操作步骤共产生两个模型:且由表格可以看出
第一个模型:R^2 =0.998 回归效果好 且P=0.00 <0.05 回归方程显著
但是在系数检验中存在很多系数无法进入回归方程 故判断存在多重共线性 不适用
第一个模型:R^2 =0.998 回归效果好 且P=0.00 <0.05 回归方程显著
并且通过系数检验,较多系数可以进入回归方程 故该模型适用
得出结果如下:
常数项系数 P=0.098 > 0.05 故采用标准化
引申回归分析 选择方法的区别:
Enter:所有X一次性全部进入
Forward:X一个一个进,每次进入P-value最小的X,直到未进入的X都不significant
Backward:所有的X先一次性进入,然后一个一个剔除,每次剔除P-value最大的X,直到保留的X全都significant
Stepwise:X一个一个进,但是进入新的X以后,会重新审查所有已进入X的P-value,如果进入新的X导致原来的X的P-value从significant变成不significant,则把原来的X剔除
5.4.3 问题2:判定异方差
问题内涵(了解):是指随着解释变量的变化,被解释变量的方差存在明显的变化趋势(不具有常数方差的特征)这也是经济与管理领域中经常出现的问题之一。
异方差造成的后果: 回归方程的估计值不具有实用价值
判定是否存在异方差问题的方式
1. 散点图判断(不完全准确)
2. 求e变量的绝对值与残差的等级相关系数 绝对值大 存在非齐性方差
操作步骤 1 ( 数据文件见 20151119_异方差 )
Analyze -> Regression -> Linear
点击 plots
“DEPENDNT” 因变量。
“ZPRED” 标准化预测值。
“ZRESID” 标准化残差。
“DRESID” 删除残差。
“ADJPRED” 调节预测值。
“SRESID” 学生氏化残差。
“SDRESID” 学生氏化删除残差。
从图形看可能存在异方差,进一步通过 等级相关系数 判断
操作步骤 2 :
Analyze -> Regression -> Linear 记得 Reset
点击 save 按钮 :
残差非标准化
Continue -> OK 出现一列新的数据
对该列数据绝对值化
Transform -> Computer Variable ->
依次 1.录入新变量名称; 2.选择方法all; 3.选择函数abs 双击; 4. 双击处理对象
OK-> 数据增加新的一列
操作步骤 3 :
计算 绝对值(abs1) 和 非标准残差绝对值 的相关系数
Analyze -> correlate -> Bivariate 选择 Spearman系数
Person系数表示两个变量的 积矩相关系数
Kendall’s tau-b 和 Spearman 表示两个变量的等级相关系数
-> OK 输出结果如下:
表格分析
由表格可知 : P=0.000 < 0.05 拒绝原假设H0,故有99%的把握认为存在异方差
显著等级 **
5.4.4 对异方差处理
方法一 直接回归 :
以1/收入为权重,作如下回归
直接回归
(1)定义变量“储蓄/收入”和“1/收入”
(2)进入一元线性回归过程
用加权最小二乘法估计回归系数
-》继续上面数据进行操作
增加两个新变量:
1. 储蓄除以收入
2. 收入的倒数
操作步骤 1 (数据文件见: 20151119_异方差 ):
变量一: Transform -> Computer variable 点击 Reset
点击 OK
变量二 : Transform -> Computer variable 点击 Reset
点击 OK
操作步骤 2 :
(检验异方差)Analyze -> Regression -> Linear
绘制散点图
Analyze -> Regression ->Linear
点击 save
Continue -> OK
表格分析
由表格可知: 判定相关系数 R^2 = 0.774 回归效果比较好
P= 0.000 回归方程显著
由系数检验结果:
y = -722.47x + 0.088
现实含义 :
两边同乘以收入得到: 储蓄 = -0.722.47 + 0.088 收入
操作步骤 3 :
检验异方差 是否得到改善
Analyze -> Regression -> Linear
点击 save
continue -> OK
非标准残差 绝对值化
Transform -> Computer Variable
-> OK 结果如下
判定 abs2 和 收入的倒数 的相关系数
Analyze -> Correlate -> Bivariate
由表格 可知 P=0.289 > 0.05
所以 接收原假设,即有95%的把握认为内无异方差
方法二: 加权-最小二乘法估计回归系数
操作步骤 1 ( 2数据文件见:0151119_异方差_最小二乘法 ):
注意: 收入的倒数 小数位数值设为 7 显示如下
Analyze -> Regression-> Linear
点击 OK 输出结果如下:
表格分析:
由上表的出结果如下:
1. R^2 =0.933 回归效果好 P=0.000<0.05 回归方程显著
2. 系数检验后,方程如下:
( 与第一种方法得出结果作比较 )
判定该回归方程是否可以直接使用,必须通过等级相关系数检验
三步:
1. 添加 未标准化异方差
Analyze -> Regression -> Linear 点击 save 勾选 OK
2. 绝对值化 未标准化异方差
Transform -> Computer Variable
3. 计算 自变量(收入) 和 绝对值的 相关系数
Analyze -> correlate -> Brivariate
操作步骤 2 :
Analyze -> Regression -> Weight Estimation
-> OK 输出结果如下
表格分析:
由上表的出结果如下:
1. R^2 =0.936 回归效果好 P=0.000<0.05 回归方程显著
2. 系数检验后,方程如下:
( 与第一种方法得出结果作比较 )
判定该回归方程是否可以直接使用,必须通过等级相关系数检验
三步:
1. 添加 未标准化异方差 Analyze -> Regression -> Linear 点击 save 勾选 OK
2. 绝对值化 未标准化异方差 Transform -> Computer Variable
3. 计算 自变量 和 绝对值的 相关系数 Analyze -> correlate -> Brivariate
5.4.5 问题3:判定序列相关
自相关问题,是指随着不同期的样本值(不同编号的样本值)之间存在相关关系,这也是经济与管理领域中经常出现的问题之一。
经济管理问题中产生序列相关的主要原因:
1. 遗漏重要变量
2. 经济变量的滞后性
3. 采用错误的回归形式
4. 因数据加工整理而导致误差项之间出现自相关性。
检验工具:DW 统计量(公式了解即可)
公式:
其中 ;
由于 : ;
DW 判定区间如下
观察、检验序列相关——图示和DW值
检查自相关的原因,若不是遗漏重要变量或回归形式选择错误,则用恰当方法处理;
常用方法是:
(1)迭代法—广义差分法
(2)一阶差分法
序列相关的诊断
yt
操作步骤 1 :( 数据文件见 20151126_序列相关 )
Analyze -> Regression -> Linear
xt
点击 statistic 勾选
Continue-> 点击 plots 画散点图
Continue -> 点击 save 勾选 残差非标准化
点击 continue -> OK 输出结果如下:
由表格DW = 0.934 故存在正一阶序列相关
并由DW值并结合图形 诊断出存在序列相关
序列相关 处理方法一:广义差分法
操作步骤 2 :
由上述操作的出 DW = 0.934 由此得出 ρ = 0.533
第一步:
transform Compute中的LAG(1) 函数产生两个新变量 和
Transform -> Computer Variable ->
->OK
结果如下
同理生成新变量
Transform -> Computer Variable ->
LAG(gnp)
-> OK 结果如下
根据公式继续产生两个新变量
Transform -> Computer Variable ->
进口额-0.533 *
-> OK 结果如下:
Transform -> Computer Variable ->
Gnp - 0.533 *
-> OK 输出结果如下
对新生成的两个因变量 自变量 进行诊断 :
Analyze -> Regression -> Linear
依次点击 Statistic Plots Save 勾选相应属性(省略) -》 诊断序列相关
输出结果如下:
DW = 1.428 < 2
图像( 省略 )
由DW值并结合图形 诊断出依然存在序列相关
当且 DW 近似等于2时 完全没有自相关 故需要 继续迭代
第二次迭代
继续重复上述操作
由 和 由Lag(1) 生成 和
由 DW = 1.428 根据公式推出 ρ = 0.286
继而得到由公式得到
通过对 新因变量 自变量 进行诊断 得到第二次结果:
DW = 1.815 < 2
图像( 省略 )
由DW值并结合图形 诊断出依然存在序列相关
且数据显示如下:
第三次迭代
继续重复上述操作
由 和 由Lag(1) 生成 和
由 DW = 1.815 根据公式推出 ρ = 0.0925
继而得到由公式得到 和
通过对 新因变量 自变量 进行诊断 得到第三次结果:
DW = 1.932 近似等于 2
图像( 省略 )
由DW值并结合图形 诊断可能不存在序列相关
数据显示如下:
若再次进行第四次迭代 (四次迭代后的数据见 20151126_序列相关_四次迭代数据.sav )
根据 DW = 1.932 ρ = 0.034
并计算出 继而求出
进行诊断 得出结果
DW值反而降低了
由此提出待解决疑问:
是不是 DW 在迭代到2时 会继而减少 ?
还是 本次迭代结果DW值得减少仅仅是一个意外情况:即DW值迭代到 2 的近似值后 可能增加 也可能减少 ?
序列相关 处理方法二:一阶差分法
操作步骤 3 :
方法一:用 transform Compute中的LAG函数产生和,再产生;
Transform -> Computer Variable ->
方法二:用transform Compute中的Create time Series直接产生;
Transform -> Create time series ->
两种方法依次生成 数据;且数据结果相应,如下图所示
方法一:生成 数据
方法二:生成 数据
Analyze -> Regression -> Linear
依次点击 statistic Plots Save 勾选相应选项
并点击 Option 取消勾选 include constant equation
得出结果
得出DW = 2.020 近似等于 2
并结合图形 判断已处理该种序列相关情况
由此得出结论:
方法二:对新产生的自变量和因变量进行过原点的回归拟合,则效果更好。
后续步骤 回归分析 回归效果 显著性检验 系数检验
得到最后回归方程
展开阅读全文