资源描述
应用回归分析·上机作业二
学号:200930980106 姓名: 何斌 年级专业: 10级统计1班 指导老师:丁仕虹
1.用普通最小二乘法建立回归方程,并画出残差散点图。
1.1首先录入数据,sas程序如下:
proc import out=aa /*使用import过程导入数据,并输出到数据集aa*/
datafile="d:\xt4.09.xls"
dbms=excel2000 replace;
getnames=yes; /*首行为变量名*/
run;
proc print data=aa noobs;
run;
1.2建立回归方程,画残差散点图,sas程序如下:
proc reg data=aa;
model y=x;
output out=out r=residual;/*把回归的结果输出在文件out里,残差给变量名residual */
run;
proc gplot data=out;
plot residual*x;/*做残差图,检验是否存在异方差*/
symbol v=star i=none;
run;
1.3得到结果如下:
图1.3.1方差分析以及参数估计
思考与练习 4.9
1.4结果分析:
1.4.1由方差分析可知:p值小于0.05,所以该回归方程显著有效。
1.4.2 R-Square=0.7046,Adj R-Sq=0.6988,可见回归方程的拟合度较高。
1.4.3由参数估计可得,常数项的检验P值为0.0655大于0.05,故常数项不显著。
1.5除去常数项,重新拟合方程。
1.5.1 sas程序如下:
proc reg data=aa;
model y=x/noint;
run;
1.5.2得到结果如下:
图1.5.1方差分析以及参数估计
1.5.3结果分析:
(1)由方差分析可知:P值小于0.05,所以该回归方程显著有效,且F值较有常数项时明显变大,故拟合方程较有常数项时更好。
(2) R-Square=0.8704,Adj R-Sq=0.8679,可见回归方程的拟合度有较大幅度提高。
(3)由参数估计可得,所有参数的检验P值均小于0.05,参数显著有效。
(4)拟合的回归方程为: (1.5.3.4)
1.6得到残差散点图如下:
图1.6.1残差散点图
2. 判断是否存在异方差。
2.1残差图分析:
由图1.6.1残差散点图可以直观地看到,残差散点图上的点的分布是有一定规律的,即误差随着x的增加而波动幅度增加,呈大喇叭的形状,因此可以认为误差项存在异方差。
2.2利用等级相关系数法判断,sas程序如下:
proc reg data=aa;
model y=x/r noint;/*r是残差,noint无常数项*/
output out=out r=residual;/*把回归的结果输出在文件out里,残差给变量名residual */
run;
/*下面利用残差的绝对值和X间的 spearman的相关系数检验异方差*/
data out1 ;
set out; /*调用数据集out*/
z=abs(residual); /*求残差的绝对值*/
run;
proc corr data=out1 outs=out2;
/*corr指做相关分析 outs=out2表示将等级相关检验的结果输出到out2*/
var x z;
run;
2.2.1得到结果如下:
图2.2.1等级相关系数
2.2.2结果分析:
由2.2.1的输出结果可知,残差绝对值与的等级相关系数,对应的P值=0.1262,故认为残差绝对值与自变量显著相关,存在异方差。
3.用幂指数型的权函数建立加权最小二乘回归方程。
3.1 sas程序如下:
title"wls method";
data w1;/*建立新的数据集w1,以便计算权重*/
set out1;
keep y x;
run;
data w2;/*建立新的数据集w,以保留权重*/
set w1;
array row{10} w1-w10;/* w1-w10为不同m时的权数值*/
array p{10}(-2,-1.5,-1,-0.5,0,0.5,1,1.5,2,2.5);
do i=1 to 10;
row(i)=1/x**p{i};
end;
run;
proc print data=w2;
run;
proc reg data=w2;
model y=x/r;
weight w1;
output out=test r=residual;
run;
proc gplot data=test;
plot residual*x;
symbol v=dot i=none color=red;
run;
3.2结果如下图所示:
图3.2.1方差分析
图3.2.1拟合优度以及参数估计
3.3结果分析:
(1)由方差分析可知:P值小于0.05,所以该回归方程显著有效。
(2) R-Square=0.8175,Adj R-Sq=0.8139,可见回归方程的拟合度较高。
(3)由参数估计可得,所有参数的检验P值均小于0.05,参数显著有效。
(4)加权最小二乘的回归方程为: (3.3.4)
3.4.1残差散点图:
3.4.2残差散点图分析:
由3.4.1残差散点图可以直观地看到,残差图上的点仍是有规律的,即误差随着x的增加而波动幅度增加,呈大喇叭的形状,因此可以认为误差项仍存在异方差。
4. 作变换:y=sqrt(y) 。
4.1得到结果如下:
图4.1.1方差分析以及参数估计
4.2结果分析:
由图4.1.1可知,回归方程通过了显著性检验,调整为0.6520,回归方程的系数都通过了显著性检验,方差稳定变换后,回归方程为:
(4.2.1)
思考与练习 4.13
1. 用普通最小二乘法建立y关于x的回归方程。
1.1首先录入数据,sas程序如下:
proc import out=aa2 /*使用import过程导入数据,并输出到数据集aa2*/
datafile="d:\xt_4.13.xls"
dbms=excel2000 replace;
getnames=yes; /*首行为变量名*/
run;
1.2建立回归方程,sas程序如下:
proc reg data=aa2;
model y=x/clb p r spec DW ;/*其中p是预测值,r是残差,clb是给出回归系数的区间估计,spec可以给出怀特检验(检验异方差)的结果,DW给出一阶线性自相关检验*/
output out=out r=residual;/*把回归的结果输出在文件out里,残差给变量名residual */
run;
1.3得到结果如下:
图1.3.1方差分析以及参数估计
1.4结果分析:
(1)由方差分析可知:p值小于0.05,所以该回归方程显著有效。
(2)R-Square=0.9982,Adj R-Sq=0.9981,可见回归方程的拟合度较高。
(3)由参数估计可得,所有参数的检验P值均小于0.05,参数显著有效。
(4)拟合的回归方程为: (1.4.1)
2.残差图以及DW检验诊断序列的相关性。
2.1残差图如下:
残差图分析:该图存在一定的锯齿形,故可判断残差项存在相关。
2.2 DW检验:
查DW分布表可得临界值dL和dU分别为1.20和1.41,由于DW值=0.771<dL=1.20,故模型存在序列正自相关。
3.迭代法处理序列相关,建立回归方程。
3.1 sas程序如下:
/*迭代法处理序列相关*/
data bb;
set out;
ro=1-(1/2)*0.771;/*求自相关系数的估计值ro,DW值=0.771*/
y_t_1=y-ro*lag1(y);
x_t_1=x-ro*lag1(x);/*lagn(n自定)函数可把一变量的各观测值移后n位;*/
proc reg data=bb;
model y_t_1=x_t_1/clb p r spec DW ;
run;
3.2结果如下所示:
图3.2.1方差分析以及参数估计
图3.2.2 DW检验
3.3结果分析:
由图3.2.1可知,迭代法所得的回归模型通过了显著性检验,调整为0.9922,回归方程为:
(3.3.1)
其中,
由图3.2.2可知,DW=1.60。查DW表,n=19,k=2,显著水平a=0.05,得dL=1.18,dU=1.40。由于1.40<1.60<4-1.40,所以迭代法得到的回归方程的误差项间无自相关。
4. 用一阶差分法处理数据,建立回归方程。
4.1 sas程序如下:
/*一阶差分法处理序列相关*/
data bb2;
set aa2;
difx=x-lag1(x);/*lagn(n自定)函数可把一变量的各观测值移后n位;对x各观测值作一阶差分*/
dify=y-lag1(y);/*lagn(n自定)函数可把一变量的各观测值移后n位;对y各观测值作一阶差分*/
run;
proc reg data=bb2;/*对bb2运行回归分析过程*/
model dify=difx/p r dw;
run;
4.2结果如下所示:
图4.2.1方差分析以及参数估计
图4.2.2 DW检验
4.3结果分析:
由图4.2.1可见,一阶差分法处理数据后建立的回归模型通过了显著性检验,调整为0.9346,回归方程为:
(4.3.1)
其中,,
由图4.2.2可知,DW=1.828。查DW表,n=19,k=2,显著水平a=0.05,得dL=1.18,dU=1.40。由于1.40<1.828<4-1.40,所以迭代法得到的回归方程的误差项间无自相关。
5. 三种方法的优良性比较。
在回归模型不存在序列相关时,普通最小二乘法比迭代法和一阶差分法操作起来更简便,但是,当一个回归模型存在序列相关性时,普通最小二乘法所建立的回归方程就不适用了,这时需要使用迭代法或一阶差分法。
由于一阶差分法的应用条件是自相关系数P=1,当P接近1时,一阶差分法比迭代法好,当原模型存在较高程度的一阶自相关的情况时,一般使用一阶差分法而不用迭代法,因为一阶差分法比迭代法简单而且迭代法需要用样本估计自相关系数P,对P的估计误差会影响迭代法的使用效率,同时迭代法的算法时间复杂度比一阶差分的高,在效率上不如一阶差分好。
展开阅读全文