资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章 自变量的选择与逐步回归,自变量选择与逐步回归,从,20,世纪,60,年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。,本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。,1,自变量选择对估计和预测的影响,一、全模型和选模型,设研究某一实际问题涉及到对因变量有影响的因素共有,m,个,回归模型为:,y=,0,+,1,x,1,+,2,x,2,+,+,m,x,m,+,(,1,),称为,全回归模型,。,如果我们从所有可供选择的,m,个变量中挑选出,p,个,,记为,x,1,x,2,,,x,p,构成的回归模型为:,y=,0p,+,1p,x,1,+,2p,x,2,+,+,pp,x,p,+,p,(,2,),称模型(,2,)式为,选模型,。,所有子集回归,一、所有子集的数目,有,m,个可供选择的变量,x,1,x,2,,,x,m,由于每个自变量都有入选和不入选两种情况,这样,y,关于这些自变量的所有可能的回归方程就有,2,m,-1,个。,从另一个角度看,所有子集回归,二、关于自变量选择的几个准则,从数据与模型拟合优劣的直观考虑出发,认为残差平方和,SSE,最小的回归方程就是最好的。还可以用复相关系数,R,来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为:,所有子集回归,准则,1,自由度调整复相关系数达到最大,所有子集回归,准则,1,自由度调整复相关系数达到最大,从另外一个角度考虑回归的拟合效果,,回归误差项方差,2,的无偏估计为:,此无偏估计式中也加入了,惩罚因子,n-p-1,所有子集回归,准则,1,自由度调整复相关系数达到最大,所有子集回归,准则,2,赤池信息量,AIC,达到最小,AIC,准则是日本统计学家赤池,(Akaike)1974,年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为,Akaike,信息量准则,(Akaike Information Criterion,简记为,AIC),。,AIC,准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。,所有子集回归,准则,2,赤池信息量,AIC,达到最小,设回归模型的,似然函数,为,L(,x,),的维数为,p,,,x,为样本,在回归分析中样本为,y,=,(,y,1,,,y,2,,,y,n,),,则,AIC,定义为:,所有子集回归,准则,2,赤池信息量,AIC,达到最小,假定回归模型的随机误差项,遵从正态分布,即,N(0,2,),对数似然函数为,所有子集回归,准则,2,赤池信息量,AIC,达到最小,带入公式,中,这里似然函数中的未知参数个数为,p+2,,略去与,p,无关的常数,得回归模型的,AIC,公式为,AIC=nln(SSE)+2p,对每一个回归子集计算,AIC,,其中,AIC,最小者所对应的模型是“最优”回归模型,所有子集回归,准则,4 C,p,统计量达到最小,1964,年马勒斯,(Colon Lingwood Mallows),从预测的角度提出一个可以用来选择自变量的统计量,C,p,统计量。即使全模型正确,但仍有可能选模型有更小的预测误差。,C,p,正是根据这一原理提出来的。,所有子集回归,准则,4 C,p,统计量尽可能小,并且越接近,p+1,为最优,考虑在,n,个样本点上,用选模型(,2,)式作回报预测时,预测值与期望值的相对偏差平方和为:,所有子集回归,可以证明,,J,p,的期望值是,略去无关的常数,2,,据此构造出,C,p,统计量为,准则,4 C,p,统计量尽可能小,并且越接近,p+1,为最优,所有子集回归,准则,4 C,p,统计量尽可能小,并且越接近,p+1,为最优,C,p,图,所有子集回归,例,1,y,表示某种消费品的销售额,,x,1,表示居民可支配收入,,x,2,表示该类消费品的价格指数,,x,3,表示其他消费品平均价格指数。,表,1,给出了某地区,18,年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。,所有子集回归,序号,x,1,(元),x,2,(%),x,3,(%),(百万元),1,81.2,85.0,87.0,7.8,2,82.9,92.0,94.0,8.4,3,83.2,91.5,95.0,8.7,4,85.9,92.9,95.5,9.0,5,88.0,93.0,96.0,9.6,6,99.9,96.0,97.0,10.3,7,102.0,95.0,97.5,10.6,8,105.3,95.6,97.0,10.9,9,117.7,98.9,98.0,11.3,10,126.4,101.5,101.2,12.3,11,131.2,102.0,102.5,13.5,12,148.0,105.0,104.0,14.2,13,153.0,106.0,105.9,14.9,14,161.0,109.0,109.5,15.9,15,170.0,112.0,111.0,18.5,16,174.0,112.5,112.0,19.5,17,185.0,113.0,112.3,19.9,18,189.0,114.0,113.0,20.5,表,1,所有子集回归,这个例子中,,n=18,m=3,,,所有的自变量子集有,2,m,-1=7,个,即有,7,个回归子集。,自变量子集,R,2,AIC,Cp,x,1,0.9728,0.9711,40.06,4.134,x,2,0.9566,0.9539,48.48,16.151,x,3,0.9508,0.9477,50.74,20.452,x,1,x,2,0.9747,0.9714,40.76,4.734,x,1,x,3,0.9784,0.9755,37.93,2.005,x,2,x,3,0.9576,0.9519,50.09,17.461,x,1,x,2,x,3,0.9811,0.9771,37.52,2.000,所有子集回归,由表的,3,项指标均可看到,x,1,,,x,2,,,x,3,是“次优”子集,,x,1,,,x,3,是“最优”子集。回归方程分别为,逐步回归,一、问题的提出及逐步回归的思想,自变量的所有可能子集构成,2,m,-1,个回归方程,当可供选择的自变量不太多时,用前边的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。人们所给出的方法各有优缺点,至今还没有绝对最优的方法,目前常用的方法有“前进法”、“后退法”、“逐步回归法”,而逐步回归法最受推崇。,逐步回归,一、问题的提出及逐步回归的思想,在后边的讨论中,无论我们从回归方程中剔除某个自变量,还是给回归方程增加某个自变量都要利用偏,F,检验,这个偏,F,检验与的,t,检验是等价的,,F,检验的定义式的统计意义更为明了,并且容易推广到对多个自变量的显著性检验,因而采用,F,检验。,逐步回归,一、前进法,逐步回归,一、问题的提出及逐步回归的思想,逐步回归,一、问题的提出及逐步回归的思想,依上述方法接着做下去。直至所有未被引入方程的自变量的,F,值均小于,F,(1,n-p-1),时为止。这时,得到的回归方程就是最终确定的方程。,每步检验中的临界值,F,(1,n-p-1),与自变量数目,p,有关,在用软件计算时,我们实际使用的是显著性,P,值(或记为,sig,)做检验。,香港恒生指数,一、逐步回归实例分析,例,2,为了研究香港股市的变化规律,此例以恒生指数,为例,建立回归方程,分析影响股票价格趋势变动的因素。,这里我们选了,6,个影响股票价格指数的经济变量:,x,1,(,百万,$),成交额,x,2,九九金价(,$/,两,),x,3,港汇指数,,x,4,人均生产总值,(,现价,$),,,x,5,建筑业总开支,(,现价百万,$),,,x,6,房地产买卖金额,(,百万,$),,,x,7,优惠利率,(,最低,%),。,y,为恒生指数。,逐步回归,年份,y,x1,x2,x3,x4,x5,x6,x7,1974,172.9,11246,681,105.9,10183,4110,11242,9,1975,352.94,10335,791,107.4,10414,3996,12693,6.5,1976,447.67,13156,607,114.4,13134,4689,16681,6,1977,404.02,6127,714,110.8,15033,6876,22131,4.75,1978,409.51,27419,911,99.4,17389,8636,31353,4.75,1979,619.71,25633,1231,91.4,21715,12339,43528,9.5,1980,1121.17,95684,2760,90.8,27075,16623,70752,10,1981,1506.94,105987,2651,86.3,31827,19937,125989,16,1982,1105.79,46230,2105,125.3,35393,24787,99468,10.5,1983,933.03,37165,3030,107.4,38823,25112,82478,10.5,1984,1008.54,48787,2810,106.6,46079,24414,54936,8.5,1985,1567.56,75808,2649,115.7,47871,22970,87135,6,1986,1960.06,123128,3031,110.1,54372,24403,129884,6.5,1987,2884.88,371406,3644,105.8,65602,30531,153044,5,1988,2556.72,198569,3690,101.6,74917,37861,215033,5.25,逐步回归,Y,X1,X2,X3,X4,X5,X6,X7,Y,1.0000,0.9171,0.8841,-0.0425,0.9382,0.8786,0.9372,-0.0955,X1,0.9171,1.0000,0.7375,-0.1293,0.7842,0.6973,0.7817,-0.1732,X2,0.8841,0.7375,1.0000,-0.1083,0.9195,0.9477,0.8747,0.1517,X3,-0.0425,-0.1293,-0.1083,1.0000,0.0725,0.0469,-0.0952,-0.4164,X4,0.9382,0.7842,0.9195,0.0725,1.0000,0.9601,0.9137,-0.1409,X5,0.8786,0.6973,0.9477,0.0469,0.9601,1.0000,0.9167,0.0666,X6,0.9372,0.7817,0.8747,-0.0952,0.9137,0.9167,1.0000,0.0617,X7,-0.0955,-0.1732,0.1517,-0.4164,-0.1409,0.0666,0.0617,1.0000,逐步回归,逐步回归,逐步回归,例,(,数据文件为,eg2.1),33,主编:费宇,表,抽样调查得到的,36,个人的数据资料,2025/5/16 周五,y,x,1,x,2,x,3,x,4,x,5,y,x,1,x,2,x,3,x,4,x,5,79220,14010,98,115,15,女,71120,11460,83,75,8,女,79670,13260,98,26,8,男,91520,22260,81,3,16,男,186320,81240,96,199,19,男,76220,12510,81,0,12,女,161945,46260,96,120,19,男,74420,12510,81,13,12,女,68420,11460,85,72,12,女,121320,23010,65,19,16,男,75320,14010,85,59,15,女,77570,17010,64,69,12,男,模型的参数估计和检验,34,#,打开数据文件,eg2.1.xls,选取,A1:F37,区域,然后复制,data2.1-read.table(clipboard,header=T)#,将,eg2.1.xls,数据读入到,data2.1,中,lm.salary|t|),(Intercept)48386.0620 11237.2882 4.306 0.000155*,x1 1.6831 0.1302 12.929 5.01e-14*,x2 -34.5520 130.2602 -0.265 0.792570,x3 -13.0004 13.7882 -0.943 0.353043,x4 808.3223 547.8017 1.476 0.150144,例,(,数据文件为,eg2.1),2025/5/16 周五,36,回归分析结果为,-,Signif.codes:0,*,0.001,*,0.01,*,0.05,.,0.1,1,Residual,standard error:7858 on 31 degrees of freedom,Multiple R-squared:0.919,Adjusted R-squared:0.9086,F-statistic:87.95 on 4 and 31 DF,p-value:2.2e-16,例,(,数据文件为,eg2.1),2025/5/16 周五,回归方程的,F,值为,87.95,相应的,p,值为,2.2,10,-16,说明回归方程是显著的,;,但,t,检验对应的,p,值则显示,:,常数项和,x,1,是显著的,而,x,2,、,x,3,和,x,4,不显著,.,#,假设,eg2.1.xls,中的数据已经读入到,data2.1,中,lm.salary-lm(yx1+x2+x3+x4,data=data2.1)#,建立全变量回归方程,lm.step-step(lm.salary,direction=both)#,用“一切子集回归法”来进行逐步回归,direction,是确定逐步搜索的方向,:both,是,“,一切子集回归法,”,forward,是,“,向前法,”,backward,是,“,向后法,”,默认值是,both.,所以这个回归过程可以简写为,lm.step|t|),(Intercept)42097.165 5265.218 7.995,3.18e-09*,x1,1.631,0.117 13.934 2.22e-15*,x4,1039.260 467.671,2.222,0.0332*,-,Signif.codes:0*0.001*0.01*0.05.0.1 1,Residual standard error:7747 on 33 degrees of freedom,Multiple R-squared:0.9162,Adjusted R-squared:0.9111,F-statistic:180.4 on 2 and 33 DF,p-value:2.2e-16,回归模型汇总信息,:,summary(lm.step),#,假设已经得到逐步回归模型,lm.step,lm.step_new-,update,(lm.step,log(.).)#,对模型进行对数变换,y.rst-rstandard(lm.step_new)#,计算新回归模型,lm.step_new,的标准化残差,y.fit-predict(lm.step_new)#,计算回归模型,lm.step_new,的预测值,plot(y.rst y.fit)#,绘制以标准化残差为纵坐标,预测值为横坐标的残差散点图,采用,对数变换,来解决方差非齐问题,对数变换后:只有第,35,号是异常点,2025/5/16 周五,43,图,2.2,例,2.3,中的标准化残差图,lm.salary-lm(log(y)x1+x2+x3+x4,data=data2.1-c(4,35),)#,去掉第,4,号和,35,号观测值再建立全变量回归方程,lm.step-step(lm.salary,direction=both)#,用“一切子集回归法”来进行逐步回归,y.rst-rstandard(lm.step)#,计算回归模型,lm.step,的,学生化残差,y.fit-predict(lm.step)#,计算回归模型,lm.step,的预测值,plot(y.rst y.fit)#,绘制以,学生化,残差为纵坐标,预测值为横坐标的残差散点图,去掉,4,和,35,号观测值,再回归,2025/5/16 周五,44,第,3,4,和,35,号观测值可能是异常点和强影响点,.,Influence measures of,lm(formula=log(y)x1+x4,data=data2.1):,dfb.1_ dfb.x1 dfb.x4 dffit cov.r cook.d hat inf,1 0.027388 0.05593 -0.057229 -0.08411 1.161 2.42e-03 0.0646,2 0.333715 0.07828 -0.277049 0.35202 1.088 4.11e-02 0.0953,3 0.348810 -3.49426 0.912364 -3.86083 1.255 3.93e+00 0.6054*,4 -0.580142 0.53947 0.390696 1.14942 0.649 3.63e-01 0.1404*,5 -0.070573 0.03314 0.018032 -0.15068 1.064 7.64e-03 0.0324,.,34-0.085786 0.13422 0.042539 0.22772 1.218 1.76e-02 0.1287,35-0.437405 -0.28259 0.631117 0.93919 0.341 2.02e-01 0.0520*,36-0.053140 0.01007 0.020734 -0.10486 1.096 3.74e-03 0.0312,2.3,模型诊断,36,个观测值对应的诊断统计量的值,输出结果:,回归预测分为点预测和区间预测两种,可以采用函数,predict(),来实现,.,例,给定解释变量,x,1,=20000,x,4,=20,利用,先前,得到的回归模型对,y,进行点预测和区间预测,(,置信度为,95%).,回归预测,#,假定由已经获得模型,lm.step,predspredict(lm.step,newdata=preds,interval=,prediction,level=0.95)#,区间预测,fit lwr upr,1 95493.09 78187.28 112798.9,回归预测,运行上述程序可得,y,的点预测和区间预测的结果如下,:,程序中选项,interval=prediction,表示要给出预测区间,选项,level=0.95,表示置信水平是,95%.,计算结果,y,的点预测为,95493.09,预测区间为,78187.28,112798.9.,
展开阅读全文