应用回归分析课后习题参考答案.doc

资源描述

第二章一元线性回归分析思考与练习参考答案 2.1 一元线性回归有哪些基本假定? 答：假设1、解释变量X是确定性变量，Y是随机变量；假设2、随机误差项ε具有零均值、同方差和不序列相关性： E(εi)=0 i=1,2, …,n Var (εi)=s2 i=1,2, …,n Cov(εi, εj)=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关： Cov(Xi, εi)=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi~N(0, s2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Yi=β1Xi+εi i=1,2, …,n 误差εi（i=1,2, …,n）仍满足基本假定。求β1的最小二乘估计解：得： 2.3 证明（2.27式），Sei =0 ，SeiXi=0 。证明：其中：即： Sei =0 ，SeiXi=0 2.4回归方程E（Y）=β0+β1X的参数β0，β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。答：由于εi~N(0, s2 ) i=1,2, …,n 所以Yi=β0 + β1Xi + εi~N（β0+β1Xi , s2 ) 最大似然函数：使得Ln（L）最大的，就是β0，β1的最大似然估计值。同时发现使得Ln（L）最大就是使得下式最小，上式恰好就是最小二乘估计的目标函数相同。值得注意的是：最大似然估计是在εi~N(0, s2 )的假设下求得，最小二乘估计则不要求分布假设。所以在εi~N(0, s2 ) 的条件下，参数β0，β1的最小二乘估计与最大似然估计等价。 2.5 证明是β0的无偏估计。证明： 2.6 证明证明： 2.7 证明平方和分解公式：SST=SSE+SSR 证明： 2.8 验证三种检验的关系，即验证：（1）；（2）证明：（1）（2） 2.9 验证（2.63）式：证明：其中： 2.10 用第9题证明是s2的无偏估计量证明： 2.11 验证决定系数与F值之间的关系式证明： 2.14 为了调查某广告对销售收入的影响，某商店记录了5个月的销售收入y（万元）和广告费用x（万元），数据见表2.6，要求用手工计算：表2.6 月份 1 2 3 4 5 X 1 2 3 4 5 Y 10 10 20 20 40 （1）画散点图（略）（2） X与Y是否大致呈线性关系？答：从散点图看，X与Y大致呈线性关系。（3）用最小二乘法估计求出回归方程。计算表 X Y 1 10 4 100 20 6 （-14）2 （-4）2 2 10 1 100 10 13 （-7）2 （3）2 3 20 0 0 0 20 0 0 4 20 1 0 0 27 72 72 5 40 4 400 40 34 142 （-6）2 和15 100 和Lxx=10 Lyy=600 和Lxy=70 和100 SSR=490 SSE=110 均3 均20 均20 回归方程为：（4）求回归标准误差先求SSR（Qe）见计算表。所以（5）给出的置信度为95%的区间估计；由于(1-a)的置信度下，的置信区间是查表可得所以的95%的区间估计为：（7—3.182*1.915，7+3.182*1.915），即（0.906,13.094）。所以的95%的区间估计为：（-1-3.182*6.351，-1+3.182*6.351），即（-21.211, 19.211）。的置信区间包含0，表示不显著。（6）计算x和y的决定系数说明回归方程的拟合优度高。（7）对回归方程作方差分析方差分析表方差来源平方和自由度均方 F值 SSR 490 1 490 13.364 SSE 110 3 36.667 SST 600 4 F值=13.364>F0.05(1,3)=10.13(当n=1,n=8时，α=0.05查表得对应的值为10.13),所以拒绝原假设，说明回归方程显著。（8）做回归系数β1的显著性检验H0: β1=0 t值=3.656>t0.05/2(3)=3.182,所以拒绝原假设，说明x对Y有显著的影响。（8）做相关系数R的显著性检验 R值=0.904>R0.05(3)=0.878,所以接受原假设，说明x和Y有显著的线性关系。（9）对回归方程作残差图并作相应的分析残差图(略) .从残差图上看出，残差是围绕e=0在一个固定的带子里随机波动，基本满足模型的假设ei~N(0, s2 ), 但由于样本量太少, 所以误差较大. （10）求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间. 解: 当X0=4.2时, 所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时，Y0估计值的置信区间为: 所以求得Y0的95%的置信区间为: [6.05932 ,50.74068] 预测误差较大. 2.15 一家保险公司十分关心其总公司营业部加班的制度，决定认真调查一下现状。经过十周时间，收集了每周加班工作时间的数据和签发的新保单数目，x为每周新签发的保单数目，y为每周加班工作时间（小时）。见表2.7。表2..7 周序号 1 2 3 4 5 6 7 8 9 10 X 825 215 1070 550 480 920 1350 325 670 1215 Y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 1、画散点图 2、由散点图可以看出， x与y之间大致呈线性关系。 3、用最小二乘法求出回归系数由表可知：回归方程为： 4、求回归标准误差由方差分析表可以得到:SSE=1.843 故回归标准误差，=0.48。 5、给出回归系数的置信度为95%的区间估计由回归系数显著性检验表可以看出，当置信度为95%时：的预测区间为[-0.701,0.937], 的预测区间为[0.003,0.005]. 的置信区间包含0，表示不拒绝为零的假设。 6、决定系数由模型概要表得到决定系数为0.9接近于1，说明模型的拟合优度高。 7. 对回归方程作方差分析由方差分析表可知： F值=72.396>5.32(当n=1,n=8时，查表得对应的值为5.32) P值0，所以拒绝原假设，说明回归方程显著。 8、对的显著性检验从上面回归系数显著性检验表可以得到的t统计量为t=8.509，所对应的p值近似为0，通过t检验。说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。 9.做相关系数显著性检验相关系数达到0.949，说明x与y显著线性相关。 10、对回归方程作残差图并作相应分析从残差图上看出，残差是围绕e=0随即波动，满足模型的基本假设。 11、该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少? 当x=1000张时，小时 12、给出Y0的置信水平为95%的预测区间通过SPSS运算得到Y0的置信水平为95%的预测区间为：（2.5195，4.8870）。 13 给出E（Y0）的置信水平为95%的预测区间通过SPSS运算得到Y0的置信水平为95%的预测区间为：（3.284，4.123）。 2.16 表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元). 序号 y x 序号 y x 序号 y x 1 19583 3346 18 20816 3059 35 19538 2642 2 20263 3114 19 18095 2967 36 20460 3124 3 20325 3554 20 20939 3285 37 21419 2752 4 26800 4542 21 22644 3914 38 25160 3429 5 29470 4669 22 24624 4517 39 22482 3947 6 26610 4888 23 27186 4349 40 20969 2509 7 30678 5710 24 33990 5020 41 27224 5440 8 27170 5536 25 23382 3594 42 25892 4042 9 25853 4168 26 20627 2821 43 22644 3402 10 24500 3547 27 22795 3366 44 24640 2829 11 24274 3159 28 21570 2920 45 22341 2297 12 27170 3621 29 22080 2980 46 25610 2932 13 30168 3782 30 22250 3731 47 26015 3705 14 26525 4247 31 20940 2853 48 25788 4123 15 27360 3982 32 21800 2533 49 29132 3608 16 21690 3568 33 22934 2729 50 41480 8349 17 21974 3155 34 18443 2305 51 25845 3766 解答：（1）绘制y对x的散点图，可以用直线回归描述两者之间的关系吗？由上图可以看出y与x的散点分布大致呈直线趋势。（2）建立y对x的线性回归。利用SPSS进行y和x的线性回归，输出结果如下：表1 模型概要 R R2 调整后的R2 随机误差项的标准差估计值 0.835 0.697 0.691 2323.25589 表2 方差分析表模型平方和自由度和平均 F值 P值 1 回归平方和 6.089E8 1 6.089E8 112.811 .000a 残差平方和 2.645E8 49 5397517.938 总平方和 8.734E8 50 表3 系数表模型非标准化系数标准化系数 t值 P值 B 标准差回归系数 1 常数 12112.629 1197.768 10.113 .000 对学生的人均经费投入 3.314 .312 .835 10.621 .000 1) 由表1可知，x与y决定系数为，说明模型的拟合效果一般。x与y线性相关系数R=0.835，说明x与y有较显著的线性关系。 2) 由表2（方差分析表中）看到，F=112.811，显著性Sig.p,说明回归方程显著。 3) 由表3 可见对的显著性t检验P值近似为零，故显著不为0，说明x对y有显著的线性影响。 4) 综上，模型通过检验，可以用于预测和控制。 x与y的线性回归方程为：（3）绘制标准残差的直方图和正态概率图图1 标准残差的直方图理论正态概率观测值概率图2 标准残差的正态概率P-P图由图1可见标准化后残差近似服从正态分布，由图2可见正态概率图中的各个散点都分布在45°线附近，所以没有证据证明误差项服从同方差的正态分布的假定是不真实的，即残差通过正态性检验，满足模型基本假设。第3章多元线性回归思考与练习参考答案 3.2 讨论样本容量n与自变量个数p的关系，它们对模型的参数估计有何影响？答：在多元线性回归模型中，样本容量n与自变量个数p的关系是：n>>p。如果n<=p对模型的参数估计会带来很严重的影响。因为： 1. 在多元线性回归模型中，有p+1个待估参数β，所以样本容量的个数应该大于解释变量的个数，否则参数无法估计。 2. 解释变量X是确定性变量，要求，表明设计矩阵X中的自变量列之间不相关，即矩阵X是一个满秩矩阵。若，则解释变量之间线性相关，是奇异阵，则的估计不稳定。 3.3证明随机误差项ε的方差s2的无偏估计。证明: 3.4 一个回归方程的复相关系数R=0.99，样本决定系数R2=0.9801，我们能判断这个回归方程就很理想吗？答：不能断定这个回归方程理想。因为： 1. 在样本容量较少，变量个数较大时，决定系数的值容易接近1，而此时可能F检验或者关于回归系数的t检验，所建立的回归方程都没能通过。 2. 样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,…,Xp整体上的线性关系成立，而不能判断回归方程和每个自变量是显著的，还需进行F检验和t检验。 3. 在应用过程中发现，在样本容量一定的情况下，如果在模型中增加解释变量必定使得自由度减少，使得 R2往往增大，因此增加解释变量（尤其是不显著的解释变量）个数引起的R2的增大与拟合好坏无关。 3.7 验证证明：多元线性回归方程模型的一般形式为：其经验回归方程式为，又，故，中心化后，则有，左右同时除以，令，样本数据标准化的公式为，则上式可以记为则有 3.10 验证决定系数R2与F值之间的关系式：证明： 3.11 研究货运总量y（万吨）与工业总产值x1（亿元）、农业总产值x2（亿元）、居民非商品支出x3（亿元）的关系。数据见表3.9（略）。（1）计算出y，x1，x2，x3的相关系数矩阵。 SPSS输出如下：则相关系数矩阵为：（2）求出y与x1，x2，x3的三元回归方程。对数据利用SPSS做线性回归，得到回归方程为（3）对所求的方程作拟合优度检验。由上表可知，调整后的决定系数为0.708，说明回归方程对样本观测值的拟合程度较好。（4）对回归方程作显著性检验；原假设： F统计量服从自由度为（3，6）的F分布，给定显著性水平=0.05，查表得,由方查分析表得，F值=8.283>4.76，p值=0.015，拒绝原假设，由方差分析表可以得到，说明在置信水平为95%下，回归方程显著。（5）对每一个回归系数作显著性检验；做t检验：设原假设为，统计量服从自由度为n-p-1＝６的t分布，给定显著性水平0.05，查得单侧检验临界值为1.943，X1的t值=1.942<1.943，处在否定域边缘。 X2的t值＝2.465>1.943。拒绝原假设。由上表可得，在显著性水平时，只有的P值<0.05,通过检验，即只有的回归系数较为显著；其余自变量的P值均大于0.05，即x1，x2的系数均不显著。（6）如果有的回归系数没有通过显著性检验，将其剔除，重新建立回归方程，并作回归方程的显著性检验和回归系数的显著性检验。解：用后退法对数据重新做回归分析，结果如下：选择模型二，重新建立的回归方程为：对新的回归方程做显著性检验：原假设： F服从自由度为（2，7）的F分布，给定显著性水平=0.05，查表得,由方差分析表得，F值=11.117>4.74，p值=0.007，拒绝原假设. 认为在显著性水平=0.05下，x1，x2整体上对y有显著的线性影响，即回归方程是显著的。对每一个回归系数做显著性检验：做t检验：设原假设为，统计量服从自由度为n-p-1＝７的t分布，给定显著性水平0.05，查得单侧检验临界值为1.895，X1的t值=2.575>1.895，拒绝原假设。故显著不为零，自变量X1对因变量y的线性效果显著；同理β2也通过检验。同时从回归系数显著性检验表可知：X1,X2的p值都小于0.05，可认为对x1，x2分别对y都有显著的影响。（7）求出每一个回归系数的置信水平为955D 置信区间由回归系数表可以看到，β1置信水平为95%的置信区间[0.381,8.970]， β2置信水平为95%的置信区间[3.134,14.808] （8）求标准化回归方程由回归系数表（上表）可得，标准化后的回归方程为：（9）求当x01=75，x02=42，x03=3.1时的y的预测值，给定置信水平95%，用SPSS软件计算精确置信区间，用手工计算近似预测区间；由SPSS输出结果可知，当时，（见上表），的置信度为95%的精确预测区间为（204.4,331.2）（见下表），的置信度为95%的近似预测区间为，手工计算得：（219.6,316.0）。（10）结合回归方程对问题做一些简单分析。答：由回归方程可知农业总产值固定的时候，工业总产值每增加1亿元，货运总量增加4.676万吨；工业总产值固定的时候，农业总产值每增加1亿元，货运总量增加8.971万吨。而居民非商品支出对货运总量没有显著的线性影响。由标准化回归方程可知: 工业总产值、农业总产值与Y都是正相关关系，比较回归系数的大小可知农业总产值X2对货运总量Y的影响程度大一些。第4章违背基本假设的情况思考与练习参考答案 4.1 试举例说明产生异方差的原因。答：例4.1：截面资料下研究居民家庭的储蓄行为 Yi=b0+b1Xi+εi 其中：Yi表示第i个家庭的储蓄额，Xi表示第i个家庭的可支配收入。由于高收入家庭储蓄额的差异较大，低收入家庭的储蓄额则更有规律性，差异较小，所以εi的方差呈现单调递增型变化。例4.2：以某一行业的企业为样本建立企业生产函数模型 Yi=Aib1 Kib2 Lib3eεi 被解释变量：产出量Y，解释变量：资本K、劳动L、技术A，那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同，造成了随机误差项的异方差性。这时，随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化，呈现复杂型。 4.2 异方差带来的后果有哪些？答：回归模型一旦出现异方差性，如果仍采用OLS估计模型参数，会产生下列不良后果： 1、参数估计量非有效 2、变量的显著性检验失去意义 3、回归方程的应用效果极不理想总的来说，当模型出现异方差性时，参数OLS估计值的变异程度增大，从而造成对Y的预测误差变大，降低预测精度，预测功能失效。 4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。答：普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同，是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下，普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下，平方和中的每一项的地位是不相同的，误差项的方差大的项，在残差平方和中的取值就偏大，作用就大，因而普通最小二乘估计的回归线就被拉向方差大的项，方差大的项的拟合程度就好，而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计，但不再是最小方差线性无偏估计。所以就是：对较大的残差平方赋予较小的权数，对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正，以提高参数估计的精度。加权最小二乘法的方法： 4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。答：运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数，以调整各项在平方和中的作用，加权最小二乘的离差平方和为：（2）加权最小二乘估计就是寻找参数的估计值使式（2）的离差平方和达极小。所得加权最小二乘经验回归方程记做（3）多元回归模型加权最小二乘法的方法: 首先找到权数，理论上最优的权数为误差项方差的倒数,即 （4）误差项方差大的项接受小的权数，以降低其在式（2）平方和中的作用; 误差项方差小的项接受大的权数，以提高其在平方和中的作用。由（2）式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。一个需要解决的问题是误差项的方差是未知的,因此无法真正按照式（4）选取权数。在实际问题中误差项方差通常与自变量的水平有关(如误差项方差随着自变量的增大而增大),可以利用这种关系确定权数。例如与第j个自变量取值的平方成比例时, 即=k时,这时取权数为  （5）更一般的情况是误差项方差与某个自变量(与|ei|的等级相关系数最大的自变量)取值的幂函数成比例，即=k,其中m是待定的未知参数。此时权数为（6）这时确定权数的问题转化为确定幂参数m的问题，可以借助SPSS软件解决。4.5（4.5）式一元加权最小二乘回归系数估计公式。证明：由得： 4.6验证（4.8）式多元加权最小二乘回归系数估计公式。证明：对于多元线性回归模型（1），即存在异方差。设，用左乘（1）式两边，得到一个新的的模型：，即。因为，故新的模型具有同方差性，故可以用广义最小二乘法估计该模型，得原式得证。 4.7 有同学认为当数据存在异方差时，加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异，异方差越严重，两者之间的差异就越大。你是否同意这位同学的观点？说明原因。答：不同意。当回归模型存在异方差时，加权最小二乘估计（WLS）只是普通最小二乘估计（OLS）的改进，这种改进可能是细微的，不能理解为WLS一定会得到与OLS截然不同的方程来，或者大幅度的改进。实际上可以构造这样的数据，回归模型存在很强的异方差，但WLS 与OLS的结果一样。加权最小二乘法不会消除异方差，只是消除异方差的不良影响，从而对模型进行一点改进。 4.8 对例4.3的数据，用公式计算出加权变换残差，绘制加权变换残差图，根据绘制出的图形说明加权最小二乘估计的效果。解：用公式计算出加权变换残差，分别绘制加权最小二乘估计后的残差图和加权变换残差图（见下图）。根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差，只是对原OLS的残差有所改善，而经过加权变换后的残差不存在异方差。 4.9 参见参考文献[2]，表4.12（P138）是用电高峰每小时用电量y与每月总用电量x的数据。（1）用普通最小二乘法建立y与x的回归方程，并画出残差散点图。解：SPSS输出结果如下：由上表可得回归方程为：残差图为：（2）诊断该问题是否存在异方差；解：a由残差散点图可以明显看出存在异方差，误差的方差随着的增加而增大。 b用SPSS做等级相关系数的检验，结果如下表所示：得到等级相关系数，P值=0.021，认为残差绝对值与自变量显著相关，存在异方差。（3）如果存在异方差，用幂指数型的权函数建立加权最小二乘回归方程；解：SPSS输出结果如图： Coefficients a,b -.683 .298 -2.296 .026 .004 .000 .812 9.930 .000 (Constant) x Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Dependent Variable: y a. Weighted Least Squares Regression - Weighted by Weight for y from WLS, MOD_2 x** -1.500 b. 由上述表可得，在时对数似然函数达到最大，则幂指数的最优取值为。加权后的回归方程为：。计算加权后的残差，并对残差绝对值和自变量做等级相关系数分析，结果如下表所示：，P值为0.019<0.05，即加权最小二乘法没有消除异方差，只是消除异方差的不良影响，从而对模型进行一点改进。 Correlations 1.000 .321 * . .019 53 53 .321 * 1.000 .019 . 53 53 Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N x abseiw Spearman's rho x abseiw Correlation is significant at the 0.05 level (2-tailed). *. （4）用方差稳定变换消除异方差。解：对应变量做方差稳定变换（）后，用最小二乘法做回归，SPSS结果如下表： Coefficients a .582 .130 4.481 .000 .001 .000 .805 9.699 .000 (Constant) x Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Dependent Variable: sqrty a. 则回归方程为：。保存预测值，计算出残差的绝对值后，计算等级相关系数，见下表：其中，P值=0.254>0.05，说明异方差已经消除。 4.10 试举一可能产生随机误差项序列相关的经济例子。答：例如，居民总消费函数模型： Ct=b0+b1Yt+ ε t t=1,2,…,n 由于居民收入对消费影响有滞后性，而且今年消费水平受上年消费水平影响，则可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中，则可能出现序列相关性（往往是正相关）。 4.11 序列相关性带来的严重后果是什么？答：直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时，会产生下列一些问题： 1. 参数估计量仍然是无偏的，但不具有有效性，因为有自相关性时参数估计值的方差大于无自相关性时的方差。 2. 均方误差MSE可能严重低估误差项的方差 3. 变量的显著性检验失去意义：在变量的显著性检验中，统计量是建立在参数方差正确估计基础之上的，当参数方差严重低估时，容易导致t值和F值偏大，即可能导致得出回归参数统计检验和回归方程检验显著，但实际并不显著的严重错误结论。 4. 当存在序列相关时，仍然是的无偏估计，但在任一特定的样本中，可能严重歪曲b的真实情况，即最小二乘法对抽样波动变得非常敏感 5. 模型的预测和结构分析失效。 4.12 总结DW检验的优缺点。答：优点：1.应用广泛，一般的计算机软件都可以计算出DW值； 2.适用于小样本； 3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。缺点：1. DW检验有两个不能确定的区域，一旦DW值落入该区域，就无法判断。此时，只有增大样本容量或选取其他方法； 2.DW统计量的上、下界表要求n>15，这是由于样本如果再小，利用残差就很难对自相关性的存在做出比较正确的诊断； 3.DW检验不适应随机项具有高阶序列相关性的检验。 4.13 表4.13中是某软件公司月销售额数据，其中，x为总公司的月销售额（万元）;y为某分公司的月销售额（万元）。（1）用普通最小二乘法建立y与x的回归方程；由上表可知：用普通二乘法建立的回归方程为（2）用残差图及DW检验诊断序列的相关性； 1.以自变量x为横轴，普通残差为纵轴画残差图如下：从图中可以看到，残差有规律的变化，呈现大致反W形状，说明随机误差项存在自相关性。 2.以（残差1）为横坐标，（残差）为纵坐标，绘制散点图如下：由残差图可见大部分的点落在第一、三象限内，表明随机扰动项存在着正的序列相关； 3.从下表可知DW值为0.663，查DW表，n=20,k=2,显著性水平=0.05，得=1.20,=1.41,由于0.663<1.20,知DW值落入正相关区域，即残差序列存在正的自相关。（3）用迭代法处理序列相关，并建立回归方程。自相关系数令，，然后用对作普通最小二乘回归可得输出结果如下：可看到新的回归方程的DW=1.360.且1.18<1.360<1.40,因而DW检验落入不确定区域此时，一步迭代误差项的标准差为0.07296，小于的标准差0.097 对的回归方程为=-0.3+0.173，将=-0.6685，=-0.6685代人，还原为原始变量的方程=-0.3+0.6685+0.173-0.1157 由于一步迭代的DW检验落入不确定区域，因而可以考虑对数据进行二步迭代，也就是对和重复以上迭代过程。进行回归结果如下：此时DW的值为1.696，查DW表，n=18，k=2，显著性水平=0.05，得=1.16, =1.39, DW值大于，小于2，落入无自相关区域。误差标准项0.0849，略小于一步迭代的标准差0.7296。但是在检验都通过的情况下，由于一步迭代的值和F值均大于两步迭代后的值，且根据取模型简约的原则，最终选择一步迭代的结果，即： =-0.3+0.6685+0.173-0.1157 （4）用一阶差分的方法处理数据，建立回归方程；先计算差分=-，=-，然后用对做过原点的最小二乘回归，结果如下：由上面表，可知DW值为1.462>1.40=，即DW落入不相关区域，可知残差序列不存在自相关，一阶差分法成功地消除了序列自相关。同时得到回归方程为 =0.169，将=-，=-，代人，还原原始变量的方程 =+0.169（-）（5）比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。答：本题中自相关系数0.6685，不接近于1，不适宜用差分法，另外由迭代法的F值及都大于差分法的值，故差分法的效果低于迭代法的效果；而普通最小二乘法的随机误差项标准差为0.09744，大于迭代的随机误差项标准差0.07296，所以迭代的效果要优于普通最小二乘法，所以本题中一次迭代法最好。 4.14 某乐队经理研究其乐队CD盘的销售额（y），两个有关的影响变量是每周出场次x1和乐队网站的周点击率x2，数据见表4.14。（1）用普通最小二乘法建立y与x1、x2的回归方程，用残差图及DW检验诊断序列的自相关性；解：将数据输入SPSS，经过线性回归得到结果如下： Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 .541(a) .293 .264 329.69302 .745 a Predictors: (Constant), x2, x1 b Dependent Variable: y ANOVA(b) Model Sum of Squares df Mean Square F Sig. 1 Regression 2205551.678 2 1102775.839 10.145 .000(a) Residual 5326177.036 49 108697.491 Total 7531728.714 51 a Predictors: (Constant), x2, x1 b Dependent Variable: y 由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程，通过了r、F、t检验，说明回归方程显著。y与x1、x2的回归方程为： y=-574.062+191.098x1+2.045x2 残差图ei(et)~ei1(et-1)为：从残差图可以看出残差集中在1、3象限，说明随机误差项存在一阶正自相关。 DW=0.745 查表得dl=1.46 du=1.63, 0<DW<dl, 所以随机误差项存在一阶正自相关。（2）用迭代法处理序列相关，并建立回归方程。 ρ=1-0.5DW=0.6275 做变换:x1t’=x1t-ρx1(t-1), x2t’=x2t-ρx2(t-1) yt’=yt-ρyt-1 建立yt’与x1t’, x2t’的回归方程,SPSS输出为: DW=1.716>du 所以误差项间无自相关性。=257.86 回归方程为:yt’=-178.775+211.11x1t’+1.436x2t’ 还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1)) +1.436*( x2t-0.627x2(t-1)) (3)用一阶差分法处理序列相关，建立回归方程。 Model Summary(c,d) Model R R Square(a) Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 .715(b) .511 .491 280.98995 2.040 a For regression through the origin (the no-intercept model), R Square measures the proportion of the vari

展开阅读全文