1、第二章 一元线性回归分析思考与练习参考答案 2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X是确定性变量,Y是随机变量; 假设2、随机误差项具有零均值、同方差和不序列相关性: E(i)=0 i=1,2, ,n Var (i)=s2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 假设3、随机误差项与解释变量X之间不相关: Cov(Xi, i)=0 i=1,2, ,n 假设4、服从零均值、同方差、零协方差的正态分布 iN(0, s2 ) i=1,2, ,n2.2 考虑过原点的线性回归模型 Yi=1Xi+i i=1,2, ,n误差i(i=1,2, ,n)仍满
2、足基本假定。求1的最小二乘估计解:得:2.3 证明(2.27式),Sei =0 ,SeiXi=0 。证明:其中:即: Sei =0 ,SeiXi=02.4回归方程E(Y)=0+1X的参数0,1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。答:由于iN(0, s2 ) i=1,2, ,n所以Yi=0 + 1Xi + iN(0+1Xi , s2 )最大似然函数:使得Ln(L)最大的,就是0,1的最大似然估计值。同时发现使得Ln(L)最大就是使得下式最小,上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在iN(0, s2 )的假设下求得,最小二乘估计则不要求分布假设。
3、所以在iN(0, s2 ) 的条件下, 参数0,1的最小二乘估计与最大似然估计等价。2.5 证明是0的无偏估计。证明:2.6 证明证明:2.7 证明平方和分解公式:SST=SSE+SSR证明:2.8 验证三种检验的关系,即验证:(1);(2)证明:(1)(2)2.9 验证(2.63)式:证明:其中:2.10 用第9题证明是s2的无偏估计量证明:2.11 验证决定系数与F值之间的关系式证明:2.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费用x(万元),数据见表2.6,要求用手工计算:表2.6月份12345X12345Y1010202040(1) 画散点图(
4、略)(2) X与Y是否大致呈线性关系?答:从散点图看,X与Y大致呈线性关系。(3) 用最小二乘法估计求出回归方程。计算表XY1104100206(-14)2(-4)221011001013(-7)2(3)2320000200042010027727254044004034142(-6)2和15100和Lxx=10Lyy=600和Lxy=70和100SSR=490SSE=110均3均20均20回归方程为:(4) 求回归标准误差先求SSR(Qe)见计算表。所以(5) 给出 的置信度为95%的区间估计;由于(1-a)的置信度下, 的置信区间是 查表可得所以 的95%的区间估计为:(73.182*1.
5、915,7+3.182*1.915),即(0.906,13.094)。所以 的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351),即(-21.211, 19.211)。的置信区间包含0,表示不显著。(6) 计算x和y的决定系数 说明回归方程的拟合优度高。(7) 对回归方程作方差分析方差分析表方差来源平方和自由度均方F值SSR490149013.364SSE110336.667SST6004F值=13.364F0.05(1,3)=10.13(当n=1,n=8时,=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。(8)做回归系数1的显著性检验
6、H0: 1=0t值=3.656t0.05/2(3)=3.182,所以拒绝原假设,说明x对Y有显著的影响。(8) 做相关系数R的显著性检验R值=0.904R0.05(3)=0.878,所以接受原假设,说明x和Y有显著的线性关系。(9) 对回归方程作残差图并作相应的分析残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随机波动,基本满足模型的假设eiN(0, s2 ), 但由于样本量太少, 所以误差较大.(10) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间.解: 当X0=4.2时, 所以广告费用为4.2万元时, 销售收入将达到28.4万元.由于置信
7、度为1-时,Y0估计值的置信区间为:所以求得Y0的95%的置信区间为: 6.05932 ,50.74068预测误差较大.2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。见表2.7。表2.7周序号12345678910X825215107055048092013503256701215Y3.51.04.02.01.03.04.51.53.05.01、画散点图2、由散点图可以看出, x与y之间大致呈线性关系。3、用最小二乘法求出回归系数由表可知: 回归
8、方程为: 4、求回归标准误差由方差分析表可以得到:SSE=1.843 故回归标准误差,=0.48。5、给出回归系数的置信度为95%的区间估计由回归系数显著性检验表可以看出,当置信度为95%时:的预测区间为-0.701,0.937, 的预测区间为0.003,0.005.的置信区间包含0,表示不拒绝为零的假设。6、决定系数 由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高。 7. 对回归方程作方差分析由方差分析表可知:F值=72.3965.32(当n=1,n=8时,查表得对应的值为5.32)P值0,所以拒绝原假设,说明回归方程显著。8、对的显著性检验从上面回归系数显著性检验表可以得到
9、的t统计量为t=8.509,所对应的p值近似为0,通过t检验。说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。9.做相关系数显著性检验相关系数达到0.949,说明x与y显著线性相关。10、对回归方程作残差图并作相应分析从残差图上看出,残差是围绕e=0随即波动,满足模型的基本假设。11、该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少?当x=1000张时,小时12、给出Y0的置信水平为95%的预测区间 通过SPSS运算得到Y0的置信水平为95%的预测区间为:(2.5195,4.8870)。13 给出E(Y0)的置信水平为95%的预测区间通过SPSS运算得到Y0的置信水
10、平为95%的预测区间为:(3.284,4.123)。2.16 表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元).序号yx序号yx序号yx11958333461820816305935195382642220263311419180952967362046031243203253554202093932853721419275242680045422122644391438251603429529470466922246244517392248239476266104888232718643494020969250973067857102
11、433990502041272245440827170553625233823594422589240429258534168262062728214322644340210245003547272279533664424640282911242743159282157029204522341229712271703621292208029804625610293213301683782302225037314726015370514265254247312094028534825788412315273603982322180025334929132360816216903568332293
12、4272950414808349172197431553418443230551258453766解答:(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?由上图可以看出y与x的散点分布大致呈直线趋势。(2)建立y对x的线性回归。利用SPSS进行y和x的线性回归,输出结果如下:表1 模型概要RR2调整后的R2随机误差项的标准差估计值0.8350.6970.6912323.25589表2 方差分析表模型平方和自由度和平均F值P值1回归平方和6.089E816.089E8112.811.000a残差平方和2.645E8495397517.938总平方和8.734E850表3 系数表模型非
13、标准化系数标准化系数t值P值B标准差回归系数1常数12112.6291197.76810.113.000对学生的人均经费投入3.314.312.83510.621.0001) 由表1可知,x与y决定系数为,说明模型的拟合效果一般。x与y线性相关系数R=0.835,说明x与y有较显著的线性关系。2) 由表2(方差分析表中)看到,F=112.811,显著性Sig.p,说明回归方程显著。3) 由表3 可见对的显著性t检验P值近似为零,故显著不为0,说明x对y有显著的线性影响。4) 综上,模型通过检验,可以用于预测和控制。x与y的线性回归方程为:(3)绘制标准残差的直方图和正态概率图图1 标准残差的直
14、方图理论正态概率观测值概率 图2 标准残差的正态概率P-P图由图1可见标准化后残差近似服从正态分布,由图2可见正态概率图中的各个散点都分布在45线附近,所以没有证据证明误差项服从同方差的正态分布的假定是不真实的,即残差通过正态性检验,满足模型基本假设。第3章 多元线性回归思考与练习参考答案3.2 讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:np。如果n4.76,p值=0.015,拒绝原假设,由方差分析表可以得到,说明在置信水平为95%下,回归方程显著。(5)对每一个回归系数作显著性检验;做t检验:设原假设为,统计
15、量服从自由度为n-p-1的t分布,给定显著性水平0.05,查得单侧检验临界值为1.943,X1的t值=1.9421.943。拒绝原假设。由上表可得,在显著性水平时,只有的P值4.74,p值=0.007,拒绝原假设.认为在显著性水平=0.05下,x1,x2整体上对y有显著的线性影响,即回归方程是显著的。对每一个回归系数做显著性检验:做t检验:设原假设为,统计量服从自由度为n-p-1的t分布,给定显著性水平0.05,查得单侧检验临界值为1.895,X1的t值=2.5751.895,拒绝原假设。故显著不为零,自变量X1对因变量y的线性效果显著;同理2也通过检验。同时从回归系数显著性检验表可知:X1,
16、X2的p值 都小于0.05,可认为对x1,x2分别对y都有显著的影响。(7)求出每一个回归系数的置信水平为955D 置信区间由回归系数表可以看到,1置信水平为95%的置信区间0.381,8.970,2置信水平为95%的置信区间3.134,14.808(8)求标准化回归方程由回归系数表(上表)可得,标准化后的回归方程为:(9)求当x01=75,x02=42,x03=3.1时的y的预测值,给定置信水平95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间;由SPSS输出结果可知,当时,(见上表),的置信度为95%的精确预测区间为(204.4,331.2)(见下表),的置信度为95%的近似预
17、测区间为,手工计算得:(219.6,316.0)。(10)结合回归方程对问题做一些简单分析。答:由回归方程可知农业总产值固定的时候,工业总产值每增加1亿元,货运总量增加4.676万吨;工业总产值固定的时候,农业总产值每增加1亿元,货运总量增加8.971万吨。而居民非商品支出对货运总量没有显著的线性影响。由标准化回归方程可知:工业总产值、农业总产值与Y都是正相关关系,比较回归系数的大小可知农业总产值X2对货运总量Y的影响程度大一些。第4章 违背基本假设的情况思考与练习参考答案4.1 试举例说明产生异方差的原因。答:例4.1:截面资料下研究居民家庭的储蓄行为 Yi=b0+b1Xi+i其中:Yi表示
18、第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以i的方差呈现单调递增型变化。 例4.2:以某一行业的企业为样本建立企业生产函数模型 Yi=Aib1 Kib2 Lib3ei被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。4.2 异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采
19、用OLS估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取
20、值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。加权最小二乘法的方法:4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数 ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为
21、: (2)加权最小二乘估计就是寻找参数的估计值使式(2)的离差平方和达极小。所得加权最小二乘经验回归方程记做 (3) 多元回归模型加权最小二乘法的方法:首先找到权数,理论上最优的权数为误差项方差的倒数,即 (4)误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。一个需要解决的问题是误差项的方差是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差通常与自变量的水平有关(如误差项方差随着自变量的增大而增大),可以利用这种关系确定权数。例如与第j个自变
22、量取值的平方成比例时, 即=k时,这时取权数为 (5)更一般的情况是误差项方差与某个自变量(与|ei|的等级相关系数最大的自变量)取值的幂函数成比例,即=k,其中m是待定的未知参数。此时权数为 (6)这时确定权数 的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。4.5(4.5)式一元加权最小二乘回归系数估计公式。证明:由得:4.6验证(4.8)式多元加权最小二乘回归系数估计公式。证明:对于多元线性回归模型 (1) ,即存在异方差。设,用左乘(1)式两边,得到一个新的的模型:,即。因为,故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得原式得证。4.7 有同学认为当数据存在异
23、方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。答:不同意。当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS 与OLS的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。4.8 对例4.3的数据,用公式计算出加权变换残差,绘制加权变换残差图,根据绘制出的图形说明加权最小二
24、乘估计的效果。解:用公式计算出加权变换残差,分别绘制加权最小二乘估计后的残差图和加权变换残差图(见下图)。根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。4.9 参见参考文献2,表4.12(P138)是用电高峰每小时用电量y与每月总用电量x的数据。(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。解:SPSS输出结果如下:由上表可得回归方程为:残差图为:(2)诊断该问题是否存在异方差;解:a由残差散点图可以明显看出存在异方差,误差的方差随着的增加而增大。b用SPSS做等级相关系数的检验,结果如下表所示:得
25、到等级相关系数,P值=0.021,认为残差绝对值与自变量显著相关,存在异方差。(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;解:SPSS输出结果如图:Coefficientsa,b-.683.298-2.296.026.004.000.8129.930.000(Constant)xModel1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. Weighted Least Squares Regression - Weighted by W
26、eight for y from WLS, MOD_2x* -1.500b. 由上述表可得,在时对数似然函数达到最大,则幂指数的最优取值为。加权后的回归方程为:。计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:,P值为0.0190.05,说明异方差已经消除。4.10 试举一可能产生随机误差项序列相关的经济例子。答:例如,居民总消费函数模型: Ct=b0+b1Yt+ t t=1,2,n由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 )。4.11 序
27、列相关性带来的严重后果是什么?答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题:1. 参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估计值的方差大于无自相关性时的方差。2. 均方误差MSE可能严重低估误差项的方差3. 变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t值和F值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。4. 当存在序列相关时, 仍然是的无偏估计,但在任一特定的样本中, 可能严重歪曲b的真实情况,即最小二乘
28、法对抽样波动变得非常敏感5. 模型的预测和结构分析失效。4.12 总结DW检验的优缺点。答:优点:1.应用广泛,一般的计算机软件都可以计算出DW值; 2.适用于小样本; 3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。缺点:1. DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法判断。此时,只有增大样本容量或选取其他方法; 2.DW统计量的上、下界表要求n15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断; 3.DW检验不适应随机项具有高阶序列相关性的检验。4.13 表4.13中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公
29、司的月销售额(万元)。(1)用普通最小二乘法建立y与x的回归方程;由上表可知:用普通二乘法建立的回归方程为(2)用残差图及DW检验诊断序列的相关性; 1.以自变量x为横轴,普通残差为纵轴画残差图如下:从图中可以看到,残差有规律的变化,呈现大致反W形状,说明随机误差项存在自相关性。2.以(残差1)为横坐标,(残差)为纵坐标,绘制散点图如下:由残差图可见大部分的点落在第一、三象限内,表明随机扰动项存在着正的序列相关;3.从下表可知DW值为0.663,查DW表,n=20,k=2,显著性水平=0.05,得=1.20,=1.41,由于0.6631.20,知DW值落入正相关区域,即残差序列存在正的自相关。
30、(3)用迭代法处理序列相关,并建立回归方程。自相关系数令,然后用对作普通最小二乘回归可得输出结果如下:可看到新的回归方程的DW=1.360.且1.181.3601.40=,即DW落入不相关区域,可知残差序列不存在自相关,一阶差分法成功地消除了序列自相关。同时得到回归方程为=0.169,将=-,=-,代人,还原原始变量的方程=+0.169(-)(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。答:本题中自相关系数0.6685,不接近于1,不适宜用差分法,另外由迭代法的F值及都大于差分法的值,故差分法的效果低于迭代法的效果;而普通最小二乘法的随机误差项标准差为0.0
31、9744,大于迭代的随机误差项标准差0.07296,所以迭代的效果要优于普通最小二乘法,所以本题中一次迭代法最好。4.14 某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周出场次x1和乐队网站的周点击率x2,数据见表4.14。(1)用普通最小二乘法建立y与x1、x2的回归方程,用残差图及DW检验诊断序列的自相关性;解:将数据输入SPSS,经过线性回归得到结果如下:Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.541(a).293.264329.69
32、302.745a Predictors: (Constant), x2, x1b Dependent Variable: yANOVA(b)Model Sum of SquaresdfMean SquareFSig.1Regression2205551.67821102775.83910.145.000(a) Residual5326177.03649108697.491 Total7531728.71451 a Predictors: (Constant), x2, x1b Dependent Variable: y由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程,通过了r、F、t
33、检验,说明回归方程显著。y与x1、x2的回归方程为:y=-574.062+191.098x1+2.045x2残差图ei(et)ei1(et-1)为:从残差图可以看出残差集中在1、3象限,说明随机误差项存在一阶正自相关。DW=0.745查表得dl=1.46 du=1.63, 0DWdu 所以误差项间无自相关性。=257.86回归方程为:yt=-178.775+211.11x1t+1.436x2t还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1) +1.436*( x2t-0.627x2(t-1)(3)用一阶差分法处理序列相关,建立回归方程。Model Summary(c,d)ModelRR Square(a)Adjusted R SquareStd. Error of the EstimateDurbin-Watson1.715(b).511.491280.989952.040a For regression through the origin (the no-intercept model), R Square measures the proportion of the vari
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100