资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十三章,多因素线性回归,1,主要内容,1,多重线性回归模型简介,2,回归系数的估计,3,多重回归的假设检验,4,评价回归方程的标准,5,自变量的筛选,6,多重线性回归的应用及其注意事项,2,某地,13,岁男童身高、体重、肺活量的实测数据,编号,身高,(cm),x,1,体重,(kg),x,2,肺活量,(L),y,1,135.1,32.0,1.75,3,163.6,46.2,2.75,5,156.2,37.1,2.75,7,167.8,41.5,2.75,9,145.0,33.0,2.50,11,165.5,49.5,3.00,13,153.3,41.0,2.75,15,160.5,47.2,2.25,17,147.6,40.5,2.00,19,155.1,44.7,2.75,21,143.0,31.5,1.75,23,160.8,40.4,2.75,25,158.2,37.5,2.00,27,144.5,34.7,2.25,29,156.5,32.0,1.75,3,问题,身高、体重与肺活量有无线性关系?,用身高和体重预测肺活量有多高的精度?,单独用身高、或体重是否也能达到同样效果?,身高的贡献大,还是体重的贡献大?,4,一、多重线性回归模型,多重线性回归数学模型:,Y,为因变量的实际观测值,X,1,、,X,2,、,X,m,为,m,个自变量,为常数项,为总体偏回归系数,为残差,,Y,的变化中不能用现有自变量解释的部分,5,多重线性回归方程,b,0,为截距,(intercept),,,又称常数,(constant),表示各自变量均为,0,时,y,的估计值,b,j,称为样本偏回归系数,(partial regression coefficient),,,表示在其他自变量固定不变的情况下,自变量,x,j,每改变一个单位时单独引起因变量,y,的平均改变量。,称为,y,的估计值或预测值,(predicted value),6,举例,根据,某地,29,名,13,岁男童的身高,x,1,(,cm,),,,体重,x,2,(,kg,),和肺活量,y,(,L,),建立的回归方程为:,当,x,1,=150,,,x,2,=32,时,,表示对所有身高为,150,cm,,,体重,为,32,kg,的,13,岁男童,估计平均肺活量为,1.9168(L),。,7,二、回归系数的估计,最小二乘法,(least square,LS),基本思想,残差平方和,(sum of squares for residuals),最小,8,用,偏导数方法可得出下列正规方程组,9,求解正规方程组得偏回归系数,10,标准化偏回归系数,(,standardized partial regression coefficient),无量纲,越大说明相应的自变量,x,j,对,y,的贡献越大,11,例,20-1,总胆固醇和甘油三酯对空腹血糖的影响,12,三、多重回归的假设检验,回归方程(模型)的检验,偏回归系数的检验,13,模型检验,方差分析法,确定系数法,14,方差分析法,变异分解,1.,总变异:,2.,引进回归以后的变异,(,剩余,):,3.,回归的贡献,回归平方和:,15,回归方程检验的方差分析表,变异,来源,离均差平方和,SS,自由度,df,离均差平方均方,MS,F,回归,SS,回归,K,SS,回归,/K,MS,回归,剩余,SS,剩余,N-K-1,SS,剩余,/(N-K-1),/MS,剩余,总,SS,总,N-1,16,检验步骤,1.,建立假设,确定检验水准,2.,计算,F,值,3.,确定,P,值,得出结论,17,确定系数法,(coefficient of determination),确定系数,18,R,2,可用于检验多元回归方程,H,0,:,2,=0,;,H,1,:,2,0,。,检验统计量为:,19,偏回归系数的假设检验,t,检验,H,0,:,j,=0,;,H,1,:,j,0,。,20,偏回归平方和法,偏回归平方和:是指将某自变量,x,j,从回归方程中删除后所引起的回归平方和减少的量。,21,例,20-1,总胆固醇和甘油三酯对空腹血糖的影响,模型检验结果,22,偏回归系数的,t,检验结果,23,偏回归平方和法的检验结果,方程内,变量,方程外,变量,SS,回归,偏回归平方和(,x,j,),F(,x,j,),x,1,x,2,4.281,x,2,x,1,1.543,2.738,9.849,x,1,x,2,2.989,1.292,4.647,F,0.05,(1,37),=4.11,24,评价回归方程的标准,复相关系数,校正复相关系数,剩余标准差,25,复相关系数,(multiple correlation coefficient),0,R,1,R,反映的是因变量与所有自变量的总的相关关系,当方程中自变量个数增加时,R,总是增加的。当只有一个因变量,y,与一个自变量,x,时,,R,就等于,y,与,x,的简单相关系数之绝对值:,R,=|,r,yx,|,。,根据,R,的大小判断方程的优劣时,结论总是自变量最多的方程最好,用,R,衡量方程的优劣是有缺陷的。,26,校正复相关系数,R,ad,当有统计学意义的变量进入方程中,可使,R,ad,增加,而当无统计学意义的变量增加到方程中时,,R,ad,反而减少。,R,ad,是衡量方程优劣的重要指标,27,剩余标准差,剩余标准差 小则估计值与实测值接近,反之则估计值与实测值相差较大,它是反映回归方程精度的指标,28,自变量的筛选,全面分析法,前进法,后退法,逐步回归法,29,全面分析法(最优子集法),从所有可能的变量组合的回归方程中挑选最优者,即把所有包含,1,个、,2,个、,直至全部,k,个自变量的回归方程都计算出来(),挑选剩余标准差最小的。,30,前进法的基本思想,选定一个标准。,开始方程中没有自变量,(,常数项除外,),按自变量对,y,的贡献大小由大到小依次挑选进入方程。,每选入一个变量进入方程,则重新计算方程外各自变量对,y,的贡献。,直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。,31,图示:前进法,计算,l,ij,、,方程外的变量分别进,入方程,计算,SS,回,增,加量增加最大者为,X,K,X,K,进入方程,显著,对,X,K,进行检验,不显著,结束,32,前进法,Y,,,X1,X2 X3 X4 X5,第一步 建立,5,个方程,Y,与,x1 P1=0.015,Y,与,x2 P2=0.003,Y,与,x3 P3=0.026,Y,与,x4 P4=0.223,Y,与,x5 P5=0.665,选入,X2,方程中有一个变量,33,前进法,第二步 建立,4,个方程,Y,与,X2,,,x1 P1=0.023,Y,与,x2,,,x3 P2=0.005,Y,与,x2,,,x4 P3=0.223,Y,与,x2,,,x5 P4=0.635,选入,X3,方程中有二个变量,x2,,,x3,34,前进法,第三步 建立,3,个方程,Y,与,X2,,,X3,,,x1 P1=0.023,Y,与,X2,,,X3,,,x4 P2=0.000,Y,与,X2,,,X3,,,x5 P3=0.535,选入,X4,方程中有三个变量,X2,,,X3,,,x4,35,前进法,考虑在剩余的,X1,、,X5,选入。,若,P,有小于,0.05,,继续考虑选入。,依次循环,直到方程外也选不入,计算停止,此时的方程为前进法的最优方程。,36,后退法的基本思想,选定一个标准,开始所有变量均在方程中,按自变量对,y,的贡献大小由小到大依次剔除变量。,每剔除一个变量,则重新计算方程内各自变量对,y,的贡献。,直到方程内变量均达到入选标准,没有自变量可被剔除为止。,37,图示:后退法,变量全部进,入方程,方程内的变量分别剔,除,计算,SS,回,减少量,,减少量最小者为,X,k,剔除,X,k,显著,对,X,K,进行检验,不显著,不剔除,X,k,结束,38,后退法,Y,,,X1,X2 X3 X4 X5,第一步 建立,1,个方程,Y,与,X1,,,X2,,,X3,,,X4,,,X5,39,后退法,第二步 建立,5,个方程,(考虑剔除),Y,与,X1,,,X2,,,X3,,,X4,无,X5,所损失,P1=0.723,Y,与,X1,,,X2,,,X3,,,X5,无,X4,所损失,P2=0.005,Y,与,X1,,,X2,,,X4,,,X5,无,X3,所损失,P3=0.123,Y,与,X1,,,X3,,,X4,,,X5,无,X2,所损失,P4=0.035,Y,与,X2,,,X3,,,X4,,,X5,无,X1,所损失,P4=0.535,40,后退法,第三步 建立,4,个方程,(考虑剔除),Y,与,X1,,,X2,,,X3,无,X4,所损失,P1=0.003,Y,与,X1,,,X2,,,X4,无,X3,所损失,P2=0.005,Y,与,X1,,,X3,,,X4,无,X2,所损失,P4=0.035,Y,与,X2,,,X3,,,X4,无,X1,所损失,P4=0.535,41,后退法,第四步 建立,3,个方程,(考虑剔除),Y,与,X2,,,X3,无,X4,所损失,P1=0.003,Y,与,X2,,,X4,无,X3,所损失,P2=0.002,Y,与,X3,,,X4,无,X2,所损失,P3=0.005,42,后退法,若,P,都小于,0.05,,不能剔除,直到方程内剔不出,计算停止,此时的方程为后退法的最优方程。,43,逐步回归,将自变量逐个地引入方程,引入的条件是该自变量的偏回归平方和在未选入的自变量中是最大的,并,F,检验具有显著意义。另一方面,每引入一个新变量,要对先前选入方程的自变量逐个进行,F,检验,将偏回归平方和最小且无显著性的自变量剔出方程,直到方程外的自变量不能再引入,方程内的自变量不能再剔除。,44,图示:逐步回归过程,计算,l,ij,、,方程外的变量分别进,入方程,计算,SS,回,增,加量增加最大者为,X,K,X,K,进入方程,步数,2,方程内的变量分别剔,除,计算,SS,回,减少量,,减少量最小者为,X,S,对,X,S,检验,剔除,X,S,显著,不显著,显著,对,X,K,进行检验,不显著,结束,是,否,45,前进法逐步回归,Y,,,X1,X2 X3 X4 X5,第一步 建立,5,个方程,Y,与,x1 P1=0.015,Y,与,x2 P2=0.003,Y,与,x3 P3=0.026,Y,与,x4 P4=0.223,Y,与,x5 P5=0.665,选入,X2,方程中有一个变量,46,前进法逐步回归,第二步 建立,4,个方程,Y,与,X2,,,x1 P1=0.023,Y,与,x2,,,x3 P2=0.005,Y,与,x2,,,x4 P3=0.223,Y,与,x2,,,x5 P4=0.635,选入,X3,方程中有二个变量,x2,,,x3,47,前进法逐步回归,第三步 建立,3,个方程,Y,与,X2,,,X3,,,x1 P1=0.023,Y,与,X2,,,X3,,,x4 p2=0.000,Y,与,X2,,,X3,,,x5 p3=0.535,选入,X4,方程中有三个变量,X2,,,X3,,,x4,48,前进法逐步回归,第四步 建立,3,个方程,(考虑剔除),Y,与,X2,,,X3,无,X4,所损失,P1=0.003,Y,与,X2,,,X4,无,X3,所损失,P2=0.002,Y,与,X3,,,X4,无,X2,所损失,P3=0.250,49,前进法逐步回归,此时,P3,大于,0.05,则剔除变量,X2,,,然后考虑在剩余的,X1,、,X5,选入。,若,P,都小于,0.05,继续考虑选入。,依次循环,直到方程内剔不出,方程外也选不入,计算停止,此时的方程为前进法的最优方程。,50,后退法逐步回归,开始时全部因素都引入模型,然后分别剔除各因素,比较值最大者,经检验,如没有显著性,首先剔除。再分别考虑剔除还在模型内的各因素,如果值最大者经检验,没有显著性,再剔除。直到模型内的因素均不能剔除为止。再考虑模型外的各因素,分别引入模型,经检验,具有显著性者再引入。直到模型内的因素都具有显著性,都不能剔除,而模型外的因素都不具有显著性,不能引入,则得到最后的模型。,51,后退法逐步回归,Y,,,X1,X2 X3 X4 X5,第一步 建立,1,个方程,Y,与,X1,,,X2,,,X3,,,X4,,,X5,52,后退法逐步回归,第二步 建立,5,个方程,(考虑剔除),Y,与,X1,,,X2,,,X3,,,X4,无,X5,所损失,P1=0.723,Y,与,X1,,,X2,,,X3,,,X5,无,X4,所损失,P2=0.005,Y,与,X1,,,X2,,,X4,,,X5,无,X3,所损失,P3=0.123,Y,与,X1,,,X3,,,X4,,,X5,无,X2,所损失,P4=0.035,Y,与,X2,,,X3,,,X4,,,X5,无,X1,所损失,P4=0.535,53,后退法逐步回归,第三步 建立,4,个方程,(考虑剔除),Y,与,X1,,,X2,,,X3,无,X4,所损失,P1=0.003,Y,与,X1,,,X2,,,X4,无,X3,所损失,P2=0.005,Y,与,X1,,,X3,,,X4,无,X2,所损失,P4=0.035,Y,与,X2,,,X3,,,X4,无,X1,所损失,P4=0.535,54,后退法逐步回归,第四步 建立,3,个方程,(考虑剔除),Y,与,X2,,,X3,无,X4,所损失,P1=0.003,Y,与,X2,,,X4,无,X3,所损失,P2=0.002,Y,与,X3,,,X4,无,X2,所损失,P3=0.005,55,后退法逐步回归,若,P,都小于,0.05,不能剔除,则考虑考虑选入变量。若有,P,大于,0.05,则继续剔除,然后选入。,依次循环,直到方程内剔不出,方程外也选不入,计算停止,此时的方程为后退法的最优方程。,56,方法的比较,欲求到最优,方程,应用最优子集法。但计算工作量太大。,前进法能得到哪个因素的单个作用大,有时漏掉单个作用小,而交互作用大的变量。,后退法能得不到哪个因素的单个作用大,不会漏掉单个作用小,而交互作用大的变量。当变量间关联性强时,有时可能得不到方程。,57,分类变量数值化,1.,两分类,2.,多分类,58,多重线性回归的应用,1.,研究多个因素对某变量(指标)的影响,要求这些因素与该变量的关系是线性的。,2.,用多重线性回归来实现控制一些混杂因素,如校正基线、年龄和性别等。但本法只是一种简单的线性校正混杂因素方法。,59,多重线性回归的注意事项,1.,用逐步回归分析或最优子集分析,其最终模型中的自变量可以认为与应变量相关。,但未引入模型的变量不能轻易地认为与应变量无关,,因为很可能它们与应变量的相关性较弱或与其它自变量相关,以致未能作为主要的影响因素模型。,2.,对于实验性研究的统计分析,一般不应作逐步回归。,3.,如果用多重线性回归寻找最佳预测模型,则应作残差分析,即考察各个自变量与残差之间是否存在明显的趋势变化。,60,
展开阅读全文