资源描述
生物统计学教案
第十一章 多元回归及复相关分析
教学时间:1学时
教学方法:课堂板书讲授
教学目的:重点掌握多元回归及复相关分析
讲授难点: 多元回归及复相关分析
11.1 多元线性回归方程
11.1。1 多元线性回归模型
一个典型的多元回归数据可列成下表
观测次数
Y
X1
X2
┅
Xj
┅
Xk
1
y1
x11
x21
xj1
xk1
2
y2
x12
x22
xj2
xk2
┇
┇
┇
┇
┇
┇
p
yp
x1p
x2p
xjj
xkj
┇
┇
┇
┇
┇
┇
n
yn
x1n
x2n
xjn
xkn
第p次观测值为
yp=α+β1x1p+β2x2p+…+βkxkp+εp, p=1,2,…,n
上式称为多元线性回归模型,其中εp是服从正态分布N(0,σ2)的随机变量。
11.1.2 正规方程
可以用最小二乘法求出α和βj的估计值a和bj,从而得出多元回归方程。用最小二乘法求bj,首先会得到一组联立方程,称为正规方程:
解该方程组可以得到bj,a由下式得到:
回归方程为:
式子中的a称为常数项,bj称为偏回归系数.
11。1.3 多元回归方程的计算 (略)
11.1.6 回归方程中各自变量对因变量贡献大小的比较
多元回归方程中的偏回归系数的含义是,在其它变量都固定的情况下,某一变量对因变量的贡献。由于各自变量的单位不同,因此通过比较偏回归系数的大小,来决定各自变量对因变量贡献的大小是不行的。为了达到这一目的,就需对回归方程进行标准化,得到标准回归方程。标准回归方程的总平方和SYY=1,各偏回归系数为无单位的量,通过比较标准偏回归系数,可以确定它们对因变量贡献的大小.剔除贡献小的自变量,从而构建成最优回归方程.
所谓最优回归方程是指,回归方程中包括全部对Y显著的变量,而不包含对Y不显著的变量。
但是,用这种方法筛选最优回归方程有一定的局限性。如果各自变量之间存在显著相关,某些自变量对因变量的贡献是通过另一自变量体现出,当从方程中剔除该变量后,使得留在方程中的变量变成不显著的变量。而剔除的变量恰恰是一个有重要贡献的变量。这一问题,需要通过其它方法解决。
11。2 复相关分析
11.2.1 复相关系数
复相关系数是因变量与所有自变量之间相关程度的度量.相当于实际观测值与回归估计值之间的简单相关系数。
11。2。2 偏相关系数
在多个自变量与因变量及自变量之间都存在显著相关时,只用其中一个自变量与因变量计算简单相关系数,不能真正反应两变量之间的真实关系。为了能真正反应某一自变量与因变量之间的真实关系,就要保证在其它自变量都保持不变的情况下,计算它们之间的相关系数,这时的相关系数称为偏相关系数。
11.3 逐步回归分析
11.3.1 最优回归方程的选择
1、从变量可能的全部可能的组合中选出最优者
把自变量各种可能的组合都计算出来,对每一方程的各(偏)回归系数做显著性检验,计算剩余方差,从中选出包含的全部变量
均为显著因素,且剩余方差又较小的方程。用这种方法一定能够选出最优方程。但是,用这种方法选择最优方程时,自变量的个数不能太多,自变量太多时,计算工作量太大,很难完成。
2、从含全部变量的回归方程中逐次剔除不显著因素
先建立包含全部自变量的方程,然后从该方程中逐次提出不显著因素,直到剩余的变量全部是显著因素为止。当不显著因素较少时是可行的,当不显著因素较多时,计算工作量过大,很难完成。
由于自变量之间的相关性,当剔除一个变量之后它通过其它显著因素所体现出的贡献,随之消失。实际上是剔除了一个显著的变量。
3、从一个自变量开始,把变量逐个引入到方程中
其做法与上一方法正好相反,先计算各自变量与因变量之间的相关系数,选出绝对值最大者引入方程中。再计算未引入的变量在除去已引入的变量之后与因变量的偏回归系数,选取最大者再引入。当不显著因素较多时,该方法的计算工作量较少,容易完成。
与上一方法一样,由于自变量之间的相关性,当引入下一个自变量之后,并不能保证,前面已引入的变量一定还是显著的。其结果,方程中包含了不显著变量.
4、逐步回归
是上述两种方法的结合,在每引进一个新的变量之前,先检验方程中是否还有不显著变量,如果有,则先剔除,然后再引进下一个变量。直到回归方程中均为显著变量,且没有新的显著变量可以引入为止。
115
展开阅读全文