1、 直线回归分析直线回归分析.主要内容主要内容l直线回归方程的建立l直线回归的统计推断l直线回归的应用l直线回归需注意的问题l直线回归与直线相关的联系与区别.医学领域里常常需要研究两个变量之间的关系,例如:人的身高与体重,体温与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺活量,身高与臂长两变量关系的密切程度可以用直线相关衡量;两变量的数量变化关系可以用直线回归衡量。.直线回归概念直线回归概念直线回归(linearregression)用来研究两个连续型变量之间数量上的线性依存关系。因变量(dependentvariable)常用y表示自变量(independentvariable)常用x表示
2、.例例14.1某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积和腰围的直线回归方程。.为了直观了解腹腔内脂肪面积与腰围的关系,以这20名男性志愿者的腰围为横坐标,腹腔内脂肪面积为纵坐标绘制散点图.图14.1两变量直线回归关系散点图腹腹腔腔内内脂脂肪肪面面积积(cm2)腰围腰围(cm).函数关系与回归关系函数关系与回归关系函数关系:函数关系:自变量取某一数值时,应变量有一个完全确定的数值与之对应,如:y=2x+1回归关系:回归关系:变量间虽然存在一定的关系,但关系不是
3、十分确定,如本例。.直线回归方程:为自变量的取值为自变量的取值为当为当 取某一值时应变量取某一值时应变量y y的平均估计值的平均估计值为截距为截距(intercept)(intercept),即当,即当时时y y的平均估计的平均估计值值b b为回归系数为回归系数(regressioncoefficient)(regressioncoefficient),表示改变一,表示改变一个单位个单位 时时y y的平均改变量。的平均改变量。.a0a=0a0:每增加(减少)一个观测单位,增加(减少)b个单位。b0.b0:每增加(减少)一个观测单位,减少(增加)|b|个单位。b0.b=0:与 没有直线回归关系。
4、b=0.回归方程的估计回归方程的估计原理:最小二乘法(leastsquaremethod)各实测点到直线的纵向距离平方之和达到最小.计算公式计算公式.其中其中.本例本例.故所求回归方程为:故所求回归方程为:.直线回归的统计推断直线回归的统计推断l样本回归系数bl总体回归系数l对的两种假设检验方法:方差分析法 t检验法.方差分析法方差分析法.总变异的分解总变异的分解即:.:总离均差平方和(不考虑回归关系的总变异):回归平方和(总变异中可以用回归关系所解释的部分。值越大,说明回归效果越好。):残差平方和(总平方和中无法用回归关系解释的部分随机误差).自由度的分解自由度的分解.构造构造F统计量统计量
5、.方差分析表方差分析表来源平方和SS自由度均方MS统计量F总总=n-1回归回=1MS回=SS回/1MS回/MS残残差残=n-2MS残=SS残/(n-2).本例本例1.建立检验假设,确定检验水准.2.计算检验统计量.3.确定P值,作出统计推断 P0.01,按照0.05检验水准拒绝H0。回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系。.t检验法检验法公式:其中:.本例本例.l查t界值表,得P0.001,结论与方差分析法一致l实际上:对同一资料作总体回归系数是否为0的假设检验,方差分析和t 检验是一致的。.总体回归系数的区间估计总体回归系数的区间估计本例:.决定系数决定系数(c
6、oefficient of determination)反映了回归贡献的相对程度,即在因变量y的总变异中用y与x回归关系所能解释的比例。在实际应用中,常用决定系数来反映回归的实际效果。本例决定系数为0.581.直线回归分析的应用直线回归分析的应用l因变量总体条件均数的置信区间估计l应变量个体y值的预测区间.总体条件均数的置信区间估计总体条件均数的置信区间估计点估计:是在给定x=xp下的条件平均值的点估计的1-的置信区间估计公式为:其中:.应变量个体应变量个体y值的预测区间值的预测区间l对于给定的x=xp,y值的预测区间计算公式为:其中:.二者的区别二者的区别(置信带和预测带)置信带和预测带).
7、直线回归分析需注意的问题直线回归分析需注意的问题l回归分析前应绘制散点图(必需有直线趋势时,才适宜作直线回归分析。应注意资料有无离群点(outlier)及离群点的处理。.l模型假设条件的考察(残差图).l结果的解释及正确应用反映自变量对应变量数量上影响大小的是回归系数,而非P值。内插与外推.直线回归与直线相关分析的联系与区别.联系联系l对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,相关系数与回归系数正负号一致。本例:r=0.762b=2.11l对于同一样本,相关系数与回归系数的假设检验等价。tb=tr.l对于服从双变量正态分布的同一组资料l用回归可以解释相关:.区别区别l资料要求:直线相关要求双变量正态分布,直线回归要求给定自变量值时,因变量服从正态分布l应用及意义:相关系数说明两变量间相互关系的方向与密切程度;回归系数说明两变量的数量依存关系.l计算公式:l取值范围:l单位:相关系数无单位,回归系数有单位.