资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十三章 直线相关与回归,世间万物是普遍联系的,主要内容,直线相关,直线回归,相关与回归分析的关系,Spearman,等级相关,目的要求,1,、掌握直线相关与回归的基本概念。,2,、掌握相关系数与回归系数的意义及计算。,3,、熟悉相关系数与回归系数的假设检验。,4,、掌握相关系数与回归系数相互的区别与联系。,5,、熟悉直线回归方程的应用。,6,、了解,spearman,等级相关的应用。,医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、乙肝病毒与乙肝等。,在这些有关系的现象中,它们之间联系的程度和性质也各不相同。,关系:,因果关系:乙肝病毒感染和乙肝,伴随关系:丈夫的身高和妻子的身高,相关分析:研究变量间相互关系的密切程度和变化趋势,并用适当的统计指标加以表示。,回归分析:研究变量间数量上的依存关系,用函数形式将其表现出来,并用一个或多个变量来推测另一个变量的估计值及波动范围。,第一节 直线相关,Linear Correlation,相关就是用于研究和解释两个变量之间,相互,关系的。,相关分析:研究变量间相互关系的密切程度和变化趋势,并用适当的统计指标加以表示。,相关系数,(r),资料性质,直 线 相 关,分析,正态分布,的两个随机变量,x,与,y,是否有直线相关关系以及相关的性质和相关的密切程度。,相关分析的步骤,审核资料的性质,绘制散点图,判断是否存在相关关系,求出相关系数,判断相关的强度和性质,进行假设检验,判断是本质因素还是抽样误差,散 点 图,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。,为了研究父亲与成年儿子身高之间的关系,卡尔,.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,,它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,A,B,y,x,一、相关系数,r(,),及其意义,它反映具有直线关系的两个变量之间,相关的性质和密切程度的指标。样本相关系用,r,来表示,总体相关系用,来表示,其取值范围是,-1r1,。,r,为正表示正相关关系,,x,与,y,同向变化;,r,为负表示负相关关系,,x,与,y,反向变化。,r,的绝对值越接近,1,,线性关系越密切;,r,的绝对值越接近,0,,线性关系越不密切。,r=1,,为完全相关;,r=0,,为零相关。,r0.7,:高度相关(强相关),0.4r,0.7,:中度相关(中相关),0.2r,0.4,:低相关(弱相关),r,0.2,:可乎略不计,相关的类型,正相关,负相关,完全正相关,零相关,(,相关背景知识,),y,x,二、相关系数的计算,相关系数的计算公式,r,的大小 变量之间关联的密切程度,符号的正负 关联的性质,一个产科医师发现孕妇尿中,雌三醇含量,与产儿的,体重,有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问如何进行统计学分析?,分析问题:目的、变量、关系,案例,编号,(1),尿雌三醇,mg/24h(2,),产儿体重,kg(3),编号,(1),尿雌三醇,mg/24h(2),产儿体重,kg(3),1,7,2.5,17,17,3.2,2,9,2.5,18,25,3.2,3,9,2.5,19,27,3.4,4,12,2.7,20,15,3.4,5,14,2.7,21,15,3.4,6,16,2.7,22,15,3.5,7,16,2.4,23,16,3.5,8,14,3.0,24,19,3.4,9,16,3.0,25,18,3.5,10,16,3.1,26,17,3.6,11,17,3.0,27,18,3.7,12,19,3.1,28,20,3.8,13,21,3.0,29,22,4.0,14,24,2.8,30,25,3.9,15,15,3.2,31,24,4.3,16,16,3.2,待产妇尿雌三醇含量与产儿体重关系,待产妇尿雌三醇含量与产儿体重关系,X=534 Y=99.2,X,2,=9876 Y,2,=324.8,XY=1750 n=31,计 算 结 果,从计算结果可以知道,,31,例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是,0.61,。,问题:我们能否得出结论:,待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是,0.61?,为什么?,三、相关系数的假设检验,上例中的相关系数,r,等于,0.61,,说明了,31,例样本中雌三醇含量与出生体重之间存在相关关系。但是,这,31,例只是,总体,中的,一个样本,,由此得到的相关系数会存在抽样误差。,因为,总体相关系数,(,),为零时,由于抽样误差,从总体抽出的,31,例,其,r,可能不等于零。,这就要对,r,进行假设检验,判断,r,不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,假设检验,t,检验,查表法,对相关系数的假设检验,常用,t,检验,选用统计量,t,的计算公式如下:,=n-2,H,0,:,=0,H,1,:,0,=0.05,r=0.61,n=31,代入公式,t=,=n-2=31-2=29,t=4.14,查,t,值表,,t,0.05(29),=2.045,上述计算,t=4.142.045,,由,t,所推断的,P,值小于,0.05,,按,=0.05,水准拒绝,H,0,,接受,H,1,认为临产妇,24,小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,r,的假设检验,查表法,根据自由度查相关系数,r,界值表:,课本,P343,页表,13-3,=n-2=31-2=29,,,=0.05,r,0.05,(,29,),=0.355,r=0.61,r,0.05,(,29,),=0.355,P100,),并对,r,进行假设检验,有统计学意义时,,r,的绝对值大于等于,0.7,,则表示两个变量高度相关;,r,的绝对值大于等于,0.4,,小于,0.7,时,则表示两个变量之间中度相关;,r,的绝对值大于等于,0.2,,小于,0.4,时,则两个变量低度相关。,r0.7,:高度相关(强相关),0.4r,0.7,:中度相关(中相关),0.2r,0.4,:低相关(弱相关),r,0.2,:可忽略不计,存在相关关系,,一定是因果关系吗?,识字数,鞋大小,游泳票与冰激凌销售量,排除其它变量的干扰,前面我们讨论了待产妇尿中雌三醇含量和产儿体重之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?,或产儿的体重可能在什么范围内呢?,还有,随着身高的增加,体重也在增大,它们之间也成正相关关系。那么,身高每增加1厘米,体重增加多少克呢?,上面的相关关系分析不能提供给我们需要的答案,这些要用直线回归的方法来解决。,第二节 直线回归,Simple Regression,当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。,但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为,直线回归方程,,这种关系为直线回归.,直线回归探讨两个连续变量,X,和,Y,间,依存关系,的一种统计学方法。,直线回归就是用来描述,一个变量如何,依赖于,另一个变量,一、几个基本概念,自变量(,independent variable,):在一对变量中,一个变量的数据变化引起另一变量数据发生相应的变动,这一变量数据的变动是另一变量数据变动的前提条件,称此变量为自变量。常用,X,表示。,应变量(,dependent variable,):因自变量的改变而改变的变量。常用,Y,表示。,回归方程,直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程,。,式中的,X,为自变量,式中的,是由自变量,X,推算应变量,Y,的估计值,,a,是回归直线在,Y,轴上的截距,即,X=0,时的,Y,值;,b,为样本的回归系数,即回归直线的斜率,表示当,X,变动一个单位时,,Y,平均变动,b,个单位。,如果,a,、,b,已知,代入上式,就可求得直线回归方程。,=a+bx,b,0,,表示,Xy,b,0,,表示,X y,b=0,,表示直线与,X,轴平行,即,X,与,Y,无直线回归关系,x,(自变量):,一般是可以精确测量和严,格控制的变量(如年龄、药物剂量)。,y,(应变量):,为依赖于,x,呈正态分布的,随机变量。,注意:,收集资料时,,x,与,y,是成对观察的,资料性质,审核资料的性质,在普通坐标系中作散点图,求,b,和,a,,列出回归方程:,=a+bx,画出回归直线,回归系数的假设检验,回归分析的步骤,二、求回归方程,求回归系数,求常数,a,和,b,的估计常用最小二乘原则,所有的点离回归线的纵向距离最近,回归线必然通过,p(x,y),x,0,,,a,回归系数的计算公式:,常数项,a,的计算公式,:,一个产科医师发现孕妇尿中,雌三醇含量,与产儿的,体重,有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问如何进行统计学分析?,案例,编号,(1),尿雌三醇,mg/24h(2,),产儿体重,kg(3),编号,(1),尿雌三醇,mg/24h(2),产儿体重,kg(3),1,7,2.5,17,17,3.2,2,9,2.5,18,25,3.2,3,9,2.5,19,27,3.4,4,12,2.7,20,15,3.4,5,14,2.7,21,15,3.4,6,16,2.7,22,15,3.5,7,16,2.4,23,16,3.5,8,14,3.0,24,19,3.4,9,16,3.0,25,18,3.5,10,16,3.1,26,17,3.6,11,17,3.0,27,18,3.7,12,19,3.1,28,20,3.8,13,21,3.0,29,22,4.0,14,24,2.8,30,25,3.9,15,15,3.2,31,24,4.3,16,16,3.2,待产妇尿雌三醇含量与产儿体重关系,待产妇尿雌三醇含量与产儿体重关系,这就是我们求得的二者关系的回归方程,求出,X,与,Y,的离均差积和,(,l,xy,),;,求出,X,的离均差平方和,(,l,xx,),求出,b,值,:b=,l,xy,/l,xx,求,a,值,:,根据直线必然通过,列出回归方程:,=a+bx,求回归方程的步骤,回归直线的描绘,在自变量,X,的实测全距范围内任取相距较远且易读的两,X,值,代入回归方程,求出,1,、,2,在坐标系中找出(,X,1,,,1,)(,X,2,,,2,)两点,两点确定一条直线,回归直线一定经过(,0,,,a,),这两点可以用来核对图线绘制是否正确,待产妇尿雌三醇含量与产儿体重关系,=a+bx,(,X,2,2,),(,X,1,1,),是否一定能说明雌三醇与产儿体重之间存在回归关系?,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数,b,进行假设检验,以判断,b,是否从回归系数为零的总体中抽得。,为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用,表示。,t,检验,方差分析,F=MS,回归,/MS,剩余,回归系数的假设检验,H,0,:=0,H,1,:0,=0.05,选择合适的假设检验方法,计算统计量,计算概率值,P,做出推论:统计学结论和专业结论,t,检验方法,其中,S,y.x,(剩余标准差)为各观察值,Y,到回归直线的距离的标准差,表示去除,X,影响后,Y,的变异程度,回归系数的,t,检验,判断,b,是否来自回归系数为,0,(,=0,)的总体。,1,、建立检验假设:,H,0,:,=0,H,1,:,0,=0.05,2,、计算统计量,=31-2=29,3,确定,P,值,查,t,值表,,t,0.05(29),=2.045,P50,时,计算检验统计量,Z,当,n50,时,查表法,查,r,s,界值表(课本,343,页,表,13-4,),根据,n,和,得到,r,s,界值:,n=10,,,=0.05,,,r,s,(,10,,,0.05,),=0.648,比较:,r,s,=0.903r,s,(,10,,,0.05,),,则,p50,时,计算检验统计量,Z,例题:分析血小板与出血症的关系,病例编号,1,2,3,4,5,6,7,8,9,10,血小板数,130,160,310,420,540,740,1060,1230,1260,1440,出血症,+,编 秩,编号,血小板数,x,出血症,y,X,的秩次,Y,的秩次,d,d,2,1,130,+,1,10,-9,81,2,160,2,6,-4,16,3,310,-,3,3,0,0,4,420,+,4,8,-4,16,5,540,+,5,8,-3,9,6,740,-,6,3,3,9,7,1060,-,7,3,4,16,8,1230,-,8,3,5,25,9,1260,-,9,3,6,36,10,1440,+,10,8,2,4,合计,-,-,-,-,-,212,求相关系数,查表,13-4,:,n=10,,,=0.05,,,r,s,(,10,,,0.05,),=0.648,得出结论:,小 结,相关分析:研究变量间相互关系的密切程度和变化趋势,并用适当的统计指标加以表示。,回归分析:研究变量间数量上的依存关系,用函数形式将其表现出来,并用一个或多个变量来推测另一个变量的估计值及波动范围。,直线相关与回归的定义,直线相关:,分析正态分布的两个随机变量,x,与,y,是否有直线相关关系以及,相关的性质和相关的密切程度,。,直线回归:,探讨两个连续变量,X,和,Y,间,依存关系,的一种统计学方法。,相关分析的步骤,审核资料的性质,绘制散点图,判断是否存在相关关系,求出相关系数,判断相关的强度和性质,进行假设检验,判断是本质因素还是抽样误差,审核资料的性质,在普通坐标系中作散点图,求,b,和,a,列出回归方程:,=a+bx,画出回归直线,回归系数的假设检验,回归分析的步骤,相关系数,r,的大小 变量之间关联的密切程度,符号的正负 关联的性质,回归系数,b,的大小 斜率的大小,符号的正负 关联的性质,相关与回归的关系,区别,资料性质,应用,r,与,b,的取值不同,联系,方向一致,假设检验等价:,t,r,=t,b,可以用回归解释相关,应用直线相关与回归的注意事项,1.,实际意义,进行相关回归分析要有实际意义,,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。,2.,相关关系,相关关系不一定是因果关系,,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素,年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,3.,假设检验,4.,利用散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,,然后再进行相关回归分析。同时,通过散点图,发现有无异常点,。,5.,变量范围,相关分析和回归方程,仅适用于样本的原始数据范围之内,,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,1.,某研究者对随机抽取的,300,名大学生的身高和体重资料,进行相关分析,结果发现,,r=0.39,,且,P0.01,,则说明身高和体重之间,A,存在伴随关系,B,存在数量关系,C,存在因果关系,D,存在直线相关关系,2.,某研究者拟研究睡眠时间和焦虑症状评分之间的相互关系,测定了,120,名就诊患者的睡眠时间和焦虑症状评分,该研究者应计算的统计指标是:,A.r B.b C.t D.b,2,3.,对两个连续性变量同时进行相关和回归分析,若,r,有统计学意义(即,P0,时,b0,C.r0,时,bt,r,D.t,b,t,r,
展开阅读全文