资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Page,*,Department of Epidemiology&Biostatistics,直线相关分析,Linear Correlation Analysis,相关分析:主要内容,问题的提出,相关关系与确定性关系,相关和直线相关的概念,直线相关的图示,直线相关系数的计算,直线相关系数的假设检验和区间估计,两相关系数的比较,等级相关,(了解),2,问题的提出,以往方法的局限,仅限于考察,一个,观察指标,3,2.相关的概念,Definition,Correlation,is a measure of the degree to which variables vary together or a measure of the intensity of association.,6,当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。,若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(,positive correlation,);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(,negative correlation,)。,7,直线相关的概念,直线相关(,linear correlation,),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。,8,用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(,correlation coefficient,),又称为积差相关系数,(coefficient of product-moment correlation),Pearson相关系数。,总体相关系数用希腊字母,表示,而样本相关系数用,r,表示,取值范围均为-1,1。,9,r=,0,r=,0,r,-,1,r,1,完全正相关,完全负相关,零相关,零相关,0,r,1,-,1,r,0,r=,0,r=,0,零相关,正相关,负相关,零相关,直线相关的图示,10,r,=-1,-1,r,0,r,=0,直线相关的图示与相关系数的关系,0,r,1,r,=1,11,直线相关系数的计算,12,以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。,两岁时的,身高(英寸),39,30,32,34,35,36,36,30,成年,身高,(英寸),71,63,63,67,68,68,70,64,13,绘制散点图,Y,成年后身高(单位:英寸),X,2岁时的身高(单位:英寸),30,32,34,36,38,40,63,65,67,69,71,14,15,16,相关系数的假设检验,H,0,:0,两变量间无直线相关的关系;,H,1,:0。,17,H,0,:,0,两变量间无直线相关的关系;,H,1,:,0,两变量间有直线相关的关系;,=0.05,=8-2=6,以自由度为6查附表2的,t,界值表,得,P,0.01,按,=0.05的水准拒绝,H,0,接受,H,1,认为2岁时的身高和成年身高之间存在正相关。,18,总体相关系数的区间估计,(了解),从相关系数,不等于0的总体中抽样,样本相关系数的分布是,偏态,的。,19,相关系数的抽样分布,(,=-0.8),-0.8,-0.6,-0.4,-0.2,0.0,0,100,200,300,-1.0,20,相关系数的抽样分布,(,=0),-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0,0,100,200,300,21,相关系数的抽样分布,(,=0.8),0,0.2,0.4,0.6,0.8,1.0,0,100,200,300,22,R.A.Fisher(1921)的,z,变换,z,近似服从均数为,,,标准差为,的正态分布。,23,相关系数的,z,值的抽样分布,(,=-0.8),0,0.5,1.0,1.5,2.0,0,50,100,150,200,24,相关系数的,z,值的抽样分布,(,=0),-2,-1,0,1,2,0,50,100,150,200,25,相关系数的,z,值的抽样分布,(,=0.8),0,1,2,3,4,0,50,100,150,200,26,相关系数的可信区间估计,将,r,变换为,z,;,根据,z,服从正态分布,估计,z,的可信区间;,再将,z,变换回,r,。,27,相关系数的可信区间估计,Fishers 变换,r z,正态近似,Fishers 反变换,的95CI z的95CI,28,该可信区间,有什么含义?,29,两个相关系数的比较,(了解),男女的心率和电机械收缩时间,男子,女子,心率,,X,(次/分),收缩时间,Y,(毫秒),心率,,X,(次/分),收缩时间,Y,(毫秒),57,405,56,391,61,393,59,410,63,397,63,387,66,400,67,374,67,380,67,385,68,383,68,376,69,376,70,378,70,382,72,384,75,388,75,370,79,366,79,350,83,370,87,357,86,345,94,329,30,分析思路:,两组资料的相关性如何?,两个相关系数是否相等?,由于相关系数并不服从正态分布,因此对两个相关系数的差别的假设检验可以通过z变换的原理,对两个z变换值作假设检验得到。,31,24名成年男女的心率(,X,)与收缩时间(,Y,)的散点图,男性 女性,50,60,70,80,90,100,300,350,400,450,心率(次/分),收,缩,时,间,(毫秒),50,60,70,80,90,300,350,400,450,100,心率(次/分),32,33,分别对两相关系数是否为0进行假设检验。,=122=10,则,P,1,0.001,,P,2,0.20,,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。,36,等级资料的相关,(了解),Spearman,等级相关,将各变量X,Y分别编秩R,X,R,Y,;,计算R,X,与R,Y,的,Pearson,相关;,所得结果即为,Spearman,等级相关,r,S,。,-1,r,s,1,37,钉螺密度与血吸虫的关系,钉螺密度与居民血吸虫感染率之间的关系,乡编号 钉螺密度X 感染率Y,(1)(2),13317,25224,32213,44227,53519,64923,73118,83918,94524,104320,R,X,(3),3,10,1,6,4,9,2,5,8,7,R,Y,(4),2,8.5,1,10,5,7,3.5,3.5,8.5,6,38,等级相关系数的计算,39,等级相关的假设检验,H,0,:,S,0,,钉螺密度与感染率无相关关系;,H,1,:,S,0,,钉螺密度与感染率有相关关系。,=0.05。,当,n,50时,用查“等级相关界值表”;,当,n,50时,用,t,检验:,t,服从自由度为,n,-2的,t,分布。,40,假设检验,本例 n=10,查界值表,得:,r,s(0.05,10),=0.648,即,若 H,0,成立,则等级相关系数有95%的可能在(-0.648,0.648)之间。,现 r,s,=0.8171,故,P,0.05。,可以认为,钉螺密度与血吸虫感染率有等级相关关系。,41,例 母亲文化程度与儿童智商的关系,母亲文化程度 儿童智商等级(,Y,)合计,(X)中下中等中上上等,小学2281303136,初中5723613526454,高中或中专1111210517245,大专及以上1410722,合计9143328053857,r,s,=0.2261,42,大样本时的等级相关检验,本例,n,=857,大于50,用,t,检验:,P0.01。,可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。,43,等级相关的含义,等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。,例1,XY,11,22,33,44,55,例2,XY,11,24,39,416,525,例3,XY,11,21.1,31.2,41.3,51.4,例4,XY,1 1,2 10,3 100,4 1000,5 10000,44,SPSS计算,输入数据,45,2选择菜单AnalyzeCorrelateBivariate,46,3将变量放入Variables框中。,47,4主要结果:,48,直线回归分析,Linear Regression Analysis,直线回归分析:主要内容,引言,直线回归的定义,直线回归方程的求解,回归系数的t检验,回归问题的方差分析,直线回归系数和回归方程的解释,与直线回归有关的区间估计,相关与回归的区别和联系,正确应用,50,引言,对于2岁时的身高和成年后身高间的关系,即便具有,相同,的2岁身高,成年后的身高也,不一定相同,;,2岁身高X与成年后身高Y的散点图,Y 成年后的身高(英寸),X 两岁时的身高(英寸),30,32,34,36,38,40,63,65,67,69,71,51,引言,对于女大学生的体重和肺活量间的关系,即便具有相同的体重,肺活量也不一定相同;,Y 肺活量(L),X 体重(kg),40,60,2.0,4.0,3.0,2.5,3.5,50,45,55,女大学生体重(X)与肺活量(Y)的散点图,52,折衷的解释,2岁身高影响成年的身高,但并非确定地决定它(,determine it exactly,);,女学生的体重虽然影响了肺活量;但并非确定地决定它;,因此,虽然它们之间,有数量关系,,但并非,确定性的,数量关系。,是一种,非确定性关系,;一种宏观的关系!,53,所谓确定性关系是指两变量间的关系是,函数关系,。已知一个变量的值,另一个变量的值可以通过,这种函数关系精确,计算出来。,非确定性关系是指两变量在,宏观,上存在关系,但并,未精确,到可以用,函数关系,来表达。,54,直线回归的定义,宏观上来讲,他们呈直线关系,但并不能用,来描述。所以我们用,“,hat,”表示估计值,给定x时y的,条件均数,55,Y 因变量,响应变量,(,dependent variable,response variable,),X 自变量,解释变量,(,independent variable,explanatory variable,),b 回归系数,(,regression coefficient,slope,),a 截距,(,intercept,),56,不同斜率时回归直线的表现,X,Y,57,小插曲:为什么叫”回归“?,F.Galton K.Pearson,58,直线回归方程的求解,两岁时的,身高(英寸),39,30,32,34,35,36,36,30,成年,身高,(英寸),71,63,63,67,68,68,70,64,59,直线回归方程的求解:最小二乘原理,Y,成年后身高(单位:英寸),X,2岁时的身高(单位:英寸),30,32,34,36,38,40,63,65,67,69,71,60,直线回归方程的求解,最小二乘法(Least Square Method),61,直线回归,方程的求解,2岁身高和成年身高之间关系,62,直线回归方程,63,直线回归系数的,t,检验,回归系数也有抽样误差!,检验方法,针对回归系数,b,的检验:,t,检验,针对回归方程的检验:,F,检验,64,直线回归系数的,t,检验,总体回归系数,=0,则回归关系不存在。,H,0,:总体回归系数为0,,=0;,H,1,:总体回归系数不为0,,0;,=0.05。,65,直线回归系数的,t,检验,Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y,本身的变异程度,66,直线回归系数的,t,检验,名词辨析:Y的变异 Y本身的变异,Y 体重增加量(g),X 进食量(g),600,650,700,750,800,850,900,950,120,140,160,180,200,154.42g,S,Y,22.63,0,S,Y.X,12.39,67,直线回归系数的,t,检验,H,0,:总体回归系数,0;,H,1,:总体回归系数,0;,=0.05。,=8-2=6,按,=6查,t,界值表,得,P,0.01。按,=0.05水准拒绝,H,0,,接受,H,1,。认为成年身高和2岁时的身高间存在直线回归关系。,68,回归系数与相关系数的假设检验,结果等价,69,回归方程的方差分析:因变量总变异的分解,X,P,(X,Y),Y,70,71,Y的总变异分解,未引进回归时的总变异:,(sum of squares about the mean of Y),引进回归以后的变异(剩余):,(sum of squares about regression),回归的贡献,回归平方和:,(sum of squares due to regression),72,Y的总变异分解,总,n,1,回,1,剩余,n,2,总,回,SS,SS,r,=,2,73,Y的总变异,可以用回归来解释的部分,即与X有关的部分,不能用X来解释的部分,即与X无关的部分(随机误差),份额的大小可以用相关系数的平方来衡量,(,决定系数,),74,回归方程的方差分析,75,H,0,:2岁身高和成年身高无直线回归关系;,H,1,:2岁身高和成年身高有直线回归关系;,=0.05。,SS,总,=67.5000,SS,剩,=60.3571,SS,回,=SS,总,-SS,剩,=67.50-60.36=7.14,列方差分析表,76,方差分析表,F,=50.70,今,1,=1,,2,=6,查,F,界值表,得P0.0001,按,=0.05水准拒绝H0,接受H,1,,故可认为2岁和成年身高之间有线性回归关系。,变异来源,SS,v,MS,F,P,总变异,67.5000,7,回 归,60.3571,1,60.3571,50.70,0.0001,剩 余,7.1429,6,1.1905,77,直线回归中三种假设检验间的关系,在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。,t,r,=,t,b,=7.12=,F,1/2,=50.70,1/2,78,回归系数和回归方程的意义及性质,b 的意义,a 的意义,和 的意义,的意义,79,b的含义,b,的涵义:两岁身高每高1英寸,成年后的身高,平均高,0.9286英寸。,80,a 的意义,a 截距(intercept,constant),X=0 时,Y的估计值,a的单位与Y值相同,当X可能取0时,a才有实际意义。,81,估计值 的意义,X=39,=71.3929,即两岁身高为39英寸时,其成年后身高均数的估计值为71.3929英寸,X=35,=67.6786,即两岁身高为35英寸时,其成年后身高均数的估计值为67.6786英寸,给定X时,Y的均数的估计值。,当 时,,82,编号,2岁(英寸),X,成年(英寸),Y,估计值,残差,1,39,71,71.3929,-0.3929,2,30,63,63.0357,-0.0357,3,32,63,64.8929,-1.8929,4,34,67,66.7500,0.2500,5,35,68,67.6786,0.3214,6,36,68,68.6071,-0.6071,7,36,70,68.6071,1.3929,8,30,64,63.0357,0.9643,合计,272,534,534.0000,0.0000,估计值与残差,83,图7.2 2岁身高,X,与成年后身高,Y,的散点图,X,2岁时身高,30,32,34,36,38,40,63,65,67,69,71,X,Y,成年后身高,(单位:英寸),84,残差平方和(residual sum of squares).,综合表示点距直线的距离。,在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,85,与直线回归有关的区间估计,回归系数的可信区间估计,估计值 的可信区间估计,个体Y值的容许区间估计,86,复习 可信区间 容许区间,均数的可信区间:,均数,界值标准误,个体的容许区间(参考值范围):,均数,界值标准差,87,总体回归系数,的可信区间估计,根据,t,分布原理估计,:,88,本例中已计算得,s,b,=0.1304,(0.9286-2.4470.1304,0.9286-2.4470.1304),=(0.6095,1.2477),含义,用(,0.6095,,,1.2477,)来估计两岁身高与成年身高间的直线回归系数,可信度为95。,89,的可信区间估计,样本 总体,Y,的总平均,给定,X,时,Y,的平均,(,Y,的条件均数,),根据,t,分布原理,:,90,X,=38时,求 的95%可信区间,=34,,l,XX,=77159.67,=12.3921,当,X,=34 时,=70.4644,70.4644,2.447,0.4688=(68.88,70.05),即身高为34英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95可信区间为(68.88,70.05)(g)。,91,Y的容许区间估计,给定 X 时 Y 的估计值是 Y 的均数的一个估计。,给定X 时 Y 值的容许区间是 Y 值的可能范围。,Y的100(1-,)%容许限:,92,70.4644,2.447,1.2694=(67.3583,73.5705),即所有身高为34英寸的两岁儿童,估计其成年后有95的个体身高在(67.36,73.57)之间。,93,剩余标准差、条件标准误、条件标准差,抽样误差,抽样误差个体变异,94,2岁身高,(英寸,),成年身高,(英寸),(英寸),的95%可信区间,Y,的95%容许区间,下限,上限,下限,上限,30,64,63.0357,61.4482,64.6232,59.9296,66.1419,30,63,63.0357,61.4482,64.6232,59.9296,66.1419,32,63,64.8929,63.7534,66.0323,61.9901,67.7957,34,67,66.7500,65.8061,67.6939,63.9182,69.5818,35,68,67.6786,66.6822,68.6750,64.8289,70.5283,36,68,68.6071,67.4677,69.7466,65.7044,71.5099,36,70,68.6071,67.4677,69.7466,65.7044,71.5099,39,71,71.3929,69.5390,73.2467,68.1425,74.6432,95,估计值、95%可信区间和95%容许区间,成年后身高,英寸,X,2岁时的身高(单位:英寸),30,32,34,36,38,58,60,62,64,66,68,70,72,74,76,3,1,3,3,3,5,3,7,3,9,96,直线回归与直线相关的区别与联系,联系,均表示线性关系;,符号相同:共变方向一致;,假设检验结果相同:是否存在共变关系;,二者间可以相互换算,用回归解释相关,97,直线回归与直线相关的区别与联系,区别,r,没有单位,,b,有单位;所以,相关系数与单位无关,回归系数与单位有关;,相关表示相互关系;回归表示依存关系;,对资料的要求不同:,当X和Y都是随机的,可以进行相关和回归分析;,当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析;,I型回归:X是精确控制的;,II型回归:X是随机的。,由X推算Y:,由Y推算X:,98,直线相关和回归分析的正确应用,相关和回归要有实际意义;,充分利用散点图,判断:,线性趋势,离群值,相关分析要注意,谨防多个变量间的相关性所带来的虚假关系,对资料本身的要求:双变量正态分布,同质性,当样本含量较大时,统计学检验的作用减小;,回归关系可以内插,不宜外延;,应用条件(,LINE,):,线性(linear),独立(independent),给定X时,Y正态分布(normal),等方差(equal variance),99,散点图的作用,飞行员的着陆操作评分(Y)与焦虑程度(X),100,我国19401988年间不同月份的男性婴儿死亡率()的季节性分析,男性婴儿死亡率(),月份,101,事故发生数与时间的关系,170,事故数,时间(月),0,10,20,30,40,50,60,70,80,90,100,110,120,130,140,150,160,400,500,600,700,800,900,1000,1100,1200,102,散点图的作用,识别离群值;,P,Q,离群值对相关和回归分析的影响,103,鹳带来孩子?,Texas,鹳的数目和孩子数目的相关系数为0.8250;,鹳的数目和妇女数目的相关系数为0.9145;,多个变量间的相关带来的假性相关,104,二元正态分布,二元正态分布的密度函数为:,105,二元正态分布曲面(,11,=1,22,=1,12,=0),106,二元正态分布曲面(,11,=1,22,=1,12,=0),107,二元正态分布曲面(,11,=2,22,=4,12,=0.75),108,二元正态分布曲面(,11,=2,22,=4,12,=0.75),109,二元正态分布曲面(,11,=2,22,=4,12,=0.75),110,二元正态分布曲面剖面(,11,=1,22,=1/2,12,=0.75),111,排除间杂性,(,a,),(,b,),样本甲观察点,样本乙观察点,样本的间杂性对相关和回归的误导,112,给定X时,Y是正态分布、等方差示意图,113,给定X时,Y是正态分布、不等方差示意图,114,男性年龄与血糖的关系,(方差随自变量的增加而增加),glucose,age,20,30,40,50,60,70,80,3,6,9,12,115,26名病人的胃液pH值及尿亚硝酸盐浓度的散点图,(方差随自变量的增加而增加),尿中亚硝酸盐的浓度,胃液的pH值,116,Thank U,117,
展开阅读全文