资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学统计分析与SPSS应用,内容安排,第一讲 医学统计分析概述,第二讲 定量资料组间比较的统计分析,第三讲 分类资料组间比较的统计分析,第四讲 相关性分析与线性回归分析,第五讲,logistic,回归分析,第六讲 诊断试验的评价与,ROC,分析,第七讲 生存分析,第一讲 医学统计分析概述,一、医学统计学的主要内容,包括研究设计、资料收集、数据整理、数据,分析等一系列过程。,二、医学统计学的主要功能,帮助我们透过现象认识本质,从一堆看似杂乱,无章的数据中发现规律,阐明事物的本质。,三、数据统计分析的一般思路,1.,确定研究目的,根据研究目的选择方法。,不同研究目的采用的统计方法不同,在医学统计中,常见的研究目的主要有三类:,一是差异性研究,即比较组间均数、率等的差异,可用的方法有,t,检验、方差分析、卡方检验、秩和检验等;,二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析;,三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、,logistic,回归、,cox,回归等。,2.,明确数据类型,根据数据类型进一步确定方法,定量数据可用的方法:,t,检验、方差分析、非参数检验、相关分析、线性回归等;,分类资料(定性数据)可用的方法:卡方检验、秩和检验、对数线性模型、,logistic,回归等。,3.,选定统计方法后,利用统计软件具体实现统计分析过程。,4.,针对分析结果,结合实际做出合理的专业结论。,四、统计学应用的几个误区,1.,研究目的大而全,2.,方法一味追求新颖,3.,统计学方法盲目套用,数据的类型,统计分析的基础是数据,而数据的类型可以分为:,1.,定量数据,又分为连续型数据和离散型数据。连续性数据可以取任意值,比如,身高,体重,化验值等等;离散型数据只能取整数,如发病人数等。,2.,定性数据(分类资料),又可分为无序分类资料和有序分类资料两类。,无序分类资料,是指所分类别或属性之间无程度和顺序的差别,例如二项分类,性别(男、女),药物反应(阴性、阳性)等。例如多项分类,血型(,O,、,A,、,B,、,AB,等。,有序分类资料,是指各类别之间有程度的差别。如尿糖化验结果按、,、,+,、,+,、,+,分类;疗效按治愈、显效、好转、无效分类。,数据的类型,数,据,资,料,定量数据,定性数据,(分类资料),连续型变量,(如:身高、体重等),离散型变量,(如:发病人数等),无序分类资料,(如:性别、血型等),有序分类资料,(如:疗效等),差异性研究方法,组间差异性比较研究方法,1.t,检验,主要用于,两组定量资料的比较,。要求数据满足三个前提条件:,独立性、正态性、方差齐性,。独立性即各研究对象的观测值是相互独立的,互不影响;正态性即要求两组数据均服从正态分布;方差齐性即两组样本数据所代表的总体方差相等。,2.,方差分析,主要用于,多组连续变量的比较,。要求数据满足,独立性、正态性、方差齐性,的条件。,3.,秩和检验,(,1,)可用于,不服从正态分布的定量资料,的组间比较;,(,2,)可用于,有序分类资料,的组间比较;,(,3,)对于不符合正态分布的数据,两组定量数据比较一般用,Wilcoxon,秩和检验,多组定量数据一般用,kruskal-wallis,秩和检验,随机区组定量数据一般用,friedman,秩和检验。,4,、,2,检验,用于,无序分类资料,的组间比较。可用于两组或多组率的比较、两组或多组构成比的比较、两个分类变量之间的关联性分析,还可用于特定分布的拟合优度检验等。,相关性分析研究方法,影响性分析研究方法,S,PSS,简介,SPSS(Statistics,Product and Service Solutions),,是目前世界上最优秀的统计分析软件之一。,S,PSS,是众多统计软件当中比较简单易懂的软件之一;绝大多数操作过程仅靠点击鼠标即可完成。,S,PSS,功能齐全,一般的数据分析和图形处理都可以应付自如。,第二讲 定量资料组间比较的统计分析,定量数据组间差异比较常用统计方法,1.t,检验,主要用于两组定量数据的比较。要求数据满足三个前提条件:独立性、正态性、方差齐性。独立性即各研究对象的观测值是相互独立的,互不影响;正态性即要求两组数据均服从正态分布;方差齐性即两组样本数据所代表的总体方差相等。,2.,方差分析,主要用于多组连续变量的比较。要求数据满足独立性、正态性、方差齐性的条件。,3.,秩和检验,(,1,)主要用于不服从正态分布的定量资料的组间比较;,(,2,)对于不符合正态分布的数据,两组定量数据比较一般用,Wilcoxon,秩和检验,多组定量数据一般用,kruskal-wallis,秩和检验,随机区组定量数据一般用,friedman,秩和检验。,分析思路,1.,确定分析方法,该研究目的是比较两组人群的血磷值,属于差异性检验。分析变量是血磷值,为连续性变量。结合研究目的,可以考虑的分析方法有独立样本的,t,检验或,wilcoxon,秩和检验,具体还应进一步看数据是否服从正态分布。,2.,建立数据文件,EG0201,。,共,2,个变量:,(,1,),group,(分组):,1=,急性克山病患者,,2=,健康者;,(,2,),p,(血磷数值)。,3.,数据的正态性检验,“分析”“描述统计”“探索”打开“探索”对话框,因变量列表:,血磷数值,(,glu,),因子列表:分组,group,绘制:,带检验的正态图,从,Shapiro-Wilk,检验结果可以看到,,group1,的正态性检验,P=0.835,,,group2,的正态性检验,P=0.316,,都可以认为近似服从正态分布。,4.,独立样本,t,检验,“分析”“比较均值”“独立样本,T,检验”,,,打开“独立样本,T,检验”对话框,检验变量,:,p,分组变量,:,group,定义组:,1 2,5.,结果及解释,本例数据满足方差齐性(,P=0.791,),,t,检验统计量,=2.576,,,P=0.017,,故两组人群的差异是有统计学意义的。,二、两组非正态分布资料的比较,例,2.2,某医生为研究幽门螺杆菌与血清胃泌素,-17,之间的关系,在某地随机抽取幽门螺杆菌阳性和阴性对象各,30,例,测量两组人群的血清胃泌素,-17,水平。数据如表,EX0202.,欲比较两组人群的血清胃泌素,-17,水平是否有统计学差异。,分析思路,1.,确定分析方法,该研究目的是比较两组人群的血清胃泌素,-17,是否有差异,属于差异性检验。分析变量为连续性变量。结合研究目的,可以考虑的分析方法有独立样本的,t,检验或,wilcoxon,秩和检验,具体还应进一步看数据是否服从正态分布。,2.,建立数据文件,EX0202,。,共,2,个变量:,(,1,),group,(分组):,1=,阴性,,2=,阳性;,(,2,),g,(血清胃泌素,-17,水平)。,3.,数据的正态性检验,“分析”“描述统计”“探索”打开“探索”对话框,因变量列表:,血清胃泌素,-17,水平,(,g,),因子列表:分组,group,绘制:,带检验的正态图,从,Shapiro-Wilk,检验结果可以看到,阴性组不符合正态分布(,P0.05,治疗前后的血红蛋白含量的差异无统计学意义。,例,2.7,某医生为观察某颈椎疼痛治疗仪治疗颈椎疼痛的效果,随机抽取了,30,名颈椎疼痛患者,记录他们的,VAS,评分,然后采用该治疗仪治疗,10,个疗程,再记录下他们的,VAS,评分,数据存于,EX0207,(部分数据见表,2.6,)。欲比较治疗后的,VAS,评分是否比治疗前有所降低。,患者序号,1 2 3 4 5 6 30,治疗前,5 8 7 5 5 4 4,治疗后,4 6 7 2 2 3 3,分析思路,1,、明确研究目的,该研究目的是通过比较,30,名颈椎疼痛患者治疗前后的,VAS,评分,以推断治疗前后的,VAS,评分是否有差异,属于差异性检验。该研究是比较同一人群的两次测量结果,属于配对设计。配对设计的分析一般以两组差值作为分析指标。分析方法可根据数据的分布考虑使用,配对,t,检验,或,配对秩和检验,。,2.,建立数据文件,EX0207,。,两个变量:,(,1,),VAS0:,治疗期的评分;,(,2,),VAS1:,治疗后的评分。,3.,数据的正态分布检验,“分析”“描述统计”“探索”打开“探索”对话框,因变量列表:,VAS0 VAS1,绘制:,带检验的正态图,结果显示两个变量都不服从正态分布,所以选用配对秩和检验。,4,、配对符号秩检验,“分析”“非参数检验”“,2,个相关样本”,,,打开“两个关联样本检验”对话框,检验对,:,VAS0VAS1,检验类型:,Wilcoxon,5.,结果及解释,使用的方法是,Wilcoxon,符号秩检验,检验的,P0.0001,,即治疗前后的,VAS,评分的差异有显著性意 义。本例中,治疗后,VAS,评分低于治疗前评分。,七、,随机区组设计的方差分析,七、随机区组资料的分析,例,2.8,某研究生研究异常应力下椎间盘内蛋白多糖的变化,实验设计采用了随机区组设计,按体重、窝别等因素,每,3,只健康纯种成年新西兰大白兔配成一个区组,共,8,个区组。每个区组内的,3,只大白兔随机分入对照组、颈椎制动组和颈椎加压组,然后测定各组椎间盘内蛋白多糖的光密度值并进行比较。数据存于,EX0208.,表,2.8,三组的光密度值,对照组,0.37 0.41 0.39 .,0.32,颈椎制动组,0.39 0.27 0.26 .,0.28,颈椎加压组,0.31 0.25 0.21 .0.20,分析思路,1,、确定分析方法,该研究目的是比较光密度值在三组间是否有差异,属于差异性检验。该研究采用了随机区组设计,研究前已经将研究对象的各种可能影响因素进行了平衡。分析指标是光密度值,为连续性变量。分析方法可以根据资料的正态性,考虑随机区组的方法分析或随机区组的秩和检验即,Friedman,检验。,2,、建立数据文件,EX0208.,共,3,个变量:,(,1,),group,(表示分组因素):,1=,对照组,,2=,颈椎制动组,,3=,颈椎加压组;,(,2,),block,(,8,个不同区组);,(,3,),den,(光密度值)。,3,、正态性检验,三组数据均服从正态分布,故采用随机区组的方差分析方法。,4,、方差分析,“分析”“一般线性模型”“单变量,”,,,打开“单变量”对话框,因变量列表,:,weight,固定因子,:,group,、,block,模型,设定(,custom,),模型,:,group/block,在模型中包含截距,两两比较(,Post Hoc,),两两比较检验,:,group,LSD,S-N-K,选项,描述性,方差同质性检验(方差齐性检验),5,、结果分析,结果显示,组间差异有统计学意义(,F=10.064,,,P=0.002,),区组间差异无统计学意义(,F=0.876,,,P=0.548,)。,根据两两比较结果,对照组和制动组之间差别有统计学意义(,P=0.021,),对照组和加压组之间差别有统计学意义(,P=0.001,),制动组和加压组之间差别在,0.1,水平上有统计学意义(,P=0.085,)。,定量数据组间比较的分析方法小结,1,、两组独立样本比较,两组独立数据的比较首先应看资料是否符合正态分布,是否符合方差齐性。,(,1,)两组资料符合正态分布,且方差齐,采用,t,检验;,(,2,)两组资料符合正态分布,但方差不齐,可采用,Satterthwate t,检验;,(,3,)资料不符合正态分布,可采用非参数检验,如,Wilcoxon,秩和检验。,2,、两组配对资料比较,两组配对资料比较主要看两组差值是否符合正态分布。,(,1,)两组差值服从正态分布,采用配对,t,检验;,(,2,)两组差值不服从正态分布,采用,Wilcoxon,配对秩检验。,3,、多组独立样本比较,(,1,)资料符合正态分布,且各组方差齐,直接采用完全随机的方差分析。如果检验结果为组间差异有统计学意义,可进一步作两两比较。两两比较的方法有,S-N-K,法、,Bonferroni,法等;,(,2,)资料不符合正态分布,可采用非参数检验的,Kruskal-Wallis,法。如果检验结果为组间差异有统计学意义,可进一步作两两比较。两两比较可以采用公式法计算,也可采用基于秩的方差分析法。,4,、多组随机区组样本比较,(,1,)资料符合正态分布,且各组方差齐,直接采用随机区,组的方差分析。,(,2,)资料不符合正态分布,可采用非参数检验的,Friedman,法。,第三讲 分类资料组间比较的统计分析,分类资料组间差异比较常用统计方法,1,、,2,检验,用于无序分类资料的组间比较。可用于两组或多组率的比较、两组或多组构成比的比较、两个分类变量之间的关联性分析,还可用于特定分布的拟合优度检验等。,2,、秩和检验,用于有序分类资料的组间比较。,一、四格表资料的分析,例,3.1,某研究所为探索幽门螺杆菌感染与胃黏膜病变进展之间的关系,在某地随机抽取了,2200,名非胃癌居民,对幽门螺杆菌感染状况进行血清学检测,根据检测结果分为幽门螺杆菌阳性组和阴性组。随访,5,年后,共有,1889,例研究对象完成了全部的胃镜检查和胃黏膜病理学诊断。其中幽门螺杆菌阳性组中病变进展者,35,人,未进展者,443,人;阴性组中病变进展者,164,人,未进展者,1247,人。整理成表,3.1,的四格表形式,欲分析幽门螺杆菌阳性组与阴性组的病变进展率是否有差异。,表,3.1,病变无进展 病变进展 合计,阴性,1247 164 1411,阳性,443 35 478,合计,1690 199 1889,分析思路,1,、确定分析方法,该研究目的是比较两组的病变进展率是否有统计学差异,属于差异性检验。数据为分类资料,分组变量是幽门螺杆菌的感染状况,分析变量是病变进展情况,均为二分类变量。结合研究目的,首选的方法是四格表资料的卡方检验。当然还可以考虑用,Logistic,回归,但卡方检验更为简便通用,因此采用卡方检验进行分析。,2.,建立数据文件,EX0301,。,有,3,个变量:,(,1,),hp,(感染状况):,1=,阴性,,2=,阳性;,(,2,),progression,(病变进展):,1=,无进展,,2=,进展;,(,3,),f,(频数)。,2.,统计分析:,(,1,),“,数据,”,“,加权个案,”,打开“加权个案,”,对话框,加权个案,:f,(,2,)“分析”“描述统计”“交叉表”,,,打开“交叉表”对话框,行,:,hp,列:,progression,统计量,卡方(,Chi-square,),风险,单元格,观察值,期望值,行,3.,结果及解释,本次研究结果表明,幽门螺杆菌阴性组和阳性组的病变进展率差异有统计学意义(,2,=7.007,,,P=0.008,),幽门螺杆菌阳性人群发生病变进展的危险是阴性人群的,1.587,倍(,95%CI,:,1.119,2.552,),提示幽门螺杆菌感染是胃黏膜病变进展的危险因素。,二、,R2,表资料的分析,例,3.2,某医院在某胃癌高发地区随机抽取了,2646,名当地居民,根据胃黏膜病理检查结果,将人群分为浅表性胃炎(,SG,)或轻度慢性萎缩性胃炎(,CAG,)、重度,CAG,、肠上皮化生(,IM,)和异型增生(,DYS,)四组,每组人群检测其幽门螺杆菌感染状况,结果列于表,3.2.,欲比较四组人群的幽门螺杆菌阳性率是否有差异。,表,3.2,不同胃黏膜病变的幽门螺杆菌阳性率,阴性 阳性 合计,SG,或轻度,CAG 413 609 1022,重度,CAG 29 190 219,IM 182 677 859,DYS 120 426 546,合计,744 1902 2646,分析思路,1,、确定分析方法,该研究目的是比较四组的阳性率是否存在统计学差异,属于差异性检验。分组变量是胃病理状况,为多分类变量,分析指标是幽门螺杆菌感染状况,为二分类变量,属于,R2,列联表。本例分组指标为病变严重程度,尽管属于有序分类变量,但无序和无序变量不同方法的选择是根据分析指标而定。只要分析指标为无序变量,则不论分组指标是有序还是无序,均可采用卡方检验进行分析。如果组间总的差异有统计学意义,还可进一步做两两比较。,2.,建立数据文件,EX0302,。,有,3,个变量:,(,1,),path,(病变程度):,1=SG,或轻度,CAG,,,2=,重度,CAG,,,3=IM,,,4=DYS,;,(,2,),hp,(感染状况):,1=,阴性,,2=,阳性;,(,3,),f,(频数)。,3.,统计分析:,(,1,),“,数据,”,“,加权个案,”,打开“加权个案,”,对话框,加权个案,:f,(,2,)“分析”“描述统计”“交叉表”,,,打开“交叉表”对话框,行,:,path,列:,hp,统计量,卡方(,Chi-square,),4.,结果及解释,本次研究结果表明,不同胃黏膜病变组的幽门螺杆菌感染率差异有统计学意义(,2,=13.988,,,P0.0001,。结合具体数值可以发现,阳性率有随着病变严重程度增加而增加的趋势,并且这种趋势有统计学意义(根据,Linear-By-Linear Association,检验结果,,P0.0001,)。,5,、两两比较,上述结果只是表明了一种总的差异和趋势,结论只能认为四组之间的感染率总的有统计学差异。我们还需要进一步了解具体是哪两组之间存在差异,即进行组间两两比较。,本例共有,4,组,假设研究目的是想以,SG,或轻度,CAG,组为对照,比较其他病变组的感染率是否高于,SG,或轻度,CAG,组。则校正后的检验水平为,也就是说,两两比较时,,P,值小于,0.0167,,才算差别有统计学意义。通过选择个案,可以比较其他三组与,SG,或轻度,CAG,组之间的差异,结果如下:,对比组 卡方值,P,值,SG,或轻度,CAG,组,VS.,重度,VAG 58.056 0.0001,SG,或轻度,CAG,组,VS.IM 79.752 0.0001,SG,或轻度,CAG,组,VS.DYS 53.89 0.0001,结果表明,其他三组与,SG,或轻度,CAG,组比较有统计学差异。,6,、最终结论,本次研究结果表明,不同胃黏膜病变组的幽门螺杆菌感染率差异有统计学意义(,2,=13.988,,,P0.0001,)。幽门螺杆菌感染率有随着病变严重程度增加而增加的趋势(,P5,,选用卡方检验;,(,2,)例数大于,40,,所有理论数,1,,且有理论数,5,,选用校正的卡方检验或,Fisher,精确概率检验法;,(,3,)例数小于,40,,或有理论数,1,,选用,Fisher,精确概率检验法;,2,、,2C,表资料的统计分析思路,2C,表资料指行变量为二分类的分组指标,列变量为多分类的分析指标。,(,1,)如果分析指标为无序分类变量,可用卡方检验分析组间构成比是否有差异,如果例数小于,40,或有理论频数小于,1,,可以采用,Fisher,精确概率检验法;,(,2,)如果分析指标为有序分类变量,可用,Wilcoxon,秩和检验。,3,、,R2,表资料的统计分析思路,R2,表指行变量为多分类的分组指标,列变量为二分类的分析指标。组间差异比较可采用卡方检验。如果组间差异有统计学意义,可进一步作两两比较,以分析具体哪几组之间的差别有统计学意义。,4,、,RC,表资料的统计分析思路,RC,表指行变量为多分类的分组指标,列变量为多分类的分析指标。,(,1,)行变量为无序或有序的分组指标,列变量为无序的分析指标,可用卡方检验分析组间构成比是否有差异。如果组间差异有统计学意义,可进一步作两两比较。,(,2,)行变量为无序或有序的分组指标,列变量为有序的分析指标,可用,Kruskal-Wallis,秩和检验方法。如果组间差异有统计学意义,可进一步作两两比较。,5,、配对分类资料的统计分析思路,两种方法之间的差异性比较,可用,McNemar,检验作配对的卡方检验。,第六章 相关分析及SPSS实现,6.1 定量资料的相关分析,6.2 分类资料的相关分析,6.1,定量资料的相关分析,定量资料的相关分析主要采用线性相关,线性相关主要研究两个或多个变量之间相互依存的关系,可分为简单相关和偏相关。,常用的线性相关的度量指标有,Pearson,相关系数,Spearman,相关系数。,Pearson,相关系数主要用于正态分布资料,,Spearman,相关系数主要用于非正态分布资料或等级资料。,例,6.1,某疾病预防控制中心调查了辖区内公务员的体重指数、血压、总胆固醇、空腹血糖等指标,以了解他们的健康状况。现从中随机抽取,20,人的体重指数、总胆固醇、空腹血糖三个指标,分析这三个指标的相关性。,分析思路,1,、确定分析方法,该研究的目的是分析三个指标之间的关系,三个指标均为定量资料,可选择线性相关,具体可根据资料是否符合正态分布选择,Pearson,相关或,Spearman,相关。,2,、资料的正态性检验,由于样本量小于,2000,,故正态性检验采用,Shapiro-Wilk,法。,Bmi,和,tc,的,P,值均远远大于,0.05,,,fbg,的,P,值仅略大于,0.05,(,P=0.085,)。为了稳妥起见,下面分别按正态分布和非正态分布进行线性相关分析,即分别采用,Pearson,和,Spearman,相关分析。,3,、,Pearson,相关分析和,Spearman,相关分析,“分析”“相关”“双变量”,变量:,bmi tc fbg,相关系数:,Pearson,Spearman,根据,Pearson,相关分析的结果,,bmi,与,tc,之间的相关系数为,0.718,,有统计学意义(,P0.001,);,bmi,与,fbg,之间的相关系数为,0.403,,无统计学意义(,P=0.078,);,tc,与,fbg,之间的相关系数为,0.609,,有统计学意义(,P=0.004,)。,根据,Spearman,相关分析的结果,,bmi,与,tc,之间的相关系数为,0.752,,有统计学意义(,P0.001,);,bmi,与,fbg,之间的相关系数为,0.354,,无统计学意义(,P=0.126,);,tc,与,fbg,之间的相关系数为,0.576,,有统计学意义(,P=0.008,)。,4,、偏相关分析,上述结果给出的是三个变量之间粗鲁的关系,也就是说,两个变量之间的相关可能掺杂了另外变量的作用。例如,bmi,与,fbg,的关系可能混有,tc,的影响,如果我们想研究变量之间的纯关系,需要采用偏相关来校正其他变量的影响。假定我们要了解体重指数(,bmi,)与胆固醇(,fbg,)的纯相关,则可进行偏相关分析。,“分析”“相关”“偏相关”,变量:,bmi fbg,控制:,tc,结果表明,剔除,tc,的影响后,,bmi,和,fbg,的相关性变成了负相关(,-0.062,),而且这种相关微乎其微(,P=0.8,)。,5,、结论,偏相关分析表明,校正了,tc,后,,bmi,和,fbg,的相关性变得非常小,与简单相关系数差别很大。这提示,tc,对,bmi,和,fbg,的关系影响非常大,或者说,bmi,与,fbg,的相关性主要是由,tc,造成的,一旦消除了,tc,的作用,,bmi,与,fbg,的关系也随之消失。因此对于多个指标的相关性分析,如果有可能,最好采用偏相关,以找出变量间的真正关系,否则容易被结果误导。,6.2,分类资料的相关分析,线性回归分析,例,7.2,某研究生研究“冠状动脉缓慢血流现象”的影响因素。“冠状动脉缓慢血流现象”以前降支、回旋支、右冠状动脉三支血管的平均,TIMI,帧计数(,MTFC,)表示,调查的影响因素有年龄(,AGE,岁)、收缩压(,SBP,,,mmHg,)、舒张压(,DBP,,,mmHg,)、白细胞(,WBC,,,/L,),目的是寻找影响,MTFC,变化的因素。数据存于,LI0702,。,分析思路,1,、确定研究方法,该研究目的是寻找影响因变量的各种可能因素,且变量很明确地分为因变量和自变量,因此可用回归分析。该研究的因变量为连续变量,因而可考虑用多元线性回归,但是否合适还需进一步验证。,2,、对线性回归的应用条件进行检验,第二讲 T 检验,T,检验是进行,两组定量数据差异性比较,的检验方法,在医学统计学中,,t,检验是非常活跃的一类假设检验方法。适用条件:当样本含量,n,较小时,(,如,n,0.05,,接受原假设,认为该山区成年男子的脉搏数与健康男子的差异无统计学意义。,1.2,配对样本,t,检验(,Paired Samples T Test,),配对样本,t,检验,也称成对,t,检验,适用于配对设计的计量资料,主要适用于下列三种情况:,1,、将同一样本(如血样)分成两半,用两种不同的方法来测定;,2,、自身比较,即同一样本处理前后的比较;,3,、将某些因素相同的样本组成配伍组,随机分成两组。,配对样本,t,检验是检验配对差值的样本均数 与已知总体均数,0,=0,是否有差别的参数方法检验。,配对样本,t,检验,分析步骤,1.,建立数据文件,EG0202,。,两个变量:,(,1,),before:,治疗期的含量;,(,2,),after:,治疗后的含量。,2.,统计分析:,(,1,)正态分布检验:,“分析”“非参数检验”“,1-,样本,K-S”,,,打开“单样本,K-S,检验”对话框,检验变量列表,(T):before,after,常规(正态分布),(,2,)配对样本,t,检验,:,“分析”“比较均值”“配对样本,T,检验”,,,打开“配对样本,T,检验”对话框,成对变量,:,before after,3.,结果及解释,P=0.7220.05,治疗前后的血红蛋白含量的差异无统计学意义。,1.3,两组独立样本,t,检验,(,Independent Samples T Test,),两组独立样本,t,检验,用于两个总体的样本均值的比较。,要求数据满足以下条件:,1,正态性:两个样本都来自于正态分,布的总体;,2,方差齐性:两个总体方差相等。,分析思路:,该研究目的是比较两组人群的血磷值,属于差异性检验。分析变量是血磷值,为连续性变量。结合研究目的,可以考虑的分析方法有独立样本的,t,检验或,wilcoxon,秩和检验,具体还应进一步看数据是否服从正态分布。,分析步骤,1.,建立数据文件,EG0303,。,共,2,个变量:,(,1,),group,(分组):,1=,急性克山病患者,,2=,健康者;,(,2,),p,(血磷数值)。,2.,数据的正态性检验,(,1,)“数据,”,“拆分文件”打开“分割文件,”,对话框,比较组 分组方式:组别,group,(,2,)“分析”“非参数检验”“旧对话框”“旧对话框”,“1-,样本,K-S”,,,打开“单样本,K-S,检验”对话框,检验变量列表,(T):,血磷数值(,p,),常规(正态分布),从输出结果可以看到,,group1,的正态性检验,P=0.991,,,group2,的正态性检验,P=0.781,,都可以认为近似服从正态分布。故利用独立样本,t,检验方法。,3.,合并数据:,“数据,”,“拆分文件”打开“分割文件,”,对话框,分析所有个案,不创建组,4.,独立样本,t,检验,“分析”“比较均值”“独立样本,T,检验”,,,打开“独立样本,T,检验”对话框,检验变量,:,p,分组变量,:,group,定义组:,1 2,5.,结果及解释,本例数据满足方差齐性(,P=0.791,),,t,检验统计量,=2.576,,,P=0.017,,故两组人群的差异是有统计学意义的。,第三讲 方差分析,方差分析(,ANOVA,)用于多组(两组以上)连续变量均值的差异性比较,其应用条件为:,各组观察值均服从正态分布;,各样本的总体方差相等。,方差分析的基本思想是:把总变异分为组间变异和组内变异,通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。,方差分析的SPSS操作,单因素方差分析(单个因素各个水平之间的比较):,“分析”“比较均值”“单因素,ANOVA”,多因素方差分析(包括随机区组设计、析因设计):,“分析”“一般线性模型”“单变量,”,3.1,单因素方差分析,单因素方差分析是单个因素的各个水平之间有无显著性差异的统计检验。,采用完全随机化的分组方法,将全部试验对象分配到,g,个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,以推断处理因素的效应。,例,3-1,某药厂研发一种新的降糖药,将试验药分为大剂量组和小剂量组,并采用某公认的阳性药物为对照。试验方法采用完全随机设计,按照一定的纳入和排除标准共选择,90,例研究对象,将研究对象随机分为,3,组,分别服用相应的药物。治疗,12,周后,观察其餐后,2,小时的血糖降低值,数据存于,EG0301,中。欲比较三组的血糖降低值是否有统计学差异。,分析思路:,该研究目的是比较对照药组、试验药大剂量组、小剂量组的血糖降低值是否有差异,属于差异性检验。该研究为完全随机设计,分析变量为连续性变量。因此可以考虑方差分析或,kruskal-wallis,秩和检验,具体还应进一步看数据是否服从正态分布。,分析步骤,1.,建立数据文件,EG0301,。,共,2,个变量:,(,1,),group,(分组):,1=,对照组,,2=,小剂量组,,3=,大剂量组;,(,2,),glu,(血糖变化值)。,2.,数据的正态性检验,(,1,)“数据,”,“拆分文件”打开“分割文件,”,对话框,比较组 分组方式:组别,group,(,2,)“分析”“非参数检验”“旧对话框”“旧对话框”,“1-,样本,K-S”,,,打开“单样本,K-S,检验”对话框,检验变量列表,(T):,血糖变化值(,glu,),常规(正态分布),结果显示,三组数据均符合正态分布(,P,分别为,0.638,、,0.971,、,0.987,),因此可以采用方差分析进行组间比较。,然后合并数据:,“数据,”,“拆分文件”打开“分割文件,”,对话框,分析所有个案,不创建组,3.,单因素方差分析,“分析”“比较均值”“单因素,ANOVA”,,,打开“单因素方差分析”对话框,因变量列表,:,no,因子,:,group,选项,描述性,方差同质性检验(方差齐性检验),两两比较,LSD,S-N-K,4.,结果及解释,(,1,)在方差齐性检验中,,P=0.4530.05,,可认为方差具有齐性;,(,2,)在,ANOVA,表中,,F=,3.917,,,P,值,=0.0240.05,,故,三组人群的差异有统计学意义,;,(,3,)在随后的两两比较中,结果显示,,1,组和,3,组、,1,组和,2,组的差异有统计意义,,2,组和,3,组的差异无统计意义。,3.2,随机区组设计的方差分析,例,3.2,某厂,12,名氟作业工人,24h,内不同时间尿氟量(,mL/L,)排除数据存于文件,EG0302,,试分析氟作业工人在工前、工中(上班第,4,小时)和工后(下班后第,4,小时)尿氟排出量的差别有无统计学意义。,分析:如果不仅考虑氟作业工人在工前、工中和工后尿氟排出量的差别,还考虑工人之间(区组因素)的不同,此时就构成随机区组资料(不同时刻,不同区组)的分析。分析方法可以根据资料的正态性,考虑随机区组的方差分析或随机区组的秩和检验(即,Friedman,检验)。,1,、建立数据文件,EG0302.,共,3,个变量:,(,1,),group,(表示三个不同时刻):,1=,工前,,2=,工中,,3=,工后;,(,2,),block,(,12,个不同区组);,(,3,),weight,(尿氟排出量)。,2,、统计分析。,(,1,)分组对三组数据作正态性检验(三组数据均服从正态分布);,(,2,)方差分析:,“分析”“一般线性模型”“单变量,”,,,打开“单变量”对话框,因变量列表,:,weight,固定因子,:,group,、,block,模型,设定(,custom,),模型,:,group/block,在模型中包含截距,两两比较(,Post Hoc,),两两比较检验,:,group,LSD,S-N-K,选项,描述性,方差同质性检验(方差齐性检验),3,、结论,结果显示,组间差异有统计学意义(,F=12.152,,,P0.001,),根据两两比较的结果,工中与工前、工中与工后的差异有统计学意义,工前与工后的差异无统计学意义。,区组间差异无统计学意义(,F=2.013,,,P=0.078,)。,3.3,多因素方差分析,多因素方差分析不仅可以考虑多个因素对试验结果的影响,还能够分析因素之间的交互作用是否对试验结果产生影响,从而最终找到一个最优组合。,例,3.3,在数据,3.3,中,以手术时间“,time”,为观察值,探讨不同手术方式“,pt”,、不同疾病部位“,da”,及不同性别“,sex”,三个因素对手术时间的影响是否显著。,1,、打开数据文件,3.3,;,2,、统计分析:,“分析”“一般线性模型”“单变量,”,,,打开“单变量”对话框,因变量列表,:,time,固定因子:,pt,da,sex,模型,设定(,custom,),模型,:,pt,da,sex,在模型中包含截距,选项,描述性,方差同质性检验(方差齐性检验),3,、,结果及解释,pt,对手术时间有显著性的影响,,da,和,sex,的差异无统计学意义。,3.4,析因设计资料的方差分析,析因试验设计(,factorial experimental design,)是将两个或多个处理因素的各个水平进行排列组合,交叉分组进行试验,用于分析各因素间的交互作用,比较各因素不同水平的平均效应和因素间的不同水平组合下的平均效应,寻找最佳组合。在析因试验设计的资料分析中,应先,重点考察各因素间是否存在交互作用,,因为当因素间存在明显的交互作用时,往往会掩盖主效应的显著性。,例,3.4,用,A,、,B,两种药治疗血色素低下的病人。现将,48,名病人完全随机地分成,4,组,按,A,、,B,两种药的使用与否对,4,组病人观察他们的血色素增加值,数据如下所示(部分):,分析思路,该研究共两个分组因素,分别为,A,药和,B,药,各有两个水平,交叉形成四组。研究目的不仅要看,A,药、,B,药各自对血色素增加值的影响,还要分析,A,药,+B,药对血色素增加值的影响,即分析两个因素之间的交互作用。该研究采用了析因设计,分析也应采用析因设计的方法,考虑因素间的交互作用。该研究分析指标是血色素增加值,为连续型变量。分析方法可用方差分析或,Kruskal-Wallis,秩和检验,具体还应进一步看资料是否符合正态分布,1,、建立数据文件,EG0304,。,有,3,个变量:,(,1,),a,:,1=,用,A,药,,0=,不用,A,药;,(,2,),b,:,1=,用,B,药,,0=,不用,B,药;,(,3,),value,:血色素增加量,。,2,、四组数据的正态性检验(均服从正态分布),3,、统计分析:,“分析”“一般线性模型”“单变量,”,,,打开“单变量”对话 框,因变量列表,:,value,固定因子:,a,,,b,模型,设定(,custom,),模型,:,a,、,b,、,a*b,在模型中包含截距,选项,描述性,4,、结果及解释,单用,A,药或者单用,B,药,都有显著性疗效,并且,A,、,B,两药联合使用有很好的交互作用,能加强疗效(均数为,2.358,),比单用,A,药或单用,B,药的效果都好。,第三讲,2,检验,2,检验(卡方检验),主要用于,(,1,)检验某无序分类变量(如:性别)各水平出现的概率是否等于指定概率;,(,2,)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:有,
展开阅读全文