资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,医学统计学总复习,张俊辉,2010.12.27,统计工作的步骤,设计:统计工作的第一步和最关键的一步,搜集,整理,分析,统计分析,统计描述,:运用一些统计指标(均数、标准差、率)、统计表和统计图等,对数据的数量特征及其分布规律进行客观地描述和表达,,不涉及样本推断总体的问题,。,统计推断,:在一定的置信度和概率保证下,根据样本信息去推断总体特征。包括,参数估计和假设检验,两个内容。,定量资料的统计描述,集中趋势的统计描述,定量资料的频数表,离散程度的统计描述,描述集中趋势的定量资料的指标平均数,均数,几何均数,中位数,它们各自的适用条件和注意事项,离散程度的指标,全距,四分位数,标准差 、方差,变异系数,描述正态分布的集中位置和离散程度的指标:,均数和标准差,描述偏态分布资料的集中位置和离散程度的指标,中位数和四分位数间距,正态分布,概念:正态分布是高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的钟型光滑曲线,也叫高斯分布。,正态分布的图形:,正态分布的特征,标准正态分布用,N,(0,1)表示,常用的三个区间,1.645,区间面积占总面积(或总观察例数)的90%。,1.96,区间面积占总面积(或总观察例数)的95%。,2.58,区间面积占总面积(或总观察例数)的99%。,计算医学参考值范围常用的方法,正态分布法,:,适用于正态或近似正态分布资料。,双侧界值:单侧上界:;单侧下界:,对数正态分布法,:,适用于,对数正态分布,资料,双侧界值:,百分位数法,:,常用于偏态分布资料,双侧界值,:,P2.5,和,P97.5,;,单侧上界:,P95,;,或单侧下界:,P5,2.3 总体均数的估计,均数的抽样误差,t,分布,总体均数的估计,均数的抽样误差,概念:抽样引起的样本统计量与总体参数之间的差异称为,抽样误差(,sampling error)。,均数的抽样误差,:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。,标准,误(,standard error),样本均数的标准差称,标准误,是说明均数抽样误差大小的指标,大,抽样误差大;反之,,小,抽样误差小。,标准误 的计算:,标准误 的估计值,:,影响标准误大小的因素,的大小与,成正比,与样本含量,n,的平方根成反比,标准差和标准误的区别与联系,t分布,t分布与标准正态分布相比有什么特点?,总体均数的估计,参数估计,是指用样本统计量来估计总体参数,有点估计和区间估计两种方法。,点估计,是用样本统计量直接作为总体参数的估计值;,区间估计,是指按一定的概率 ,,估计总体参数的所在范围,,这个范围称为参数的置信区间,区分参考值范围与总体均数的置信区间,是否99%的置信区间优于95%置信区间?,假设检验的基本步骤,建立检验假设,确定检验水准,选定检验方法,计算检验统计量,确定,P,值,作出统计推断,t检验,t检验的应用条件为:,在单样本检验中,总体标准差未知且样本含量较小(n50)时,要求样本来自正态分布总体;,成组检验要求两组资料相应的总体分别服从正态分布且方差齐。,当不满足这些条件时可使用变量变换将数据转换成正态或者近似正态分布,或使用秩和检验。,两小样本均数比较时,若两总体方差不相等,还可使用,t,检验。,常用的几种,t,检验方法,样本均数与已知总体均数比较,配对比较的,t,检验,成组比较的,t,检验,配对t检验,配对设计资料主要有以下三种情况:,配对的两个受试对象分别接受两种不同处理之后的数据,如把同性别、年龄相近且相同病情的病人配成一对;,同一样品用两种方法(或仪器)检验出的结果;,同一受试对象两个部位的测定数据。,配对检验其目的是推断两种处理(或方法)的结果有无差别。,2.6 I,型错误与,II,型错误,拒绝了实际上成立的,H,0,,这类“弃真”的错误为I 型错误(type I error),概率为 ;,不拒绝实际上不成立的,H,0,,这类“存伪”的错误为II 型错误(type II error),概率为 。,当样本量确定时,越小,越大;反之,,越大,越小。,客观实际 拒绝,H,0,不拒绝,H,0,H,0,成立,I 型错误,(,)推断正确(1-,),H,0,不成立,推断正确(1-,),II 型错误(,),检验效能,如果两个总体参数间确实存在差异,使用假设检验方法能够发现这种差异(即拒绝)的能力被称为检验效能(power of test),记为 。一般情况下要求检验效能应在0.8以上。,假设检验中的注意事项,要保证组间的可比性,要根据研究目的、设计类型和资料类型选用适当的检验方法,正确理解假设检验中,概率,P,值,的含义,结论不能绝对化,单、双侧检验应事先确定,方差分析目的(ANOVA)(analysis of variance),通过分析处理组均数之间的变异,推导,k,个总体均数间是否相等,或,k,个处理之间的差别是否有统计学意义。,方差分析的基本思想,把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。,方差分析的应用条件,1.各样本是相互独立的随机样本,均服从正态分布,2.各样本的总体方差相等,即方差齐性,独立、正态、方差齐性,如果方差不齐时,可采用,F,检验或秩和检验。,几种常用的方差分析,完全随机设计的方差分析(单因素),随机区组的方差分析,交叉设计的方差分析,析因设计的方差分析,比较各种方差分析的变异分解,多个样本均数经方差分析后,若有统计学意义,需用多重比较的方法进一步了解哪些均数间差别有统计学意义。,常用SNK法(,q,检验)和Dunnett-,t,检验,前者为两两间均作比较,后者为实验组和对照组比较。,方差分析用于两个均数的比较时,同一资料所得结果与,t,检验等价,即有,。,直线回归目的,研究变量之间的数量依存关系(,Y,随着,X,变化而变化),找出一条最能代表这种数据关系的直线。,直线回归方程,:,x,为自变量的取值,为当,x,取某一值时应变量,y,的,平均估计值,a,为截距,(intercept),,即当,x,=0,时,y,的,平均估计值,b,为回归系数,(regression,coefficient),,表示,x,改变一个单位时,y,的,平均改变量,。,采用最小二乘法,(,Least square method,),计算回归系数,a,与截距,b,最小二乘法原理,:实测点到直线的,纵向距离平方之和,达到最小,直线回归,反映自变量对应变量数量上影响大小的 统计量是 回归系数,而非,P,值。,P,值越小只能说明越有理由认为变量间的直线关系存在,而不能说明影响越大或关系越强。,直线相关的目的,研究两个随机变量,X,与,Y,之间的相互关系及其密切程度。,直线相关系数,r,的意义,r,是表示两个随机变量之间呈直线相关的强度和方向的统计量。,相关系数的性质,1,、,相关系数没有单位,,其值为,-1r1,,其,正负表示,两变量间,直线相关的方向,;,正相关:,0 r 1,完全正相关,:r,+1,负相关:,-1 r 0,完全负相关,:r,-1,零相关:,r,0,2,、,r,的绝对值大小表示两变量之间,直线相关的密切程度,。,r,的绝对值越接近于,1,,说明相关密切程度越高;绝对值越接近,0,,说明相关密切程度越低。,秩相关的适用条件,不服从双变量正态分布,用等级资料表示的原始资料,总体分布未知或,边界不确定的资料,直线回归与直线相关的联系,对同一资料计算,r,与,b,,,它们的符号一致,r,与,b,的假设检验等价,即对同一样本有,r,与,b,可以互相换算:,反映回归效果好坏采用什么指标?,参数统计与非参数统计的区别,秩和检验,应用条件和范围,配对秩和检验,成组设计,多个样本比较,两两比较,分类资料的描述,率的计算与应用,构成比的计算与应用,相对比的计算与应用,率,概念:说明某现象出现的强度或频度。,计算公式为:,式中,k,为100,、1000、10000/万和100000/10万等。,构成比,概念:说明某一事物内部各组成部分所占比重或分布,常用百分数表示,计算公式为:,特点:总体内各组构成比的总和应为100%,。,比,(ratio):,概念:亦称相对比,是A、B两有关指标之比,说明A是B的若干倍或几分之几,通常用倍数或分数表示。,计算公式为:,注意:两个比较指标可以性质相同或不同,如,相对危险度(,RR,)、变异系数(,CV,)等。,注意,常用相对数指标,发病率,患病率,死亡率,病死率,有效率,治愈率,应用相对数应注意的问题,1、计算相对数应有足够的观察单位数,2、,分析时不能以构成比代替率,3、应分别将分子和分母合计求合计率,4、相对数的比较应注意其可比性,标准化法,在对合计率进行比较时,如果各组观察对象内部构成不同,应考虑对合计率(平均率)进行标准化。,标准化法就是采用统一的标准构成,消除因混杂因素构成不同对总指标的影响。,二项分布与Poisson分布,二项分布的性质,Poisson分布的性质,率的抽样误差,率的标准误的计算公式,卡方检验,卡方检验的用途?,卡方检验的基本公式,值反映了实际频数与理论频数吻合的程度,两独立样本(成组设计)四格表基本格式,四格表专用公式,配对设计资料的 检验,配对四格表的,2,两个率是否有差异,配对四格表的专用公式11.9,两个率的相关分析,成组四格表的专用公式11.5,四格表 值的校正,行列表资料的,2,检验,列联表用途,分析行变量和列变量之间的关系,学过的 检验,两样本率比较,配对四格表资料,多个样本率比较,两个或多个样本构成的比较,两分类指标的相关分析,2,检验的基本步骤,建立检验假设,确定检验水准,计算检验统计量(,首先考察最小理论频数,),确定,P,值,作出统计推断,卡方检验的注意事项,结果为有序多分类变量的列联表(单向有序列联表),卡方检验只能比较各处理组的效应,构成比是否有差别,。,若要比较各处理组的平均效应大小是否有差别,应该用,秩和检验,。,多个样本率(或构成比)的两两比较,可以借鉴均数多重比较的原理。,1.成组设计,成组设计:可以是实验性研究中的随机分组,也可以是观察性研究中的不同人群随机抽样。,在实验性研究中,将受试对象随机分成两组或更多组,每个受试对象均有相同机会进入其中的任何一组。,受试对象,实验组,对照组,随机分组,A.完全随机分组得到两独立样本,总体1,总体2,样本2,样本1,B从两总体中随机抽样得到两独立样本,总体1,样本,样本1,样本2,C.按某一分组的属性分组得到两独立样本,1.成组设计,在观察性研究中,按不同人群进行随机抽样,得到两个或两个以上的独立样本。,完全随机分组和按不同人群抽样所得到的样本均为独立样本资料。,2.配对设计,主要有以下4种情形:,1.将两个条件相同或相近的受试对象配成对子,通过随机化,使对子内两个体分别接受两种不同的处理。,配对的因素应为可能影响实验结果的主要混杂因素。,如在动物实验中,常将窝别、性别、体重等作为配对因素;在临床试验中,常将性别、年龄、病情等作为配对因素。,图3.2为配对设计示意图,纳入标准,排除标准,研究总体,按配对条件,受试对象,对照组,随机分组,实验组,对子1,对照组,随机分组,实验组,对子,b,对照组,随机分组,实验组,对子2,2.同一受试对象(人或标本)的两个部分配成对子,分别随机地接受两种不同的处理。,3.同一受试对象接受两种不同的处理。例如,对一批血样,用两种方法检测其中的血铅含量。,配对设计主要有以下情形:,(4)自身前后配对,即将同一受试对象,接受某种处理之前和接受该处理之后视为配对。,若仅观察一组,则要求在处理因素施加前后,重要的非处理因素(如饮食、心理状态等)尽量相同,但常常难于做到,故自身前后配对设计存在一定缺陷,不提倡单独使用。实际研究工作中,在应用自身前后配对的同时,常常需要设立一个平行的对照组。,配对设计主要有以下情形:,3.随机区组设计,随机区组设计(randomized block design)又称配伍组设计。,通常做法是将受试对象按性质(如动物的性别、体重,患者的性别、年龄、病情等非处理因素)相同或相近分为,b,个区组(或称配伍组),然后将每个区组中的,k,个受试对象随机分配到,k,个处理组。,可见,它实际上是配对设计的扩展,配对设计中每对是两个受试对象,而随机区组设计中每个区组是两个以上的受试对象。,图3.3为随机区组设计的示意图,k,个水平,k,个水平,k,个水平,随机分组,区组,b,纳入标准,排除标准,研究总体,按匹配条件,受试对象,随机分组,区组1,随机分组,区组2,判断资料(变量)类型,定量资料还是定性资料?或等级资料,定量资料的差异性检验方法小结,正态分布资料 t 检验、方差分析,非正态分布资料,资料是否服从正态分布?,设计类型?(成组、配对或随机区组),两组or多组?单侧or双侧?,转化,秩和检验,定量资料的分析,定性资料的差异性检验方法小结,n是否大于40?,最小理论频数是否大于5或大于1?,设计类型?(成组或配对),两组or多组?单侧or双侧?,是否单向有序列联表?,定性资料的分析,生存分析,(survival analysis),生存分析(survival analysis)是将研究对象的结局和随访时间两个因素同时结合的一种适用范围很广的统计分析方法,,生存分析中的几个基本概念,“死亡”事件 失败事件(failure event),生存时间(survival time):完全数据、截尾数据、,截尾,死亡概率(mortality probability),生存概率(survival probability),生存率,(survival rate),中位生存时间(median survival time),生存时间的两种类型,完全数据,(complete,data),:,指从,观察起点,到,发生死亡事件,所经历的时间,如表,15.1,中,2,和,6,号患者对应的生存天数,89,天和,85,天。,截尾数据,(censored,data),:,简称截尾值,(censored,value),,又称删失值或终检值。习惯上在生存时间右上标注,“”,表示。,生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾,(censored),。截尾的原因包括失访、退出和终止。,截尾数据,指从,观察起点,到,截尾,所经历的时间。,截尾的主要原因,失访,(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;,退出,:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;,终止,:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。,生存分析的基本方法,未分组资料的生存分析(,Kaplan-Meier 法),分组资料的生存分析(寿命表法),两样本生存率比较,两样本生存曲线比较对数秩检验(,log-rank test),
展开阅读全文