资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,定性资料统计推断医学统计学,常用的比例指标,绝对数:,资料整理后各组的例数,相对数:,两个绝对数之比中得到的一种数值,1.,率:,速率(,rate,):与时间有关,如某年某病发病率、死亡率。,比率(,proportion,):与时间无关,如某病治愈率。,2.,比:,构成比(,constituent ratio,):部分与全部之比,相对比(,relative ratio,):两指标之比,3.,动态数列:,定基比:各时间的指标分别与基数(某个时间的指标)作对比,环比:以相邻的后一个时间的指标与前一个时间的指标作对比,增长量:分为累积增长量、逐年增长量,常用的比例指标,如例中,表内4个实际频数变动的组合数共有5+1=6个,依次为:,构成比(constituent ratio):部分与全部之比,上述基本公式由现代统计学的创始人之一,英国人Karl Pearson(1857-1936)于1900年提出,因此软件上常称这种检验为Pearson 2检验(Chi-square test)。,H0 1 2 H1 1 2,配对四格表资料的2检验公式推导,实际频数(actual frequency,A),增长量:分为累积增长量、逐年增长量,多个样本的构成比比较,以及双向无序分类资料关联性检验时,有R行C列,称为R C表。,以 1查 2界值表,44)8(12.,1 +,在一次随机试验中,出现大的2值的概率P,附表c3(P562)百分率的置信区间,=2,2=5.,三、连续性校正(Continuity correction)公式,率的标准误与可信区间,率的标准误,率,标准误的计算,总体率的可信区间,1,、样本量足够大,总体率适中,(,满足,np,和,n(1-p),均大于,5,)时,样本率近似正态分布。其可信区间为,(,p-u,/2,S,p,p,+,u,/2,S,p,),总体率的可信区间,2,、样本量较小时,查表。,附表,c3,(,P562,)百分率的置信区间,例 某药物治疗,10,例患者,有,3,例出现不良事件,试估计不良事件发生率。,解:不良事件发生率的总体率的,95%,可信区间为,(,7%,,,65%,),练习:某药物治疗,200,例患者,有,130,例出现不良事件,试估计不良事件发生率。,2,检验,chi-square test,引例,将病情相近的乳腺癌患者随机分为两组,分别采用两种治疗方案,(,单纯手术治疗和手术及术后化疗联合治疗,),进行治疗,观察五年,其存活情况见表,1,,问两种疗法的存活率是否相同?,表,1,两种疗法治疗乳腺癌患者存活率比较,疗法,生存,死亡,合计,存活率,(%),联合治疗,39,8,47,83.0,单纯治疗,57,27,84,67.9,合 计,96,35,131,73.3,一、,2,检验的基本思想,表,1,两种疗法治疗乳腺癌患者存活率比较,疗法,生存,死亡,合计,存活率,(%),联合治疗,39,8,47,83.0,单纯治疗,57,27,84,67.9,合 计,96,35,131,73.3,四格表 (,fourfold table,,,22 table,),实际频数,(actual frequency,A),行合计,(row total,n,R,),列合计,(column total,n,C,),总例数,(n),一、,2,检验的基本思想,表,1,两种疗法治疗乳腺癌患者存活率比较,疗法,生存,死亡,合计,存活率,(%),联合治疗,39(,a,),8(,b,),47(,a,+,b,),83.0,单纯治疗,57(,c,),27(,d,),84(,c,+,d,),67.9,合 计,96(,a+c,.,),35,(,b+d,.,),131(,n,=,a,+,b,+,c,+,d,),73.3,一、,2,检验的基本思想,第一步:建立检验假设,H,0,:两总体存活率相等,即,1,=,2,;,H,1,:两总体存活率不等,即,1,2,。,疗法,生存,死亡,合计,存活率,(%),联合治疗,39,8,47,83.0,单纯治疗,57,27,84,67.9,合 计,96,35,131,73.3,表,1,两种疗法的乳腺癌患者按,H0,成立计算的理论频数,(Theoretical frequency),?,39(34.44)8(12.56),57(61.56)27(22.44),73.3,73.3,2,检验的基本公式,上述基本公式由,现代统计学的创始人之一,英国人,Karl,Pearson,(,1857-1936,)于,1900,年提出,因此软件上常称这种检验为,Pearson,2,检验,(Chi-square test),。,2,分布是一种连续型分布,按分布的密度函数可给出不同自由度的一簇分布曲线。,2,分布的形状依赖于自由度的大小;当自由度趋向于无穷大时,2,分布趋向正态分布。,2,分布,(,chi-square distribution,),2,分布,(,chi-square distribution,),0,2,4,6,8,10,0.0,0.1,0.2,0.3,2,分布规律(附表,c5.p569,),自由度一定时,,P,值越小,,2,值越大。,=1,时,,P=0.05,,,2,=3.84,P=0.01,,,2,=6.63,当,P,值一定时,自由度越大,,2,越大。,P=0.05,时,,=1,,,2,=3.84,=2,,,2,=5.99,当自由度取,1,时,,u,2,=,2,由于四格表资料为双边固定形式,即假设行合计与列合计均固定,所以四格表的自由度,=1,疗法,生存,死亡,合计,联合治疗,47,单纯治疗,84,合 计,96,35,131,表,1,两种疗法治疗乳腺癌患者存活情况,(行合计与列合计均固定),各种情形下,理论与实际偏离的总和即为卡方值(,chi-square value,),它服从自由度为,的卡方分布。,尚不能认为两种疗法的存活率是不相同的。,基本思想概括,若,H,0,成立,则四个格子的实际频数,A,与理论频数,T,之差异纯系抽样误差所致,,故一般不会很大,,2,值也就不会很大;在一次随机试验中,出现大的,2,值的概率,P,是很小的。,因此,若根据实际样本资料求得一个很小的,P,,且,P,(,检验水准,),,根据小概率原理,就有理由怀疑,H,0,的真实性,因而拒绝它;若,P,,则没有理由拒绝,H,0,检验步骤,建立假设与确定检验水准,H,0,1,2,H,1,1,2,0.05,计算,2,值,确定,P,值,(,行数,1,)(,列数,1,),(,2,1,)(,2,1,),1,以,1,查,2,界值表,判断结果,按,水准,将,P,与,比较,作出判断。,二、四格表专用公式,为了不计算理论频数,T,可由基本公式推导出,,直接由各格子的实际频数(,a,、,b,、,c,、,d,)计算卡方值的公式:,应用条件:,n,40,,所有,T,5,时,尚不能认为两种疗法的存活率是不相同的。,二、四格表专用公式,某医师研究洛赛克治疗消化性溃疡的疗效,以泰胃美作对照,其观察结果见表,3,。,表,3,两种药物治疗溃疡病的疗效,药物,例数,有效数,有效率(,%,),泰胃美,60,36,60.0,洛赛克,60,54,90.0,练习,药物,无效数,有效数,例数,泰胃美,24,36,60,洛赛克,合计,6,30,54,90,60,120,三、连续性校正,(,Continuity correction,),公式,当四格表资料理论频数较小时,需要对其进行校正,称为连续性校正,又称,Yates,校正(,Yates,correction,)。,当,n,40,,,1,T,5,时,用,连续性校正,公式。校正公式为,Trick:,Calculate the smallest T,then,If the smallest T5,no need of correction.,Otherwise,Continuity correction is needed.,出现某些格子中理论频数过小时怎么办?,一、2检验的基本思想,几种RC表的检验假设H0,当自由度趋向于无穷大时,2分布趋向正态分布。,上述基本公式由现代统计学的创始人之一,英国人Karl Pearson(1857-1936)于1900年提出,因此软件上常称这种检验为Pearson 2检验(Chi-square test)。,建立假设与确定检验水准,当自由度取1时,u2=2,H0:两总体存活率相等,即1=2;,4 -,当n40,1T5时,用连续性校正公式。,2检验只能反映其构成比有无差异,不能比较效应的平均水平。,44)8(12.,P=0.,两个样本的构成比比较时,有2行C列,称2C表;,RC表2检验的应用注意事项,1,T,5,,且,n,40,,应用连续性校正,2,检验,三、连续性校正公式,比较两种药物治疗绦虫病患者的有效率,结果见表,5,。,表,5,两种药物治疗绦虫病的有效率,药物,病例数,有效数,有效率(,%,),槟榔煎剂,27,22,81.48,阿的平,18,12,66.67,练习,建立假设与确定检验水准,4 -,05时,=1,2=3.,Calculate the smallest T,then,P=0.,n40 and all T5,no need of correction.,2分布规律(附表c5.,两个样本的构成比比较时,有2行C列,称2C表;,或有一个格子的理论频数小于1,则易犯第一类错误。,按 水准,将P 与 比较,作出判断。,05水准拒绝H0,比率(proportion):与时间无关,如某病治愈率。,当自由度取1时,u2=2,上述基本公式由现代统计学的创始人之一,英国人Karl Pearson(1857-1936)于1900年提出,因此软件上常称这种检验为Pearson 2检验(Chi-square test)。,05水准拒绝H0,Summary,Basic thinking of chi-square test,Chi-square test of 2 independent samples,n,40 and all,T,5,no need of correction.,n,40 but 1,T,5,continuity correction is needed.,n,40 or,T,1,or P,a,,,Fisher exact test should be used.,对于四格表资料的,2,检验,应特别注意资料的总例数,n,与理论数,T,的大小,1.,配对资料,甲医生 乙医生,1 +,2 +-,3 -+,4 -,四、配对四格表资料的,2,检验,表,1,配对四格表资料表格,甲种属性 乙种属性 合计,+-,+a b a+b,-c d c+d,合计,a+c b+d n,表 某抗癌新药两种剂量的毒理实验结果,甲剂量,乙剂量,合计,死亡,(+),生存,(-),死亡,(+),6,(,a,),12,(,b,),18,生存,(-),3,(,c,),18,(,d,),21,合计,9,30,39,配对四格表资料的,2,检验也称,McNemar,检验(,McNemars test,),H,0,:,b,,,c,来自同一个实验总体(两种剂量的死亡率无差异),H,1,:,b,,,c,来自不同的实验总体(两种剂量的,死亡率,有差别),=0.05,。,配对四格表资料格式,配对四格表资料的,2,检验公式推导,五、行,列(,R,C,)表资料的,2,检验,R,C,表的,2,检验通用公式,R,C,表的计算举例,4,、,2,=58.91,2,0.05,(6),=12.59,,所以,,P,0.05,5,、以,=0.05,水准拒绝,H,0,1,、,H,0,:,病变类型与年龄无关,H,1,:,病变类型与年龄有关,2,、,3,、,计算统计量卡方值,行,列表资料的 检验,多个样本率比较时,有,R,行,2,列,称为,R,2,表;,两个样本的构成比比较时,有,2,行,C,列,称,2,C,表;,多个样本的构成比比较,以及双向无序分类资料关联性检验时,有,R,行,C,列,称为,R,C,表。,几种,R,C,表的检验假设,H,0,检验统计量(通用公式),1.,多个样本率的比较,例 测得某地,5801,人的,ABO,血型和,MN,血型结果如下表,问两种血型系统之间是否有关联?,表 某地,5801,人的血型,3.,双向无序分类资料的关联性检验,R,C,表,2,检验的应用注意事项,1.,对,RC,表,若较多格子(,1/5,)的理论频数小于,5,或有一个格子的理论频数小于,1,,则易犯第一类错误。,出现某些格子中理论频数过小时怎么办?,(,1,)增大样本含量(最好!),(,2,)删去该格所在的行或列(丢失信息!),(,3,)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象),R,C,表,2,检验的应用注意事项,2.,多组比较时,若效应有强弱的等级,如,+,,,+,,,+,,最好采用后面的非参数检验方法。,2,检验只能反映其构成比有无差异,不能比较效应的平均水平。,3.,行列两种属性皆有序时,可考虑趋势检验或等级相关分析。,4.,多个率两两比较可采用卡方分割的方法,条件:,理论依据:,超几何分布,非 检验的范畴。,四格表资料的,Fisher,确切概率法,Fisher,精确检验的基本思想:,在四格表周边合计数固定不变的条件下,计算表内,4,个实际频数变动时的各种组合之概率 ;再按检验假设用单侧或双侧的累计概率 ,依据所取的检验水准 做出推断。,(,1),各组合概率,P,i,的计算,在四格表周边合计数不变的条件下,表内,4,个实际频数,a,b,c,d,变动的组合数共有“周边合计中最小数,+1”,个。如例中,表内,4,个实际频数变动的组合数共有,5+1=6,个,依次为:,各组合的概率,P,i,服从超几何分布,其和为,1,。,计算公式为,!为阶乘符号,3,6,(,1,)成组(四格表)资料的,2,检验,n,40,,,T,5,时,+,-,合计,甲,a,b,a+b,乙,c,d,c+d,合计,a+c,b+d,n=a+b+c+d,n,40,,,1,T5,时,n,40,或,T1,时,不能用,2,检验,(,2,)配对资料的,2,检验,配对设计资料陈述形式,甲,乙,+,-,+,a,b,-,c,d,差异性检验,(,3,)行,列表资料的,2,检验,行,列表,总样本量不能太小,至少,50,例;,理论数不能小于,1,;,理论数在,15,间的不能多于,1/5,的总格子数。,检验,SPSS,实习,若为频数表则首先:,Data-Weight Cases-Weight cases by-,-,调频数,f,进入,Frequency variable-Ok,然后:,Analyze-Descriptive Statistics-Crosstabs-,-,输入行、列,statistics-Chi-square-continue-Ok,
展开阅读全文