1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第九章 分类变量的检验,目录,第一节 检验的基本思想,第二节 率的比较,第三节 独立性检验,第四节 拟合优度检验,第五节 确切概率法,01,02,03,04,05,重点难点,独立样本列联表资料的 检验,配对设计资料的 检验,四格表的,Fisher,确切概率法,第一节 检验的基本思想,1.,检验的基本思想,(一)统计量,第一节 检验的基本思想,例,1,为比较不同大骨节病区的大骨节病检出情况,分别随机抽取河水饮用区,377,人,泉水饮用区,301,人,采用,X,光拍片进行大骨节病诊断。结果见表,9-1,。现
2、检验两个病区的大骨节病检出率是否不同?,不同病区的大骨节病检出情况,地区,检出,未检出,合计,检出率,(%),河水饮用区,75,302,377,19.89,泉水饮用区,99,202,301,32.89,合计,174,504,678,25.66,其中,,A,ij,(,i,j,=1,2)为实际频数,,T,ij,(i,j=,1,2,),为理论频数,第一节 检验的基本思想,独立样本数据22交叉表,组别,属性,合计,属性,1,属性,2,甲,A,11,(,T,11,),A,12,(,T,12,),n,R1,乙,A,21,(,T,21,),A,22,(,T,22,),n,R1,合计,n,C1,n,C1,n,
3、第一节 检验的基本思想,2.,理论频数,四格表中所有格子,A,ij,的,T,ij,和之间的差异,可用式,(9-1),计算的统计量来衡量:,可以证明,成立时,统计量 服从自由度为 的分布。自由度的计算公式为:,。上面公式可简化为:,1.,分布,分布是一种连续型随机变量的概率分布,自由度 是其唯一参数,,,记为 。,4种自由度 分布的概率密度曲线,(二)分布的性质,第一节 检验的基本思想,2.,分布的性质,(,1,),分布也可看作一种特殊的抽样分布。,(2),分布是一簇连续光滑曲线,不同自由度,的,曲线形状各有不同。各种自由度取值下 分布右侧尾部面积(概率)为 时的临界值记为 ,列于 界值表。当
4、1时,,。,第一节 检验的基本思想,(,3,),分布的期望值(均值)为自由度 ,方差为 。随着自由度 的增大,分布将随均值的增大向数轴右侧延伸,而分布曲线也将随方差 的增大越趋低阔。,(,4,)检验的基本思想实质是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较,。,第一节 检验的基本思想,第二节 率的比较,结合例1,四格表 检验基本步骤为:,(,1,)建立检验假设,确定检验水准,,即河水饮用区和泉水饮用区大骨节病的总体检出率相同,,即河水 饮用区和泉水饮用区大骨节病的总体检出率不同,=0.05,(一)2,2交叉表数据的 检验,第二节 率的比较,(,2,),检验统计
5、量的选择与计算,(,3,),确定,P,值,作出统计推断,=,3.84,。本例 =14.823.84,即,P,0.05。在=0.05水平上拒绝 ,接受 。可以认为两个病区大骨节病的检出率之间差别具有统计学意义,且泉水饮用区的检出率较高,。,第二节 率的比较,第二节 率的比较,检验适用条件:,(,1,)若,n,40,,且任意一个格子的理论频数,T,ij,5,,可直接使用 检验公式。,(,2,)若,n,40,,但出现1个格子的理论频数,1,T,ij,5时,,则需对值按以下公式进行连续性校正。,(,3,)若,n,40,或者任意一个格子的理论频数,T,ij,0.05,,在,=0.05,水平上不拒绝 ,尚
6、不能认为大骨节病区男女膳食结构不同。,2.,多个率的比较,例,3,为研究NOC(N-亚硝基化合物)和DON(脱氧雪腐镰刀菌烯醇)对小鼠肝脏的致病作用,将94只小鼠随机分配到NOC组、DON组和(NOC+DON)组,染毒剂量分别为:NOC:0.25mg/kg;DON:0.5mg/kg;NOC:0.25mg/kg+DON:0.5mg/kg,60天后观察小鼠肝脏出现大片脂肪变性的数量,整理结果如表所示。现比较3种处理对小鼠肝脏的影响。,第二节 率的比较,组别,病变,非病变,合计,病变率,(%),DON,组,7,24,31,22.58,NOC,组,9,22,31,29.03,(NOC+DON),组,2
7、1,11,32,65.63,合计,37,57,94,39.36,3种处理致小鼠肝脏组织大片脂肪变性的比较,第二节 率的比较,(,1,)建立检验假设,确定检验水准,三组脂肪变性的总体发生率相同,三组脂肪变性的总体发生率不全相同,=0.05,(,2,)检验统计量的选择与计算,(,3,)确定,P,值,作出统计推断,自由度,=(3-1)(2-1)=2,,,=5.99,,,=14.29,,则,P,0.05,,在,=0.05,水 平上拒绝 ,接受 ,可以认为三组脂肪变性的发生率不全相同。,第二节 率的比较,3.分割,多个率或多个频率分布比较的 检验,当结论为拒绝 时,仅表示多组之间是有差别的。若需明确究竟
8、是哪两组之间存在差别,可做率的多重比较,将,RC,表分割为若干个小的四格表进行检验。但在具体分割过程中,需根据比较的次数合理地修正检验水准,否则将人为地增大犯第类错误的概率。,如:原有检验水准,=0.05,,若进行组数,k,为,3,的两两比较,需比较,=3,次,故调整后的水准,=0.05/3=0.0167,;若设置一个共用对照进行,3,组比较,则只需,(k1)=2,次,调整后的水准,=0.05/2=0.025,。,第二节 率的比较,现将例,3,中的DON组设置为共用对照,以下表为例介绍 分割的过程。结果如下:,1.,NOC组和DON,组比较,DON组和NOC组致小鼠肝脏组织组织大片脂肪变性比较
9、第二节 率的比较,(,1,)建立检验假设,确定检验水准,,即DON组和NOC组肝脏脂肪变性发生率相同,,即DON组和NOC组肝脏脂肪变性发生率不同,=0.025,(,2,)检验统计量的选择与计算,(,3,)确定,P,值,作出统计推断,自由度,=(2-1)(2-1)=1,,,=5.02,,,可知 =0.340.025,,在,=0.025,水平上不拒绝 ,尚不能认为,DON,组和,NOC,组脂肪变性的检出率不同。,第二节 率的比较,2,.,(NOC+DON)组与DON组进行比较,DON组和(NOC+DON)组致小鼠肝脏组织组织大片脂肪变性比较,第二节 率的比较,(1)建立检验假设,确定检验水准,
10、即DON组和(NOC+DON)组肝脏脂肪变性发生率相同,,即DON组和(NOC+DON)组肝脏脂肪变性发生率不同,=0.025,(2)检验统计量的选择与计算,(3)确定,P,值,作出统计推断,自由度,=(2-1)(2-1)=1,,,=5.02,,,可知 =11.825.02,,则,P,40,,按式,(9-6),求出,(,3,)确定,P,值,作出统计推断,自由度,=1,,查 界值表,,=3.84,,,=53.84,,则,P,0.05,。在,=0.05,水平上,拒绝 ,接受 ,认为两种检测方法的阳性率有差别,且间接法阳性率高于夹心法阳性率。,第二节 率的比较,2.,配对,RR,交叉表数据的检验,
11、实际工作中,不少分类变量都具有,R(R2),个可能的,“,取值,”,,则构成更泛化的配对,RR,交叉表。这类研究通常需解决的问题为,两个样本分布所对应的总体概率分布是否相同,即类似于配对四格表 检验的基本原理,对配对设计下两总体分布进行推断,应采用的检验统计量为:,成立时上式中的统计量T服从自由度为,k-1,的 分布,第三节 独立性检验,例5,为分析肥胖与糖尿病是否有关,随机调查某社区678名居民,询问其病史,并对其进行体检,收集糖尿病及肥胖情况,结果整理如下表。现分析肥胖与患糖尿病之间是否存在关联性。,(一),22,交叉表的独立性检验,第三节 独立性检验,肥胖与糖尿病检出情况的分布,(,1,
12、建立检验假设,,,确定检验水准,患糖尿病与是否肥胖之间互相独立,患糖尿病与是否肥胖之间存在关联,=0.05,(,2,),检验统计量,的选择与计算,,,(,3,),确定,P,值,,,作出,统计,推断,,,P,0.05,,拒绝 ,接受 ,认为肥胖与糖尿病患病之间存在关联。,第三节 独立性检验,(,4,),关联系数的计算,本例的关联系数为,:,分类变量的关联性分析与率(或构成比)的差异性分析这两大类着本质的区别。前者主要针对同一随机样本的两个不同属性变量所形成的交叉表,侧重于推断两个不同属性变量之间存在关联性与否;而后者主要针对两个或多个独立随机样本所形成的交叉表,侧重于推断其分别所代表的总体率
13、或构成比)之间是否存在差异性。,第三节 独立性检验,例,6,某医院甲乙两位检验师对同一批血液标本的病毒抗原进行检测,检测结果整理如表。两位检验师的检测结果是否存在关联?,(二),22,配对数据的独立性检验,第三节 独立性检验,(,1,),建立检验假设,确定检验水准,两位检测师的结果之间互相独立,两位检测师的结果之间互相关联,=0.05,(,2,),检验统计量,的选择与计算,(,3,),确定,P,值,作出,统计,推断,P,0.05,,拒绝 ,接受 。认为两种检测方法之间存在关联性。,(,4,),计算列联系数,第三节 独立性检验,示例数据见例,3,,现比较不同毒害作用与小鼠肝脏脂肪变性的关联性,
14、1,)建立检验假设,确定检验水准,NOC,与,DOC,的作用与肝脏脂肪变性无关,NOC与DOC,的作用与肝脏脂肪变性有关,=0.05,(,2,)检验统计量的选择与计算,,,(三),R,C交叉表的独立性检验,第三节 独立性检验,(,3,)确定,P,值,作出统计推断,,,P,0.05,。在,=0.05,水平上不拒绝 ,则该样本的总体分布服从均数为,60.69,,标准差,为12.49,的正态分布。,某医院,199,名恶性肿瘤患者年龄频率分布,第四节 拟合优度检验,注意,:,拟合优度检验要求足够的样本含量。若样本含量不够大(如:频数表有,1/5,以下组的理论频数,1T5),,可以通过连续性校正
15、的检验公式进行统计量的估算。若样本量仍然很小,可人为进行适当的合并。,第四节 拟合优度检验,第五节 确切概率法,1.Fisher,确切概率法基本思想,保持周边合计数不变,计算交叉表中各个实际频数变动的所有可能组合所对应的概率,再将获得现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累计概率进行推断。,2.当22交叉表出现以下情况之一时,需采用Fisher确切概率法,(,1,),样本含量,n,40,。,(,2,),有一个格子的理论频数 T1,。,(,3,),检验后所得概率,P,接近检验水准,。,(一),22,交叉表的确切概率法,第五节 确切概率法,例,8,陕西省为地方性氟中毒病区
16、之一,为了解陕西省病区内不同区县儿童氟斑牙发病率是否存在差异,分别抽取镇巴县(以下简称,A,县)和紫阳县(以下简称,B,县),8,12 岁儿童17 和 14 名,,并进行儿童牙齿的检查,检查结果如下。现比较两,县8,12岁儿,童氟斑牙检出率是否存在差异。,本例,n,=3140,不宜采用第 2 节的独立样本率检验,故采用 22 交叉表的Fisher确切概率法。,第五节 确切概率法,(,1,)建立检验假设,确定检验水准,,即镇巴县和紫阳县儿童氟斑牙的检出率相同,,即镇巴县和紫阳县儿童氟斑牙的检出率不同,=0.05,(,2,)计算所有可能组合的概率,P,i,本例中,周边合计最小值为 6,则在四格表边
17、缘合计固定不变的条件下,4 格表内实际频数变动的组合数 i=6+1=7,。,第五节 确切概率法,第五节 确切概率法,(,3,)将现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累计概率,做出推断。,本示例的目的在于比较两县儿童氟斑牙检出率是否相同,故可选择双侧检验。将表,中,P,A,-,P,B,0.1681,共 5 个四格表的概率,P,值相加:,P,=,P,1,+,P,2,+,P,3,+,P,6,+,P,7,=0.3697,获得累计概率,P,=0.36970.05。故在=0.05,的水平上不拒绝 ,尚不能认为两县儿童氟斑牙的检出率不同。,第五节 确切概率法,多个样本率或多个频率
18、的分布比较 检验中,一般要求其理论频数不能过小,不能有,1/5,以上格子的理论频数,1,T,5,,也不允许有一个格子的理论频数,T,1,,否则结果容易产生偏性。如果实际工作中,确实避免不了上述情况,则可增大样本量,以达到 检验的应用条件;亦可,采用 Fisher 确切,概率法,但手工计算量巨大且繁琐,一般通过软件计算实现。,(二),R,C交叉表的确切概率法,第五节 确切概率法,小结,1.,检验是一种用途广泛的假设检验方法。,2.,分布是描述连续型变量的一种较为特殊的概率分布。一般地,检验的基本条件为:,n 40,且任一格子的理论频数,T,5,;若该条件不满足,则需考虑进行连续性校正或采用另外的
19、检验方法。,3.,检验的本质在于衡量实际频数,A,和理论频数,T,之间,的吻合程度。,A,与,T,的,吻合程度越高,值越小,越有理由不拒绝 ;反之,,A,与,T,的吻合程度越低,值越大,越有理由拒绝 。,小结,4,.,统计量的常用计算公式有:,检验基本公式,:,配对四格表基本公式,:,配对四格表连续性校正公式:,自由度计算公式:,,,其中四格表的 。,5.,对于多个率或构成比比较的 交叉表 检验,当其结论为拒绝 时,仅表示多组之间至少有两组的总体率或频率分布不同,但并不意味着任意两组之间均有差别。若需明确究竟是哪两组之间存在差别,可做率的多重比较,即进行分割。,小结,6 交叉表一般可以分为以下
20、三类:,双向无序:即交叉表横、纵标目均为无序的分类变量,可直接使用 检验对总体率或构成比进行分析。,单项有序:一种见于组别分类有序而观察指标无序的列联表,如不同年龄段某种疾病发病率比较、不同试剂浓度下某种化学反应类型的构成情况比较等,此时可直接采用 交叉表 检验。另一种见于组别分类无序而观察指标有序的交叉表,如不同治疗方式对某种疾病治疗效果的比较。此时应采用非参数检验比较不同治疗方式的疗效差异。,双向有序:分为双向有序属性相同的交叉表与双向有序属性不同的交叉表两种。此时,需根据变量属性与研究目的,选择以下几种方法处理:检验、基于秩次的非参数检验、Spearman等级相关、Kappa一致性检验、
21、趋势性检验等。,6,交叉表一般可以分为以下三类:,(,1,)双向无序:即交叉表横、纵标目均为无序的分类变量,可直接使用 检验对总体率或构成比进行分析。,(,2,)单项有序:一种见于组别分类有序而观察指标无序的列联表,此时可直接采用 交叉表 检验。另一种见于组别分类无序而观察指标有序的交叉表,此时应采用非参数检验比较不同治疗方式的疗效差异。,(,3,)双向有序:分为双向有序属性相同的交叉表与双向有序属性不同的交叉表两种。此时,需根据变量属性与研究目的,选择以下几种方法处理:检验、基于秩次的非参数检验、,Spearman,等级相关、,Kappa,一致性检验、趋势性检验等。,资料可以编辑修改使用,学习愉快!,课件仅供参考哦,,实际情况要实际分析哈!,感谢您的观看,






