1、 目的目的:推断两个推断两个总总体率或构成比之体率或构成比之间间有无差有无差别别 多个多个总总体率或构成比之体率或构成比之间间有无差有无差别别 多个多个样样本率的多重比本率的多重比较较 两个分两个分类变类变量之量之间间有无关有无关联联性性 频频数分布数分布拟拟合合优优度的度的检验检验。检验统计检验统计量量:应应用用:计计数数资资料料1.第一第一节节 四格表四格表资资料的料的 检验检验2.目的:目的:推断两个推断两个总总体率(构成比)是体率(构成比)是 否有差否有差别别 (和(和u u检验检验等价)等价)要求:要求:两两样样本的两分本的两分类类个体数排列成四个体数排列成四 格表格表资资料料3.(
2、1)分布是一种分布是一种连续连续型分布:按分布的密度函数可型分布:按分布的密度函数可给给出出自由度自由度=1,2,3,的一簇分布曲的一簇分布曲线线(图图7-1)。)。(2)分布的一个基本性分布的一个基本性质质是可加性:是可加性:如果两个独立的如果两个独立的随机随机变变量量X1和和X2分分别别服从自由度服从自由度1和和2的分布,即的分布,即 ,那么它,那么它们们的和(的和(X1+X2)服从自由度()服从自由度(1+2)的)的 分布,分布,即即 。一、一、检验检验的基本思想的基本思想 1 分布分布4.5.2 检验检验的基本思想的基本思想例例7-1 某某院院欲欲比比较较异异梨梨醇醇口口服服液液(试试
3、验验组组)和和氢氢氯氯噻噻嗪嗪+地地塞塞米米松松(对对照照组组)降降低低颅颅内内压压的的疗疗效效。将将200例例颅颅内内压压增增高高症症患患者者随随机机分分为为两两组组,结结果果见见表表7-1。问问两两组组降降低低颅颅内内压压的的总总体体有有效效率率有有无无差差别别?6.表表7-1 两两组组降低降低颅颅内内压压有效率的比有效率的比较较 7.本例本例资资料料经经整理成整理成图图7-2形式,即有两形式,即有两个个处处理理组组,每个,每个处处理理组组的例数由的例数由发发生数和生数和未未发发生数两部分生数两部分组组成。表内有成。表内有 四四个基本数据,其余数据均由此四个数据推个基本数据,其余数据均由此
4、四个数据推算出来的,故称四格表算出来的,故称四格表资资料。料。8.图图7-2 四格表四格表资资料的基本形式料的基本形式9.基本思想:可通基本思想:可通过过 检验检验的基本公的基本公式来理解。式来理解。式中,式中,A为实际频为实际频数(数(actual frequency),),T为为理理论频论频数(数(theoretical frequency)。)。10.理理论频论频数由下式求得:数由下式求得:式中,式中,TRC 为为第第R 行行C 列的理列的理论频论频数数 nR 为为相相应应的行合的行合计计 nC 为为相相应应的列合的列合计计11.理理论频论频数数 是根据是根据检验设检验设 ,且用合,且用
5、合 并率来估并率来估计计 而定的。而定的。如上例,无效假如上例,无效假设设是是试验组试验组与与对对照照组组降低降低颅颅内内压压的的总总体有效率相等,均等于合体有效率相等,均等于合计计的有效率的有效率87%。那么。那么理理论论上,上,试验组试验组的的104例例颅颅内内压压增高症患者中有效增高症患者中有效者者应为应为104(174/200)=90.48,无效者,无效者为为104(26/200)=13.52;同理,;同理,对对照照组组的的96例例颅颅内内压压增增高症患者中有效者高症患者中有效者应为应为96(174/200)=83.52,无效者,无效者为为96(26/200)=12.48。12.检检验
6、验统统计计量量 值值反反映映了了实实际际频频数数与与理理论频论频数的吻合程度。数的吻合程度。若若检检验验假假设设H0:1=2成成立立,四四个个格格子子的的实实际际频频数数A 与与理理论论频频数数T 相相差差不不应应该该很很大大,即即统统计计量量 不不应应该该很很大大。如如果果 值值很很大大,即即相相对对应应的的P 值值很很小小,若若 ,则则反反过过来来推推断断A与与T相相差差太太大大,超超出出了了抽抽样样误误差差允允许许的的范范围围,从从而而怀怀疑疑H0的的正正确确性性,继继而拒而拒绝绝H0,接受其,接受其对对立假立假设设H1,即,即12。13.由公式(由公式(7-1)还还可以看出:可以看出:
7、值值的大小的大小还还取决于取决于 个数的多少(个数的多少(严严格地格地说说是自由度是自由度的大小)。由于各的大小)。由于各 皆皆是是正正值值,故故自自由由度度愈愈大大,值值也也会会愈愈大大;所所以以只只有有考考虑虑了了自自由由度度的的影影响响,值值才才能能正正确确地地反反映映实实际际频频数数A和和理理论论频频数数T 的吻合程度。的吻合程度。检检验验的的自自由由度度取取决决于于可可以以自自由由取取值值的的格格子子数数目目,而而不不是是样样本本含含量量n n。四四格格表表资资料料只只有有两两行行两两列列,=1=1,即即在在周周边边合合计计数数固固定定的的情情况况下下,4 4个个基基本本数数据据当当
8、中中只只有有一一个个可可以以自自由由取取值值。14.(1)建立建立检验检验假假设设,确定,确定检验检验水平。水平。H0:1=2 即即试验组试验组与与对对照照组组降低降低颅颅内内压压的的总总体有效率相等体有效率相等H1:12 即即试验组试验组与与对对照照组组降低降低颅颅内内压压的的总总体有效率不相等体有效率不相等=0.05。3.假假设检验设检验步步骤骤15.(2)求)求检验统计检验统计量量值值16.17.二、四格表二、四格表资资料料检验检验的的专专用公式用公式18.三、四格表三、四格表资资料料检验检验的校正公式的校正公式 19.分分布布是是一一连连续续型型分分布布,而而四四格格表表资资料料属属离
9、离散散型型分分布布,由由此此计计算算得得的的 统统计计量量的的抽抽样样分分布布亦亦呈呈离离散散性性质质。为为改改善善 统统计计量量分分布布的的连连续续性性,则则需需行行连续连续性校正。性校正。20.四格表资料 检验公式选择条件:,专用公式;,校正公式;,直接计算概率。连续连续性校正性校正仅仅用于用于 的四格表的四格表资资料,当料,当 时时,一般不作校正。一般不作校正。21.例例7-2 某某医医师师欲欲比比较较胞胞磷磷胆胆碱碱与与神神经经节节苷苷酯酯治治疗疗脑脑血血管管疾疾病病的的疗疗效效,将将78例例脑脑血血管管疾疾病病患患者者随随机机分分为为两两组组,结结果果见见表表7-2。问问两两种种药药
10、物物治治疗疗脑脑血血管管疾病的有效率是否相等?疾病的有效率是否相等?22.表表7-2 两种两种药药物治物治疗脑疗脑血管疾病有效率的比血管疾病有效率的比较较23.本例,故用四格表资料检验的校正公式,查界值表得。按 检验水准不拒绝,尚不能认为两种药物治疗脑血管疾病的有效率不等。24.本本资资料若不校正料若不校正时时,结论结论与之相反。与之相反。25.第二第二节节配配对对四格表四格表资资料的料的 检验检验26.与与计计量量资资料推断两料推断两总总体均数是否体均数是否有差有差别别有成有成组设计组设计和配和配对设计对设计一一样样,计计数数资资料推断两个料推断两个总总体率(构成比)体率(构成比)是否有差是
11、否有差别别也有成也有成组设计组设计和配和配对设计对设计,即即四格表四格表资资料料和和配配对对四格表四格表资资料料。27.例例7-3 某某实实验验室室分分别别用用乳乳胶胶凝凝集集法法和和免免疫疫荧荧光光法法对对58名名可可疑疑系系统统红红斑斑狼狼疮疮患患者者血血清清中中抗抗核核抗抗体体进进行行测测定定,结结果果见见表表7-3。问问两两种种方方法法的的检检测测结结果果有无差有无差别别?28.表表7-3 两种方法的两种方法的检测结检测结果果 29.上述配上述配对设计实验对设计实验中,就每个中,就每个对对子而子而言,两种言,两种处处理的理的结结果不外乎有果不外乎有四种可能四种可能:两种两种检测检测方法
12、皆方法皆为为阳性数阳性数(a);两种两种检测检测方法皆方法皆为为阴性数阴性数(d);免疫免疫荧荧光法光法为为阳性,乳胶凝集法阳性,乳胶凝集法为为 阴性数阴性数(b);乳胶凝集法乳胶凝集法为为阳性,免疫阳性,免疫荧荧光法光法为为 阴性数阴性数(c)。30.其中,其中,a,d 为为两法两法观观察察结结果一致的两种情况,果一致的两种情况,b,c为为两法两法观观察察结结果不一致的两种情况果不一致的两种情况。检验统计检验统计量量为为b+c40b+c4031.注意:注意:本本法法一一般般用用于于样样本本含含量量不不太太大大的的资资料料。因因为为它它仅仅考考虑虑了了两两法法结结果果不不一一致致的的两两种种情
13、情况况(b,c),而而未未考考虑虑样样本本含含量量n和和两两法法结结果果一一致致的的两两种种情情况况(a,d)。所所以以,当当n很很大大且且a与与d的的数数值值很很大大(即即两两法法的的一一致致率率较较高高),b与与c的的数数值值相相对对较较小小时时,即即便便是是检检验验结结果果有有统统计计学学意意义义,其其实实际际意意义义往往也不大。往往也不大。32.检验检验步步骤骤:33.第三第三节节四格表四格表资资料的料的Fisher确切概率法确切概率法 34.条件:条件:理理论论依据:依据:超几何分布,非超几何分布,非 检验检验 的范畴。的范畴。35.例例7-4 某医某医师为师为研究乙肝免疫球蛋研究乙
14、肝免疫球蛋白白预预防胎儿防胎儿宫宫内感染内感染HBV的效果,将的效果,将33例例HBsAg阳性孕阳性孕妇妇随机分随机分为预为预防注射防注射组组和非和非预预防防组组,结结果果见见表表7-4。问问两两组组新生新生儿的儿的HBV总总体感染率有无差体感染率有无差别别?36.表7-4两组新生儿HBV感染率的比较37.一、基本思想在四格表周在四格表周边边合合计计数固定不数固定不变变的条的条件下,件下,计计算表内算表内4个个实际频实际频数数变动时变动时的的各种各种组组合之概率合之概率 ;再按;再按检验检验假假设设用用单侧单侧或双或双侧侧的累的累计计概率概率 ,依据所取,依据所取的的检验检验水准水准 做出推断
15、。做出推断。38.1各组合概率Pi的计算在四格表周边合计数不变的条件下,表内4个实际频数a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有9+1=10个,依次为:39.各组合的概率Pi服从超几何分布,其和为1。计算公式为!为阶乘符号 40.2累累计计概率的概率的计计算算(单单、双、双侧侧检验检验不同不同)41.42.43.二、二、检验检验步步骤骤()44.45.表7-5例7-4的Fisher确切概率法计算表46.例7-5某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见表
16、7-6。问胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别?47.表表7-6 胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比基因表达阳性率的比较较 48.本例a+b+c+d=10,由表7-7可看出,四格表内各种组合以i=4和i=5的组合为中心呈对称分布。表7-7例7-5的Fisher确切概率法计算表*为现有样本49.(1)计算现有样本的D*和P*及各组合下四格表的Di。本例D*=50,P*=0.02708978。(2)计算满足Di50条件的各组合下四格表的概率Pi。(3)计算同时满足Di50和PiP*条件的四格表的累计概率。本例为P7和P8,(4)计算双侧累计概率P。P0.05,
17、按=0.05检验水准不拒绝H0,尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等。50.注意:注意:51.第四第四节节行列表资料的 检验 52.行行列表列表资资料料多个样本率比较时,有R行2列,称为R2表;两个样本的构成比比较时,有2行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为RC表。53.检验统计检验统计量量54.一、多个一、多个样样本率的比本率的比较较55.例7-6某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三种疗法的有效率有无差别?表7-8三种疗法有效率的比较56.检验步骤:57.二、样本构成
18、比的比较58.例7-7某医师在研究血管紧张素I转化酶(ACE)基因I/D多态与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组2型糖尿病患者的ACE基因型总体分布有无差别?表7-9DN组与无DN组2型糖尿病患者ACE基因型分布的比较59.检验检验步步骤骤60.三、双向无序分类资料的关联性检验表中两个分类变量皆为无序分类变量的行列表资料,又称为双向无序表资料。61.注意:双向无序分类资料为两个或多个样本,做差别检验;若为单样本,做关联性检验。62.例7-8测得某地5801人的ABO血型和MN血型结果如表7-10,问两种血型系统之间是否有关联
19、?表7-10某地5801人的血型63.表7-10资料,可用行列表资料检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数C进一步分析关系的密切程度:列联系数C取值范围在01之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。64.检验步骤65.由于列联系数C=0.1883,数值较小,故认为两种血型系统间虽然有关联性,但关系不太密切。66.四、行列表资料检验的注意事项67.1行列表中的各格T1,并且1T5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研
20、究无法增大样本含量,如同一批号试剂已用完等。68.根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。注意注意:不同年龄组可以合并,但不同血型就不能合并。改用双向无序RC表的Fisher确切概率法(可用SAS软件实现)。69.70.71.第五节多个样本率间的多重比较72.73.一、基本思想因分析目的不同,k个样本率两两比较的次数不同,故重新规定的检验水准的估计方法亦不同。通常有两种情况:74.75.76.77.二、多个实验组间的两两比较78.例7-9对例7-6中表7-8的资料进行两两比较,以推断是否任两种疗法治疗周围性
21、面神经麻痹的有效率均有差别?79.检验步骤本例为3个实验组间的两两比较80.表7-12三种疗法有效率的两两比较81.82.三、各实验组与同一个对照组的比较83.例7-10以表7-8资料中的药物治疗组为对照组,物理疗法组与外用膏药组为试验组,试分析两试验组与对照组的总体有效率有无差别?本例为各实验组与同一对照组的比较84.85.第七节频数分布拟合优度的检验86.医学研究实践中,常需推断某现象频数分布是否符合某一理论分布。如正态性检验就是推断某资料是否符合正态分布的一种检验方法,但只适用于正态分布。Pearson值能反映实际频数和理论频数的吻合程度,故检验可用于推断频数分布的拟合优度,且应用广泛。如正态分布,二项分布,Poisson分布,负二项分布等。87.例7-12观察某克山病区克山病患者的空间分布情况,调查者将该地区划分为279个取样单位,统计各取样单位历年累计病例数,资料见表7-15的第(1)、(2)栏,问此资料是否服从Poisson分布?88.表7-15Poisson分布的拟合与检验*:X8的概率:89.90.91.