资源描述
1主要内容主要内容第一节第一节 分类变量资料的分类变量资料的统计描述统计描述(复习复习)第二节第二节 分类变量资料的分类变量资料的统计推断统计推断(复习复习)第三节第三节 卡方检验卡方检验(Chi-square test)2第一节第一节 分类变量资料的分类变量资料的统计描述统计描述1.常用相对数常用相对数2.应用相对数时的注意事项应用相对数时的注意事项3什么是分类变量资料?什么是分类变量资料?清点分类资料得数据清点分类资料得数据清点分类资料得数据清点分类资料得数据用什么指标进行描述?用什么指标进行描述?甲、乙两地发生麻疹流行,甲地患儿100人,乙地患儿50人,何地较为严重?若甲地易感儿童667人,而乙地易感儿童250人。甲地麻疹发病率为 100/667100%=15%乙地麻疹发病率为 50/250100%=20%用相对数能较好地反映分类变量资料的特征。用相对数能较好地反映分类变量资料的特征。用相对数能较好地反映分类变量资料的特征。用相对数能较好地反映分类变量资料的特征。41.常用相对数常用相对数相对数相对数:是两个有关联的数值或指标之比。:是两个有关联的数值或指标之比。常用的相对数有:常用的相对数有:率率构成比构成比相对比相对比5(1)率率(rate)率率:是是指指在在一一定定观观察察时时间间内内,某某现现象象实实际际发发生生数数与与可可能能发发生生该该现现象象的的总总数数之之比比,用用以以说说明明某某现现象象发发生生的频率或强度。的频率或强度。K为为比比例例基基数数,如如100%、1000等等。比比例例基基数数的的选选择择主主要要依依习惯而定或使计算结果能保留习惯而定或使计算结果能保留12位整数。位整数。6例例 某研究组在某研究组在北方城镇北方城镇调查了调查了1450人,其中人,其中976人经常人经常吸烟(日平均吸烟(日平均1支以上),在支以上),在南方城镇南方城镇调查了调查了1806人人,有有1052人经常吸烟人经常吸烟,试计算南北方城镇试计算南北方城镇25岁以上男性居岁以上男性居民的吸烟率。民的吸烟率。城镇男性吸烟率城镇男性吸烟率:北方北方 976/1450100%=67.31%,南方南方 1052/1806100%=58.25%。南北方合计南北方合计:(67.31%+58.25%)/2=62.78%(976+1052)/(1450+1806)100%=62.28%7(2)构成比构成比(constituent ratio)构构成成比比:是是指指事事物物内内部部某某一一部部分分的的观观察察单单位位数数与与事事物物内内部部各各组组成成部部分分的的观观察察单单位位数数总总和和之之比比,用用以以说说明事物内部各部分所占的比重或分布。明事物内部各部分所占的比重或分布。常用百分数表示,故又称百分比。常用百分数表示,故又称百分比。8各部分构成比之和为各部分构成比之和为100%100%。此消彼长。此消彼长。构成比的两个特点:构成比的两个特点:9例例10-1 2001年年对对某某地地中中小小学学学学生生进进行行HbsAg检检查查,结结果果见见表表10-1,试试计计算算各各级级学学生生HbsAg检检出出率率及及阳阳性者构成比性者构成比 率和构成比不是同一指标,在应用时应注意加以区分。率和构成比不是同一指标,在应用时应注意加以区分。10类类 型型例数例数死亡例数死亡例数病死率病死率(%)构成比构成比(%)肺炎胸膜炎型肺炎胸膜炎型 75 1216.0 42.9中毒败血型中毒败血型 36 7 19.4 25.0中毒休克型中毒休克型 14 964.3 32.1合合 计计1352820.7 100.0三种类型疾病病死率和构成比三种类型疾病病死率和构成比什么类型疾病病死危险大什么类型疾病病死危险大?11(3)相对比相对比相相对对比比:指指两两个个有有关关指指标标之之比比,说说明明两两个个指指标标的的比比例关系。例关系。两个指标可以是绝对数、相对数、平均数,可以是性质相同两个指标可以是绝对数、相对数、平均数,可以是性质相同或性质不同,但两个指标互不包含。或性质不同,但两个指标互不包含。12例例10-2 某某地地2003-2005年年不不同同性性别别新新生生儿儿数数见见表表10-2,试计算该地不同年份新生儿性别比。,试计算该地不同年份新生儿性别比。132.应用相对数的注意事项应用相对数的注意事项1.计算相对数时分母不宜过小计算相对数时分母不宜过小 2.正确区分构成比和率,不能以构成比代替率正确区分构成比和率,不能以构成比代替率 3.正确计算平均率正确计算平均率4.对对率率和和构构成成比比进进行行比比较较时时,应应注注意意资资料料的的可可比比性性(除研究因素外,其余重要因素应相同或相近除研究因素外,其余重要因素应相同或相近)样本率或构成比进行比较时要作假设检验样本率或构成比进行比较时要作假设检验 14在在进进行行率率或或构构成成比比比比较较时时,除除了了要要比比较较的的因因素素外外,其其他他影影响响的因素应基本一致的因素应基本一致。例例如如,分分析析比比较较两两医医院院病病死死率率的的时时,应应注注意意两两个个医医院院的的条条件件应应基基本本相相同同,如如果果上上级级医医院院的的病病死死率率高高于于基基层层医医院院的的病病死死率率,并并不不能能说说明明上上级级医医院院医医疗疗水水平平不不如如基基层层医医院院,这这是是因因为为许许多多疑难病人均由基层医院转入上级医院所致。疑难病人均由基层医院转入上级医院所致。当当比比较较两两个个总总率率时时,若若其其内内部部构构成成不不同同,需需要要进进行率的标准化。行率的标准化。15第二节第二节 分类变量资料的统计推断分类变量资料的统计推断1.率的抽样分布率的抽样分布2.率的抽样误差与标准误率的抽样误差与标准误3.总体率的区间估计总体率的区间估计4.率比较的率比较的u检验检验161.率的抽样分布率的抽样分布二项分布(二项分布(binomial distribution)的概念)的概念 例例:假假设设注注射射某某种种免免疫疫疫疫苗苗会会有有10%的的人人出出现现不不适适反反应应。问问3人人接接种种后后各各种种可可能能后后果果的的概率是多少?概率是多少?1718贝努利试验贝努利试验(Bernoulli trials):n次次独立独立、重复重复试验(每次试验只出现试验(每次试验只出现A和和 之一,每次概率都是之一,每次概率都是 和和 )。)。贝努利试验中,事件贝努利试验中,事件A可能发生可能发生0,1,2,n次,次,A 恰好发生恰好发生k次的概率为次的概率为19二项分布二项分布(binomial distribution):若随机变量若随机变量X只能在只能在 中取值,各种可能值的概率满足前式,我们中取值,各种可能值的概率满足前式,我们就说就说X服从参数为服从参数为n和和的二项分布的二项分布,记为记为20已知:已知:=0.5,n=10;=0.3,n=5;=0.3,n=10;=0.3,n=15。试试根根据据式式(10-6)求求各各阳阳性性数数事事件件的的概概率率并并作概率分布图。作概率分布图。21图图10-1 率的抽样分布图率的抽样分布图(二项分布)率的抽样分布特征率的抽样分布特征:1.为离散型分布;为离散型分布;2.当当=1-时,呈对称分布;时,呈对称分布;3.当当n 增大时,逐渐逼近正态分布。增大时,逐渐逼近正态分布。一般认为,当一般认为,当n和和n(1-)5时时,可近似看作正态分布。可近似看作正态分布。222.率的抽样误差和标准误率的抽样误差和标准误由由于于抽抽样样所所引引起起的的样样本本率率和和总总体体率率或或各各样样本本率率之之间间存存在在着着差差异异,这这种种差差异异称称为为率率的的抽抽样样误误差差。用用率的标准误率的标准误表示。表示。233.总体率的区间估计总体率的区间估计总体率的估计:总体率的估计:点估计点估计区间估计区间估计正态近似法正态近似法查表法查表法24正态近似法正态近似法当当样样本本含含量量n足足够够大大,样样本本率率p或或1-p均均不不太太小小时时(如如np和和n(1-p)均大于均大于5),样本率的分布近似正态分布。),样本率的分布近似正态分布。u是是标标准准正正态态分分布布双双侧侧临临界界值值,在在估估计计总总体体率率的的95%置置信信区区间间时时,其其值值为为1.96;99%置置信信区区间间时时,其其值值为为2.58。2595%的置信区间:的置信区间:38.47%1.96 1.16%=36.20%40.74%99%的置信区间:的置信区间:38.47%2.58 1.16%=35.48%41.46%例例如如某某地地人人群群中中结结核核菌菌素素试试验验阳阳性性率率95%和和99%的的置信区间为:置信区间为:26查表法查表法当当n较较小小,如如n 50,特特别别是是p接接近近于于0或或1时时,按按二二项项分布原理估计总体率的可信区间。分布原理估计总体率的可信区间。因因其其计计算算比比较较复复杂杂,统统计计学学家家已已经经编编制制了了总总体体率率可可信信区区间间估估计计用用表表,可可根根据据样样本本含含量量n和和阳阳性性数数x查查阅阅统统计计学专著中的附表学专著中的附表。274.两样本率比较的两样本率比较的u 检验检验 当当样样本本含含量量n足足够够大大,样样本本率率p或或1-p均均不不太太小小时时(如如np和和n(1-p)均均大大于于5),样样本本率率的的分分布布近近似似正正态态分分布布。样样本本率率和和总总体体率率之之间间、两个样本率之间的比较可用两个样本率之间的比较可用u检验检验(u test)。表表5-1 两种疗法的心血管病病死率比较两种疗法的心血管病病死率比较疗疗法法死亡死亡生存生存 合合计计病死率病死率(%)盐盐酸苯乙双胍酸苯乙双胍26(X1)178 204(n1)12.75(p1)安慰安慰剂剂 2(X2)62 64(n2)3.13(p2)合合 计计 28240 268 10.45(pc)u 检验的条件:检验的条件:n1p1 和和n1(1-p1)与与n2p2 和和n2(1-p2)均均 529样本率与总体率的比较样本率与总体率的比较 30两个样本率的比较两个样本率的比较 31小小小小 结结结结 1 1样本率也有抽样误差,率的抽样误差的大小用样本率也有抽样误差,率的抽样误差的大小用样本率也有抽样误差,率的抽样误差的大小用样本率也有抽样误差,率的抽样误差的大小用pp或或或或spsp来衡量。来衡量。来衡量。来衡量。pp越大,率的抽样误差越大。越大,率的抽样误差越大。越大,率的抽样误差越大。越大,率的抽样误差越大。2 2率的分布服从二项分布。当率的分布服从二项分布。当率的分布服从二项分布。当率的分布服从二项分布。当n n足够大,足够大,足够大,足够大,和和和和1-1-均均均均不太小,有不太小,有不太小,有不太小,有nn55和和和和n n(1-1-)5 5时,近似正态分布。时,近似正态分布。时,近似正态分布。时,近似正态分布。32 3 3总总总总体体体体率率率率的的的的置置置置信信信信区区区区间间间间是是是是用用用用样样样样本本本本率率率率估估估估计计计计总总总总体体体体率率率率的的的的可可可可能能能能范范范范围围围围。当当当当p p分分分分布布布布近近近近似似似似正正正正态态态态分分分分布布布布时时时时,可可可可用用用用正正正正态态态态近近近近似法估计率的置信区间。似法估计率的置信区间。似法估计率的置信区间。似法估计率的置信区间。4 4根根根根据据据据正正正正态态态态近近近近似似似似原原原原理理理理,可可可可进进进进行行行行样样样样本本本本率率率率与与与与总总总总体体体体率率率率以及两样本率比较的以及两样本率比较的以及两样本率比较的以及两样本率比较的u u检验。检验。检验。检验。率的率的u u 检验能解决以下能解决以下问题吗?率的反应为生与死、阳性与阴性、发生与不率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关发生等二分类变量,如果二分类变量为非正反关系(如治疗系(如治疗A A、治疗、治疗B B);反应为多分类,如何进);反应为多分类,如何进行假设检验?行假设检验?率的率的u u 检验要求:检验要求:n n足够大,且足够大,且nn55和和 n n(1-1-)5 5。如果条件不满足,如何进行假设检验?如果条件不满足,如何进行假设检验?34第三节第三节 2 检验检验(Chi-square test)1.基本思想基本思想2.四格表资料的卡方检验四格表资料的卡方检验3.配对设计分类变量资料的卡方检验配对设计分类变量资料的卡方检验4.行行列表资料的卡方检验列表资料的卡方检验352检验(检验(Chi-square test)t 是是现现代代统统计计学学的的创创始始人人之之一一,英英国国统统计计学学家家K.Pearson于于1900年年提提出出的的一一种种具具有有广广泛泛用用途途的的假假设设检检验验方方法法。常常用用于于分分类类变变量量资资料料的的统统计计推推断断,可可用用于于两两个个或或多多个个率率间间的的比比较较,计计数数资资料的关联度分析料的关联度分析,拟合优度检验拟合优度检验等等。等等。36例例例例10-110-1为为为为比比比比较较较较西西西西药药药药与与与与中中中中药药药药治治治治疗疗疗疗慢慢慢慢性性性性支支支支气气气气管管管管炎炎炎炎的的的的疗疗疗疗效效效效,某某某某医医医医师师师师将将将将符符符符合合合合研研研研究究究究标标标标准准准准的的的的110110例例例例慢慢慢慢性性性性支支支支气气气气管管管管炎炎炎炎患患患患者者者者随随随随机机机机分分分分为为为为两两两两组组组组(两两两两组组组组具具具具有有有有可可可可比比比比性性性性),西西西西药药药药组组组组8686例例例例,中中中中药药药药组组组组2424例例例例。服服服服药药药药一一一一个个个个疗疗疗疗程程程程后后后后,观观观观察察察察患患患患者者者者的的的的疗疗疗疗效效效效,结结结结果果果果见见见见下下下下表表表表。根根根根据据据据显显显显效效效效率率率率,该该该该医医医医师师师师认认认认为为为为中中中中西西西西药药药药治治治治疗疗疗疗慢慢慢慢性性性性支支支支气气气气管管管管炎炎炎炎的的的的疗疗疗疗效效效效有有有有差差差差别别别别中中中中药组的疗效好于西药组。药组的疗效好于西药组。药组的疗效好于西药组。药组的疗效好于西药组。1 1.2 2检验的基本思想检验的基本思想检验的基本思想检验的基本思想37 表表表表10-1 10-1 中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率【问题问题10-1】(1)该资料为何种类型资料?)该资料为何种类型资料?(2)该研究属于何种设计方案?)该研究属于何种设计方案?(3)该医师作出的结论是否正确?为什么?)该医师作出的结论是否正确?为什么?(4)该资料应该用何种统计方法?其步骤如何?)该资料应该用何种统计方法?其步骤如何?38-22-22表或四格表表或四格表表或四格表表或四格表(fourfold tablefourfold table)表表表表10-1 10-1 中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率 表表表表10-2 10-2 中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率39392.四格表资料的卡方检验四格表资料的卡方检验四格表资料四格表资料处处 理理+-合合 计计Aaba+bBcdc+d合合 计计a+cb+dn(a+b+c+d)40实际频数实际频数实际频数实际频数A A(actual frequency)(actual frequency):a a、b b、c c、d d=(a+c)/(a+b+c+d)=53/110=48.18%=(a+c)/(a+b+c+d)=53/110=48.18%理论频数理论频数理论频数理论频数T T(theoretical frequency)(theoretical frequency):表表表表10-2 10-2 中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率中西药治疗慢性支气管炎的显效率HH0 0:1 1=2 2=,(合计率合计率合计率合计率)41四格表资料四格表资料处处 理理+-合合 计计AT11T12nRBT21T22nR合合 计计nCnCn(a+b+c+d)理论频数计算公式理论频数计算公式理论频数计算公式理论频数计算公式42西药组:理论显效人数西药组:理论显效人数西药组:理论显效人数西药组:理论显效人数 T T2121=2453/110=11.56=2453/110=11.56 理论非显效人数理论非显效人数理论非显效人数理论非显效人数 T T2222=2457/110=12.44=2457/110=12.44中药组:理论显效人数中药组:理论显效人数中药组:理论显效人数中药组:理论显效人数 T T1111=8653/110=41.44=8653/110=41.44 理论非显效人数理论非显效人数理论非显效人数理论非显效人数 T T1212=8657/110=44.56=8657/110=44.5643基本公式基本公式:-反映了反映了A和和T吻合的程度;吻合的程度;与格子数有关。与格子数有关。HH0 0:1 1=2 2=,-合计率合计率合计率合计率44自由度一定自由度一定时,P值越小,越小,x2值越大。越大。当当P 值一定一定时,自由度越大,自由度越大,x2越大。越大。=1时,P=0.05,x2=3.84 P=0.01,x2=6.63 P=0.05时,=1,x2=3.84 =2,x2=5.99当自由度取当自由度取1时,u2=x22分布分布规律律3.847.8112.59P P0.050.05的临界值的临界值 2分布分布(chi-square distribution)46 2 2 2 2界值表界值表界值表界值表 47 2 2检验的自由度检验的自由度 指可以自由取值的基本格子数指可以自由取值的基本格子数 自由度一定时,其自由度一定时,其 2值的概率分布也就确定。根据自由度值的概率分布也就确定。根据自由度 和检验水准和检验水准 查附表查附表9(P344)可得可得 2界值界值;若若 2值值 20.05(),),则可按则可按=0.05的检验水准拒绝的检验水准拒绝H0;若若 2值值 20.05(),),则还不能拒绝则还不能拒绝H0。48例例10-9 某某医医生生欲欲比比较较用用甲甲、乙乙两两种种药药物物治治疗疗动动脉脉硬硬化化的的疗疗效效,甲甲药药治治疗疗71例例,有有效效52例例,乙乙药药治治疗疗42例例,有有效效39例例,结结果果见见表表10-7。问问两两种种药药物物的的有有效效率率是是否否有有差别?差别?表表10-7 甲、乙两种药物治疗动脉硬化的疗效比较甲、乙两种药物治疗动脉硬化的疗效比较49H0:两药有效率相同,即:两药有效率相同,即12H1:两药有效率不同,即:两药有效率不同,即1 2=0.05(1)建立检验假设,确定检验水准建立检验假设,确定检验水准50 20.025(1)=5.02,20.01(1)=6.63。本本 例例 5.022=6.4840,Tmin52检验的基本公式的基本公式 上述基本公式由上述基本公式由Pearson提出,因此软提出,因此软件上常称这种检验为件上常称这种检验为Pearson卡方检验。卡方检验。下下面将要介绍的其他卡方检验公式都是在此面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表基础上发展起来的。它不仅适用于四格表资料,也适用于其它的资料,也适用于其它的“行行列表列表”。52四格表专用公式:四格表专用公式:本例,本例,四格表四格表专用公式用公式 为了不计算理论频数为了不计算理论频数T,可由基本公式推导出,直接由可由基本公式推导出,直接由各格子的实际频数(各格子的实际频数(a、b、c、d)计算卡方值的公式:)计算卡方值的公式:54校正公式:校正公式:四格表资料四格表资料2检验的校正检验的校正 2分分布布是是一一种种连连续续性性分分布布,而而分分类类变变量量资资料料属属离离散散性性分分布布,由由此此得得到到的的统统计计量量也也是是不不连连续续的的。为为改改善善2统统计计量量分分布布的的连连续续性性,英英国国统统计计学学家家Yates F建建议议将将实实际际频频数数和和理理论论频数之差的绝对值减去频数之差的绝对值减去0.5以作校正。以作校正。55在实际工作中,对于四格表资料,通常规定在实际工作中,对于四格表资料,通常规定(1)T5,且,且N40时,直接计算时,直接计算 2值,不用校正;值,不用校正;(2)1T5,且且N40时,用时,用连续性校正连续性校正检验;检验;(3)T1或或N40且T 5当不满足时用校正公式。适用条件:N40且1 T 5x2=(|A-T|-0.5)2/T或x2=(|ad-bc|-n/2)2 xN/(a+b)(c+d)(a+c)(b+d)57例例10-10 某某医医生生研研究究比比较较A、B两两种种药药物物对对急急性性细细菌菌性性肺肺炎炎的的疗疗效效,有有关关资资料料见见表表10-8,问问两两种种药药物物的的疗疗效效差别有无统计学意义?差别有无统计学意义?表表10-8 A、B两药治疗急性细菌性肺炎的疗效比较两药治疗急性细菌性肺炎的疗效比较 58H0:1=2H1:1 2 =0.05 T22=22 8/64=2.75 5 按按=1,查查2值值 表表,20.05(1)=3.84,2=4.79 3.84,P0.05,按按=0.05水水准准,拒拒绝绝H0,接接受受H1,认认为为两两药药的的疗疗效效差差别别有有统统计计学学意意义义,A药药疗效要好于疗效要好于B药。药。59 设有设有56份咽喉涂抹标本(均含有白喉杆菌)份咽喉涂抹标本(均含有白喉杆菌),把每份标本一分为二,依同样的条件分,把每份标本一分为二,依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌的生长情况,结果见下表:观察白喉杆菌的生长情况,结果见下表:3.配对设计分类变量资料的配对设计分类变量资料的2检验检验 60标本号标本号甲培养基甲培养基乙培养基乙培养基阳性阳性阴性阴性阳性阳性阴性阴性123456.545556合计合计40162432白喉杆菌在甲、乙两种培养基中的生长情况白喉杆菌在甲、乙两种培养基中的生长情况6061两种培养基白喉杆菌生长情况两种培养基白喉杆菌生长情况623.配对设计分类变量资料的配对设计分类变量资料的 2检验检验 甲、乙结果有两种情况:甲、乙结果有两种情况:一致:一致:a(+)和)和 d(-););不一致:不一致:b(甲甲+乙乙-)和)和c(甲甲-乙乙+););63配对卡方检验又称配对卡方检验又称McNemar检验:检验:64例例10-11 用用两两种种血血清清学学方方法法对对100例例肝肝癌癌患患者者进进行行检检测测,有有关关检检测测结结果果见见表表10-9,问问两两种种血血清清学学方方法检测结果有无差别?法检测结果有无差别?表表10-9 两种血清学方法对肝癌检测的结果比较两种血清学方法对肝癌检测的结果比较甲法甲法乙法乙法合计合计+-+503282-15 318合计合计653510065H0:两种方法检出率相同,即:两种方法检出率相同,即B=CH1:两种方法检出率不同,即:两种方法检出率不同,即B C=0.05查查表表得得,P 2 20.010.01(2 2),PP0.01,0.01,按按 =0.05=0.05的检验水准,拒绝的检验水准,拒绝H H0 0,接受,接受H H1 1,故可认为甲、乙、丙三家医院院内感染率,故可认为甲、乙、丙三家医院院内感染率总体有差别。总体有差别。70例例10-13 某某研研究究者者欲欲了了解解白白内内障障发发病病是是否否与与ABO血血型型有有关关,收收集集有有关关资资料料见见表表10-11,问问白白内内障障组组与与对对照组照组ABO血型分布有无差别?血型分布有无差别?71H0:白内障组与对照组:白内障组与对照组ABO血型分布相同血型分布相同H1:白内障组与对照组:白内障组与对照组ABO血型分布不同或不全相同血型分布不同或不全相同=0.05查查表表得得,2 20.050.05(3 3)=7.81=7.81,2 2 P0.05,0.05,按按=0.05=0.05的的检检验验水水准准,不不拒拒绝绝检检验验假假设设,尚尚不不能能认认为为白内障组与对照组白内障组与对照组ABOABO血型分布不同。血型分布不同。(1)(2)(3)=(2-1)(4-1)=3 721.理理论论数数不不宜宜太太小小。(不不能能有有1/5以以上上格格子子的的理理论论频频数数小小于于5或者有一个格子的理论频数小于或者有一个格子的理论频数小于1)。)。处理方法处理方法行行列表卡方检验的注意事项:列表卡方检验的注意事项:73理论频数太小的处理方法理论频数太小的处理方法1)增大样本含量,以达到增大理论频数的目的;增大样本含量,以达到增大理论频数的目的;2)删去理论频数太小的格子对应的行或列;删去理论频数太小的格子对应的行或列;3)合合理理合合并并:结结合合专专业业,将将理理论论频频数数太太小小的的行行或或列与性质相近的行或列合并列与性质相近的行或列合并4)精确概率法。精确概率法。741.理理论论数数不不宜宜太太小小。(不不能能有有1/5以以上上格格子子的的理理论论频频数数小小于于5或者有一个格子的理论频数小于或者有一个格子的理论频数小于1)。)。处理方法处理方法2.如如假假设设检检验验的的结结果果是是拒拒绝绝无无效效假假设设,只只能能认认为为各各总总体体率率或或构构成成比比之之间间总总的的来来说说有有差差别别。若若要要进进一一步步了了解解哪哪两两者者之间有差别,可用卡方分割法,或者调整检验水准。之间有差别,可用卡方分割法,或者调整检验水准。行行列表卡方检验的注意事项:列表卡方检验的注意事项:751.理理论论数数不不宜宜太太小小。(不不能能有有1/5以以上上格格子子的的理理论论频频数数小小于于5或者有一个格子的理论频数小于或者有一个格子的理论频数小于1)。)。处理方法处理方法2.如如假假设设检检验验的的结结果果是是拒拒绝绝无无效效假假设设,只只能能认认为为各各总总体体率率或或构构成成比比之之间间总总的的来来说说有有差差别别。若若要要进进一一步步了了解解哪哪两两者者之间有差别,可用卡方分割法,或者调整检验水准。之间有差别,可用卡方分割法,或者调整检验水准。3.对对于于单单向向有有序序行行列列表表,在在比比较较各各处处理理组组的的效效应应有有无无差差别别时,应该用秩和检验。时,应该用秩和检验。行行列表卡方检验的注意事项:列表卡方检验的注意事项:76771.理理论论数数不不宜宜太太小小。(不不能能有有1/5以以上上格格子子的的理理论论频频数数小小于于5或者有一个格子的理论频数小于或者有一个格子的理论频数小于1)。)。处理方法处理方法2.如如假假设设检检验验的的结结果果是是拒拒绝绝无无效效假假设设,只只能能认认为为各各总总体体率率或或构构成成比比之之间间总总的的来来说说有有差差别别。若若要要进进一一步步了了解解哪哪两两者者之间有差别,可用卡方分割法,或者调整检验水准。之间有差别,可用卡方分割法,或者调整检验水准。3.对对于于单单向向有有序序行行列列表表,在在比比较较各各处处理理组组的的效效应应有有无无差差别别时,应该用秩和检验。时,应该用秩和检验。行行列表卡方检验的注意事项:列表卡方检验的注意事项:78基本公式基本公式:7980 RC表的表的2检验通用公式通用公式 RC表表2检验的的应用注意事用注意事项 1.对对RC表,若较多格子(表,若较多格子(1/5)的理论频数小于)的理论频数小于5或有一个格子的理论频数小于或有一个格子的理论频数小于1,则易犯第一类错误。,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)删去该格所在的行或列(丢失信息!)(3)根根据据专专业业知知识识将将该该格格所所在在行行或或列列与与别别的的行行或或列列合合并并。(丢失信息!甚至出假象)(丢失信息!甚至出假象)RC表表2检验的的应用注意事用注意事项 2.多多组组比比较较时时,若若效效应应有有强强弱弱的的等等级级,如如+,+,+,最最好好采采用用后后面面的的非非参参数数检检验验方方法法。2检检验验只只能能反反映映其其构构成成比比有无差异,不能比较效应的平均水平。有无差异,不能比较效应的平均水平。3.行列两种属性皆有序时,可考虑趋势检验或等级相关分析行列两种属性皆有序时,可考虑趋势检验或等级相关分析 84不同资料类型的不同资料类型的2检验的计算方法:检验的计算方法:85练习练习1 1 欲欲了了解解某某乡乡钩钩虫虫感感染染情情况况,随随机机抽抽查查男男200人人,感感染染40人人;女女150人人,感感染染20人人,问问:该乡男女感染率是否居于相同水平?该乡男女感染率是否居于相同水平?862 0.05,接受,接受H0,可以认为该乡,可以认为该乡男性与女性的钩虫感染率居于相同水平男性与女性的钩虫感染率居于相同水平。解法解法1 1:2检验检验(这里只给出统计量(这里只给出统计量2的计算,其余步骤略)的计算,其余步骤略)87u0.05,接受接受H0,可以认为该乡男性,可以认为该乡男性与女性的钩虫感染率居于相同水平与女性的钩虫感染率居于相同水平。解法解法2:率的率的u检验检验适用条件适用条件?881.2检验可以用于多组率的比较,而检验可以用于多组率的比较,而u检验用检验用于两组率的比较;于两组率的比较;2.对于四格表资料,有:对于四格表资料,有:2 u2。89抗癌新药的毒理研究中,欲分析不同剂量的毒性,将抗癌新药的毒理研究中,欲分析不同剂量的毒性,将80只大鼠按性别、窝别、体重、年龄等因素配成只大鼠按性别、窝别、体重、年龄等因素配成40对,对,每对大鼠随机分配分别接受甲剂量和乙剂量注射。结每对大鼠随机分配分别接受甲剂量和乙剂量注射。结果两种剂量都死亡的有果两种剂量都死亡的有30%,甲剂量的死亡率为,甲剂量的死亡率为50%,乙剂量的死亡率为,乙剂量的死亡率为70%。(1)这是何种设计类型的资料这是何种设计类型的资料?(2)两种剂量均生存的大鼠是多少对?请列出整理表。两种剂量均生存的大鼠是多少对?请列出整理表。(3)请对这份资料作统计分析。请对这份资料作统计分析。练习练习290H0:两种剂量的死亡率相同:两种剂量的死亡率相同H1:两种剂量的死亡率不相同:两种剂量的死亡率不相同 =0.05,P0.05,尚尚不不能能拒拒绝绝零零假假设设,可可以以认认为为两两种种剂剂量量的的死死亡率居于相同水平。亡率居于相同水平。91 两组二分类资料发生率比较,样本两组二分类资料发生率比较,样本总例数总例数100,则检验自由度为(,则检验自由度为()。)。A.1 B.4 C.95 D.99 E.100练习练习392 四格表检验中,四格表检验中,可以认为,可以认为()。)。A.两总体率不同两总体率不同 B.不能认为两总体率不同不能认为两总体率不同 C.两样本率不同两样本率不同 D.不能认为两样本率不同不能认为两样本率不同 E.以上都不对以上都不对练习练习4
展开阅读全文