定性资料的统计推断101102---研究生.ppt

资源描述

定性资料的统计推断主要内容6.1 率的可信区间率的可信区间6.2 样本率与总体率的比较样本率与总体率的比较6.3 两率的比较两率的比较6.4 配对设计资料的两率的比较配对设计资料的两率的比较6.5 多个率的比较多个率的比较6.6 构成比的比较构成比的比较6.7 两标准化率的比较两标准化率的比较6.8 高维列联表的分析高维列联表的分析6.9 趋势性检验趋势性检验 6.1 率的区间估计率的区间估计阳性率的均数阳性率的均数p=标准差标准差p=（率的标准误）率的标准误）总体率的区间估计总体率的区间估计1.正态近似法正态近似法 np5 n(1-p)5 puasp 例例1 在在血血吸吸虫虫病病流流行行区区中中，某某县县根根据据随随机机原原则则抽查抽查4000人，人，其其血血吸吸虫虫感感染染率率为为15%，如如全全县县人人口口为为205000人人，试试以以99%的的可可信信区区间间估估计计该该县县血血吸吸虫虫感感染染人人数数至至少少有有多多少少？至至多多有多少？有多少？总体率的总体率的99%可信区间可信区间即即 0.13540.1646至少至少0.1354205000=27757 至多至多0.1646205000=33743 2.查表法查表法 n50例2 有人调查29名非吸毒妇女，出狱时有1名HIV(人免疫缺陷病毒)阳性，则阳性率的95%可信区间为(0.1%,17.8%)3.精确概率法n较小,p接近于0或1（其中r为阳性数）特别地在r=0时在r=n时上例中,95%K可信区间为即(0.0009,0.1776)4.利用二项分布的概率公式迭代两率差的可信区间1-2的可信度为1-的可信区间为其中6.2 样本率与总体率比较样本率与总体率比较比比较较的的目目的的是是推推断断该该样样本本所所代代表表的的未未知知总总体率体率与已知的总体率与已知的总体率0是否相等。是否相等。方法一：直接计算概率法方法一：直接计算概率法例例3 据据以以往往经经验验，新新生生儿儿染染色色体体异异常常率率一一般般为为1%，某某医医院院观观察察了了当当地地400名名新新生生儿儿，只只有有1例例异异常常，问问该该地地新新生生儿儿染染色色体体异异常常率率是是否否低于低于一般？一般？H0:=0.01 H1:0.05 不拒绝不拒绝H0(注意为单侧检验啊注意为单侧检验啊)问题:1.P=P(x1),而不是而不是 P=P(x2)2.P=P(x1),而不是而不是 P=P(x=1)（面积面积啊）和正态分布的啊）和正态分布的P代表的意思相同代表的意思相同3.P=P(x1),而不是而不是 P=P(x 1)（注意两者的一一对应关系啊注意两者的一一对应关系啊）例4 用一种新药治疗某种寄生虫病用一种新药治疗某种寄生虫病,受试者受试者50人在服药后人在服药后1人发生某种严重反应人发生某种严重反应,这这种反应在此病患者中也曾有发生，但过种反应在此病患者中也曾有发生，但过去普查结果约为每去普查结果约为每5000人中仅有人中仅有1人出人出现。问此新药是否现。问此新药是否提高提高了这种反应的发了这种反应的发生率生率?（看准字眼啊看准字眼啊）方法二：正态近似法方法二：正态近似法（n较大，较大，np5）例例5 根根据据以以往往经经验验，一一般般胃胃溃溃疡疡病病患患者者有有20%发发生生胃胃出出血血症症状状，现现某某医医院院观观察察65岁岁以以上上溃溃疡疡病病人人304例例，有有31.6%发发生生胃胃出出血血症症状状,问问老老年年胃胃溃溃疡疡病病患患者者是是否否较较容易出血容易出血?H0:=0.2 H1:0.2 =0.05 p0.05，不拒不拒绝绝H0，尚尚不能不能认为认为两两药药有效率不同有效率不同6.3.2 两样本率比较的卡方检验卡方检验（卡方检验（chi-square test）的原理）的原理一种对理论频数和实际频数吻合程度的考察。一种对理论频数和实际频数吻合程度的考察。A investigation of the degree of agreement of theoretical frequency and actual frequency.一个正常的骰子，抛出后得到六个面的概率一个正常的骰子，抛出后得到六个面的概率均为均为1/6。因此，要判定一个骰子是否合格，。因此，要判定一个骰子是否合格，可以通过抛骰子的方法来进行；可以通过抛骰子的方法来进行；2检验的原理理论101010101010实际121365159差值 2345512检验的原理衡量理论数与实际数的差别Karl Pearson 18571936英国统计学家1901年10月与Weldon、Galton一起创办Biometrika理论101010101010实际121365159差值2345512分布0.00.10.20.30.40.5Rejection Area 这是自由度为1的图形四格表(fourfold table)例7 109例患者治疗后有效率比较组别有效无效合计有效率(%)试验组43105381.13对照组40165671.43合计832610976.15理论数的计算如果两组率相等，则理论上有效率为如果两组率相等，则理论上有效率为76.15%。理论与实际相吻合！理论与实际相吻合！则观察则观察53人，有人，有530.761540.36人有效，人有效，53-40.36=12.64人无效。人无效。观察观察56人，有人，有560.7615=42.64人有效，人有效，56-42.64=13.36人无效。人无效。理论频数的计算43104016实际数理论数40.36 12.6442.64 13.36衡量理论数与实际数的差别自由度为1 的2分布0.00.10.20.30.40.5自由度为2 的2分布0.00.10.20.30.40.5自由度为1的2分布界值0.00.10.20.30.40.53.840.052检验的步骤(1)H0:1=2;H1:1 2,=0.05(2)2=1.41(3)P0.05(4)按按0.05水准，不拒绝水准，不拒绝H0,尚不能认尚不能认为两种方法的治疗效果不同。为两种方法的治疗效果不同。四格表2检验的专用公式a b cd43104016四格表2检验的专用公式四格表2的检验的应用条件：N40，T5，用2；N40，但1T 5，用校正2。n 40，或T 1，用确切概率。当P值接近检验水准时，推荐使用确切概率法。6.3.3 四格表的校正卡方检验例8 穿新旧两种防护服工人的皮肤炎患病率比较穿新旧两种防护服工人的皮肤炎患病率比较组别阳性阴性合计患病率(%)新114156.7旧10182835.7合计11324325.6H0：两组工人的皮肤炎患病率无差别，即1=2；H1：两组工人的皮肤炎患病率有差别，即12；检验水准=0.05。求得最小的理论频数T11=1511/43=3.84,1T1140，所以宜用 2检验的校正公式查查2界值表得界值表得0.05 P 0.10，按按 =0.05水准，不拒绝水准，不拒绝H0，差别无统计学差别无统计学意义，尚不能认为穿不同防护服的皮肤意义，尚不能认为穿不同防护服的皮肤炎患病率有差别。炎患病率有差别。6.3.4 四格表的确切概率四格表的确切概率Fishers exact probability例例9 两种方法治疗黑色素瘤疗效比较两种方法治疗黑色素瘤疗效比较方法缓解未缓解合计缓解率(%)A1311492.9B731070.0合计2042483.3确切概率的基本思想基本思想：周边合计应当是不变的在假定H0成立时，四格表频数的各种组合都有可能得到，但得到的概率大小不同；假定零假设成立，计算此时出现现有样本及更极端样本的概率。所谓极端，这里指不同组合下两样本率差别更大的情形；若零假设成立，此概率应当不会太小！四格表周边合计不变xa+b-xa+ba+c-xd-a+xc+da+cb+dnx=0,1,min(a+c,a+d)在周边合计一定时，某个格子数字确定后所有格子中都会被确定。四格表(周边合计不变时)所有可能的排列(1)(2)(3)(4)(5)14013112211310464738291100每一种组合的概率aba+bcdc+da+cb+dn超几何分布(hypergeometric distribution)四格表所有可能排列的概率(1)(2)(3)(4)(5)14 013 112 211 310 46 47 38 29 110 0Pi0.01980.15810.38540.34260.0942按照前面的概率公式计算出来的啊四格表(周边合计不变时)所有可能的排列(1)(2)(3)(4)(5)14 013112 211 310 46473829110 0|p1-p2|:0.4000.2290.0570.1140.286P1-P2 代表两组的缓解率之差P 值的计算(1)(2)(3)(4)(5)14 013112211 310 46473829110 4|p1-p2|:0.4000.2290.0570.1140.286Pi0.0198 0.15810.0942P=0.01980.15810.09420.2721此时的P代表了缓解率之差大于实际之差的概率之和H0：两种方法缓解率相等；H1：两种方法缓解率不等。0.05。P=Pi=0.2721按=0.05水准，不拒绝H0，差异无统计学意义。故尚不能认为两种方法治疗黑色素瘤缓解率有差别。两个率比较的u检验当n较大时，二项分布近似正态分布。因此两样本率比较的u检验，当n1p1、n2p2、n1(1p1)、n2(1-p2)均大于5才适用，某医师在用蛙王露口服液治疗贫血的临床试验中，将109名受试者随机分为两组，一组为试验组，接受蛙王露口服液的治疗，结果为有效43人，无效10人；另一组为对照组，接受复方阿胶浆的治疗，结果为有效40人，无效16人，问两组有效率有无差别?H0：两组有效率无差别，即1=2；H1：两组有效率有差别，即12；=0.05。p1=43/53=0.8113，p2=40/56=0.7143，pc=(43+40)/(53+56)=0.7615查附表1得P=0.234，按=0.05的水准，不拒绝H0，差别无统计学意义，故尚不能认为两组的有效率有差别。与正态分布的关系3.840.050.0250.0251.96-1.966.4 配对资料的两率的比较配对资料的两率的比较配对设计的配对设计的t检验检验配对设计的计数资料，我们可采用：配对设计的计数资料，我们可采用：（1）配对资料的）配对资料的2检验检验(McNemar检验检验)（2）确切概率法）确切概率法配对四格表资料的2检验两种检验结果比较可能的结果甲法乙法频数1a2b3c4d例10两种检验结果比较乙甲合计36(a)24(b)6010(c)135(d)145合计46159205配对四格表资料的实际数与理论数24(b)10(c)1717b+c20时：此时是假设两者的阳性概率相等啊，所以两者都为17配对四格表资料的2检验步骤1H0:两法检出阳性率相同，总体BC；H1:两法检出阳性率不同，总体BC。0.05。2计算统计量：24.971。3P0.054按0.05水准，拒绝H0。认为两种方法的阳性率不同。阳性率相同，而非检验结果完全一致！2060506020505050精确概率法样本例数较少时还可以用精确概率法,原理同配对设计的符号检验。P=p(xk)+p(xn-k)注：n=b+c k=min(b，c)p(x)=上例中p=p(0)+P(5)+P(26)+P(31)=0.00019226.5 多个率比较的2检验虫卵阴转率的比较药物阴转例数未阴转例数合计阴转率（%）复方敌百虫片2893775.7纯敌百虫片18203847.4灭虫灵10243429.4合计565310951.4例11如果各方法阴转率相等(H0成立)，那么阴转率应当均为51.40%。由此可以计算出每格的理论频数。根据实际频数与理论频数之差所得出的卡方值越大，说明假设的总体中得到现有偏差及更偏差的样本的概率越小！P，拒绝H0。理论数的计算19.0217.9819.5318.4717.4816.52实际数A 理论数T28937182038102434 56(51.40%)53(48.60%)1092值的计算19.0217.9819.5318.4717.4816.52 实际数A 理论数T289182010242值的计算289371820381024345653109多个率比较的2检验的过程H0：12 3H1：三种方法阴转率不等或者不全相等 0.05=212P0.05按0.05水准，不拒绝H0。尚不能认为两组血型构成比不同。RC表的分析方法选择条件条件：理论数不能小于1；理论数大于1小于5的格子数不超过总格子数的1/5。否则用确切概率。解决增加样本含量删除合并Fisher确切概率计算法定性资料假设检验的正确应用四格表的卡方检验 n40，T5，用2；n40，但1T 5，用校正2。n 40，或T 1，用确切概率。RC表的卡方检验理论数不能小于1；理论数大于1小于5的格子数不超过总格子数的1/5。增加样本含量；Fisher确切概率法；删去；合并定性资料假设检验的正确应用多个率或构成比的比较拒绝H0的含义；等级资料（有序分类资料）的比较应该考虑使用秩和检验两标准化率的比较例13 试就下表资料分析比较甲、乙两医院乳腺癌手术后的5年生存率（%）。腋下淋巴结转移甲医院乙医院病例数生存数生存率（%）病例数生存数生存率（%）无453577.7730021571.67有71045063.38834250.60合计75548564.2438325767.10甲、乙两医院乳腺癌手术后的标准化率腋下淋巴结转移标准病例数甲乙生存率预计生存数生存率预计生存数无34577.7726871.67247有79368.3854250.60401计1138-810-648标准化率为：甲 P1=810/1138=71.18%乙 P2=648/1138=56.94%H0：两标准化率相等两标准化率相等 H1：两标准化率不相等两标准化率不相等腋下腋下淋淋巴结转巴结转移移(1)病例数病例数生存数生存数合并生合并生存率存率（%）pi（8）生存率生存率差的方差的方差差(10-4)（9）标准病标准病例数例数hi（10）(10)2(9)hi 2si2 10-4甲甲nAi(2)乙乙nBi(3)计计ni（4）甲甲dAi（5）乙乙dBi（6）计计di（7）无453003453521525072.4651.00345607.03有710837934504249262.0431.697931992.82计755383113848525774211382599.85生存率生存率之差之差的方差的方差两标准化率差别的方差两标准化率差别的方差s2 查表得查表得 p=0.00074，拒绝拒绝H0，认为认为6.8 高维列联表资料的统计分析例例14 在在婴婴儿儿营营养养和和发发育育关关系系调调查查时时,分分别别在在月月龄龄为为9月月、10月月、11月月及及12月月的的婴婴儿儿中中调调查查了了发发育育好好与与发发育育差差的的两两组组儿儿童童的的副副食食品品供供给给情情况况，得得下下列列资资料料，试试对对发育与副食品供应的关系作分析。发育与副食品供应的关系作分析。发育与副食品供应的关系发育与副食品供应的关系月龄月龄副食品供应副食品供应好好差差计计9月月充足充足232043不足不足19315010月月充足充足282048不足不足24305411月月充足充足322254不足不足25305512月月充足充足412162不足不足382058计计充足充足12483207不足不足106111217试试在在排排除除了了年年龄龄因因素素影影响响后后，分分析析副副食食品品供应对发育的影响情况。供应对发育的影响情况。分分析析：各各年年龄龄组组发发育育差差的的比比例例是是不不等等的的，直直接接用用简简单单合合并并栏栏的的四四格格表表资资料料计计算算不不合合理理。也也不不可可将将每每个个年年龄龄组组的的数数据据分分别别进进行行检检验验，然然后后将将其其结结论论综综合合，这这样样做做往往往往会会因因为为每每个个四四格格表表的的频频数数都都很很小小，不宜得出显著性。不宜得出显著性。要要考虑发育与副食品供给之间的关系，需考虑发育与副食品供给之间的关系，需要对比数比要对比数比(odds ratio，相对危险度的相对危险度的一种估计值一种估计值)OR=1作假设检验，计算公共作假设检验，计算公共比数比及其可信区间。比数比及其可信区间。公共公共OR:OR的的可信区间可信区间:H0：OR=1 H1：OR 1检验统计量检验统计量计算2CMH的分子2CMH的分母2CMH=4.726 df=1 P0.05说明副食品的供给不足对婴儿的发育有影响。OR的95%可信区间为综合结果分层OR95%CI2CMHP11.8760.8204.2932.2150.13721.7500.7983.8401.9420.16331.7450.8173.7292.0620.15141.0280.4832.1860.0050.944合计1.5641.0652.2995.2050.023调整1.5401.0432.2724.7260.030本例中还可对各层的OR是否齐性作检验（Breslow-Day齐性检验）2=1.534 df=3 p=0.675说明不同月龄的婴儿，副食品的供应对其发育的影响是一致的。6.9 趋势性2检验当当暴露水平按多个等级分类时，经常需要暴露水平按多个等级分类时，经常需要检验是否存在剂量检验是否存在剂量-反应关系，即随着暴反应关系，即随着暴露水平的升高，阳性率是否有增加或减露水平的升高，阳性率是否有增加或减少的趋势。少的趋势。注：注：趋势性2检验只适合于2行或2列的资料。例例15 一项心肌梗塞发生前饮酒的病例一项心肌梗塞发生前饮酒的病例-对照研究对照研究结果如下，试分析每日饮酒量与心肌梗塞发生之结果如下，试分析每日饮酒量与心肌梗塞发生之间是否存在剂量反应关系。间是否存在剂量反应关系。心肌梗塞患者及对照者的每日饮酒心肌梗塞患者及对照者的每日饮酒量量418391调查总数24113200+46422100-20023820210-10011013600对照数病例数饮酒量的等级饮酒量的等级每日饮酒量每日饮酒量（ml）趋势性2检验的计算饮酒量00-100100-200 200+计病例（a）1362024211391(n1)对照1102384624418(n0)计（m）2464408835809(N)等级(z)0123az02028433319mz0440176105721mz2044035231511072=7.488 P=0.006，说明饮酒量的多少与说明饮酒量的多少与心肌梗塞有关。每日饮酒量与心肌梗塞发生之心肌梗塞有关。每日饮酒量与心肌梗塞发生之间存在剂量反应关系，饮酒量增加危险性减小。间存在剂量反应关系，饮酒量增加危险性减小。STATISTICS FOR TABLE OF I BY J Cochran-Armitage Trend Test -Statistic=2.736 Prob(Right-sided)=0.003 Prob(Two-sided)=0.006 Cochran-Mantel-Haenszel Statistics(Based on Table Scores)Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 7.478 0.006 2 Row Mean Scores Differ 1 7.478 0.006 3 General Association 3 9.801 0.0202=7.478 P=0.006，说明饮酒量的多少与心肌梗塞有关。Cochran-Armitage Trend Test U=2.736，P=0.006表明每日饮酒量与心肌梗塞发生之间存在剂量反应关系，饮酒量增加危险性减小。2检验检验1.数据数据 2选择菜单：选择菜单：AnalyzeDescriptive StatisticsCrosstabs3.将变量将变量a放入放入Row框中，变量框中，变量b放入放入column框中，选择框中，选择Statistics。4.选择选择Chi-squareContinue 5.主要结论：主要结论：若已知频数表数据，如何进行？分组+A3527B1846输入数据输入数据给数据以权重系数，选择菜单：给数据以权重系数，选择菜单：weight Cases 出现以下界面，选择出现以下界面，选择Weight cases by，并，并将变量将变量f放入框放入框Frequency Variable中中再选择再选择OK。

展开阅读全文