第6章总体率的区间估计和假设检验.doc

资源描述

第6章总体率的区间估计和假设检验 w 掌握率的抽样误差的概念和意义 w 掌握总体率区间估计的概念意义和计算方法 w 掌握率的U检验的概念和条件，计算方法 w 第一节率的抽样误差与总体率的区间估计一、率的抽样误差：在同一总体中按一定的样本含量n抽样,样本率和总体率或样本率之间也存在着差异，这种差异称为率的抽样误差。率的抽样误差的大小是用率的标准误来表示的。例6.1 检查居民800人粪便中蛔虫阳性200人，阳性率为25%，试求阳性率的标准误。本例：n=800，p=0.25，1-p=0.75，二、总体率的区间估计㈠正态分布法样本含量n足够大，np与n(1-p)均≥5时 , 例6.2 求例6.1当地居民粪便蛔虫阳性率的95%可信区间和99%的可信区间。 95%的可信区间为：25%±1.96×1.53% 即（22.00%，28.00%） 99%的可信区间为：25%±2.58×1.53% 即（21.05%，28.95%）㈡查表法当样本含量较小（如n≤50），np或n(1－p)<5时，样本率的分布呈二项分布，总体率的可信区间可据二项分布的理论求得。第二节率的u检验应用条件：样本含量n足够大， np与n(1－p)均≥5 。此时，样本率p也是以总体率为中心呈正态分布或近似正态分布的。一、样本率与总体率比较的u检验 w u值的计算公式为：例6.5 根据以往经验，一般胃溃疡病患者有20%(总体率)发生胃出血症状。现某医生观察65岁以上胃溃疡病人152例，其中48例发生胃出血，占31.6%（样本率）。问老年胃溃疡病患者是否较一般胃溃疡病患者易发生胃出血。计算结果及判断判断：u=3.58 > u0.05=1. 64（单侧）, P<0.05。在α=0.05水准上，拒绝H0，接受H1，差异有统计学意义。二、两样本率比较的u检验适用条件为两样本的np和n(1-p)均大于5。计算公式为例6.6 某中药研究所试用某种草药预防流感，观察用药组和对照组（未用药组）的流感发病率，其结果见表6-1。问两组流感发病率有无差别？表6-1 用药组和对照组流感发病率比较组别观察人数发病人数发病率（%）用药组 100 14 14 对照组 120 30 25 合计 220 44 20 第七章二项分布与Poisson分布第一节二项分布及其应用一、二项分布的概念及应用条件二项分布（binominal distribution）是一种重要的离散型分布，在医学上常遇到属于两分类的资料，每一观察单位只具有相互独立的一种结果，如检查结果的阳性或阴性，动物试验的生存或死亡，对病人治疗的有效或无效等。二项分布也称为贝努里分布（Bernoulli distribution）或贝努里模型，是由法国数学家J.Bernoulli于1713年首先阐述的概率分布。如果已知发生某一结果（如阳性）的概率为π，其对立结果（阴性）的概率为（1-π），且各观察单位的观察结果相互独立，互不影响，则从该总体中随机抽取n例，其中出现阳性数为X (X=0,1,2,3,…，n)的概率服从二项分布。贝努里模型应具备下列三个基本条件试验结果只出现对立事件A或，两者只能出现其中之一。这种事件也称为互斥事件。试验结果是相互独立，互不影响的。例如，一个妇女生育男孩或女孩，并不影响另一个妇女生育男孩或女孩等。每次试验中，出现事件A的概率为π ，而出现对立事件的概率为１- π 。则有总概率 π +（1- π ）=1。二、二项分布的概率函数根据贝努里模型进行试验的三个基本条件，可以求出在n 次独立试验下，事件A出现的次数X的概率分布。X为离散型随机变量，其可以取值为0,1,2,…,n。则X的概率函数为： X=0,1,2,3…..,n 式中：0<π<1，为组合数，上述公式称随机变量X服从参数为n，π的二项分布，则记为X～B(n,π)。三、二项分布的性质 1. 二项分布的每种组合的概率符合二项展开式，其总概率等于1 二项展开式有以下特点：（1）展开式的项数为n+1。（2）展开式每项π和（1- π ）指数之和为n。（3）展开式每项π的指数从0到n；（1- π ）的指数从n到0。 2. 二项分布的累积概率设m1≤X≤m2 （m1＜m2）, 则X在m1至m2区间的累积概率有：至多有x例阳性的概率为： X=0,1,2，…，x (7.4) 至少有x例阳性的概率为： X=x，x+1，…，n 分别为下侧累计概率，和上侧累计概率。 3.二项分布的概率分布图形以X为横坐标，P（X）为纵坐标，在坐标纸上可绘出二项分布的图形, 由于X为离散型随机变量，二项分布图形由横坐标上孤立点的垂直线条组成。二项分布的图形取决于与n的大小。当n充分大时，二项分布趋向对称，可以证明其趋向正态分布。一般地，如果nπ之积大于5时，分布接近正态分布；当nπ<5时，图形呈偏态分布。当π =0.5时，图形分布对称，近似正态。如果π≠0.5或距0.5较远时，分布呈偏态。 4.二项分布的数字特征 (这里的数字特征主要指总体均数、方差、标准差等参数）（1）随机变量X的数学期望E（X）＝μ，即指总体均数： μ ＝nπ （2）随机变量X的方差D（X）＝σ 2 为：（3）随机变量X的标准差为: 四、二项分布展开式各项的系数二项分布展开式的各项之前均有一个系数，用组合公式来表示。计算公式为：该系数也可用杨辉三角来表示，国外参考书习惯称之为巴斯噶三角。当试验次数n较小时，可直接利用杨辉三角将二项分布展开式各项的系数写出来，应用十分方便。杨辉三角的意义： ①杨辉三角中每行有几个数字，表示展开式有几项。当试验次数为n 时，有n+1项。 ②杨辉三角中每行中的数字表示展开式中每项的系数大小。 ③杨辉三角中的各数字项及其数字的排列很有规律。可依照规律继续写下去。第一行的第一、第二项均为数字１，以后每下一行的首项及末项均为１，中间各项为上一行相邻两项数字之和。五、二项分布的应用二项分布在医学领域中，主要应用在下列几个方面： ①总体率的可信区间估计， ②率的u检验， ③样本率与总体率比较的直接计算概率法。（一）应用二项分布计算概率例如出生男孩的概率π=0.5，出生女孩的概率为（1-π）=0.5。在一个妇产医院里有3名产妇分娩3名新生儿，其中男孩为X=0,1,2,3的概率按公式计算的结果列于表7-1的第（3）栏中。分析：根据题意，已知生育男孩为事件A，其概率P(A)=0.5（即π=0.5）；生育女孩为事件A -，其概率为P(A-)=1-P(A)=1-0.5＝0.5（即1-π =0.5）。三个妇女生育均为女孩（即无男孩）的概率为：三个妇女生育一个男孩，两个女孩的概率为： (二)样本率与总体率的比较的直接概率法此法适用nπ和n(1-π)均小于5的情形。应注意： ①当样本率大于总体率时，应计算大于等于阳性人数的累积概率。 ②当样本率小于总体率时，应计算小于等于阳性人数的累积概率。例 A药治疗某病的有效率为80％。对A药进行改进后，用改进型A药继续治疗病人，观察疗效。 ①如果用改进型A药治疗20例病人，19例有效。 ②如果用改进型A药治疗30例病人，29例有效。试分析上述二种情形下，改进型A药是否疗效更好。分析: A药有效率为80％，可以作为总体率，即π0＝0.8 。治疗20例病人的样本有效率为（19／20）×100％＝95％；治疗30例病人的样本有效率为（29／30）×100％＝96.67％。两个样本率均大于总体率80％，故应计算大于等于有效例数的单侧累积概率。情形一：治疗20例病人的疗效分析（1）建立检验假设 H0：改进型A药的疗效与原A药相同，π＝π0＝0.80 H1: 改进型A药的疗效高于原A药，π ＞ π0 ＝0.80 单侧α ＝0.05 （2）计算概率值根据二项分布有： = 0.0548+0.0115=0.0663 （3）推断结论本例P＝0.0663＞0.05,在0.05检验水准上,不拒绝H0。尚不能认为改进型A药的疗效优于原A药。情形二：治疗30例病人的疗效分析（1）检验假设同情形一。（2）计算单侧累积概率有： =0.008975+0.001238=0.0102 （3）推断结论本例P＝0.0102,在＝0.05水准上,拒绝H0,接受H1。可以认为改进型A药的疗效优于原A药。注意：治疗20例病人的有效率为95％，治疗30例病人的有效率为96.67％，两个样本有效率很接近。但最终得出的结论却不相同。一般地，临床上观察疗效，样本含量不能太小。随着观察例数的增加，疗效的稳定性及可靠性也相应增加，受到偶然因素影响的机会也变得较小。例一般人群对B药的副作用反应率为1％。调查使用B药者300人，其中只有1人出现副作用。问该调查人群对B药的副作用反应率是否低于一般人群。分析:本例总体率＝1％。调查人群样本反应率为（1／300）×100％＝0.33％。由于样本率小于总体率，故应计算小于等于阳性人数的累积概率。（1）建立检验假设 H0：调查人群反应率与一般人群相同， π＝π0＝0.01 H1: 调查人群反应率低于一般人群， π<π0 ＝0.01 单侧α ＝0.05 （2）计算单侧累积概率 : （3）推断结论本例 P＝0.1976,在α＝0.05水准上,不拒绝H0。尚不能认为调查人群的B药副作用反应率低于一般人群。第二节 Poisson分布及其应用一、Poisson分布的概念及应用条件 (一)Poisson分布的概念 Poisson分布由法国数学家S.D.Poisson在1837年提出。该分布也称为稀有事件模型，或空间散布点子模型。在生物学及医学领域中，某些现象或事件出现的机会或概率很小，这种事件称为稀有事件或罕见事件。稀有事件出现的概率分布服从Poisson分布。 Poisson分布的直观描述：如果稀有事件A在每个单元（设想为n次试验）内平均出现λ次，那么在一个单元（n次）的试验中，稀有事件A出现次数X的概率分布服从Poisson分布。 Poisson分布属于离散型分布。在Poisson分布中，一个单元可以定义为是单位时间，单位面积，单位体积或单位容积等。如每天8小时的工作时间，一个足球场的面积，一个立方米的空气体积，1升或1毫升的液体体积,培养细菌的一个平皿，一瓶矿泉水等都可以认为是一个单元。一个单元的大小往往是根据实际情况或经验而确定的。若干个小单元亦可以合并为一个大单元。二)常见Poisson分布的资料在实际工作及科研中，判定一个变量是否服从Poisson分布仍然主要依靠经验以及以往累积的资料。以下是常见的Poisson分布的资料： 1.产品抽样中极坏品出现的次数；2.枪打飞机击中的次数； 3.患病率较低的非传染性疾病在人群中的分布；4.奶中或饮料中的病菌个数； 5.自来水中的细菌个数；6.空气中的细菌个数及真菌饱子数； 7.自然环境下放射的粒子个数；8.布朗颗粒数；9.三胞胎出生次数； 10.正式印刷品中错误符号的个数；11.通讯中错误符号的个数； 12.人的自然死亡数；13.环境污染中畸形生物的出现情况； 14.连体婴儿的出现次数；15.野外单位面积某些昆虫的随机分布； 16.单位容积内细胞的个数；17.单位空气中的灰尘个数；18.平皿中培养的细菌菌落数等。二、Poison分布的概率函数及性质如果稀有事件A在每个单元（设想为n次试验）内平均出现λ次，那么在一个单元（n次）的试验中，稀有事件A出现次数X的概率分布服从Poisson分布。（X=0,1,2,…）其中λ＞0，则称X服从参数λ为的Poisson分布。记为X～P(λ)。式中：λ为总体均数，λ＝nπ或λ=np；X为稀有事件发生次数；e为自然底数，即e =2.71828 v P（0）= e－λ (二) 性质 1. 所有概率函数值（无穷多个）之和等于1，即 2.分布函数 v （X=0,1,2,…x） 3.累积概率 v （0≤x1＜x2） 4.其它性质总体均数: μ ＝λ＝nπ (或np) 方差：σ 2＝λ 标准差：（三）Poisson分布的图形一般地，Poisson分布的图形取决于λ值的大小。λ值愈小，分布愈偏；λ值愈大，分布愈趋于对称。当λ＝20时，分布接近正态分布。此时可按正态分布处理资料。当λ＝50时，分布呈正态分布。。这里通过计算一个具体实例来观察Poisson分布的概率分布趋势。例计算Poisson分布X~P(3.5)的概率。（四）Poisson分布的可加性从同一个服从Poisson分布的总体中抽取若干个样本或观察单元，分别取得样本计数值X1，X2，X3，…，Xn，则∑Xi 仍然服从Poisson分布。根据此性质，若抽样时的样本计数X值较小时，可以多抽取几个观察单元，取得计数Xi,将其合并以增大X计数值。三、Poisson分布与二项分布的比较 Poisson分布也是以贝努里模型为基础的。实际上，Poisson分布是二项分布的一种特殊情形，即稀有事例A出现的概率很小，而试验次数n很大，也可将试验次数n看作是一个单元。此时， n或np =λ为一个常数，二项分布就非常近似Poisson分布。p愈小，n愈大，近似程度愈好。设λ＝1。当n=100, =0.01时，及n=1000, =0.001时，按照二项分布及Poisson分布计算概率P（X）。 .按二项分布计算已知： n=100, π =0.01, 1－π =0.99 ，代入公式有： 2.按Poisson分布计算代入公式有：（四）Poisson分布的应用 Poisson分布有多种用途。主要包括总体均数可信区间的估计，样本均数与总体均数的比较，两样本均数的比较等。应用Poisson分布处理医学资料时，一定要注意所处理资料的特点和性质，资料是否服从Poisson分布。（一）总体均数的估计总体均数的估计包括点估计和区间估计。点估计是指由样本获得的稀有事件A出现的次数X值，作为总体均数的估计值。该法的优点是计算简便，但缺点是无法得知样本代表总体均数的可信程度。区间估计可以确切获知总体均数落入一个区域的可信度，一般可信度取95％或99％。估计总体均数可信区间一般分为小样本法和大样本法。 1.小样本法当样本均数或样本计数值X≤50时，可直接查 “Poisson分布的可信区间”表，得到可信区间（略）。 2.正态近似法当样本均数或计数X＞50时，可按正态分布法处理。总体均数λ95％的可信区间为总体均数λ99％的可信区间为例某防疫站检测某天然水库中的细菌总数。平均每毫升288个细菌菌落。求该水体每毫升95％和99％的可信区间。应用公式有： λ95％的可信区间 =（255.74，320.26） λ99％的可信区间=（244.22，331.78）例调查1985年某市某区30万人，流行性出血热发病人数为204人。求该市发病人数及发病率（1／10万）95％的可信区间。分析：已知样本均数X为204人，观察单元n＝30万人。先计算出发病人数的可信区间，再按照发病率的要求以10万人作为观察单元，计算发病率可信区间的上下限值。 (1) 发病人数的95％可信区间为：=（176，232） (2) 发病率的95％可信区间为：上限值：下限值：（二）样本均数与总体均数的比较常用的方法有两种。 ①直接计算概率法：与二项分布的计算思路基本相同。即当λ＜20时，按Poisson分布直接计算概率值。 ②正态近似法：当λ≥20时，Poisson分布接近正态分布。按正态分布使用u检验处理资料。 1.直接计算概率法例某地区以往胃癌发病率为1／万。现在调查10万人，发现3例胃癌病人。试分析该地区现在的胃癌发病率是否低于以往的发病率。 H0: 现在胃癌发病率与以往相同，π ＝π0 =0.0001 H1：现在胃癌发病率低于以往， π < π0 单侧α ＝0.05 （2）计算概率值已知：n=100000， π =0.0001，λ＝n π =100000×0.0001=10。根据题意，应计算小于等于3人发病的概率P（X≤3），即：P（X≤3）＝P(0)＋P(1)+P(2)+P(3) （3）推断结论本例P＝0.0103，小于P＝0.05。在α＝0.05水准上拒绝H0，接受H1。可以认为现在该地区胃癌发病率低于以往发病率。 2．正态近似法当λ≥20时，用u检验法例根据医院消毒卫生标准，细菌总数按每立方米菌落形成单位（CFU／m3）表示。无菌间的卫生标准为细菌菌落数应不大于200（CFU／m3）。某医院引进三氧消毒机，每天自动对无菌间进行2小时消毒。对无菌间抽样调查显示，细菌总数为121CFU／m3。试问该医院无菌间的细菌总数是否低于国家卫生标准。 q (1) 建立检验假设 H0: 无菌间的细菌总数符合国家卫生标准，λ=λ0=200 H1: 无菌间的细菌总数低于国家卫生标准，λ<λ0 单侧α＝0.05 q （2）计算u值： q 已知：λ0＝200 CFU／m3, X＝121 CFU／m3，代入公式有： (3)确定P值查u界值表,单侧u0. 05=1.64,现u>u0. 05, 故P<0.05。 ⑷推断结论因P<0.05，拒绝H0, 接受H1, 差异有统计学意义。可以认为该医院无菌间的细菌总数低于国家卫生标准。例某地区以往恶性肿瘤发病率为126.98／10万人。今调查发现，该地区恶性肿瘤发病率上升为148.62/10万人。试分析现在的发病率是否高于以往的发病率。（1）建立检验假设 H0: 现在的发病率与以往的发病率相同，λ＝λ0＝126.98 H1: 现在的发病率高于以往的发病率，λ＞λ0 单侧＝0.05 （2）计算u值：（3）确定P值本例u=1.92，大于单侧u0.05=1.64,则P＜0.05。（4）推断结论在＝0.05水准上拒绝H0，接受H1，差异有统计学意义。可以认为该地区恶性肿瘤发病率高于以往的发病率。（三）两样本均数的比较应用条件要求资料服从Poisson分布，两个样本均数X1及X2均大于20。 1．两样本观察单元相同观察单元可以指单位面积、容积、体积、时间等。注意：Poisson分布中的观察单元具有可加性，如∑X1和∑X2。检验公式为：例空气中负离子状况可以反映空气的新鲜感及污染状况。现调查某风景名胜区不同地点的负离子状况。海拔较高的山上风景点负离子数为240个／cm3。该景区商业区的百货大楼内的负离子数为146个／cm3。试分析该风景区两个不同地点负离子状况有无差异。 (1) 建立检验假设 H0: 两地点负离子状况相同，λ1＝λ2 H1: 两地点负离子状况不同，λ1≠λ2 双侧0.001 （2）计算u值: (3)确定P值 u0.001=3.2905，现u> u0.001, 故P<0.001。 ⑷推断结论因P<0.001，拒绝H0, 接受H1, 差异有统计学意义。可以认为该风景区两个不同地点的空气负离子状况有差异。例调查某地区人群死亡状况。结果显示，男性及女性的意外死亡率分别为62人／10万人和72人／10万人。试分析男女意外死亡率有无差异。分析：该资料服从Poisson分布，每10万人可以作为一个观察单元。（1）建立检验假设 H0：男女意外死亡率相等， H1：男女意外死亡率不相等， α=0.05 （2）计算u值： (3）确定P值，推断结论本例u=0.86,小于u0.05=1.96,则P＞0.05。在α ＝0.05水准上，不拒绝H0，无统计学意义。可以认为男女性意外死亡率无差异。例某医院使用一定方法对住院病房进行消毒，并检测某一病房消毒前后的细菌菌落数（CFU／m3）。消毒前后均检测9次。消毒前的菌落数为18,10,9,15,5,2,6,5,2。消毒后的菌落数为5，4，5，6，7，2，3，2，1。试分析该病房消毒前后的卫生状况有无差异。分析：该资料服从Poisson分布。根据Poisson分布的可加性，将9次取样的菌落数相加为一个观察单元。消毒前为∑X1＝72；消毒后为∑X2＝35。（1）建立检验假设 H0：消毒前后菌落数相等，λ1= λ2 H1：消毒前后菌落数不等，λ1≠ λ2 α =0.01 （2）计算u值： (3)确定P值，推断结论本例u=3.58，大于u0.01=2.58，则P＜0.01。在α＝0.01水准上拒绝H0，接受H1。可以认为该病房消毒前后的卫生状况不同。 2．两样本观察单元不同当两样本观察单元不同时，不可直接比较或直接相加后进行比较。一般可计算两样本均数和，再按下式计算u值。例某防疫站检验某商场的两种品牌的矿泉水。检测每ml的细菌总数（CFU／ml）。品牌A抽查4瓶，结果为132，156，182，143；品牌B抽查6瓶，结果为313，298，356，384，348,306。试分析A、B两种品牌矿泉水的细菌总数有无差异。分析：本例观察单元不相同，可以先求出均数。品牌A的均数品牌B的均数（1）建立检验假设 H0：两种品牌矿泉水菌落数相等, λ1= λ2 H1：两种品牌矿泉水菌落数不等, λ1≠ λ2 α=0.05 （2）计算u值：（3）确定P值，推断结论本例u=18.66,大于u0.01=2.58，则P＜0.01。可以认为A、B两种品牌矿泉水受细菌污染程度不同。（五）应用Poisson分布的注意事项 1.Poisson分布的观察单元具有可加性。当样本均数X或样本计数值＜20时，可通过增加或合并观察单元以增大样本均数或样本计数值。当X＞20时，Poisson分布近似正态分布，可按正态分布进行Poisson分布均数比较的u检验。 2. Poisson分布的观察单元可以由大缩小，而不可以由小扩大。例如，实际观察1个平皿中的细菌菌落数为34个，不能据此将其扩大而认为10个平皿的菌落数为340个。如果实际观察了10个平皿的菌落数为340个，可以将其缩小而认为2个平皿有68个菌落数。 3．判断一组数据或一个资料是否服从Poisson分布，主要是依靠以往积累的经验或专业知识。必要时也可进行拟合优度检验以确定资料分布类型。

展开阅读全文

第6章 总体率的区间估计和假设检验.doc

第6章总体率的区间估计和假设检验.doc