资源描述
第6章 总体率的区间估计和假设检验
w 掌握率的抽样误差的概念和意义
w 掌握总体率区间估计的概念意义和计算方法
w 掌握率的U检验的概念和条件,计算方法
w 第一节 率的抽样误差与总体率的区间估计
一、率的抽样误差:在同一总体中按一定的样本含量n抽样,样本率和总体率或样本率之间也存在着差异,这种差异称为率的抽样误差。
率的抽样误差的大小是用率的标准误来表示的。
例6.1 检查居民800人粪便中蛔虫阳性200人,阳性率为25%,试求阳性率的标准误。
本例:n=800,p=0.25,1-p=0.75,
二、总体率的区间估计
㈠正态分布法
样本含量n足够大,np与n(1-p)均≥5时 ,
例6.2 求例6.1当地居民粪便蛔虫阳性率的95%可信区间和99%的可信区间。
95%的可信区间为:25%±1.96×1.53% 即(22.00%,28.00%)
99%的可信区间为:25%±2.58×1.53% 即(21.05%,28.95%)
㈡ 查表法
当样本含量较小(如n≤50),np或n(1-p)<5时,样本率的分布呈二项分布,总体率的可信区间可据二项分布的理论求得。
第二节 率的u检验
应用条件:样本含量n足够大, np与n(1-p)均≥5 。
此时,样本率p也是以总体率为中心呈正态分布或近似正态分布的 。
一、样本率与总体率比较的u检验
w u值的计算公式为 :
例6.5 根据以往经验,一般胃溃疡病患者有20%(总体率)发生胃出血症状。现某医生观察65岁以上胃溃疡病人152例,其中48例发生胃出血,占31.6%(样本率)。问老年胃溃疡病患者是否较一般胃溃疡病患者易发生胃出血。
计算结果及判断
判断:u=3.58 > u0.05=1. 64(单侧), P<0.05。
在α=0.05水准上,拒绝H0,接受H1,差异有统计学意义。
二、两样本率比较的u检验
适用条件为两样本的np和n(1-p)均大于5。
计算公式为
例6.6 某中药研究所试用某种草药预防流感,观察用药组和对照组(未用药组)的流感发病率,其结果见表6-1。问两组流感发病率有无差别?
表6-1 用药组和对照组流感发病率比较
组 别
观察人数
发病人数
发病率(%)
用药组
100
14
14
对照组
120
30
25
合 计
220
44
20
第七章 二项分布与Poisson分布
第一节 二项分布及其应用
一、二项分布的概念及应用条件
二项分布(binominal distribution) 是一种重要的离散型分布,在医学上常遇到属于两分类的资料,每一观察单位只具有相互独立的一种结果,如检查结果的阳性或阴性,动物试验的生存或死亡,对病人治疗的有效或无效等。
二项分布 也称为贝努里分布(Bernoulli distribution)或贝努里模型,是由法国数学家J.Bernoulli于1713年首先阐述的概率分布。
如果已知发生某一结果(如阳性)的概率为π,其对立结果(阴性)的概率为(1-π),且各观察单位的观察结果相互独立,互不影响,则从该总体中随机抽取n例,其中出现阳性数为X (X=0,1,2,3,…,n)的概率服从二项分布。
贝努里模型应具备下列三个基本条件
试验结果只出现对立事件A或,两者只能出现其中之一。这种事件也称为互斥事件。
试验结果是相互独立,互不影响的。例如,一个妇女生育男孩或女孩,并不影响另一个妇女生育男孩或女孩等。
每次试验中,出现事件A的概率为π ,而出现对立事件的概率为1- π 。则有总概率 π +(1- π )=1。
二、 二项分布的概率函数
根据贝努里模型进行试验的三个基本条件,可以求出在n 次独立试验下,事件A出现的次数X的概率分布。X为离散型随机变量,其可以取值为0,1,2,…,n。
则X的概率函数为: X=0,1,2,3…..,n
式中:0<π<1, 为组合数,上述公式称随机变量X服从参数为n,π的二项分布,则记为X~B(n,π)。
三、 二项分布的性质
1. 二项分布的每种组合的概率符合二项展开式,其总概率等于1
二项展开式有以下特点:
(1)展开式的项数为n+1。
(2)展开式每项π和(1- π )指数之和为n。
(3)展开式每项π的指数从0到n;(1- π )的指数从n到0。
2. 二项分布的累积概率 设m1≤X≤m2 (m1<m2), 则X在m1至m2区间的累积概率有:
至多有x例阳性的概率为: X=0,1,2,…,x (7.4)
至少有x例阳性的概率为: X=x,x+1,…,n
分别为下侧累计概率,和上侧累计概率。
3.二项分布的概率分布图形
以X为横坐标,P(X)为纵坐标,在坐标纸上可绘出二项分布的图形, 由于X为离散型随机变量,二项分布图形由横坐标上孤立点的垂直线条组成。
二项分布的图形取决于与n的大小。当n充分大时,二项分布趋向对称,可以证明其趋向正态分布。
一般地,如果nπ之积大于5时,分布接近正态分布;当nπ<5时,图形呈偏态分布。当π =0.5时,图形分布对称,近似正态。如果π≠0.5或距0.5较远时,分布呈偏态。
4.二项分布的数字特征
(这里的数字特征主要指总体均数、方差、标准差等参数)
(1)随机变量X的数学期望E(X)=μ,即指总体均数: μ =nπ
(2)随机变量X的方差D(X)=σ 2 为:
(3)随机变量X的标准差为:
四、二项分布展开式各项的系数
二项分布展开式的各项之前均有一个系数,用组合公式来表示。计算公式为:
该系数也可用杨辉三角来表示,国外参考书习惯称之为巴斯噶三角。 当试验次数n较小时,可直接利用杨辉三角将二项分布展开式各项的系数写出来,应用十分方便。
杨辉三角的意义:
①杨辉三角中每行有几个数字,表示展开式有几项。当试验次数为n 时,有n+1项。
②杨辉三角中每行中的数字表示展开式中每项的系数大小。
③杨辉三角中的各数字项及其数字的排列很有规律。可依照规律继续写下去。第一行的第一、第二项均为数字1,以后每下一行的首项及末项均为1,中间各项为上一行相邻两项数字之和。
五、二项分布的应用
二项分布在医学领域中,主要应用在下列几个方面:
①总体率的可信区间估计,
②率的u检验,
③样本率与总体率比较的直接计算概率法。
(一)应用二项分布计算概率
例 如出生男孩的概率π=0.5,出生女孩的概率为(1-π)=0.5。在一个妇产医院里有3名产妇分娩3名新生儿,其中男孩为X=0,1,2,3的概率按公式计算的结果列于表7-1的第(3)栏中。
分析:根据题意,已知生育男孩为事件A,其概率P(A)=0.5(即π=0.5);生育女孩为事件A -,其概率为P(A-)=1-P(A)=1-0.5=0.5(即1-π =0.5)。
三个妇女生育均为女孩(即无男孩)的概率为:
三个妇女生育一个男孩,两个女孩的概率为:
(二)样本率与总体率的比较的直接概率法
此法适用nπ和n(1-π)均小于5的情形。
应注意:
①当样本率大于总体率时,应计算大于等于阳性人数的累积概率。
②当样本率小于总体率时,应计算小于等于阳性人数的累积概率。
例 A药治疗某病的有效率为80%。对A药进行改进后,用改进型A药继续治疗病人,观察疗效。
①如果用改进型A药治疗20例病人,19例有效。
②如果用改进型A药治疗30例病人,29例有效。
试分析上述二种情形下,改进型A药是否疗效更好。
分析: A药有效率为80%,可以作为总体率,即π0=0.8 。治疗20例病人的样本有效率为(19/20)×100%=95%;治疗30例病人的样本有效率为(29/30)×100%=96.67%。两个样本率均大于总体率80%,故应计算大于等于有效例数的单侧累积概率。
情形一:治疗20例病人的疗效分析
(1)建立检验假设
H0:改进型A药的疗效与原A药相同,π=π0=0.80
H1: 改进型A药的疗效高于原A药,π > π0 =0.80
单侧α =0.05
(2)计算概率值 根据二项分布有:
= 0.0548+0.0115=0.0663
(3)推断结论 本例P=0.0663>0.05,在0.05检验水准上,不拒绝H0。尚不能认为改进型A药的疗效优于原A药。
情形二:治疗30例病人的疗效分析
(1)检验假设同情形一。
(2)计算单侧累积概率有:
=0.008975+0.001238=0.0102
(3)推断结论 本例P=0.0102,在=0.05水准上,拒绝H0,接受H1。可以认为改进型A药的疗效优于原A药。
注意:治疗20例病人的有效率为95%,治疗30例病人的有效率为96.67%,两个样本有效率很接近。但最终得出的结论却不相同。一般地,临床上观察疗效,样本含量不能太小。随着观察例数的增加,疗效的稳定性及可靠性也相应增加,受到偶然因素影响的机会也变得较小。
例 一般人群对B药的副作用反应率为1%。调查使用B药者300人,其中只有1人出现副作用。问该调查人群对B药的副作用反应率是否低于一般人群。
分析:本例总体率=1%。调查人群样本反应率为(1/300)×100%=0.33%。由于样本率小于总体率,故应计算小于等于阳性人数的累积概率。
(1)建立检验假设
H0:调查人群反应率与一般人群相同, π=π0=0.01
H1: 调查人群反应率低于一般人群, π<π0 =0.01
单侧α =0.05
(2)计算单侧累积概率 :
(3)推断结论 本例 P=0.1976,在α=0.05水准上,不拒绝H0。尚不能认为调查人群的B药副作用反应率低于一般人群。
第二节 Poisson分布及其应用
一、Poisson分布的概念及应用条件
(一)Poisson分布的概念
Poisson分布由法国数学家S.D.Poisson在1837年提出。该分布也称为稀有事件模型,或空间散布点子模型。在生物学及医学领域中,某些现象或事件出现的机会或概率很小,这种事件称为稀有事件或罕见事件。稀有事件出现的概率分布服从Poisson分布。
Poisson分布的直观描述:如果稀有事件A在每个单元(设想为n次试验)内平均出现λ次,那么在一个单元(n次)的试验中,稀有事件A出现次数X的概率分布服从Poisson分布。
Poisson分布属于离散型分布。在Poisson分布中,一个单元可以定义为是单位时间,单位面积,单位体积或单位容积等。如每天8小时的工作时间,一个足球场的面积,一个立方米的空气体积,1升或1毫升的液体体积,培养细菌的一个平皿,一瓶矿泉水等都可以认为是一个单元。一个单元的大小往往是根据实际情况或经验而确定的。若干个小单元亦可以合并为一个大单元。
二)常见Poisson分布的资料
在实际工作及科研中,判定一个变量是否服从Poisson分布仍然主要依靠经验以及以往累积的资料。以下是常见的Poisson分布的资料:
1.产品抽样中极坏品出现的次数;2.枪打飞机击中的次数;
3.患病率较低的非传染性疾病在人群中的分布;4.奶中或饮料中的病菌个数;
5.自来水中的细菌个数;6.空气中的细菌个数及真菌饱子数;
7.自然环境下放射的粒子个数;8.布朗颗粒数;9.三胞胎出生次数;
10.正式印刷品中错误符号的个数;11.通讯中错误符号的个数;
12.人的自然死亡数;13.环境污染中畸形生物的出现情况;
14.连体婴儿的出现次数;15.野外单位面积某些昆虫的随机分布;
16.单位容积内细胞的个数;17.单位空气中的灰尘个数;18.平皿中培养的细菌菌落数等。二、Poison分布的概率函数及性质
如果稀有事件A在每个单元(设想为n次试验)内平均出现λ次,那么在一个单元(n次)的试验中,稀有事件A出现次数X的概率分布服从Poisson分布。
(X=0,1,2,…)
其中λ>0,则称X服从参数λ为的Poisson分布。
记为X~P(λ)。式中:λ为总体均数,λ=nπ或λ=np;X为稀有事件发生次数;e为自然底数,即e =2.71828
v P(0)= e-λ
(二) 性质
1. 所有概率函数值(无穷多个)之和等于1,即
2.分布函数
v (X=0,1,2,…x)
3.累积概率
v (0≤x1<x2)
4.其它性质
总体均数: μ =λ=nπ (或np)
方差:σ 2=λ
标准差:
(三)Poisson分布的图形
一般地,Poisson分布的图形取决于λ值的大小。λ值愈小,分布愈偏;λ值愈大,分布愈趋于对称。当λ=20时,分布接近正态分布。此时可按正态分布处理资料。当λ=50时,分布呈正态分布。。这里通过计算一个具体实例来观察Poisson分布的概率分布趋势。
例 计算Poisson分布X~P(3.5)的概率。
(四)Poisson分布的可加性
从同一个服从Poisson分布的总体中抽取若干个样本或观察单元,分别取得样本计数值X1,X2,X3,…,Xn,则∑Xi 仍然服从Poisson分布。根据此性质,若抽样时的样本计数X值较小时,可以多抽取几个观察单元,取得计数Xi,将其合并以增大X计数值。
三、Poisson分布与二项分布的比较
Poisson分布也是以贝努里模型为基础的。实际上,Poisson分布是二项分布的一种特殊情形,即稀有事例A出现的概率很小,而试验次数n很大,也可将试验次数n看作是一个单元。此时, n或np =λ为一个常数,二项分布就非常近似Poisson分布。p愈小,n愈大,近似程度愈好。
设λ=1。当n=100, =0.01时,及n=1000, =0.001时,按照二项分布及Poisson分布计算概率P(X)。
.按二项分布计算
已知: n=100, π =0.01, 1-π =0.99 ,代入公式有:
2.按Poisson分布计算 代入公式有:
(四)Poisson分布的应用
Poisson分布有多种用途。主要包括总体均数可信区间的估计,样本均数与总体均数的比较,
两样本均数的比较等。 应用Poisson分布处理医学资料时,一定要注意所处理资料的特点和性质,资料是否服从Poisson分布。
(一)总体均数的估计
总体均数的估计包括点估计和区间估计。
点估计是指由样本获得的稀有事件A出现的次数X值,作为总体均数的估计值。该法的优点是计算简便,但缺点是无法得知样本代表总体均数的可信程度。
区间估计可以确切获知总体均数落入一个区域的可信度,一般可信度取95%或99%。
估计总体均数可信区间一般分为小样本法和大样本法。
1.小样本法 当样本均数或样本计数值X≤50时,可直接查 “Poisson分布的可信区间”表,得到可信区间(略)。
2.正态近似法 当样本均数或计数X>50时,可按正态分布法处理。
总体均数λ95%的可信区间为
总体均数λ99%的可信区间为
例 某防疫站检测某天然水库中的细菌总数。平均每毫升288个细菌菌落。求该水体每毫升95%和99%的可信区间。
应用公式有: λ95%的可信区间 =(255.74,320.26)
λ99%的可信区间=(244.22,331.78)
例 调查1985年某市某区30万人,流行性出血热发病人数为204人。求该市发病人数及发病率(1/10万)95%的可信区间。
分析:已知样本均数X为204人,观察单元n=30万人。先计算出发病人数的可信区间,再按照发病率的要求以10万人作为观察单元,计算发病率可信区间的上下限值。
(1) 发病人数的95%可信区间为:=(176,232)
(2) 发病率的95%可信区间为: 上限值:
下限值:
(二)样本均数与总体均数的比较
常用的方法有两种。
①直接计算概率法:与二项分布的计算思路基本相同。即当λ<20时,按Poisson分布直接计算概率值。
②正态近似法:当λ≥20时,Poisson分布接近正态分布。按正态分布使用u检验处理资料。
1.直接计算概率法
例 某地区以往胃癌发病率为1/万。现在调查10万人,发现3例胃癌病人。试分析该地区现在的胃癌发病率是否低于以往的发病率。
H0: 现在胃癌发病率与以往相同,π =π0 =0.0001
H1: 现在胃癌发病率低于以往, π < π0
单侧α =0.05
(2)计算概率值
已知:n=100000, π =0.0001,λ=n π =100000×0.0001=10。
根据题意,应计算小于等于3人发病的概率P(X≤3),
即:P(X≤3)=P(0)+P(1)+P(2)+P(3)
(3)推断结论 本例P=0.0103,小于P=0.05。在α=0.05水准上拒绝H0,接受H1。可以认为现在该地区胃癌发病率低于以往发病率。
2.正态近似法 当λ≥20时,用u检验法
例 根据医院消毒卫生标准,细菌总数按每立方米菌落形成单位(CFU/m3)表示。无菌间的卫生标准为细菌菌落数应不大于200(CFU/m3)。某医院引进三氧消毒机,每天自动对无菌间进行2小时消毒。对无菌间抽样调查显示,细菌总数为121CFU/m3。试问该医院无菌间的细菌总数是否低于国家卫生标准。
q (1) 建立检验假设
H0: 无菌间的细菌总数符合国家卫生标准,λ=λ0=200
H1: 无菌间的细菌总数低于国家卫生标准,λ<λ0
单侧α=0.05
q (2)计算u值:
q 已知:λ0=200 CFU/m3, X=121 CFU/m3,代入公式有:
(3)确定P值 查u界值表,单侧u0. 05=1.64,现u>u0. 05, 故P<0.05。
⑷推断结论 因P<0.05,拒绝H0, 接受H1, 差异有统计学意义。
可以认为该医院无菌间的细菌总数低于国家卫生标准。
例 某地区以往恶性肿瘤发病率为126.98/10万人。今调查发现,该地区恶性肿瘤发病率上升为148.62/10万人。试分析现在的发病率是否高于以往的发病率。
(1)建立检验假设
H0: 现在的发病率与以往的发病率相同,λ=λ0=126.98
H1: 现在的发病率高于以往的发病率,λ>λ0
单侧=0.05
(2)计算u值:
(3)确定P值 本例u=1.92,大于单侧u0.05=1.64,则P<0.05。
(4)推断结论 在=0.05水准上拒绝H0,接受H1,差异有统计学意义。可以认为该地区恶性肿瘤发病率高于以往的发病率。
(三)两样本均数的比较
应用条件要求资料服从Poisson分布,两个样本均数X1及X2均大于20。
1. 两样本观察单元相同 观察单元可以指单位面积、容积、体积、时间等。
注意:Poisson分布中的观察单元具有可加性,如∑X1和∑X2。检验公式为:
例 空气中负离子状况可以反映空气的新鲜感及污染状况。现调查某风景名胜区不同地点的负离子状况。海拔较高的山上风景点负离子数为240个/cm3。该景区商业区的百货大楼内的负离子数为146个/cm3。试分析该风景区两个不同地点负离子状况有无差异。
(1) 建立检验假设
H0: 两地点负离子状况相同,λ1=λ2
H1: 两地点负离子状况不同,λ1≠λ2
双侧0.001
(2)计算u值:
(3)确定P值 u0.001=3.2905,现u> u0.001, 故P<0.001。
⑷推断结论 因P<0.001,拒绝H0, 接受H1, 差异有统计学意义。
可以认为该风景区两个不同地点的空气负离子状况有差异。
例 调查某地区人群死亡状况。结果显示,男性及女性的意外死亡率分别为62人/10万人和72人/10万人。试分析男女意外死亡率有无差异。
分析:该资料服从Poisson分布,每10万人可以作为一个观察单元。
(1)建立检验假设
H0:男女意外死亡率相等,
H1:男女意外死亡率不相等,
α=0.05
(2)计算u值:
(3)确定P值,推断结论 本例u=0.86,小于u0.05=1.96,则P>0.05。
在α =0.05水准上,不拒绝H0,无统计学意义。可以认为男女性意外死亡率无差异。
例 某医院使用一定方法对住院病房进行消毒,并检测某一病房消毒前后的细菌菌落数(CFU/m3)。消毒前后均检测9次。消毒前的菌落数为18,10,9,15,5,2,6,5,2。消毒后的菌落数为5,4,5,6,7,2,3,2,1。试分析该病房消毒前后的卫生状况有无差异。
分析:该资料服从Poisson分布。根据Poisson分布的可加性,将9次取样的菌落数相加为一个观察单元。消毒前为∑X1=72;消毒后为∑X2=35。
(1)建立检验假设
H0:消毒前后菌落数相等,λ1= λ2
H1:消毒前后菌落数不等,λ1≠ λ2
α =0.01
(2)计算u值:
(3)确定P值,推断结论 本例u=3.58,大于u0.01=2.58,则P<0.01。在α=0.01水准上拒绝H0,接受H1。
可以认为该病房消毒前后的卫生状况不同。
2.两样本观察单元不同 当两样本观察单元不同时,不可直接比较或直接相加后进行比较。 一般可计算两样本均数和,再按下式计算u值。
例 某防疫站检验某商场的两种品牌的矿泉水。检测每ml的细菌总数(CFU/ml)。品牌A抽查4瓶,结果为132,156,182,143;品牌B抽查6瓶,结果为313,298,356,384,348,306。试分析A、B两种品牌矿泉水的细菌总数有无差异。
分析:本例观察单元不相同,可以先求出均数。
品牌A的均数
品牌B的均数
(1)建立检验假设
H0:两种品牌矿泉水菌落数相等, λ1= λ2
H1:两种品牌矿泉水菌落数不等, λ1≠ λ2
α=0.05
(2)计算u值:
(3)确定P值,推断结论 本例u=18.66,大于u0.01=2.58,则P<0.01。可以认为A、B两种品牌矿泉水受细菌污染程度不同。
(五)应用Poisson分布的注意事项
1.Poisson分布的观察单元具有可加性。当样本均数X或样本计数值<20时,可通过增加或合并观察单元以增大样本均数或样本计数值。当X>20时,Poisson分布近似正态分布,可按正态分布进行Poisson分布均数比较的u检验。
2. Poisson分布的观察单元可以由大缩小,而不可以由小扩大。例如,实际观察1个平皿中的细菌菌落数为34个,不能据此将其扩大而认为10个平皿的菌落数为340个。如果实际观察了10个平皿的菌落数为340个,可以将其缩小而认为2个平皿有68个菌落数。
3.判断一组数据或一个资料是否服从Poisson分布,主要是依靠以往积累的经验或专业知识。必要时也可进行拟合优度检验以确定资料分布类型。
展开阅读全文