资源描述
统计学概念术语解释2
学习—————好资料
随机变量的概率分布
随机变量和类型 离散性和连续型随机变量 随机变量的概率分布
随机变量的分布的两个重要概念
随机变量和类型
个体间的变异总是客观存在的,所以变量的取值随着个体的变化而变化。故用随机变量表示变量值的可变的特征。
离散性和连续型随机变量
按变量取值的性质,将随机变量分为离散型和连续型两类。一般来说,某变量可在某一实数区间内任意取值,称该变量为连续型随机变量;某变量只取有限个数或可列个数(如取0,1,2,3…,∞),称该变量为离散型随机变量。
随机变量的概率分布
取不同随机变量值的概率按随机变量值的分布称为随机变量的概率分布。
受事物内部客观因素的支配,尽管个体变量值具有随机性,但其变量值的分布是有一定规律的。如例1.1资料中120名7 岁男童身高有不同,但出现不同身高的频数是以均数119.41cm为中心对称分布着,且愈近均数的分布频数愈多,远离均数的频数愈少。 即出现在不同身高范围内的概率按身高的分布是有一定规律的。
概率分布是统计学赖以发展的理论基础,是研究随机现象的基本工具,任何统计方法都离不开特定的统计分布,而不同的分布又各具特性,通过对随机现象分布特征的描述,可以发现内在的客观规律。
随机变量的分布的两个重要概念
关于随机变量的分布有两个重要概念,即分布函数和密度函数。
1. 分布函数F(X) 即总体中个体值小于或等于X的观察值所占的比例,显然,F(X)≥0,且F(-∞)=0,F(∞)=1。即数值取某一数值及以下的累积概率。对应于样本值的累计频率。只要知道了函数F(X),分布的情况就知道了。
2. 密度函数f(X) 对离散型随机变量,f(X)是变量取X值的概率,常记为P(X),显然,
P(X)≥0,ΣP(X)=1;对连续型随机变量,f(X)是F(X)的导函数。即
或
显然, 且 。
一般来说,数值变量资料多属连续型随机变量,分类变量资料属离散型变量。每一个随机变量都有它的分布,离开了分布函数就不能谈随机变量。本章和下一章着重讨论两种最常用的统计分布,即正态分布与二项分布。
正态分布
前面第1.3节中,我们已将表1.1的频数表资料,绘制成图1.1的直方图,显示中间(靠近均数处)频数多,两边频数少,且左右对称的特征。这种指标的频数分布规律往往可以用概率论中一种重要的频数分布—正态分布(normal distribution)来描述。
可以设想, 如果将观察人数逐渐增多,组段不断分细,图中直条将逐渐变窄,其顶端将逐渐接近于一条光滑的曲线,如图3.1所示。图3.1(a) ~ 图3.1(c)为样本例数不断增大时的样本的频率分布,光滑连续曲线图3.1(d)则表示样本所属总体的理论概率分布。
图3.1(a)即是图1.1去掉中间竖分隔线。
图3.1(d)这条曲线称为频数分布曲线或频率分布曲线。用条形面积表示频数大小时,称为频数分布曲线;当每组段的频数除以总频数(n)得到每组段的频率,即当用条形面积表示频率大小时,称为频率分布曲线。
该曲线两头低中间高,略呈钟型,左右对称,近似一理论分布──正态分布。由于频率的总和等于100%或1, 故横轴上曲线下的面积等于100%或1。
图3.1 频数分布逐渐接近正态分布示意图
正态分布又称Gauss分布(Gaussian distribution),是一种很重要的连续型分布,应用甚广。
3.2.1 正态分布的定义
若随机变量的密度函数是:
-∞<X<∞ (3.1)
则称随机变量X服从正态分布,X为正态变量。式中右侧μ为随机变量X的总体均数, σ为标准差,μ和σ是正态分布的两个参数(parameter);π为圆周率,即3.14159;e 为自然对数的底,即2.71828。π和e均为常量,仅X为变量。若X服从均数为μ,方差为σ2的正态分布,则简记为X~N(μ,σ2)。
已知μ和σ,就能按式(3.1)绘出正态曲线的图形。
3.2.2 正态分布的性质
⑴正态分布只有一个高峰,高峰位置在X =μ。这一点由f(X)的定义即知。总体中位数亦为μ。
⑵正态分布以均数为中心,左右对称。
式(3.1)中(X -μ)值无论正负,(X -μ)2恒为正,只要(X -μ)的绝对值相等,则纵高f(X)相等,因此正态分布以均数为中心,左右对称。
⑶正态分布的两个参数,μ和σ,决定了分布的位置和形状。
μ是位置参数,如图3.2,当σ恒定时,μ越大,则曲线沿横轴越向右移动;反之,μ越小, 则曲线沿横轴越向左移动。
σ是变异度参数,如图3.3,当μ恒定时,σ越大,表示数据越分散,曲线越“矮胖”;σ越小,表示数据越集中,曲线越“瘦高”。
有两个参数唯一确定的正态分布总体对应着一条确定的正态分布曲线,不同的正态分布曲线则代表着不同的正态分布总体。
图3.2 不同均数μ时的正态分布示意图
图3.3 不同标准差σ时的正态分布示意图
3.2.3 正态变量的线性变换
线性变换的意义:对于由两个参数唯一确定的正态分布,不同的变量有不同的分布曲线。从实际应用的方便考虑,可将所有服从正态分布的曲线作标准化变换。
变换方法:
对任何服从正态分布N(μ,σ2)的随机变量X作如下线性变换:
(3.2)
都变换成均数为0,方差为1的正态分布,称为标准正态分布(standard normal distribution),简记为u ~N(0,1)。u称为标准正态(离)差(standard normal deviate)。 标准正态分布的密度函数为Φ(u):
-∞<u<∞ (3.3)
式(3.2)也就是将图3.2的原点移到μ的位置,横轴尺度以σ为单位,使变换后的变量成为标准正态变量(图3.4)。这一变换极为重要,它并不影响正态分布的基本性质,却为实际应用带来很大方便。它告诉我们,总可以将一般的正态变量通过线性变换化成同一个标准正态变量。在弄清楚标准正态分布的性质后,也就不难推论到一般正态分布了,如在计算正态曲线下的面积分布时,往往借助标准正态分布而求得。
图3.4 一般正态分布变换成标准正态分布示意图
经过反变换
X =μ+σu (3.4)
可将标准正态变量变换成任意的正态变量。
例:对于正态变换的实际意义的理解
一个身高172cm的成年男士和一个172cm成年女士,为何会认为男士为矮个,而女士为高个呢?
假设对应成年男性身高总体的均数为175cm,标准差3.0; 成年女性身高总体的均数为163cm,标准差3.0;
比较u的大小可以看到男士低于其平均水平,而女士高于其平均水平。
实际工作中,经常需要了解正态曲线下,横轴上的一定区间的面积占总面积的百分数,用以估计当资料服从正态分布时,某区间的例数占总例数的百分数(频率分布),或变量值落在某区间的概率(概率分布)。正态曲线下一定区间的面积,可以通过对式(3.1) 的积分来求得,即
(3.5)
式中F(X)为正态变量X的累计分布函数,反映正态曲线下,横轴尺度自-∞到X的面积, 即左侧累计面积(概率)。
而对式(3.6)的积分,计算更为简便,即
(3.6)
式中Φ(u)为标准正态变量u的累计分布函数,反映标准正态曲线下,横轴尺度自-∞到u的面积,也是左侧累计面积(概率)。为了省去计算的麻烦,统计学家已按式(3.6)编成了标准正态分布曲线下的面积附表1。
例3.1 求标准正态分布曲线下区间(-∞,1.96)的面积。
(1)先求区间(-∞,-1.96)的面积,查附表1知,在表的左侧找到-1.9,在表的上方找到0.06,二者相交处其值为0.0250,意即标准正态分布曲线下区间(-∞,-1.96)的面积是0.0250。正态分布曲线下的面积为1,且关于均数是对称的,故标准正态曲线下对称于0的区间的面积相等。例如区间(1.96,∞)的面积与区间(-∞,-1.96)的面积相等,亦为0.0250(见图3.5(a))。因而附表1只列出Φ(-u)值。
(2)区间(-∞,1.96)的面积为1-(1.96,∞)的面积,即1-0.025=0.975。
例3.2 求标准正态分布曲线下区间(-∞,-2.58)的面积与区间(2.58,∞)的面积。
根据u = -2.58,查附表1,在表的左侧找到-2.5,在表的上方找到0.08,二者相交处为0.0049,意即标准正态分布曲线下区间(-∞,-2.58)的面积是0.0049,约为0.5%。区间(2.58,∞)的面积亦为0.5%(见图3.5(b))。
图3.5 标准正态分布曲线下面积分布示意图
例3.3 求标准正态分布曲线下区间(-1,1)的面积。
区间(-1,1)的面积为(见图3.5(b))
1-(-∞,-1)的面积-(1,∞)的面积=1-2×(-∞,-1)的面积
=1-2×0.1587
=0.6826
一般正态分布曲线下的面积的计算法:
当μ、σ和X已知时,须先按式(3.2)求得u值,意指X -μ是标准差的u倍,再用u 值查附表1,得所求区间面积占总面积的比例。当μ和σ未知时,常分别用样本均数 和样本标准差S对μ和σ做出估计。
例3.4 求正态分布N(119.41,3.382)曲线下区间(110.83,127.99)内的面积。
本例均数为119.41,标准差为3.38。先用公式(3.2)求对应的u值:
uL = (110.83-119.41)/4.38 = -1.96
uU = (127.99-119.41)/4.38 = 1.96
即区间(110.83,127.99)内的面积相当于μ-1.96σ到μ+1.96σ的面积, 等于标准正态分布曲线下区间(-1.96,1.96)的面积,其值为:
1-2×标准正态分布曲线下区间(-∞,1.96)的面积
=1-2×0.025=0.95
即正态分布N(119.41,4.382)曲线下区间(110.83,127.99)内的面积占总面积的95%。
对于近似正态分布的资料,理论上μ±1.96σ及μ±2.58σ的区间面积(该区间的观察单位数)分别各占总面积(总观察单位数)的95%及99%,以后要经常用到。
⑴ 概括估计变量值的频数分布 某些医学现象服从正态分布或近似正态分布,如同性别、同年龄儿童的身高, 同性别健康成人的红细胞数、血红蛋白量、脉搏数等,以及实验中的随机误差,一般表现为正态分布,均可按正态分布原理来处理。对于近似正态分布的资料,只要求得均数和标准差,便可就其频率分布作出概约估计。
例3.5 在例1.1中,某地120名7岁男童的身高,已知均数 =119.41cm,标准差s =4.38cm,试(1)估计该地7岁男童身高在110cm以下者占该地7岁男童总数的百分数。(2)分别求 = ±1s, ±1.96s, ±2.58s范围7岁男童人数占该组儿童总数的实际百分数,说明与理论百分数是否相近。
1) 按式(3.2)求u :u=(10-119.41)/4.38=-2.15 查附表1,得0.0158,即该地7岁男童身高在110cm以下者,估计约占1.58%。
2) 计算结果见表3.1。表中实际分布的“人数”是由例1.1实测数据清点出来的,如120名儿童的实测身高在115.03~123.79cm范围者83人,占总人数的83/120=69.17%,余仿此。将 做为μ的估计值,将s做为σ的估计值,可在直方图的基础上绘制出正态分布曲线,见图3.6。可见本资料的实际分布与理论分布是很接近的。
表3.1 120名7岁男童身高的实际分布与理论分布比较
±us
身高范围
(cm)
实际分布
理论分布(%)
人数
百分数(%)
±1.00s
119.41± 1.00×4.38
115.03- 123.79
83
69.17
68.27
±1.96s
119.41± 1.96×4.38
110.83- 127.99
113
94.17
95.00
±2.58s
119.41± 2.58×4.38
108.11- 130.71
119
99.17
99.00
图3.6 某地120名7岁男童身高的实际频数分布与正态理论分布比较
呈偏态分布的的资料常常可以经过变量变换,然后俺按正态分布规律处理。如环境中某些有害物质的浓度,食品中某些药物的残留量,某些临床检验结果,某些疾病的潜伏期以及医院病人住院天数等呈偏态分布,常在施以对数变换后(即用1ogX代替原数据X,详见7.6节),(这里我们说X服从对数正态分布),按正态分布规律处理。
(2)制定参考值范围
参考值范围(reference ranges),又称正常值范围(normal ranges), 是指绝大多数 正常人的某指标范围。它来源于临床上对疾病诊断和治疗的实际需要,系指正常人的解剖、生理、生化等各项指标观察值的波动范围。由于这些观测值因人、因时而异,故不能将某个人某时的观察值作为正常值,而必须确定一个波动范围。如一般以4000~10000个/mm3作为成人白细胞总数的正常值范围。 实际工作中常将正常值范围简称为正常值,但不能因此忘却范围的概念。
现代医学对正常值的概念有了较大的发展,如卫生学上对食品、空气、水、化妆品等的卫生标准的制订;流行病学中某传染病隔离期限的确定;在儿少卫生中不同性别、年龄儿童的各项生长发育指标的等级标准的确定;在管理工作中工作额定标准的制订;动物实验中标准动物的确定等等。凡此种种,有个共同点就是确定标准,用于分类判别和综合评价。因此,正常值范围的应用领域、研究内容和研究方法都越来越广泛和深入。
1)确定正常值范围的一般原则和步骤
①抽取足够例数的正常人样本 正常值范围是以正常人为对象,根据样本数据来确定的。所谓正常人,并不是指机体的任何器官、组织的形态和机能都是正常的人,而是指排除了影响所研究指标的疾病和有关因素的人。例如某单位研究血清谷-丙转氨酶活性的正常值, 选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史(如氯丙嗪、异烟肼等),测定前未作剧烈运动等。正常人是抽样的同质基础,保证研究对象的同质性是确定正常值范围的首要问题。
正常值范围是根据样本分布来确定的,样本分布愈接近总体分布,所得结果愈可靠,因此要保证样本含量足够多。样本含量的确定应视具体情况提出不同要求,一般认为每组应在100例以上。但不要片面追求大样本,以致掌握“正常”标准不严、测定方法不精确、 操作马虎,影响数据本身的可靠性。
②对选定的正常人进行准确而统一的测定 保证原始资料可靠,是确定正常值范围的前提。为此,必须严格控制检测误差(包括分析仪器的灵敏度,试药的纯度,操作技术的熟练程度,标准的掌握等),进行准确而统一的测定。
③决定取单侧范围值还是双侧范围值 正常值范围是取单侧还是双侧需根据指标的实际用途来确定。如白细胞总数无论过高或过低均属异常,故其正常值范围需要分别确定下限和上限,为双侧范围;又如,肺活量是愈大愈好,通常只以过低为异常,只需确定其下限;尿铅通常只以过高为异常,只需确定其上限,为单侧范围。
④选定适当的百分范围 正常值范围的意思是绝大多数正常人的观察值都在此范围以内。这个绝大多数,习惯上指正常人的80%,90%,95%(最常用)或99%等,需根据正常人和病人的数据分布特点选定这些百分界限。
例如,根据正常人样本确定了血清谷草转氨酶正常值单侧95%上限为37U/L。即容许有5%的正常人被判为异常,称为假阳性;事实上也可能有一部分肝功能异常的病人,其血清谷草转氨酶在37U/L 以下,如果按这个标准就是假阴性。若提高上限值,假阳性可以减少,但假阴性必然增加;反之,若降低上限值,假阴性可以减少,但假阳性必然增加。所以正常值范围的确定,最好把正常人和病人的数据分布结合起来,平衡假阳性和假阴性的比例。
有两种情况:一是正常人和病人的数据分布没有重迭,这时只要求减少假阳性就行了;二是正常人和病人的数据分布有重迭,这时需要兼顾假阳性与假阴性。在正常人和病人的数据分布重迭较多时,也可确定可疑范围。
⑤估计界值 即根据资料的分布类型,样本含量的多少及研究者的要求,选用适当的方法,确定正常值范围的界值。
2)制定参考值范围的方法
(1)正态分布法
4.2节讲述的正态曲线下面积的分布规律,可用于正常值范围的确定。 对于服从正态分布或近似正态分布的资料可按下式估计医学参考值范围:
±us
(4.7)式中 为样本均数,s为样本标准差,常用u值可根据要求由表4.4查出,本表同附表1,只是有效数字多一位。应根据专业知识确定的单侧还是双侧参考值范围,正确运用式(4.7)。
表 4.4 常用u值表
参考值范围(%)
单侧
双侧
80
0.842
1.282
90
1.282
1.645
95
1.645
1.960
99
2.326
2.576
应用本法的条件是资料服从正态分布,样本均数和标准差趋于稳定,样本含量不少于50为宜。亦可用于经变量变换后服从正态分布的资料,如对数正态分布。
例4.6 某地调查正常成年男子144人的红细胞数,近似正态分布,得均数 =5.38×1012/L,标准差s=0.44×1012/L。试估计该地成年男子红细胞数的95%参考值范围。
因红细胞数过多或过少均为异常,故按双侧估计95%界值,按式(4.7):
下限为 -1.960s = 5.38-1.960(0.44) = 4.52(1012/L)
上限为 +1.960s = 5.38+1.960(0.44) = 6.24(1012/L)
即该地成年男子红细胞数的95%参考值范围是4.52~6.24(1012/L)。即超出此范围者可视为异常。
(2)百分位数法
百分位数法估计正常值范围的界值,就是根据正常人样本,计算选定的百分范围所对应的百分位数。见表4.5。
表 4.5常用正常值范围所对应的百分位数Px
参考值范围(%)
单侧
双侧
下限
上限
下限
上限
80
P20
P80
P10
P90
90
P10
P90
P5
P95
95
P5
P95
P2.5
P97.5
99
1
P99
P0.5
P99.5
应用本法的条件是样本含量较多,分布趋于稳定,样本含量不少于150为宜。 其优点是可用于任何分布甚至分布不明的资料。
例4.7 用硫酸-高锰酸钾-硝酸消化法和无火焰原子吸收光谱法测得某市238 名正常人发汞值如表4.6,试确定该市发汞值的95%正常值范围。
发汞值只以过高为异常,故取单侧95%上限。
表4.6 238例正常人发汞值的频数分布
发汞值(μg/g)
频数f
累计频数Σf
累计频率(%)
0.3~
20
20
8.4
0.7~
66
86
36.1
1.1~
60
146
61.3
1.5~
48
194
81.5
1.9~
18
212
89.1
2.3~
16
228
95.8
2.7~
6
234
98.3
3.1~
1
235
98.7
3.5~
0
235
98.7
3.9~4.3
3
238
100.0
P95的位置在“2.3~”组段内,根据公式(1.10),有
据此认为该市发汞值的95%正常值范围(上侧)为2.65μg/g。即大于此值者为异常。
确定正常值范围的方法还很多,如容许区间法,k因子法,分割值法,特定分布法等,
(3)质量控制 为控制实验与生产中的误差,常以 作为上下警戒值, 作为上下控制值,绘制成质量控制图,以保证实验结果与产品的质量。这里2与3是1.96与2.58的近似值。
(4)正态分布是许多统计方法的理论基础 常用的u 检验就是以正态分布为理论基础的假设检验方法。统计推断中常用的χ2分布、t分布与F 分布等都是在正态分布的基础上推导出来的(详见第六章)。某些分布,如t分布、二项分布、Poisson分布等的极限形式均为正态分布,在一定条件下,均可按正态近似的原理来处理。
复习思考题
复习思考题
1. 分布函数与密度函数有何区别与联系?(答案参见内容)
2. 正态分布与标准正态分布有何区别与联系?(答案参见内容)
3. 正态分布N(μ,σ2)中,小于μ-σ者占多大比例?
4. 什么是参考值范围?如何确定参考值范围?
5.双侧95%正常值范围与服从正态分布N(μ,σ2)总体的(μ-1.96σ,μ+1.96σ)范围有何区别与联系?
查看答案
1. 参看概率论基础
2. 参看概率论基础
3. 对应标准正态变量u值为—1,查界值表得对应的概率值为0.1587,即小于 的观察值所占比例为15.87%.
4.答案参见内容4.2.5 正态分布的应用(2)
5.解:前者为根据样本估计的包含了95%正常人的某项医学指标的观察值范围,后者为服从正态分布的总体包含了95%观察值的理论范围。当资料服从正态分布时,前者是以后者为理论基础计算的。
在医学上常遇到一些事件,其结果有且只有两种对立的结果之一,如在毒理试验中,动物的生存与死亡;在动物诱癌试验中,动物发癌与不发癌;在流行病学观察中,接触某危险因素的个体发病与不发病;在药物治疗方案研究中,病人的治愈与未愈;理化检验结果的阴性与阳性等等,均表现为两种对立的结果,每个个体的观察值取且只取其中之一。对这类事件常用二项分布进行描述。
4.1 二项分布的定义
例4.8 设小白鼠接受某种毒物一定剂量时,其死亡率为80%, 对于每只小白鼠来说,其死亡概率为0.8,生存概率为0.2。若每组各用三只小白鼠(分别标记为甲、乙、丙)逐只做实验,观察每组小白鼠存亡情况,如果计算生与死的顺序,则共有8种排列方式,如表4.2第(1)栏所示;如果只计生与死的数目,则只有4种组合方式,如表4.2第(3)(4)栏所示。
表4.2 三只小白鼠存亡的排列和组合方式及其概率的计算
所有可能结果
每种结果的概率
(2)
死亡数
X
(3)
生存数
n-X
(4)
不同死亡数的概率
(5)
甲
乙
丙
(1)
生
生
生
0.2×0.2×0.2=0.008
0
3
0.008
生
生
死
0.2×0.2×0.8=0.032
1
2
0.096
生
死
生
0.2×0.8×0.2=0.032
死
生
生
0.8×0.2×0.2=0.032
生
死
死
0.2×0.8×0.8=0.128
2
1
0.384
死
生
死
0.8×0.2×0.8=0.128
死
死
生
0.8×0.8×0.2=0.128
死
死
死
0.8×0.8×0.8=0.512
3
0
0.512
由于实验是逐只进行,每只小鼠的存活是互相独立的,根据概率的乘法法则( 即几个独立事件同时发生的概率,等于各独立事件的概率之积),可算出每种结果的概率,见第(2)栏。再根据概率的加法法则(即互不相容事件和的概率等于各事件的概率之和),于是算得死亡数分别为0,1,2,3时的概率,如第(5)栏。其值正好与下列二项展开式的各项相对应:
( 0.2 + 0.8)3=(0.2)3 + 3(0.2)2(0.8) + 3(0.2)(0.8)2 + (0.8)3
生存概率 死亡概率 三生 二生一死 一生二死 三死
一般的表达式为:
(4.1)
式中π为总体阳性率;n为样本例数;X为样本阳性数; 为从n个中抽X个的组合数,
其中n!为n的阶乘数,n!=1×2×3×…×n,并约定0!=1。
二项式展开式中的各项就是对应于各死亡数(X)的概率。其和为1。二项分布(binomial distribution)由此得名。
从阳性率为π的总体中随机抽取含量为n的样本,其中阳性数恰好为X例的概率为:
(4.2)
称X服从参数为n和π的二项分布,记为:X ~B(n,π)。其中参数n由实验者确定,而π常常是未知的,常用理论值或经验值替代,或用样本统计量做出估计。
4.2 二项分布的性质
⑴ 二项分布的均数与标准差
用绝对数表示的均数和标准差
(4.3)
(4.4)
例4.2 求例4.1平均死亡鼠数及平均死亡数的标准差。
以π=0.8,n=3代入式(4.3)(4.4),得:
平均死亡鼠数 (只)
标准差 (只)
用率表示的均数与标准差
(4.5)
(4.6)
率的标准差,称称为率的标准误。
当π未知时,常以样本率p来估计,有:
(4.7)
常为率的标准误的计算式。
⑵ 二项分布的累计概率(cumulative probability)
从阳性率为π的总体中随机抽取n个个体,则
1) 最多有k例阳性的概率 (4.8)
2) 最少有k例阳性的概率
(4.9)
其中,X =0,1,2,…,k,…,n。
计算时可借助下列递推公式:
(4.10)
例4.3 根据以往经验,用某药治疗某病的治愈率为70%,今有10 个患者用该药治疗,问①至少治愈8人的概率为多少? ②最多治愈1人的概率为多少?
本例π=0.7, 1-π=0.3, n=10,依题意,
①至少治愈8人的概率,按式(4.9)有:
P(X≥8)=P(8)+P(9)+P(10)
10!
按式(4.2):
按式(4.10): =0.121060821
则P(X≥8)=P(8)+P(9)+P(10)=0.233474441+0.121060821+0.028247525=0.382782787
②最多治愈1人的概率为:
二项分布累积概率可用于统计推断(详见第8章)。
4.2 二项分布的性质
⑶二项分布的图形
根据二项分布的概率计算公式,可以得到样本阳性数X对应的概率值P(X),以X为横坐标,以P(X)为纵坐标作图,即可绘出二项分布的图形(图4.7)。
其分布的形状取决于π与n的大小。
1) 当π=0.5时,分布对称,如图4.7(b);
当π<0.5时,分布呈正偏态,且对同一n,π愈小,分布愈偏,如图4.7(a);
当π>0.5时,分布呈负偏态,且对同一n,π愈大, 分布愈偏,如图4.7(c)。
如图4.7(a)(c)。
2)对固定的π,分布随n的增大趋于对称,如图4.7(d)(e)(f)。
3)对固定的n和π,P(X)有对称的趋势。当(n+1)π为整数时,则二项分布在X =(n+1)π和X =(n+1)π-1处达到最大,即有两个最大值;当(n+1)π不是整数时,则二项分布在X =[(n+1)π]处达到最大,只有一个最大值,这里[(n+1)π]表示取小于(n+1)π的的最大整数,即分布在小于(n+1)π的最大整数处达到最大。最大值处可以看作是其对称轴。如图4.7(a),n=5,π=0.3,(5+1)×0.3=1.8不是整数,[1.8]=1,故分布在X=1处达到最大;又如图4.7(b),n=5,π=0.5,(5+1)×0.5=3是整数,故分布在X=2和3处达到最大。
4)n相同时,总体率为π的二项分布与总体率为1-π的二项分布,正好是一镜面对称,如图4.7(a)和 (c)。
图4.7 二项分布示意
⑷二项分布的正态近似 当π不接近0或1,n不是很小,nπ≥5且n(1-π)≥5时,二项分布近似正态分布。且有:
(4.11)
如图4.7(d)(e)(f)所示,当n愈来愈大时,分布趋于正态。
4.3二项分布的应用
4.3.1 应用条件
1) 各观察单位只能具有互相对立的一种结果,如阳性或阴性,生存或死亡等, 不允许考虑“可疑”等模糊结果,属于二项分类资料。
2) 已知发生某一结果(如阳性)的概率π不变,其对立结果的概率则为1-π。 实际工作中要求π是从大量观察中获得的比较稳定的数值。
3) n次试验在相同条件下进行,且各观察单位的结果互相独立。即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性。
4.3.2 应用
二项分布是二类分类变量统计分析工作的理论基础,特别是用于总体率的参数估计与率的假设检验,参见第6章。此外还可用于产品合格率的质量控制、研究某些疾病的家族集积性及简化实验分析工作等。
小结
1.正态分布是一种非常重要的连续型概率分布,它是许多统计方法的理论基础。很多医学现象服从或近似服从正态分布,或经过变量变换后近似服从正态分布,可用正态分布理论来处理。
2.正态分布N(μ,σ2)的基本性质是:①只有一个高峰,高峰位置在X =μ。②以均数为中心,左右对称。③有两个参数,位置参数μ和变异度参数σ,它们决定了分布的位置和形状。④经线性变换 变换成标准正态分布N(0,1)。
3.正态分布曲线下面积有一定的分布规律。理论上μ±1.96σ及μ±2.58σ的区间面积(该区间的观察单位数)分别各占总面积(总观察单位数)的95%及99%
4.从阳性率为π的总体中随机抽取含量为n的样本,其中阳性数恰好为X例的概率为:
。用率表示时, , 。当π未知时,
5.二项分布的应用条件:①各观察单位只能具有互相对立的一种结果,属于二项分类资料。②已知发生某一结果(如阳性)的概率π不变,对立结果的概率为1-π。③ n次试验在相同条件下进行,且各观察单位的结果互相独立。
6.当π不接近0或1,n不是很小,nπ≥5且n(1-π)≥5时,二项分布近似正态分布。
复习思考题
1.设某病患者自然康复率为20%,分别求10个患者中自然康复1人以下及8人以上的概率。
解:
2.二项分布的应用条件是什么?(答案参见内容)
3.二项分布与正态分布有何联系?(答案参见内容⑷二项分布的正态近似)
医学研究中常常从总体中随机抽取样本进行研究,目的是通过对样本的研究去推论总体。由于样本只是总体中的一部分,因此会产生这样一些问题:一是如何科学地抽取样本,用什么方法抽样和抽取多大的样本;二是由样本计算的统计量如均数、率与相应的总体均数或率是否相等;三是如何对抽取的样本进行分析,并依此对总体的特征进行推测和判断。前一个问题将在实验设计的进行讨论,后面二个问题为为统计推断(statistical inference)的主要内容将在本章中讨论。
5.1 抽样误差与标准误
5.1.1 抽样误差
抽样误差是在抽样研究中产生的样本统计量与相应的总体参数,或样本统计量之间的差异。
例如:
① 从某地7岁男童中随机抽取110名,测得平均身高为119.95cm,该样本均数不一定等于该地7岁男童身高的总体均数。
② 某县为血吸虫病流行区,从该县人群中随机抽取400人,测得血吸虫感染人数为60人,感染率为15%,该样本率不一定等于该地人群的总体感染率。
根据资料的性质和指标的类型不同,抽样误差有多种。上述例①是样本均数与总体均数间的差别,称为均数的抽样误差;例②是样本率和总体率之间的差别,称为率的抽样误差。此外,还有方差的抽样误差,回归系数,相关系数的抽样误差等。
抽样误差是永恒存在的,但单有规律性分布的。
由于生物间的个体差异是客观存在的,因此在抽样研究过程中,抽样误差是不可避免的。数理统计研究表明,抽样误差具有一定的规律性,可用特定的指标描述抽样误差大小。本节以均数的抽样误差和率的抽样误差为例,说明该指标的意义、计算及应用等问题。
5.1.2 标准误
前述可以用标准差来描述观察值离散程度。标准差大,说明观察值的离散程度高。在抽样研究中,如果从同一总体中抽取例数相同的若干个样本,并计算出某种样本统计量(如样本均数),要研究这些样本统计量的离散程度,就要用一个与标准差相类似的统计指标来描述,这个指标称为标准误(standard error)。标准误除了反映样本统计量之间的离散程度外,同时也反映样本统计量与相应的总体参数间的差异,即抽样误差大小。最常用的标准误有两种,即均数的标准误和率的标准误。
1. 均数的标准误
(1)均数标准误的意义 将来自同一总体的若干个样本均数看作一组新的观察值,研究这些样本均数的频数分布,包括集中趋势与离散趋势,可计算样本均数的均数与标准差。
例如:某市16岁女中学生的身高分布服从均数(m )为155.4cm,标准差(s )为5.3cm的正态分布。现用电子计算机作抽样模拟试验,每次随机抽出10个观察值(即样本例数n=10),共抽取100个样本,求得100个样本均数并编成频数分布表如表5.1。
表5.1 100个样本均数的频数分布(m =155.4 cm , s =5.3cm )
组段(cm)
频数
151~
152~
153~
154~
155~
156~
157~
158~
159及以上
1
6
15
19
27
16
8
5
3
合计
100
从表5.1
展开阅读全文