资源描述
第一讲 绪论
总体:是研究目的所确定的所有同质个体某指标实际值的集合;或说, 总体是根据研究目的确定的所有同质观察对象的全体。
样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。
样本含量:样本所包含个体或个体值的个数。
抽样(Sampling) :从总体中抽取有代表性的一部分样本的过程,称为抽样。
抽样研究:从确定的同质总体中随机抽取部分样本进行观察,用样本信息来推断总体特征,该研究方法叫抽样研究。
统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。
同质(homogeneity):指研究对象在一定范畴的各种可能影响主要观察指标的其它因素处于相同或非常相似的情况,即把具有相同性质的观察单位简称为同质的(homogeneous),否则称为异质的(heterogeneous) 。
变异(variation):同质基础上的各观察单位间的差异
参数:根据总体变量值统计计算出来,描述总体特征的统计指标。
统计量:根据样本个体值统计计算出来,描述特征的统计指标。
变量:变异性表现为取值上的大小就是变量。通常把观察单位的观察指标称为变量。如身高、体重等
变量值:观察单位 的观察值 叫变量值,如身高 118cm,体重26kg 等。
误差:为观察值(X)与实际值(μ)之差。
抽样误差(sampling error) :由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。
随机事件(Radom event):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。
概率(Probability):描述随机事件发生的可能性大小的一种度量,常用P 表示。
小概率事件:当随机事件A的概率P(A)≤a,习惯上,当a=0.05时,就称A为小概率事件;其统计学意义是小概率事件在一次随机试验中不可能发生。
频率(Frequency):在n次试验中,若事件A发生的次数为m,则:
m称为事件A在n次试验中的频数,fn(A)称为事件A在n次试验中发生的频率。
统计描述:用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述
统计推断:指用样本信息推断总体特征,包括参数估计和假设检验。
第二讲:数值变量的统计描述
一、频数表与频数分布图
(一)基本概念:
频数( frequency ):指在一个抽样资料中,某变量值出现的次数。
频数分布表(frequency distribution table):将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。
频数分布图(frequency distribution figure) :根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。
(二)连续型变量频数表的编制方法:
⒈ 求全距(Range,简记R ):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。
2. 定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。
原则:(1)“组段”数一般为10-15个;
(2)“组距”一般为R/10取整;
(3)为计算方便根据组距采取取整数方法
3.写组段:即将全距分为若干段的过程。
原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
(2)每组段均用下限值加 “~ ”表示,最终组段同时注明上下限。
4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。
(三)频数表的用途:
1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称分布 : 集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。
正偏 : 集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。
负偏 : 集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。
3.便于发现某些特大或特小的可疑值。
4. 样本含量足够大时,以频率作为概率的估计值。
5.作为陈述资料的形式。
二、集中趋势的指标
集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。
注意:1.同质的事物或现象才能求平均数
2.应根据资料分布状态选用适当的均数。
算术均数 : 单峰对称分布
包括 几何均数 : 对数正态分布
中位数、百分位数 : 偏态分布
(一) 算术平均数(arithmetic mean)
● 使用条件:数据分布比较均匀呈正态分布或近似正态分布。
● 样本均数用符号:X 表示
● 总体均数用符号:μ表示
● 计算方法有两种:直接法(小样本)和加权法(大样本)
(1)直接法:
举例: 某地10名18岁健康男大学生身高为(cm): 168.7, 178.4, 170.0, 170.4, 172.1,
167.6, 172.4, 170.7, 177.3, 169.7
求平均身高?
10
X
)
(
171.7
cm
=
7
169.
4
178.
168.7
+
¼
+
+
=
Ø 适用范围:小样本资料,n<30
Ø 方法:将观察值X1、X2、X3、……、Xn直接相加,再除以观察值的个数n。
Ø 公式:
(2)加权法:
Ø 适用范围:大样本含量的分组资料或频数表资料。
Ø 方法:计算各组段的组中值 Xi与其频数f i的乘积和Σf x,然后除以总频数Σf。
Ø 公式:
举例: 用加权法计算某市8岁男童身高平均数(表3.1 )
①计算各组段的组中值xi、fxi和Σfx
第1组段:
117.5
1
=
2
119
116
+
=
=
2
+
上限
下限
x
② 用加权法计算该组身高值的均值
)
(
05
.
130
100
13055.0
cm
n
fX
X
=
=
=
å
(二) 几何均数(geometric mean, G)
● 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。
● 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。
● 表示符号:G
● 计算方法:直接法和加权法
(1)直接法:
Ø 适用范围:小样本资料
Ø 方法:将n个观察值(X1,X2,3,……Xn)直接相乘再开n次方。
Ø 公式:
用对数形式表示为:
举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000
求其平均滴度。
G=
或 G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5)
=lg-1((0+1+2+3+4)/5)
=lg-12
=100
即:平均滴度为1:100;较好地代表了观察值的平均水平。
(2)加权法:
适用范围:大样本含量的分组资料或频数表资料。
公式:
G=lg-1 (Σf lgX/Σf )
举例:有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平均滴度(例3.3)。
G=lg-1 (Σf lgX/Σf )=lg-1(145.0948/95) =33.68
即95名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为1:33.68。
计算几何均数(G )注意事项:
(1)观察值不能为0;
(2)观察值不能同时有正有负;
(3)同一组资料求得的几何均数小于算术均数。
练习:
1.有8份血清的抗体效价分别为:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640
求平均抗体效价。
将各抗体效价的倒数代入公式:
所以血清的抗体平均为1:56.57
2.有50人的血清抗体效价,分别为:5人1:10, 9人1:20, 20人1:40, 10人1:80, 6人1:160
求平均抗体效价。
将各抗体效价的倒数代入公式:
所以该50人的血清抗体效价为1:41.70
(三)中位数(Median,M)
● 概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。
● 使用条件:当一组资料类型分布不清或明显 偏态分布时的平均数的计算。
● 表示符号:M
● 计算方法:直接法和加权法
百分位数(Percentile,P)
● 概念:为一种位置指标,表示位于全部观察值第X%位置处的数值。一个PX将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。
● 表示符号:Px
● 计算方法: 频数表计算
(1)直接法由原始数据计算中位数:
当n为奇数时:
(2)用频数表计算中位数和百分位数
步骤:
按所分组段,由小到大计算累计频数和累计频率
代入公式计算中位数及其它百分位数
中位数计算公式 百分位数计算公式
(
m
m
)
2
/
å
-
+
=
L
f
n
f
i
L
P
注:fm 、 fx为所在组的频数, i 为该组段的组距,
L为其下限 ,∑fL 为小于L的各组段的累积频数。
例:求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P95
潜伏期(h)
①
频数f
②
累积频数
③
累计频率(%)
④
0~
21
21
15.24
12 ~
58
79
48.17
24 ~
44
123
75.00
36 ~
23
146
89.02
48 ~
12
158
96.34
60 ~
5
163
99.39
72 ~
1
164
100.00
1. 由表第(4)、 (1)栏可见,M(P50)在24~ 组段,
所以 L=24、i=12、fx=44、ΣfL=79。
2. 把 L=24、i=12、fx=44、ΣfL=79代入公式, 求M。
12
44
M(P50) = 24+ (164/2-79)=24.8(h)
3. 同样方法,可求P5、P95 。
P5 = 0+ (164×5%-0)=4.7(h)
P95 = 48+ (164×95%-146)=57.8(h)
应用:
1.中位数:
常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,只受居中变量值的影响,不受两端特大值和特小值的影响。因此,当分布的一端或两端无确定数值或资料的分布不清可以求中位数。
2.百分位数:
A.用于描述数据某一百分位的位置,最常用的是P50,即中位数;也可用多个百分位数的结合来描述一组资料的分布特征,如用P25和 P75合用时,反映中间50%观察值的分布情况。
B.用于确定参考值范围:
WBC的95%参考值范围:P2.5~ P97.5过高过低均异常
肺活量95%参考值范围:P5 过低异常
尿铅95%参考值范围:P95 过高异常
C.用一组PX可较全面地描述总体或样本的分布特征。
三、离散趋势的指标
离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。
极差(Range, R)
四分位数间距(Quartile, Q)
包括 方差(Variance, )
标准差(Standard deviation,S2)
变异系数(Coefficient of variation,CV)
(一) 极差(Range, 简称R)
●计算:R=最大值-最小值= Xmax - Xmin
●意义:反映样本变量值的全范围。
●条件:对变量值的各种分布类型的资料都适用。
●优点:简单明了,容易理解,使用方便。
●缺点:仅考虑了极大值和极小值,未考虑其它变量的个体差异。
●建议:与其他离散指标共同使用。
极差的缺点:
1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。
2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。
3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。
(二) 四分位数间距(Quartile, 简称Q)
●计算:Q=QU-QL=P75-P25
●意义:中间一半观察值的极差。
●条件:对变量值的各种分布类型的资料都适用。
●优点:类似R值但比其稳定。
●缺点:未考虑全部观察值的变异度。
●建议:与其他离散指标共同使用。
例:有164例沙门氏菌食物中毒病人的潜伏期(小时), 求该潜伏期的四分位数间距。
P25 =L + i / f25 ( n·25 % — ΣfL )
=12 + 12/58(164×25%—21)
= 16.14(小时)
P75 =L + i / f 75 ( n·75 % — Σf L )
=24 + 12/44(164×75%—79)
= 36(小时)
Q= P 75 - P 25 =36-16.14=19.86 (小时)
即该潜伏期的四分位数间距为19.86小时。
(三) 方差( Variance, 简称 )
●计算:总体方差 样本方差
●意义:克服了R值的不足,考虑了每个变量值的离散情况并消除了N的影响。
●优点:全面地考虑每个变量值的离散情况
●缺点:其单位是原度量单位的平方。
)
2
-
-
=
å
n
X
X
s
1
(
(四)标准差(Standard deviation,SD或S)
●计算:总体标准差: 样本标准差:
标准差的计算:
⑴ 直接法:
⑵ 加权法:
(1)直接法:用于小样本资料
举例 现有一影像医生,测得10名患者的EA值分别为:
0.47, 0.60, 0.86, 0.96, 1.01,
1.13, 1.27, 1.58, 1.72, 2.88
试计算其标准差?
①首先列表,求出ΣX 和ΣX 2(表3.6)
②将ΣX、ΣX2代入公式:
(2)加权法:用于大样本资料或频数表资料
举例 计算100名8岁男孩身高的标准差
①从列表可知:
Σfx =13 055.0、ΣfX2 =1 707 127.00 和n =100
②代入公式:
(五 )变异系数:简称CV
●概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。
●计算:
●实际含义:标准差相对于同组均数的百分比。
●优点:CV 消除了度量衡单位,用于比较
1.单位不同的多组资料的变异度。
2.均数相差悬殊的多组资料的变异度
身高
体重
举例 :某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比较其身高、体重的变异程度。
说明其体重的变异度大于身高的,即身高比体重稳定。
小 结
⒈为描述数值变量的分布特征,可将观察值编制频数表,绘制频数分布图。
⒉集中趋势描述的主要指标是平均数。
百分位数 .
,传染病潜伏期
可用于医学参考值范围,适用于任何分布
观察序列在某百分位置的水平,是分布的百分界值
3.描述频数分布离散程度的指标有:
①极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度。
②方差和标准差,最常用,对正态分布尤重要。
③变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。
注意: 变异指标的大小这与平均指标值的大小无关。
平均指标和变异指标相结合,能对各种分布的资料作很好的描述。
集中趋势 离散趋势
应用场合
算术均数 方差、标准差
适用于对称分布,特别是正态分布
几何均数
正偏态分布资料或对数正态分布资料
中位数 极差
百分位数 四分位数间距
变异系数
适用于任何分布资料,特别是偏态 分布、分布不明、分布末端无确定 值
适用于均数相差悬殊或度量衡单位不同的资料
第三讲 概率分布
一、二项分布及其应用
摸球模型
摸摸球模型球模型
一个袋子里有5个乒乓球,其中2个黄球、3个白球,我们进行摸球游戏,每次摸1球,放回后再摸。先后摸100次,请问:
⑴摸到0次黄球的概率是多大?
解:
① 每次摸到白球的概率 =0.6
② 第1次摸到白球的概率=0.6
第2次摸到白球的概率=0.6
第100次摸到白球的概率=0.6
③ 100次摸到0次黄球的概率=0.6×0.6×…×0.6=0.6100
¡
⑵先后摸100次,摸到3次黄球的概率是多大?
解:
①每次摸到黄球的概率 =0.4
黄白黄白黄白白…白
概率=(0.4)3(0.6)97
③ 100次摸到3次黄球的概率
= (0.4)3(0.6)97+ (0.4)3(0.6)97+ (0.4)3(0.6)97+…
= C1003 (0.4)3(0.6)97
¡
每次摸到白球的概率 =0.6
②黄黄黄白白白白…白
黄白黄黄白白白…白
概率=(0.4)3(0.6)97
概率=(0.4)3(0.6)97
⑶ 先后摸100次,摸到x次黄球的概率是多大?
解:
100次摸到x次黄球的概率=C100x (0.4)x(0.6)100-x
⑷ 先后摸n次,摸到x次黄球的概率是多大?
n次摸到x次黄球的概率=Cnx (0.4)x(0.6)100-x
解:
⑷ 如果摸到黄球的概率不是0.4,而是π,先后摸n次,摸到x次黄球的概率是多大?
n次摸到x次黄球的概率=Cnx (π)x(1- π)100-x
解:
小结:摸球模型
Ø 二分类:每次摸球都有两种可能的结果(黄球或白球)
Ø 独立:每次摸球都是彼此独立的
Ø 重复:每次摸到黄球的概率都是π、 摸到白球的概率都是1- π
所以,先后摸n次,摸到x次黄球的概率为:n次摸到x次黄球的概率=Cnx (π)x(1- π)100-x
二项分布的概念
若变量X在n此独立实验中,具有:
1.各观察单位只能具有相互对立的两种结果之一。
2.已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π。
3.n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
则称变量X服从二项分布,记作:B(X;n,p)
一般地,若随机变量取值x的概率为:
P(x)=Cnx (π)x(1- π)n-x (x 取值0、1、2、…、n)
Cnx=
x!(n-x)!
(n)!
其中:
则称此随机变量附合二项分布
则 :P(x)=Cnx (π)x(1- π)n-x 称为二项分布的概率函数。
小结:一个二分类的情况、独立重复事件n次,若每次出现某事物的概率为π,则n次中有x次出现该事物的概率服从二项分布。
举 例:临床上用针炙治疗某型头痛,有效的概率为60%;现以该法治疗患者3例,其中 0 例、1例、2例、3例有效的概率各是多大?
解:P(x)=Cnx (π)x(1- π)n-x
有效人数
(x)
C3x
p x
(1-p)n-x
出现该结果概率P(x)
0
1
0.60
0.43
0.064
1
3
0.61
0.42
0.288
2
3
0.62
0.41
0.432
3
1
0.63
0.40
0.216
二项分布的概率分布示意图
n=30,π=0.3
n=10,π=0.3
n=20,π=0.5
n=5,π=0.3
二项分布图形的特征:
二项分布图的形态取决于π和n,高峰在µ= πn处。
或说:π和n是二项分布的两个参数,n决定x的取值范围,n和P决定了x的概率分布。
Ø 当π=0.5,图形是对称的; π离0.5愈远,对称性愈差。
Ø 当π≠0.5,随着n的增大,分布趋于对称。
Ø 当n→∞时,只要π不太靠近0或1[特别是nπ 和n(1-π) 都 大于5时],二项分布接近于正态分布。
二项分布的均数和标准差
对于二分类情况,进行n次随机试验,每次试验出现阳性结果的概率为π,出现阳性结果的次数为x,则X的总体均数µ 、方差σ2及标准差σ分别为:
Ø 总体均数: µ =nπ
Ø 总体方差: σ2= nπ (1- π )
Ø 总体标准差: σ = √π(1- π )
二项分布的应用:
㈠ 概率估计:
例:如果某地钩虫感染率是13%,随机观察当地150人,其中10人感染钩虫的概率有多大?
解析:二分类(感染、不感染)
独立(假定互不影响)
重复(π=150),每人感染钩虫机率均为π=0.13
故:感染钩虫的人数x附合二项分布B(150,0.13)
所以:
P(x=10)=C15010 × 0.1310×0.87140=0.0055
㈡单侧累积概率的计算:
单纯计算二项分布x恰好取某值的概率没有太大意义
经常需要计算的是二项分布的累积概率
(1)出现阳性次数至多为k次的概率为:
P(x≤k)= ∑Cnx (π)x(1- π)n-x
k
x=0
(2)出现阳性次数至少为k次的概率为:
P(x≥k)= ∑Cnx (π)x(1- π)n-x
n
x=k
举例:某地钩虫感染率是13%,随机观察当地150人。
(1)其中最多有2人感染的概率有多大?
解:P(x≤2)= ∑C150x 0.13x(0.97)150-x
= C1500 0.130 × 0.97150 +C1501 0.131 × 0.97149+C1502 0.132 × 0.97148
(2)其中最少有2人感染的概率有多大?
解:P(x≥2)= ∑C150x 0.13x(0.97)150-x
= 1 -(C1500 0.130 × 0.97150 +C1501 0.131 × 0.97149)
(3)其中最少有20人感染的概率有多大?
解:P(x≥20)= ∑C150x 0.13x(0.97)150-x
=1-∑C150x 0.13x(0.97)150-x
练习: 5人服药,该药肠胃反应概率为10%;
求:①k个人、②不多于2人、③有人有反应的概率。
二、Possion分布及其应用
Poission分布的概念:是描述罕见事件发生次数的概率分布。
Poisson分布可看作是二项分布的特例:
Ø 独立重复的次数很大很大
Ø 每次出现某事件的概率π很小,或未出现某事件的概率1- π很小。
Poission分布的概念:
对二项分布,当n→∞,nπ→ l 时,可以证明:
P(x)=Cnx (π)x(1- π)n-x
P(x)=e-l
x
l
X!
所以,若随机变量X的概率函数为:
P(x)=e-l
x
l
X!
若则称此变量服从Poission分布,记叙X ~ P(l) 。
(l =nπ为Poission分布的总体均数,X 为观察单位内某稀有事件的发生次数, l是Poisson分布的总体参数,也是唯一的参数)
举例:某地20年间共出生肢短畸形儿10名,平均每年0.5名,估计该地每年出生此类畸形人数为0、1、2…的概率P(X )。
解析: e=2.71828, l=0.5
=2.71828-0.5
0.5
0!
0
x=0时,
P(0)=e-l
x
l
X!
=0.607
故:
所以不同x取值时,概率值如下表示:
x
0
1
2
3
4
5
P(x)
0.607
0.303
0.076
0.013
0.002
0.000
Poission的概率分布示意图:
poisson分布图形与λ有关。当λ>20时,其分布近似正态分布。λ=nπ
Poission分布图形的特征:
二项分布图的形态取决于l , l<5时为偏峰, l愈小分布愈偏,随着l的增大,分布趋向于对称。
Ø 总体均数=总体方差= l ;
Ø 当观察结果具有可加性,即:
若X1服从总体均数为l1的Poission分布, X2服从总体均数为l2的Poission分布,
则T= X1+ X2为服从总体均数为l1+l2的Poission分布。
举例:从同一水源独立取水样5次,进行细胞培养。
第1样水样的菌落数 X1 ~ P(l1)
第2样水样的菌落数 X2 ~ P(l2)
…
第5样水样的菌落数 X5 ~ P(l5)
把5份水样混合,则合计菌落数也符合Poission分布,则:
X1+X2 +X3 +X4+ X5 ~ P (l1+ l2 +l3+ l4+ l5)
医学研究中常利用其可加性,将小的观察单位合并,来增大发生次数X,以便用后面讲到的正态近似法作出统计推断。
Poission分布的应用:
㈠ 概率估计:
举例1:若某地新生儿先生性心脏病的发病概率是8‰ ,那么该地120名新生儿中有4人患先天性心脏病的概率是多少?
解析:发病、不发病 二项分布
发病概率8‰,概率很小
Poission分布
n=120,相对较大
l =nπ=120×8‰=0.96
0.964
4!
=2.71828-0.96
P(4)=e-l
x
l
X!
=0.014
㈡单侧累积概率的计算:
(1)稀有事件发生次数至多为k次的概率为:
P(x≤k)= ∑
k
x=0
e-l
x
l
X!
2)稀有事件发生次数至少为k次的概率为:
P(x≥k)= ∑
n
x=k
e-l
x
l
X!
k -1
= 1- ∑
x=0
e-l
x
l
X!
三、正态分布及其应用
(一)正态分布(normal distribution)的概念:
又称高斯分布,(Gauss distribution):是描述连续型随机变量最重要的分布。
正态分布的密度函数f(x) ,即正态曲线的函数表达式:
当给定不同的x 值后,就可以根据此方程求得相应的纵坐标高度(频数),并可绘制出正态曲线的图形,记作X~N(μ,σ2) :
正态分布曲线:高峰位于中间,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟
型”曲线。
决定正态曲线图形的两个参数:μ 和 σ
①当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之, μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲线N(μ, σ2)的位置参数, 。
②当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭,σ 叫正态曲线 N(μ, σ2)的形状参数。
为了应用方便,常将上述函数中的 x 作如下变量代换,令:
相对于正态变量 x,u 没有度量单位。根据 u 的不同取值,代入上式可绘出标准正态分布的图形。
正态分布曲线 标准正态分布曲线
X~N(μ,σ2) X~N(0,1)
这样就把原来个别的正态分布转换为一般的标准正态分布 N(0,1),亦称为u分布(有书中用 Z表示) 。
(二)正态分布特征及曲线下面积分布规律:
正态分布有五个方面的特征:
1. 集中性: 正态曲线在横轴上方,且均数位于曲线的最高处,即当x=μ时, f (x)取最大值。
2. 对称性:正态分布以均数为中心,左右对称,即曲线 f (x)关于x=μ对称。
3. 正态分布有两个参数,通常用 N (μ, σ2) 表示均数为μ,标准差为σ的正态分布;用 N(0,1)表示均数为 0 和标准差为 1 的标准正态分布。 μ反映曲线的位置,σ反映曲线的形状。
4. 正态曲线在±σ,标准正态曲线在±1处各有一个拐点
5. 正态曲线下的面积分布有一定的规律性。
由于正态曲线下累计频数的总和等于 100% 或 1,故横轴上曲线下的面积(概率)就等于 100% 或 1。均数两侧的面积或频数(概率)各占 50%。
正态分布和标准正态分布曲线下的面积分布规律
正态分布 标准正态分布 面积分布规律
68.27%
95.00%
99.00%
当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替, u 值可用下式计算:
此时可用 来代替 ,, 代替 , , 代替 。
对于正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略性的估计
举例:已知 120 名 12 岁男孩身高均数为 143 cm,标准差为 5.8 cm,试估计该地 12 岁男孩身高在 135 cm 以下者有多少人?
答:1. 首先按题意计算 u 值:
2. 查 u 值表
当 u = -1.38 时,左侧尾部面积 0.0838,即身高在 135cm 以下者占总人数的 8.38%。
3.据概率计算人数:身高在 135 cm 以下者有:120×8.38% =10人
练 习:
已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8g/L,标准差为3.8g/L,试估计该地正常成年女子血清总蛋白介于66.0~75.0 g/L之间的比例,以及110名正常成年女子中血清总蛋白介于66.0~75.0 g/L之间的人数。 .
解析:由于本例是大样本,可用样本均数X和样本标准差 S 作为总体μ、σ 的估计值,即将该地正常成年女子的血清总蛋白数近似看作服从N(72.8, 3.82)的正态分布。
1. 将变量作如下标准化变换:
2. 查 u 值表得
3. 求所定区间概率:
Φ(z2)- Φ(z1)
=0.719-0.0367=68.23%
即估计血清总蛋白介于66.0~75.0g/L的比例为68.23%
4. 求所定区间的可能人数:
所以110名正常成年女子中血清总蛋白介于之间的人数约为 110× 68.23% =75人。
(三)、正态分布在医学中的应用
(一) 制定医学参考值范围
参考值范围(reference range):指所谓“正常人”的解剖、生理、生化等指标的波动范围。
制定方法:
①制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。所谓“正常人”不是指“健康人”,而是 指排除了影响所研究指标的疾病和有关因素的同质人群,必须是随机选择的大样本。
②而后根据指标的实际用途确定单侧或双侧界值《根据研究目的和使用要求选定适当的百分界值,常用95%。 .
双侧临界值:标准正态分布双侧尾部面积之和等于α时所对应的正侧变量值,记作Zα/2或Uα/2。
单侧临界值:标准正态分布单侧尾部面积等于α时所对应的正侧变量值,记作Zα或Uα。
Ø 以不同的方法计算参考值范围:
(1)正态分布法:适用于正态或近似正态分布资料
常用参考值范围的制定
举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋白的95%参考值范围。
解析:1. 分布近似正态 正态分布法求参考值范围
2. 过高过低均为异常 设定双侧界值
3. 求上、下界值
下界:
上界
所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。
举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。
1. 分布近似正态 正态分布法求参考值范围
2. 仅过低为异常 单侧下限
3. 求下界值
所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。
(2)百分位法:特别适用于偏态分布资料以及资料中一端或两端无确切数值的资料。
如95%参考值范围:
双侧界值
单侧下限
单侧上限
P 2.5和P 97.5
P 5
P 95
(二)估计频数分布
举例:定出生体重低于2500g的婴儿为低体重儿,若由某项研究得某地婴儿出生体重均数为3200g ,标准差为350g,估计当年出生低体重儿所占的比例。
1. 分布近似正态, X= 3200g ,S=350g。
2. 转化为标准正态分布,求u 值
说明标准正态曲线下 (-∞,-
展开阅读全文