1、第三章第三章 离散趋势的统计描述离散趋势的统计描述本章结构本章结构n第一节第一节 衡量离散程度的指标衡量离散程度的指标n第二节第二节 正态分布及应用正态分布及应用n第三节第三节 医学参考值范围医学参考值范围2统计分析统计分析统计描述统计描述统计推断统计推断计量资料计量资料计数资料计数资料区间估计区间估计假设检验假设检验集中趋势集中趋势离散趋势离散趋势3n前面一节讲述了一组观察值的集中趋势,前面一节讲述了一组观察值的集中趋势,但平均数并不能使我们全面地认识事物,但平均数并不能使我们全面地认识事物,试看下例:试看下例:4例例3.1n对甲乙对甲乙2名高血压患者连续观察名高血压患者连续观察5天,测得的
2、天,测得的收缩压(收缩压(mmHg)分别为:)分别为:甲甲162145178142186乙乙1641601631591665结论:结论:n描述一组观察值,除需要表示其平均描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的水平外,还要说明它的离散或变异的情况。情况。6第一节第一节 离散趋势的指标离散趋势的指标n全距全距(range)四分位数间距四分位数间距(quartile)n方差方差(variance)标准差标准差(standard deviation)变异系数变异系数(coefficient of variation)7一、全距极差极差R=Xmax-Xmin8全距的优缺点:优点
3、:计算简单优点:计算简单缺点:缺点:信息利用不充分:仅利用最大、最小值,样本信息没能充分利用。信息利用不充分:仅利用最大、最小值,样本信息没能充分利用。不稳定:改变最大、最小值,不稳定:改变最大、最小值,R会发生变化会发生变化不灵敏:增加或减少中间值,不灵敏:增加或减少中间值,R不能反应变动不能反应变动样本含量相差悬殊的两个样本不能用样本含量相差悬殊的两个样本不能用R进行比较进行比较若一组观察值的一端或两端有不确切值时,全距难以计算,如抗若一组观察值的一端或两端有不确切值时,全距难以计算,如抗体滴度体滴度9二、四分位间距百分位数百分位数:数据从小到大数据从小到大 排列排列;在百分尺度下,所占百
4、分比对在百分尺度下,所占百分比对应的值。记为应的值。记为Px。四分位间距四分位间距:QP75 P2510频数表资料的百分位数频数表资料的百分位数11表3-1 某地630名正常女性血清甘油三脂含量的频数表甘油三脂(mg/dl)(1)频数(2)累积频数(3)相对频数(%)(4)累积相对频数(%)(5)1027274.34.34016919626.831.170 16736326.557.6100 9445714.972.5130 8153812.985.4160 425806.792.1190 286084.496.5220 146222.298.7250 46260.699.4280 36290
5、.599.8310 16300.2100.00合计630100.00包含25%P25所在组L=40fx=169fL=36包含75%P75所在组L=130fx=81fL=45712表3-2 107例正常人的尿铅含量(g/L)的四分位间距计算表尿铅含量(组段)(j)频数(fj)累积频数fj相对频数(%)fj/n累积相对频数(%)fj/n0141413.0813.084223620.5633.648 296527.1060.7512 188316.8277.5716 159814.0291.5920 61045.6197.2024 11050.9398.1328 21071.87100.00合计10
6、7100.00包含25%P25所在组L=4fx=22fL=14包含75%fL=65fx=18L=12P75所在组练习题:练习题:13说明:n四分位间距比四分位间距比R稳定,但仍未考虑每个稳定,但仍未考虑每个观察值。观察值。n中位数中位数与与四分位间距四分位间距一起使用,描述偏态分布一起使用,描述偏态分布资料的特征。资料的特征。14三、方差三、方差n平均偏差平均偏差(mean difference)n离均差平方和离均差平方和(sum of square,SS)15方差方差(mean of square,MS):将将SS再取平均,就是方差。再取平均,就是方差。总体方差总体方差 在样本中,在样本中,
7、未知,常用替代,未知,常用替代,16样本方差为什么要除以(样本方差为什么要除以(n n1 1)与自由度(degrees of freedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。17四、标准差四、标准差n即方差的正平方根;其单位与原变量即方差的正平方根;其单位与原变量X的单位相的单位相同。同。18
8、例例2-92-9:盘编号盘编号甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 35005005002500002500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计25002500 25002500 25002500 126040012510001250250标准差标准差50.9915.817.9119例2-10:n利用下表3-3中的数据和频数表法计算标准差。20表3-3 140名
9、正常成年男子红细胞计数的标准差计算表红细胞计数(1012/L)(1)组中值(x)(2)频数(f)(3)f x(4)f x2(5)3.80 3.9027.8030.424.00 4.10624.60100.864.20 4.301147.30203.394.40 4.5025112.50506.254.60 4.7032150.40706.884.80 4.9027132.30648.275.00 5.101786.70442.175.20 5.301368.90365.175.40 5.50422.00121.005.60 5.70211.4064.985.80 5.9015.9034.81合
10、计140669.803224.2021标准差的意义和用途:标准差的意义和用途:n说明资料的离散趋势,说明资料的离散趋势,S越大,说明变异越大,说明变异程度越大;程度越大;n用于计算变异系数;用于计算变异系数;n用于计算标准误;用于计算标准误;n结合均值与正态分布的规律估计参考值结合均值与正态分布的规律估计参考值范围;范围;均数与标准差经常被同时用来描述正态均数与标准差经常被同时用来描述正态分布资料的集中和离散趋势。分布资料的集中和离散趋势。22五、变异系数(五、变异系数(CV)用途:用途:n比较度量单位不同的两组或多组资料的变异程度比较度量单位不同的两组或多组资料的变异程度n均数相差悬殊的两组
11、或多组资料的变异程度。均数相差悬殊的两组或多组资料的变异程度。例如例如:n同年龄同性别学生的身高和体重两组观察值;同年龄同性别学生的身高和体重两组观察值;n同年龄同性别学生的身高和胸围两组观察值;同年龄同性别学生的身高和胸围两组观察值;n不同年龄儿童的身高的几组观察值。不同年龄儿童的身高的几组观察值。23计算公式:计算公式:24例3-3:测得某地成年人舒张压的均数为测得某地成年人舒张压的均数为77.5mmHg77.5mmHg,标准差为标准差为10.7mmHg10.7mmHg;收缩压的均数为;收缩压的均数为122.9mmHg122.9mmHg,标准差为标准差为17.1mmHg17.1mmHg。试
12、比较舒张压和收缩压的变。试比较舒张压和收缩压的变异程度。异程度。25离散趋势指标小结:离散趋势指标小结:1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态与均数的单位相同,最常用,适合于近似正态分布分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征,常配套使用如常配套使用如 正态分布正态分布:均数、标准差;:均数、标准差;偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距26第二节第二节 正态分布及应用正态分
13、布及应用n正态分布正态分布(normal distributionnormal distribution)也叫高斯)也叫高斯分布(分布(Gaussian distributionGaussian distribution),是最常见、),是最常见、最重要的一种连续型分布。最重要的一种连续型分布。n医学资料中有许多指标如身高、体重、红细胞医学资料中有许多指标如身高、体重、红细胞数、血红蛋白、收缩压、脉搏数等频数分布都数、血红蛋白、收缩压、脉搏数等频数分布都呈正态分布。呈正态分布。2728正态分布的概率密度函数正态分布的概率密度函数(probability density function)29以
14、f(x)为纵坐标,X为横坐标,已知和,绘制的曲线就是正态曲线正态曲线(正态曲线(normal curve)图形特点图形特点:1.钟型钟型2.中间高中间高3.两头低两头低4.左右对称左右对称5.最高处对应于最高处对应于X轴的值就是均数轴的值就是均数6.曲线下面积为曲线下面积为17.标准差决定曲线标准差决定曲线的形状的形状X Xf f(X X)m m3031标准正态分布标准正态分布(standard normal distribution)标准正态分布的两个参数为:标准正态分布的两个参数为:=0,=1 记为记为 N(0,1)一般正态分布为一个分布族一般正态分布为一个分布族:N(m m,s s2);
15、标准正态分布只有一个标准正态分布只有一个 N(0,1)32以(x)为纵坐标,u为横坐标,横轴尺度为,均数在坐标原点0。正态分布的特征正态分布的特征1.正态曲线(正态曲线(normal curve)在横轴上方均数)在横轴上方均数处最高;处最高;2.正态分布以均数为中心,左右对称;正态分布以均数为中心,左右对称;3.正态分布有两个参数:正态分布有两个参数:和和;4.正态曲线在正态曲线在,标准正态分布在,标准正态分布在1处各有一个拐点;处各有一个拐点;5.正态分布的面积分布有一定的规律性。正态分布的面积分布有一定的规律性。33 曲线下面积曲线下面积u-附表1(P225)就是根据此公式和图形制定的34
16、曲线下面积分布规律曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%-+-1.96+1.96-2.58+2.5868.27%95.00%99.00%35例例2-12:试试估估计该计该地正常女子血清甘油三脂在地正常女子血清甘油三脂在1.10 mmol/L以下以下者占正常女子血清甘油三脂者占正常女子血清甘油三脂总总人数的百分比。人数的百分比。解:解:将将X=1.10代入代入标标准正准正态变态变量量变换变换公式,得:公式,得:查查附表附表1,在表的左,在表的左侧侧找到找到0.1,在表的上方找到,在表的上方找到0.04,两者的相交两者的相交处为处为0.4
17、443=44.43%。即。即该该地正常女子血清甘油地正常女子血清甘油三脂在三脂在1.10mmol/L以下者,估以下者,估计计占占总总人数的人数的44.43%。36实例图示实例图示44.4337第五节第五节 医学参考值范围的估计医学参考值范围的估计n医学参考值范围:亦称医学正常值范围,是医学参考值范围:亦称医学正常值范围,是指所谓指所谓“正常人正常人”的解剖、生理、生化等指的解剖、生理、生化等指标的波动范围。标的波动范围。n所谓正常人,不是指任何器官、组织的形态所谓正常人,不是指任何器官、组织的形态和功能都正常的人,而是指排除了影响被研和功能都正常的人,而是指排除了影响被研究指标的疾病或因素的人
18、。究指标的疾病或因素的人。n抽样要随机抽样要随机n样本含量要足够大,一般样本含量要足够大,一般n100n100。38 步骤步骤(1)(1):1.1.从从“正常人正常人”总体中抽样:明确研究总体总体中抽样:明确研究总体 2.2.统一测定方法以控制系统误差。统一测定方法以控制系统误差。3.3.判断是否需要分组(如性别、年龄)确定。判断是否需要分组(如性别、年龄)确定。4.4.根据专业知识决定单侧还是双侧。根据专业知识决定单侧还是双侧。单侧下限单侧下限-过低异常过低异常 单侧上限单侧上限-过高异常过高异常 双侧双侧-过高、过低均异常过高、过低均异常 单侧下限单侧下限异常异常正常正常单侧上限单侧上限异
19、常异常正常正常异常异常正常正常双侧下限双侧下限双侧上限双侧上限异常异常39 步骤步骤(2)(2):5.5.选定合适的百分界限:结合病人的测定值确定选定合适的百分界限:结合病人的测定值确定6.6.对资料的分布进行正态性检验对资料的分布进行正态性检验7.7.根据资料的分布类型选定适当的方法进行参考根据资料的分布类型选定适当的方法进行参考值范围的估计值范围的估计401.正态分布法百分范围(%)单侧双侧(对称)下限上限下限上限95992.对数正态分布法百分范围(%)单侧双侧(对称)下限上限下限上限95993.百分位数法百分范围(%)单侧双侧(对称)下限上限下限上限95P5P95P2.5P97.599P
20、1P99P0.5P99.541例3.4n若已算得某地正常成年男子红细胞数的均数为4.781012/L,标准差为0.381012/L,试估计该地成年男子红细胞数的95%参考值范围(已知正常成年男子的红细胞数近似服从正态分布)。42例3.5n见下表。为该地区50-60岁女性高血脂诊断与治疗提供参考依据,试估计其血清甘油三脂含量的95%单侧参考值范围。43表3-1 某地630名正常女性血清甘油三脂含量的频数表甘油三脂(mg/dl)(1)频数(2)累积频数(3)相对频数(%)(4)累积相对频数(%)(5)1027274.34.34016919626.831.170 16736326.557.6100
21、9445714.972.5130 8153812.985.4160 425806.792.1190 286084.496.5220 146222.298.7250 46260.699.4280 36290.599.8310 16300.2100.00合计630100.00呈偏态分布44小结:小结:n百分位数法:适合于任何分布类型的资料,故在实际百分位数法:适合于任何分布类型的资料,故在实际中最常用。但常需要较大的样本量,否则结果不稳定。中最常用。但常需要较大的样本量,否则结果不稳定。n正态分布法:适合于正态或近似正态分布的资料,优正态分布法:适合于正态或近似正态分布的资料,优点是结果较稳定,缺
22、点是医学上很多资料不呈正态分点是结果较稳定,缺点是医学上很多资料不呈正态分布,适用范围较窄。布,适用范围较窄。n样本量的原则:继续增大样本量而样本量的原则:继续增大样本量而X和和s的估计值无多的估计值无多大变化时,便可不再增大样本量。大变化时,便可不再增大样本量。45注意:n医学参考值范围不能作为诊断标准医学参考值范围不能作为诊断标准。95%参考参考值范围仅仅告知值范围仅仅告知95%观察对象的测定值在此范观察对象的测定值在此范围之内,并非告知凡在此范围之内者皆健康,围之内,并非告知凡在此范围之内者皆健康,也非告知凡在此范围之外者皆不健康。也非告知凡在此范围之外者皆不健康。46例例2-15Jun
23、g等(1988)对30名健康男性医院职员测定了丙氨酸氨基转移酶,均数和标准差为1.05U和0.32U。假设其总体符合正态分布,则95%参考值范围为1.051.960.32,即(0.42,1.68)。上述作者还测定了19名无肾病合并症的糖尿病病人的丙氨酸氨基转移酶,均值和标准差为1.48U和0.49U。假定其也接近正态分布N(1.48,0.492),那么这类病人中测定值低于1.68U的概率是:0.6591(u=0.41)。如果将1.68U作为临床诊断标准,那么无肾病合并症的糖尿病病人的漏诊率约为2/3,即约2/3的病人被当作健康人。47表 130名健康成年男子脉搏(次/分)的均数、标准差计算表脉
24、搏组段(i)组中值(xi)频数(fi)fi xifi xi256 572114649859 6053001800062 63127564762865 66159906534068 6925172511902571 7226187213478474 7519142510687577 781511709126080 81108106561083 85841847056合计1309246662076练习题48表 130名健康成年男子脉搏(次/分)的医学参考值计算表脉搏组段(i)组中值(xi)频数(fi)fi xifi xi256 572114649859 6053001800062 63127564762865 66159906534068 6925172511902571 7226187213478474 7519142510687577 781511709126080 81108106561083 85841847056合计1309246662076服从近似正态分布双侧95%医学参考值范围为:49本章重点:n掌握描述离散趋势的指标的含义及计算(极差、四分位数间距、方差、标准差、变异系数)n掌握正态分布的特点和曲线下面积分布规律。n掌握医学参考值范围的制定方法50