1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,第二章 定量数据的统计描述,Chapter 2 Descriptions of quantitative data,频数分布,集中趋势的统计指标,变异程度的统计指标,第一节 频数分布,Frequence,distribution,例2,-1,某地用随机抽样方法检查了140名成年男子的红细胞数,检测结果如表所示:,如何有效地组织、整理和表达数据的信息?,4.76,5
2、02,4.63,4.52,4.78,5.05,4.94,4.44,4.71,4.97,5.24,5.50,4.63,5.27,4.40,5.04,4.93,4.81,4.70,5.34,4.47,4.73,5.00,4.88,4.77,4.27,4.92,5.18,4.31,4.57,4.46,5.95,5.61,5.26,4.76,由实验或临床观察等各种方式得到的原始数据,,,如果是定量资料并且观察的例数较多,为了能够显示数据的分布规律,可以对数据进行分组,然后制作频数表或绘制直方图。,一、频数表,频数表:同时列出观察指标的可能取值区间及其在各区间内出现的频数。,1.确定组数,k,:通常选
3、择在815之间,2.确定组距:参考组距为,R,/,k,R,为全距,3.确定组限:应符合专业习惯,4.确定频数:可由软件完成,frequency table,54.4,22.9,32,4.60,100.0,-,140,合计,100.0,0.7,1,5.80,6.00,99.4,1.4,2,5.60,98.0,2.9,4,5.40,95.1,9.3,13,5.20,85.8,12.1,17,5.00,73.7,19.3,27,4.80,31.5,17.9,25,4.40,13.6,7.9,11,4.20,5.7,4.3,6,4.00,1.4,1.4,2,3.80,累积频率(%),频 率(%),频
4、数,红细胞数,表,2-2,某地,140,名正常男子红细胞数的频数表,frequency table,直方图,:,直观、形象地表示频数分布的形态和特征,图2-1 140,名正常男子红细胞计数的直方图,二、直方图,Histogram,三、频数表的用途,Use of frequency table,1.作为陈述资料的形式,2.便于观察数据的分布类型,3.便于发现资料中含有的异常值,4.可用各组段的频率作为概率的估计值,正偏态分布,负偏态分布,正态分布,三、频数表的用途,Use of frequency table,1.作为陈述资料的形式,2.便于观察数据的分布类型,3.便于发现资料中含有的异常值,4
5、可用各组段的频率作为概率的估计值,平均数,(,Average,),描述一组观察值集中位置或平均水平的统计指标。,Average in common use:,Mean,算数均数,Geometric mean,几何均数,Median,中位数,第二,节 集中趋势的统计指标,Description of,central tendency,一、算术均数,(arithmetic mean),应用:主要适用于对称分布或偏斜度不大的资料,尤其适合正态分布资料。,直接法计算,:,加权法:,表,2-2,数据,优点,:意义很容易理解,而且结果也比较稳定,因而应用广泛。但它主要应用于对称分布或斜度不大的资料,尤其
6、是正态分布资料。,缺点,:对极端值太敏感。在这种情形下,它不能代表样本点的绝大多数。在极端情形下,有时可出现只有一个观察值是在均数的一边。,均数的应用,二、几何均数,-,适用对数对称分布,例,2-2,测得,10,个人的血清滴度的倒数分别为,2,,,2,,,4,,,4,,,8,,,8,,,8,,,8,,,32,,,32,,求平均滴度,Geometric mean,例,2-3,(频数表资料),应用:,原始数据分布不对称(一般呈正偏态),经对数转换后呈对称分布的资料,主要用于血清学和微生物学中,三、中位数和百分位数,(一)中位数,(,median,M,),将一组观察值从小到大按顺序排列,居中心位置的
7、数值即为中位数。,1.,原始资料,如测得,5,个人的,VLDL,中的,apo_B,的含量,(,mmol/L,),为,0.0095,,,0.0322,,,0.0617,,,0.0970,,,0.1085,,则,M,=0.0617(mmol/L),若测量结果:,0.0095,,,0.0322,,,0.0617,,,0.097,,则,M,=(0.0322+0.0617)/2=0.0470(mmol/L),2.,频数表资料,(,例,2-4),表2-4 某地630名正常女性血清甘油三脂含量(,mmol/L),-,-,630,合计,100.0,630,1,3.10,99.8,629,3,2.80,99.4
8、626,4,2.50,98.7,622,14,2.20,96.5,608,28,1.90,92.1,580,42,1.60,85.4,538,81,1.30,72.5,457,94,1.00,57.6,M,363,167,0.70,31.1,196,169,0.40,4.3,27,27,0.10,累积频率(%),累积频数,频数,甘油三脂,Median,L,、,i,M,、,f,M,分别为,M,所在组段的下限、组距和频数,,f,L,为,M,所在组段之前各组段的累积频数,。,Median,(二)百分位数(,Percentile,),L,:,组段的下限;,i,M,:,组距;,f,x,:,频数;,f,
9、L,:,P,x,所在组段之前的累积频数。,例,2-5,计算例,2.4,的百分位数,P,25,、,P,75,、,P,90,。,(,三)中位数和百分位数的应用,1.中位数是百分位数的特例。其特点是不易受异常值的影响,适用于描述明显偏态分布、或两端无确定数值数据的平均水平。,2.描述数据序列在某百分位置的水平。多个百分 位数结合使用如,P,25,和,P,75,可以描述数据的分散程度,用,P,2.5,和,P,97.5,计算医学,95%,的参考值范围等。,Percentile,第三节 变异程度的统计指标,例,2-6,对甲乙两名高血压患者连续观察5天,测得的收缩压(,mmHg,),结果如下:,两患者收缩压
10、的均数十分接近,,,但甲患者的血压波动较大,而乙患者相对稳定。通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。,患者,第1天,第2天,第3天,第4天,第5天,均数,甲患者,162,145,178,142,186,162.6,乙患者,164,160,163,159,166,162.4,一、极差,极差(,range,)也称作全距,即观察值中最大值和最小值之差,用符号,R,表示。如前例甲乙两患者收缩压的极差分别为,该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;缺点是结果不稳定。,极差的特点,(,1,)简单明了:最简单。,意义:,R ,离散程度。
11、2)稳定性差:只受极端值影响。且 n R,(3)不全面:未考虑极端值之外数值的影响粗略指标。,二、四分位数间距,若 算出,,50,岁,60,岁正常女性血清 甘油三脂含量的百分位数,P,25,和,P,75,的位置分别为,0.632,mmol/L,和,1.357,mmol/L,,,则,四分位数间距,(,quartile,)受极端值的影响小,,主要用于衡量明显偏态分布资料的变异程度。,三、方差,方差(,variance,)是将离均差平方和再取平均,即,,,注意:对于样本资料,分母用的是,n,-1,,称为自由度,(,degree of freedom,,,df,),。,方差的特点:便于数学上的处理
12、但由于有平方项,度量衡发生变化,不便于实际应用。,四、标准差,将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差,(,standard deviation,),:,例如对于例,3.1,经计算有,甲患者:,,同理乙患者:,Karl Pearson,标准差的特点,能利用所有数据的信息,受极端值的影响大,常用于正态分布或近似正态分布资料。,五、变异系数,变异系数,(,coefficient of variation,),:用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。,某地不同年龄组男童身高(,cm,),年龄组,S CV%,1-2,月,56.3 2.1 3.73,5-6,
13、月,66.5 2.2 3.31,3-3.5,岁,96.1 3.1 3.22,5-5.5,岁,107.8 3.3 3.06,结论:随着年龄增加,身高的变异变小。,均数差别较大的变量间变异程度的比较,1.,运用频数表、直方图和统计指标技巧能够有效地组织、整理和表达计量资料的信息。,2.,平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。其中均数的应用最为广泛,几何均数则多用于血清学和微生物学中,中位数主要用于偏度较大或无两端观测值的数据分布资料。,小 结,3.,百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。,4.,衡量变异程度大小的指标有多种,:,极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。,
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818