1、第二章第二章计量资料的统计描述计量资料的统计描述1主要内容主要内容n第一节 频数分布n第二节 集中趋势n第三节 离散趋势n第四节 正态分布n第五节 医学正常值范围的估计2第一节第一节 频数分布频数分布n什么是频数n频数分布的特点n频数分布的类型n频数分布的用途3 频数:当汇总大量的原始数据时,把数据频数:当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,按类型分组,其中每个组的数据个数,称为该组的频数。称为该组的频数。频数表(频数分布):表示各组及它们频数表(频数分布):表示各组及它们对应的组频数的表格称为频数表或频数对应的组频数的表格称为频数表或频数分布。分布。4频数分布的两个
2、特征:频数分布的两个特征:集中趋势与离散趋势集中趋势与离散趋势频数分布的类型:频数分布的类型:对称分布与偏态分布(集中位置偏向小的一侧叫对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)正偏态,反之叫负偏态)频数表的主要用途:频数表的主要用途:1.揭示分布类型揭示分布类型 2.发现特大值和特小值发现特大值和特小值 3.计算集中趋势指标与离散趋势指标计算集中趋势指标与离散趋势指标56一、频数表一、频数表(Frequency Table)频数表:同时列出观察指标的可能取值区间频数表:同时列出观察指标的可能取值区间及其在各区间内出现的频数。及其在各区间内出现的频数。1.确定组数确定组数
3、k:通常选择在:通常选择在815之间之间 2.确定组距:确定组距:参考组距为参考组距为R/k,R为全距为全距(R=最大值最大值-最小值最小值)3.确定确定组组段段:应应符合专业习惯符合专业习惯 4.对各组段计数:划记或由软件完成对各组段计数:划记或由软件完成71998年100名18岁健康女大学生身高的频数分布身高组段(1)划记频数 f (2)1541121561111415811111,11111,11116011111,11111,1111316211111,11111,11111,11111,112216411111,11111,11111,11111916611111,11111,111
4、111516811111,111191701111417217411合 计1008SPSS建立数据库n1.进入SPSS操作窗口n2.进入数据编辑窗口nVariable View 变量名 类型 整数位 小数位n输入数据:Data View910第二节第二节 集中趋势集中趋势n 集中位置的描述,即大多数数值落在什么位置。描述集中趋势的几种指标:1.算术均数(均数)2.几何均数3.中位数111.算术均数(均数算术均数(均数)n意义:一组性质相同的观察值在数量上的平均水平。n表示 (总体)X(样本)n计算:直接法、间接法、计算机n特征:(X-X)=0 估计误差之和为0。n应用:正态分布或近似正态分布n
5、注意:合理分组,才能求均数,否则没有意义。12 SPSS计算算术均数nAnalyze-Descriptive Statistics-Frequencies-Statistics-Mean-Continue-OK132.几何均数几何均数n意义:N个数值的乘积开N次方即为这N 个数的几何均数。n表示:G n计算:n应用:原始数据分布不对称,经对数转换后呈对称分布的资料。例如抗体滴度。14SPSS计算几何均数nAnalyze-Reports-Case Summaries-Statistics-Geometric Mean-Continue-OK153.中位数、百份位数中位数、百份位数n意义:将一组观
6、察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。n表示:M、PXn计算:n百分位数:将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。n应用:偏态资料,开口资料16SPSS计算中位数、百分位数nAnalyze-Descriptive Statistics-Frequencies-Statistics-Median-Continue-OK17Statisticsf23801.2281.100.300.300.700.700.700.7001.1001.1001.1001.5001.5001.5002.3002.3003.9
7、00ValidMissingNMeanMedian1510202530405060707580909599Percentiles18 小小 结结 1.1.运用频数表、直方图和统计指标这些技巧运用频数表、直方图和统计指标这些技巧能能够够有效地有效地组织组织、整理和表达、整理和表达计量计量资资料的信息。料的信息。2 2.平均数是描述一组观察值集中位置或平均水平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中平的统计指标,常用的有算术均数、几何均数和中位数。其中位数。其中均数的应用最为广泛,几何均数则多用均数的应用最为广泛,几何均数则多用于血清学和微生物学中,中位数主
8、要用于偏度较大于血清学和微生物学中,中位数主要用于偏度较大的数据分布资料。的数据分布资料。3.3.百分位数可用来描述百分位数可用来描述资资料的料的观观察察值值序列在某序列在某百分位置的水平,中位数是其中的一个特例。百分位置的水平,中位数是其中的一个特例。19第三节第三节 离散趋势离散趋势常用指标:常用指标:n全距:即即观观察察值值中最大中最大值值和最小和最小值值之差。之差。n四分位数间距:n方差:是将离均差平方和再取平均。是将离均差平方和再取平均。n标准差:标准差:将方差取平方根。将方差取平方根。n变异系数 描述一组数据参差不齐的程度描述一组数据参差不齐的程度。20标准差标准差n相关概念:离均
9、差、离均差平方和、方差(2 S2)n 标准差的符号:S n 意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数的代表性越好)n 计算:n应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围21SPSS计算标准差nAnalyze-Descriptive Statistics-Frequencies-Statistics-Dispersion-Std.deviati-Continue-OK22变异系数变异系数n意义:标准差与均数之比用百分数表示。n符号:CVn计算:CV=(S/X)100%n无单位n应用:单位不同的多组数据比较 均数
10、相差悬殊的多组资料23第四节 正态分布n1、图形n2、特征n3、面积2425SPSS绘制正态曲线nAnalyze-Descriptive Statistics-Frequencies-Charts-Histograms-Normal Curve-Continue-OK2627正态分布的特征正态分布的特征n均数处最高;n均数为中心对称;n2个参数 N(u,)n标准正态分布:N(0,1);n标准正态变换标准正态变换(变换公式变换公式);n曲线下的面积有一定规律。28正态曲线下的面积分布规律正态曲线下的面积分布规律l横轴上、曲线下的面积为1;l曲线下,横轴上对称于0的面积相等。293031第五节第五
11、节 医学正常值范围的估计医学正常值范围的估计 定义:又称参考值范围,是指特定健康人群的解剖、定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定生理、生化等各种数据的波动范围。习惯上是确定包括包括95%95%的人的界值。的人的界值。单双侧:单双侧:根据指标的实际用途,有的指标有上下根据指标的实际用途,有的指标有上下界值(双侧)。某些指标只需确定上限(单);某界值(双侧)。某些指标只需确定上限(单);某些指标只需确定下限(单)。些指标只需确定下限(单)。估计的方法:估计的方法:1 1、正态分布法、正态分布法2 2、百分位数法、百分位数法32应用条件:正态分布
12、或近似正态分布资料 计算(双侧):95%正常值(医学参考值)范围公式:(x1.96 S,x1.96 S)即(x1.96 S)1、正态分布法、正态分布法33SPSS求正常值范围(正态分布法)nAnalyze-Descriptive Statistics-Explore-Statistics-Descriptives-Continue-OK342、百分位数法、百分位数法n应用条件:偏态分布资料 n计算公式:双侧界值:P 2.5 P 97.5 单侧 上界:P 95 单侧 下界:P 5 35SPSS求正常值范围(百份位数法)nAnalyze-Descriptive Statistics-Frequen
13、cies-Statistics-Percentile Values-Continue-OK36 1.1.描描述述一一组组观观察察值值,除除需需要要表表示示其其平平均均水水平平外外,还要说明它的离散或变异的情况。还要说明它的离散或变异的情况。2.2.衡衡量量变变异异程程度度大大小小的的指指标标有有多多种种:极极差差、四四分分位位数数间间距距、方方差差、标标准准差差和和变变异异系系数数。其其中中应应用用最最多多的的是是标准差和变异系数。标准差和变异系数。3.3.标标准准差差与与均均数数结结合合能能够够完完整整地地描描述述一一个个正正态态分分布布。对对任任何何参参数数的的正正态态分分布布,都都可可以
14、以通通过过一一个个简简单单的的变变量量变变换换化化成成标标准准正正态态分分布布。利利用用正正态态分分布布可可以以很很容容易易地地确确定定其数其数值值出出现现在任意指定范在任意指定范围围内的概率内的概率。小小 结结37 4.4.医学参考医学参考值值范范围围指指“正常正常参照人群参照人群”的解剖、生理、的解剖、生理、生化、免疫及生化、免疫及组织组织代代谢产谢产物的含量等各种数据的波物的含量等各种数据的波动动范范围围。主要用主要用作划分正常人与异常人的界作划分正常人与异常人的界线线。5 5.医学参考医学参考值值范范围围的制定的制定需要按照一定步骤进行需要按照一定步骤进行。实际实际中最好中最好结结合正
15、常人和病人的数据分布特点,合正常人和病人的数据分布特点,权权衡假阳性和假衡假阳性和假阴性的比例,阴性的比例,选择选择一个适当的百分范一个适当的百分范围围,最常用的百分界限最常用的百分界限是是95%95%。6.6.参考参考值值范范围围估估计计的方法有多种,其中最基本的有百分的方法有多种,其中最基本的有百分位数法和正位数法和正态态分布法。分布法。正态法的优点是结果较稳定,但对资正态法的优点是结果较稳定,但对资料要求严格;料要求严格;百分位数法百分位数法适合于任何分布类型的资料,但要适合于任何分布类型的资料,但要求大样本。求大样本。38n例1.3 某地随机抽取正常的成年男子120名,其红细胞计数值(
16、1012/L)5.124.325.144.855.134.284.704.134.683.423.925.355.134.845.465.285.264.464.285.225.484.685.043.714.584.914.664.783.845.034.374.445.314.524.705.274.315.144.204.324.175.695.334.134.535.194.544.524.095.254.214.944.565.254.784.434.833.703.955.214.414.893.735.213.524.564.754.024.115.514.404.374.334.795.174.684.505.535.395.863.294.644.314.804.584.905.795.094.054.585.275.124.184.923.774.754.245.095.464.684.924.864.895.364.134.934.163.865.454.044.494.914.874.976.183.864.064.904.585.691.绘制直方图,讨论其分布特征;2.根据讨论结果,用恰当的统计指标描述资料的平均水平和变异程度;3.计算P25、P75和P95;39404142434445464748