资源描述
1大家好卫生统计学卫生统计学(第七版)(第七版)第二章第二章 定量变量的定量变量的统计描述统计描述定量变量的定量变量的统计描述统计描述统计图表统计图表统计指标:统计指标:集中趋势指标集中趋势指标离散趋势指标离散趋势指标利用统计表对数据进行概括,用统计图对分布形利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。统计指标的意义与计算。一、一、频率分布表与频率分布图频率分布表与频率分布图(Frequency/Frequencydistribution)Frequency/Frequencydistribution)二、二、描述平均水平统计指标描述平均水平统计指标(DescriptionofDescriptionofcentraltendency)【教学内容】三、三、描述变异程度统计指标描述变异程度统计指标(DescriptionofDescriptionoftendencyofdispersion)四、四、描述分布形态统计指标描述分布形态统计指标(Descriptionofdistribution)Descriptionofdistribution)五、五、统计表与统计图统计表与统计图(statisticaltable,statisticchart)【教学内容】变变 量量统计学统计学 卫生统计学卫生统计学 研研究究内内容容定性变量定性变量定量变量定量变量统计描述统计描述统计推断统计推断随机性现象随机性现象概率论概率论数理统计数理统计统计描述统计描述:从资料中获取信息最基本的方法从资料中获取信息最基本的方法n 把握资料基本的特征把握资料基本的特征n 为统计分析打下基础为统计分析打下基础表2-2120名名18-35岁健康男性居民血清铁含量岁健康男性居民血清铁含量(umol/L)7.427.428.658.6523.0223.0221.6121.6121.3121.3121.4621.469.979.9722.7322.7314.9414.9420.1820.1821.6221.6223.0723.0720.3820.388.48.417.3217.3229.6429.6419.6919.6921.6921.6923.923.917.4517.4519.0819.0820.5220.5224.1424.1423.7723.7718.3618.3623.0423.0424.2224.2224.1324.1321.5321.5311.0911.0918.8918.8918.2618.2623.2923.2917.6717.6715.3815.3818.6118.6114.2714.2717.417.422.5522.5517.5517.5516.116.117.9817.9820.1320.13212114.5614.5619.8919.8919.8219.8217.4817.4814.8914.8918.3718.3719.519.517.0817.0818.1218.1226.0226.0211.3411.3413.8113.8110.2510.2515.9415.9415.8315.8318.5418.5424.5224.5219.2619.2626.1326.1316.9916.9918.8918.8918.4618.4620.8720.8717.5117.5113.1213.1211.7511.7517.417.421.3621.3617.1417.1413.7713.7712.512.520.420.420.320.319.3819.3823.1123.1112.6712.6723.0223.0224.3624.3625.6125.6119.5319.5314.7714.7714.3714.3724.7524.7512.7312.7317.2517.2519.0919.0916.7916.7917.1917.1919.3219.3219.5919.5919.1219.1215.3115.3121.7521.7519.4719.4715.5115.5110.8610.8627.8127.8121.6521.6516.3216.3220.7520.7522.1122.1113.1713.1717.5517.5519.2619.2612.6512.6518.4818.4819.8319.8323.1223.1219.2219.2219.2219.2216.7216.7227.927.911.7411.7424.6624.6614.1814.1816.5216.52目的:描述该组目的:描述该组18-35岁健康男性居民血清铁含量岁健康男性居民血清铁含量的分布规律。的分布规律。问题问题1.该组居民血清铁含量平均值多少?该组居民血清铁含量平均值多少?问题问题4.用表用表/图表示血清铁分布图表示血清铁分布?问题问题2.血清铁含量范围?最高多少?最血清铁含量范围?最高多少?最低多少?多少?问题问题3.血清铁含量主要集中在哪个范围血清铁含量主要集中在哪个范围?集中趋势集中趋势频数表频数表频数分布图频数分布图离散趋势离散趋势第一节第一节频数与频数分布频数与频数分布频数频数(frequency):对一个随机变量做重复观察,:对一个随机变量做重复观察,其中某变量值出现的次数。其中某变量值出现的次数。频数分布表频数分布表(frequencydistributiontable):将各变:将各变量值及其相应的频数列成表格的形式。量值及其相应的频数列成表格的形式。例例2-2抽样调查某地抽样调查某地120名名18岁岁35岁健康男性居岁健康男性居民血清铁含量民血清铁含量(mol/L),试编制频数分布表。试编制频数分布表。频数表的编制:频数表的编制:一、连续型定量变量的频数分布一、连续型定量变量的频数分布(二)连续型变量频数表的编制方法:(二)连续型变量频数表的编制方法:求全距列表划记步骤:步骤:写组段定组距 求全距求全距(Range,(Range,简记简记R):R):是一组资料中是一组资料中最大值(最大值(XmaxXmax)与最小值()与最小值(XminXmin)之差,亦称极差)之差,亦称极差。全距(全距(全距(全距(R R)=Xmax-Xmin=29.647.42=22.227.42=22.22(umol/L)7.427.428.658.6523.0223.0221.6121.6121.3121.3121.4621.469.979.9722.7322.7314.9414.9420.1820.1821.6221.6223.0723.0720.3820.388.48.417.3217.3229.6429.6419.6919.6921.6921.6923.923.917.4517.4519.0819.0820.5220.5224.1424.1423.7723.7718.3618.3623.0423.0424.2224.2224.1324.1321.5321.5311.0911.0918.8918.8918.2618.2623.2923.2917.6717.6715.3815.3818.6118.6114.2714.2717.417.422.5522.5517.5517.5516.116.117.9817.9820.1320.13212114.5614.5619.8919.8919.8219.8217.4817.4814.8914.8918.3718.3719.519.517.0817.0818.1218.1226.0226.0211.3411.3413.8113.8110.2510.2515.9415.9415.8315.8318.5418.5424.5224.5219.2619.2626.1326.1316.9916.9918.8918.8918.4618.4620.8720.8717.5117.5113.1213.1211.7511.7517.417.421.3621.3617.1417.1413.7713.7712.512.520.420.420.320.319.3819.3823.1123.1112.6712.6723.0223.0224.3624.3625.6125.6119.5319.5314.7714.7714.3714.3724.7524.7512.7312.7317.2517.2519.0919.0916.7916.7917.1917.1919.3219.3219.5919.5919.1219.1215.3115.3121.7521.7519.4719.4715.5115.5110.8610.8627.8127.8121.6521.6516.3216.3220.7520.7522.1122.1113.1713.1717.5517.5519.2619.2612.6512.6518.4818.4819.8319.8323.1223.1219.2219.2219.2219.2216.7216.7227.927.911.7411.7424.6624.6614.1814.1816.5216.522.定组距:将全距分为若干段,称为组段。定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距组与组之间的距离,称为组距;用小写;用小写i表示。表示。原则原则:(1)“组段组段”数一般为数一般为8-15个;个;(2)“组距组距”一般为一般为R/10取整;取整;(3)为计算方便根据组距采取取整数方法)为计算方便根据组距采取取整数方法本例题:本例题:本例题:本例题:组距(组距(组距(组距(i i)=全距全距全距全距/预分组段预分组段预分组段预分组段=22.22=22.22/10=2.222/10=2.222(umol/L)3.写组段:即将全距分为若干段的过程写组段:即将全距分为若干段的过程。原则原则:(1)第一组段要包括)第一组段要包括Xmin,最末组段包括,最末组段包括Xmax;(2)每组段均用下限值加每组段均用下限值加“”表示,最终组段同表示,最终组段同时注明上下限。时注明上下限。注注意意:各各组组段段不不能能重重叠叠,每每一一组组段段均均为为半半开开半半闭闭区区间间。4.列表划记:根据预定的组段和列表划记:根据预定的组段和组距,用组距,用划记的方法整理原始资料。划记的方法整理原始资料。表表2-3120名名18-35岁健康男性居民血清铁含量的频数分布表岁健康男性居民血清铁含量的频数分布表681012141618202224262830合计合计一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一13681220271812841组段划记频数120表2.2120名名18-35岁健康男性居民血清铁含量(岁健康男性居民血清铁含量(umol/L)频数表)频数表组段组段频数频数频率频率%累计频数累计频数累计频率累计频率%610.8310.83832.5043.331065.00108.331286.671815.00141210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17283010.83120100.00合计合计120100.0特点:中间高、两侧逐渐下降、左右基本对称的分布特点:中间高、两侧逐渐下降、左右基本对称的分布-直方图直方图(直条间连续直条间连续),用于表达连续型变量的频数分布。,用于表达连续型变量的频数分布。频数直方图(频数直方图(frequencydistributionfigure):根据频数分布表,以变量值为横坐标,频数为纵坐标,根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。绘制的直方图。的频数是的频数是7,频率为频率为7.3%,进行,进行3次检查次检查 的频数是的频数是11,频率频率 为为 11.5%,进行,进行5次以上检查的次以上检查的 频数是频数是12,频率为,频率为12.5%。进行进行0次检查的频数是次检查的频数是4,其频率为,其频率为4.2%,进行进行1次次 检查检查 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7二、离散型定量变量的频数分布二、离散型定量变量的频数分布例例2-1(P11)离散型变量的频数分布离散型变量的频数分布表每一个组段就是一个表每一个组段就是一个固定的取值固定的取值离散型变量的频数分布图离散型变量的频数分布图直条图直条图横坐标为产前检查次数;纵坐标为横坐标为产前检查次数;纵坐标为频率,即产前检频率,即产前检查查K次的妇女在被统计妇女中所占的比例次的妇女在被统计妇女中所占的比例%。图中等宽矩。图中等宽矩形长条的高度与相应检查次数的频率呈正比。形长条的高度与相应检查次数的频率呈正比。频率:各组的频数除以总例数频率:各组的频数除以总例数n所得的比值。频所得的比值。频率描述了各组频数在全体中所占的比重,各组率描述了各组频数在全体中所占的比重,各组频率之和等于频率之和等于100%。累计频数:本组段的频数与以前各组段的频数累计频数:本组段的频数与以前各组段的频数相加;相加;累计频率:每组段的累计频数除以总例数。累计频率:每组段的累计频数除以总例数。三、三、频数分布的两个特征频数分布的两个特征集中趋势:血清铁含量向中央部分集中,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在即中等含量者居多,集中在18这个组段,这种现象为集中趋势。这个组段,这种现象为集中趋势。离散趋势:从中央部分到两侧的频数分布离散趋势:从中央部分到两侧的频数分布逐渐减少,而且逐渐减少,而且血清铁含量血清铁含量的值参差不齐,的值参差不齐,最低的接近最低的接近6,最高的接近,最高的接近30,这种现象称为离散趋势。这种现象称为离散趋势。由由于于同同质质性性,所所有有实实测测值值趋趋向向同一数值的趋势称为集中趋势。同一数值的趋势称为集中趋势。离离散散趋趋势势或或变变异异程程度度是是指指观观察察值之间参差不齐的程度。值之间参差不齐的程度。血清胆固醇组段血清胆固醇组段(1)划记划记(2)频数频数(3)2.302.602.903.203.503.804.104.404.705.005.305.60一一下下正一正一正下正下正正正丅正正正丅正正正正正正正正正正正丅正正正丅正正丅正正丅正止正止正正丅丅一一1368172017129521表表2-2 2-2 某地某地101101名名正常成年女子血清总胆固醇正常成年女子血清总胆固醇的频数表的频数表合计合计140从中央部分到从中央部分到两侧的频数分两侧的频数分布逐渐减少、布逐渐减少、血清胆固醇的血清胆固醇的的值参差不齐的值参差不齐离散趋势离散趋势血清胆固醇值向中央部血清胆固醇值向中央部分集中,即中等含量者分集中,即中等含量者居多居多集中趋势集中趋势频数分布频数分布四、频数分布的类型四、频数分布的类型对称分布型:指集中位置在正中,左右对称分布型:指集中位置在正中,左右两侧频数分布大体对称两侧频数分布大体对称。偏态分布型:指集中位置偏向一侧,频数偏态分布型:指集中位置偏向一侧,频数分布不对称。分布不对称。偏态分布偏态分布正偏态分布:集中位置偏向数值小的一侧。正偏态分布:集中位置偏向数值小的一侧。负偏态分布:集中位置偏向数值大的一侧负偏态分布:集中位置偏向数值大的一侧。(三)频数表的用途:(三)频数表的用途:1.1.揭示变量的分布特征揭示变量的分布特征图图3.1某市某市100名名8岁男童身高岁男童身高(cm)的频数分布的频数分布离散趋势(tendencyofdispersion)集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势(centraltendency)身高身高(cm)频频数数分布分布特征特征2.2.揭示变量的分布类型揭示变量的分布类型频数频数分布分布偏态偏态分布分布正正偏偏负负偏偏集中部位在中部,两集中部位在中部,两端渐少,左右两侧的端渐少,左右两侧的基本对称,为基本对称,为对称对称(正态(正态)分布分布。对称对称分布分布集中部位偏于较小集中部位偏于较小值一侧值一侧(左侧左侧),较大,较大值方向渐减少,为值方向渐减少,为正偏态分布正偏态分布。集中部位偏于较大集中部位偏于较大值一侧值一侧(右侧右侧),较,较小值方向渐减少,小值方向渐减少,为为负偏态分布负偏态分布。4.便于进一步计算统计指标和统计分析便于进一步计算统计指标和统计分析3.便于发现某些离群值或极端值便于发现某些离群值或极端值。图图3.1某市某市101名名8岁男童身高岁男童身高(cm)的频数分布的频数分布身高(cm)频数一一.集集中中趋趋势势统统计计指指标标:反反映映总总体体内内部部的的同同质质。二二.离离散散度度统统计计指指标标:反反映映总总体体内内个个体体间间的的变变异异。三三.分分布布形形态态统统计计指指标标:反反映映高高峰峰的的形形态态。第二节第二节描述平均水平的统计指标描述平均水平的统计指标平均数:描述一组同质计量资料的集中趋势;反映一组观察值平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。的平均水平。常用的平均数有算术均数,几何均数和中位数。常用的平均数有算术均数,几何均数和中位数。(一)算术均数(一)算术均数(mean)(mean):简称均数,总体均数用希腊字母:简称均数,总体均数用希腊字母表表示,样本均数用拉丁字母示,样本均数用拉丁字母 表示。表示。1.1.计算方法计算方法 1 1)直接法:适用于样本例数直接法:适用于样本例数n n较少的资料。较少的资料。其中其中X X1 1,X X2 2X Xn n为各变量值,为各变量值,n n为样本例数。为样本例数。2)加权法:适用于变量值较多的资料。加权法:适用于变量值较多的资料。K=1、2、3.,fk为第k组段的频数,X0k为第k组段的组中值,组中值=(本组段下限+下组段下限)/2。即频数多,权数大,作用也大,频数小,权数小,作即频数多,权数大,作用也大,频数小,权数小,作用也小。用也小。10,10,10,15,1510有有3个,权数为个,权数为3,计算均数时起计算均数时起3/5的作的作用用频数多,权数频数多,权数大,作用大大,作用大15有有2个,权数为个,权数为2,计算均数时起计算均数时起2/5的作的作用用频数小,权数频数小,权数小,作用小小,作用小例例2-3某年某医院某年某医院8名女性晚期肺癌患者红细胞名女性晚期肺癌患者红细胞计数计数(1012/L)为为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。试求其算术均数。例例2-4求例求例2-2中某地中某地120名名18-35岁健康男性居民岁健康男性居民的血清铁含量的均数。的血清铁含量的均数。120名名18-35岁健康男性居民血清铁含量均数、标准差计算表(加权法)岁健康男性居民血清铁含量均数、标准差计算表(加权法)组段组段频数(频数(f)组中值(组中值(X0)fX0(1)(2)(3)(4)=(2)(3)(5)=(3)(4)681012141618202224262830合计合计120(f)2228(fX0)43640()136812202712108417276610418034051337827620010829791113151719212325272949243726135227005780974779386348500029168412.算数均数的应用算数均数的应用它最适用于对称分布资料,尤其是它最适用于对称分布资料,尤其是正态分正态分布资料布资料。因为这时均数位于分布的中心,最能。因为这时均数位于分布的中心,最能反映资料的集中趋势。反映资料的集中趋势。(二)几何均数二)几何均数(geometricmean):(几何均数也称为倍数均数,用(几何均数也称为倍数均数,用G表示)表示)1.几何均数的计算方法几何均数的计算方法1)直接法:适用于样本例数直接法:适用于样本例数n较少的资料。较少的资料。将将n个观察值个观察值X1,X2,X3Xn的乘积开的乘积开n次方次方对数形式:G=lg-1(lgX1+lgX2+lgX3+lgXn)/n=lg-1(lgX/n)例例2-57名慢性迁延性肝炎患者的名慢性迁延性肝炎患者的HBsAg滴度资滴度资料为料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。求其平均效价。7份份HBsAg的平均滴度为的平均滴度为1:642)加权法:适用于样本例数加权法:适用于样本例数n较多的资料。较多的资料。X1,X2Xn为各组段的滴度或滴度倒数。为各组段的滴度或滴度倒数。f1,f2fn分别为各组段的频数。分别为各组段的频数。例例2-652例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度数据见表,求滴度数据见表,求其平均滴度。其平均滴度。52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度的几何均数为滴度的几何均数为1:119.74705二)几何均数应用的注意事项:二)几何均数应用的注意事项:1)几何均数常用于等比资料或对数正态)几何均数常用于等比资料或对数正态分布资料。分布资料。2)观察值中不能有)观察值中不能有0。3)观察值中不能同时有正值和负值。)观察值中不能同时有正值和负值。练习题:练习题:1.有有8份血清的抗体效价分别为:份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640求平均抗体效价。求平均抗体效价。2.有有50人的血清抗体效价,分别为:人的血清抗体效价,分别为:5人人1:10,9人人1:20,20人人1:40,10人人1:80,6人人1:160求平均抗体效价求平均抗体效价。中位数(中位数(median,M):将一组变量值从小到大按顺序排列,将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。位次居中的那个变量值就是中位数。(三)中位数和百分位数(三)中位数和百分位数百分位数(百分位数(percentile,Px):指把数据从小到大排列后位指把数据从小到大排列后位于第于第X%位置的数值。位置的数值。有n个观察值X1,X2Xn,把他们由小到大按顺序排列成X1X2X3Xn,将这n个观察值平均的平均的分为100等份,对应于每一等份的数值就是一个百分位数,对应对应于前面于前面X%个位置的数值称为第个位置的数值称为第X百分位数,用百分位数,用Px表示。表示。一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有(100-X)%的观察值比它大。1.中位数和百分位数的计算中位数和百分位数的计算1)直接法:直接法:适用于样本例数n较少的资料。将观察值按大小顺序排列,当n为奇数奇数时,中间那个数就是中位数。当n为偶数偶数时,中间两个数的平均数就是中位数。例例2-7某药厂观察某药厂观察9只小鼠口服高山红景天醇只小鼠口服高山红景天醇提物(提物(RSAE)后在乏氧条件下的生存时间(分钟)后在乏氧条件下的生存时间(分钟)如下:如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0n为奇数,为奇数,M=63.6(cm)练习:练习:1.某病患者某病患者9名,发病潜伏期分别为顺序名,发病潜伏期分别为顺序2、3、3、3、4、5、6、9、16d,求中位数。,求中位数。2.某病患者某病患者8名,发病潜伏期从小到大排分别为名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。求平均潜伏期。2)频数表法计算中位数和百分位数:频数表法计算中位数和百分位数:适用于样本例数n较多的资料。累计频数:本组段的频数与以前各组段的频数累计频数:本组段的频数与以前各组段的频数相加;相加;累计频率:每组段的累计频数除以总例数。累计频率:每组段的累计频数除以总例数。公式为公式为L为百分位数所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为百分位数所在组段的前一组段前一组段前一组段前一组段的累计频数,n为总例数。例例2-850例链球菌咽峡炎患者潜伏期(例链球菌咽峡炎患者潜伏期(h),计算其中位数。),计算其中位数。组段组段频数频数累计频数累计频数累计频率累计频率(%)1224364860728496108120合计合计50112781611193811306073774542844469224896250100求求P25,P75。2.中位数和百分位数的应用中位数和百分位数的应用1)中位数常用于描述偏态分布资料的集中趋势,反映位次)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。数在理论上是相同的。2)百分位数可用于确定医学参考值范围(详后)百分位数可用于确定医学参考值范围(详后)。3)分布在中部的百分位数相当稳定,具有较好的代表性,)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。应用平均数的注意事项应用平均数的注意事项1.平均数的计算和应用必须具备同质基础平均数的计算和应用必须具备同质基础,必须先必须先合理分组。合理分组。不同质的事物要分别求平均数,以便分析比较。不同质的事物要分别求平均数,以便分析比较。2.根据资料的分布选用适当的平均数根据资料的分布选用适当的平均数。对称分布资料,尤其是正态分布资料正态分布资料正态分布资料正态分布资料,宜用均数,也可用中位数,而偏态分布资料偏态分布资料偏态分布资料偏态分布资料则中位数的代表性较好,对数正态分对数正态分对数正态分对数正态分布及等比级数资料布及等比级数资料布及等比级数资料布及等比级数资料宜用几何均数。4.众数(mode)是一组观察值中出现频率最高的那个观察值;是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个若为分组资料,众数则是出现频率最高的那个组段。组段。例例 有有1616例高血压病人的发病年龄(岁)为:例高血压病人的发病年龄(岁)为:4242,4545,4848,5151,5252,5454,5555,5555,5858,5858,5858,5858,6161,6161,6262,6262,试求众数试求众数?出现频数最多的数值为出现频数最多的数值为5858,故众数为,故众数为5858。5858岁为高血岁为高血压的高发年龄。压的高发年龄。众数从概念上易于理解。但没有充分利用样本观察值众数从概念上易于理解。但没有充分利用样本观察值的全部信息。的全部信息。例例.对对甲甲乙乙两两名名高高血血压压患患者者连连续续观观察察5天天,测测得得的的收缩压收缩压(mmHg)mmHg)结果结果如下:如下:可以看出:可以看出:两患者收缩压的均数十分接近,两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定但甲患者的血压波动较大,而乙患者相对稳定。患者患者第第1天天第第2天天第第3天天第第4天天第第5天天均数均数甲患者甲患者162145178142186162.6乙患者乙患者164160163159166162.4第三节、描述变异程度的统计指标第三节、描述变异程度的统计指标只用平均数描述资料的弊病甲组2629303134均数30kg乙组2427303336均数30kg丙组2628303234均数30kg丙乙甲三组儿童体重的离散程度例例2-11试观察试观察3组数据的离散情况。组数据的离散情况。A组组2628303234B组组2427303336C组组2629303134为了全面的把握数据的分布特征,通常,为了全面的把握数据的分布特征,通常,描述一组观察值,除需要表示其平均水平外,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。还要说明它的离散或变异的情况。离离散散趋趋势势:用用于于描描述述一一组组数数值值变变量量观观察察值值之之间间参参差不齐的程度,即变异程度。差不齐的程度,即变异程度。包括包括极差极差(Range,Range,R R)四分位数间距四分位数间距(Quartile,Quartile,Q Q)方差方差(VarianceVariance,)标准差标准差(Standard deviationStandard deviation,S S)变异系数变异系数(Coefficient ofCoefficient of variation,CV)1.极差极差(range,R)也称为全距,用R表示,即一组资料中,最大值与最小值之差。缺点:1)除了最大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)即使样本含量相同,极差也不够稳定。1 1、适用条件:常用于描述、适用条件:常用于描述单峰对称分布单峰对称分布小样本小样本 资料的变异程度,或用于初步资料的变异程度,或用于初步 了解资料的变异程度。了解资料的变异程度。2 2、意义:对于计量单位相同的变量,极差越、意义:对于计量单位相同的变量,极差越 大,观察值的离散程度越大。大,观察值的离散程度越大。3 3、优点:用以说明数据分布的离散程度,方法、优点:用以说明数据分布的离散程度,方法 简单明了;理论上可用于各种分布资简单明了;理论上可用于各种分布资 料料 4 4、缺点、缺点(1 1)除了最大值与最小值外,不能反映组内其它观)除了最大值与最小值外,不能反映组内其它观察值的变异度;察值的变异度;稳定性差稳定性差。(2 2)样本较大时,抽到较大值与较小值的可能性也)样本较大时,抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。大时,不宜用极差来比较分布的离散度。(3 3)当两组样本例数相差悬殊时,不宜选用极差作)当两组样本例数相差悬殊时,不宜选用极差作为比较两组变异程度的指标为比较两组变异程度的指标 2.四分位数间距四分位数间距(quartilerange,Q)简记为简记为Q,可看为特定的百分位数。P25表示全部观表示全部观察值中有察值中有25%(1/4)的观察值比它小,记为下四分位)的观察值比它小,记为下四分位数数QL,P75表示全部观察值中有表示全部观察值中有75%的观察值比它小,的观察值比它小,记为上四分位数记为上四分位数QU。Q适用于各种类型的连续型变量,特别是偏态分布适用于各种类型的连续型变量,特别是偏态分布的资料。的资料。例例2-8四分位数间距的特点:四分位数间距的特点:适用于描述偏态分布、一端或两端无确切数值、适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。分布不明确资料的离散程度。四分位数间距越大,数据分布的变异度越大四分位数间距越大,数据分布的变异度越大;反之,反之,变异度越小。变异度越小。与中位数一起描述偏态分布资料的分布特征。与中位数一起描述偏态分布资料的分布特征。作为描述数据分布离散程度的指标,比极差稳定,作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍值的变异度,在统计分析中应用的不够普遍。3.方差(方差(Variance)公式及来源:公式及来源:极差和四分位间距未考虑极差和四分位间距未考虑全部观察值全部观察值的变异度的变异度全面地考虑全面地考虑每个每个变量值的变量值的离散离散情况情况为了衡量每个变量值的变异;先选择一个数值作为了衡量每个变量值的变异;先选择一个数值作为比较标准;谁合适呢?均数最有代表性。为比较标准;谁合适呢?均数最有代表性。应考虑总体中每个变量值应考虑总体中每个变量值x与总体均数与总体均数之之差;差;x-称为称为离均差离均差。分析:分析:为解决这个问题,给每项离均差平方后再相加,为解决这个问题,给每项离均差平方后再相加,称称离均差平方和离均差平方和,即即(x-)2。但每个变量值与均数相减所得到得差值有正但每个变量值与均数相减所得到得差值有正有负相消,即有负相消,即(x-x)=0;这样就不能反映变异这样就不能反映变异的大小的大小?还有没有问题没考虑到?还有没有问题没考虑到?离均差平方和的大小,除与变异度有关外,还离均差平方和的大小,除与变异度有关外,还与与变量值的个数变量值的个数(多少)有关,为在变量值个数(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得不等时进行比较,还要除以变量值的个数,所得值即为值即为总体方差总体方差,用,用2表示:表示:2=总体方差:总体方差:NX-2)(m样本方差样本方差:以样本均数代表以样本均数代表,用样本例数,用样本例数n代表总体例代表总体例数数N,所得方差称,所得方差称样本方差样本方差,用,用S2表示:表示:nXXS-=22)(公式中存在的问题?根据以上公式研究的结果表明求得的样本方根据以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过差总是偏小;为解决此问题,英国统计学家通过实验,用实验,用n-1代替可消除误差。代替可消除误差。n-1称为称为自由度自由度(degreeoffreedom),用希腊字母),用希腊字母nju:表示,表示随机变表示,表示随机变量能够自由取值的个量能够自由取值的个数。n-1XXS-=22)(样本方差样本方差的的公式调整为:公式调整为:(n-1)称为)称为自由度自由度(degreeoffreedom),),用希腊字母用希腊字母nju:表示,表示随机变量能够自由表示,表示随机变量能够自由取值的个数。取值的个数。分析:分析:如有一组四个(如有一组四个(n=4)数据的样本,)数据的样本,受到受到=5的条件限制,在自由确定的条件限制,在自由确定4、2、5三个三个数据后,第四个数据只能是数据后,第四个数据只能是9,否则,否则5。因而。因而这里的自由度这里的自由度=n-1=4-1=3。推而广之,任何统。推而广之,任何统计量的计量的自由度自由度=n-限制条件的个数。限制条件的个数。方差方差:分总体方差分总体方差,样本方差,样本方差S2总体方差总体方差样本方差样本方差例:计算三组数据的方差A组:24,27,30,33,36;B组:26,28,30,32,34;C组:26,29,30,31,34。方差的特点方差的特点适用条件:对称分布资料,特别是正态分布或近适用条件:对称分布资料,特别是正态分布或近似正态分布资料。似正态分布资料。意义:方差越大,数据间的变异越大意义:方差越大,数据间的变异越大优点:利用了每个数据的信息,是常用的优点:利用了每个数据的信息,是常用的 描述数据分布离散程度指标描述数据分布离散程度指标不足:度量衡单位发生了改变,不便于实际应用。不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差。为此,更常用的是标准差。4.标准差(标准差(Standarddeviation,SD或或S)方差的单位是原度量单位的平方,不便使用。方差的单位是原度量单位的平方,不便使用。将方差公式展开,并开方,即得到另一个重要将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即的离散趋势的指标,即标准差标准差,简写为,简写为S。公式来源:公式来源:总体标准差:总体标准差:1()2-=nXXs样本标准差:样本标准差:1.直接法:适用于直接法:适用于n较小的资料较小的资料求例题中A组数据的标准差。2.加权法:适用于加权法:适用于n较大的资料较大的资料120名成年男子血清铁含量均数、标准差计算表(加权法)名成年男子血清铁含量均数、标准差计算表(加权法)组段频数(f)组中值(X0)fX0fX02(1)(2)(3)(4)=(2)(3)(5)
展开阅读全文