资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,/30,*,第二章,频数分布,频数分布,对于一群同质个体的某项定量指标,收集到计量数据之后,欲了解其分布的范围、数据最集中的区间以及分布的形态,可通过编制频数分布表或者简称频数表(,frequency table,)来实现。,频数分布表通常是针对样本而言。对于连续性变量,频数分布为,n,个变量在各变量区间内的变量之个数的分配,离散数据是变量值处个数的分配。,以连续变量为例介绍频数分布表的编制步骤:,例,2-1,从某单位,1999,年的职工体检资料中获得,101,名正常成年女子的血清总胆固醇(,mmol,/L,)的测量结果如下,试编制频数分布表。,第二章,频数分布,2.35,4.21,3.32,5.35,4.17,4.13,2.78,4.26,3.58,4.34,4.84,4.41,4.78,3.95,3.92,3.58,3.66,4.28,3.26,3.50,2.70,4.61,4.75,2.91,3.91,4.59,4.19,2.68,4.52,4.91,3.18,3.68,4.83,3.87,3.95,3.91,4.15,4.55,4.80,3.41,4.12,3.95,5.08,4.53,3.92,3.58,5.35,3.84,3.60,3.51,4.06,3.07,3.55,4.23,3.57,4.83,3.52,3.84,4.50,3.96,4.50,3.27,4.52,3.19,4.59,3.75,3.98,4.13,4.26,3.63,3.87,5.71,3.30,4.73,4.17,5.13,3.78,4.57,3.80,3.93,3.78,3.99,4.48,4.28,4.06,5.26,5.25,3.98,5.03,3.51,3.86,3.02,3.70,4.33,3.29,3.25,4.15,4.36,4.95,3.00,3.26,编制频数分布表的步骤:,求极差RANGE,也称全距,即最大值和最小值之差,记作R;,确定组距I,组段数通常取组10-15组;,写组段组下限L,每个组段的起点;组上限U,每个组段的终点;,分组段划记并统计频数,.,第二章,频数分布,极差,R=5.71-2.35=3.36,;,组距,I=3.36/10,=0.336,0.30,;,组段为:,2.30-2.59,;,2.60-2.89,;,2.90-3.19,;,3.20-3.49,;,3.50-3.79,;,3.80-4.09,;,4.10-4.39,;,4.40-4.69,;,4.70-4.99,;,5.00-5.29,;,5.30-5.59,;,5.60+,分段划计统计,组 段,频 数,2.30,1,2.60,3,2.90,6,3.20,8,3.50,17,3.80,20,4.10,17,4.40,12,4.70,9,5.00,5,5.30,2,5.605.90,1,合计,101,第二章,集中趋势的描述,平均数,(average),描述一组变量值的集中位置或平均水平。常用的平均数有算术均数、几何均数和中位数。,算术均数,简称均数,mean,可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,直接计算法,加权计算法,第二章,集中趋势的描述,频数 f 起到了“权”(weight)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小。,应用,适用于对称分布,特别是正态分布资料。,几何均数,geometric mean,反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。,直接计算法,加权法,第二章,集中趋势的描述,应用,适用于成等比级数,特别是对数正态分布资料。,例2-4某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10,20,40,40,160,求几何均数。,例2-5 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见下表第(1)、(2)栏,求其平均抗体滴度。,第二章,集中趋势的描述,69例RA患者血清EBV-VCA-lgG抗体测定结果,抗体滴度,人数,滴度倒数X,lgX,f*lgX,(1),(2),(3),(4),(5),10,4,10,1.000000,4.000000,20,3,20,1.301030,3.903090,40,10,40,1.602060,16.020600,80,10,80,1.903090,19.030900,160,11,160,2.204120,24.245320,320,15,320,2.505150,37.577250,640,14,640,2.806180,39.286520,1280,2,1280,3.107210,6.214420,Total,69,-,-,150.278100,故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为1:150.6。,第二章,集中趋势的描述,中位数与百分位数,中位数(,median),将变量值从小到大排列,位置居于中间的那个变量值。,n,为奇数取中间,,n,为偶数时取中间两个。,例,2-6 7,名病人患某病的潜伏期分别为,2,3,4,5,6,9,16,天,求其中位数。,n,为奇数,,M=(X,(7+1)/2,)=5,例,2-7 8,名患者食物中毒的潜伏期分别为,1,2,2,3,5,8,15,24,小时,求其中位数。,n,为偶数,,M=(X,(8/2)+X(8/2+1),)/2=5,适用于,各种分布类型的资料,特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。,第二章,集中趋势的描述,百分位数(,percentile,),一种位置指标,用,P,X,来表示。,一个百分位数,P,X,将全部变量值分为两部分,在不包含,P,X,的全部变量值中有,X%,的变量值小于或等于它,有(,1-X%,)的变量值大于等于它。,直接计算法,设有,n,个原始数据从小到大排列,第,x,百分位数的计算公式为:,当,nX,%,带有小数位时,,P,X,=X,(trunc(nX%)+1),当为整数时:,P,X,=(,X,(nX%),+X,(nX%+1),)/2,第二章,集中趋势的描述,例2-9 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。,患 者,1,2,3,4,5,6,115,116,117,118,119,120,住院天数,1,2,2,2,3,3,4,4,40,40,42,45,n=120,120*5%=6,120*99%=118.8,P,5,=(X,(6),+X,(7),)/2=(3+4)/2=3.5(天),P,95,=(X,trunc(118.8)+1),)=X,(119),=42(天),P,5,的意义是该医院有5%的细菌性痢疾治愈者的住院天数少于3.5天,或者说95%的细菌性痢疾治愈者的住院天数多于3.5天,P,99,的意义是绝大多数的细菌性痢疾治愈者的住院天数少于42天。,第二章,集中趋势的描述,频数表法,P,x,=L,x,+i,x,*(nX%-f,L,)/f,X,其中L,x、,i,x、,f,X,分别为第X百分位数所在组段的下限、组距和频数,f,L,为小于L,x,各组段的累积频数,n为总例数。,显然,上式当X%=0.5时是中位数的计算公式。,例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见下表第(1)、(2)栏,试分别求中位数及第25、第75百分位数。,第二章,集中趋势的描述,118名链球菌咽喉炎患者的潜伏期,人数,天数,累积,频数,累计,频率,(1),(2),(3),(4),12,4,4,3.4,24,17,21,17.8,36,32,53,44.9,48,24,77,65.3,60,18,95,80.5,72,12,107,90.7,84,5,112,94.9,96,4,116,98.3,108,2,118,100.0,M =P,50,=,48+12*(118*50%-53)/24,=51(天),P,25,=,24+12*(118*25%-21)/32,=39.2(天),P,75,=,60+12*(118*75%-77)/18,=67.7(天),对于离散变量的频数表资料,第X百分位数为P,X,所在变量值处的变量值,若每个组有几个变量值,则必须根据原始数据用直接法求P,X,。,第二章,离散趋势的描述,例2-11 三组同龄男孩的身高值(cm)。,组别,数据,均值,极差,甲,90,95,100,105,110,100,20,乙,96,98,100,102,104,100,8,丙,96,99,100,101,104,100,8,只从均数无法反应三组儿童身高的分布特征。,变异是生物医学最显著的特征,因为要全面的刻画一组数据的变量特征,除了发硬数据平均水平的指标外,还必须计算反映变异程度的指标。常用的指标有极差、四分位数间距、方差、标准差和变异系数。,第二章,离散趋势的描述,极差(,R,),变量最大值与最小值之差。,一般来说,,n,越大,,R,也会越大,即使在,n,不变的情况下,每次抽样得到的极差值相差也很大,其稳定性较差。,四分位数间距(,QR,),分整体数据为四部分,其中三个分点为,25,、,50,、,75,分位数,,75,分位数减去,25,分位数即为,QR,,它一般和中位数一起描述偏态资料的分布特征。,由于,QR,包含了中间位置的变量值,故受样本大小波动的影响较极差小。,四分位数间距可以看成大小在中间的一半变量值的极差。,第二章,离散趋势的描述,方差与标准差,方差(,variance,),也称均方差(,mean square deviation,),反映数据的平均离散水平。,一般情况下,总体均值未知,需要用样本均值估计,数理统计证明:若用样本个数n代替N,计算出来的样本方差对总体方差的估计偏小,需要将 n 用n-1代替。样本方差用S,2,来记。,第二章,离散趋势的描述,变异系数,(,coefficient of variation,),多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿身高与成人身高变异程度的比较。,例如,某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,说明体重的变异大于身高的变异。,第二章,正态分布,正态分布,Gauss,分布(,Gaussian distribution,),设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,前面例题中图的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。,第二章,正态分布,正态分布曲线的数学函数表达式,如果随机变量,X,的分布服从如下概率密度函数,则称,X,服从正态分布,正态分布的特征,在直角坐标上方呈钟型曲线,两端与,x,轴永不相交,且以第一参数为对称轴,左右完全对称。,在第一参数处取得最大值。,两个参数,第一个决定位置,第二个决定形状。,第二章,正态分布,正态分布中的参数,第二章,正态分布,三西格玛原则,68.27%,95%和99%。,特殊的正态分布,标准正态分布。,正态分布是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。,第二章,医学参考值范围的制定,例2-15 对例2-1,已计算出名正常成年女子的血清总胆固醇均数为4.03mmol/L,标准差0.654mmol/L。试估计该单位:正常女子血清总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比;在4.005.00mmol/L之间者占正常女子总人数的百分比;在5.00mmol/L以上者各占正常女子总人数的百分比。,查出-0.05处的概率值为0.4801,-1.47处的概率值为0.0708,故而1.47处的概率值为1-0.0708=0.9292,这样 为48.01%44.91%7.08%,第二章,医学参考值范围的制定,基本概念,医学参考值(,reference value,)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。,由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(,medical reference range,)作为判定正常和异常的参考标准。,医学参考值范围涉及到采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。,双侧,:,血清总胆固醇无论过低或过高均属异常,白细胞数无论过低或过高均属异常,第二章,医学参考值范围的制定,单侧,:,血清转氨酶仅过高异常,肺活量仅过低异常,医学参考值范围有,90%,、,95%,、,99%,等,最常用的为,95%,。,计算医学参考值范围的常用方法:,正态分布法,许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等;,有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。,第二章,医学参考值范围的制定,类型,参考值范围(),双侧,单侧,或,适用:正态分布资料,参考值范围(%),单 侧,双 侧,80,90,95,99,0.84,1.28,1.64,2.33,1.28,1.64,1.96,2.58,界值表,第二章,医学参考值范围的制定,例2-16 由例2-1资料估计正常成年女子血清总胆固醇95%的参考值范围。,因为血清过多或过少都属于异常,所以按照双侧估计正常成年女子血清总胆固醇的95%参考值范围。,故正常成年女子血清总胆固醇的95%参考值范围为(2.74,5.32)mmol/L.,第二章,医学参考值范围的制定,类型,参考值范围(),双侧,单侧,或,百分位数法,各种分布资料特别是偏态资料,例,2-17,测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。,正常人的尿汞值为偏态分布,且过高为异常应计算第95百分位数。,第二章,医学参考值范围的制定,尿 汞 值,频 数f,累计频数,累计频率(%),00.0,45,045,016.0,08.0,64,109,038.6,16.0,96,205,072.7,24.0,38,243,086.2,32.0,20,263,093.3,40.0,11,274,097.2,48.0,05,279,098.9,56.0,02,281,099.6,64.0,01,282,100.0,
展开阅读全文