资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 定量资料的统计描述,第一节 频数分布,第二节 集中趋势的描述,第三节离散趋势的描述,第四节 正态分布,第五节 医学参考值范围的制定,第一节 频数分布,一、频数分布表(,frequency table,),例,2-1,测得,130,名健康成年男子脉搏资料,(,次,/,分,),如下,试编制频数表和观察频数分布情况。,75,76,72,69,66,72,57,68,71,72,69,72,73,82,80,82,67,69,73,64,74,58,70,64,60,77,66,77,64,67,76,75,75,71,65,62,76,72,71,60,67,75,75,73,79,66,69,79,78,70,72,70,72,78,72,67,72,80,68,70,61,70,73,72,71,81,70,66,75,71,63,77,74,76,68,65,77,69,77,75,79,64,79,73,76,61,80,64,69,70,73,69,68,65,70,69,66,81,63,64,80,74,78,76,84,66,70,73,60,76,82,73,64,65,73,73,63,80,68,76,70,79,77,64,70,66,69,73,78,76,(,1,),求极差,(,range,):即最大值与最小值之差,又称为全距。,R,84 57=27(,次,/,分,),(,2,),决定分组组数、组距,:根据研究目的和样本含量,n,确定分组组数,通常分为,10,15,个组。组距,=,极差,/,组数,为方便计,组距为极差的十分之一,再略加调整。,27/10=2.7 3,(,3,),列出组段,:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。,56 59 80 8385,(,4,),划记计数,:用划记法将所有数据归纳到各组段,得到各组段的频数。,频数表的编制步骤,表,2-1 130,名健康,成年男子脉搏,(,次,/,分,),的频数分布表,N,f,二、频数分布图,三、频数表和频数分布图用途,1,描述频数分布的,类型,(对称分布、偏态分布),(,1,)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,是否为对称分布?,是否为对称分布?,(,2,)偏态分布:,1,)右偏态分布(正偏态分布),:,右侧的组段数多于左侧的组段数,频数向右侧拖尾。,表,2-2 115,名正常成年女子血清转氨酶(,mmol,/L,),含量分布,2,)左偏态分布(负偏态分布,):,左侧的组段数多于右侧的组段数,频数向左侧拖尾。,表,2-3 101,名正常人的血清肌红蛋白含量分布,2,描述频数分布的,特征,表,2,1,数据的频数分布特征:,数据,变异(离散),的范围在,5784,(次,/,分,),数据,集中(平均),的组段,在,6873,(次,/,分)之间,尤以组段的人数,71,(次,/,分)最多。且上下组段的频数分布基本对称。,3,便于发现一些特大或特小的可疑值,4,便于进一步做统计分析和处理,第二节,集中趋势的描述,统计上使用平均数(,average,),这一指标体系来描述一组变量值的集中位置或平均水平。,常用的平均数有,:,算术均数(均数)(,mean,),几何均数(,geometric mean,),中位数(,median,)与百分位数(,percentile,),众数(,mode,),一、算术均数,算术均数:简称均数(,mean,),可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,1,、计算方法,(,1,)直接计算法,公式:,举例:试计算,4,,,4,,,4,,,6,,,6,,,8,,,8,,,8,,,10,的均数?,例,2-1,测得,130,健康成年男子脉搏资料,(,次,/,分,),如下,试编制频数表和观察频数分布情况。,75,76,72,69,66,72,57,68,71,72,69,72,73,82,80,82,67,69,73,64,74,58,70,64,60,77,66,77,64,67,76,75,75,71,65,62,76,72,71,60,67,75,75,73,79,66,69,79,78,70,72,70,72,78,72,67,72,80,68,70,61,70,73,72,71,81,70,66,75,71,63,77,74,76,68,65,77,69,77,75,79,64,79,73,76,61,80,64,69,70,73,69,68,65,70,69,66,81,63,64,80,74,78,76,84,66,70,73,60,76,82,73,64,65,73,73,63,80,68,76,70,79,77,64,70,66,69,73,78,76,(,2,)加权法,(,利用频数表):,公式:,k,:,频数表的组段数,,f,:,频数,,X,:,组中值。,表,2-2 130,名健康,成年男子脉搏,(,次,/,分,),的频数分布表,N,f,fX,fX,2,2,、应用,均数,适用于对称分布,特别是正态分布资料。,二、几何均数(,geometric mean,),可用于反映一组经,对数转换,后呈对称分布或正态分布的变量值在数量上的平均水平。,几何均数(,geometric mean,),几何均数,:,变量对数值的,算术均数,的反对数,。,其他对数(如自然对数)变换获得相同的几何均数,例,2-5,有,8,份血清的抗体效价分别为,1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。,平均抗体效价为:,1,:,57,(,2,)加权法,公式:,例,2-6 69,例类风湿关节炎(,RA,),患者血清,EBV-VCA-,lgG,抗体滴度的分布见表,2-4,第,(1),、,(2),栏,求其平均抗体滴度。,2,、应用:,适用于成等比数列的资料,特别是服从对数正态分布资料。,三、,中位数与百分位数,11,个大鼠存活天数:,4,,,10,,,7,,,50,,,3,,,15,,,2,,,9,,,13,,,60,,,60,平均存活天数,?,(一)中位数(,median,),是将每个变量值从小到大排列,,位置居于中间的那个变量,值,。,计算,公式,:,n,为奇数时,n,为偶数时,例,2-3 9,名中学生甲型肝炎的潜伏期分别为,12,,,13,,,14,,,14,,,15,,,15,,,15,,,17,19,天,求其,中位数,。,频数表资料的中位数,下限值,L,上限值,U,i,;,f,m,中位数,M,例,2,1,频数表中位数的计算,N,f,中位数,71+3x(130 x50%,59)/26,71.69,应用,1,、各种分布类型的资料,2,、特别适合大样本,偏态,分布资料或者,一端或两端无确切数值的资料,。,百分位数示意图,(二)百分位数(,percentile,),1,直接计算法,设有,n,个原始数据从小到大排列,第,X,百分位数的计算公式为:,当 为带有小数位时:,当 为 整数时:,Trunc,(),取整函数,例,对某医院细菌性痢疾治愈者的住院天数统计,,120,名患者的住院天数从小到大排列如下,试求,第,5,百分位数和,第,99,百分位数。,患 者,:,住院天数,:,(,1,),n,=,120,,,,,为整数,:,(,2,),,带有小数,,故取整,trunc,(,118.8,),=118,患 者,:,住院天数,:,2,频数表法,公式:,当 时,公式(,2-9,)即为中位数的计算公式,例,2-9,试分别求例,2,1,频数表的第,25,、第,75,百分位数。,P,25,65+3x(130 x25%,19)/15,65.90,P,75,74+3x(130 x75%,85)/19,74.66,众数(,mode,),众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。,适用于大样本;较粗糙。,例,2-7,有,16,例高血压病人的发病年龄,(,岁,),为:,42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,,试求众数。,众数(,mode,),众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。,适用于大样本;较粗糙。,例,2-7,有,16,例高血压病人的发病年龄,(,岁,),为:,42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,,试求众数。,正态分布时:,均数中位数众数,正偏态分布时:,均数,中位数,众数,负偏态分布时:,均数,中位数,众数,设有甲、乙、丙三名医生,分别对相同的,5,份血样进行红细胞计数(万,/mm3,),甲得出了,560,、,540,、,500,、,460,、,440,,乙得出了,520,、,510,、,500,、,490,、,480,,丙得出了,510,、,505,、,500,、,495,、,490,,见下图,2,,三名医生的计数结果得到的均数均为,500,,,5,个数值之和均为,2500,。,第三节 离散趋势的描述,甲医生得出的,5,个观察值间的差异(离散程度)较大,而丙医生得出的,5,个观察值间的差异(离散程度)较小。,常用统计指标:,极差、四分位数间距、方差、标准差和变异系数。,一、,极差(,Range,),极差,用,R,表示:即一组变量值最大值与最小值之差。对于书中例,2-1,数据,有,简单,但仅利用了两端点值,稳定性差。,二、四分位数间距(,quartile range,),四分位数间距,用,Q,表示:,Q=,下四分位数:,上四分位数:,例,2,1,数据,P,25,65+3x(130 x25%,19)/15,65.90,P,75,74+3x(130 x75%,85)/19,74.66,三、方差与标准差,1.,方差(,variance,),也称均方差(,mean square deviation,),,反映一组数据的平均离散水平。,总体方差,样本方差,离均差平方和,SS,2,、,公式:,样本标准差用 表示,其度量单位与均数一致,所以,最常用,。,公式:,离均差平方和,SS,标准差的公式还可以写成:,利用频数表计算标准差的公式为,例,2-11,对例,2-1,的前,10,个数据,:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。,例,2-12,利用表,2-2,中的数据和频数表法计算标准差。,N,f,fX,fX,2,标准差的意义和用途,说明资料的离散趋势,(,或变异程度,),,标准差的值越大,说明变异程度越大,均数的代表性越差,;.,。,标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。,用于计算变异系数,用于计算标准误,(,见第四章,),结合均值与正态分布的规律,估计参考值的范围,(,见第五节,),。,四、变异系数,变异系数,(coefficient of variation,,,CV),常用于比较,度量单位不同,或,均数相差悬殊,的两组,(,或多组,),资料的变异程度。,某地,7,岁男孩身高的均数为,123.10cm,,,标准差为,4.71,;体重均数为,22.59kg,,,标准差为,2.26kg,比较其变异度?,第四节 正态分布,正态曲线(,normal curve,),的发现,de,Moivre,(,1667-1754,),,published in 1733Laplace,(,1749-1827,),Gauss,(,1777-1855,),正态分布,:,又称,高斯分布,(,Gaussian distribution,),一、正态分布的概念和特征,1,正态分布曲线的数学表达式,(,概率密度函数,,probability density function,,,pdf,),,,2,正态分布的特征,正态曲线下面积分布有一定的规律,总面积,=1,。,累积面积可通过对概率密度函数,f,(,X,),积分求得,(累积)分布函数:,图,2-7,正态曲线面积分布示意图,二、标准正态分布,见,P404405,,,Z,N,(0,,,1),2,例,2-1,的,130,名健康成年男子脉搏资料的均数、标准差分别为:,71.32,与,5.80,(次,/,分),;,问在正态分布假定下,脉搏在,65,75,(次,/,分)之间有多少人?,正态分布,标准正态分布,一、基本概念,第五节 医学参考值范围的制定,1.,意义:,医学参考值(,reference value,),是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。,由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。,2.,单、双侧问题,常依据医学专业知识而定,双侧,:,如:血清总胆固醇、血液白细胞数无论过低或过高均属异常,单侧上限,:,如:血清转氨酶、,体内有毒物质过高异常,(越低越好,P,5,),3.,有,90%,、,95%,、,99%,等医学参考值范围,,最常用的是,95%,。,计算医学参考值范围的常用方法:,1,、正态分布法,2,、百分位数法,二、正态分布法,公式:,单侧,下限,单侧,上限,Z,Z,Z,Z,单侧,下限,单侧,上限,例,2-16,测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的,95%,参考值范围。,表,2-7,282,名正常人尿汞值()测量结果,单侧,上限,
展开阅读全文