资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,医学统计学-供研究生用,*,数值变量资料的统计描述,数值变量资料的频数分布,集中趋势的描述,离散趋势的描述,正态分布,医学参考值范围的制定,第一节 频数分布,一、频数分布表,简称频数表(frequency table),例,2-1,从某单位,1999,年的职工体检资料中获得,101,名正常成年女子的血清总胆固醇(,mmol,/L,)的测量结果如下,试编制频数分布表。,2.35,4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41,4.78 3.95 3.923.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91,3.91 4.59 4.192.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91,4.15 4.55 4.803.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84,3.60 3.51 4.063.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96,4.50 3.27 4.523.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87,5.71,3.30 4.73 4.175.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28,4.06 5.26 5.253.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25,4.15 4.36 4.953.00 3.26,试编制频数分布表。,二、频数分布图,(graph of frequency distribution),以各组段总胆固醇含量为横轴,频数为纵轴。,SPSS中的操作:,1.建立数据库,2.先使用Recode 命令,对变量进行重新划计分组,注意新变量取组中值。,3.再用Frequencies命令,1、Recode Into Different Variables,2、,将“胆固醇”选入Numeric Variable栏,在Output Variable栏输入新变量“Y”,单击Change 按钮,单击Old and New Values按钮。,3、在Old and New values对话框,按对变量值重新划分要求输入相应数据后,单击Add按钮。重复进行该操作。新变量可直接取组中值。,语法命令:,RECODE,胆固醇,(2.3 thru 2.599=2.45)(2.6 thru 2.899=2.75)(2.9 thru 3.199=3.05)(3.2 thru 3.499=3.35)(3.5 thru 3.799=3.65)(3.8,thru 4.099=3.95)(4.1 thru 4.399=4.25)(4.4 thru 4.699=4.55)(4.7 thru 4.999=4.85)(5.0 thru 5.299=5.15)(5.3 thru,5.599=5.45)(5.6 thru 5.89=5.75)INTO,Y,.,EXECUTE.,频数分布的类型,对称分布,:,集中位置居中,左右两边对称,偏态分布,:,正偏态分布,(,右偏态),峰左尾右,负偏态分布,(,左偏态,),正偏态分布,对称分布,负偏态分布,三、频数表和频数分布图的用途,揭示变量的分布特征和分布类型;,便于进一步计算指标和统计分析处理;,便于发现某些特大或特小的可疑值。,频数分布的两个特征,集中趋势,central tendency,指变量值的中心数值或中心位置所在。,离散趋势,tendency of dispersion,指变量值围绕中心数值或中心位置的分布情况。,第二节 集中趋势的描述,平均数(average):用于观察一组同质变量值的平均水平/集中位置。亦称中心位置指标。它不但给人一个简明概括的印象,而且便于事物间的分析比较。,常用的平均数,算术均数,(arithmetic mean/mean),几何均数,(geometric mean),中位数,(median),一、算术均数,,简称均数,(arithmetic mean/mean),均数是算术均数的简称。,总体均数用希腊字母,(缪,mu)表示,样本均数 (X bar)表示。,均数反映一组观察值在数量上的平均水平。,均数的应用,主要用于对称性或近似对称性分布的资料;,尤其是在正态分布或近似正态分布上的应用。,计算方法,1.直接法,:希腊字母(西格马,sigma),求和符号,例9.2 有8名正常人的空腹血糖值(mmol/L):,6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9,2.频数表法(加权法),组段,频数f,组中值X,f X,f X,2,2.30,1,2.45,2.45,6.00,2.60,3,2.75,8.25,22.69,2.90,6,3.05,18.30,55.82,3.20,8,3.35,26.80,89.78,3.50,17,3.65,62.05,226.48,3.80,20,3.95,79.00,312.05,4.10,17,4.25,72.25,307.06,4.40,12,4.55,54.60,248.43,4.70,9,4.85,43.65,211.70,5.00,5,5.15,25.75,132.61,5.30,2,5.45,10.90,59.41,5.605.90,1,5.75,5.75,33.06,合计,101,409.75,1705.09,频数表,计算均数,:,X,j,为各组的组中值。,组中值等于该组的上限加下限之和除以2。,f,j,为各组的频数。,101名正常成年女子的血清总胆固醇,均值为:,=409.75/101=4.06,(,mmol/L,),补充:,均数的两个重要特征(1),离均差之和为零,均数的两个重要特征(2),离均差平方和为最小,(二)几何均数,Geometric mean,,,G,反映一组呈倍数关系的观察值的平均水平,适用:数据呈正偏态分布,经对数转换后呈正态分布。多用于观察值之间呈倍数关系,如抗体滴度,计算方法,直接法,加权法,1.直接法,例:有8份血清的抗体效价为为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640。求平均效价。,用直接法计算G,将各效价的倒数代入公式,得该,8,份血清的平均抗体效价为,1,:,56.57,,近似为,1,:,57,注意:变量值不能有,0,2.频数表法,式中f为频数。,用频数表法计算G,例 30名麻疹易感儿童接种麻疹疫苗一个月后,血凝抑制抗体滴度,如下表,所示,试求其平均抗体滴度。,30名麻疹易感儿童血凝抑制抗体滴度,抗体滴度,人数,f,滴度倒数,X,lgX,f lgX,1:8,2,8,0.9031,1.8062,1:16,6,16,1.2041,7.2246,1:32,5,32,1.5051,7.5255,1:64,10,64,1.8061,18.0620,1:128,4,128,2.1072,8.4288,1:256,2,256,2.4082,4.8164,1:512,1,512,2.7093,2.7093,合计,30,flgX=50.58,30名麻疹易感儿童接种麻疹疫苗一个月后血凝抑制抗体滴度为,1:48.5,同一组资料求得的几何均数小于均数。,SPSS,求几何均数时有三种方法,1.是先计算对数的均数,然后求其反对数,得出几何均数;,2.直接用Report Case Summaries 命令;,3.用Compare Means 命令,但要个增加分组变量。,使用频数表资料时SPSS操作中应注意的事项,频数表资料要用,weight,命令;,进行数据输入时要使用组中值;并且在,Frequencies,命令中要选择,Values are group midpoints:根据分组资料计算百分位数。,(三)中位数 Median,M,将一组观察值从小到大按顺序排列,位次居中的观察值,即为中位数。,一半的值比M小,一半的值比M大,。,例:1,3,,5,,7,18 (,奇数),1,3,,5,7,,18,20 (,偶数),计算,n为奇数时,n为偶数时,M计算方法,例:9人某病潜伏期(天)分别为3,4,4,5,6,7,7,19,19,求中位数。,例:6名新生儿身长(cm)分别为50.1,52.0,53.0,55.0,55.0,56.0,求中位数。,中位数的应用,中位数可用于任何分布的定量资料;,资料的分布呈明显偏态,特别是负偏态;,分布的一端或两端无确定的数值;,(如:50,或 100,控制测量误差下进行准确而统一的测定;,判定是否需要分组;有无年龄、性别差异等?,确定取单侧还是双侧范围值:红细胞?肺通气量?尿铅?,选定适当的百分界限;,对资料进行正态性检验;,计算参考值范围。,正常人与病人的分布有重叠,减少假阳性可选用95%或99%:鉴定诊断。,减少假阴性可选用80%或90%:筛选可疑者。,正常人和病人的分布重叠较多,需要确定可疑范围。,如 舒张压,=90mmHg 且=95mmHg:高血压,参考值范围的确定,方法:,正态近似法,百分位数法,95%参考值(正常值)范围,正态近似法 百分位数法,双侧,1.96s P,2.5,P,97.5,单侧下限,-1.64s P,5,单侧上限,+1.64s P,95,例1:某地农村1999年130名14岁女孩身高资料(cm)均数为143.08,标准差为6.58。求该地14岁女孩身高的95%参考值范围。,下限为:143.08 1.96 6.58=130.18(cm),上限为:143.08+1.96 6.58=155.98(cm),该地14岁女孩身高的95%参考值范围为130.2156.0(cm)。,二、正态近似法,例2:某地调查110名健康成年男性的第一秒肺通气量的均数为4.2(L),标准差为0.7(L)。请据此估计该地成年男子第一秒肺通气量的95%参考值范围。,下限为:,4.2-1.640.7=3.052(L),该地成年男性的第一秒肺通气量95%参考值范围为:不低于3.052(L)。,参考值范围 :3.052(L),三、百分位数法,200名血铅频数表及P,95,计算表,组段,频数f,累计频数,f,累计频率(%),3,36,36,18.5,8 ,39,75,37.5,12,47,122,61.0,18,20,152,76.0,23,18,170,85.0,28,16,186,93.0,33,3,189,94.0,38,7,196,98.0,43,1,197,98.5,48,1,198,99.0,53,1,199,99.5,5862,1,200,100.0,正态性检验,图示法:,概率图(probabilityprobability plot,P-P图),分位数图(quantilequantile plot,Q-Q图),Q-Q图效率较高。,变量变换,(variable transformation),通过对原始数据进行某种函数的转换,使得各组方差齐同、稳定,或者使得偏态资料正态化,以满足统计分析方法对资料的要求。,常用的变量变换主要有:,对数变换,(logarithmic transformation),平方根变换(square root transformation),平方根反正弦变换(arcsine transformation),倒数变换(reciprocal transformation),1、对数变换,对原始数据X取对数。,XlgX,Xlg(X+K)或者Xlg(K-X),适用于:,对数正态分布资料,变异系数接近某一常数的资料,1、对数变换,对原始数据X取对数。,XlgX,Xlg(X+K)或者Xlg(K-X),适用于:,对数正态分布资料,变异系数接近某一常数的资料,SPSS函数命令:LG10(?)或者LN(?),2、平方根变换,对原始数据X开算术平方根。,适用于:,服从Poisson,分布资料,即各样本方差与均数成比例的资料,轻度偏态分布资料,SPSS函数命令:SQRT(?),3、平方根反正弦变换,对原始数据X的平方根取反正弦变换。,用角度表示的:,Y,ARSIN(SQRT(?),用弧度表示的:,Y,(3.14159/180)*ARSIN(SQRT(?),适用于:率或者百分比的资料:发病率、患病率、淋巴细胞转换率()等资料,4、倒数变换,对原始数据X取倒数。,适用于:,数据两端波动较大的,资料,作业:,P3132,三、计算分析题,题1、2、3、,
展开阅读全文