资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计描述有没有必要?,统计描述是不是没有“,技术含量,”?它不就是“一看就看出来了”那回事吗?还用得着专门讲吗?,实际情况又如何呢?,相当一部分论文就是因为不准确的统计描述被拒或被要求反复修改?即使是对那些已发表的论文,也有一部分存在这方面的问题。,(其中不少作者都是,教授、副教授和博士,),P,13,:例2-1,统计描述并没有那么简单,它是,一门艺术。,统计描述的目的是,准确、简洁、直观形象地表达数据。,统计描述的定义,:,采用,合适的,统计指标、统计图和统计表来表达数据分布的特征和规律。,统计描述的价值,面对一大堆原始数据怎么办?怎么对其进行统计描述?,P,13,:例2-1,通常作法,首先要初步判断数据分布的总体特征,才能决定采用哪种统计指标和统计图对其进行描述。,没有计算机的时代:手工计算。,计算机时代:使用统计软件,如SAS、SPSS进行操作。,编制频数表的步骤,编制步骤如下:,1.,求极差,:,极差,(,range,)也称,全距,,即最大值和最小值之差,记作R。(,考试重点,),本例:,。,2,确定组距(i),:,组段数通常取组,10-15组,本例,组距,3,写组段(分为12个组段):,组下限(L):每个组,段的起点,组上限,(U):每个组,段的终点,组,段,2.30,2.60,2.90,3.20,5.60,5.90,2.30,2.60,4,分组段划记并统计频数,2.30,2.60,频数,表,:由各组段及其频数所构成的统计表。,二、频数分布,图,三、频数表和频数分布图用途,1,描述数据分布类型,(1)对称分布,:,若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。,(2)偏态分布:,1)右偏态分布也称正偏态分布:,右侧的组段数多于左侧的组段数,频数向右侧拖尾。(,考试重点,),2)左偏态分布也称负偏态分布:,左侧的组段数多于右侧的组段数,频数向左侧拖尾。,(,考试重点,),2,描述频数分布的特征,变异的范围在2.305.90,有明显的统计分布规律,数据主要集中在3.504.70 之间,尤以组段的人数3.804.10 最多,且上下组段数的频数分布基本对称。,3,便于发现一些特大或特小的可疑值;,4,便于进一步做统计分析和处理。,频数表和频数分布图(直方图)对于计量资料的统计描述还,不够简洁,,因为它仅提供了非常粗糙的信息。,怎么对一大堆杂乱无章的计量资料给出精确的和简洁的描述?,目前的国内外教材都是从两个方面:,集中趋势,和,离散趋势,。,集中趋势:,遴选最合适的代表值,。,离散趋势:,评判代表值对总体代表的程度,。,第二节,集中趋势的描述,(,考试重点,),统计上使用,平均数,(,average,)这一指标体系来描述,一组变量值的集中位置或平均水平,。,(,考试重点,),常用的平均数有:,算术均数,几何均数,中位数,一、算术均数,算术均数:简称均数(,mean,),可用于反映一组呈,对称分布的变量值,在数量上的平均水平或者说是集中位置的特征值。,(,考试重点,),1、计算方法,(1),直接计算法,公式,:,例,2-2,用直接法计算例,2-1,某单位101名正常成年女子的血清总胆固醇的均数。,(2)加权法:,公式,:,计算4,4,4,6,6,8,8,8,10的均数?,例,2-3,利用表,2-1,计算,101,名正常成年女子血总胆固醇的均数。,式中k表示频数表的组段数,,,及,分别表示各组段的频数和组中值,如表,2-1,第,1,个组段的组中值为,,余类推(,见教材P14表,2-1,的第(,3,)栏,)。在这里,频数起到了“权”(,weight,)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小。,间接法计算结果,与直接法计算结果的比较,有何区别?,2、应用条件,适用于对称分布,特别是,正态分布或近似正态分布,的资料。,它为什么不适合于偏态分布的资料?,二、,几何均数,几何均数(,geometric mean,):可用于反映,一组经对数转换后呈对称分布,的变量值在数量上的平均水平。,1、计算方法,(1)、,直接计算法,公式:或,10,2.18,151.36,例,2-4,某地,5,例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为:,10,20,40,40,160,,求几何均数。,目测其集中趋势或平均位置应在40左右波动。,但如果用算数均数描述集中趋势:,mean54?,(2)加权法,公式:,例,2-5 69,例类风湿关节炎(,RA,)患者血清,EBV-VCA-lgG,抗体滴度的分布见表,2-4,第,(1),、,(2),栏,求其平均抗体滴度。,故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。,应用条件,适用于,成等比级数的资料,特别是对数正态分布资料,。,三、,中位数与百分位数,(一)中位数,中位数(,median,):是将变量值从小到大排列,位次居于,正中间,的那个,变量值,。,当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。,计算,公式:,n,为奇数时,n,为偶数时,一个典型例子:如何描述下列数据的集中趋势?,1,3,7,5,,100,显然算数均数和几何均数在此处都不合适,中位数就非常合适。,请问此数据的中位数是?,例,2-6 7,名病人患某病的潜伏期分别为:,2,3,4,5,6,9,16天,,求其中位数。,本例n=7,而且数据已自小到大进行过排序,所以其中位数为:,例,2-7 8,名患者食物中毒的潜伏期分别为:,1,2,2,3,5,8,15,24,小时,求其中位数。,本例n=8,数据已排序,所以其中位数为:,应用条件,各种分布类 型的资料,特别是偏态分布资料和含有不确定数值的资料,。,(二)百分位数,百分位数(,percentile,)是一种位置指标,用 来表示,,读作第,X,百分位分数。,一个百分位数 将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小,变量值比它大。,1,直接计算法,设有x个原始数据从小到大排列,第x百分位数的计算公式为:,当 为带有小数位时:,当 为 整数时:,思考:,当,X,=50,该公式与中位数直接计算法是否相同?,例,2-9,对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大的排列如下,试求,第,5,百分位数和第,99,百分位数,。,住院天数:,n=120,120,5%=6,为整数:,n=120,120,99%=118.8,带有小数,取整后为 118,2,频数表法,公式:,式中,X,L,、,X,i,和,X,f,分别为第,X,百分位数所在组段,的下限、组距和频数,,L,f,S,为小于,X,L,各组段的累计频数,,n,为总例数。,当 时,上述公式即为中位数的计算公式,例,2-10,某地,118,名链球菌咽喉炎患者的潜伏期频数表见表,2-5,第,(1),、,(2),栏,试分别求,中位数及第25、第75百分位数,。,百分位数的用途,研究人员能通过几个百分位数的组合初步了解一组数据的分布,而不用绘制频数分布图,,例如:,P,10,P,20,P,30,P,40,P,50,P,60,P,60,P,70,P,80,P,90,。(在数据挖掘中用途甚广),可用于制定,参考值范围,(临床诊断和疗效判断标准以及心理学领域中的常模。,),它兼具了集中趋势指标和离散趋势指标的特点。,第三节,离散趋势的描述,(,考试重点,),例,2-11,三组同龄男孩的身高值(cm),常用统计指标:极差、四分位数间距、方差、标准差和变异系数。,一、极差,极差或全距(Range),用R表示:,即,一组变量值最大值与最小值之差,。,思考:,极差或全距在描述离散趋势时有没有局限性?,二、四分位数间距,四分位数,间距,用QR表示:,QR=,下四分位数:,上四分位数:,例,2-12,续例,2-10,。已知,P,25,=39.2,,,P,75,=67.7,,计算118名链球菌咽喉炎患者潜伏期的四分位数间距。,(天),思考:,四分数间距与极差相比,有什么优势?,四分数间距在描述离散趋势时有什么局限性?,三、方差与标准差,1、,方差(,variance,)也称均方差(,mean square deviation,),反映一组数据的平均离散水平,。,样本方差用 表示,2、,公式:,样本标准差用 表示,公式:,标准差的公式还可以写成,:,利用频数表计算标准差的公式为,例,2-12,续例2-11,计算三组资料的标准差。,甲组:,思考,:,标准差与极差、四分数间距和方差相比,有何优势?,例,2-14,计算表2-1,中101名正常成年女子的血清总胆固醇的标准差。,四、变异系数,变异系数(coefficient of variation)记为,,,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。,(,考试重点,),例:某地,7,岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,请问哪个均数对数据的代表性更好?,身高,体重,均数相差较大时应用CV的例子。,第四节,正态分布,正态分布:又称为,Gauss,分布,设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图,2-4,中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。,这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布,。在处理资料时,我们就把它看成是,正态分布,。,在医学领域中,应用甚广,。,一、正态分布的概念和特征,1,正态分布曲线的数学函数表达式,如果随机变量 的分布服从概率密度函数,则称服从正态分布,记作 ,为 的总体均数,为总体方差,。,2,正态分布的特征,(1),在直角坐标的横轴上方呈钟型曲线,两端与轴永不相交,且以 为对称轴,左右完全对称。,(3),正态分布有两个参数,即位置参数 和形态参数,。,图2-5 正态分布,位置变换,示意图,图2-6 正态分布,形态变换,示意图,(,4,)正态曲线下的面积分布有,一定的规律,。,对公式,(2-17),积分,:,轴与正态曲线所夹面积恒等于1或100;,区间 的面积为 68.27,区间 的面积为95,区间 的面积为99。,正态分布是一个分布族,对应于不同的参数 和 会产生不同位置、不同形状的正态分布。为了应用方便,令,则有,即将 的正态分布转化为 的标准正态分布,。,欲求,一定区间标准正态分布曲线下的面积,只需查表即可。,思考,:,标准正态分布是一条曲线还是一簇曲线,?,二、标准正态分布,标准正态分布面积分布规律的应用价值,当某个指标服从,正态分布或近似服从正态分布(,后面章节会有专门方法检验数据是否服从正态分布,),时,研究人员就可以通过,变量转换,将原指标转换为标准正态分布,再利用,标准正态曲线面积分布规律,帮助我们,认识该指标的分布特征,。,实际应用中,由于总体均数 和标准差 往往不知道,就用样本均数 和 标准差替代。,正态分布,标准正态分布,在这种转换中,对应的特定的,X,和,u,在各自正态曲线下的面积分布规律没改变。,例2-15 对例2-1,例2-2和例2-14已计算出101名正常成年女子的血清总胆固醇均数,标准差。试估计该单位:,正常女子血清总胆固醇在4.00 以下者占正常女子总人数的百分比,;,在4.005.00 之间者占正常女子总人数的百分比,;,在5.00 以上者占正常女子总人数的百分比,?,请大家首先看看P,803,页右上角的图。,正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于,质量控制,及,制定参考值范围,。,复习和提问,:P30-31,最佳选择题:1、2、4、5、7、9,简答题:2,第五节,医学,参考值范围的制定,一、基本概念,医学参考值,(,reference value,)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。,由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用,医学参考值范围,(,medical reference range,)作为判定正常和异常的参考标准。,医学参考值范围涉及到采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。,双侧,:即指标过高和过低都不正常,如:,血清总胆固醇、血压、体重等等。,单侧:,即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。,医学参考值范围,有 、等,最常用的为 。,计算医学参考值范围的常用方法:,1、正态分布法(当资料服从正态分布),2、,百分位数法(当资料不服从正态分布),正态分布法计算公式:,思考,:,请计算该资料的99的参考值范围。,故正常成年女子血清总胆固醇的95%参考值范围为,(2.74,5.32),mmol/L。,2、,百分位数法,公式:,例,2-17,测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。,正常人的尿汞值为偏态分布,且过高为异常,应计算第95百分位数。,故该地正常人的尿汞值的医学参考值范围为43.6 。,复习和提问:P31,简答题:1,问题:如何正确地对计量资料进行统计描述(实例)?,作业,P31-32 三、计算分析题 1、2、3,实例,谢 谢 大 家!,
展开阅读全文