收藏 分销(赏)

第二章-定量资料的统计描述.ppt

上传人:w****g 文档编号:13177322 上传时间:2026-01-30 格式:PPT 页数:93 大小:801.04KB 下载积分:8 金币
下载 相关 举报
第二章-定量资料的统计描述.ppt_第1页
第1页 / 共93页
第二章-定量资料的统计描述.ppt_第2页
第2页 / 共93页


点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,定量资料的,统计描述,统计图,:,频数分布图,统计表:频数分布表,统计指标:,集中趋势指标,离散趋势指标,利用统计表对数据进行概括,;,用统计图对分布形态及分布间的关系做直观的表达,;,用于描述定量资料的统计指标的意义与计算。,1,第一节 频率分布表与频率分布图,频数分布,:,n,个,变量值在各变量值区间内的,个数(,f,),分配。,频率分布,:,n,个,变量值在各变量值区间内所占的,比例分配。,2,例,2.1,1998,年某山区,96,名孕妇产前检查次数资料如下:,0,,,3,,,2,,,0,,,1,,,5,,,6,,,3,,,2,,,4,,,1,,,0,,,6,,,5,,,1,,,3,,,3,,,4,,,7,离散型资料(,discrete data,)是指变量取值可以一一列举的资料。,一、离散型定量变量的频率分布,表,2-1 1998,年某地,96,名孕妇产前检查次数频率分布,检查次数,频数,频率(,%,),累计人数,累计频率(,%,),(,1,),(,2,),(,3,),(,4,),(,5,),0,4,4.2,4,4.2,1,7,7.3,11,11.5,2,11,11.5,22,22.9,3,13,13.5,35,36.5,4,26,27.1,61,63.5,5,23,24.0,84,87.5,5,12,12.5,96,100.0,合计,96,100.0,4,频数,(,率,),分布表,(frequency table),:将资料的观察值按大小分为若干组段,描述各组段及相应组段频数,(,率,),的统计表称为频数,(,率,),分布表,简称频数,(,率,),表,。,5,(,一,),频率分布表,例,2-1 1998,年某山区,96,名孕妇产前检查次数资料如下:,0,,,3,,,2,,,0,,,1,,,5,,,6,,,3,,,2,,,4,,,1,,,0,,,6,,,5,,,1,,,3,,,3,,,4,,,7,。整理成表,2-1,得频率分布表。,一、离散型定量变量的频率分布,6,表,2-1 1998,年某地,96,名孕妇产前检查次数频率分布,检查次数,频数,频率(,%,),累计人数,累计频率(,%,),(,1,),(,2,),(,3,),(,4,),(,5,),0,4,4.2,4,4.2,1,7,7.3,11,11.5,2,11,11.5,22,22.9,3,13,13.5,35,36.5,4,26,27.1,61,63.5,5,23,24.0,84,87.5,5,12,12.5,96,100.0,合计,96,100.0,7,频率:,各组的频数除以总例数,n,所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于,100%,。,累计频数:,本组段的频数与以前各组段的频数相加;,累计频率:,每组段的累计频数除以总例数。,8,(,二,),频率分布图,直条图,横坐标:变量,即产前检查次数;,纵坐标:频率,即产前检查,K,次的妇女在被,统计妇女中所占的比例,%,。,等宽直条的高度:表示各组频率,9,图,2-1,某地,96,名孕妇产前检查次数频率分布,频率,(,%,),产前检查次数,(一)频率分布表,例,2-2,:,抽样调查某地,120,名,18,岁,35,岁健康男性居民血清铁含量,(mol/L),见,P,12,,,试编制频率分布表。,二、连续型定量变量的频率分布,连续型资料,continuity data,:,是指变量取值不能一一列举即变量取值为一定范围内的任意值的资料。,11,数据,7.42,8.65,23.02,21.61,21.31,21.46,9.97,22.73,14.94,20.18,21.62,23.07,20.38,8.40,17.32,29.64,19.69,21.69,23.90,17.45,19.08,20.52,24.14,23.77,18.36,23.04,24.22,24.13,21.53,11.09,18.89,18.26,23.29,17.67,15.38,18.61,14.27,17.40,22.55,17.55,16.10,17.98,20.13,21.00,14.56,19.89,19.82,17.48,14.89,18.37,19.50,17.08,18.12,26.02,11.34,13.81,10.25,15.94,15.83,18.54,24.52,19.26,26.13,16.99,18.89,18.46,20.87,17.51,13.12,11.75,17.40,21.36,17.14,13.77,12.50,20.40,20.30,19.38,23.11,12.67,23.02,24.36,25.61,19.53,14.77,14.37,24.75,12.73,17.25,19.09,16.79,17.19,19.32,19.59,19.12,15.31,21.75,19.47,15.51,10.86,27.81,21.65,16.32,20.75,22.11,13.17,17.55,19.26,12.65,18.48,19.83,23.12,19.22,19.22,16.72,27.90,11.74,24.66,14.18,16.52,12,组段,(1),f,(2),6,1,8,3,10,6,12,8,14,12,16,20,18,27,20,18,22,24,26,28,12,8,4,1,合计,120,表,2 120,名正常成年男子血清铁含量的频数分布表,1,、求全距(极差),极差(,range,),:,极差也称全距,,即最大值和最小值之差,记作,R,。本例,频数表的编制步骤,14,根据极差选定适当“组段”数。,组段数,通常取,815,组。,2,、确定组段数、组距,15,适用范围:与均数配套用,绝对变异受平均水平的影响,4 115 96.,含药量(mg),例2-11 试观察3组数据的离散情况。,101名正常人的血清肌红蛋白()含量分布,35 47 39.,例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L)为4.,频数 累积频数 累积频率,66之间,其四分位数间距为0.,(二)频率分布图直条图,标准差的计算公式,结合均数描述正态分布的特征,并确定,绝对变异受平均水平的影响,两端的组段应分别包含最小值或最大值;,组距,等组距频数表:常见,不等组距频数表:少见,2,、确定组段数、组距,16,组段下限(,L,):每个组段的起点,组段上限(,U,):每个组段的终点,3,、确定各组段的上、下限,两端的组段应分别包含最小值或最大值;,尽量取较整齐的数值作为组段的端点,便于对数据进行表述;,最后一个组段应同时写出上限和下限,17,6,8,10,12,14,16,18,20,22,24,26,2830,合计,一,上,正一,正上,正正丅,正正正正,正正正正正丅,正正正上,正正丅,正上,止,一,1,3,6,8,12,20,27,18,12,8,4,1,组段,划记,频数,120,4,、列表整理、统计各组段的频数、频率,18,数据,7.42,8.65,23.02,21.61,21.31,21.46,9.97,22.73,14.94,20.18,21.62,23.07,20.38,8.40,17.32,29.64,19.69,21.69,23.90,17.45,19.08,20.52,24.14,23.77,18.36,23.04,24.22,24.13,21.53,11.09,18.89,18.26,23.29,17.67,15.38,18.61,14.27,17.40,22.55,17.55,16.10,17.98,20.13,21.00,14.56,19.89,19.82,17.48,14.89,18.37,19.50,17.08,18.12,26.02,11.34,13.81,10.25,15.94,15.83,18.54,24.52,19.26,26.13,16.99,18.89,18.46,20.87,17.51,13.12,11.75,17.40,21.36,17.14,13.77,12.50,20.40,20.30,19.38,23.11,12.67,23.02,24.36,25.61,19.53,14.77,14.37,24.75,12.73,17.25,19.09,16.79,17.19,19.32,19.59,19.12,15.31,21.75,19.47,15.51,10.86,27.81,21.65,16.32,20.75,22.11,13.17,17.55,19.26,12.65,18.48,19.83,23.12,19.22,19.22,16.72,27.90,11.74,24.66,14.18,16.52,19,20,同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。,21,横坐标,指标(变量),纵坐标,频率密度即频数,/,组距,或频数(等组距频数表),各矩形(宽度为组距)的面积,代表各组段的频率,(二)频率分布图,直方图,22,图中横轴为血清铁含量,纵轴为频率密度,直条面积等于相应组段的频率。,23,1,、作为陈述资料的形式:,简单明了或直观形象,便于进一步计算指标和统计分析。,三、频率分布表(图)的用途,24,(,1,)对称分布,:,若各组段频数的分布以频数最多的组段为中心左右两侧,大体对称,(总体则完全对称),就认为该资料是对称分布,(,2,)偏态(峰)分布,:,正偏峰分布,负偏峰分布,2,、揭示资料的,分布类型,25,含药量(,mg,),(1),频数,f,(2),37,3,40,6,43,15,46,18,49,30,52,14,55,11,58,2,61,64,1,合计,100,表 某药,100,片的含药量的频数表,频 数,图,100,片药片含药量的直方图,37 40 43 46 49 52 55 58 61 64,含药量(,mg,),正偏态(峰)分布,115,名正常成年女子血清转氨酶(,mmol/L,)含量分布,转氨酶含量,人数,12,2,15,9,18,14,21,23,24,19,27,14,30,11,33,9,36,7,39,4,4245,3,28,29,101,名正常人的血清肌红蛋白,(),含量分布,负偏态(峰)分布,30,31,频数分布,对称分布型,:,指集中位置在正中,左右,两侧频数分布大体对称,。,偏态分布型,:,指集中位置偏向一侧,频数,分布不对称。,偏态分布型,正偏态分布:,集中位置偏向数值小的一侧。,负偏态分布:,集中位置偏向数值大的一侧,。,32,集中,趋势,:血清铁含量向中央部分集中,即中等含量者居多,集中在,18,这个组段,这种现象为集中趋势,离,散趋势,:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近,6,最高的接近,30,,这种现象称为离散趋势,3,、描述资料的分布特征,33,集中趋势,:,观察值的平均水平或集,中位置,用,平均数,反映,离散趋势,:,观察值的变异程度或离,散程度,用,变异指标,反映,3,、描述资料的,集中趋势与离散趋势,34,4.,便于发现某些特大和特小的,可疑值,可疑值,可疑值,35,计量资料(定量资料、数值变量资料),总体:,有限或无限个(定量)变量值,样本:,从总体随机抽取的,n,个变量值:,X,1,X,2,X,3,X,n,n,为样本例数(样本大小、样本含量),第二节 描述集中趋势的统计指标,36,一、描述集中趋势的统计指标,平均数,(,average,):,描述,一组变量值的,集中位置或平均水平,的指标。,常用的平均数有,(,算术平,),均数,、,几何,(平),均数、中位数,不同的分布使用不同的平均数,37,1,、算术均数(,mean,),意义:,用于反映一组呈对称性分布的变量值在数量上的平均水平或者说是集中位置的特征值。,应用:,对称性分布,尤其是正态分布,符号:,38,(,1,)直接计算法,39,例,2-3,测得,8,只正常大白鼠总酸性磷酸酶含量(,U/L,)为,4.20,,,6.43,,,2.08,,,3.45,,,2.26,,,4.04,,,5.42,,,3.38,。试求其算术均数。,40,(,2,)加权法,(频数表法,大样本资料),f,:,各组段的频数,k,:频数表的组段个数,(,组中值,),41,120,名成年男子血清铁含量均数、标准差计算表(加权法),组段,频数(,f,),组中值(,X,0,),fX,0,(1)(2)(3)(4)=(2)(3)(5)=(3)(4),6,8,10,12,14,16,18,20,22,24,26,2830,合计,1,3,6,8,12,20,27,12,10,8,4,1,120,(,f,),7,27,66,104,180,340,513,378,276,200,108,29,2228(,fX,0,),7,9,11,13,15,17,19,21,23,25,27,29,49,243,726,1352,2700,5780,9747,7938,6348,5000,2916,841,43640(),42,均数的几何意义,均数代表每组观察值的平衡点,也就是重心。如,:(1,,,4,,,7,,,8),则均数为,5,。则图示如下:,均数的重要特性:离均差(各观察值与均数之差)总和等于零,1,2,3,4,5,6,7,8,43,均数的应用 它最适用于对称分布资料,尤其是,正态分布资料,。因为这时均数位于分布的中心,最能反映资料的集中趋势。,44,2,、几何均数(,geometric mean,),意义:,可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。,应用:,倍数关系或对数转换后呈对称分布,,尤其是对数正态分布,符号:,(样本),45,(,1,)直接计算 法,46,例:某公司五名职员的薪水分别是:,10,,,100,,,1000,,,10000,,,100000,。,47,例,2-5 7,名慢性迁延性肝炎患者的,HBsAg,滴度资料为,1:16,,,1:32,,,1:32,,,1:64,,,1:64,,,1:128,,,1:512,。求其平均效价。,7,份,HBsAg,的平均滴度为,1,:,64,48,(,2,)加权法,适用于相同观察值较多或频数表资料,。,49,例,2-6,52,例慢性迁延性肝炎患者的,HBsAg,滴度数据,见表,2-4,,,求其平均滴度,。,52,例慢性肝炎患者的,HBsAg,滴度的几何均数为,1:119.74705,50,几何均数应用的注意事项:,1,)几何均数常用于等比级数资料或对数正态分布资料。,2,)观察值中不能有,0,。,3,)观察值中不能同时有正值和负值。,51,意义:,是将,n,个变量值从小到大排列,位置居于中间的那个变量值。,用途:,偏态分布资料;一端或两端无确切数,值的资料(开口资料);分布不明的资料。,符号:,M,(样本,),3,、中位数(,median,),52,1,,,3,,,7,,,55,,,86,,,100,,,中位数为多少,?,1,,,3,,,7,,,55,,,100,,,中位数为多少,?,53,(,1,)直接计算法,(,小样本时),n,为奇数时,n,为偶数时,54,(,2,)频数表法,(,大样本时),L,M,i,M,f,M,分别为,M,所在组段的下限、组距和频数,,f,L,为,M,所在组段之前各组段的累积频数。,55,下限值,L,上限值,U,i,;,f,m,中位数,M,56,发汞值(,g/g),(1),频数 累积频数 累积频率,(2)(3)(4),0.3,0.7,1.1,1.5,1.9,2.3,2.7,3.1,3.5,3.9,12 12 10.08,35 47 39.50,32 79 66.39,25 104 87.40,7 111 93.28,4 115 96.64,3 118 99.16,0 118 99.16,0 118 99.16,1 119 100.00,例,某地,119,名正常女性发汞值资料如下表所示,试计算其中位数。,M,即该地,119,名正常女性平均发汞值为,1.26(,g/g,),57,指把数据从小到大排列后位于第,X%,位置的数值。,它是一种位置指标,用 来表示。,一个百分位数 是将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小,有 变量值比它大。,4,、百分位数(,percentile,),58,百分位数图示,X%,P,X,(100-X)%,50,分位数就是中位数,59,百分位数示意图,60,(,1,)百分位数的计算,L,X,i,X,f,X,分别为,P,X,所在组段的下限、组距和频数,,f,L,为,P,X,所在组段之前各组段的累积频数。,61,发汞值(,g/g),(1),频数 累积频数 累积频率,%,(2)(3)(4),0.3,0.7,1.1,1.5,1.9,2.3,2.7,3.1,3.5,3.9,12 12 10.08,35 47 39.50,32 79 66.39,25 104 87.40,7 111 93.28,4 115 96.64,3 118 99.16,0 118 99.16,0 118 99.16,1 119 100.00,P,25,(,g/g),例,某地,119,名正常女性发汞值资料如下表所示,试计算其,P,25,,,P,75,,,P,90,。,62,发汞值(,g/g),(1),频数 累积频数 累积频率,(2)(3)(4),0.3,0.7,1.1,1.5,1.9,2.3,2.7,3.1,3.5,3.9,12 12 10.08,35 47 39.50,32 79 66.39,25 104 87.40,7 111 93.28,4 115 96.64,3 118 99.16,0 118 99.16,0 118 99.16,1 119 100.00,P,75,(,g/g),例,某地,119,名正常女性发汞值资料如下表所示,试计算其,P,25,,,P,75,,,P,90,。,63,发汞值(,g/g),(1),频数 累积频数 累积频率,(2)(3)(4),0.3,0.7,1.1,1.5,1.9,2.3,2.7,3.1,3.5,3.9,12 12 10.08,35 47 39.50,32 79 66.39,25 104 87.40,7 111 93.28,4 115 96.64,3 118 99.16,0 118 99.16,0 118 99.16,1 119 100.00,P,90,(,g/g),例,某地,119,名正常女性发汞值资料如下表所示,试计算其,P,25,,,P,75,,,P,90,。,64,(,2,)百分位数的应用,用于描述样本或总体观察值序列某百,分位置的水平。,用于确定偏态分布资料的参考值范围。,用于描述偏态资料的变异程度。,65,5,、众数,众数:指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值,66,正态分布时:,均数中位数众数,正偏态分布时:,均数,中位数,众数,负偏态分布时:,均数,中位数,众数,67,变异指标,:,描述一组变量值的,变异程度或离散趋势,的指标,.,常用的变异指标有,极差,、,四分位数间距,、方差或,标准差,、,变异系数,不同的分布使用不同的变异指标,第三节 描述离散趋势的特征数,68,例 三组同龄男孩的身高值,(cm),69,例,2-11,试观察,3,组数据的离散情况。,A,组,26 28 30 32 34,B,组,24 27 30 33 36,C,组,26 29 30 31 34,70,设有甲、乙、丙三名医生,分别对相同的,5,份血样进行红细胞计数(万,/mm3,),,甲得出了,560,、,540,、,500,、,460,、,440,,,乙得出了,520,、,510,、,500,、,490,、,480,,,丙得出了,510,、,505,、,500,、,495,、,490,,,见下图,2,,三名医生的计数结果得到的均数均为,500,,,5,个数值之和均为,2500,。,71,甲医生得出的,5,个观察值间的差异离散程度)较大,而丙医生得出的,5,个观察值间的差异(离散程度)较小。,72,1,、极差,适用范围:,任何计量资料,是参考变异指标,极差,(R),:即一组变量值最大值与最小值之差。,73,四分位数间距,用,Q,表示:,适用范围:,适用于各种类型的连续型变量,特别是偏态分布的资料,2,、四分位数间距,74,极差(range):极差也称全距,,均数代表每组观察值的平衡点,也就是重心。,乙得出了520、510、500、490、480,,例2-6 52例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4,求其平均滴度。,12 12 10.,39,2830,说明有50%女性的发汞值在0.,中位置,用平均数反映,32 79 66.,(2)加权法(频数表法,大样本资料),(2)通常,平均数与变异指标一起描述资料的分布特征。,样本方差、标准差用 、表示.,如:(1,4,7,8)则均数为5。,适用于相同观察值较多或频数表资料。,说明有,50%,女性的发汞值在,0.90,和,1.66,之间,其四分位数间距为,0.76,(,g/g),,中位数为,1.26,(,g/g,),。,上例 计算四分位数间距,75,方差(,variance,)也称均方差,与标准差,(standard deviation),都是,反映一组数据的平均离散水平,的指标。,适用范围:,与均数配套用,3,、方差与标准差,总体方差、标准差用 、表示;,样本方差、标准差用 、表示,.,76,方差的计算公式,(,通常未知,),(,将原有的单位平方,),77,样本方差为什么要除以(,n,1,),与自由度(,degrees of freedom,)有关。,自由度是数学名词,在统计学中,,n,个数据如不受任何条件的限制,则,n,个数据可取任意值,称为有,n,个自由度。若受到,k,个条件的限制,就只有(,n,k,)个自由度了。计算标准差时,,n,个变量值本身有,n,个自由度。但受到样本均数的限制,任何一个,“,离均差,”,均可以用另外的(,n,1,)个,“,离均差,”,表示,所以只有(,n,1,)个独立的,“,离均差,”,。因此只有(,n,1,)个自由度。,78,标准差的计算公式,(,通常未知,),(,应用非常广泛,),79,直接法(小样本):,频数表法:,标准差的计算,或,80,例,用直接法,计算,甲组,儿童身高的标准差,公式(,3-6,),(2)(3)(4),合计 120(f)2228(fX0)43640(fX02),例二:某地不同年龄组男子身高(cm)的变异程度。,4 115 96.,4 115 96.,或频数(等组距频数表),负偏态分布:集中位置偏向数值大的一侧。,35 47 39.,2、几何均数(geometric mean),(1),不同的分布使用不同的变异指标,可用于观察指标单位不同时,如身高与体,(2)通常,平均数与变异指标一起描述资料的分布特征。,是统计描述的一个重要的组成部分,3 118 99.,可见:甲组,5,名儿童的身高的变异程度最大,丙组最小。,82,120,名成年男子血清铁含量均数、标准差计算表(加权法),组段,频数(,f,),组中值(,X,0,),fX,0,fX,0,2,(1)(2)(3)(4)=(2)(3)(5)=(3)(4),6,8,10,12,14,16,18,20,22,24,26,2830,合计,120,(,f,),2228(,fX,0,)43640(,fX,0,2,),1,3,6,8,12,20,27,12,10,8,4,1,7,27,66,104,180,340,513,378,276,200,108,29,7,9,11,13,15,17,19,21,23,25,27,29,49,243,726,1352,2700,5780,9747,7938,6348,5000,2916,841,83,标准差的基本内容是,“,离均差,”,,它显示一组变量值与其均数的间距,故标准差,直接、平均、总结,描述了变量值的离散程度。,84,表示数据,分布的离散程度,,与,均数配套,使用,常用于对称分布资料。,常用 作为计量资料数字特征的描,述。,结合均数,描述正态分布,的特征,并确定,医学参考值范围。,可用来计算,均数的标准误,。,标准差的应用,85,变异系数,CV,,,其计算公式为,可用于,观察指标单位不同时,,如身高与体,重的变异程度的比较。,或用于,均数相差较大时,,如儿童身高与成,人身高变异程度的比较。,4,、变异系数,(,coefficient of variation,),86,例一:,某地,120,名,7,岁男孩身高的均数为,123.10cm,,标准差为,4.71cm,;体重均数为,22.29kg,,标准差为,2.26kg,比较其变异度。,年龄组,人数,均数,标准差,变异系数,(%),33.5,100,96.1,3.1,3.2,3035,100,170.2,5.0,2.93,例二:,某,地不同年龄组男子身高,(cm),的变异程度。,变异系数的两个特点,没有单位,:,反映标准差占均数的百分比或标准差是均数的几倍,不受平均水平的影响,反映的是以均数为基数的相对变异的大小,89,绝对变异受平均水平的影响,相对变异排除了平均水平的影响,90,小 结,1,、,平均数与变异度的关系,(,1,)平均数表示的,集中性,与变异度表示的,离散性,,是从两个不同的角度阐明计量资料的特征,变异度越小,平均数对各变量值的代表性越好,变异度越大,平均数对各变量值的代表性越差,91,(,2,)通常,平均数与变异指标一起描述资料的分布特征。,用均数和标准差描述正态分布资料的特征;,用中位数和四分位数间距描述偏态分布资料的特征。,92,2,、资料的指标描述,是统计描述的一个重要的组成部分,定量资料的统计指标,平均水平指标:算术均数、几何均数、中位数,离散程度指标:全距、四分位数间距、方差、标准差、变异系数。,93,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服