1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,融合教材,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,卫生统计学数据分布的描述,欧春泉,南方医科大学,第一章,数据分布的描述,目录,第一节:数据分布表与直方图,第二节:集中位置,第三节:变异程度,第四节:箱式图,第五节:,数据核查与离群值,01,02,03,04,05,05,06,第六节:,分类变量的常用统计图,重点难点,频数分布表与直方图的编制原则和方法,
2、集中位置和变异程度的常用指标及其适用条件,基本箱式图和箱式百分位数图的绘制和作用,常用的逻辑核查方法,离群值的探索和处理方法,各种图形的适用条件,第一节 数据分布表与直方图,采用,SF-36,自测健康量表测得,118,名慢性鼻窦炎患者的生命质量评估总分如下,:,(一),频数分布表,第一节 数据分布表与直方图,72,30,80,57,72,72,72,30,65,25,10,52,75,82,52,60,65,72,35,62,45,35,30,66,81,65,55,65,67,80,62,62,45,52,47,45,57,52,67,52,57,40,66,55,62,45,45,52,7
3、2,57,57,57,45,55,50,77,55,72,45,50,35,72,60,47,57,52,60,40,45,45,67,60,40,45,35,50,72,25,60,40,62,40,55,55,92,65,61,35,35,15,65,87,92,40,85,65,57,72,72,72,40,30,52,45,53,50,52,57,45,45,30,25,65,40,25,45,65,45,1.,频数表的编制方法,(,1,),找出最,小,值和最,大,值,,本例为,10,与,92,。,(,2,),计算全距,(,range,,,R,),:最大值与最小值之差,本例,R,=92
4、10=82,。,(,3,),确定组距:相邻两组之间的距离,,,组距,=,全距,/,组段数,,,通常组段数取,812,组,。,本例共设,9,个组段,组距取,10,。,(,4,),确定组段的上、下限:每个组段的起点为下限,(,lower limit,),,终点为上限,(,upper limit,),。每个组段均包含组段的下限值,最后一组的组段写出上限值,。,(,5,),列表整理:,计算频数、频率、累计频数及累计频率,。,(一),频数分布表,第一节 数据分布表与直方图,广州市,118,名慢性鼻窦炎患者生命质量评估总分的频数分布表,(一),频数分布表,第一节 数据分布表与直方图,组段,(1),频数,(
5、2),频率,(%),(3),累计频数,(4),累计频率,(%),(5),10,2,1.69,2,1.69,20,4,3.39,6,5.08,30,11,9.33,17,14.41,40,25,21.19,42,35.59,50,29,24.58,71,60.17,60,25,21.19,96,81.36,70,14,11.86,110,93.22,80,6,5.08,116,98.31,90100,2,1.69,118,100.00,合计,118,100.00,(二)直方图,第一节 数据分布表与直方图,慢性鼻窦炎患者生命质量评估总分的直方图,慢性鼻窦炎患者生命质量评估总分的直方图,(,非等距分
6、组造成错觉,),1.,分布形态分类,(,1,)对称分布:集中位置在正中,左右两侧频数分布对称。,(,2,)偏态分布:集中位置偏向一侧,左右两侧频数分布不对称。,正偏态,(,positive skewness,),:,有小部分数据偏大、直方图呈现右侧拖尾,,又称右偏态,(,right skewness,),;,负偏态,(,negative skewness,),:,有小部分数据偏小、直方图呈现左侧拖尾,,又称左偏态,(,left skewness,),。,(三),数据分布特征,第一节 数据分布表与直方图,(三),数据分布特征,第一节 数据分布表与直方图,分布形态图示:,成都市,238,名正常居民
7、发汞值分布直方图,(三),数据分布特征,第一节 数据分布表与直方图,分布形态图示:,冠心病患者的年龄分布直方图,(三),数据分布特征,第一节 数据分布表与直方图,2.,集中趋势和离散趋势的描述,(,1,),集中趋势,(central tendency),:,指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段,。,(,2,),离散趋势,(dispersion tendency),:,部分数据偏离中心位置,的变异特征。,第二节 集中位置,第二节 集中位置,1.,集中位置,(center),反映一组观察值的平均水平或中心位置。描述集中位
8、置的常见指标有以下三种:,(,1,),算术均数,(arithmetic mean),(,2,),几何均数,(geometric mean,,,G),(,3,),中位数,(median,,,M),(一),算术均数,第二节 集中位置,(一),算术均数,第二节 集中位置,基于频数分布表数据计算慢性鼻窦炎患者生命质量评估总分的均数,组段,(1),频数,(,f,i,),(2),组中值,(,x,Mi,),(3),f,i,x,Mi,(4)=(2)(3),10,2,15,30,20,4,25,100,30,11,35,385,40,25,45,1125,50,29,55,1595,60,25,65,1625,
9、70,14,75,1050,80,6,85,510,90100,2,95,190,合计,118,6610,(二)几何,均数,第二节 集中位置,1.,计算方法,(,1,)原始资料(直接法):,(,2,)频数表资料(加权法):,2.,应用,几何均数常用于数据呈倍数变化或对数正态分布资料的平均水平,计算几何均数时,观察值中不能有零且不能同时有正数和负数。,(二)几何,均数,第二节 集中位置,广州市,6,名,3,岁以上儿童接种麻疹疫苗后,麻疹,IgG,抗体滴度水平如下:,1,:,200,,,1,:,800,,,1,:,800,,,1,:,800,,,1,:,3200,,,1,:,12800,。计算,6
10、名儿童麻疹,IgG,抗体滴度的几何均数。,求,G,的倒数,得到,6,名儿童接种麻疹疫苗后麻疹,IgG,抗体滴度的几何均数为,1:1270,。,(二)几何,均数,第二节 集中位置,下表是,262,名患儿体内肺炎支原体抗体滴度水平,计算其平均抗体滴度,。,262,名患儿体内肺炎支原体抗体滴度水平,抗体滴度,(1),频数,(2),抗体滴度倒数,(3),抗体滴度倒数的对数,(4),抗体滴度倒数的对数和,(5)=(2)(4),1:80,97,80,4.38,424.86,1:160,56,160,5.08,284.48,1:320,42,320,5.77,242.34,1:640,21,640,6.4
11、6,135.66,1:1280,46,1280,7.15,328.90,合计,262,1416.24,即,262,名患儿体内肺炎支原体抗体平均滴度水平为,1:223,。,(三)中位数,第二节 集中位置,(三)中位数,第二节 集中位置,下,表是成都市,238,名正常居民发汞含量测量结果,求发汞含量的中位数。,组段,(1),频数,(2),频率,(%),(3),累计频数,(4),累计频率,(%),(5),0.3,19,7.98,19,7.98,0.7,62,26.05,81,34.03,1.1,63,26.47,144,60.50,1.5,51,21.43,195,81.93,1.9,22,9.24
12、217,91.18,2.3,13,5.46,230,96.64,2.7,4,1.69,234,98.32,3.1,1,0.42,235,98.74,3.5,2,0.84,237,99.58,3.94.3,1,0.42,238,100.00,合计,238,100.00,238,从第,(5),列可知,累计有,34.03%,的观测值小于,1.1,,有,60.50%,的观测值小于,1.5,,故可判断,P,50,在,1.11.5,这个组段,代入公式得:,238,名,居民发汞含量,(g/g),的频数分布表,(三)中位数,第二节 集中位置,2.,中位数的应用,(,1,)对任何资料(对称分布、偏态分布、分布
13、未知,或分布末端有极端值、不确定值,)都适用。日常应用中,对称分布资料更常用均数。,(,2,),与均数相比,中位数存在一些不足:,中位数,未,考虑大部分观测值的实际大小,而均数充分利用了全部数据的信息,;,两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可基于两组的均数和例数用求得,;,均数可通过如估计截尾均数等方法进行修正,而中位数无法进行,此,修正,。,第二节 集中位置,不同分布中三种指标,的大小,比较,第三节 变异程度,第三节 变异程度,三组儿童身高特征的比较示意图,仅描述数据的集中位置还不足以反映数据完整的分布特征,第三节 变异程度,1.,变异,(variation),
14、一组数据中个体值之间的差异,。描述变异程度的常见指标有:,(,1,),极差,(,2,),四分位数间距,(inter-quartile range,,,IQR),(,3,),方差,(variance),(,4,),标准差,(standard deviation,,,SD),(,5,),变异系数,(coefficient of variation,,,CV),(一)极差,第三节 变异程度,1.,极差(,range,,,R,),也称全距,为所有观测值中最大值与最小值,之,差。极差越大说明数据变异程度越大。可用来反映传染病、食物中毒的最短和最长潜伏期等,。,2.,极差的不足之处,(,1,),仅用到最大
15、值和最小值的信息,不能反映组内,其他,数据的变异情况。,(,2,),极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较,。,(二)四分位数间距,第三节 变异程度,四分位数间距,(,inter-quartile range,,,IQR,),IQR,可看做中间一半观测值的极差,R,,适于偏态分布或分布未知资料,由,于不受两端极大或极小数据的影响,四分位数间距比极差更为稳定,,但仍未考虑每个观测值的变异。常与,中位数一起使用,综合反映数据的平均水平和变异程度,写成,M,(,P,25,P,75,),。,适于,P,0,P,2
16、5,P,50,P,75,P,100,Min,下四分位数,(,Q,L,),中位数 上四分位数,(,Q,U,),Max,IQR,=,P,75,P,25,(三)方差与标准差,第三节 变异程度,方差,(,variance,),是指所有观测值的离均差平方和的平均值,描述所有观测值与均数的平均偏离程度,;,标准差,(,standard deviation,,,SD,),是方差的平方根。,方 差:,标准差:,s,(三)方差与标准差,第三节 变异程度,(四)变异系数,第三节 变异程度,(四)变异系数,第三节 变异程度,第三节 变异程度,特征,指 标,应 用,集中位置,均数,对称分布,几何均数,对数正态、等比资
17、料,中位数,偏态分布、分布不明、末端有不确定值,变异程度,极差,偏态分布,四分位间距,偏态分布、分布不明、末端有不确定值,方差,/,标准差,对称分布,变异系数,单位不同、均数相差悬殊、评价测量精度,集中位置和变异程度指标小结:,第四节 箱式图,(一)箱式图,第四节 箱式图,15,例大骨节病患者白细胞数箱式图,1.,表示中位数的横线在箱体中间位置则表明数据呈对称分布,。,2.,中间横线靠下端则提示右偏态分布,。,3.,中间横线靠上端,则,提示左偏态分布,。,(一)箱式图,第四节 箱式图,广州市一项关于慢性鼻窦炎患病率的横断面调查中,用,SF-36,量表测得所有调查对象的生活质量,所调查的,141
18、1,名成年居民中有,118,名患有慢性鼻窦炎。以慢性鼻窦炎患者和正常人的精力评分为例,绘制箱式图。,正常人与慢性鼻窦炎患者精力评分箱式图,“,”,表示,均数,“,”,表示离群值,(二)箱式百分位数图,第四节 箱式图,1.,箱式百分位数图,(box-percentile plot),结合了箱式图和直方图的功能,,,不仅给出了几个关键的百分位数,还描述了整个数据的分布形态。箱体中间部分最宽,越往两端越窄。,2.,制作方法,首先将,n,个观测值从小到大排列,假设箱体最中间(中位数位置),宽度为,w,,则将,数据,从小到大排列后第,k,个观测值,x,k,所在位置的箱体宽度为:,(二)箱式百分位数图,第
19、四节 箱式图,以下为,慢性鼻窦炎患者健康评估总分同时绘制了箱式图与箱式百分位数图,箱式百分位数图呈,梭,型左右对称,。若,关于中位数上下对称,则提示资料呈对称分布。,慢性鼻窦炎患者健康评估总分的箱式图,(A),和箱式百分位数图,(B),(二)箱式百分位数图,第四节 箱式图,慢性鼻窦炎患者精力评分的箱式图,(A),和箱式百分位数图,(B),慢性鼻窦炎患者精力评分呈左偏态分布。,箱式图显示该组数据有两个数值特别小的离群点。,箱式百分位数图从箱体往下延伸出一条又长又细的线,离群点。,第五节 数据核查与离群值,(一)逻辑核查,第五节,数据核查与离群值,1.,逻辑核查的几种常用策略,(,1,)检查变量类
20、型和性质:,变量可分为数值型变量与字符型变量。数值型变量只能包括数字、小数点和负,号,,个别情况也包括作为千位分隔符的逗号,不能含有字母或文字,。,(,2,),核查变量值范围,:检查每个变量的取值范围。,例如:一个人的体重不能为负数;出生月份,应,在,112,之间;某成年,男,性的身高值低于,140cm,或者高于,210cm,也值得怀疑,。,(,3,),有效值检查,:,检查观测值是否为事先定义的数值之一。例如:录入性别时,事先规定用,1,表示男性,,2,表示女性,如果数据中出现其他观测值则说明有误。,(一)逻辑核查,第五节,数据核查与离群值,1.,逻辑核查的几种常用策略,(,4,),一致性检查
21、检查有无前后矛盾,相关问题的逻辑是否一致,。,出院日期早于入院日期、收缩压小于舒张压等都不符合逻辑。,(,5,),唯一性检查,:,每个观察单位,通常,都设有一个唯一的标识号,如调查对象编号、住院号、门诊号等。,根,据标识号检查是否存在同一个观察单位的数据两次重复录入,。,(,6,),完整性检查,:,检查每一个观察单位的完整性和整个数据库的完整性。,(,7,),交叉检查,:,不同来源的两个数据库中同一内容的信息应该一致,。,(二)离群值的初步探索,第五节,数据核查与离群值,(二)离群值的初步探索,第五节,数据核查与离群值,2.,核查离群值的统计手段,(,4,),通过统计检验判断,:,检验偏
22、离程度是否超出随机误差所能解释的上限,。,已知标准差时可用,Nair,检验法,未知标准差时可用,Grubbs,检验法、,Dixon,检验法和峰度,-,偏度检验法,。,(,5,),结合其他变量信息判断,:,根据儿童的身高,可初步判断其体重是否过高或者过低。根据身高所建立的体重核查规则比单纯只考虑体重的核查更为有效。,(三)离群值的处理,第五节,数据核查与离群值,1.,测量或者记录过程中出现错误而导致离群值,或者存在明显的逻辑错误,应予以剔除。例如:细胞培养时出现了污染或者操作失误,这时的离群值,应,剔除,。,2.,无明确理由剔除离群值,(,1,),对离群值删除前后各做一次统计分析,若前后分析结果
23、矛盾则下结论需谨慎,。,(,2,),采取一些稳健分析,(robust analysis),的方法,:,中位数,;,对数变换,:观测值大于,0,,夸大极小值的影响;,截尾均数,:,是将数据按从小到大顺序排列后,两端截掉一定比例的数据后计算余下数据的均数,。,第六节 分类变量的常用统计图,(一)饼图,第六节,分类变量的常用统计图,饼图,(pie chart),又称圆图,是将圆形分割成若干个扇形,扇形面积的大小表示同一个事物内部中各部分的构成比。因此,饼图主要用来描述分类变量的构成比,用于说明事物内部各组成部分所占比重,。,绘制饼图时应注意:,各扇形通常从时钟,12,时处开始,按大小或自然顺序顺时针
24、方向排列;,简要注明各扇形所代表的类别和百分比。,(一)饼图,第六节,分类变量的常用统计图,有研究表明大骨节病的发生可能与粮食作物真菌污染有关,为了解西藏粮食作物中的带菌情况,从尼木县随机抽取,600,粒青稞籽粒,培养分离出真菌,3894,株,各种菌属的分布见,下,表。,西藏尼木县青稞籽粒真菌菌属构成,真菌菌属,例数,构成,(%),支孢霉菌属,2068,53.11,链格孢菌属,705,18.10,茎点霉菌属,391,10.04,其他菌属,730,18.75,合计,3894,100.00,西藏尼木县青稞籽粒真菌菌属构成饼图,(二)条图和百分位图,第六节,分类变量的常用统计图,条图,(bar ch
25、art),可用,直条的高度反映分类数据中每一类的频数或者频率。条图又分为单式条图和复式条图。,从我国公共卫生数据共享中心获得我国大陆,2010,年和,2013,年四种主要虫媒传染病的发病率数据,见,下,表。试绘制发病率的条图。,我国大陆,2010,年和,2013,年四种虫媒传染病发病率,(/,千万人,),传染病,2010,年,2013,年,出血热,71.37,94.61,登革热,1.67,34.44,疟疾,55.36,28.77,流行性乙型脑炎,19.04,16.09,(二)条图和百分位图,第六节,分类变量的常用统计图,2013,年我国大陆四种虫媒传染病发病率,(/,千万人,),2010,年和
26、2013,年我国大陆四种,虫媒传染病发病率,(/,千万人,),(二)条图和百分位图,第六节,分类变量的常用统计图,百分条图,(percent bar graph),的功能与饼图相同,,,可以将多组数据放在一起比较其构成比,。,对于等级数据需按照等级顺序排列,如果没有明显的逻辑关系,也可按照百分比由大到小排列,。,(二)条图和百分位图,第六节,分类变量的常用统计图,2001,年西藏桑日县和林周县,412,岁儿童大骨节病监测结果,监测县,阴性,例数,(%),大骨节病例数,(%),度,度,度,桑日县,274(65.08),96(22.80),35(,0,8.32),16,(3.80),林周县,25
27、5(74.78),35(10.26),36(10.56),15,(4.40),西藏林周县和桑日县,412,岁,儿童大骨节病监测结果百分条图,(三)热图,第六节,分类变量的常用统计图,热图,(heat map),:,用不同的颜色(或者深浅)表示观测值的大小,常用来表示疾病的时间与空间分布,生物信息学中也常用热图描述基因表达谱,。,从公共卫生科学数据中心获得,2013,年我国大陆,31,个省,/,自治区,/,直辖市手足口病发病率数据,试绘制热图反映手足口病时空分布特点。,2013,年我国,大陆,31,个省,/,自治区,/,直辖市手足口病发病率的空间分布,(三)热图,第六节,分类变量的常用统计图,从
28、公共卫生科学数据中心获得,2013,年我国大陆,31,个省,/,自治区,/,直辖市手足口病发病率数据,试绘制热图反映手足口病时空分布特点。,2013,年我国,大陆,31,个省,/,自治区,/,直辖市手足口病疫情的时间分布,本章小结,1.,对于定量数据,可编制频数分布表并绘制直方图,初步了解变量的分布特征,(,集中趋势、离散趋势、是否对称分布等)。,2.,反映定量数据,集中位置的主要指标包括均数、几何均数、中位数等,。,(,1,),均数主要用于描述不含离群值的对称分布数据的平均水平。,(,2,),中位数用于描述对称分布和偏态分布数据的平均水平,尤其是当数据中有离群值、含不确定值的数据、数据呈偏态
29、分布或分布类型未知,。,(,3,),几何均数用于描述存在少数偏大的极端值的正偏态分布或近似倍数关系数据,。,本章小结,3.,描述定量数据变异程度的指标主要包括全距、四分位数间距、方差、标准差、变异系数等,。,(,1,),全距只能粗略表示数据的变异程度。,(,2,),标准差常与均数结合起来使用。,(,3,),四分位数间距常与中位数结合使用。,(,4,),变异系数主要用于度量衡单位不同的两个变量变异程度的比较,或者度量衡单位相同但均数相差悬殊的几组数据变异程度的比较。,本章小结,4.,基本箱式图主要报告中位数、上四分位数、下四分位数、最大值、最小值等五个重要统计量,同时也可对离群值予以标注。箱式百分位数图同时描述了整个数据的分布概貌,。,5.,数据分析之前应常规地进行逻辑核查,尽可能减少数据错误,。,6.,对离群值的处理应慎重,。,7.,描述分类数据的常用统计图有饼图、百分条图和热图等,。,






