资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学统计学统计描述,季聪华,2012.09.27,方法的,类型,研究和应用程度,统计学,理论统计学,应用统计学,描述统计学,推断统计学,在中医药科研实践中通过观察、调查、实验等方式搜集到的各种资料含有大量信息,由此揭示或表达样本信息特征,不仅需要依据相关专业知识,还需借助适当的统计学方法和手段。,统计描述,(statistical description),又称描述性统计,(descriptive statistics),,是运用适宜的,统计指标,、,统计表,、,统计图,等方法,对研究对象,(,变量,),的分布类型和数量特征进行展示的过程。,通过统计描述,可了解研究对象的基本特征,便于对样本资料作进一步的统计分析。,第一节 频数分布,第二节 数值资料的统计描述,第三节 分类资料的统计描述,第四节 统计表和统计图,第一节 频数分布,频数表,(frequency table),及频数图,(frequency graph),是统计描述的基本内容,也是揭示样本数据分布特征的基本手段。,一、频数表,频数表(frequency table)又称频数分布表,是将某变量各组段及其相应的频数按一定顺序排列而成的表格形式,主要用于描述数据的分布特征,是对样本含量较大的资料进行统计描述的常用方法。,【例2-1】随机抽取某年某地120例正常人血清铜的含量,见表2-1,试编制频数表。,1.数值资料频数表的编制,通过如下步骤也可手工编制表2-2。,(1)找出120例血清铁数据的最小值(9.23)与最大值(19.84)。,(2)计算全距(range,R),也称为极差。,R=最大值一最小值=19.849.2310.61,表中:组中值,=(,上组段下限值,+,下组段下限值,)/2,;,频数,(frequency),即各组段内观察值的个数;,频率,(percent),即各组段频数与总观察值个数之比,一般用百分数表示;,累计频数,(cumulative frequency),是由上至下将频数累加;,累计频率,(cumulative percent),是由上至下将频率累加。,从本例的分布可见:以第六组段,(14.00,),分布的数据最多,,22,例,占,18.3%,,且以该组段为中心呈对称分布,小于,15.00,u,mol/L,的数据占,59.1%,。,SPSS软件绘制频数表,对【例2-1】资料进行统计描述,2.分类资料频数表的编制,(1),一维频数表:,用分类资料的分类水平代替上述数值资料频数表的组段,然后通过分类计数便可编制其频数表,见表,2-3,。,(2)二维频数表:,分类资料的二维频数表在各种医学杂志中较为常见。按分类资料的分类水平特征,可组合成各种不同的二维表,不同二维表名称见表2-4。,(3)配对设计分类资料的频数表:,同一研究对象同时接受两种不同的处理,观测的结果为属性相同的分类资料时,这样就形成了配对设计的分类资料,可用行数与列数相同的方形表归纳其频数分布,见表2-5。,二、频数图,频数图(frequency graph)是在频数表基础上,以直方(或直条)的面积大小表示频数的多少或频率的大小的图形,可直观显示数据的分布类型和特征。,1.数值资料频数图直方图的绘制,(1),等距分组:横轴表示随机变量,纵轴表示频数,(,或频率,),。表,2-1,资料的频数图,见图,2-1,。,SPSS绘制频数图,(2)不等距分组:横轴表示变量,纵轴是每个横轴单位的频数。表2-6资料的频数图,见图2-2。,2.分类资料频数图直条图的绘制,三、频数表和频数图的用途,1.描述频数分布的类型,资料的频数分布类型有,对称分布,(symrnetric distribution)和,偏态分布,(skew distribution)两种。,如果频数分布集中位置(单峰最高处)在中间,左右两侧频数大体对称,称为对称分布。,如果频数分布不对称,集中位置偏向一侧,则称为偏态分布。若集中位置偏向观察值小的一侧,称为正偏态(positive skewness),又称右偏态。若集中位置偏向观察值大的一侧,称为负偏态(negative skewness),又称左偏态。,不同资料的频数分布类型,见图2-4。对于不同频数分布类型的资料,应选用不同的统计方法进行分析。,描述频数分布形态的统计量有两个:,峰度系数,(coefficient of kurtosis,,,KURT),和,偏度系数,(coefficient of,skewness,,,SKEW),。,理论上总体,偏度系数为,0,时,分布是,对称的,;取正值时,分布为负偏态;取负值时,分布为正偏态。,正态分布的总体,峰度系数为,0,;取负值时,分布为平阔峰;取正值时,分布为尖峭峰。,正态分布是一种特殊的以集中性、对称性和均匀变动性为特点的对称分布,故无论尖峭峰或平阔峰,均为非正态分布。,2.展示频数分布的特征,频数分布有两个重要特征:一是,集中趋势,(central tendency),反映一组观察值的中心位置或平均水平;二是,离散趋势,(tendency of dispersion),反映观察值之间参差不齐的程度。对数值变量资料作统计描述,就是用统计指标将这两个重要特征数量化。,3.便于发现某些特大或特小的异常值,对资料中出现的异常值应谨慎对待,必要时对原始资料进行核实,并再次进行观察或测量。若条件不允许再次观察或测量,在有充分依据的前提下,可将异常值予以剔除,然后再做统计描述和分析。,4.有利于进一步计算有关指标和统计分析处理,第二节 数值资料的统计描述,从数值资料的频数表和频数图中虽可以看出观察值的分布情况,但为了揭示数据的基本特征,还需用可量化指标作进一步的统计描述分析。,本节讨论数值资料的统计描述,它包括集中趋势和离散趋势的统计描述。,一、集中趋势的统计描述,描述数值资料集中趋势的代表性指标为平均数。,平均数,(average),是反映一组观察值,(,变量值,),集中趋势、中心位置或平均水平的重要统计指标,其主要作用包括:作为一组观察值的代表值,表明该组观察值集中趋势的特征。便于对同类研究对象进行对比分析。,按使用条件和计算方法不同,平均数分为许多种。常用的有算术均数、几何均数和中位数等。,1.,算术均数,(arithmetic mean),,简称均数,(mean),,,它等于所有观察值之和除以观察值的个数。表示一组性质相同的观察值在数量上的平均水平,适用于呈对称分布,尤其是正态分布的数值资料的集中趋势描述。如正常人生理、生化的大多数指标,如身高、体重、血红蛋白含量、白细胞计数等均适合用均数描述其集中趋势。,总体均数,用希腊字母,表示,样本均数用,x(,读作,x bar),表示。,计算方法有两种,2.几何均数(geometric mean),是,n,个数值乘积的,n,次方根,表示一组资料在比例或倍数上的平均,用,G,表示。,适用于对数正态分布资料,(,有些数值资料,原始数据不服从正态分布,若将数据转换成对数后的资料服从正态分布,),和观察值之间呈等比关系的资料。如某些疾病的潜伏期、抗体滴度或平均效价等。,SPSS计算几何均数,3.中位数(median),将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,用,M,表示。,它表示位次上的平均,不受两端极值的影响。,中位数适用于任何一种分布的数值变量资料,一般多用于描述偏态分布或数据一端或两端无确切值的,开口资料,(,如,n60),的集中趋势。,百分位数,(percentile),是一个位置指标,用,p,x,表示。,把一组变量值由小到大依次排列,将位次平均分成,100,等份,与第,x,百分位数相应的变量值称为第,x,百分位数。,一个百分位数可将一组变量值分为两部分,理论上有,nx,%,个变量值比它小,有,n(1-x%),个变量值比它大。所以百分位数是一个界值或分割值。百分位数常用于描述一组偏态分布的大样本资料在某个百分位置上的水平及确定偏态分布资料的医学正常值范围。中位数是一个特定的百分位数,即,p,50,。,计算百分位数的公式为:,百分位数示意图,运用平均数的注意事项,(1),了解各医学专业平均数的习惯用法。例如,儿童龋齿个数虽然呈偏态分布,但在口腔预防保健统计中,习惯上计算算术均数。,(2),同一资料有时可能同时满足几个平均数指标的应用条件。例如,对于某些偏态分布的资料,几何均数和中位数比较接近。出现这种情况时,除了专业上的习惯用法外,统计上的处理原则是:,如果均数与中位数接近、几何均数与中位数接近,最终采用均数或几何均数作为平均数指标。,反之,则采用中位数作为平均数指标。,(3),计算和运用平均数时,要注意极端值的影响,如算术平均数受极端值的影响较大。为了正确反映观察值的特征,,当存在过大或过小的极端值时,应予以剔除,,然后将其余数值计算平均数。通常称这种去除极端值再平均的方法为切尾平均法。该法在文艺、体育比赛评分时应用较多。,(4),平均数只反映变量的集中趋势,只有把平均指标与变异指标相结合,才能全面反映研究对象的数量特征。,离散趋势的统计描述,离散趋势是反映一组观察值之间参差不齐的程度,即变异度。,【,例,2-9】,有三组同龄男孩的身高值,(cm),如下,其平均身高均为,100 cm,,试分析其离散程度。,甲组:,90 95 100 105 110,甲的平均值,=100 cm,乙组:,96 98 100 102 104,乙的平均值,=100 cm,丙组:,96 99 100 101 104,丙的平均值,=100 cm,由资料可见,虽然三组的均数相同,即集中趋势相同,但各组数据参差不齐的程度并不相同,即离散趋势不同。,所以要反映数值资料的整体特征,既要考虑集中趋势,还要考虑离散趋势。,常用的离散趋势指标有极差、四分位数间距、方差和标准差、变异系数等。,1.极差(range,R),又称全距,是一组观察值中最大值与最小值之差。适用于任何分布类型的资料(,开口资料,除外)。,极差越大,说明变异程度越大。计算公式见式,(2-1).,用极差描述资料的离散趋势虽然计算简单,但除了最大值和最小值,不能反映组内其他数据的变异,且易受极端值和样本含量的影响,所以常用于资料的粗略估计和小样本数据。,2.四分位数间距,将全部观察值按其位次分为四等份,有三个分点:第一个分点是下四分位数即,P25,常用,Q,L,表示;第二个分点即中位数,M,,记为,p,50,,第三个分点也称上四分位数,即,P75,,常用,Qu,表示。四分位数间距,(,quartilc,interval,Q),即指上、下四分位数之差,用,Q,表示。四分位数间距示意图,见图,2-5,。,四分位数间距适用于任何分布类型的资料,尤其是呈偏态分布的大样本资料,常与中位数一起描述偏态分布资料的分布特征。它作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小。,3.方差和标准差,为了全面考察每个观察值的变异情况,克服极差和四分位数间距的缺点,需要计算总体中每个观察值,x,与总体均数,的差值(,x-,),称为离均差。,由于,(,x-,),=0,时,不能反映变异度大小,需将离均差平方后再求和,即,(,x-,),2,,称为离均差平方和。同时考虑到观察值个数,N,的影响,取其均数,称为总体方差,用,2,表示,计算公式为:,由于在实际研究中很难得到总体均数和总例数,只能用样本均数和样本例数来代替,计算出样本方差(s,2,)作为总体方差的估计值。为了克服s,2,对,2,的有偏估计,统计学家提出用n-1代替n来校正,计算公式为:,式中,n-1 称为自由度(degree of freedom),统计符号为,,表示在计算某一统计量时可以自由取值的变量个数或观察值个数。设某统计量的变量x共有n个取值,则v=n;若它们受到k个条件限制(kn),则v=n-k。如计算方差和标准差时,其结果均受到样本均数这个条件的限制(k=1),故v=n-1。,因方差,(variance),的度量衡单位是变量值单位的平方,不利于数据之间的比较,所以方差不常用于描述资料的离散度,而主要用于假设检验的方差分析。,标准差,(standard deviation,,,SD),是描述一组观察值离散度大小的常用统计学指标。标准差是方差的算术平方根。总体标准差用,表示,样本标准差用,s,表示,计算公式为:,标准差除具有方差的优点外,还克服了度量单位被平方的不足,运用较方便,是常用的离散性指标。方差和标准差适用于正态分布或近似正态分布的资料。,标准差的用途,(1),描述变异程度。,标准差表示一组变量值的离散度大小,其大小受每一个观察值的影响。标准差大,说明观察值的变异度大,即各观察值离均数较远,均数的代表性较差;反之,标准差小,则变异程度小,均数代表性较好。标准差常与算术均数结合,通常写成均数,标准差,形式,综合描述正态分布资料的分布特征。,(2),计算变异系数。,若比较单位不同或均数相差悬殊的几组资料的变异度,需根据标准差计算变异系数。,(3),描述正态分布和制定医学参考值范围,,详见第三章第四节。,(4),结合样本含量,n,计算标准误,,详见第四章第一节。,4.变异系数【coefricient of variation,CV),是一组变量值的标准差与算术均数之比,用,CV,表示,通常为百分数形式。它常用于比较单位,(,量纲,),不同或均数相差悬殊的两组或多组资料的变异度,计算公式为:,CV,与变异程度,(,离散性,),呈正比,即变异系数大,表示离散性大;反之,则离散性小。,CV,的应用主要包括:,比较度量单位不同,(,如身高,cm,与体重,kg),的几组资料的离散性。,比较均数相差悬殊,(,如儿童身高与成人身高,),的几组资料的离散性。,比较实验指标的稳定性及测定方法的精密度,如果实验稳定性和精密度较好,则指标数据的,CV,应较小;反之则大。,由此可见,CV,对于改进实验方法,选择最佳实验仪器、实验对象、实验指标等,都具有一定的实际意义。,5.应用离散趋势指标的注意事项,1),极差的优点是适合于任何分布的资料,且计算简便;缺点是容易受个别极端值的影响,结果不稳定,只能用于资料的粗略分析和小样本数据。,2),四分位数间距适合于任何分布的资料,计算结果比极差稳定,适用于大样本偏态分布的资料。,3),方差与标准差属同类指标,但标准差与均数的单位相同,适合于均匀分布或近似正态分布的资料,且大样本、小样本均可,故为统计分析中最常用的变异指标。,4),变异系数主要用于不同类型观察指标,或同类型观察指标但均数相差悬殊时变异程度的比较。在评价仪器测量精度或稳定性时,也常用变异系数。,第三节分类资料的统计描述,分类资料是按研究对象的名义、类别或性质清点数目而得,常见的数据形式是绝对数(absolute number)。,绝对数指标,又称总量指标,表示被描述对象的规模。广义的绝对数指标指总体变量值或标志值之和;狭义的绝对数指标通常指数值资料的合计值或分类资料的合计频数。绝对数指标的缺点是缺乏可比性。例如,甲、乙两个医院某病住院人数不同时,比较两医院该病的死亡人数没有意义,需要在绝对数的基础上计算相对数。,相对数(relative number),指标是两个有联系的绝对数指标数值之比形式表示。相对数指标从数量上反映两个相互关联现象之间的对比关系或联系强度,有助于分析和阐明研究现象的规律性。相对数的意义是将绝对数指标转换成基数相同的相对数指标(如每千人发病人数、每百例患者死亡人数等),以便相互比较。常用的相对数有,率、构成比和相对比,等比例指标。,一、分类资料的相对数描述指标,(一)率,率(rate)是反映某现象的强度、密度和普遍程度的指标,特点是比例基数较灵活。,比例基数的选择:一是根据习惯用法,如患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示等;二是使计算的结果能保留1-2 位整数,以便阅读。,注意:计算率时,分子必须是分母的一部分,而且通常先确定分母作为观察对象,然后再在一定条件下清点某现象的实际发生数,如阳性检出率、治愈率、病死率等。当分母较大时,比率近似等于概率。,【例2-15】某医院2005年在某社区调查全部成年居民1379例,体检发现高血脂症患者为341例,则该社区成年居民高血脂症患病率为:,341/1379X100%=24.73%。,1.发病率(incidence rate,IR),即在一定时期内,可能发生某病的人群中新发生某病的强度,可表示发病危险,常用于疾病危险因素的探讨和疾病防治效果的评价。计算公式为:,特殊情况下,要注意分母中“可能发生某病”的含义,是指对某种疾病具有发病风险者,而不包括不可能发生某病者。以计算麻疹发病率为例,由于麻疹基本为终生免疫,故在计算分母时,应除去已患过麻疹者。,2.患病率(prevalence rate,PR),又称为现患率,是指某时点上受检人数中现患某种疾病的频率,分为时点患病率(point prevalence rate)和期间患病率(period prevalence rate)。计算公式为:,与发病率分子的计算方法不同,患病率的分子中不仅包括某种疾病的新发病例(“新病例”),还包括原有病例(“旧病例”)。,3.死因别死亡率(cause-speciflc death rate,CSDR),又称某死因死亡率,是指由某种原因或疾病所导致的死亡率,主要用于死因分析,可反映各种病伤损害对居民生命健康的危害程度。计算公式为:,4.某病病死率(case fatality rate,CFR),是在特定时间内,(,通常为,1,年,),某病患者中因该病而死亡者所占的百分比,亦用于死因分析,一方面反映某种疾病的严重程度,另一方面反映医疗质量和水平。计算公式为:,(二)构成比,构成比,(proportion),又称百分比,(percentage),,用来说明事物内部各构成部分在整体中所占的比重。特点是以,100%,为比例基数,分子是分母的一部分,取值范围为,0,1,。计算公式为:,注意:构成比不能说明事物发生的频率或强度。,【例2-16】辨证治疗高血压病176例,其中肝阳上亢型45例,肝阳上亢型占高血压病5种中医辨证分型的构成比为45/176=25.57%。,率与构成比的区别,9/227,9/1045,(三)相对比,相对比,(relative ratio),是两个有关联的指标之比,特点是常以倍数或百分数表示。计算公式为:,式中,A、B分别表示两个总量指标。A和B可以是绝对数、相对数和平均数,其量纲可以相同,也可不同,但 A和B互不包含(如某人群中男女性别比)。,【例2-17】某医院用中西医结合疗法及西药疗法治疗脑梗死的病死率分别为7.43%和16.21%。则西药疗法的病死率为中西医结合疗法的2.18倍(16.21/7.43);或中西医结合疗法的病死率是西药疗法的45.84%。,(四)动态数列,动态数列,(dynamic series),是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数。,动态数列分析以相对比为基础,采用,定基比,和,环比,两种方式。常用指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。,通过动态数列分析,可描述事物在不同时间的发展状态,研究事物的发展趋势,揭示其发展变化的规律性,并对未来状态进行科学预测。,动态数列中各期指标的具体数据,称为动态数列发展水平。第一时期的数值称为最初水平,最后一期的数值称为最末水平,所研究的那一期的发展水平称为报告期水平,用作比较时期的发展水平称为基期水平。定基比即统一用某个时间的指标作为基数,其他各时间的指标与之相比;环比则以前一个时间的指标作为基数,与相邻的后一个时间的指标相比。,动态数列分析时应注意:同一时间数列中各项指标值应具备可比性。时间跨度或时间间隔应一致。总体范围大小应一致。指标的内容、含义和计算方法应统一。,1.绝对增长,说明事物在一定时期增长的绝对值,可分为:,(1)累计增长量:,即报告期指标的水平与基期水平之差。本例以 1995 年糖尿病患者人数为基数,计算各报告年糖尿病患者人数的累计增长量,见表 2-9 第(4)栏数据。,(2)逐年增长量:,即报告期指标与前一期指标之差。本例见表2-9第(5)栏中的数据。,2.发展速度与增长速度发展速度,表示数列中报告期指标的水平与基期水平之比,表明事物发展变化的程度;增长速度又称增长率,是增长量与基期水平之比,表明事物发展变化的增减比率。由于增长量有累计增长量和逐年增长量之分,所以发展速度和增长速度也有定基比和环比两种。计算公式为:,3.平均发展速度和平均增长速度,平均发展速度是各环比发展速度的几何平均数,反映事物在一个较长时期中逐年平均发展变化的程度;平均增长速度则是各环比增长速度的平均数,表示事物在一个较长时期中逐年平均增长的程度。计算公式为:,动态数列不仅可反映事物过去的发展规律,而且可预测其未来的发生情况,即根据平均发展速度公式估计几年后达到的某指标水平。,如,【,例,2-18】,中,若未来发展速度与现有平均发展速度(,106.5%,)相同,则可预计,2006,年该地糖尿病患者的人数,,2006,年相当于,a11,,将已知数据代人式,(2-30),得,a11=(106.5%),11,X300=601,人,即估计到,2006,年糖尿病患者人数将达到,601,人。,(五)应用注意事项,1.计算相对数应有足够数量,即分母不宜过小,一般来说,样本数量较多,计算的相对数可靠性也较大。当观察例数很少时(,n30例,)会使相对数波动较大,不宜计算率。,在临床试验中,各种偶然因素都可能导致计算结果的较大变化,因此例数很少的情况下最好用绝对数直接表示;否则,应同时写出其置信区间。,2.正确区分率和构成比,构成比只能说明某事物内部各组成部分的比重或分布,不能说明该事物某一部分发生的强度与频率。,构成比与率的区别在于:,构成比是对已有的观察结果分类。,例如,某医院对胃溃疡住院病人的职业按工人、农民、干部和军人进行分析,得出工人患病率高、干部患病率低的结论是错误的,因为此时只能得出职业所占的构成比。,率则是在未知观察结果的情况下先确定观察对象。,例如,将观察对象先按职业分组,然后统计有无胃溃疡,计算出工人的患病率、农民患病率、干部的患病率、军人的患病率。,3.正确计算合计率,对分组资料计算合计率或称平均率时,不能简单地由各组率相加或平均而得,而应是各组分子之和与各组分母之和的比。,例如,用某疗法治疗肝炎,甲医院治疗 150例,治愈30例,治愈率为20%。乙医院治疗100例,治愈30例,治愈率为30%。两个医院合计治愈率应该是(30+30)/(150+100)x100%=24%。若计算为20%+30%=50%或(20%+30%)/2=25%,则是错的。,4.资料的可比性,在比较相对数时,除了要对比的因素(如不同的药物),其余的影响因素应尽可能相同或相近。遵循均衡和随机原则是资料可比性的重要保证。下列因素可能影响对比组之间的可比性:,(l)观察对象是否同质:,研究方法是否相同,观察时间是否相等,地区、周围环境、风俗习惯和经济条件是否一致或相近等。,(2),观察对象内部结构是否相同:,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率,(,合计率,),进行标准化后再作比较,(,参见本节“率的标准化”,),。,(3),不同时期的资料客观条件是否相同:,例如,在比较两组病人的治愈率时,应检查各病例诊断标准是否一致等;居民因医疗普及,就诊机会增加,或诊断技术提高,也会引起发病率“升高”。因此在分析讨论时,应根据各方面情形全面考虑,慎重对待。,5.样本率(或构成比)的抽样误差,不能仅凭数字表面相差大小下结论,应进行样本率(或构成比)差别的假设检验。,二、率的标准化,(一)标准化法的概念和基本思想,1.概念,标准化法(standardization method)是对内部构成不同的两个或多个率进行比较的方法。,当比较两个或多个频率指标时,若对象的内部构成(如年龄、性别等)存在明显差异,且足以影响结论,应当使用率的标准化法消除该影响后再作对比。,2.基本思想,指定一个统一的“标准”,(如标准人口构成比或标准人口数),按指定“标准”重新计算得出的相应的频率称为标准化率(standardized rate),也称调整率(adjusted rate)。,由于采用了统一的标准,消除了内部构成不同对总率的影响,使所得的标准化率之间具备可比性。,(二)计算方法,一般分为直接标准化法和间接标准化法两种。,总的看来,两地区均呈年龄越大食管癌死亡率越高的趋势。从各年龄组食管癌死亡率来看,甲地区均高于乙地区,或与之相等;但总的死亡率却是乙地区,(22.47/10,万,),高于甲地区,(9.57/10,万,),。,造成该矛盾的原因在于两地区人口的年龄分布不同。甲地区的人口中,50,岁以上者占,28.06%,,而乙地区则占,60.00%,,即乙地区食管癌死亡率高的人口所占比重较大,相应的死亡人数较多,从而增加了该地区的食管癌死亡人数。这种食管癌死亡率的增高是由年龄构成不同造成的。,如何消除年龄构成差异的影响呢?,可使用率的标准化法。,1.,直接标准化,此法是利用标准人口构成(即同一人口年龄构成)与两组资料实际各年龄别死亡率计算调整死亡率,适用于数据完整准确的资料。当已知各年龄别的死亡率和标准人口构成时,可用该法。,本例已知两地区各年龄组的人口数,可用其合并的人口数作为共同标准人口,见表,2-10,中第,(2),栏。标准化率的具体计算步骤如下:,(1),用各年龄组标准人口数乘以甲、乙两地区原来相应年龄组的死亡率,得出两地区各年龄组的预期死亡数,见表,2-11,中第,(4),栏和第,(6),栏。,(2),分别把两地区各年龄组的预期死亡数相加,得到的预期总死亡人数,将预期总死亡人数除以标准总人口数,即得标准化死亡率。如:,甲地区标准化死亡率为:,493.5/2890000=17.08/10,万,乙地区标准化死亡率为:,461/2890000=15.95/10,万,标准化后,消除了两地区年龄构成差异的影响,得到甲地区食管癌标准化死亡率略高于乙地区。,2.间接标准化法,此法是用标准年龄别死亡率与两组资料各年龄别人口数计算标准化死亡率。若已知各年龄别人口数和总死亡数,同时有标准人口各年龄别死亡率和总死亡率时,可用该法。,仍以表2-10 资料为例,若仅知甲、乙两地区各年龄别人口数和食管癌的总死亡数分别为133和337,现以2006 年某地区食管癌年龄别死亡率作为标准,标准化率的计算步骤如下:,(1)用标准人口年龄别食管癌死亡率分别乘以两地区相应年龄组的人口数,得到各年龄组的预期死亡人数,见表2-12中第(4)栏和第(6)栏。,(2),将两地区各年龄组的预期死亡人数分别相加,得到各自预期总死亡人数。,(3),分别计算两地区的标准化死亡比,(standard mortality ratio,SMR),和标准化死亡率。,甲地区食管癌标准化死亡比:,SMR,甲,=133/129=1.03,甲地区食管癌标准化死亡率:,P,甲,=(8.32/10,万,)x1.03=8.57/10,万,乙地区食管癌标准化死亡比:,SMR,乙,=337/330=1.02,乙地区食管癌标准化死亡率:,P,乙,=(8.32/10,万,)X0.97=8.07/10,万,(三)应用注意事项,1.标准化法的适用条件,标准化法适用于各比较组的内部构成(如性别构成、职业分布等)不同,并可能影响各组总率(如死亡率、发病率、患病率等)比较的情况。,2.选定标准组,要选择通用的、数量较大的、有代表性的、较稳定的人群作为标准组,通常有以下三种方法:,1)在相互比较的两组(或多组)资料中,一般选择人数较多的一组的人口年龄构成或年龄别死亡率作为标准。,2)将两比较组(或多组)的各年龄别人口数合并后组成的新的人口年龄构成作为标准。,3)选用一个除各比较组之外的、通用的、有代表性的人群的年龄别人口数(或年龄构成)或年龄别死亡率作为标准,如采用世界的、全国的、全省的或全地区的人口数据作为标准。,3.选择的标准人口不同算出的标准化率也不同,不同的标准人口意味着不同的参照标准,因此,当比较几个标准化率时,应采用同一标准人口。,4.标准化率表示的是各比较组的相对水平,例如,比较甲、乙两地食管癌死亡率时,经过标准化后的死亡率,已不是两地当时实际的食管癌死亡水平,但它能够说明在统一标准下,两地区食管癌死亡率水平谁高谁低。,5.两样本标准化率的比较应作假设检验,标准化法一般用于对总体的标准化和比较,此时可用标准化率直接比较大小。若是对样本资料进行标准化,其标准化率或标准化死亡比并不能直接比较,还应作假设检验。,第四节 统计表和统计图,一、统计表,在科研或临床工作中,将统计分析的事物及指标用表格的形式列出称为统计表(statistical table)。,广义上的统计表包括原始资料调查表、整理资料表、统计资料计算用表及表达结果的统计表。狭义上的统计表特指表达统计结果的统计表。,本节主要介绍的是,统计结果表的结构和要求,。,(一)统计表概述,1.统计表的意义,统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。,在统计描述过程中,统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。,在学术报告和论文中常用统计表代替冗长的文字叙述,,表达主要研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。,2.,统计表的基本格式,统计表的基本格式为三条线,(,顶线、标目线、底线,),、三部分,(,标题、标目、数字,),,具有如此基本格式的表格通常简称为,“三线”表格,,见表,2-13,3.统计表的基本结构包括:,表号,标题,标目,线条,数字,备注,4.统计表的种类:,可分为简单表和组合表。,(1)简单表(simple table):,只按一个标志(或特征)分组。,(2),组合表(,combinative table,):,又称复合表,是按两个或两个以上的标志或特征结合分组。表,2-15,是按性别、病程、年龄、突出部位、外伤史和直腿抬高试验等,6,个标志,(,纵标目,),分为治疗组和对照组,进行治疗前的组间基线资料,(baseline data),分析。,(二)制表的原则和基本要求,1.制表的原则,(1)简单明了:,指文字、数字和线条都尽量从简,使人一目了然。每张表都要有自明性,即表格应有相对的独立性,单看表即可了解表格的内容与意义。,(2)层次清楚:,指表的内容要按照逻辑顺序合理安排,主语、谓语划分清楚。,主语是被说明的事物,一般置于表的左栏(横标目),谓语是说明主语的指标,应置于表的右方(纵标目),由左向右阅读表格时能构成一个完整的语句,。,2.制表的基本要求,(1)表号:,亦称表序,位于顶线上方、标题的左侧,与标题之间空 2 个字符,以阿拉伯数字表示。,(2)标题,:简明扼要地说明表的内容,必要时注明时间和地点,写在表的上端。不能因为上下文中有所述及而过于简略甚至把标题省略,也要避免标题过于繁琐及标题不确切。,(3)标目:,分为纵标目与横标目。横标目表示相应的行的内容,纵标目表示相应一列(或数列)的内容。横标目是统计表的主语,指被观察的对象,通常列在表的左侧。,纵标目是统计表的谓语,说明主语的各项指标,,通常,列在表的右侧。一般要求主语和谓语连贯起来能成为一句完整通顺的话。,标目要求文字简明,层次清楚,一张表内不要安排过多的标目。有单位的标目应注明单位。,(4),线条:,不宜过多,除顶线、底线及纵标目下面与合计行上面的横线外,其余线条一般均省去,表的左上角不应有斜线。顶线、底线应加粗,(1.5,磅,),,标目线采用默认粗细,(0.5,磅,),,组合表可在标目线上出现小标目线。,(5),数字:,表内数字一律用阿拉伯数字,同一指标的小数位数应一致,位次对齐。表内不宜留有空格,暂缺或未记录可用“,”,表示,无数字可用“,-”,表示,数字若是,0,则填写,0,。,(6),备注:,一般不列入表内,必要时可用“*”号标出,写在表的下面。,表2-16是表达中药治疗不同性别慢性便秘患者的临床疗效。其缺点是:,标题过于简单,,不能概括出表的中心内容,,横标目与纵标目排列不妥当,,表内不宜留有空格,数字若为“0”的则填写“0,且应避免出现竖线。修改后见表2-17,二、统计图,统计图,(statistical graph),是用点的位置、线段的升降、直条的长短或面积的大小等表达统计资料的一种形式。它在揭示各种现象间的数量差别和相互关系、说明研究对象内部构成和动态变化、表达地区分布等方面,具有简明清晰、形象直观、易为人理解等优点,必要时可与统计表同时应用。,(一)常用统计图的种类、绘制及应用,常用的统计图有条图、线图、百分条图、圆图和直方图等。使用计算机与相应的软件,(,如,Excel,,,SPSS),可以方便地绘制出各种统计图。各种统计图的应用条件及绘制方法不完全相同,应依据资料的性质及分析目的,选择合适的图形。,1.,条图(,bar graph),以等宽直条的长度表示各指标的数量大小,适用于性质相似的不连续性资料的比较。常用条图有单式,(,图,2-6),和复式,(,图,2-7),两种。绘制方法是:,(1),以横轴为基线,表示观察的指标,,纵轴表示其数值。,(2),尺度必须从零开始,,绝对不能用折断的尺度,因为折断的尺度会改变长条间正确的比例关系,易造成误导。,(3),各直条或各组直条间距应相等,其宽度为直条宽度的一半或等宽。,(4),为了使用方便,一般将被比较的指标由大到小排列。,2.线图(line graph),用线段的上升和下降来表示事物在时间上的变化,或一现象随另一现象变化的情况,适用于连续性资料。绘制方法是:,(l)横轴表示时间或自变量,纵轴表示频数、应变量或某种率。,(2)纵轴的起点一般从零点开始,尺度必须等距。如图2-8,以横轴表示年份,纵轴表示疾病的死亡率。相邻两点用直线连接,形成两条连续性曲线,反映随着年份的变化,传染病和恶性肿瘤病死率的变化趋势。,(3)同一图内线条不宜过多。如有几条线可用不同图线(实线、虚线等)表示,并在图中标出图例。,3.百分条圈(percent bar graph),以长条的面积为100%,以长条内各段的面积表示事物各组成部分所占的比重。适用于表示计数资料的内部构成。其绘制方法是:,(1)绘一长条,在长条的上方或下方绘一与长条平行并等长的标尺,尺度由0至1.00。,(2)按各组成部分所占百分比,由大到小或白然顺序把长条分成相应的部分。,(3)各部分用简单的文字、不同的颜色或线条表示,并注明所占百分比,以表2-17的数据为例,作图2-9。,4.圆图(circle graph),以圆的面积为100%,圆内各扇形面积为各组成部分所占百分比,其用途与百分条图相同。绘制方法如下:,(1)画一圆形,将各类构成百分比分别乘以3.6度,得到圆心角度数,再用量角器量出,绘成扇形。,(2)一般从相当于时钟12点为起点,顺时针方向排列。,(3)圆中各扇形部分注明简要文字或百分比,也可在圆形外部标明图例。,(4)标题中注明总例数。,(5)如有两种或两种以上的性质相同的资料进行比较,应绘制同等大小的圆形,且圆中扇形排列次序一致。以表 2-17的数据为例,作图2-10。,5.直方图(histogram),以长方形面积代表数量,用于表示连续性训量资料的频数分布情况。通常在编制频数分布表的基础上绘制频数分布图即成直方图。绘制方法是:,(1)纵轴尺度表示频数,应从零开始,横轴尺度表示度量值。,(2)在横轴上标明各组段的下限,在各组段上做高度等于频数的直条。,(3)各直条间不留空隙,即成直方图。,如根据表2-1的资料绘制成图2-1。,若组距不等(如表2-6年龄为不等组距),在绘制直方图时,,各组段的高度应进行等组距变换,,即以该组段的频数除以该组的组距所得的商作为该组直条的高,组距为该直条的宽。如表2-6 中,“1
展开阅读全文