1、第第 三三 章章 卫生统计方法卫生统计方法第一节第一节 概概 述述 一、卫生统计方法的定义和内容一、卫生统计方法的定义和内容 (一)卫生统计方法的定义(一)卫生统计方法的定义 卫生统计方法是应用数理统计的原理与方法,研卫生统计方法是应用数理统计的原理与方法,研究居民健康状况以及卫生服务领域中数据的搜集、究居民健康状况以及卫生服务领域中数据的搜集、整理与分析的一种科学方法。整理与分析的一种科学方法。(二)卫生统计方法的内容(二)卫生统计方法的内容 1、卫生统计方法的基本原理和方法、卫生统计方法的基本原理和方法 (1)统计设计、搜集资料、整理资料的方法)统计设计、搜集资料、整理资料的方法 (2)对
2、资料的数量特征、分布规律进行测定和描述)对资料的数量特征、分布规律进行测定和描述 的方法的方法 (3)根据研究目的和资料性质,用样本信息推断总体)根据研究目的和资料性质,用样本信息推断总体特征的方法特征的方法 2、居民健康统计、居民健康统计 (1)研究人口数量、人口构成以及出生统计、死亡统)研究人口数量、人口构成以及出生统计、死亡统计、计划生育统计的医学人口统计计、计划生育统计的医学人口统计 (2)研究疾病在人群中发生、发展和流行情况的疾病)研究疾病在人群中发生、发展和流行情况的疾病统计统计 (3)研究人群生长发育水平的生长发育统计)研究人群生长发育水平的生长发育统计 3、卫生服务统计、卫生服
3、务统计 卫生资源利用、卫生服务供给及卫生服务需求方面卫生资源利用、卫生服务供给及卫生服务需求方面的统计工作的统计工作二、统计工作的步骤二、统计工作的步骤 统计工作的基本步骤包括:统计设计、搜集资料、整理统计工作的基本步骤包括:统计设计、搜集资料、整理 资料、分析资料,这四个步骤是紧密联系,前呼后应资料、分析资料,这四个步骤是紧密联系,前呼后应,不可不可 分割的整体。分割的整体。(一)统计设计(一)统计设计 根据研究目的,从统计学的角度对搜集资料、整理资料根据研究目的,从统计学的角度对搜集资料、整理资料和分析资料提出周密的计划和要求。和分析资料提出周密的计划和要求。统计设计的要求:科学、周密、简
4、明。统计设计的要求:科学、周密、简明。(二)搜集资料(二)搜集资料 根据统计设计的要求,完整、准确、及时地取得原始资根据统计设计的要求,完整、准确、及时地取得原始资 料的过程。料的过程。1、经常性资料:病历、出生报告卡、疫情月报表、经常性资料:病历、出生报告卡、疫情月报表 2、一时性资料:现场调查、实验研究搜集的资料、一时性资料:现场调查、实验研究搜集的资料(三)整理资料(三)整理资料 根据统计设计的要求,把搜集到的原始资料按性质或根据统计设计的要求,把搜集到的原始资料按性质或按数量特征进行科学整理,使杂乱无章的资料系统化、条按数量特征进行科学整理,使杂乱无章的资料系统化、条理化,便于进一步计
5、算统计指标和分析。理化,便于进一步计算统计指标和分析。1、核查资料、核查资料 2、设计分组、设计分组 (1)类型分组:)类型分组:将观察单位按其属性或类别(如性别将观察单位按其属性或类别(如性别职业、疾病分类、婚姻状况等)归类分组职业、疾病分类、婚姻状况等)归类分组 (2)数量分组:将观察单位数值大小(如年龄大小、)数量分组:将观察单位数值大小(如年龄大小、血压高低等)分组血压高低等)分组 两种分组往往结合使用,一般是在类型分组基础上进两种分组往往结合使用,一般是在类型分组基础上进行数量分组。如先按性别分组,再按身高的数值大小分组行数量分组。如先按性别分组,再按身高的数值大小分组 3、拟订整理
6、表、拟订整理表:尽量把关系密切的项目放在一个表:尽量把关系密切的项目放在一个表内,以便呈现固有的规律性。内,以便呈现固有的规律性。4、归组汇总:按分组要求,将原始资料归入相应各组、归组汇总:按分组要求,将原始资料归入相应各组(四)分析资料(四)分析资料 按设计的要求,根据研究目的和资料的类型,对整按设计的要求,根据研究目的和资料的类型,对整理出的数据作进一步的计算分析和统计处理,阐明事物理出的数据作进一步的计算分析和统计处理,阐明事物的内在联系和规律。的内在联系和规律。1、统计描述:指用描述性指标、统计表、统计图等、统计描述:指用描述性指标、统计表、统计图等方法,对资料的数量特征和分布规律进行
7、测定和描述。方法,对资料的数量特征和分布规律进行测定和描述。2、统计推断:指如何抽样,以及如何由样本信息推、统计推断:指如何抽样,以及如何由样本信息推断总体特征,包括参数估计和假设检验。断总体特征,包括参数估计和假设检验。注意:资料的类型不同、分析的目的不同,注意:资料的类型不同、分析的目的不同,使用的统计方法不同。使用的统计方法不同。三、统计中的几个基本概念三、统计中的几个基本概念(一)(一)同质与变异同质与变异同质:是指被研究指标的影响因素相同。同质:是指被研究指标的影响因素相同。实际工作中实际工作中,同质是相对的。,同质是相对的。变异:同质的基础上的各观察单位(个体)之变异:同质的基础上
8、的各观察单位(个体)之间的差异。间的差异。统计工作的目的是在同质分组的基础上,统计工作的目的是在同质分组的基础上,通过对变异的研究发现同质事物的本质特征和通过对变异的研究发现同质事物的本质特征和规律。规律。(二)总体与样本(二)总体与样本 总体:根据总体:根据研究目的研究目的确定的确定的同质同质观察单位观察单位 的的全体全体称为总体称为总体 。是同质的所有观。是同质的所有观 察单位某种变量值的集合。察单位某种变量值的集合。同质是有条件的同质是有条件的 样本样本随机化随机化总体总体样本:从总体中样本:从总体中随机随机抽取抽取部分部分观察单位,其变量观察单位,其变量 值的集合值的集合应注意以下几点
9、应注意以下几点1、对总体要有明确的限定。、对总体要有明确的限定。2、总体内所有观察单位必须是同质的。、总体内所有观察单位必须是同质的。3、抽取样本的过程中,必须遵循随机化原则,、抽取样本的过程中,必须遵循随机化原则,即即 要确保总体中的每一个观察单位都有同等的机会要确保总体中的每一个观察单位都有同等的机会 被抽到。被抽到。4、样本要有一定的含量。、样本要有一定的含量。(三)参数与统计量(三)参数与统计量参数:描述总体特征的指标参数:描述总体特征的指标 总体均数(总体均数()总体标准差(总体标准差()总体率(总体率()统计量:统计量:描述样本特征的指标描述样本特征的指标 样本均数(样本均数(x
10、x)样本标准差()样本标准差(s s)样本率()样本率(p p)注意:参数是事物本身固有的、不变的,统计量会随样本注意:参数是事物本身固有的、不变的,统计量会随样本的不同而不同,但统计量的分布是有规律。的不同而不同,但统计量的分布是有规律。(四)误差(四)误差误差是实测值与真值之差或样本指标与总体指误差是实测值与真值之差或样本指标与总体指标之差。标之差。误差误差 系统误差系统误差 随机测量误差随机测量误差 抽样误差抽样误差(五)概率(五)概率 概率:是描述随机事件发生可能性大小的概率:是描述随机事件发生可能性大小的 一个度量,常用一个度量,常用P表示表示。0P1 必然事件必然事件 不可能事件不
11、可能事件 随机事件随机事件 事件分类事件分类 P=0 P=1 0P1小概率事件小概率事件 习惯上将习惯上将P0.05或或P0.01的事件称为小的事件称为小概率事件。概率事件。小概率事件小概率事件几乎不可几乎不可 能发生能发生四、统计资料的类型四、统计资料的类型 变量:被观察单位的变量:被观察单位的某种某种特征称为变量特征称为变量 被观察对象的被观察对象的性别、种族、年龄、性别、种族、年龄、文化、体重、血压等文化、体重、血压等变量分类变量分类数值变量数值变量分类变量分类变量无序分类无序分类有序分类有序分类二项分类二项分类多项分类多项分类不同类型资料可以互相转化不同类型资料可以互相转化数值变量资料
12、常用平均数、标准差、标准误等指标描述,数值变量资料常用平均数、标准差、标准误等指标描述,用用t检验,方差分析、相关和回归等方法比较和分析检验,方差分析、相关和回归等方法比较和分析分类变量资料常用率、构成比、相对比等指标描述分类变量资料常用率、构成比、相对比等指标描述用用u检验,卡方检验、等级相关等方法比较和分析检验,卡方检验、等级相关等方法比较和分析注注 意意住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局20256552025655272716516571.571.55 5无无中学中学顺产顺产足月足月2025653202565322
13、2216016074.074.05 5无无小学小学助产助产足月足月20258302025830252515815868.068.06 6管理员管理员大学大学顺产顺产足月足月20225432022543232316116169.069.05 5无无中学中学剖宫产剖宫产足月足月20224662022466252515915962.062.01111商业商业中学中学剖宫产剖宫产足月足月20245352024535272715715768.068.02 2无无小学小学顺产顺产早产早产20258342025834202015815866.066.04 4无无中学中学助产助产早产早产20194642019
14、464242415815870.570.53 3无无中学中学助产助产足月足月20257832025783292915415457.057.07 7干部干部中学中学剖宫产剖宫产足月足月数值变量数值变量分类变量分类变量观观察察单单位位变变量量160.9 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4134.
15、7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5
16、 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4151.1 144.
17、0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4134.7 147.3 138
18、.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7125.9 132.7 152.9 14
19、7.9 141.8 141.4 140.9 141.4 146.7 138.7第二节第二节 数值变量资料的统计描述数值变量资料的统计描述一、数值变量资料的频数分布一、数值变量资料的频数分布(一)频数表(一)频数表 观测值在其取值范围内,在各组段的分布情况表。观测值在其取值范围内,在各组段的分布情况表。表表1 1 某年某市某年某市120120名名1212岁健康男孩身高(岁健康男孩身高(cmcm)测量资料)测量资料 制作频数表的具体步骤制作频数表的具体步骤(1)计算全距)计算全距(R)观察值中最大值与最小值之差)观察值中最大值与最小值之差 R=160.9125.9=35.0(cm)(2)确定组段数
20、和组距)确定组段数和组距 组段组段(k)一般为一般为1015个个组距(组距(i)=全距(全距(R)/组段数(组段数(k)=R/10=35.0/10=3.5(cm)4cm(3)划分组段划分组段 将观察值依次划分为若干个段落称将观察值依次划分为若干个段落称 为组段。用各组段的下限及为组段。用各组段的下限及“”(4)列表归组列表归组 用划记法将各个观测值归入各组段用划记法将各个观测值归入各组段 各组段的观察单位数,即频数(各组段的观察单位数,即频数(f)149149 1111 125125 1 1137137 2828合计合计 120120157157161 1161 1141141 3535 12
21、9129 4 4133133 9 9145145 2727153153 4 4 表表2 2 某年某市某年某市120120名名1212岁健康男孩身高(岁健康男孩身高(cmcm)资料频数分布)资料频数分布 组段(组段(1 1)划记(划记(2 2)频数(频数(3 3)频数分频数分布特征布特征 集中趋势集中趋势 离散趋势离散趋势 频数分频数分布类型布类型 对称分布对称分布 偏态分布偏态分布 正偏态分布正偏态分布 负偏态分布负偏态分布*频数表的用途频数表的用途 1、频数表可揭示资料频数的分布类型。、频数表可揭示资料频数的分布类型。2、从频数表可以看出数值变量资料频数分布的两个重、从频数表可以看出数值变量
22、资料频数分布的两个重 要特征:集中趋势和离散趋势。要特征:集中趋势和离散趋势。3、频数表便于发现某些特大或特小的可疑值。需对原、频数表便于发现某些特大或特小的可疑值。需对原 始资料进一步核查,如存在错误,及时纠正。始资料进一步核查,如存在错误,及时纠正。4、频数表便于进一步计算统计指标和分析处理。频数表便于进一步计算统计指标和分析处理。二、集中趋势指标二、集中趋势指标集中趋势指标又称平均数,常用于描述一组观测值的集中趋势指标又称平均数,常用于描述一组观测值的集中位置,代表平均水平,可用于组间的分析比较。集中位置,代表平均水平,可用于组间的分析比较。(一)算术均数(一)算术均数 简称均数简称均数
23、,一组观察值在数值上,一组观察值在数值上 的平均水平。的平均水平。(1)表示符号:总体均数用希腊字母)表示符号:总体均数用希腊字母 样本均数用拉丁字母样本均数用拉丁字母x(2)适用条件:适用于观察值呈正态分布或)适用条件:适用于观察值呈正态分布或 近似正态分布的数值变量资料近似正态分布的数值变量资料(3)计算方法:)计算方法:直接法直接法 将所有观察值直接相加,再除以观察值的个数将所有观察值直接相加,再除以观察值的个数 加权法加权法(二)(二)几何均数几何均数 ()表示符号:()表示符号:G()适用条件:适用于观察值呈对数正态分布()适用条件:适用于观察值呈对数正态分布 或观察值为等比数列的资
24、料或观察值为等比数列的资料(3)计算方法:)计算方法:直接法直接法 加权法加权法 注意注意:(1)计算几何均数,观察值计算几何均数,观察值 中不能有中不能有 0,0 不不 能取对数能取对数 (2)不能同时有正值和负值)不能同时有正值和负值 (3)几何均数小于均数,)几何均数小于均数,G X (三)中位数和百分位数(三)中位数和百分位数)表示符号:)表示符号:(1)中位数)中位数 将一组观察值从小到大排列,位居中间的观察值将一组观察值从小到大排列,位居中间的观察值)适用条件:)适用条件:适用于偏态分布资料;一端或两端无界资料,即开适用于偏态分布资料;一端或两端无界资料,即开 口资料;频数资料分布
25、不明的资料口资料;频数资料分布不明的资料 3)计算方法:)计算方法:直接法直接法 n 为为 奇数奇数 n 为为 偶数偶数频数表法频数表法 (三)中位数和百分位数(三)中位数和百分位数)表示符号:)表示符号:xP5 P25 P75 P95(2)百分位数)百分位数)适用条件:常用于一组偏态分布资料在某百分)适用条件:常用于一组偏态分布资料在某百分 位置上的水平和确定医学参考值范围位置上的水平和确定医学参考值范围。3)计算方法:)计算方法:三三 、离散趋势的描述、离散趋势的描述 离散趋势指标又称变异程度指标,反映个观察值之间参差离散趋势指标又称变异程度指标,反映个观察值之间参差 不齐的程度。不齐的程
26、度。(一)(一)极差:又称全距,是一组观察值中最大值与最小值极差:又称全距,是一组观察值中最大值与最小值之差,用符号之差,用符号R R 表示。表示。(二)方差:总体内每个观察值(二)方差:总体内每个观察值X X与总体均数与总体均数u u的距离都影的距离都影响着总体的离散趋势,总体中每个变量值响着总体的离散趋势,总体中每个变量值X X与总体均数与总体均数u u之差之差X-uX-u为离均差。将离均差平方和除以观察值的个数为离均差。将离均差平方和除以观察值的个数N,N,所得的所得的商为方差。商为方差。(三)标准差(三)标准差(1)表示符号:样本标准差用)表示符号:样本标准差用s表示,表示,总体标准差
27、用总体标准差用表示表示 三三 、离散趋势的描述、离散趋势的描述(2)计算方法:计算方法:直接法直接法 加权法加权法(3)标准差的应用)标准差的应用 1)衡量观察值的变异程度或离散趋势)衡量观察值的变异程度或离散趋势2)计算变异系数)计算变异系数 3)结合均数描述正态分布的特征,确定医)结合均数描述正态分布的特征,确定医 学参考值范围学参考值范围 4)结合样本含量计算标准误)结合样本含量计算标准误(四)(四)变异系数变异系数 变异系数变异系数 CV 标准差标准差 s 均数均数 x 变异系数常用于变异系数常用于 1、比较度量衡单位不同的变异程度、比较度量衡单位不同的变异程度 2、比较均数相差悬殊的
28、资料的变异程度、比较均数相差悬殊的资料的变异程度第三节第三节 正态分布及其应用正态分布及其应用一一、正态分布的概念和特征、正态分布的概念和特征(一)正态分布的概念(一)正态分布的概念:以均数为中心,左右对称:以均数为中心,左右对称的钟形分布。的钟形分布。正态曲线正态曲线:均数在中央,两侧完全对称,两端:均数在中央,两侧完全对称,两端 永远不与横轴相交的钟形曲线永远不与横轴相交的钟形曲线 (二)正态分布的特征(二)正态分布的特征 1、正态曲线在横轴上方均数处最高。、正态曲线在横轴上方均数处最高。2、正态分布以均数为中心,左右对称。、正态分布以均数为中心,左右对称。3、正态分布有两个参数,即均数、
29、正态分布有两个参数,即均数和标准差和标准差。是位置是位置参数,决定曲线的中心位置;参数,决定曲线的中心位置;是变异度参数决定曲线是变异度参数决定曲线的形态。通常用的形态。通常用N(,2)表示均数为表示均数为,方差为2的正态分的正态分布。布。*4、正态曲线下面积的分布有一定规律,把正态曲线与、正态曲线下面积的分布有一定规律,把正态曲线与横轴所夹的面积看作横轴所夹的面积看作1或或100%,则曲线下面积有如下分,则曲线下面积有如下分布规律。布规律。(1)1区间与横轴所夹的面积占总面积的68.27%(2)1.96区间与横轴所夹的面积占总面积的95.00%(3)2.58区间与横轴所夹的面积占总面积的99
30、.00%u分布分布:均数为均数为0、标准差为、标准差为1的标准正态分布的标准正态分布N(0,1)二二、正态分布的应用、正态分布的应用 1、估计正态分布资料的频数分布。、估计正态分布资料的频数分布。2、估计医学参考值范围。、估计医学参考值范围。双侧界值:双侧界值:Xus 单侧上界:单侧上界:X+us 单侧下界单侧下界:Xus 3、质量控制。、质量控制。上下警告线:上下警告线:X2s 上下控制线:上下控制线:X3s 4、正态分布是很多统计方法的理论基础。、正态分布是很多统计方法的理论基础。*小小 结结 1、掌握统计工作的基本步骤。、掌握统计工作的基本步骤。2、掌握统计中的几个基本概念。、掌握统计中的几个基本概念。3、掌握数值变量资料的统计描述。、掌握数值变量资料的统计描述。4、熟悉正态分布的特征和应用。、熟悉正态分布的特征和应用。