资源描述
公共卫生学院
ys 卫生统计学
卫生统计学
第一章 绪论
1、 卫生统计学的概念(P1)
卫生统计学是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学,是卫生及其相关领域研究中不可缺少的分析问题。
2、 卫生统计学的4个基本步骤(P3):
设计、收集资料、整理资料、分析资料
3、 卫生统计学的几个基本概念(P4):
⑴ 同质:在统计学中,若某些观察对象具有相同的特征或属性,我们就称
之为同质,或具有同质性。
⑵ 变异:同质个体的某项特征或属性的观察值或测量值之间的差异。
⑶ 总体:同质的所有观察单位某种特征或属性的观察值或测量值的集合。
⑷ 样本:从总体中随机抽取的具有代表性的部分观察单位的集合。样本中
包含的观察单位个数成为样本含量。
⑸ 参数:反映总体特征的指标,一般是未知的,常用希腊字母表示,如总
体均数μ、总体率π等。
⑹ 统计量:根据样本观察值计算出来的指标,常用拉丁字母表示,如样本
均数`x 、样本率r等。
⑺ 变量与资料:对每个观察单位进行观察或测量的某项特征或属性称为变
量;变量值的集合成为资料。
⑻ 定量资料:亦称计量资料,其变量值是定量的,表现为数值大小,一般
有度、量、衡单位。
⑼ 定性资料:亦称分类资料,其观察值是定性的,表现为互不相容的类别
或属性,一般无度、量、衡单位。可细分为:①计数资料;②等级资料
第二章 调查研究设计
★1、调查研究的特点(P7):
①不能人为施加干预措施;②不能随机分组;
③很难控制干扰因素;④一般不能下因果结论
2、常用抽样方法(名称、原理):
⑴单纯随机抽样:先将调查总体的全部观察单位统一编号,然后采用随机数字表、统计软件或抽签方法之一随机抽取n(样本大小)个编号,由这n个编号所对应的n个观察单位构成研究样本。
⑵系统抽样:又称机械抽样或等距抽样。事先将总体内全部观察单位按某一顺序号等距分成n(样本大小)个部分,每一部分内含m个观察单位;然后从第一部分开始,从中随机抽出第i号观察单位,依此用相等间隔m机械地在第2部分、第3部分直至第n部分内各抽出一个观察单位组成样本。
⑶分层抽样:先按对观察指标影响较大的某项或某几项特征,将总体分成若干层,该特征的测定值在层内变异较小,层间变异较大,然后分别从每一层内随机抽取一定数量的观察单位结合起来组成样本。
⑷整群抽样:将总体划分为群(初级观察单位),各群由次级观察单位组成,随机抽取一部分群,调查抽中群的全部次级观察单位。
第三章 实验设计
★1、实验设计的特点(注意与调查研究的特点的区别):
⑴研究者可人为设置处理因素;
⑵受试对象接受何种处理因素或处理因素的何种水平是随机的。
★2、实验设计的三要素、四原则:
⑴基本要素:①处理因素 ②受试对象 ③实验效应
⑵基本原则:①对照原则 ②随机原则 ③重复原则 ④均衡原则
4、 实验设计的基本步骤:
⑴ 明确实验目的; ⑵确定研究对象; ⑶确定可比的实验组和对照组;
⑷确定把受试对象分配到各处理组中的原则; ⑸确定样本含量;
⑹确定方法和指标; ⑺偏倚及其控制
5、常用的实验设计方案:主要掌握完全随机设计和配对设计。
第四章 定量资料的统计描述
★1、频数表的编制:①求极差 ②确定组数和组距(一般8~15组)
③确定组段(上限=下限+组距) ④归组计数,整理成表
★2、频数表的用途:
⑴ 揭示资料的频数分布特征和频数分布类型
①频数分布的特征:集中趋势和离散趋势 ;
②频数分布的类型: 对称分布和偏态分布(高峰位置偏向数值小的一侧——正/右偏态分布;高峰位置偏向数值大的一侧——负/左偏态分布)
⑵ 便于发现某些特大或特小的可疑值
⑶ 便于进一步计算指标和统计处理
3、连续型的定量资料,其频数图中各长方形是相连的,又称直方图;离散型的定量资料,其频数图是非连续的,其频数图中各长方形是又间隔的,称直条图。
4、定量资料集中趋势的描述,常用平均数——表达一组同质定量数据的平均水平或集中位置。(结合书本的例题加深理解)
⑴ 算术均数:适用于对称分布特别是正态分布资料;
⑵ 几何均数:适用于①对数正态分布 ②等比级数资料;观察值中不能有0
⑶ 中位数:是一种位置平均数,适用于偏态分布资料、 一端或两端无确切值、 总体分布不明的资料;
百分位数:一组数据某一百分位置的水平;确定非正态分布资料的医学参考值范围。
平均数 意义 应用场合
均数 平均数量水平 对称分布,尤其正态分布
几何均数 平均增减倍数 等比、对数正态分布
中位数 位次居中的观察值水平 偏态、分布不明确、分布末端无确定值
5、离散趋势是频数分布的另一特征,反映了观察值之间的变异情况。
★6、正态分布的特征:
⑴ 正态曲线在横轴上方均数处最高;并以均数为中心,左右对称;两端与横轴永不相交,呈钟形的曲线。
⑵ 正态分布有两个参数,即位置参数μ和形状参数σ;σ固定不变时,μ越大,曲线沿横轴越向右移动;μ固定不变时,σ越大,曲线越平阔。
⑶ 正态曲线下面积的分布有一定的规律:
①正态曲线与横轴之间的面积恒等于1或100%;
②对称分布,对称轴两侧的面积各为50%;
③在(μ-σ,μ+σ)区间的面积为68.27%;
在(μ-1.96σ,μ+1.96σ)区间的面积为95.00%;
在(μ-2.58σ,μ+2.58σ)区间的面积为99.00%
7、医学参考值范围:
⑴正态分布法:适用于正态或近似正态分布的资料
双侧界值:
单侧界值:
参考值范围(%)
单侧
双侧
80
0.842
1.282
90
1.282
1.645
★95
★1.645
★1.960
99
2.326
2.576
常用z值表
⑵ 百分位数法:偏态分布资料以及资料中一端或两端无确切数值
双侧界值:P2.5~P97.5
单侧界值:上界为:P95
下界为:P5
第五章 定性资料的统计描述
1、常用相对数:
⑴率是指某现象实际发生数与可能发生某现象总数之比,用以说明某现象发生的频率或强度。常以百分率,千分率,万分率,十万分率等表示。
⑵构成比是事物内部某一观察单位数与事物内部各组成部分观察单位的总数之比,说明事物内部各部分所占的比重。常以百分数表示。
⑶相对比是两个有关的指标之比,用以描述两者的对比水平。两个指标可以是绝对数、相对数或平均数;可以性质相同,也可以性质不同。
★2、应用相对数注意的事项:
⑴ 计算相对数分母不宜过小;
⑵ 不能以构成比代替率。率反映事物发生的频率,构成比表示事物内部各组分所占的比重,二者性质不同。各个组成部分的构成比之和应为100%,事物内部各组成部分之间呈此消彼长的关系;
⑶计算合计率时,不能简单地相加求平均;
⑷ 率的比较时应注意可比性。
3、标准化法是在一个指定的标准构成条件下进行率的对比的方法。意义:用统一的“标准”消除资料由于内部构成不同而对所比较的总率产 生的影响。 标准化法的基本思想:确定一个标准的人口年龄构成,男、女人口都按该标准的人口年龄构成,计算年龄别发病情况,最后计算出男、女的合计发病率 。
4、应用标准化法应注意的问题:
⑴标准化率便于比较,但不能反映实际水平;
⑵ 比较几个标准化率时,应在采用同一标准标化的情况下进行;
⑶若各组间的率出现明显交叉时,不宜采用标准化法比较,可直接比较各组的率;
⑷两样本标化率的比较应作假设检验。
第六章 总体均数和总体率的估计
1、抽样误差:由抽样引起的样本统计量与总体参数间的差异称抽样误差。不可避免、可以控制。表现:样本统计量与总体参数之间的差异样本统计量之间的差异。产生原因:个体变异+抽样。
2、标准误:样本统计量的标准差称为标准误;样本均数的标准差称为均数的标准误。
均数的标准误表示样本均数的变异度 :
总体标准差未知时,用样本标准差代替:
★3、标准差与标准误的区别:
⑴标准差表示个体差异的大小;标准误描述样本均数的变异程度,说明抽样误差的大小。
⑵标准差描述资料的频数分布状况,可用于制定医学参考值范围;而标准误用于总体均数的区间估计和假设检验。
4、t分布的特征:
⑴以0为中心,左右对称;
⑵自由度ν 越小,t值越分散,曲线越平阔,尾部越高;
⑶当ν 趋于∞时, t分布逼近标准正态分布;
⑷t分布曲线下面积为1.
5、从界值表可看出:
(1)自由度ν 相同时,t界值越大其对应的P值越小
(2)概率P(或尾部面积)相等时,ν 越大,t 界值越小
(3)t 值相等时,双侧概率为单侧概率的两倍
(4) ν = ∞ 时,t 界值即为z 界值
6、总体均数可信区间的计算:
z分布法:
⑴当σ已知, 服从标准正态分布 ,则总体均数的双测
可信区间为:
⑵s未知但n足够大(n>50):
t分布法:当σ未知n 较小 :
7、常用单双侧u值
α 单侧 双侧
0.10 1.282 1.645
0.05 1.645 1.960
0.02 2.054 2.326
0.01 2.326 2.578
8、可信区间的涵义:从总体中作随机抽样,每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确。
可信区间的两个要素:一是准确度: 反映在可信度的大小
二是精密度: 反映在区间的长度
第七章 假设检验
★1、假设检验的基本思想:应用反证法和小概率原理,先对总体的参数或分布作出某种假设,再用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。
★2、假设检验的基本步骤:
⑴建立检验假设,确定检验水准
⑵选定检验方法和计算检验统计量
⑶确定P值,作出推断结论
★3、Ⅰ型错误与Ⅱ型错误:
Ⅰ型错误:拒绝了实际上成立的 ,犯“弃真”的错误。其概率大小用a 表示,a 可取单侧亦可取双侧。
Ⅱ型错误:不拒绝了实际上不成立的H0,犯“存伪”的错误。其概率大小用β表示。b 只取单侧,其大小一般未知,只有在已知两总体差值d,a 及 n 时,才能估算出来。
实际情况
检验结果
拒绝H0
不拒绝H0
成立
第一类错误(α)
结论正确(1-α)
不成立
结论正确(1-β)
第二类错误(β)
推断结论与两类错误
注:当样本含量固定时,α增大,β减小;反之亦然。
若欲同时减小α与β,则只有增加样本含量。
若重点减小Ⅰ型错误,α可取小一些,如α=0.01;
若重点减小Ⅱ型错误,α可取大一些,如α=0.1或α=0.2
★4、检验效能:若两总体确有差别,按照α水准能够发现这种差别的能力。 它的大小用(1-β)表示。
检验效能的影响因素:容许误差 δ、总体标准差 σ、Ⅰ型错误 α、样本含量n
★5、假设检验应注意的事项:
⑴ 应有严密的研究设计:总体中的每个研究个体应具有同质性、样本的获取必须遵循随机化原则、比较的组间应具有可比性。
⑵ 正确理解α水准和P值的意义:α是人为预先设定的一个概率值,可有多个 ; P是假定 成立,得到实际观测数据的可能性的大小 ,一个样本按某一方法只能得出一个。
⑶ 正确理解结论的统计学意义 。
⑷ 假设检验的结论不能绝对化。
第八章 t检验
★1、t 检验的适用条件:
⑴σ 未知; ⑵ n 较小(n<60);⑶样本来自正态总体;
⑷两样本所来自的总体方差齐,即
2、配对设计主要情况:(看书本例题)
①配对的两个受试对象分别接受两种处理
②同一样品用两种不同方法测量同一指标, 或接受不同处理
③同一受试对象处理前后的结果进比较
④同一对象的两个部位给予不同的处理
步骤:①建立检验假设,确定检验水准(差值的总体均数)
: :
②计算检验统计量 ν =n-1
③确定P值,作出统计推断
3、两样本均数的比较:(看书本例题)
⑴步骤:
①建立检验假设,确定检验水准
: :
②计算检验统计量
③确定P值,作出统计推断
⑵两独立样本资料的t 检验,又称成组t 检验,适用于完全随机设计的两样本均数的比较。
第九章 方差分析
1、方差分析的基本思想:根据资料的设计类型(即变异的不同来源),将全部观察值之间的变异(总变异)分解为两个或多个部分,除随机误差外其余每个部分的变异都可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断,以了解某因素对观察指标是否有影响或某因素是否有效应。
★2、方差分析的应用条件 :
⑴各样本须是相互独立的随机样本(独立性)
⑵各样本来自正态分布总体(正态性)
⑶ 各总体方差相等(方差齐性)
3、完全随机设计:又称成组设计。在实验研究中,按随机化原则将受试对象随机分配到某一研究因素的多个水平中去,然后观察实验效应;在调查研究中,按一个研究因素的不同水平分组,比较各组的效应。目的都是推断不同水平下各组均数之间的差别是否有统计学意义。
注:方差分析常用于三个及以上均数的比较,当用于两个均数的比较时,同一资料所得结果与t 检验等价,即F = t ²。
4、随机区组设计:又称配伍组设计,是配对设计的扩展。其设计方法是将全部受试对象按某种或某些特征分为若干个区组,使每个区组内研究对象的特征尽可能接近,然后分别使每个区组内的观察对象随机地接受研究因素某一水平的处理。
随机区组设计的方差分析:总变异= 处理组间变异+区组间变异+误差;
和完全随机设计的方差分析相比,误差减小了,检验效率提高了。
5、多个样本均数的两两比较:
⑴SNK-q检验,适用于探索性研究,对任意两个样本均数都进行检验。
⑵LSD-t检验,最小显著性差异检验,适用于某一对或某几对在专业上有特殊意义的均数间的比较,如多个处理组与对照组的比较,或某几个处理组间的比较,一般在设计阶段确定哪些均数需进行多重比较。
第十章 c2 检验
★1、c2 检验主要用途:
⑴推断两个或两个以上总体率(或构成比)之间有无差别
⑵两变量间有无相关关系(有无关联)
⑶检验频数分布的拟合优度
2、2×2表的卡方检验(会列表)
⑴完全随机设计c2 检验的注意事项:
当 n>40 且所有 T³5 时:
基本公式为:
专用公式为:
当 n³40 但有 1£T<5 时:
校正的基本公式为:
校正的基本公式为:
当n<40或T<1时,采用四格表确切概率法
⑵配对四格表资料 c2 检验的计算公式:
当 b+c≥40 时:
c2计算公式为:
当 b+c<40 :
校正c 2计算公式为:
3、行×列(R×C)表资料的 c2 检验:
★注意事项:⑴允许有不超过1/5的基本格子理论频数大于1小于5,但不能有理论频数小于1;
⑵如果有1/5以上格子的理论频数大于1小于5,或有1个格子的理论频数小于1,可采用以下处理方法:
①增加样本含量,可以增大理论频数;
②将理论频数太小的行或列与性质相近的邻行或邻列中的实际频数合并;
③删去理论频数太小的格子所对应的行或列。
第十一章 非参数检验
★1、参数检验与非参数检验的区别:
参数检验:已知总体分布类型,对未知参数(μ,π)进行统计推断;依赖于特定分布类型 ,比较的是参数。
非参数检验:不依赖总体分布类型,不针对总体参数;不受总体参数影响,比较分布或分布位置 。
2、非参数检验的检验效率没有参数检验高,犯第二类错误的概率β较大。
3、非参数检验应用范围:
⑴ 总体分布形式未知或分布类型不明;
⑵ 偏态分布的资料;
⑶等级资料:不能精确测定,只能以严重程度优劣等级、次序先后等表示
⑷不满足参数检验条件资料:各组方差明显不齐;
⑸数据的一端或两端是不确定数值,如“>50mg”。
4、Wilcoxon符号秩和检验:
★编秩: 按照差值的绝对值从小到大编秩
差值为0者不参加编秩
绝对值相等,符号相同时顺次编秩
绝对值相等,符号相反时取平均秩次
5、两样本比较的秩和检验:
★编秩原则:将两组数据混合起来从小到大统一编秩
数值相等且组别相同时顺次编秩
数值相等但组别不同时取平均秩次
第十二章 双变量关联性分析
★1、直线相关,又称简单相关,是用来描述具有直线关系的两变量x、y的相互关系的统计方法。要求两变量均来自于双变量正态总体的随机变量。
相关系数r没有单位,取值介于-1与1之间。r>0,表示正相关;r<0,表示负相关;r=0,表示零相关。
∣r∣≥0.7时,两变量有高度相关关系;
0.4≤∣r∣<0.7时,两变量有中度相关关系;
∣r∣<0.4时,两变量有低度相关关系;
∣r∣=1表示完全相关;∣r∣=0表示无直线相关,但不一定没有关联性。
★2、等级相关应用范围:
(1)不服从双变量正态分布的资料
(2)总体分布类型未知的资料
(3)等级资料
第十三章 直线回归分析
★1、直线回归(注意与直线相关的区别):又称简单回归,用于研究一个变量随另一个变量变化而变化的依存关系(回归关系),从而预测或控制未知变量的一种统计分析方法,通过拟合线性方程来描述两变量间的回归关系。
应用条件:要求因变量Y呈正态分布;自变量X是可以精确测量和控制的变量。
★2、直线回归方程式:
★ b 为样本回归系数 (直线的斜率)其统计学意义是X 每增加/ 减小 1个单位,Y平均改变b个单位。b=0,x与y之间没有直线关系。
★3、最小二乘法原理:各实测点至回归直线的纵向距离的平方和最小。
4、SY.X 为剩余标准差 ,表示应变量y在扣除自变量x的线性影响后的离散程度,反映实际观察值在回归直线周围的分散状况 。
5、对同一资料,相关系数t检验与回归系数t检验结果相同,t r=t b;
同一资料,有
★★6、直线回归与相关区别与联系:
区别
⑴ 资料要求不同:
回归要求因变量y 服从正态分布; x 是可 以精确测量和严格控制的变量;
相关要求x 和y 均呈正态分布。
⑵ 变量地位不同:
回归的变量y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;
相关中变量x 变量y 处于平等的地位,彼此相关关系 。
⑶ 用途不同:
说明两变量间依存变化的数量关系用回归;
说明变量间的相关关系用相关 。
联系:
⑴ r与b的方向一致 ;
⑵ r与b的假设检验等价;
⑶ r与b可相互换算;
⑷ 用回归解释相关。
第十四章 生存分析
★1、生存资料的特点:
⑴蕴涵有结局和时间两个方面的信息; ⑵结局为两分类互斥事件; ⑶一般是通过随访收集得到,随访观察往往是从某统一时间点开始,观察到某规定时间点截止;
⑷常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、检验、四格表资料确切概率法或秩和检验进行分析。
★2、生存分析中的几个基本概念:
⑴死亡事件又称失效事件,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。
⑵生存时间:指观察到的存活时间,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间。(广义概念)
生存时间根据其特点,可分为以下两种类型:
①完全数据:指从观察起点到发生死亡事件所经历的时间;
②截尾数据:从起点至截尾点所经历的时间,观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored) ,常用 t + 表示。
截尾原因:失访、退出(死于其它原因)、终止(观察结束时病人尚存活)
⑶死亡概率:指在某单位时段开始时存活的个体在该时段内死亡的可能性大小,记为q。
⑷生存概率:表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,记为p。
⑸ 生存率:记为 ,指观察对象活过tk时刻的概率。
第十六章 Meta分析
1、Meta分析的概念:Meta分析是对具有共同研究目的的多个研究进行综合分析的一系列过程。
2、Meta分析的目的: 提高检验效能、解决若干单个研究结论不一致问题、改善效应量的估计、提出新的研究问题和研究方向
3、Meta分析的基本方法:⑴固定效应模型,统计方法有Mentel-Haenszel法、Peto法和General Variance-based法;⑵随机效应模型,方法有Dersimonian and Laird法(D-L法)。
4、发表偏倚:指有统计学意义的研究结果较无统计学意义或无效的研究结果被报告和发表的可能性大,提高或夸大了实验效应量及危险因素的关联强度,而引发的偏倚。
产生原因:研究者认为无统计学意义的研究意义不大,不发表或推迟发表;作为杂志编辑则更有可能对此类研究不予以发表。
发现和估计发表偏倚的方法:漏斗图分析、失效安全数法 。
第十七章 样本含量估计
1、 样本含量的估计是在保证研究结论具有一定可靠性的条件下,确定最少的调查单位或实验单位数。
★2、样本含量估计应具备的条件:
⑴I型错误的概率α或区间估计中的可信度1-α;
⑵Ⅱ型错误的概率β,或检验效能1-β;
⑶容许误差或差值δ,即欲比较或估计的总体参数与样本统计量之间或总体参数相差所容许的限度;
⑷总体平均数μ、总体率π或总体标准差 σ。
★3、检验效能:假设检验的功效(1-β),其意义是,当所研究的总体确有差别时,按照检验水准α能够发现它(拒绝H0)的能力。
第十八章 生命统计常用指标
1、人口统计常用指标:
人口构成:性别比、老龄人口比重、抚养比
2、生育统计常用指标:
⑴生育水平的指标:出生率、生育率、年龄别生育率、总和生育率、终生生育率;
⑵人口再生育指标:自然增长率、粗再生育率、净再生率、平均世代年数;
⑶计划生育工作指标:避孕先用率、避孕失败率、Pearl怀孕率、累计失败率、人工流产率、人流活产比
3、死亡统计常用指标:
⑴反映死亡水平的指标:粗死亡率、年龄别死亡率、死因别死亡率、婴儿死亡率、新生儿死亡率、围生儿死亡率、5岁以下儿童死亡率、孕产妇死亡率;
⑵反映死因构成和死因顺位指标:死因构成或相对死亡比、死因顺位
4、疾病统计常用指标:
⑴反映疾病发生水平的指标:发病率、患病率、检出率、感染率、疾病构成比
⑵反映疾病防治效果的指标:治愈率、有效率、★病死率、★某病死亡率
⑶反映疾病严重程度的指标:减寿年数、寿命损失率
⑷ 反映残疾统计的指标:残疾患病率、残疾构成
第十九章 常用统计表与统计图
1、统计表的制作原则:重点突出、层次清楚、简单明了
2、统计表的结构:标题、标目、线条、数字、备注
3、统计图的结构:标题、图域、标目、刻度、图例
数据资料
计量资料
计数资料
非参数检验
等级相关分析
秩和检验
统计描述
统计推断
参数估计
假设检验
t 检验
方差分析
完全随机设计
随机区组设计
交叉设计
析因设计
重复测量设计
Wilcoxon符号秩和检验(配对设计)
Wilcoxon两样本(成组设计)
Kruskal-Wallis 法
成组设计多样本
Friedman 法
(随机区组设计)
相对数
统计推断
参数估计
假设检验
确切概率法
卡方检验
四格表卡方检验
配对四格表卡方检验
行×列表卡方检验
U 检验
单样本t 检验
配对t 检验
两独立样本t 检验
t` 检验
附:
。
17
展开阅读全文