资源描述
《卫生统计学》期末复习提要
一、期末考试有关问题的说明
<一>出题的指导思想、原则及题目类型
出题的指导思想是:全面考核学生对本课程的基本概念、基本方法,基本技能的掌握情况,考核学生运用所学的知识和方法综合分析与解决实际问题的能力。
出题的原则是:不超过教学大纲的内容,难度适中但覆盖面较广,基本知识占80─90%,稍难或灵活的题目占10─20%。凡自学的章节不考。
<二>答题要求
选择题:要求选择无误,每题只选一个最佳答案。
计算分析题:要求完整地写出计算步骤(包括计算公式)、用计算器计算出正确结果,并能对所得结果作出相应的分析结论。
二、期末复习范围和重点
绪 言
<一>重点复习的名词:
计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。
计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。
总体(population):表示大同小异的对象(某个测量值)全体。
样本(sample):从研究总体中随机抽取的一部分有代表性的个体
变异(variation):同一总体内的个体间存在差异。
抽样误差: 消除了系统误差并控制了随机测量误差之后,样本数值仍和总体指标的数值有差异,这种误差称之。
概率: 某事件出现机会大小的量。
<二>重点复习的问题:
1、 根据计量、计数、等级资料的概念正确识别统计资料的类型。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data),等级资料又称有序变量。
等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。
2、 统计工作的步骤及搜集资料的来源和要求。
1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的一环,是今后工作应遵循的依据。
2.收集资料:应采取措施使能取得准确可靠的原始数据。
3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。
4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。
3、 抽样研究的原因及目的,产生抽样误差的原因。
<三>一般复习的名词:
同质:一些个体处于同一总体么就是指他们大同小异,具有同质性。
参数::参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
随机化抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。
样本含量:
<四>一般复习的问题:
1、卫生统计学的内容及学习卫生统计学的意义。
2、统计工作各个步骤的基本内容和关系。
集中趋势与离散趋势
<一>重点复习的名词:
频数分布表:当变量值个数较多时,对各变量值出现的频率列表即为频率分布表(frequency distribution table)。
中位数(median ,M):将原始观察值从小到大或者从大到小排序后,位次居中的那个数。
<二>重点复习的问题:
1、 对频数分布特征的描述。
频数分布分为集中趋势(central tendency)和离散趋势(tendency of dispersion)。
常用描述定量变量集中趋势的统计指标包括算数均数、几何均数、中位数。算数均数适用于对称分布,特别是正太分布的资料;几何均数适用于可经对数转换为对称分布的资料;中位数适用于各种分布资料,常用于描述偏峰分布的资料。
常用的描述定量变量离散趋势的统计指标包括极差、四分位数间距、方差、标准差和变异系数。极差只利用最大值和最小值的信息,易受样本含量的影响,很不稳定;四分位数间距适用于各种分布资料;方差和标准差适用于对称分布,特别是正态分布的资料;变异系数常用于量纲不同时,或均数相差较大时变量间变异程度的比较。实际应用中,常将算数均数和标准差结合对正态分布资料进行统计描述;常将中位数和四分位数间距结合对偏峰分布资料进行统计描述。
2、 平均指标:算术均数、几何均数、中位数的意义及应用条件,算术均数的计算。
3、 变异指标:全距、标准差、变异系数的意义及应用条件,标准差和变异系数的计算。
4、 正态分布的两个参数及正态曲线下面积的分布规律。
正态分布的特征:服从正态分布的变量的频数分布由μ 、σ 完全决定。
(1) μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以x = μ 为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ 。
(2) σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
正态曲线下面积的分布规律:如果用其标准差作为衡量单位,则以均数为中心,正负1个标准差内,即(μ-σ,μ+σ)区间内,正态分布曲线下的面积为总面积的68.27%;正负2个标准差内,即(μ-2σ,μ+2σ)区间内,面积为95.44%;正负3个标准差,即(μ-3σ,μ+3σ)区间内,面积为99.74%。这是由正态分布的性质所决定的。
<三>一般复习的问题:
1、除<二>4外,正态分布的其余特点。
2、u变换的形式和作用。
3、查阅标准正态曲线下面积表的方法。
均数的抽样误差及标准误
<一>重点复习的名词:
均数的抽样误差:抽样造成的这种样本均数与样本均数之间、样本均数与总体均数之间的差异。
标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。
总体均数的可信区间:用统计量 X 和Sx确定一个有概率意义的区间,以该区间具有较大的可信度包含总体均数。
<二>重点复习的问题:
1、 标准误的意义、计算及应用。
标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。
n 标准误的计算公式:
n 在实际应用中可通过增加样本含量n来减小样本均数的标准误,从而降低抽样误差。 对于任意分布,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,均数的标准误由公式 计算。
2、 标准差与标准误的区别与联系。
样本均数标准误的大小与标准差成正比,与样本含量n的平方根成反比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。
3、 总体均数可信区间的意义和计算。
根据总体标准差s 是否已知及样本含量n的大小,总体均数置信区间的计算有t分布和Z分布(标准正态分布)两种方法。
1. t分布方法
当总体标准差s未知时,正态总体N(m, s2)的样本均数的t变换结果服从 t分布,若“砍去”t分布双侧尾部面积a = 0.05 = 5%,故有95%的t值满足不等式:
-t0.05/2, n < < t0.05/2, n
-t0.05/2, n < m < + t0.05/2, n
m:( -t0.05/2, n , + t0.05/2, n )
总体均数m 的(1- a ) 可信区间置信区间的一般计算式为
± ta/2, n
均数的单侧置信区间为
m > -ta/2, n
或 m < + ta/2, n
2正态分布近似方法
(1)当总体标准差s 已知时,总体均数的双侧置信区间为 ± Za/2
(2)当s 未知但n足够大时(n > 50),t分布的极限分布是标准正态分布,可用za/2代替公式(5-9)中的ta/2, n,则总体均数的双侧置信区间为
± Za/2
同理, 与(5-8)和(5-9)式相对应, 单侧置信区间则为
-za 或 -za
+ za 或 + za
4、 总体均数可信区间与正常值范围的区别。
参考值范围
总体均数的置信区间
意义
绝大多数人某项指标的数值范围
指一定的置信度估计总体均数所在的范围
计算
正态分布
双侧 ± Za/2
单侧,( - Za/2 S,∞ )
或(-∞, + Za/2 S)
偏峰分布
双侧,Px~P100-x
单侧,(PX, ∞)或(-∞,P100-X)
正态分布
s未知:双侧, ± ta/2,v
单侧,( - ta/2,v , ∞)
或(-∞, + ta/2,v )
s已知:双侧, ± Za/2
单侧,( - Za , ∞)
或(-∞, + Za )
正态分布或偏峰分布
s未知但n足够大:双侧 ± Za/2
单侧( - Za ,∞)或(-∞, +Za/ )
应用
判断某项指标正常与否
估计总体均数所在的范围
<三>一般复习的问题:
1、抽样误差的规律。
2、提高对总体均数可信区间估计精度的办法。
均数的假设检验
<一>重点复习的名词:
检验假设H0:零假设(null hypothesis),又称原假设。
检验水准α:根据问题的背景,规定一个“小”的概率α,若P值小于α,就认为“P值较小”,若P值 不小于α,就认为“P值较大”。通常取α=0.05或0.01以保证犯假阳性错误的概率不超过0.05或0.01。这个α称为检验水准。
假设检验中的P值:在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。
可比性:
第Ⅰ类错误和第Ⅱ类错误::假阳性错误称为第I 类错误(type I error ),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用a 表示;假阴性错误称为第II 类错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用b 表示。
<二>重点复习的问题:
1、 t值;t分布与标准正态分布的关系。
2、 假设检验的基本思想和步骤。
基本思想:把握“小概率事件在一次抽样试验中是几乎不可能发生”的原理。
步骤:①建立假设、选用单侧或双侧检验、确定检验水准;②选用适当检验方法,计算统计量;③确定P 值并作出推断结论。
3、 样本均数与总体均数比较的t检验。
4、 两大样本均数比较的u检验。
5、 配对设计三种形式的特点及t检验的H。、H1。
配对设计三种形式的特点:1)异体配对:两个受试对象。2)自身配对:同一受试对象的两个部位分别接受两种处理。3)统一受试对象接受某种处理之前和之后的数据,也可以视为自身配对。
6、 假设检验时需注意的问题。(重点是可比性和犯第Ⅰ类及第Ⅱ类错误的含义与概率)
可比性:
I 类错误: H0 为真(实际无差别),假设检验结果拒绝H 0 ,接受H 1 (推论有差别)所犯的错误称为I 类错误(type I error),I 类错误的概率记作a 。
II 类错误: H1 为真(实际有差别),假设检验结果拒绝H 1 ,接受H 0 (推论无差别)所犯的错误称为II 类错误(type II error),II 类错误的概率记作β 。
1- β 称为检验效能,过去称把握度(power of test ),即两总体确有差别,按a水准能发现该差别的能力。
<三>一般复习的名词:自由度、假设检验。
<四>一般复习的问题:
1、配对设计的t检验。
2、两小样本均数比较的t检验。
3、t检验的应用条件。
方差分析
一般复习的问题:
1、方差分析的基本思想。
2、完全随机设计的特点和方差分析法。
3、配伍组设计的特点和方差分析法。
4、多个样本均数的两两比较。
相对数
<一>重点复习的名词:
构成比:(proportion)说明某一事物内部各组成部分所占的比重或分布。
率:(rate)说明一定时期内某现象发生的频率或强度。
相对比:,是A、B 两个有关指标之比,说明A 是B 的若干倍或百分之几。比=A/B
动态数列:(dynamic series)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
<二>重点复习的问题:
1、 构成比、率、相对比、定基比、环比的计算。
比=A/B
定基比,即统一用某个时间的指标作基数,其它各时间的指标都与之相比;
环比,即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。
2、 下述指标的意义及计算:死因构成,发病率,患病率,死亡率,病死率。
死因构成(proportion of dying of a specific cause)指全部死亡人数中,死于某死因者所占的百分比,说明各种死因的相对重要性。死因构成比=同年某死因死亡数/同年内死亡总数*100% (频率型)
发病率(incidence rate,IR)表示在一定时期内,在可能发生某病的一定人群中新发生某病的强度。某病发病率=时期内新发生的某病病例数/年平均人口数*1年 (强度型)
患病率(prevalence rate,PR)指某时点上受检人数中现患某种疾病的频率,通常用于描述病程较长或发病时间不易明确的疾病的患病情况。患病率=现患病人数/检查人口数
(频率型)
死亡率(mortality rate)指某地某年平均每千人口中的死亡数,反映当地居民总的死亡水平。 死亡率=同年内死亡人数/年平均人口数*1年 (强度型)
病死率(case fatality rate,CFR)指在某一期间内(1年)患某病者因该病死亡的百分比,可说明一种疾病的严重程度,也可反映一个医疗单位医疗水平和质量。
某病病死率=同年某病死亡人数/同年患该病总数*100% (频率型)
3、 动态数列的分析。
动态数列(dynamic series) 是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
4、 应用相对数时需注意的问题。(重点是不能以比代率)
1. 计算相对数的分母一般不宜过小。
2. 分析时不能以构成比代替率 容易产生的错误有
(1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率;
(2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门
2. 诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。
3. 不能用构成比的动态分析代替率的动态分析。
4. 对观察单位数不等的几个率,不能直接相加求其总率。
5. 在比较相对数时应注意可比性 通常应注意:
(1)观察对象,研究方法、观察时间、地区和民族等因素应相同或相近;
(2)其它影响因素在各组的内部构成是否相同。
6. 对样本率(或样本构成比)的比较应随机抽样,并做假设检验。
<三>一般复习的名词:时期动态数列、时点动态数列、标准化法。
<四>一般复习的问题:
1、动态数列的分类。
2、标准化法的意义及基本思想。
3、标准化率的直接法和间接法计算。
4、应用标准化法的注意事项。
二项分布及其应用
<一>重点复习的问题:
1、 率的抽样误差概念。
在抽样研究中所获得的样本率与总体率也存在率的抽样误差。
2、 率的标准误的意义及计算。
表示率抽样误差大小的统计指标成为率的标准误。由于总体率和总体率的标准误一般未知,常用样本率p来估计总体率π,用杨频率的标准误Sp来估计总体率的标准误:
率的标准误是衡量样本率稳定性和可靠性的统计指标,它反应率的抽样误差大小,率的标准误越小,表示率的抽样误差越小,用以估计总体率的可靠性就越大。
3、 总体率可信区间的意义及计算。
当 n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。总体率的可信区间可根据样本含量n和样本频率p的大小,选用查表法或正态近似法来估计其总体概率π的(1-α)置信区间。P93 例子
<二>一般复习的名词:
二项分布:
<三>一般复习的问题:
1、二项分布的概率函数与图形。
2、二项分布的特点。
3、样本率与总体率比较的u检验。
4、两个样本率比较的u检验。
Poisson分布及其应用
<一>一般复习的名词:
Poisson分布:
<二>一般复习的问题:
1、Poisson分布的概率函数及图形。
2、Poisson分布的特点。
3、总体均数可信区间的意义及计算。
4、样本均数与总体均数比较的u检验。
5、两样本均数比较的u检验。
χ2检验
<一>重点复习的名词:
理论频数: theoretical frequency,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。
<二>重点复习的问题:
1、 χ2检验的基本思想。
2、 四格表资料χ2检验和校正χ2检验的应用条件及方法。
3、 计数资料相关分析的设计特点和推断目的。
4、 行×列表资料χ2检验的注意事项。
χ2 检验的应用条件及注意事项
1.分析四格表资料时,应注意连续性校正的问题,当1<T<5,n>40 时,用连续性校正χ2检验;T<=1,或n<=40 时,用Fisher 精确概率法。
2.对于R*C 表资料应注意以下两点:
(1)理论频数不宜太小,一般要求:理论频数<5 的格子数不应超过全部格子的1/5;
(2)注意考察是否有有序变量存在。对于单向有序R*C 表资料,当指标分组变量是有序的时,宜用秩和检验;对于双向有序且属性不同的R*C表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的R*C表资料,为考察两种方法检测的一致性,应选用Kappa 检验。
<三>一般复习的问题:
行×列表资料所包括的设计类型及χ2检验法。
秩和检验
<一>重点复习的问题:
等级资料的秩和检验(成组设计两样本比较的秩和检验(Wilcoxon 两样本比较法)
1.检验步骤:
(1)假设:H0:两总体分布相同 H1:两总体分布不同 a = 0.05
(2)编秩:将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。
(3)求秩和并确定检验统计量:当两样本例数不等时,以样本例数小者为n1,其秩和为T。相等时,可任取一组的秩和为T。
(4)确定P 值和作出推断结论:查T 界值表,得出P 值。若检验统计量T 值在上、下界值范围内,其P值大于表上方相应概率水平;若T 值在上、下界值上若范围外,其P值小于
表上方相应概率水平。
<二>一般复习的名词:
非参数统计:样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics )的统计分析方法,又称为无分布型式假定(assumption free statistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。
<三>一般复习的问题:
1、配对比较的符号秩和检验。
2、配伍组设计的多个样本比较的秩和检验。
3、两个或多个计量样本比较的秩和检验。
4、参数统计和非参数统计的优缺点。
直线相关与回归
<一>重点复习的名词:
相关系数:相关系数又称积差相关系数(coefficient of product -moment correlat ion),以符号r 表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
回归系数:回归系数(regression coefficient )即直线的斜率(slope),在直线回归方程中用b 表示,b 的统计意义为X每增(减)一个单位时,Y平均改变b 个单位。
<二>重点复习的问题:
1、 使用电子计算器计算相关系数r、回归系数b、截距α。
2、 散点图的作用和绘制方法。
(1) 散点图可考察两变量是否有直线趋势;
(2) 可发现异常点(outlier)
3、 描述直线关系的密切程度和方向时,r值的变化。
相关系数 r 没有单位,其值为-1≤r≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r 值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r 值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r 的绝对值等于1 为完全相关。
直线回归方程的一般形式及最小二乘法原理的内容。
回归参数的估计——最小二乘原则
原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小
4、 应用直线相关与回归分析的注意事项。
1. 根据分析目的选择变量及统计方法
直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。
两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。
2. 进行回归分析前应绘制散点图
(1) 散点图可考察两变量是否有直线趋势;
(2) 可发现异常点(outlier)
3. 资料的要求
直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;
* 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。
4. 结果解释及正确应用
反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。
P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。
当实际资料不能满足直线回归模型的要求而无法用最小二乘法估计回归方程时,可使用秩回归
<三>一般复习的名词:剩余标准差Sy.x
<四>一般复习的问题:
1、直线相关系数的假设检验。
2、等级相关的应用条件。
3、直线相关和回归分析的联系和区别。
正常值范围的估计
<一>重点复习的名词:
正常人:
第X百分位数:
<二>重点复习的问题:
1、 研究设计的六个方面的内容。
2、 正态性检验的推断目的和正态概率纸的特点。
3、 正态分布法的应用条件和估计单侧(上、下限),双侧95%正常值范围界限值的计算。
4、 百分位数法的应用条件及单、双侧界限,不同百分范围时应确定的百分位数。
<三>一般复习的名词:正常值范围、假阳性错误、假阴性错误、概率单位。
<四>一般复习的问题:
1、医学正常值范围的意义
2、D检验中, 查D界值表确定P值的方法。
统计表与统计图
<一>重点复习的问题:
1、 根据资料正确编制统计表。
(1) 标题 位于表的上方,概括表的主要内容,一般需注明时间与地点。
(2)标目 有横、纵标目之分,分别说明横行和纵行数字的含义,应做到文字简明,层次清楚。
(3)线条 多采用三条半线,即顶线、底线、纵标目下的横隔线及合计上的半线。忌斜线和竖线。
(4)数字 表内数据一律采用阿拉伯数字。同一指标小数点位数要一致,位次要对齐。表内不应有空项,无数字用“—”表示,数字若为零则填“0”,暂缺项或未记录用“⋯”表示。
(5)备注 不为表的必备内容,如有必要,可在表内用“*”号标记,然后在表的下方加以说明。
2、 对错表的评价和正确修改。
1) 编制整理时,未将有联系的项目安排适当,不便说明事物之间相互的规律性。
2) 分组不合理
3) 有意将过高或过低的数据筛选掉或无意舍弃掉,使原始资料所提供的信息变样。
4) 统计表编制不规范。
5) 计算错误
3、 根据资料性质和分析目的正确选用统计图类型。
<二>一般复习的问题:
1、统计表和统计图的作用。
2、各种统计图的绘制方法。
调查设计
<一>重点复习的问题:
1、 搜集资料的计划内容
1) 明确调查目的
2) 确定调查对象和观察单位
3) 确定调查方法
4) 确定调查指标和变量
5) 调查工具和调查表:调查工具、调查表和问卷的一般结构、问题的形式
6) 确定样本含量
2、 四种基本抽样调查方法的特点。
P289有表
(1) 简单随机抽样(也叫纯随机抽样)。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
(2) 等距抽样(也叫机械抽样或系统抽样)。是将总体各单位按一定标志或次序排列成为图形或一览表式(也就是通常所说的排队),然后按相等的距离或间隔抽取样本单位。特点是:抽出的单位在总体中是均匀分布的,且抽取的样本可少于纯随机抽样。等距抽样既可以用同调查项目相关的标志排队,也可以用同调查项目无关的标志排队。等距抽样是实际工作中应用较多的方法,目前我国城乡居民收支等调查,都是采用这种方式。
(3) 类型抽样(也叫分层抽样)。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
(4) 整群抽样。就是从总体中成群成组地抽取调查单位,而不是一个一个地抽取调查样本。特点是:调查单位比较集中,调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀,准确性要差些。因此,在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。
3、样本含量估计的目的。
(1) 可以控制统计量的抽样误差,样本含量越大,标准误越小;
(2) 提高估计的精度,增大样本含量是控制可信区间的宽度的有效办法;
(3) 增大样本含量是控制统计分析中Ⅱ型错误的概率大小的有效措施;
(4) 表示抽样误差的指标(各种标准误)的抽样误差也与样本含量有关(如样本方差的方差)。
<二>一般复习的问题。
1、整理分析资料的计划内容。
2、调查表的设计。
3、样本含量估计的方法。
居民健康统计
<一>重点复习的名词:
死亡概率nqx:年龄组死亡概率(age specific probability of dying)是指X 岁尚存者在今后一年或n 年内死亡的可能性。它和年龄组死亡率不是一个概念。
生存人数lx:表示假想的同时出生的一代人中,X岁尚存者的平均人数。一般假定0~岁组的人数为l0=100000
死亡人数:指理论死亡人数记为DX。表示假象的同时出生的一代人中,X岁尚存者按死亡概率qx死于年龄组“X~X+i”的平均人数。即dx=qx×lx
预期寿命ex:这是寿命表最广泛使用的指标,是指同时出生的一代人活到X岁时,尚能生存的平均年数。ex=tx/lx
<二>一般复习的名词:寿命表、简略寿命表
<三>一般复习的问题:
1、简略寿命表的编制原理。
2、简略寿命表与去某死因寿命表的计算。
3、寿命表的分析应用。
9 / 9
展开阅读全文