资源描述
第四章 总体均数的估计和假设检验
一、教学大纲要求
(一) 掌握内容
1. 抽样误差、可信区间的概念及计算;
2. 总体均数估计的方法;
3. 两组资料均数比较的方法,理解并记忆应用这些方法的前提条件;
4. 假设检验的基本原理、有关概念(如I、II类错误)及注意事项。
(二) 熟悉内容
两样本方差齐性检验。
(三) 了解内容
1. t分布的图形与特征;
2. 总体方差不等时的两样本均数的比较;
3. 等效检验。
二、教学内容精要
(一) 基本概念
1. 抽样误差
抽样研究中,样本统计量与总体参数间的差别称为抽样误差(sampling error)。统计上用标准误(standard error,SE)来衡量抽样误差的大小。不同的统计量,标准误的表示方法不同,如均数的标准误用表示,率的标准误用SP表示,回归系数的标准误用Sb表示等等。均数的标准误与标准差的区别见表4-1。
表4-1 均数的标准误与标准差的区别
均数的标准误
标准差
意义
反映的抽样误差大小
反映一组数据的离散情况
记法
(样本估计值)
(样本估计值S)
计算
=
=
=
S=
控制方法
增大样本含量可减小标准误。
个体差异或自然变异,不能通过统计方法来控制。
2.可信区间
(1)定义、涵义:即按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:CI是随机的,总体参数是固定的,所以,CI包含总体参数的可能性是1-。不能理解为CI是固定随机的,总体参数是随机固定的,总体参数落在CI范围内可能性为1-。当时,称为95%可信区间,记作95%CI。当时,称为99%可信区间,记作99%CI。
(2)可信区间估计的优劣:一定要同时从可信度(即1-的大小)与区间的宽度两方面来衡量。
(二) t分布与正态分布
t分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t分布峰值较低,而尾部较高;③随自由度增大,t分布趋近与标准正态分布;当时,t分布的极限分布是标准正态分布。
(三)总体均数的估计
参数估计有点估计和区间估计两种方式。总体均数的估计,见表4-2。
表4-2 总体均数的估计
点估计
区间估计
意义
直接用样本统计量代替总体参数。
用统计量和确定一个有概率意义的区间,以该区间具有较大的可信度包含总体均数。
估计
方法
以作为估计值
①小样本(,)
②大样本(,)
③两总体均数差值的可信区间
(,)
(四)两均数差别的比较
1. 样本均数和总体均数比较的t检验
前提:服从正态分布
:;:
, (4-1)
2. 配对设计的t检验
前提:差值服从正态分布
:;:
, (4-2)
3. 成组设计的两样本均数比较的t检验
前提:两组数据均服从正态分布;两组总体方差相等
:;:
, (4-3)
其中,=, (4-4)
表示两样本均数差值的标准误。
4. 单样本u检验
前提:当样本较大(如n>50)或总体已知时
(n较大时) (4-5)
(已知时) (4-6)
5. 大样本均数比较的u检验
前提:样本足够大
成组设计的两样本均数比较可用:
(4-7)
6. 要推断组间没有差别或差别很小,应采用等效检验(squivalence test)。
(五)假设检验的步骤及有关概念
1. 基本思想:把握“小概率事件在一次抽样试验中是几乎不可能发生”的原理。
2. 步骤:①建立假设、选用单侧或双侧检验、确定检验水准;②选用适当检验方法,计算统计量;③确定P值并作出推断结论。
3. I类错误:为真(实际无差别),假设检验结果拒绝,接受(推论有差别)所犯的错误称为I类错误(type I error),I类错误的概率记作。
II类错误:为真(实际有差别),假设检验结果拒绝,接受(推论无差别)所犯的错误称为II类错误(type II error),II类错误的概率记作。
4. 1-称为检验效能,过去称把握度(power of test),即两总体确有差别,按水准能发现该差别的能力。
三、典型试题分析
(一) 单项选择题
1.当样本含量增大时,以下说法正确的是( )
A. 标准差会变小
B. 样均数标准误会变小
C. 均数标准误会变大
D.标准差会变大
答案:B
[评析] 本题考点:这道题是考察均数标准误的概念。
从均数标准误的定义讲,它反映的是均数抽样误差的大小,那么样本含量越大,抽样误差应该越小。从均数标准误的计算公式来看,也应是n越大,越小。
2.区间 ±2.58的含义是( )
A.99%的总体均数在此范围内 B.样本均数的99%可信区间
C.99%的样本均数在此范围内 D.总体均数的99%可信区间
答案:D
[评析] 本题考点:可信区间的含义。
可信区间的确切含义指的是:总体参数是固定的,可信区间包含了总体参数的可能性是,而不是总体参数落在CI范围的可能性为。本题B、D均指样本均数,首先排除。A说总体均数在此范围内,显然与可信区间的含义相悖。因此答案为D。
(二) 是非题
1.进行两均数差别的假设检验时,当P≤0.05时,则拒绝;当P>0.05时,则接受,认为两总体均数无差别。
[评析] 答案:错误。当P≤0.05,拒绝时,我们是依据这一小概率来下结论的。而当P>0.05时,我们对两总体均数无差别这一结论无任何概率保证,因此不能贸然下无差别的结论。正确的说法是,按所取检验水准,接受的统计证据不足。
2.通常单侧检验较双侧检验更为灵敏,更易检验出差别,应此宜广泛使用。
[评析] 答案:错误。根据专业知识推断两个总体是否有差别时,是甲高于乙,还是乙高于甲,当两种可能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或者研究者仅关心其中一种可能时,可选用单侧。一般来讲,双侧检验较为稳妥。单侧检验,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出率高,但应慎用。
3.只要增加样本含量到足够大,就可以避免I和II型错误。
[评析] 答案:错误。因为通过假设检验推断出的结论具有概率性,因此出现错误判断的可能性就一定存在,无论用任何方法也不能消除这一可能。但是,我们可以使错误判断的可能性尽量地小,比如样本含量越大,犯I和II类错误的可能性越小。
(三) 简答题
1. 简述可信区间在假设检验问题中的作用。
[评析]可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准的前提下进行计算,而假设检验能够获得一较为确切的概率P值。故将二者结合起来,才是对假设检验问题的完整分析。
2.某医生就4-3资料,对比用胎盘浸液钩端螺旋体菌苗对328名农民接种前、后血清抗体的变化。
表4-3 328名农民血清抗体滴度及统计量
抗体滴度的倒数
S
0
20
40
80
160
320
640
1280
免疫前人数
211
27
19
24
25
19
3
0
76.1
111.7
6.17
免疫后人数
2
16
57
76
75
54
25
23
411.9
470.5
25.90
t =(411.91-76.10)/=12.6,按查t界值表P<0.01,说明接种后血清抗体有增长。
问该医生在整理资料和分析资料过程中有何不妥?
答: ①资料整理不当,未整理成配对资料;②统计描述指标使用不当,对于滴度的倒数不宜用算术均数、标准差,有“0”出现,也不宜算几何均数。比较免疫前后抗体滴度的倒数,应计算中位数和四分位数间距;③不宜用t检验。可将抗体滴度的倒数经对数或平方根转换后,做配对t检验(ν=327)。
(四) 计算题
1. 某医院用新药与常规药物治疗婴幼儿贫血,将20名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量(g/L)见表4-4。问新药与常规药的疗效有无差别?
表4-4 两种药物治疗婴幼儿贫血结果
治疗药物
血红蛋白增加量(g/L)
新药组
24
36
25
14
26
34
23
20
15
19
常规药组
14
18
20
15
22
24
21
25
27
23
解:本题属成组设计资料。
,
t=,
P>0.05
因此,根据现有资料尚不能认为新药与常规药的疗效有差别。
2.将20名某病患者随机分为两组,分别用甲、乙两药治疗,测得治疗前后的血沉(mm/h)见表4-5。问:(1)甲、乙两药是否均有效?(2)甲、乙两药疗效是否有别?
表4-5 甲、乙两药治疗某病情况
序号
1
2
3
4
5
6
7
8
9
10
甲药
治疗前
30
33
26
31
30
27
28
28
25
29
治疗后
26
29
23
30
30
24
22
25
23
23
序号
11
12
13
14
15
16
17
18
19
20
乙药
治疗前
29
30
29
33
28
26
30
31
30
30
治疗后
26
23
25
23
23
25
28
22
27
24
(1)解:对甲、乙两药治疗数据分别采用配对t检验,得
甲药:t=3.2/0.611=5.237
乙药:t=5.0/0.9428=5.303
v=9,P<0.001,按=0.05水准,拒绝H0,接受H1,故可认为甲乙两药治疗前后均有差别。
(2)解:由表中资料分别求得治疗前后差值,再做两组比较。
t==-1.602,v=18,得0.2>P>0.1,按=0.05水准,不拒绝H0,尚不能认为甲、乙两药疗效有差别。
3.测得某地90名正常成年女性红细胞数(104/mm3)的均值418、标准差为29。试求:
(1) 该地95%的正常成年女性红细胞数所在的范围;
(2) 该地正常成年女性红细胞数总体均数的95%可信区间。
解:(1)用正态分布法估计正常值范围。因红细胞过多或过少均为异常,故此参考值范围应是双侧范围。
上限:+1.96S=418+1.9629=474.84(104/mm3)
下限:-1.96S=418-1.9629=361.16(104/mm3)。
即(361.16,474.84)(104/mm3)。
(2)由于n=90>50,故可近似为正态分布。
上限:+1.96=418+1.9629/=423.99(104/mm3)
下限:-1.96=418-1.9629/=412.01(104/mm3)。
即(412.01,423.99)(104/mm3)。
四、习 题
(一) 单项选择题
1. 标准误的英文缩写为:
A.S B.SE C. D.SD
2. 通常可采用以下那种方法来减小抽样误差:
A.减小样本标准差 B.减小样本含量
C.扩大样本含量 D.以上都不对
3. 配对设计的目的:
A.提高测量精度 B.操作方便
C.为了可以使用t检验 D.提高组间可比性
4. 以下关于参数估计的说法正确的是:
A. 区间估计优于点估计
B. 样本含量越大,参数估计准确的可能性越大
C. 样本含量越大,参数估计越精确
D.对于一个参数只能有一个估计值
5. 关于假设检验,下列那一项说法是正确的
A.单侧检验优于双侧检验
B.采用配对t检验还是成组t检验是由实验设计方法决定的
C.检验结果若P值大于0.05,则接受H0犯错误的可能性很小
D.用u检验进行两样本总体均数比较时,要求方差齐性
6. 两样本比较时,分别取以下检验水准,下列何者所取第二类错误最小
A.=0.05 B.=0.01 C.=0.10 D.=0.20
7. 统计推断的内容是
A.用样本指标推断总体指标 B.检验统计上的“假设”
C.A、B均不是 D.A、B均是
8.当两总体方差不齐时,以下哪种方法不适用于两样本总体均数比较
A.t检验 B.t’检验
C.u 检验(假设是大样本时) D.F检验
9.甲、乙两人分别从随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得,,,,则理论上
A.=,=
B.作两样本t检验,必然得出无差别的结论
C.作两方差齐性的F检验,必然方差齐
D.分别由甲、乙两样本求出的总体均数的95%可信区间,很可能有重叠
10.以下关于参数点估计的说法正确的是
A.CV越小,表示用该样本估计总体均数越可靠
B.越小,表示用该样本估计总体均数越准确
C.越大,表示用该样本估计总体均数的可靠性越差
D.S越小,表示用该样本估计总体均数越可靠
(二) 名词解释
1. 统计推断
2. 抽样误差
3. 标准误及
4. 可信区间
5. 参数估计
6. 假设检验中P的含义
7. I型和II型错误
8. 检验效能
9. 检验水准
(三) 是非题
1.若两样本均数比较的假设检验结果P值远远小于0.01,则说明差异非常大。
2.对同一参数的估计,99%可信区间比90%可信区间好。
3.均数的标准误越小,则对总体均数的估计越准确。
(四) 简答题
1.假设检验时,当P0.05,则拒绝H0,理论依据是什么?
2.假设检验中与P的区别何在?
(五) 计算题
1. 治疗10名高血压病人,对每一种病人治疗前、后的舒张压(mmHg)进行了测量,结果见(表4-6),问治疗前后有无差异?
表4-6 10名高血压病人治疗前后的舒张压(mmHg)
病例编号
1
2
3
4
5
6
7
8
9
10
治疗前
117
127
141
107
110
114
115
138
127
122
治疗后
123
108
120
107
100
98
102
152
104
107
2.某医院病理科研究人体两肾的重量, 20例男性尸解时的左、右肾的称重记录见表4-7,问左、右肾重量有无不同?
表4-7 20例男性尸解时左、右肾的称重记录
编号
左肾(克)
右肾(克)
1
170
150
2
155
145
3
140
105
4
115
100
5
235
222
6
125
115
7
130
120
8
145
105
9
105
125
10
145
135
11
155
150
12
110
125
13
140
150
14
145
140
15
120
90
16
130
120
17
105
100
18
95
100
19
100
90
20
105
125
3.有13例健康人,11例克山病人的血磷测定值(mg%)如表4-8所示,问克山病人的血磷是否高于健康人?
表4-8 健康人与克山病人的血磷测定值(mg%)
健康人
170
155
140
115
235
125
130
145
105
145
患 者
150
125
150
140
90
120
100
100
90
125
2. 某生化实验室测定了几组人的血清甘油三酯含量(mg%)见表4-9,试分析比较工人与干部,男与女的该项血酯水平。
表4-9 正常成人按不同职业、性别分类的的血清甘油三酯含量(mg%)
人数
平均数
标准差
工人
112
106.49
29.09
干部
106
95.93
26.63
男
116
103.91
27.96
女
102
97.93
28.71
五、习题答题要点
(一) 单项选择题
1.B 2.C 3.D 4.B 5.B 6.D 7.D 8.A 9.D 10.C
(二) 名词解释
1. 统计推断:通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statistical inference)。
2. 抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(sampling error)。
3. 标准误及:通常将样本统计量的标准差称为标准误。许多样本均数的标准差称为均数的标准误(standard error of mean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
4. 可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1-,而不是总体参数落在该范围的可能性为1-。
5. 参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。
6. 假设检验中P的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
7. I型和II型错误:I型错误(type I error),指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用表示;II型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用表示。
8. 检验效能:1-称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。
9. 检验水准:,是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level of a test),记为。
(三) 是非题
1. 错。P值的大小只能说明差异是否有统计学意义,同样的差异,例数越多,P值越小。
2. 错。可信区间的优劣要通过两点衡量:区间的可信度;区间的宽度。因此不能笼统的通过区间可信度的大小来评价优劣。
3. 正确。标准误越小,可信区间越窄,对总体均数估计的准确程度越高。
(四) 简答题
1.答:P值系由H0所规定的总体做随机抽样,获得等于及大于(或等于及小于)依据现有样本信息所计算得的检验统计量的概率。
当P0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于,因为小概率事件几乎不可能在一次试验中发生,所以拒绝H0。同时,下“有差别”的结论的同时,我们能够知道可能犯错误的概率不会大于,也就是说,有了概率保证。
2.答:以t检验为例,与P都可用t分布尾部面积大小表示,所不同的是:值是指在统计推断时预先设定的一个小概率值,就是说如果H0是真的,允许它错误的被拒绝的概率。P值是由实际样本获得的,是指在H0成立的前提下,出现等于或大于现有检验统计量的概率。
(五) 计算题
1.解:本题属配对设计资料,故应用配对t检验方法计算。t=2.484,v=9,P<0.05,按=0.05水准拒绝H0,认为治疗前后有差别(注:此类研究是非随机的自身前后对比研究,要确认疗效,应设立平行对照)。
2.解:本题属配对设计资料,故应用配对t检验方法计算。t=2.157,v=19,P<0.05,按=0.05水准拒绝H0,认为左、右肾重量差别有统计学意义,右较左肾轻。
3.解:本题属成组设计资料,故应用成组t检验方法计算。t=2.539,v=22,P<0.05,按=0.05水准拒绝H0,认为二者血磷含量差别有统计学意义,克山病人的血磷高于健康人。(注:此类研究是非随机化的对比研究,如果病人与健康人不具可比性,如居住地不同、性别不同、年龄不同,则不能保证结论正确。
4.解:本题可通过计算两均数差值的95%或99%可信区间来判断两总体均数的差别。
工人与干部均数差值的95%和99%可信区间分别为:(3.10,18.02),(0.73,20.39),均不包含0在内,故可认为工人与干部血清甘油三酯含量的总体均属有差别。
男性与女性均数差值的95%和99%可信区间分别为:(-1.60,13.56),(-4.01,15.97),均包含0在内,故尚不能认为男性与女性血清甘油三酯含量的总体均属有差别。
(潘晓平 马跃渊)
展开阅读全文