资源描述
生物统计学教案
第五章 统计推断
教学时间:5学时
教学方法:课堂板书讲授
教学目的:重点掌握两个样本的差异显著性检验,掌握一个样本的差异显著性检验,了解二项分布的显著性检验。
讲授难点:一个、两个样本的差异显著性检验
统计假设检验:首先对总体参数提出一个假设,通过样本数据推断这个假设是否可以接受,如果可以接受,样本很可能抽自这个总体,否则拒绝该假设,样本抽自另外总体.
参数估计:通过样本统计量估计总体参数。
5.1 单个样本的统计假设检验
5.1。1 一般原理及两种类型的错误
例: 已知动物体重服从正态分布N(μ,σ2),实验要求动物体重μ=10。00g.已知总体标准差σ=0.40g,总体平均数μ未知,为了得出对总体平均数μ的推断,以便决定是否接受这批动物,随机抽取含量为n的样本,通过样本平均数,推断μ。
1、假设:
H0: μ=μ0 或 H0: μ-μ0=0
HA: μ〉μ0 μ<μ0 μ≠μ0 三种情况中的一种。
本例的μ0=10.00g,因此
H0: μ=10.00
HA: μ〉10。00 或 μ〈10.00或 μ≠10。00
2、小概率原理 小概率的事件,在一次试验中几乎是不会发生的,若根据一定的假设条件计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而拒绝假设。
从动物群体中抽出含量为n的样本,计算样本平均数,假设该样本是从N(10。00,0。402)中抽取的,标准化的样本平均数
服从N(0,1)分布,可以从正态分布表中查出样本抽自平均数为μ的总体的概率,即P(U〉u), P(U〈-u), 以及P(|U|>u)的概率.如果得到的值很小,则抽自平均数为μ0的总体的事件是一个小概率事件,它在一次试验中几乎是不会发生的,但实际上它发生了,说明假设的条件不正确,从而拒绝零假设,接受备择假设。
显著性检验:根据小概率原理建立起来的检验方法。
显著性水平:拒绝零假设时的概率值,记为α。通常采用α=0。05和α=0。01两个水平,当P 〈 0.05时称为差异显著,P 〈 0.01时称为差异极显著.
3、临界值
例 从上述动物群体中抽出含量n=10的样本,计算出=10。23g,并已知该批动物的总体平均数μ绝不会小于10。00g,规定的显著水平α=0.05.根据以上条件进行统计推断.
H0: μ=10。00 HA: μ>10.00
根据备择假设,为了得到落在上侧尾区的概率P(U 〉 u),将标准化,求出u值.
P(U >1。82)=0.03438,P 〈 0.05,拒绝H0,接受 HA。
在实际应用中,并不直接求出概率值,而是建立在α水平上H0的拒绝域。从正态分布上侧临界值表中查出P(U 〉 uα)= α时的uα值,U > uα的区域称为在α水平上的H0拒绝域,而U 〈 uα的区域称为接受域。接受域的端点一般称为临界值.本例的u=1。82,从附表3可以查出u0.05=1.645, u > uα,落在拒绝域内,拒绝H0而接受HA.
4、单侧检验和双侧检验
上尾单侧检验:上例中的HA:μ>μ0,相应的拒绝域为U > uα.对应于HA:μ〉μ0时的检验称为上尾单侧检验.
下尾单侧检验:对应于HA:μ〈μ0时的检验称为下尾单侧检验。
其拒绝域为U 〈-uα。
双侧检验:对应于HA:μ≠μ0时的检验称为双侧检验。双侧检验的拒绝域为|U| >uα/2 .
5、单侧检验和双侧检验的效率:在样本含量和显著水平相同的情况下,单侧检验的效率高于双侧检验。这是因为在做单侧检验
利用了已知有一侧是不可能这一条件,从而提高了它的辨别力。所以,在可能的条件下尽量做单侧检验。
例 上例已经计算出u =1。82,上尾单侧检验的临界值u9,0。05=1。645,u > uα,结论是拒绝零假设。在做双侧检验时u仍然等于1。82,双侧检验的临界值为u9, 0。05/2 =1。96, |u|〈u0.025, 不能拒绝零假设。
6、两种类型的错误
(1)I型错误,犯I型错误的概率记为α
α=P(I型错误)=P(拒绝H0|H0是正确的,μ=μ0)
(2)II型错误,犯II型错误的概率记为β
βμ1=P(II型错误)=P(接受H0|H0是错误的,μ=μ1)
例 继续上例,抽出n=10的样本,=10。20g,检验假设
H0:μ=10。00g HA:μ 〉10.00g
标准化的样本平均数
临界值u0.05 =1。645,u 〈 u0。05, P > 0。05。结论是不能拒绝H0。
以样本平均数表示的临界值,可由下式得出
在下图中的位置已用竖线标出。犯I型错误的概率α,由竖线右侧μ0=10.00曲线下面积给出。犯II型错误的概率由竖线左侧μ1=10。30曲线下面积给出。
犯II型错误的概率β10.30=0.2327。
从上图中可以看出
(1)当μ1越接近μ0时,犯II型错误的概率越大。
(2)降低犯I型错误的概率,必然增加犯II型错误的概率。
(3)为了同时降低犯两种错误的概率,必须增加样本含量。
7、关于两个概念的说明:
(1)当P <α时,所得结论的正确表述应为:由样本平均数推断出的总体平均数μ与μ0之间的差异有统计学意义.即它们属于两个不同总体.习惯上称为“差异是显著的”。
(2)接受H0的更严密的说法应是:尚无足够理由拒绝H0。但习惯上采用接受H0和拒绝H0这种表达方法。
5.1.2 单个样本显著性检验的程序 (略)
5.1。3 在σ已知的情况下,单个平均数的显著性检验-u检验
检验程序如下:
1、假设从σ已知的正态或近似正态总体中抽出含量为n的样本。
2、零假设 H0: μ=μ0
备择假设 HA: ① μ > μ0
② μ 〈 μ0
③ μ ≠ μ0
3、显著性水平 在α=0.05水平上拒绝H0称为差异显著
在α=0。01水平上拒绝H0称为差异极显著
4、检验统计量
5、相应于2中各备择假设之H0的拒绝域
① u 〉 uα
② u <-uα
③ |u| > uα/2
6、得出结论并给予解释
例 已知豌豆籽粒重量服从正态分布N(377.2,3。32)在改善栽培条件后,随机抽取9粒,其籽粒平均重为379。2,若标准差仍为3。3,问改善栽培条件是否显著提高了豌豆籽粒重量?
解 ① σ已知
② 假设: H0: μ= 377。2
HA: μ > 377。2
③ 显著性水平: α=0。05
④ σ已知,使用u检验
⑤ H0的拒绝域:因HA:μ >μ0,故为上尾检验,当u 〉u0.05时拒绝H0 。u0。05=1.645.
⑥ 结论: u > u0。05 , 即P 〈 0.05, 所以拒绝零假设。栽培条件的改善,显著地提高了豌豆籽粒重量。
5。1。4 σ未知时平均数的显著性检验-t检验
检验程序如下:
1、假设从σ未知的正态或近似正态总体中抽出含量为n的样本.
2、零假设: H0: μ=μ0
备择假设: HA: ① μ 〉 μ0
② μ 〈 μ0
③ μ ≠ μ0
3、显著性水平: 在α=0.05水平上拒绝H0称为差异显著
在α=0.01水平上拒绝H0称为差异极显著
4、检验统计量: 当σ未知时以s代替之,标准化的变量称为t,服 从n-1自由度的t分布.t分布的临界值可从附表4中查出.
5、相应于2中各备择假设之H0的拒绝域:
① t > tα
② t <-tα
③ |t| 〉 tα/2
6、得出结论并给予解释.
例 已知玉米单交种群单105的平均穗重μ0=300g.喷洒植物生长促进剂后,随机抽取9个果穗,其穗重为:308、305、311、298、315、300、321、294、320g。问喷药后与喷药前的果穗重差异是否显著?
解 ① σ未知
② 假设: H0: μ=300
HA: μ ≠300
激素类药物需有适当的浓度,浓度适合时促进生长,浓度过高时反而抑制生长,在这里喷药的效果是未知的,并非仅能促进生长,需采用双侧检验
③ 显著性水平: α=0。05
④ σ未知应使用t检验,已计算出=308,s=9。62
⑤ H0的拒绝域:因HA:μ≠μ0,故为双侧检验,当|t|>t0。025时拒绝H0 。t0。025=2。306。
⑥ 结论:因|t|〉t0.025 , 即P 〈 0.05,所以拒绝零假设。喷药前后果穗重的差异是显著的.
若规定α=0。01,t0.01/2=3。355,t 〈 t0.005,因此喷药前后果穗重的差异尚未达到“极显著”。
5。1。5 变异性的显著性检验-χ2检验
χ2检验的基本程序如下:
1、假设从正态总体中随机抽取含量为n的样本,计算出样本s2。
2、零假设: H0: σ=σ0
备择假设: HA: ① σ 〉 σ0
② σ 〈 σ0
③ σ ≠ σ0
3、显著性水平: 在α=0。05水平上拒绝H0称为差异显著
在α=0。01水平上拒绝H0称为差异极显著
4、检验统计量:
统计量χ2服从n – 1自由度的χ2分布。
5、相应于2中各备择假设之H0的拒绝域:
① χ2 〉χ2α
② χ2 〈χ21-α
③ χ2 〈χ21-α/2 和 χ2 >χ2α/2
6、得出结论并给予解释。
例 一个混杂的小麦品种,株高标准差σ0=14cm,经提纯后随机抽出10株,它们的株高为:90、105、101、95、100、100、101、105、93、97cm,考查提纯后的群体是否比原群体整齐?
解
① μ未知,对未知总体的方差做检验
② 假设: H0: σ=14cm0
HA: σ < σ0
小麦经提纯后株高只能变得更整齐,因而使用下侧检验。
③ 显著性水平: 在α=0。01水平上做检验
④ 检验统计量:
⑤ 相应于备择假设HA:σ 〈 σ0之H0的拒绝域为χ2 <χ21-α,从附表 6中可以查出χ20.99=2。09
⑥ 结论:因χ2 〈 χ20。99,即P 〈 0。01,所以拒绝H0。结论是植株经提纯后变得非常整齐。
5。2 两个样本的差异显著性检验
问题的提出(P78)
5.2。1 两个方差的检验-F检验
F检验的基本程序如下:
1、从两个正态或近似正态总体中,独立地抽取含量分别为n1和n2 的两个随机样本,分别计算出s12和s22。与总体平均数μi无关。
2、零假设: H0: σ1=σ2
备择假设: HA: ① σ1 > σ2
② σ1 〈 σ2
③ σ1 ≠ σ2
3、显著性水平: 在α=0。05水平上拒绝H0称为差异显著
在α=0。01水平上拒绝H0称为差异极显著
4、检验统计量: 在抽样分布一章中已经给出F的定义
在零假设σ1=σ2下,统计量F变为
5、相应于2中各备择假设之H0的拒绝域:
① 相应于HA:σ1 〉 σ2,应做上尾单侧检验,当F>Fα时拒绝H0。
② 相应于HA:σ1 〈 σ2,应做下尾单侧检验,当F〈F1-α时拒绝H0,F的下侧临界值F1-α由下式给出:
一种变通的办法是把s2中较大者称为s12,这时只会用上侧检验,处理起来更方便些,对于结果无影响。
③ 相应于HA:σ1 ≠ σ2,应做双侧检验,当F>Fα/2和F〈F1-α/2时拒绝H0。
6、得出结论并给予解释。
例 测定了20位青年男子和20位老年男子的血压值,问老年人血压值个体间的波动是否显著高于青年人?(数据略)P80
解1
① 人类血压值是服从正态分布的随机变量。
② 假设: H0: σ1 = σ2
HA: σ1 < σ2
老年人的血压值在个体之间的波动,只会大于青年人,决不会小于青年人.
③ 显著性水平:规定α=0.05
④ 检验统计量:先计算出 s12 = 193。4, s22 = 937.7
⑤ 建立H0的拒绝域:根据备择假设,应为下侧检验,当F<F0.95时拒绝零假设。下侧临界值
⑥ 结论:F < F0.95,即P < 0。05。结论是拒绝H0,老年人血压值在个体之间的波动大于年青人。
解2 若以s2中较大者作为分子,备择假设则变为HA:σ2 〉σ1,成为上尾检验,所用的检验统计量为:
在查临界值时应注意,现在df2是分子,df1是分母。F0。05=2。18,F>F0.05, P < 0。05, 结论仍然是拒绝H0。
5。2。2 标准差(σi)已知时,两个平均数间差异显著性的检验
检验程序如下:
1、从σ1和σ2已知的正态或近似正态总体中抽出含量分别为n1和n2
的样本。
2、零假设 H0: μ1=μ2
备择假设 HA: ① μ1 > μ2
② μ1 < μ2
③ μ1 ≠ μ2
3、显著性水平 在α=0.05水平上拒绝H0称为差异显著
在α=0.01水平上拒绝H0称为差异极显著
4、检验统计量
在σi已知时两平均数差的标准化变量
在H0:μ1=μ2下,检验统计量为:
上式的分母称为平均数差的标准误差,记为
5、相应于2中各备择假设之H0的拒绝域
① u > uα
② u 〈-uα
③ |u| 〉 uα/2
6、得出结论并给予解释
例 调查两个不同渔场的马面鲀体长,每一渔场调查20条。平均体长分别为:=19。8cm,=18。5cm。σ1=σ2=7.2cm。问在α=0.05水平上,第一号渔场的马面鲀是否显著高于第二号渔场的马面鲀体长?
解
① 马面鲀体长是服从正态分布的随机变量,σ1和σ2已知.
② 假设: H0: μ1=μ2
HA: μ1 〉 μ2
③ 显著性水平: 已规定为α=0.05
④ 统计量的值:
⑤ 建立H0的拒绝域:上尾单侧检验,当u > u0.05时拒绝H0。从表中查出u0。05 = 1.645。
⑥ 结论:u 〈 u0。05,即P > 0。05,尚不能拒绝H0,第一号渔场马面鲀体长并不比第二号的长。
5.2.3 标准差(σi)未知但相等时两平均数间差异显著性检验-成组数据t检验
I。 方 差 齐 性 检 验:
使用双侧F检验。
1、从两个正态或近似正态总体中,独立地抽取含量分别为n1和n2
的两个随机样本,分别计算出s12和s22。
2、零假设: H0: σ1=σ2
备择假设: HA: σ1 ≠ σ2
3、显著性水平: α=0。05
4、检验统计量:
5、建立H0的拒绝域:
对于方差齐性应做双侧检验,当F〉Fα/2和F〈F1—α/2时拒绝H0.
6、得出结论判断方差是否相等。
II. 平 均 数 差 异 显 著 性 检 验
1、从σ1和σ2未知的正态或近似正态总体中抽出含量分别为n1和n2
的样本。
2、零假设: H0: μ1=μ2
备择假设: HA: ① μ1 > μ2
② μ1 〈 μ2
③ μ1 ≠ μ2
3、显著性水平: 在α=0.05水平上拒绝H0称为差异显著
在α=0.01水平上拒绝H0称为差异极显著
4、检验统计量:在标准差未知时,平均数差的标准化变量在抽样分布一章中已经给出。
在H0:μ1=μ2下,检验统计量为:
服从n1-1+n2-1自由度的t分布。在n1 = n2 = n时,上式可简化为:
在n1和n2都很大时,n1-1≈n1 , n2-1≈n2 , 上式又可简化为:
5、相应于2中各备择假设之H0的拒绝域:
① t 〉 tα
② t <-tα
③ |t| > tα/2
6、得出结论并给予解释。
例 两个小麦品种从播种到抽穗所需天数如下表,问两者所需的天数差异是否显著?
品种1 品种2
X1 X1′=X1-100 X1′2 X2 X2′=X2—100 X2′2
101 1 1 100 0 0
100 0 0 98 -2 4
99 -1 1 100 0 0
99 -1 1 99 -1 1
98 -2 4 98 -2 4
100 0 0 99 -1 1
98 -2 4 98 -2 4
99 -1 1 98 -2 4
99 -1 1 99 -1 1
99 -1 1 100 0 0
和 -8 14 -11 19
平均数 99。2 98。9
解
I. 方 差 齐 性 检 验:
使用双侧F检验。
① 小麦生长天数是服从正态分布的随机变量。
② 假设: H0: σ1=σ2
HA: σ1 ≠ σ2
③显著性水平: α=0。05
④ 检验统计量:
⑤ 建立H0的拒绝域:
F9, 9, 0。025=4。026, F9, 9, 0。975=0。248
⑥ 结论:F0。975 < F 〈 F0。025 , 即P 〉 0.05。方差具齐性.
II. 平 均 数 差 异 显 著 性 检 验
① 小麦生长天数是服从正态分布的随机变量.
② 假设: H0: μ1=μ2
HA: μ1 ≠ μ2
③ 显著性水平: α=0.05
④ 检验统计量:
⑤ 建立H0的拒绝域: 本例为双侧检验,当 |t| 〉 tα/2时拒绝H0,从附表4中查出t18, 0。025=2.10。
⑥ 结论:t < t0.025,即P 〉 0.05,接受H0.两个小麦品种从播种到抽穗所需天数差异不显著。
例 两种激素类药物对肾组织切片氧消耗的影响,结果为:(1)n1 = 9, x1 = 27。92, s12 = 8.673;(2)n2 = 6, x2 = 25.11, s22 = 1.843。问两种药物对肾组织切片养消耗的影响差异是否显著?
解 I。 方差齐性检验
H0:σ1=σ2 HA:σ1≠σ2 α=0。05
F < F0。025,即P 〉 0.05.可以接受σ1=σ2的假设。
II。 平均数间差异显著性检验
H0:μ1=μ2 HA: μ1≠μ2 α=0.05
t0。025 = 2.160, t > t0.025, 即P < 0。05。结论是:在α=0.05水平上,两种药物对肾组织切片氧消耗的影响刚刚达到显著.
5。2.4 标准差(σi)未知且可能不等时,两平均数间差异显著性检验(略)
5.2.5 配对数据的显著性检验-配对数据t检验
例 下表为不同组合的杂种F1籽粒蛋白质含量
父 本 西地迈罗A(a) 矬巴子1A(b) d=(a)—(b) d2
玛纳斯红 8.478 7.994 0.484 0。234
红菲特瑞他 7.512 7.141 0.371 0.138
忻 粱 7 7.222 8。267 –1。045 1.092
平罗娃娃头 8.053 8.280 –0.227 0.052
平 顶 冠 7。689 6.740 0.949 0.901
洋 大 粒 8。528 7.632 0.896 0.803
忻 粱 52 6。972 5。913 1。059 1.121
东海红公鸡 7.731 8。169 –0。798 0.637
板 农 1 5。760 7.570 –1。810 3。276
歪 脖 黄 7.930 7.569 0.361 0。131
千 斤 红 7.255 6。322 0。933 0.870
忻 粱 71 6.795 6.417 0.378 0。143
总 计 1.511 9。397
1、高粱蛋白质含量是服从正态分布的随机变量;配对数据。
2、零假设: H0:
备择假设: HA: ①
②
③
3、显著性水平: 在α=0.05水平上拒绝H0称为差异显著
在α=0.01水平上拒绝H0称为差异极显著
4、检验统计量: 标准化变量t
在零假设μd=0下,上式变为
t服从n-1自由度的t分布,其中的n为数据的对子数。
5、相应于2中各备择假设之H0的拒绝域:
① t > tα
② t 〈-tα
③ |t| 〉 tα/2
6、得出结论并给予解释。
上例的推断如下:
H0:μd = 0 HA:μd ≠ 0 α=0。05
t11, 0。025 = 2。201, |t| < t0。025, 即P > 0。05,接受H0,用不同的母本所配成的高粱杂交种籽粒蛋白质含量差异不显著。
5。2.6 -5。2。9 (略)
50
展开阅读全文