资源描述
授 課 目 錄
第1章 導 論
第2章 統計資料的整理與描述
第3章 機率導論
第4章 常用的機率分佈與統計分佈
第5章 描樣方法與描樣分佈
第6章 統計估計
第7章 統計檢定
第8章 變異數分析
第9章 相關分析與迴歸模式
第10章 無母數統計檢定
第11章 類別資料分析---列聯表與卡方檢定
第六章 統計估計
母體
樣本
分佈、參數
統計量
隨機抽取
推 論
檢定
計算
描述
當獲得母體的樣本資料時,可由各種機率分佈當中,選擇出最接近該母體的機率分佈,續之即估計該分佈之參數值,使樣本資料與母體參數有最佳的推論與檢定能力。
然即使隨機變數的機率分佈及其參數值已知,仍無法準確的預測某特定事件一定或不一定發生,而只能預測此事件發生之機率為若干。此不確定性發生的原因主要是因為自然現象有固有的隨機性(Inherent Randomness)。但不確定性的其他因素則可能包括分佈模式選擇的不適切,或參數推定不準確所致。雖然參數推定值的準確性可因樣本數的增加而提高。但固有的變異性確可能因為樣本數增加而益形顯著。
統計估計過程是由母體中抽取出數樣本,藉機率原理找出適當的樣本統計量,再以此樣本統計量推估母體參數。統計估計方法,一般分為點估計與區間估計兩種。
6.1 點估計(Point Estimation)
◎ 假設隨機變數X的母體機率密度函數f(x|q),其中q為未知的參數。為估計此未知的參數,則由母體中抽取出數樣本,得到觀測值為x1, x2,…,xn。
◎ 利用點估計方法求出一估計式(Estimator),以表示。再將觀測值為x1, x2,…,xn代入估計式中得到一數值,此數值稱之為參數q的估計值(Estimate)。
◎ 常用方法:(1) 最大概似法,(2) 動差法。
母體f(x|q)
觀測值為x1, x2,…,xn
估計式
參數q的估計值
6.2.1 最大概似法(Maximum Likelihood Method)
◎ 由Fisher (1912)提出。假設隨機變數X的母體機率密度函數f(x|q),其中q為未知的參數,為估計此未知的參數,則由母體中抽取出數樣本,得到觀測值為x1, x2,…,xn。則概似函數定義為
L(x1, x2,…,xn;q) = f(x1,q)f(x2,q)…f(xn,q) (6.1)
◎ 使概似函數L(x1, x2,…,xn;q)值為最大,則能求出估計式,稱此為最大概似估計式(MLE, Maximum Likelihood Method)
範例、某公司新推出光碟燒錄機,其使用壽命服從指數分佈f(x) = (1/q)e-x/q。為估計參數q以了解平均使用壽命,隨機抽取出11台樣本做測試,測得其壽命結果如下:8,10,13,14,19,21,27,28,34,41,52 (百小時)。試以最大概似法估計q值。
SOL:L(x1, x2,…,xn;q) = f(x1, q)f(x2, q)…f(xn, q)
ln L(x1, x2,…,xn;q)= -n ln q -(1/q)åni =1 xi
d (ln L)/dq = -n / q + (1/q2)åni =1 xi = 0
Estimator(估計式) =åni =1 xi /n
= (8+10+13+14+19+21+27+28+34+41+52)/11= 267/11
母體f(x) =(1/q)e-x/q
觀測值為8,10,13,14,19,21,27,28,34,41,52
估計式 =åni =1 xi /n
參數q的估計值 = 267/11
範例、假設隨機變數X~N(m, s2),從其中隨機抽取出一組樣本x1, x2,…,xn,試以最大概似法估計m, s2值。
SOL:L(x1, x2,…,xn;m, s2) = f(x1, m, s2)f(x2, m, s2)…f(xn, m, s2)
ln L(x1, x2,…,xn;m, s2) = ln
= -(n/2) ln (2p) - (n/2) ln (s2)- (å(xi-m)2)/ 2s2
範例、台灣的地理位置處於東亞地震帶,地震活動較頻繁。假設台灣發生有感地震的次數服從卜氏分佈Poi(m)。台東氣象站為了要估計此參數m,以了解台灣有感地震情形,於是觀察過去一年來的每月資料,得到台灣有感地震資料如下:9, 7, 12, 14, 3, 11, 7, 10, 4, 6, 8, 10。試以最大概似法求m之估計式,並由樣資料去估計m值。
SOL:L(x1, x2,…,xn;m) = f(x1, m)f(x2, m)…f(xn, m)
ln L(x1, x2,…,xn;m)= -nm +åni =1 xi ln m- ln Pni =1 xi!
d (ln L)/dm = -n + (åni =1 xi)/ m = 0
Estimator(估計式) =åni =1 xi /n
= (9+7+12+14+3+11+7+10+4+6+8+10)/12= 101/12=8.42
6.2.2 動差法(Moment Method)
◎ 由Pearson (1894)提出。假設隨機變數X的k次動差為mk= E[Xk],則樣本動差定義為
即為對k次動差mk點估計。
◎對母體平均值m、變異數s2做點估計
一次動差( k=1) Þ Þ
二次動差(k=2) Þ
◎ 對常態分配m、s2而言,用動差法估計與用最大概似法估計的結果是一樣的。但對其他分配,其結果有異。
範例、假設隨機變數X~U(0, q)代表致遠校門口學生等候計程車時間所滿足之分佈,茲從學生等候計程車時間,隨機抽取出5樣本:0.5、1、2、3.5、8 (分鐘),試以動差法估計q值。
SOL:均勻分佈以X~U(a, b)表示,其期望值與變異數為:
E[x]= (a+b)/2 Var[x] = (b-a)2/12
X~U(0, q) Þ E[x] = q/2 Þ m = q/2 Þ q = 2m
=(2/n) åni =1 xi = 2= 2(0.5+1+2+3.5+8)/5 = 6 (動差法)
若用最大概似法估計U(0, q),易得q之最大概似法估計式 = max1 £ i £ n xi = {0.5、1、2、3.5、8}= 8
6.2 如何評量『點估計』的優良性
同一未知參數的估計式有很多種,何者最佳? 統計學定義三個準則:(1) 不偏 (2) 有效性(3) 最小變異數。
定義:不偏估計式(Unbiased Estimator)
設未知參數q的估計式為,可視為一隨機變數。因此,隨機變數會服從某一機率分佈,當此分佈的期望值E[]正好等於未知參數時,即E[]= q,稱為q的不偏估計式。
範例、假設由一個隨機變數X~N(m, s2),從其中隨機抽取出5個樣本x1, x2, x3, x4, x5,試下列4個估計式,何者是m的不偏估計式。
(1) = x1,(2) = (x1+x5)/2,(3) = (x1+2x5)/2,
(4) = (x1+x2+x3+x4+x5)/5
SOL:(1) = E[x1]= m
(2) = E[(x1+x5)/2]= m
(3) = E[(x1+2x5)/2]= 3m/2
(4) = E[(x1+x2+x3+x4+x5)/5]= m
\是m的不偏估計式。
範例、假設由一個隨機變數X~N(m, s2),從其中隨機抽取出n個樣本,試下列樣本變異數S2是否是母體變異數s2之不偏估計式。
SOL:
E[S2] = E[åni =1(xi –)2/(n-1)]= E[åni =1(xi2 –n2)]/(n-1)
={åni =1E[xi2]- nE[]}/(n-1)
= {n(m2+ s2)- n(m2+ s2/n)}/(n-1) = s2
◎ 通常由一個隨機變數X~N(m, s2),從其中隨機抽取出n個樣本,下列關係成立,且為不偏估計值。
Þ E[]= m、E[]= m1-m2、 E[S2]= s2
Þ E[]= p、E[] = p1-p2
定義:有效性(Efficiency)
設茲有二個不偏估計式,即為與。若Var[]<Var[],則稱比有效率。
範例、承上題,假設由一個隨機變數X~N(m, s2),從其中隨機抽取出5個樣本x1, x2, x3, x4, x5,試下列4個估計式,何者是m的不偏估計式。
(1) = x1,(2) = (x1+x5)/2,(3) = (x1+2x5)/2,
(4) = (x1+x2+x3+x4+x5)/5
SOL:
是m的不偏估計式。
Var[] = Var[x1] = s2
Var[] = {Var[x1] + Var[x5]}/4= s2/2
Var[] = s2/5
之變異數最小,故選用來估計m最佳,即最有效率也。
定義:最小變異不偏估計式(Minimum-Variance Unbiased )
若一不偏估計式,且其變異數比其他不偏估計式的變異數小,則稱此不偏估計式為最小變異不偏估計式,亦稱最佳估計式(Best Estimator)。如,上題即為最小變異不偏估計式。
範例、假設x1 , x2 , x3由波松機率密度函數Poi(m)其中m是未知參數,隨機抽取的三個樣本。現有四個估計式分別為:
(1) = x1,(2) = (x1+x2)/2,(3) = (x1+2x2)/3,
(4) = (x1+x2+x3)/3
試問:(A)那些是m的不偏估計式? (B)在所有不偏估計式中,何者具有最小變異數?
SOL:
(A) (1)、(2)、(3)、(4)皆是m的不偏估計式。
(B) Var[] = Var[x1] = m
Var[] = Var[(x1+x2)/2]= m/2
Var[] = Var[(x1+2x2)/3]= 5m/9
Var[] = Var[(x1+x2+x3)/3]= 3m/9
Var[]>Var[]>Var[]>Var[]
之變異數最小,故選用來估計m最佳。
Excel , p.175 ~ p. 186
6.3 區間估計(Interval Estimation)
用點估計方法找出q的估計值為時,通常的樣本估計值不一定會準確的落於q上,而是略大於或小於q,即的樣本估計值會落於q附近區間內。將估計結果以區間的形式表示之---『區間估計』,即『此區間包含了真正的參數q』。
區間估計之程序:
母體f(x|q)
估計式
Þ區間(L, U)
區間(L, U)包含參數q的機率1-a
以機率表示:
P(L £ q £ U) = 1-a
其中1-a 為信賴水準(Confidence Level)。a 為顯著水準(Significance Level)。(L, U)為信賴區間(Confidence Interval),即對參數q所做估計的1-a 信賴水準的信賴區間。L為信賴區間下限,U為信賴區間上限。
以樣本平均值的95%信賴區間為例,即在100次抽樣中有95次包含母體平均值,亦就是表示會有5次沒有包含母體平均值。a = 5%,P(L £ q £ U) = 1-a = 1- 5% = 95%。
令信賴區間長度 = L - U,在1- a 信賴水準下,區間長度(即誤差是也)愈短,表示此區間估計的精確度愈高。亦即對未知的母體參數q的可能變動範圍較小,其掌握度較高。
6.3.1 常態分佈母體平均值m之區間估計
母體N(m,s2)
為m之最佳估計值
m的區間估計由以 為中心往兩邊延伸
變異數s2已知
變異數s2未知
6.3.1.(a) 變異數s2已知
假設為由N(m, s2)中隨機抽取n個樣本的樣本平均值。令Za/2代表標準常態分佈下,右邊機率為a/2所對應的Z值;-Za/2代表標準常態分佈下,左邊機率為a/2所對應的Z值。
95%
a/2 =0.025
a/2 =0.025
Za/2
-Za/2
1- a = P(-Za/2< Z < Za/2) = P(-Za/2< < Za/2)
P(-Za/2(s)/(n)1/2< m <+ Za/2(s)/(n)1/2)
\母體平均值m的1- a信賴區間為:
(-Za/2(s)/(n)1/2, + Za/2(s)/(n)1/2)
範例、致遠實習銀行欲知學生的平均一般定期存款金額,以便業務拓展參考。於是隨機抽取49位一般定期存款金額學生,得知此49位學生一般定期存款金額為3萬元。假設學生一般定期存款金額為常態分佈,變異數已知為0.64萬元,試問平均一般定期存款金額的90%、95%與99%之信賴區間?
SOL:
\母體平均值m的1- a信賴區間為
(-Za/2(s)/(n)1/2,+ Za/2(s)/(n)1/2)
n = 49,= 3,s2= 0.64;
90%之信賴區間 Þ a/2 = 0.05
(-Z0.05(s)/(n)1/2,+ Z0.05(s)/(n)1/2)= (3 ± 1.645(0.8)/(49)1/2)萬元
95%之信賴區間 Þ a/2 = 0.025
(-Z0.025(s)/(n)1/2,+ Z0.025(s)/(n)1/2)= (3 ± 1.96(0.8)/(49)1/2)萬元
99%之信賴區間 Þ a/2 = 0.005
(-Z0.005(s)/(n)1/2,+ Z0.005(s)/(n)1/2)= (3 ± 2.5758(0.8)/(49)1/2)萬元
6.3.1.(b) 變異數s2未知
一般情況下,變異數s2常是未知的,則上述之信賴區間便不可使用,須修正如下:
當n 夠大(n ³ 30),S2=[åni =1 (xi-)2]/(n-1) ÞÞÞs2
\母體平均值m的1- a信賴區間為:
(-Za/2(S)/(n)1/2, + Za/2(S)/(n)1/2)
當n不大(n £ 30),= t n-1
\母體平均值m的1- a信賴區間為:
(-ta/2,n-1(S)/(n)1/2, + ta/2,n-1(S)/(n)1/2)
萬一不是常態母體,而且樣本數又小,則須用其他方法,如無母體統計之方法。
範例、致遠管理學院欲知學生每天上網平均時間,於是隨機抽取26位學生,得知此26位學生平均每天上網時間80分鐘。樣本標準差為30分鐘。假設學生每天上網平均時間為常態分佈,變異數未知,試問該校學生每天上網平均時間的90%、95%與99%之信賴區間?
SOL:
\母體平均值m的1- a信賴區間為
(-ta/2,n-1(S)/(n)1/2, + ta/2,n-1(S)/(n)1/2)
n = 26,= 80,S= 30;
90%之信賴區間 Þ a/2 = 0.05
(-t0.05,25(S)/(n)1/2,+t0.05,25(S)/(n)1/2)= (80 ± 1.708(30)/(26)1/2)分鐘
95%之信賴區間 Þ a/2 = 0.025
(-t0.025,25(S)/(n)1/2,+t0.025,25(S)/(n)1/2)= (80 ± 2.06(30)/(26)1/2)分鐘
99%之信賴區間 Þ a/2 = 0.005
(-t0.005,25(S)/(n)1/2,+t0.005,25(S)/(n)1/2)= (80 ± 2.787(30)/(26)1/2)分鐘
6.3.2 常態分佈母體平均值m1-m2之區間估計
通常是應用在『不同母體間某性質差異之比較』,如工管系學生統計學成績的差異,對母體平均值差m1-m2做區間估計,其方法與母體平均值m的區間估計方法相同。
6.3.2.(a) 變異數s12, s22已知
假設兩樣本平均值與分別來自兩母體N(m1, s12)、N(m2, s22),由上節知-為m1-m2之最佳點估計式,茲對此兩母體平均值差m1-m2進行區間估計,便是以-為中心往兩邊延伸。
1- a = P(-Za/2< Z < Za/2)= \母體平均值m的1- a信賴區間為:
±Za/2[(s12)/(n1)+(s22)/(n2)]1/2
6.3.2.(b) 變異數s12, s22未知
一般情況下,變異數s12, s22常是未知的,則上述之信賴區間便不可使用,須修正如下:
當n 夠大,以S12, S22 ÞÞÞ s12, s22
\母體平均值m的1- a信賴區間為:
±Za/2[(S12)/(n1)+(S22)/(n2)]1/2
當n不大,而s12= s22= s2,採t分配處理之。
其中『共變異數』為s2之估計式。
\母體平均值m的1- a信賴區間為:
範例、某房地產投資公司現有2種土地投資計畫,其5年盈收率平均值為m1, m2。假設投資第1類土地50筆,投資第2類土地75筆,其5年平均盈餘為=120,=110(百萬)。(a) 盈餘的變異數已知,且s12= s22=30,試問m1-m2的90%之信賴區間? (b) 盈餘的變異數未知,但樣本變異數S12=20, S22=25,試問m1-m2的90%之信賴區間? (c) 盈餘的變異數未知,但是s12= s22= s2,且n1=12,n2=10而樣本變異數S12=20,S22=25,試問m1-m2的90%之信賴區間?
SOL:
(a) s12= s22= 30,-=10,\m1-m2的90%之信賴區間為:
(b) S12=20,S22=25,\m1-m2的90%之信賴區間為:
(c) n1-n2-2=20,\m1-m2的90%之信賴區間為:其中
6.3.3 非常態分佈母體平均值m之區間估計
上述就常態母體平均值與平均值差之區間估計方法討論之。若隨機本並非來自常態分佈母體時,當樣本數n夠大,可依『中央極限定理』,類似P(L £ q £ U) = 1-a 推導即可。因此對於非來自常態分佈母體平均值m之區間估計:
(a) 變異數已知
母體平均值m的1- a信賴區間為:± Za/2(s)/(n)1/2
(b) 變異數未知
母體平均值m的1- a信賴區間為:± Za/2(S)/(n)1/2
範例、依據經驗顯示,吹風機的壽命服從指數分配。某電氣公司生產部經理欲估計新生產的一批吹風機的平均壽命。茲隨機抽取50台吹風機測試,得其平均壽命為980小時,樣本標準差260小時。試問此批吹風機的平均壽命的95%信賴區間?
SOL:\母體平均值m的95%信賴區間為 ± Za/2(S)/(n)1/2
n = 50,= 980,S = 260;
± Z0.025(S)/(n)1/2= (980 ± 1.96(260)/(50)1/2)萬元
6.3.4 常態母體變異數s2之區間估計
自常態母體N(m, s2)中隨機抽取n個樣本,因樣本變異數S2=åni =1(xi –)2/(n-1)為母體變異數s2的最佳估計式,又(n-1)S2/s2= c2n-1。另因
1-a = P(L £ q £ U)=P(c21-a/2,n-1< (n-1)S2/s2 <c2a/2,n-1)
=P[(n-1)S2/c2a/2,n-1< s2 <(n-1)S2/c21-a/2,n-1]
\母體變異數s2的1- a信賴區間為:
(n-1)S2/c2a/2,n-1< s2 <(n-1)S2/c21-a/2,n-1
即變異數s2落於信賴區間[(n-1)S2/c2a/2,n-1, (n-1)S2/c21-a/2,n-1 ]之機率為1- a
(注意:卡方分佈並非對稱形狀)
範例、某食品公司特製提神飲料,強調是經過嚴格品管的飲料,其內容量的變異數對品質控制因素相當重要。假設每瓶提神飲料的內容量符合常態分佈。茲隨機抽取10個樣本如下:199、198、201、200、199、198、197、203、201、204(公克)。試問每瓶提神飲料的內容量的變異數s2的95%信賴區間?
SOL:
= (199+198+201+200+199+198+197+203+201+204)/10=200
S2= åni =1(xi –)2/(n-1)= 5.11
母體變異數s2的95%信賴區間為
[(n-1)S2/c2a/2,n-1, (n-1)S2/c21-a/2,n-1 ]=
[9(5.11)/19.0228, 9(5.11)/2.70039]=(2.418, 17.03)
6.3.4.(a) 兩常態母體變異數比s12/s22之區間估計
對兩常態母體變異數比s12/s22進行估計,以比較何者較具有穩定性。如兩種不同的生產過程、兩種不同的投資組合、兩地區的經濟水平等。假設S12及S22為來自常態母體N(m1, s12) 與N(m2, s22)中隨機抽取出n1與n2個樣本之樣本變異數,試下列樣本變異數S2是否是母體變異數s2之不偏估計式。若令
F = (S12/s12)/( S22/s22)=
另因
1-a = P(L £ q £ U)
\母體變異數比s12/s22的1- a信賴區間為:
簡化
範例、承上題,某食品公司特製提神飲料銷售極佳,因此另推出一條生線,為了要與原有之生產線比較,品管室分別由此兩條生產線隨機抽取n1=10與n2=11個樣本,並得S12= 9.2,S22= 8.9。假設兩條生產線生產之提神飲料的內容量符合常態分佈。試問每瓶提神飲料的內容量的變異數比s12/s22的90%信賴區間?
SOL:
兩母體變異數比s12/s22的90%信賴區間為
=[(9.2/8.9)(1/3.02), (9.2/8.9)(3.14)= (0.34, 3.25)
6.3.5.(a) 母體比例p之估計
欲估計母體中具有某種屬性的比例p,點估計=x/n為最佳估計式,其中n為實驗的次數,x為成功的之次數。樣本比例的期望值與變異數為E[]= p,V[]= p(1-p)/n。根據中央極限定理,當n很大時,樣本比例的抽樣分佈會近似於常態分佈,~N(p, p(1-p)/n)。另因,
1-a = P(L £ q £ U) = P(-Za/2£ Z £ Za/2)
= P(-Za/2£ (-p)/ [(1-)/n]1/2 £ Za/2)
=P{- Za/2[(1-)/n]1/2£ p £+Za/2[(1-)/n]1/2}
\母體比例p的1- a信賴區間為:
{± Za/2[(1-)/n]1/2}
範例、致遠管理學院欲知學生抽煙人口比例,於是隨機抽取100位學生,發現有19位學生是抽煙人口,試問該校學生抽煙人口比例的95%之信賴區間?
SOL:該校學生抽煙人口比例的95%信賴區間為
{± Za/2[(1-)/n]1/2}={0.19±1.96[0.19(0.81)/100]1/2}=
= (0.19 ± 0.08)
6.3.5.(b) 兩個二項分佈母體比例差p1 – p2之估計
假設有兩個二項分佈母體,其母體比例分別為p1, p2,則其樣本比例最佳估計式為=x1/n1, =x2/n2,其中n1, n2分別為兩個母體實驗的次數,x1, x2為成功的之次數。當樣本很大時,樣本比例的抽樣分佈會近似於常態分佈,~N(p1- p2,p1(1-p1)/n1+ p2(1-p2)/n2)。另因,
1-a = P(L £ q £ U) = P(-Za/2£ Z £ Za/2)
\兩母體比例差的1- a信賴區間為:
{()± Za/2[(1-)/n1+(1-)/n2]1/2}
範例、致遠管理學院欲知學生暑期出國旅遊中,男、女人數比例,於是隨機抽取暑期出國旅遊之100位學生,發現男性有25位、女性有10位,試問該校學生暑期出國旅遊的男、女人數比例的95%之信賴區間?
SOL:該校學生抽煙人口比例的95%信賴區間為
{()±Za/2[(1-)/n1+(1-)/n2]1/2}=
{(0.25-0.1)± 1.96[0.25(0.75)/100+0.1(0.9)/100]1/2}=
(0.15 ± 0.103)
6.4決定樣本數
在進行區間估計時,信賴區間的長度(係±誤差是也,即2倍誤差)愈短愈好,然信此長度受因於樣本數與信賴水準1-a 的影響。
6.4.(a) 估計母體平均值時,如何選取最少樣本數
因母體平均值m的1- a信賴區間為:
(-Za/2(s)/(n)1/2,+ Za/2(s)/(n)1/2)
其區間的長度(d)(係±誤差是也,即2倍誤差) (+Za/2(s)/(n)1/2-+ Za/2(s)/(n)1/2)=2 Za/2(s)/(n)1/2
其樣本數之決定
2 Za/2(s)/(n)1/2 £ d ÞÞÞn ³ [2 Za/2(s)/d]2
故欲將1-a 信賴水準的區間長度維持在區間的長度 d 之內,得先將樣本數n設定大於[2 Za/2(s)/d]2的數值。
實際運用時,母體變異數未知,常採樣本全距的1/4來估計 s ,即『s » (樣本全距)/4』,因經驗法則,幾乎95%以上的觀察值會落在母體平均值 m 左右2個標準差的範圍內。
範例、工管系欲知『**品管試驗』的平均操作時間,該任課老師發現操作時間最長為28分鐘、最短為12分鐘。在90%之信賴水準下,若希望此試驗平均操作時間在2分鐘以內,試問須要抽取多少學生才能合乎要求?
SOL:
操作時間最長與最短相差為(28-12=)16分鐘,即4s »16,故s = 4
n³[2 Za/2(s)/d]2 = [2(1.645)(4)/2]2 = 43.03
故須要44學生才能合乎要求---若希望此試驗平均操作時間在2分鐘以內(即誤差為1分鐘以內)。
6.4.(b) 估計兩母體平均值差時,如何選取最少樣本數
同理(n1= n2 = n)
2 Za/2[(s12)/(n)+ (s22)/(n)]1/2 £ d
ÞÞÞn ³ {2Za/2[(s12)+ (s22)]1/2/d}2
範例、工管系欲比較2種『**品管試驗』方法,因此將學生分成兩組,第1組採用第1種方法、第2組採用第2種方法。試驗完成後,實際操作,並記錄試驗時間。該任課老師發現此2種方法的操作時間最長與最短相差約均為12分鐘。在95%之信賴水準下,若希望兩組平均試驗時間差的估計在3分鐘以內(即誤差3分鐘以內),試問每組須要多少學生才能合乎要求?
SOL:
操作時間最長與最短相差約均為12分鐘,即4s »12,故s1= s2= s »3
n ³ {2Za/2[(s12)+ (s22)]1/2/d}2
={2(1.96)[(9)+ (9)]1/2/3}2 =30.73
故此每組須要31學生才能合乎要求。
6.4.(c) 估計母體比例p時,如何選取最少樣本數
同理
2 Za/2[(1-)/n]1/2 £ d ÞÞÞn ³ {2 Za/2[(1-)/d]1/2}2
當=(1-)=0.5時,(1-)為最大值1/4,因此
n ³ {2 Za/2/d}2
範例、工管系欲知學生對統計學課程的接受率p,以作為該課程教學之參考。若希望統計學課程的接受率p,在90%之信賴水準下的區間長度控在0.2之內(即誤差在0.2之內),試問該系應抽取多少樣本才能合乎要求?
SOL:
最保守估計:n ³ {2 Za/2/d}2 = {2 (1.645)/0.2}2 = 67.65
至少抽取68位學生樣本才能合乎要求。
抽樣誤差
通常民調所涉及者即比率問題,如有多少的比率喜歡這個,有多少的比率喜歡那個,倘為是喜歡的比率,則1-即不喜歡的比率。依比率的抽樣理論,比率之標準誤(Standard Error)即,
[(1-)/n]1/2
其中為為是喜歡的比率,n為樣本數
當大樣本時,此比率的抽樣分佈呈常態分佈,因此95%的信心水準即1.96。欲使抽樣誤差在3%,即,
1.96*[(1-)/n]1/2= 0.03 ,假設= 0.5,則
1.96*[0.5(1-0.5)/n]1/2= 0.03 ,則 n = 1067
然而,不等於0.5時,n會較小些。總之,在95%信心水準下,欲使比率的抽樣誤差在3%時,樣本數至多須1067人。
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
n
385
683
897
1025
1067
1025
897
683
385
倘使比率的抽樣誤差在1%時,樣本數至多須9604人。
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
n
3485
6147
8067
9120
9604
9120
8067
6147
3485
習題一
1. 屏東東港海鮮聞名南台灣,每年秋冬之際盛產紅蟳肥美味佳,吸引大批饕客。根據過去經驗,每隻紅蟳重量服從常態分配,標準差為3兩。為了估計紅蟳平均重量m,我們從這整櫃紅蟳中抽出了8隻,測量其重量如下:7,8,12,8,10,9,9,11。試求出此批紅蟳平均重量m的90%信賴區間(9.25±1.74)。
2. 衛生署藥物研究所調查坊間暗地流行的快樂丸,是否產生超活力,於是將10mg快樂丸藥劑注入50隻小白鼠體內然後對每隻小白鼠做活力測驗。得到樣本平均數。若活力測驗服從常態分佈,試求活力測驗平均值m的95%信賴區間(15.1 ± 1.275)。
3. 海山企業集團的員工反應:新成立的分公司的地點不佳,以致於每天必須花費許多時間在塞車上。為此,公司進行調查員工塞車的狀況。現在調查20名員工,發現員工平均花費在塞車的時間為36.5分鐘,樣本標準差為11.3分鐘。假設每位員工每天花費在塞車的時間服從N(m, s2),試求每位員工花費在塞車上的平均時間m之95%信賴區間(36.5 ± 5.29)。
4. 科學中偉大的發現往往是由創造力豐富的年輕人所提出的。下表是16世紀中葉至20世紀的12個重大科學突破的歷史:
科學發現
科學家
年代
年齡
太陽中心論
哥白尼
1543
40
天文學的基本定律
伽利略
1600
43
運動定律、微積分、萬有引力
牛頓
1665
23
電的實質
富蘭克林
1746
40
燃燒即氧化
拉瓦席
1774
31
進化論
達爾文
1858
49
光的電磁場
麥斯威爾
1864
33
留聲機、電燈
愛迪生
1877
30
X放射線
居禮夫人
1896
34
量子論
普朗克
1901
43
相對論
愛因斯坦
1905
26
量子力學的數學基礎
薛丁爾
1926
39
假設提出重大科學突破時科學家的年齡服從N(m, s2)分佈,變異數未知。試求重大科學突破時科學家平均年齡m的95%信賴區間(35.92 ± 4.89)。
5. 高血壓是近年來國人罹患率甚高的疾病。醫護人員不斷地找尋有效的方法來治療高血壓。某醫學院教授想瞭解藥物A及藥物B何者對治療高血壓較為有效。現在各別選取50名高血壓病人,分別以藥物A及藥物B治療。則血壓下降的程度如下:藥物A:樣本平均值14.31、樣本標準差為1.63,及藥物B:樣本平均值13.28、樣本標準差為1.82。根據以往經驗,以藥物A,B來治療血壓下降的程度服從均勻分配。試求在這二種藥物的治療之下,血壓下降之平均數差m1-m2的95%信賴區間(1.03 ± 0.677)。
6. 神數電腦公司為測試二種電腦CPU速度,將8個以完成的Pascal程式,分別在這兩種電腦上執行,CPU所花費的時間如下:
程式
Computer 1
Computer 2
1
32
28
2
47
42
3
60
55
4
24
25
5
45
42
6
55
49
7
51
52
8
30
36
若兩種電腦CPU所花費的時間分別服從N(m1, s12), N(m2, s22)未知。試求此二種電腦CPU平均時間差m1-m2的95﹪信賴區間(1.875 ± 12.82)。
7. 雪山飲料公司專門製造蘆薈露健康飲料。該公司老闆想要瞭解裝填機器釋出飲料量的變異程度,以控制產品品質。於是隨機抽取10瓶蘆薈露,並求出蘆薈露量之樣本標準差S=1.2cc.,假設機器每次釋出的蘆薈露量是服從N(m, s2),試求該機器每次釋出蘆薈露量變異數s2的95%信賴區間(0.68, 4.8)。
8. 台北市和平高中的自然組數學教師想要研究在該核模擬考中,考生數學成績的變異程度。現從自然組中隨機抽取41位考生,並求出他們成績的樣本標準差S=18。假設全校自然組考生的數學成績呈常態分佈N(m, s2),試求自然組考生數學成績變異數s2的95%信賴區間(218.396, 530.429)。
9. 社會學者曾提出社會貧富懸殊過大,是造成犯罪率增加的主要原因之一。中央研究院社會科學所研究群針對兩個犯罪率明顯不同的城市,做居民年所得的抽樣調查。自城市A抽出41個樣本,自城市B抽出31個樣本,得到SA2=16,SB2=10。假設兩城市居民年所得呈常態分佈。試求sA2/sB2之90%信賴區間(1.89, 2.78)。
10. 洋洋貿易公司品質單位要調查新進一批禮品中瑕疵品的比例p。調查人員從這些批禮品中隨機抽取了32件樣本,發現其中4件是瑕疪品。試求此批禮品中瑕疪品比例p的95%信賴區間(0.125 ± 0.096)。
11. 某假日職棒與職籃比賽同時開打,主辦單位想要比較這兩場比賽女性觀眾比例差距。假設在職棒比賽中女性觀眾的比例為p1,現從觀眾中抽取800人,發現其中有300人為女性。另外在職籃比賽中,女性觀眾的比例為p2,也從中抽取觀眾200人,發現其中有36人為女性。試求職棒與職籃兩場比賽女性觀眾的比例差p1-p2之95%信賴區間(0.195 ± 0.002)。
12. 三商郵購公司想要估計顧客電話訂購至收到商品的平均時間。研發部經理根據經驗知道,郵遞時間最多8天可寄達。試問在95%信賴水準下,他要估計郵遞平均時間在1天以內時,該研發部經理應抽取多少樣本才能合乎要求(62)?
Range/4= s,8/4= s,n= {2*1.96*2]2=61.46
13. 為了引水與放水方便,大多數的能源工廠喜歡蓋在河流或海岸邊。由於近年來生態環保的要求,能源工廠必須提交環保評估規劃,方能營運。根據資料顯示,能源工廠排
展开阅读全文