资源描述
按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,變異數與標準差,變異數,:,離差,(,資料值與期望值的差異,),平方和的平均,標準差,:,變異數的平方根,變異數的單位是原資料單位的平方,標準差的單位同原資料的單位,母體變異數,:,樣本變異數,:,計算樣本變異數時,分母取,(n-1),而非,(n),的原因,:,實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所,抽選樣本的不同而有變動,(,非固定,),,若考慮很多次抽樣,每次都以,”,的,公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體,變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除,以,n,,則平均而言會偏向低於母體變異數,1,變異數,(,或標準差,),與期望值一樣,容易受極值的影響,例,:(,起薪的資料,),若將最大值改為,10,000,,則,2,起薪的資料,3,變異係數(Coefficient of Variation),變異係數定義為,CV,是量測相對,(,於期望值,),分散程度的量數,表示標準差佔期望值的百分比,通常小於,1,例,:(,起薪的資料,),表示薪資的,分散程度約為期望值的,5.6%,變異係數在財務分析上可用來計算相對的風險,4,變數變換對期望值與標準差的影響,設變數,Y,為變數,X,的函數,:y=,g(x,),變數,Y,之觀察值的期望值通常無法直接以,X,變數之期望值的相同函數計算,但線性函數則例外,若 則,但對標準差的影響則為,x,y=ax+b,y=ax,y=x+b,5,例,:,假設成本,(C),是產量,(x),的線性函數,,變動成本,+,固定成本,若每月平均產量為 標準差,則,而產量與成本的變異係數則分別為,6,Z分數(z-score),是一個特殊的線性,變數變換,:,未知時以 代之,而常另稱之為,t,分數,(t-score),正的,Z,分數表示變數值比期望值大,z,個標準差,負的,Z,分數表示變數值比期望值小,|z|,個標準差,變數變換後的,Z,分數是無單位的,所以適用於比較不同資料集之資料值在各自資料集裡的相對位置,例如,:,林同學身高的,z,分數為,0.6,,而體重的,z,分數為,0.2,;表示比班上平均身高高,0.6,個標準差,而比平均體重重,0.2,個標準差;所以在班上是屬於中等個子,但稍微高一些,7,經驗法則(Empirical Rule),若原資料呈對稱如吊鐘型的分佈,則經變數變換後的,Z,分數會變為對稱於零的吊鐘型分配,且分配的型態固定,(,不因標準差的大小而有不同,),,此通稱為標準常態分配,(Standard Normal Distribution),大約有,68%,的,z,分數會對稱分佈在,+,1,之間,,大約有,95%,的,z,分數會對稱分佈在,+,2,之間,,而幾乎所有的,z,分數會對稱分佈在,+,3,之間,8,保齡球成績的資料,9,0,1,2,3,-1,-2,-3,68%,99.7%,95%,10,謝比契夫(Chebyshev)不等式,若原資料的分佈非對稱,則至少有,的資料會落在,期望值,+,z,倍標準差,之間,,但,z,須大於,1,Z,2,75%,3,89%,4,94%,11,例,:(,起薪的資料,),若起薪分配的期望值,=2,940,,標準差,=165.65,,則至少有,75%,畢業學生的起薪會在,2,940,+,2(165.65)=(2,608.7,3,105.65),之間,89%,畢業學生的起薪會在,2,940,+,3(165.65)=(2,443.05,3,436.95),之間,94%,畢業學生的起薪會在,2,940,+,4(165.65)=(2,277.40,3,602.60),之間,12,離群值(Outliers),Z,分數可用來檢查資,料集裡是否有離群值,:,一般而言,若,Z,分數的絕對值大於,3,,則稱對應的資料值為,離群值,離群值可能是錯誤的資料,也可能是較特殊的資料,如果是錯誤的資料,須訂正或移除後,才進行統計分析,如果是特殊的資料,則可比較移除與不移除下的兩種分析結果,折衷或採其中之一較合理的結果,13,箱型圖(Box Plot),五個統計量,:,Min,Q1,Q2,Q3,Max,繪製圖型的步驟,:,由,Q1,Q3,劃一個箱型,以,Q2,將箱型分成兩部分,由箱型兩邊各劃一條平行直線,向外延伸到,Min,與,Max,在箱型兩邊向外,1.5,倍,IQR,處,各劃一條垂直直線,在箱型兩邊向外,3,倍,IQR,處,各劃一條垂直直線,Q1,Q2,Q3,大約將所有資料平分成四份,14,起薪資料的箱型圖,Min=2,710 Q1=2,865 Q2=2,905 Q3=3,000 Max=3,325,IQR=135 Q1-1.5 IQR=2,663 Q3+1.5 IQR=3,203,15,共變異數(Covariance)與相關係數(Correlation Coefficient),量測兩量化變數之間線性關聯程度的量數,例如,:,廣告次數,vs.,銷售金額,溫度,vs.,餅乾的脆度,若觀察資料的序對 呈現狹長的帶狀分佈,則表示兩變數具有線性關聯,分布越集中,越有關聯,計算公式,:,母體共變異數,:,樣本共變異數,:,母體相關係數,:,樣本相關係數,:,16,例:,廣告次數(x)vs.銷售金額(y),17,相關係數是無單位的,且係數值一定會介於,+1,與,-1,之間;正的係數表示正向的相關,負的係數表示負向的相關,係數值越接近,+,1,,相關程度越高,係數值接近零,,表示無明顯的線性相關,但並不表示無其他非線性函數的關係,,例如,:,x,-2.0,-1.5,-1.0,-0.5,0.0,0.5,1.0,1.5,2.0,y,6.00,4.25,3.00,2.25,2.00,2.25,3.00,4.25,6.00,18,相關係數等於0,但兩變數有拋物線的關係,19,相關係數高並不必然有因果關係,例如,:,人事需求,vs,新增公司數目,如同平均數與標準差一樣,相關係數也易受極值的影響,在廣告次數,vs,銷售金額的例子中,若其中,(5,57),的資料點改為,(5,157),,,則相關係數降為,0.644,20,
展开阅读全文