资源描述
社會統計
關秉寅
第三章 集中量數(或趨中量數)
(Measures of Central Tendency)
壹、 本單元的目標
1、 解釋集中量數的目的,並說明此量數所傳達的訊息
2、 計算,說明,及比較眾數(mode)、中位數(median)、以及平均數(mean)的差異
3、 說明平均數的數學特性
4、 依照測量尺度及偏態(skew)來選擇適當的集中量數
貳、各種集中量數
上個單元所介紹的次數分配及圖表等是用來描述資料的整體分配情況。本單元及下個單元則介紹兩類的描述統計,以進一步瞭解資料整體分配的細節。這兩類統計能告訴我們以下的資訊是:
1、 代表此分配之典型或平均狀況的個案為何。與此有關的描述統計就是各種「集中量數」。
2、 此分配之變異或異質性的狀況。與此有關的描述統計就是各種「離散量數」。
所以,集中量數就是以一個數值來描述樣本資料中,那一個分數或數值是最常見的、站在中間的位置、或最具代表性。
最常見的集中量數有三種,即眾數(Mode)、中位數(Median)、和算術平均數(Mean)。這三種量數雖有共同的目的,但它們測量資料之集中趨勢(central tendency)的作法卻不同,也傳達不同的訊息。因此,只有在特定的條件下,這三種量數的數值才會相同。到底用那一個集中量數和the level of measurement(測量尺度)以及研究之目的有關。
集中量數之使用和測量尺度之關係:
Nominal - Mode
Ordinal - Mode、Median (也可用Mean,但解釋時要小心)
Interval-Ratio - Mode、Median、Mean
一、眾數(Mode):是指資料中出現最多的數值。眾數適用於各種測量尺度。但當變項為名目尺度時,這是唯一可用的集中量數。在名目尺度變項,或次數分配表中,眾數是指含件數或次數最多的類別。
眾數雖是最簡單之集中量數,但有缺點:
1、有些分配不一定有眾數,換言之,分配很平均時或眾數很多時,眾數即失去意義和功能。
2、最常出現之數值,不一定代表最接近整體分配之中心的數值,亦即可能不是最具代表性之數值(這在Ordinal或Interval-ratio之資料中最可能發生)。
二、中位數(Median)或中數
中位數是一種和位置有關之數值,當我們將資料中所有個案(cases)之分數依大小順序排列,站在中間位置之個案的分數,即為中位數,例如下列分數分配之中位數為43。
25 27 43 64 190
中位數找出後,我們即可知全部資料中有50%的案例是高於此分數,也有50%的案例低於此分數或數值。
中位數尋找之方法須視資料中有多少個案(cases)來決定。
1、若樣本數目N是奇數,則先將N+1然後除以2,即(N+1)/2,在(N+1)/2之位置者之分數即為中位數。以上例為例,因有5個分數,(5+1)/2 = 3,因此在順序中第3位者即為中間之個案,其分數為中位數。
2、若樣本數目N是偶數,則中間兩個分數的平均數為中數。我們可以N/2及(N/2)+1來找出這兩個中間的個案,然後將此二個案之分數相加後除2。如:
25 27 43 64 75 190
43及64兩分數所占之位置是在次數分配順序中之中間,中位數即為
(43+64)/2 = 53.5。
三、其它和位置有關之量數:百分位數、十分位數、及四分位數
1、百分位數(percentile):代表資料中在此分數下有多少百分比之樣本是在此分數之下。如540為第46百分位,意即有46%的人之分數是低於540分的。
以此推之,則中位數即為50百分位之數。在未分組歸類之資料中找某一百分位數,如37百分位的方法是,以N × 0.37,
如N為100,則第37件案例之分數,即為第37百分位之分數,若N = 50,則
50 × 0.37=18.5。依此計算,第37百分位數應該是介於第18及第19件個案中間的數值,但我們通常會四捨五入,而以第19件的分數為此例中之第37百分位的分數。因此,百分位數的計算就是將全體樣本數分成一百等份。
2、十分位數(deciles):若將全體樣本分成十等份,則第一個十分位之分數是指此分數以下有10%的件數低於此分數。所以,第五個十分位也就是中位數。
3、四分位數(quartiles):是將N分成四等份,因此第一個四分位之分數是指有25%的樣本數目(N)的分數低於此分數。所以,第二個四分位數也就是中位數。
四、算術平均數(Mean) (或):即所有分數之總和除以N。算數平均數報告的是這個分配的平均數值,這是最常用的集中量數。
= Σ(Xi)/N
算術平均數有以下特性:
1、Σ(Xi-)=0,即資料中每一分數與平均數之差的總和是0。
2、Σ(Xi-)2=minimum,亦即平方差之總和是最小的(相對於任何其它數值),此指資料中所有分數與平均數之距離最小。這也說明了算數平均數相對於其他集中量數來說,是最接近資料中所有分數的數值。
3、平均數之計算是受到資料中每一分數的影響,這是和Mode或Median的計算不同。也因此,Mean很容易受資料中一、兩個極大或極小數值之影響。
當資料中有一、兩個極端數值時,分數分配會有偏態(Skew),只有當分配是無偏態或對稱之情形下,Mean和Median會是同一數值。當一分配有一些極高的數值時,Mean的值會較Median為大,這時是為正偏(a positive skew)。如下圖:
圖一、正偏的分配
反之,若分配中有一些極低的數值時,Mean的值會較Median為小,這時是為負偏(a negative skew)。如下圖:
圖二、負偏的分配
只有當分配沒有偏態時,mean median的數值才會完全一樣。
圖三、沒有偏態的分配
在您瞭解了以上三種集中量數的性質後,您應注意到不同的集中量數的使用主要是和level of measurement以及它們所能呈現的訊息有關。您也應注意到mode、median及mean的值只有在一定的條件下才會完全相同。(這一定的條件是什麼?)至於說您未來在寫報告時要選擇使用那一個,請參考教科書中p. 82-p. 83的幾個原則。
展开阅读全文