1、 量化研究與統計分析.第十三章線性關係的分析:相關與迴歸Analysis of Linear Relationship:Analysis of Linear Relationship:Correlation and RegressionCorrelation and Regression1第十三章 相關與迴歸 量化研究與統計分析.課程目標瞭解線性關係的概念瞭解相關係數的原理瞭解其他類型的相關係數的概念瞭解迴歸分析的原理瞭解迴歸分析的假設熟習相關與迴歸的SPSS統計應用2第十三章 相關與迴歸 量化研究與統計分析.線性關係的分析原理線性關係(線性關係(linear relationship)指兩個
2、變項的關係呈現直線般的共同變化數據的分佈可以被一條最具代表性的直線來表達的關聯情形。該直線之方程式為Y=bx+a,b為斜率(即y/x,每單位的X變動時,在Y軸上所變動的量)線性關係可以散佈圖來表現線性關係可以散佈圖來表現 第一節3第十三章 相關與迴歸 量化研究與統計分析.五種不同的相關情形完全正相關(perfect positive correlation)完全負相關(perfect negative correlation)正相關(positive correlation)負相關(negative correlation)零相關(zero correlation)第二節4第十三章 相關與迴歸
3、 量化研究與統計分析.相關分析的圖示第二節5第十三章 相關與迴歸 量化研究與統計分析.積差相關的假設考驗 相關係數是否具有統計上的意義,則必須透過統計考驗(t-test)來判斷從樣本得到的r是否來自於相關為0的母體,即H0:XY=(0=0)相關係數的t檢定的自由度為N-2,因為兩個變項各取一個自由度進行樣本變異數估計 第二節6第十三章 相關與迴歸 量化研究與統計分析.相關係數的特質1.隨著共變數的大小與正負向,相關係數可以分為正相關(完全正相關)、負相關(完全負相關)、零相關五種情形。2.相關的大小需經顯著性檢定來證明是否顯著(是否有統計上的意義)。3.相關係數介於-1至1之間。4.相關情形的
4、大小非與r係數大小成正比5.相關並不等於因果6.相關係數沒有單位,可以進行跨樣本的比較第二節7第十三章 相關與迴歸 量化研究與統計分析.相關係數的強度大小與意義 第二節8第十三章 相關與迴歸 量化研究與統計分析.點二系列相關係數適用於二分變數的相關係數計算適用於二分變數的相關係數計算rpb的係數數的係數數值值介於介於1.0之間,之間,絕絕對對值值越大,表示兩個變項越大,表示兩個變項的關係越強的關係越強當rpb係數為正時,表示二分變項數值大者,在連續變項上的得分越高當rpb係數為負時,表示二分變項數值小者,在連續變項上的得分越高當當p與與q數數值值為越接近為越接近0.5時,時,rpb的數的數值值
5、才有可能接近才有可能接近1.0二分變項也可以視為一種連續變項,其與其他任何連續變二分變項也可以視為一種連續變項,其與其他任何連續變項的相關,即等於項的相關,即等於Pearsons r 第三節9第十三章 相關與迴歸 量化研究與統計分析.eta係數 適用於一個類別變項與連續變項的相關,可以反應非線性關係的強度 原理是計算類別變項的每一個數值(類別)下,連續變項的離散情形佔全體變異量的比例各類別中,在連續變項上的組內離均差平方和,佔總離均差平方和的百分比(以X無法解釋Y的誤差部分),比例越小,表示兩變項的關聯越強 係數數值類似積差相關係數,介於0至1之間,取平方後稱為2,具有削減誤差百分比(PRE)
6、的概念,又稱為相關比(correlation ratio)第三節10第十三章 相關與迴歸 量化研究與統計分析.偏相關與部分相關 偏相關(偏相關(partial correlation)與部分相關)與部分相關(part correlation)計算兩個變項的相關係數時,把第三變項的影響加以控制的技術(b)YXYX(a)C(c)YXC(d)YXC(e)YXC第三節11第十三章 相關與迴歸 量化研究與統計分析.淨相關與部份相關 線性關係的統計控制線性關係的統計控制如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,或研究者想要把影響這兩個變項的第三個變項效果排除,可以利用控制的方式,將第三變項的
7、效果進行統計的控制。淨相關淨相關 在計算兩個連續變項X1與X2的相關之時,將第三變項(X3)與兩個相關變項的相關r13與r23予以排除之後的純淨相關,以r123來表示。部份相關部份相關 計算X1與X2的單純相關,如果在計算排除效果之時,僅處理第三變項與X1與X2當中某一個變項的相關之時,所計算出來的相關係數,稱之為部份相關,或稱為半淨相關(semipartial correlation)第三節12第十三章 相關與迴歸 量化研究與統計分析.均值迴歸(regression toward the mean)緣起緣起1855年,英國學者Galton以“Regression toward mediocr
8、ity in heredity stature”,分析孩童身高與父母身高之間的關係父母的身高可以預測子女的身高:當父母身高越高或越矮時,子女的身高會較一般孩童高或矮當父母親身高很高或很矮(極端傾向)時,子女的身高會不如父母親身高的極端化,而朝向平均數移動(regression toward mediocrity)第四節13第十三章 相關與迴歸 量化研究與統計分析.迴歸原理迴歸原理迴歸原理將連續變項的線性關係以一最具代表性的直線來表示,建立一個線性方程式Y=bX+a,b為斜率,a為截距 透過此一方程式,代入特定的X值,求得一個Y的預測值。此種以單一獨變項X去預測依變項Y的過程,稱為簡單迴歸(si
9、mple regression)最小平方法與迴歸方程式最小平方法與迴歸方程式 配對觀察值(X,Y),將X值代入方程式,得到的數值為對Y變項的預測值,記為Y差值Y-Y稱為殘差(residual),表示利用迴歸方程式無法準確預測的誤差最小平方法:求取殘差的平方和最小化的一種估計迴歸線的方法利用此種原理所求得的迴歸方程式,稱為最小平方迴歸線第四節14第十三章 相關與迴歸 量化研究與統計分析.迴歸方程式與未標準化迴歸係數 迴歸方程式迴歸方程式 的斜率與截距的斜率與截距 第四節15第十三章 相關與迴歸 量化研究與統計分析.標準化迴歸係數(standardized regression coefficie
10、nt)標準化迴歸係數標準化迴歸係數將b值乘以X變項的標準差再除以Y變項的標準差,即可去除單位的影響,得到一個不具特定單位的標準化迴歸係數標準化迴歸係數稱為(Beta)係數。係數是將X與Y變項所有數值轉換成Z分數後,所計算得到的迴歸方程式的斜率 係數具有與相關係數相似的性質,數值介於-1至+1之間絕對值越大者,表示預測能力越強,正負向則代表X與Y變項的關係方向 第四節16第十三章 相關與迴歸 量化研究與統計分析.迴歸誤差與可解釋變異 觀察值Y=bX+a+e 迴歸方程式為誤差為兩者之差:e=Y-Y第四節17第十三章 相關與迴歸 量化研究與統計分析.迴歸解釋變異量 迴歸解釋變異量迴歸解釋變異量(R2
11、)表示使用X去預測Y時的預測解釋力(獨變項對於依變項的解釋力)即Y變項被自變項所削減的誤差百分比 第四節18第十三章 相關與迴歸 量化研究與統計分析.調整迴歸解釋變異量 R2無法反應模型的複雜度(或簡效性)無法反應模型的複雜度(或簡效性)簡效性(簡效性(parsimony)問題)問題不斷增加獨變項,R2不會減低(R2為獨變項數目的非遞減函數)研究者為了提高模型的解釋力,不斷的投入獨變項,每增加一個獨變項,損失一個自由度,最後模型中無關的獨變項過多,自由度變項,失去了簡效性調整後調整後R2(adjusted R2)為了處罰增加獨變項所損失的簡效性,將自由度的變化作為分子與分母項的除項加以控制,可
12、以反應因為獨變項數目變動的簡效性損失的影響 當獨變項數目(p)越多,adjR2越小當樣本數越大,對於簡效性處罰的作用越不明顯 第四節19第十三章 相關與迴歸 量化研究與統計分析.迴歸模型的顯著性考驗 R2的基本原理是變異數,因此對於的基本原理是變異數,因此對於R2的檢的檢定可利用定可利用F考驗來進行考驗來進行 第四節20第十三章 相關與迴歸 量化研究與統計分析.估計標準誤 預測誤差預測誤差e是一個呈現常態分配的隨機變數,平是一個呈現常態分配的隨機變數,平均數為均數為0,標準差為,標準差為se估計標準誤的計量性質是標準差,因此可用以反估計標準誤的計量性質是標準差,因此可用以反應誤差分配的離散情形
13、應誤差分配的離散情形標準誤越大,估計誤差越大標準誤越小,估計誤差越小 估計標準誤估計標準誤取誤差變異的平方和除以自由度(N-k-1)的開方,亦即F考驗當中的誤差均方(MSe)的開方 第四節21第十三章 相關與迴歸 量化研究與統計分析.迴歸模型的參數估計 個別的迴歸係數個別的迴歸係數b或或 可以用以可以用以說說明預測變項對於明預測變項對於依變項的解釋力依變項的解釋力迴歸係數數迴歸係數數值值的統計意義需經過假設考驗來檢驗的統計意義需經過假設考驗來檢驗R2的顯著性考驗是迴歸分析的整體考驗(overall test)迴歸係數的考驗可視為事後考驗(post hoc test)迴歸係數的考驗迴歸係數的考驗
14、H0:=0利用t檢定,自由度為N-p-1:第四節22第十三章 相關與迴歸 量化研究與統計分析.迴歸係數的區間估計 b係數為未標準化係數,用以反應獨變項對於依變項的影響程度b係數可以得知獨變項的變動在依變項的變動情形利用模型的迴歸係數標準誤,b係數的區間估計可用來推估母數出現的範圍利用b係數的95%信心估計區間是否涵蓋0,來檢驗b係數是否顯著不等於0第四節23第十三章 相關與迴歸 量化研究與統計分析.迴歸分析的基本假設(一一)固定自變項假設(固定自變項假設(fixed variable)特定自變數的特定數值應可以被重複獲得,然後得以此一特定的Xi代入方程式而得到預測值。(二二)線性關係假設(線性
15、關係假設(linear relationship)當X與Y的關係被納入研究之後,迴歸分析必須建立在變項之間具有線性關係的假設成立上。(三三)常態性假設(常態性假設(normality)迴歸分析中的所有觀察值Y是一個常態分配,即Y來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項e,即由特定Xi所預測得到的與實際Yi之間的差距,也應呈常態分配。誤差項e的平均數為0。(四四)誤差獨立性假設(誤差獨立性假設(independence)誤差項除了應呈隨機化的常態分配,不同的X所產生的誤差之間應相互獨立,無相關存在,也就是無自我相關(nonautocorrelation)。(五五)誤差等分散性假設(誤差等分散性假設(homoscedasticity)多元共線性假設)多元共線性假設 特定X水準的誤差項,除了應呈隨機化的常態分配,且其變異量應相等,稱為誤差等分散性 第四節24第十三章 相關與迴歸 量化研究與統計分析.等分散性假設圖示第四節25第十三章 相關與迴歸 量化研究與統計分析.Time for restChapter 13 is done here.See you later!26第十三章 相關與迴歸