1、SPSSSPSS相关性分析相关性分析什么是相关分析n相关分析是分析客观事物之间相关性的数量分析方法。许多事物或现象之间总是相互联系的,并且可以通过一定的数量关系反映出来。n函数关系:两事物之间一对一的关系。n统计关系:两事物之间的多对一和一对多。线性相关和非线性相关线性相关和非线性相关n统计关系还可以分为:(1)线性相关:线性相关:当一个变量的值发生变化时,另外的一个变量也发生大致相同的变化。在直角坐标系中,如现象观察值的分布大致在一条直线上,则现象之间的相关关系为线性相关或线性相关或直线相关直线相关(Linear correlation)。(2)非线性相关:非线性相关:如果一个变量发生变动,
2、另外的变量也随之变动,但是,其观察值分布近似的在一条曲线上,则变量之间的相关关系为非线性相关或曲线相关(非线性相关或曲线相关(Curvilinear Curvilinear correlationcorrelation)相关关系的种类n相关关系的种类:是否线性q线性相关n正相关n负相关q曲线相关 n相关关系的种类:据变量的度量类型q定类变量和定类变量之间的相关q定序变量和定序变量之间的相关q定距变量和定距变量之间的相关 相关关系的种类n相关关系的种类:是否线性q线性相关n正相关n负相关q曲线相关 n相关关系的种类:据变量的度量类型q定类变量和定类变量之间的相关q定序变量和定序变量之间的相关q定
3、距变量和定距变量之间的相关 定类变量定序变量定距变量n定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有与的数学性质。例如性别区分为男性和女性两类n定序变量变量的一种,区别同一类别个案中等级次序的变量。定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有与的数学特质。它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(,)。例如文化程度可以分为大学、高中、初中、小学、文盲。n定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外,还能确切测量同一
4、类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。但是,定距变量没有一个真正的零点。相关分析的作用n判断变量之间有无联系n确定相关关系的表现形式及相关分析方法 n把握相关关系的方向与密切程度 n为进一步采取其他统计方法进行分析提供依据 n用来进行预测相关分析和回归分析区别n相关分析:如果仅仅研究变量之间的相互关系的密切程度和变化趋势,并用适当的统计指标描述。n n回归分析:如果要把变量间相互关系用函数表达出来,用一个或多个变量的取值来估计另一个变量的取值。散点图n通过观察散点图能够直观的发现变量之间的统计关系以及它们的强弱程度和数据对的可能走向。散点图以横轴表示两个变量中的一个变量
5、,以纵轴表示另一个变量,将两个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状、分布模式和疏密程度来形象描述两个变量之间的相关关系。n矩阵散点图:以矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。变量在那一行,那一行横坐标就是它。线性相关的度量尺度数据间的相关性的度量nPearson相关系数n相关系数的数值范围是介于1与+1之间:q如果|r|0,表明两个变量没有线性相关关系。q如果|r|1,则表示两个变量完全直线相关。线性相关的方向通过相关系数的符号来表示,“+”号表示正相关,“”表示负相关。n相关系数为0或接近于0不能说明两个变量之间没有相关性,它只说明没有线
6、性相关性。不能排除具有其它非线性关系。nPearson 相关系数是一种线性关联度量。如果两个变量关系密切,但其关系不是线性的,则 Pearson 相关系数就不是适合度量其相关性的统计量。等级相关分析n等级相关分析等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼二列等级相关和肯德尔和谐系数多列等级相关。Spearman等级相关系数定序变量之间的相关性的度量n斯皮尔曼等级相关系数:q两个变量为定序变量。q一个变量为定序变量,另一个变量为尺度数据,且两总体不是正态分布,样本容量n不一定大于30。q数据的秩:秩rank,是一种数据排序的方式,可以知道某变量值在该列所有值中的
7、名次。秩是对应数值由大到小的,例如有100个数据都不一样的话,最大的数值对应的秩就是100,最小的就是1。有重复数据时候,会按同名称排列。n设D是两个变量每对数据的等级差,n是样本量。则Spearman相关系数为:Kendall的tau-b(K)nKendall的 系数是另一种计算定序变量之间或者定序和尺度变量之间相关系数的方法。Spearman的等级相关系数可以方便检验两个定序变量是否相关,但是很难具体解释两个变量如何相关及相关程度。Kendall的等级相关系数可以同时反映两个变量的相关程度。n设样本量为n,考察两个变量X和Y之间的相关关系,X和Y的取值记为xi,yi。所有像(xi,yi)对
8、的个数为n(n-1)/2(也就是 )。和分别表示和的秩次,如果对于任意k,有我们称(xk,yk)为同序对;否则,称为逆序对。n总的同序对的个数记为U,逆序对的个数记为V,则Kendall的Tau系数的定义为:偏相关分析n概念:当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。n偏相关系数偏相关系数:偏相关系数是用来衡量任何两个偏相关系数是用来衡量任何两个变量之间的关系的大小。变量之间的关系的大小。n自由度:自由度:在统计学中,自由度指的是计算某一在统计学中,自由度指的是计算某一统计量时,取值
9、不受限制的变量个数。通常统计量时,取值不受限制的变量个数。通常df=n-kdf=n-k。其中。其中n n为样本含量,为样本含量,k k为被限制的条件为被限制的条件数或变量个数,或计算某一统计量时用到其它数或变量个数,或计算某一统计量时用到其它独立统计量的个数。独立统计量的个数。回归分析n一元线性回归模型:其中x为自变量;y为因变量;为截距,即常量;为回归系数,表明自变量对因变量的影响程度。n用最小二乘法求解方程中的两个参数,得到回归方程统计检验n回归方程的拟合优度:回归方程的拟合优度:回归直线与各观测点的接近程度称回归直线与各观测点的接近程度称为回归方程的拟合优度,也就是为回归方程的拟合优度,
10、也就是样本观测值聚集在回归线样本观测值聚集在回归线周围的紧密程度周围的紧密程度。n当自变量是分类变量时,需要将原变量转换成虚拟变量,当自变量是分类变量时,需要将原变量转换成虚拟变量,所有虚拟变量都是所有虚拟变量都是“1”“1”和和“0”“0”取值的二分变量。(取值的二分变量。(例例如性别变量如性别变量)回归方程的统计检验n 即:总离差平方和(即:总离差平方和(SST)=SST)=剩余离差平方和剩余离差平方和(SST)+(SST)+回归离差平回归离差平方和(方和(SSR)SSR)其中;其中;SSRSSR是由是由x x和和y y的直线回归关系引起的,可以由的直线回归关系引起的,可以由回归直线做出解
11、释;回归直线做出解释;SSESSE是除了是除了x x对对y y的线性影响之外的随机因素的线性影响之外的随机因素所引起的所引起的Y Y的变动,是回归直线所不能解释的。的变动,是回归直线所不能解释的。残差分析n残差是指由回归方程计算得到的预测值与实际样本值之间的差距,定义为:对于线性回归分析来讲,如果方程能够较好的反映被解释变量的特征和规律性,那么残差序列中应不包含明显的规律性。残差分析包括以下内容:残差服从正态分布,其平均值等于0;残差取值与X的取值无关;残差不存在自相关;残差方差相等。n对于对于残差均值和方差齐性检验可以利用残差图进行分析。如果残差均值为零,残差均值和方差齐性检验可以利用残差图
12、进行分析。如果残差均值为零,残差图的点应该在纵坐标为残差图的点应该在纵坐标为0 0的中心的带状区域中随机散落。如果残差的方差的中心的带状区域中随机散落。如果残差的方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了异方差现象。异方差现象。nDWDW检验:检验:DWDW检验用来检验残差的自相关。检验统计量为检验用来检验残差的自相关。检验统计量为 DW=2DW=2表示无自相关,在表示无自相关,在0 0-2-2之间说明存在正自相关,在之间说明存在正自相关,在2-42-4之间说明存在负之间说明存在负的自相关。一般情况下,的自相关。一般情况下,DWDW值在值在1 1.5-2.5.5-2.5之间即可说明无自相关现象。之间即可说明无自相关现象。曲线估计n变量之间的关系分为本质线性关系和本质非线性关系。本质线性关系是通过变量变换可以转化为线性相关的。nSPSS曲线估计还可以以时间为解析变量。