1、第四讲 多变量的描述性统计一、相关的概念一、相关的概念 二、交互分类表二、交互分类表三、简化相关与消减误差三、简化相关与消减误差四、相关测量法和测量层次四、相关测量法和测量层次1 1一、相关的概念一、相关的概念案例:案例:在某地区调查在某地区调查1000名青年人的最大志愿,其中名青年人的最大志愿,其中有有40%的人选择快乐家庭、的人选择快乐家庭、50%的人选择理想工的人选择理想工作和作和10%的人选择增广见闻。我们要问:为什么的人选择增广见闻。我们要问:为什么这些青年的最大志愿会有不同?这些青年的最大志愿会有不同?若同时调查了这些青年人的受教育水平,分为高若同时调查了这些青年人的受教育水平,分
2、为高(本科或以上程度)、中(高中程度)、低(初(本科或以上程度)、中(高中程度)、低(初中或以下程度),人数比例分别为中或以下程度),人数比例分别为10%、60%和和30%。我们可以追问:青年人的志愿与其受教育。我们可以追问:青年人的志愿与其受教育水平是否相关呢?换言之,是否因为教育水平不水平是否相关呢?换言之,是否因为教育水平不同,所以人生志愿也不同?同,所以人生志愿也不同?2 2一、相关的概念一、相关的概念1、相关:是指一个变量的值与另一个变量的值有连、相关:是指一个变量的值与另一个变量的值有连带关系。带关系。换言之,如果一个变量的值发生变化,另一个变换言之,如果一个变量的值发生变化,另一
3、个变量的值也有变化,则两个变量就是相关了。量的值也有变化,则两个变量就是相关了。2、相关程度:、相关程度:相关有强弱之分相关有强弱之分 0:无相关:无相关 1:完全相关:完全相关 介于介于0与与1之间的数值越大,表示相关的程度越强。之间的数值越大,表示相关的程度越强。3、相关的方向:、相关的方向:+0.8 -0.8 正相关正相关一个变量值越大,另一个变量值也越大。一个变量值越大,另一个变量值也越大。负相关负相关一个变量值越大,另一个变量值却越小。一个变量值越大,另一个变量值却越小。3 3一、相关的概念一、相关的概念正相关正相关 负相关负相关 不相关不相关 线性相关线性相关-正相关正相关 非线性
4、相关非线性相关1 非线性相关非线性相关24 4一、相关的概念一、相关的概念4、相关除了注意强弱与方向这两个性质外,还要注意两、相关除了注意强弱与方向这两个性质外,还要注意两个变量是否有个变量是否有因果关系因果关系。两个变量的相关可能有因果关系(当原因变量发生变两个变量的相关可能有因果关系(当原因变量发生变化时,结果变量也随着发生变化);化时,结果变量也随着发生变化);两个变量的相关也可能没有因果关系,而是发生共同变化。X Y一个变量为因一个变量为因X(称为自变量,称为自变量,Independent variable)一个变量为果一个变量为果Y(称为因变量,称为因变量,dependent var
5、iable)不对称关系(不对称关系(asymmetrical relationship):):变量X影响Y,而Y不影响X。表示为:X Y 对称关系(对称关系(symmetrical relationship):):变量X和Y不确定或不区分影响的方向。表示为:X Y5 5二、交互分类表二、交互分类表 Cross table 1、交互分类表:同时根据两个变量的值,将所研究的、交互分类表:同时根据两个变量的值,将所研究的 个案分类。个案分类。表 1000名青年人的教育水平与志愿 交互分类表又称交互分类表又称列联表。列联表。一般将自变量(如,教育水平)放在表的列列(Columns,即表的顶端);将因变
6、量(如,志愿)放在表的行行(Rows,即表的旁边)。上表单元格中显示的是频数,而且表下端显示的总数也不相等,因而上表单元格中显示的是频数,而且表下端显示的总数也不相等,因而不利于进行比较;为求相互比较从而知道两个变量间的相互关系,就必须不利于进行比较;为求相互比较从而知道两个变量间的相互关系,就必须标准化;最常用的,将频数显示为百分比,就按照标准化;最常用的,将频数显示为百分比,就按照100进行了标准化,这进行了标准化,这样就利于比较了。样就利于比较了。6 6二、交互分类表二、交互分类表 Cross table 2、SPSS的实现的实现 Analyze Descriptive Statisti
7、cs Crosstabs 在左图中将因变量志愿y选到行中(Row),将自变量教育水平x选到列中(Column)。左图中Layer是分层变量框,如果还要考察不同性别的人关于志愿与教育水平的关系,可以将性别变量选入此框中,还可以进一步的分层下去。7 7二、交互分类表二、交互分类表 Cross table 右图是志愿与教育水平的右图是志愿与教育水平的交互分类表,且只是频数表,交互分类表,且只是频数表,没有显示百分比。没有显示百分比。显示百分比:显示百分比:Analyze Descriptive Statistics Crosstabs Cells 在左图左下角Percentages栏显示的就是百分比
8、选项:Row:选中,显示行百分比;例:显示占行变量“志愿志愿”中“快乐家庭快乐家庭”的总人数的百分比。Column:选中,显示列百分比;例:显示占列变量“教育水平教育水平”中“高高”的总人数的百分比。Total:选中,显示总和百分比;例:显示占所有被调查人数的百分比。8 8三、简化相关与消减误差三、简化相关与消减误差1、相关系数(、相关系数(Coefficient of association)相关测量法就是以一个统计值表示变量与变量之相关测量法就是以一个统计值表示变量与变量之间的关系。这个值,通常称为相关系数。间的关系。这个值,通常称为相关系数。2、相关测量法有很多种,怎样选择?、相关测量法
9、有很多种,怎样选择?首先要注意变量的测量层次:定类、定序、定距。首先要注意变量的测量层次:定类、定序、定距。属于不同测量层次的变量,就要用不同的相关测量法。属于不同测量层次的变量,就要用不同的相关测量法。3、相关系数的意义、相关系数的意义 (1)表示两变量间的相关程度的大小)表示两变量间的相关程度的大小 (2)还希望具有消减误差比例的作用。)还希望具有消减误差比例的作用。9 9三、简化相关与消减误差三、简化相关与消减误差4、消减误差比例、消减误差比例(PRE测量法)测量法)Proportionate Reduction in Error(简称简称 PRE)社会学研究的主要目标是预测或解释社会现
10、象的变社会学研究的主要目标是预测或解释社会现象的变化。化。如,有一种社会现象Y(志愿),我们想预测或理解其变化的情况。预测或解释时,难免有误差(即错误);假定另一种社会现象X(教育水平)是与Y有关系的,如果我们根据X的值来预测Y的值理应可以减少若干误差。而且,X与Y的关系越强,所能减少的预测误差就越多;换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。1010三、简化相关与消减误差三、简化相关与消减误差4、消减误差比例、消减误差比例(PRE测量法)测量法)现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1(见图1);如果知道X的值,我们可以根据X的每个值来预测Y的值;假定误差
11、总数是E2(见图2),则以X的每个值来预测Y值时所减少的误差就是:E1-E2(见图2的阴影部分)。这个数值(E1-E2)与原来的全部误差(E1)相比,就是消减误差比例。用公式表示为:PRE=(E1-E2)/E1 PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越大;也就是说,X与Y的相互关系越强。若E1=E2,表示用X预测Y产生的误差与不以X来预测Y所产生的误差相等,则PRE=0,反映X与Y是不相关的。11112024/3/17 2024/3/17 周日周日1212四、相关测量法和测量层次四、相关测量法和测量层次 1 1、两个定类变量:、两个定类变量:、两个定类变量:、两个定类
12、变量:LambdaLambda(),tau-y ,tau-y()若两个变量都属于定类测量层次,可用若两个变量都属于定类测量层次,可用Lambda相关测量法,相关测量法,也可用古德曼(也可用古德曼(Goodman)和古鲁斯卡(和古鲁斯卡(Kruskal)的的tau-y相相关测量法。两者各有不同特色,但相关系数都具有关测量法。两者各有不同特色,但相关系数都具有PRE的意义。的意义。(1)相关测量法相关测量法 是基于消减误差比例的原理(PRE)上的相关测度,反映了当用一个变量的值来预测其它变量的值时误差的减少量。它是一种对称关系对称关系(Symmetrical)的测度,即两变量不区分自变量和因变量,
13、因而可以计算三种不同的值,一种是两变量对称考量时的值;还有两种是两变量处于不对称考量时,以行变量作为因变量的值,以及以列变量作为因变量的值。这三种方法通常不会产生相同的值,因此,必须注意两变量的对称关系,若是非对称的,要指明哪一个是因变量,即最令人感兴趣的被预测的那个变量。当要计算统计量时,SPSS将显示出这个对称的和两个不对称的三个值。1313四、相关测量法和测量层次四、相关测量法和测量层次 1 1、两个定类变量:、两个定类变量:、两个定类变量:、两个定类变量:LambdaLambda(),tau-y ,tau-y()(2)相关测量法相关测量法 由于相关测量法是以众数作为预测准则,不理会众数
14、以外的次数分布,因此若众数集中在条件次数表的同一行或同一列,则值便会等于0,这时测量法就失效了;这种情况下就要采用另一种方法相关测量法。这是一种不对称的相关测量法,因此也必须将研究中最感兴趣的被预测变量指明为因变量。同样在计算统计量时,SPSS将同时算出两个不对称的值。(3)对于定类)对于定类定序变量,定序变量,可将其中的定序变量看作是定类变量,这样就可以使用相关测量法和相关测量法。(4)对比上面两种方法,)对比上面两种方法,相关测量法比相关测量法具有更高的灵敏性。1414四、相关测量法和测量层次四、相关测量法和测量层次 1 1、两个定类变量:、两个定类变量:、两个定类变量:、两个定类变量:L
15、ambdaLambda(),tau-y ,tau-y()(5)SPSS的实现的实现 Analyze Descriptive Statistics Crosstabs Statistics 在左图Nominal(定类)栏中选择Lanmbda项,即可得到Lambda值和tau-y值。下列也是对两定序变量相关系数的下列也是对两定序变量相关系数的测量方法:测量方法:Contingency coefficient:列联系数。Phi and Cramers V:计算Phi系数和 Cramers V系数。Uncertainty coefficient:不确定性系数。1515四、相关测量法和测量层次四、相关测
16、量法和测量层次 2 2、两个定序变量:、两个定序变量:、两个定序变量:、两个定序变量:Gamma ,dGamma ,dy y 对对于于定定序序定定序序变变量量,用用得得最最多多的的有有两两种种测测量量方方法法:古古德德曼曼和和古古鲁鲁斯斯卡卡(Goodman-Kruskal)的的Gamma相相关关测测量量法法;萨萨默默斯斯(Somers)的的d dy y系系数相关测量法。数相关测量法。Gamma相关测量法相关测量法 Gamma也也是是基基于于消消减减误误差差比比例例原原理理(PRE)上上的的相相关关测测度度,Gamma反反映映了了当当用用一一个个变变量量上上观观测测的的等等级级来来预预测测它它
17、们们在在另另一一变变量量上上的的等等级级时时可可以以减减少少的的误差量。这也是一种对称关系的测量法。误差量。这也是一种对称关系的测量法。G=(P-Q)/(P+Q)d dy y系数相关测量法系数相关测量法 Gamma测测量量法法是是对对称称关关系系的的,如如果果我我们们认认定定某某定定序序变变量量是是自自变变量量(X),另另一一定定序序变变量量是是因因变变量量(Y),最最好好是是采采用用适适于于简简化化不不对对称称关关系系的的萨萨默默斯斯d dy y系数法。系数法。d dy y =(P+Q)/(P+Q+Ty)P:同序对数,同序对数,Q:异序对数,异序对数,Ty:具有相同具有相同Y值而不同值而不同
18、X值的同序对数。值的同序对数。1616四、相关测量法和测量层次四、相关测量法和测量层次 2 2、两个定序变量:、两个定序变量:、两个定序变量:、两个定序变量:Gamma ,dGamma ,dy y (3)SPSS的实现的实现 Analyze Descriptive Statistics Crosstabs Statistics 在左图Ordinal(定序)栏中选择Gamma和Somersd项,即可得到Gamma值和d dy y值。Kendalls tau-b和Kendalls tau-c两系数也是用于测量两定序变量间的相关系数的。1717四、相关测量法和测量层次四、相关测量法和测量层次 2 2
19、、两个定序变量:、两个定序变量:、两个定序变量:、两个定序变量:Gamma ,dGamma ,dy y (4)案例:)案例:计算计算2000级课堂调查数据级课堂调查数据.sav中变量中变量t8(对本科所学专业的态度)和对本科所学专业的态度)和t18(你对自己事业发展前途的评价)之间的相关系数。你对自己事业发展前途的评价)之间的相关系数。结果显示结果显示:上表显示的是d dy y值,变量t8和t18的相互影响的相关系数为0.262;变量t18对t8的影响系数为0.278;变量t8对t18的影响系数为0.247。下表显示的是Gamma值,表示变量t8和t18的相互影响的相关系数为0.421。181
20、8四、相关测量法和测量层次四、相关测量法和测量层次 3 3、定类(序)变量、定类(序)变量、定类(序)变量、定类(序)变量定距变量:定距变量:定距变量:定距变量:EtaEta系数系数系数系数 (1)Eta系系数数适适合合于于因因变变量量以以定定距距层层次次进进行行测测量量而而自自变变量量以以定定类类层层次次或或定定序序层层次次测测量量的的数数据据。显显然然这这是是一一种种不不对对称称的的相相关关测测量量法法。Eta的的平平方方也也具具有有消除误差(消除误差(PRE)的意义。的意义。(2)SPSS的实现的实现 Analyze Descriptive Statistics Crosstabs St
21、atistics 在左图Ordinal By Interval(定类-定距)栏中选择Eta项,即可得到Eta值。对于定序对于定序-定距变量的相关系数测量,定距变量的相关系数测量,可将定序变量降低为定类变量处理,可将定序变量降低为定类变量处理,仍用仍用Eta值来计算。值来计算。1919四、相关测量法和测量层次四、相关测量法和测量层次 3 3、定类(序)变量、定类(序)变量、定类(序)变量、定类(序)变量定距变量:定距变量:定距变量:定距变量:EtaEta系数系数系数系数 (3)案例:)案例:计算计算2000级课堂调查数据级课堂调查数据.sav中变量中变量t1(性别)和性别)和t3(身高)之间的相
22、身高)之间的相关系数。关系数。结果显示结果显示:t3(身高)对t1(性别)的相关系数为0.939,说明用身高来推测其性别的准确度可达93.9%;t1(性别)对t3(身高)的相关系数为0.809,说明用性别来推测其身高的准确度可达80.9%。2020四、相关测量法和测量层次四、相关测量法和测量层次 4 4、定距变量、定距变量、定距变量、定距变量定距变量:定距变量:定距变量:定距变量:积矩相关系数积矩相关系数积矩相关系数积矩相关系数 R R (1)对对于于定定距距定定距距变变量量用用得得最最多多的的方方法法是是Pearson相相关关系系数数(积积矩矩相相关关系系数数)R测测量量法法,它它是是线线性
23、性的的、对对称称关关系系的的。R的的平平方方具具有有消消除除误误差差(PRE)的意义,称为决定系数。的意义,称为决定系数。(2)SPSS的实现的实现 Analyze Descriptive Statistics Crosstabs Statistics 在左图选中Correlations项,即可得到R值。2121四、相关测量法和测量层次四、相关测量法和测量层次 4 4、定距变量、定距变量、定距变量、定距变量定距变量:定距变量:定距变量:定距变量:积矩相关系数积矩相关系数积矩相关系数积矩相关系数 R R (3)案例:)案例:计算计算2000级课堂调查数据级课堂调查数据.sav中变量中变量t2(年
24、龄)和年龄)和t7(政治成绩)之间的政治成绩)之间的相关系数。相关系数。结果显示结果显示:t2(年龄)与t7(政治成绩)之间的积矩相关系数R为-0.513,说明年龄越大的考生所取得的政治成绩越低。下表中第二行,下表中第二行,Ordinal by Ordianl Spearman Correlation是针对定序是针对定序-定序变量测得的定序变量测得的Spearman(斯皮尔曼)相关系数。即将两定距变量的值按大斯皮尔曼)相关系数。即将两定距变量的值按大小顺序排列,只使用其定序的数学特征,来检测两数列秩序之间的相互关联。小顺序排列,只使用其定序的数学特征,来检测两数列秩序之间的相互关联。22222024/3/17 2024/3/17 周日周日2323