双变量描述分析(下).ppt_咨信网zixin.com.cn

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第3章双变量描述分析（下）,第三节：定序变量与定序变量,第四节：定类变量与定距变量（定序定距）,第五节：定距变量与定距变量,第六节：回归分析,1,一、名次解释：对子（Pairs）,对子，是指两个个案互相比较而组成的对子。,比如一个调查的样本容量为n，每个个案都与其他所有的个案两两比较共有多少个对子？,第三节：定序变量与定序变量（ordinal by ordinal）,2,如果第一个个案的X的取值高于第二个个案，Y的取值也高于第二个个案，或者都小于第二个个案，那么这两个个案组成的对子(AB,AC)就叫做,同序对(Same-Ordered Pair),，其个数记做,Ns,；,如果第一个个案的X的取值高于第二个个案，Y的取值却低于于第二个个案，这两个个案组成的对子(AD)便叫做,异序对(Different-Ordered Pair),，其个数记做,Nd,；,同分对,是指X和Y的取值中至少有一个是相同的对子，我们将X相同而Y不同的对子(AE,AF)个数记做,Nx,，将Y相同而X不同的对子(AG,AH)个数记做,Ny,，将在X和Y上都相同的对子(AI)个数记做,Nxy；,个案,（9个）,教育程度,收入水平,A,中,中,B,低,低,C,高,高,D,低,高,E,中,高,F,中,低,G,高,中,H,低,中,I,中,中,这n个个案中，任意一个个案都有X和Y两个取值，所以我们比较两个个案的时候，就要同时比较X和Y。,总对子数Tn(n-1)/2=Ns+Nd+Nx+NyNxy,3,【练习1】,丈夫文化程度,妻子文化程度,1,高,高,2,低,中,3,低,低,4,中,中,5,高,中,6,中,低,7,低,中,Ns=,Nd=,Nx=,Ny=,Nxy=,T=21,4,2、根据列联表的频数计算对子,同序对Ns：“右下余子式”法,n1的同序对数量为为n1（n5n6n8n9）；,n2的同序对有n2（n6n9）个；,n4的同序对有n4（n8n9）个；,N5的同序对有n5*n9个；,Nsn1（n5n6n8n9）n2（n6n9）n4（n8n9）n5*n9个,X,Y,低,中,高,低,n1,n2,n3,中,n4,n5,n6,高,n7,n8,n9,5,异序对Nd：“左下余子式法”,计算异序对应该从最右上方的格子开始分析。,n3的同序对为n3（n4n5n7n8）个；,n2的同序对为n2（n4n7）个；,n6的同序对为n6（n7n8）个；,n5的同序对为n5*n7个；,Ndn3（n4n5n7n8）n2（n4n7）n6（n7n8）n5*n7,X,Y,低,中,高,低,n1,n2,n3,中,n4,n5,n6,高,n7,n8,n9,6,X的同分对Nx：,位于同一列不同行的配对都是X的同分对，所以,Nxn1（n4n7）n4*n7n2（n5n8）n5*n8+n3（n6n9）n6*n9,Y的同分对NY：,位于同一行但是不同列的配对都是Y的同分对，同理,NYn1（n2n3）n2*n3n4（n5n6）n5*n6n7（n8n9）n8*n9,X与Y的同分对NXY：,XY取值完全相同的个案两两配对的数量即是NXY，,X,Y,低,中,高,低,n1,n2,n3,中,n4,n5,n6,高,n7,n8,n9,7,【练习2】40名员工的工作满足感和归属感的关系如下表，请分布计算,Ns，Nd，Nx，Ny，Nxy,归属感,工作满足感,高,中,低,低,3,4,8,中,1,5,6,高,5,4,4,8,首先，需要将变量X和Y按照同等顺序进行排列，然后才能进行计算。调整后的表格为：,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,9,二、相关系数,1.Gamma系数,适用于测量两个,对称的定序变量,之间的相关关系，常用G来表示，计算公式为：,-1G1,Gamma 系数并不考虑各种同分对，,仅仅利用同序对和异序对进行分析,，如果在所有对子中以同序对为主，G为正数，表示正相关；如果以异序对为主，G为负数，表示负相关；如果两者相当或者同分对较多，则相关程度较弱。,10,【练习1】,丈夫文化程度,妻子文化程度,1,高,高,2,低,中,3,低,低,4,中,中,5,高,中,6,中,低,7,低,中,Ns=8,Nd=2,Nx=4,Ny=6,Nxy=1,T=21,11,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,12,Gamma 系数具有消减误差比例（PRE）的意义,（1）E1的含义：,设想我们不知道X和Y存在等级相关，我们把所有的对子都瞎猜一遍，就是猜测哪个对子比较高，哪个比较低。对于那些同分对，我们不考虑，因为谈不上谁高谁低。每猜一对，猜错的概率是1/2，一共猜n(n-1)/2-Tx-Ty-Txy次，则犯错误的次数是(Ns+Nd)/2=E1,（2）E2的含义：,当知道X和Y存在等级相关时，我们根据X的等级顺序来猜Y的等级顺序，猜都是同序对，也就是说，只要X高我们就猜Y高，X低我们就猜测Y低，则错误的对数就是E2Nd,13,2、肯德尔等级相关系数 Kendalls 系数,肯德尔系数因为考虑了同分对，所以是对Gamma系数的一种修正，分为三种情况来讨论：,（1）系数,没有同分对时，其实就是Gamma系数,有同分对时，其绝对值比Gamma系数要小。,14,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,15,（2）系数,16,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,17,（3）系数,其计算公式为：,18,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,19,前两个系数都具有PRE含义。特别适合不存在任何,同分对,的情况；的特殊性在于它,仅适用于r=c的列联表,，否则其取值的范围难以确定。,但是社会学研究中比较常见的情况是同分对很多，并且大多数列联表的行数与列数不相等，这种情况下就要采用系数，美中不足的是这个系数没有PRE含义。,三个,Kendalls 系数,的比较,20,3、Somers,d,系数,萨默斯（Somers）提出了另外一个Gamma系数的修正系数，既考虑同分对，又,具有消减误差比例意义,的定序相关测量法，即d系数。d系数是一种,不对称相关关系,的等级测量办法。,若Y是因变量，以X来预测Y时，用d,YX,来表示；若用Y来预测X，则用d,XY,来表示。其计算公式为：,21,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,若以变量X工作满足感来预测变量Y归属感，其等级相关系数为,：,若以变量Y归属感来预测工作满足感变量X，d,XY,=0.185,22,小结：,目前为止，我们介绍了Gamma系数、三个,Kendalls 系数和,Somers,d,系数，这个五个系数,相比，,分子都是相同,的，只是分母有所变化。,d系数的分母分别加上了N,X,和N,Y,，所以d系数的绝对值总是,小于,Gamma系数的绝对值。,G系数，和d系数都具有,消减误差比例的意义,，只有不具PRE含义。,G系数和,Kendalls 系数都可用来测量,对称关系,的两个定序变量，只有,d,系数是一种,不对称,测量。,23,4、斯皮尔曼等级相关系数（Spearmans rho）,又称秩相关系数,第一位推导等级之间相关系数的人是英国的斯皮尔曼，他发明了一个等级相关的公式，用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以r,s,来表示。其计算公式是：,r,s,【-1，1】,di表示每个样本单位在两个变量上的等级之差。,24,【例】比赛名次和观众评选最受欢迎的球队,球队名,比赛名次Xi,受欢迎排名Yi,d,i,d,i,2,A,1,1,0,0,B,2,3,-1,1,C,3,4,-1,1,D,4,5,-1,1,E,5,8,-3,9,F,6,6,（6.5）,-0.5,0.25,G,7,9,（9.5）,-2.5,6.25,H,8,（8.5）,6,（6.5）,2,4,I,8,（8.5）,9,（9.5）,-1,1,J,10,2,8,64,问：比赛名次和受观众欢迎的排名之间相关程度如何？,25,Notice：,（1）d,i,表示每个样本单位在两个变量上的,等级之差,，,而非变量值本身之差,；,（2）适用于,对称关系,的两个变量；,（3）,r,s,的平方,有PRE意义，测量不同等级级别之间差距的程度。,26,如我们想了解学生活动能力与智商之间是否相关，对10名同学进行抽样调查,。,学生,1,2,3,4,5,6,7,8,9,10,IQ,（,Xi,）,106,86,100,101,99,103,97,113,112,110,每周看电视小时数,（,Yi,）,7,0,27,50,28,29,20,12,6,17,27,学生,1,2,3,4,5,6,7,8,9,10,IQ,（,Xi,）,106,86,100,101,99,103,97,113,112,110,等级Xi,7,1,4,5,3,6,2,10,9,8,每周看电视小时数,（,Yi,）,7,0,27,50,28,29,20,12,6,17,等级Yi,3,1,7,10,8,9,6,4,2,5,学生,2,7,5,3,4,6,1,10,9,8,等级Xi,1,2,3,4,5,6,7,8,9,10,等级Yi,1,6,8,7,10,9,3,5,2,4,di,0,-4,-5,-3,-5,-3,4,3,7,6,di,2,0,16,25,9,25,9,16,9,49,36,28,第四节：定类变量与定距变量（定序定距）,Nominal or Ordinal by Interval,当两个变量一个为定类或定序变量，另一个为定距或定比变量时，我们用,相关比率,（correlation ratio）,E,2,或eta系数（E）来测量二者之间的相关程度。,相关比率E,2,数值范围由0到1，也具有消减误差比例的意义。其计算公式为：,Y是依因变量的数值；是因变量的均值；,是在自变量X的每个取值Xi上的因变量的均值。,29,【例子】调查得到如下数据，求职业与收入水平之间的相关程度。,从E值可见，职业与收入水平之间有中等程度的相关；而用E,2,值则可说明，用职业预测收入水平，可以消减20的误差,。,工人,教师,干部,收入,（元）,250,340,380,280,280,360,300,320,340,220,380,400,320,260,300,380,340,320,350,350,频数n,i,7,6,7,均值,300,320,350,30,（2）用第二种方法，会更加简化计算过程，提高精确度。也需要计算，方法同上，还需要分别计算。,工人,教师,干部,收入（元）,250,62500,340,115600,380,144400,280,78400,280,78400,360,129600,300,90000,320,102400,340,115600,220,48400,380,144400,400,160000,320,102400,260,67600,300,90000,380,144400,340,115600,320,102400,350,122500,350,122500,频数,i,7,6,7,均值,300,320,350,31,第五节：定距变量与定距变量（,Interval,by Interval,）,前面几类相关的测量大多利用变量值的,频数,来进行计算，这是由定类、定序变量的数学特征决定的。对于定距变量来说，由于它们是数值型的，因而我们可以利用变量的,取值,本身计算更精确一些的相关系数来反映它们之间的相关程度，这种系数就是,皮尔逊相关系数r，或称皮尔逊积差相关系数，,其计算公式为：,-1,r1,32,【例1】对10人工人进行调查得到以下数据，试求工人的年龄和收入之间的相关程度,【,工人,代号,1,2,3,4,5,6,7,8,9,10,年龄,（岁）,25,32,41,28,37,50,44,54,33,26,收入,（元）,280,300,350,300,380,360,400,420,260,250,为了便于计算，先求出然后再编制表格：,33,r系数显示，在年龄和收入之间，具有很强的正相关关系，即年龄越大，工资收入越多。,年龄,X,收入,Y,25,280,12,144,50,2500,600,32,300,5,25,30,900,150,41,350,4,16,20,400,80,28,300,9,81,30,900,270,37,380,0,0,50,2500,0,50,360,13,169,30,900,390,44,400,7,49,70,4900,490,54,420,17,289,90,8100,1530,33,260,4,16,70,4900,280,26,250,11,121,80,6400,880,370,3300,910,32400,4670,34,对于频数分布表，r的计算公式,为：,f为各组所对应的频数。,35,【例2】100名青年受教育年限与理想子女数表,受教育年限X,理想子女数Y,人数f,19,1,4,8,1.9,256,14.44,60.8,16,2,10,5,0.9,250,8.1,45,15,3,10,4,0.1,160,0.1,4,12,2,25,1,0.9,25,20.25,22.5,9,3,26,2,0.1,104,0.26,5.2,9,4,10,2,1.1,40,12.1,22,6,5,10,5,2.1,250,44.1,105,6,4,5,5,1.1,125,6.05,27.5,1100,290,100,1210,105.4,284,结论：计算结果显示，所调查的100名青年中，受教育年限与理想的子女数目之间存在着较强的负相关，即受教育年限越长，其理想的子女数目越少。,36,Notice:,（1）r是一种,对称关系,的测量，如果将XY的位置互换，r的取值不变；,（2）r的取值在,【1，1】,之间，绝对值越大，相关程度越高；绝对值越小，相关程度越低。社会科学中的现象一般都是弱相关，r的取值通常在,0.30.7,之间就算是明显的相关了；,（3）r的取值具有,方向性,，取值为正表明是正相关，取值为负表明是负相关；,（4）r本身不具有消减误差比例的意义，但是其平方,r,2,具有消减误差比例,的意义。,r,2,又称为决定系数或判定系数,，它具有直观的解释意义。,37,决定系数r,2,的PRE意义：,比如【例1】中研究工人的年龄和收入之间的关系，r0.86，r,2,0.74，说明用工人的年龄来预测收入时能够消减74的误差；,【例2】中研究100名青年受教育年限与理想子女数之间的关系时，r0.79，r,2,0.62，说明用受教育年限来预测和估计其理想子女数时可以消减62的误差。,38,各种层次变量之间的相关测量方法总结表,两变量层次,相关系数,取值范围,是否对称,有无PRE意义,检验方法,定类定类,（定类定序）,Q，,Lambda(),Tau(),【,-,1，1】,【0，1】,【0，1】,不对称；,对称，不对称不对称,无；,有；,有；,检验,定序定序,Gamma（G）,Kendall,s,Somer,s d,【,-1,，,1】,【,-,1,，,1】,【,-,1,，,1】,【,-,1，1】,对称；,对称；,对称；,不对称,无,（,r,s,2,有）,有；,有，无,有；,Z检验,定类定距,（定序定距）,Eta（E）,E,2,【0，1】,【0，1】,不对称；,不对称；,无，,有；,F检验,定距定距,r,r,2,【,-,1，1】,【0，1】,对称；,对称；,无；,有；,F检验或,t检验,39,第六节：回归分析（Regression Analysis）,回归概念的提出（了解）：,回归的概念是由英国的生物学家,高尔顿,首先提出的，他在1887年研究人体身高的遗传问题时发现，身高的遗传与遗传学通常的观点并不一致。按遗传学的观点，子辈身高Y与父辈身高X之间有相关关系，通常父辈较高者，其子辈也高，依此推论，一代代的遗传下来，人们的身高必然两极分化。但事实上，,在每个族群中个体的身高一般都在某个平均身高附近波动，也就是说子辈身高趋向父辈平均身高,，高尔顿把这种趋向中心的现象称为回归。,40,回归分析是一种,因果分析,，对象是,定距及以上层次的变量。,如果自变量只有一个，称为,一元回归,；如果自变量有两个或两个以上称为,多元回归,；回归分析的中心是建立,回归方程,；根据回归方程的特征，由可以分为,线性回归,和,非线性回归,。,一元线性回归分析,是所有回归分析的基础，也是我们介绍的重点和难点，其统计学基础是,最小二乘法,。,41,回归分析的步骤：,（1）首先根据理论分析或根据研究的需要,确定自变量X和因变量Y,；,（2）先根据相关数据作,散点图,来观察X和Y的关系，如果两变量的确呈现出一定的,线性相关,趋势，便可以进行回归分析；张彦教材P224225,（3）,回归直线方程为：YabX,，其中,常数a表示直线在Y轴上的截距,，,b表示直线的斜率，被称为回归系数,。,42,Y=a+bX,43,【,例】下面是10个女性教育年限和家务劳动时间的关系，求回归直线方程。,教育年限X,家务劳动时间Y,6,5,-2.9,2.2,-6.38,8.41,6,4,-2.9,1.2,-3.48,8.41,6,4,-2.9,1.2,-3.48,8.41,9,4,0.1,1.2,0.12,0.01,9,3,0.1,0.2,0.02,0.01,9,3,0.1,0.2,0.02,0.01,9,2,0.1,-0.8,-0.08,0.01,9,1,0.1,-1.8,-0.18,0.01,13,1,4.1,-1.8,-7.38,16.81,13,1,4.1,-1.8,-7.38,16.81,89,28,28.2,58.9,44,回归方程的作用：,回归方程有很好的预测功能，比如我们知道受教育年限跟家务劳动的时间的回归方程为,Y7.070.48X,，,如果X10，则家务劳动的时间为：Y7.070.48102.27；,如果X8，则家务劳动的时间为：Y7.070.4883.23.,45,年龄,X,收入,Y,25,280,12,144,50,600,32,300,5,25,30,150,41,350,4,16,20,80,28,300,9,81,30,270,37,380,0,0,50,0,50,360,13,169,30,390,44,400,7,49,70,490,54,420,17,289,90,1530,33,260,4,16,70,280,26,250,11,121,80,880,370,3300,910,4670,课堂练习,46,年龄,X,收入,Y,25,280,12,144,50,600,32,300,5,25,30,150,41,350,4,16,20,80,28,300,9,81,30,270,37,380,0,0,50,0,50,360,13,169,30,390,44,400,7,49,70,490,54,420,17,289,90,1530,33,260,4,16,70,280,26,250,11,121,80,880,370,3300,910,4670,47,Notice：,（1）回归分析是因果分析，所以是一种不对称测量。,比如用受教育年限来预测家务劳动的时间，前者是自变量，后者是因变量；,（2）我们把b叫做回归系数，它实际上是直线的斜率,。表示X每变化一个单位，Y变化多少个单位；例题中，表示教育程度每增加一年，家务劳动的时间会减少0.48个小时；如果b0，则表示X对Y没有影响，不管教育年限有多长，家务劳动的时间都是7个小时；b的正负表示了X和Y的相关的方向。,（3）b不是相关系数,。我们说相关系数的变动在1和1之间，b并不如此。b表示了变化的,程度，如果单位发生变化，b的取值会相应的改变，如果我们把家务劳动用分钟来表示，b就会变得很大。如果用月数来表示教育时间，b就会变得很小。,（4）,相关的程度用皮尔逊r或者r,2,系数表示,。变化的程度和我们所说的相关的程度不同，也就是说，即使X和Y的关系非常松散，我们仍然可以作出回归方程，这和X和Y的相关程度并没有关系。,48,相关系数和回归系数的性质：一个对比性的讨论,（1）对称的关系,，一般不论对称非对称皆会应用相关系数；这表示应用相关系数是并不要求X和Y具有因果关系；但是回归预测却是要求有明确的因果关系；,（2）相关系数和回归系数不同,，不会因为坐标原点的改变（关于回归常数）或单位的变化而变化，因此所有的数值减掉或加上一个常数，相关系数不变。回归系数则会因为所取单位的变化而变化。,（3）相关系数会因为变量取值范围的不同而发生变化,，尽管回归系数可能是相同的。将一些极端值加进来，回归直线可能不变，但是相关系数会发生变化。,（4）回归系数仅反映的是增量X和增量Y之间的关系，而相关系数则表示了真实数据和回归直线的靠拢和贴近的程度。,相关系数则反映了预测效果的好坏，但是无法反映X的变化和Y变化之间的关系；回归系数反映了X与Y数量变化之间的关系，但是不能反映预测效果的好坏。,49,

展开阅读全文