收藏 分销(赏)

双变量描述分析(下).ppt

上传人:人****来 文档编号:10250701 上传时间:2025-04-30 格式:PPT 页数:49 大小:2.57MB 下载积分:14 金币
下载 相关 举报
双变量描述分析(下).ppt_第1页
第1页 / 共49页
双变量描述分析(下).ppt_第2页
第2页 / 共49页


点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第3章 双变量描述分析(下),第三节:定序变量与定序变量,第四节:定类变量与定距变量(定序定距),第五节:定距变量与定距变量,第六节:回归分析,1,一、名次解释:对子(Pairs),对子,是指两个个案互相比较而组成的对子。,比如一个调查的样本容量为n,每个个案都与其他所有的个案两两比较共有多少个对子?,第三节:定序变量与定序变量(ordinal by ordinal),2,如果第一个个案的X的取值高于第二个个案,Y的取值也高于第二个个案,或者都小于第二个个案,那么这两个个案组成的对子(AB,AC)就叫做,同序对(Same-Ordered Pair),,其个数记做,Ns,;,如果第一个个案的X的取值高于第二个个案,Y的取值却低于于第二个个案,这两个个案组成的对子(AD)便叫做,异序对(Different-Ordered Pair),,其个数记做,Nd,;,同分对,是指X和Y的取值中至少有一个是相同的对子,我们将X相同而Y不同的对子(AE,AF)个数记做,Nx,,将Y相同而X不同的对子(AG,AH)个数记做,Ny,,将在X和Y上都相同的对子(AI)个数记做,Nxy;,个案,(9个),教育程度,收入水平,A,中,中,B,低,低,C,高,高,D,低,高,E,中,高,F,中,低,G,高,中,H,低,中,I,中,中,这n个个案中,任意一个个案都有X和Y两个取值,所以我们比较两个个案的时候,就要同时比较X和Y。,总对子数Tn(n-1)/2=Ns+Nd+Nx+NyNxy,3,【练习1】,丈夫文化程度,妻子文化程度,1,高,高,2,低,中,3,低,低,4,中,中,5,高,中,6,中,低,7,低,中,Ns=,Nd=,Nx=,Ny=,Nxy=,T=21,4,2、根据列联表的频数计算对子,同序对Ns:“右下余子式”法,n1的同序对数量为为n1(n5n6n8n9);,n2的同序对有n2(n6n9)个;,n4的同序对有n4(n8n9)个;,N5的同序对有n5*n9个;,Nsn1(n5n6n8n9)n2(n6n9)n4(n8n9)n5*n9个,X,Y,低,中,高,低,n1,n2,n3,中,n4,n5,n6,高,n7,n8,n9,5,异序对Nd:“左下余子式法”,计算异序对应该从最右上方的格子开始分析。,n3的同序对为n3(n4n5n7n8)个;,n2的同序对为n2(n4n7)个;,n6的同序对为n6(n7n8)个;,n5的同序对为n5*n7个;,Ndn3(n4n5n7n8)n2(n4n7)n6(n7n8)n5*n7,X,Y,低,中,高,低,n1,n2,n3,中,n4,n5,n6,高,n7,n8,n9,6,X的同分对Nx:,位于同一列不同行的配对都是X的同分对,所以,Nxn1(n4n7)n4*n7n2(n5n8)n5*n8+n3(n6n9)n6*n9,Y的同分对NY:,位于同一行但是不同列的配对都是Y的同分对,同理,NYn1(n2n3)n2*n3n4(n5n6)n5*n6n7(n8n9)n8*n9,X与Y的同分对NXY:,XY取值完全相同的个案两两配对的数量即是NXY,,X,Y,低,中,高,低,n1,n2,n3,中,n4,n5,n6,高,n7,n8,n9,7,【练习2】40名员工的工作满足感和归属感的关系如下表,请分布计算,Ns,Nd,Nx,Ny,Nxy,归属感,工作满足感,高,中,低,低,3,4,8,中,1,5,6,高,5,4,4,8,首先,需要将变量X和Y按照同等顺序进行排列,然后才能进行计算。调整后的表格为:,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,9,二、相关系数,1.Gamma系数,适用于测量两个,对称的定序变量,之间的相关关系,常用G来表示,计算公式为:,-1G1,Gamma 系数并不考虑各种同分对,,仅仅利用同序对和异序对进行分析,,如果在所有对子中以同序对为主,G为正数,表示正相关;如果以异序对为主,G为负数,表示负相关;如果两者相当或者同分对较多,则相关程度较弱。,10,【练习1】,丈夫文化程度,妻子文化程度,1,高,高,2,低,中,3,低,低,4,中,中,5,高,中,6,中,低,7,低,中,Ns=8,Nd=2,Nx=4,Ny=6,Nxy=1,T=21,11,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,12,Gamma 系数具有消减误差比例(PRE)的意义,(1)E1的含义:,设想我们不知道X和Y存在等级相关,我们把所有的对子都瞎猜一遍,就是猜测哪个对子比较高,哪个比较低。对于那些同分对,我们不考虑,因为谈不上谁高谁低。每猜一对,猜错的概率是1/2,一共猜n(n-1)/2-Tx-Ty-Txy次,则犯错误的次数是(Ns+Nd)/2=E1,(2)E2的含义:,当知道X和Y存在等级相关时,我们根据X的等级顺序来猜Y的等级顺序,猜都是同序对,也就是说,只要X高我们就猜Y高,X低我们就猜测Y低,则错误的对数就是E2Nd,13,2、肯德尔等级相关系数 Kendalls 系数,肯德尔系数因为考虑了同分对,所以是对Gamma系数的一种修正,分为三种情况来讨论:,(1)系数,没有同分对时,其实就是Gamma系数,有同分对时,其绝对值比Gamma系数要小。,14,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,15,(2)系数,16,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,17,(3)系数,其计算公式为:,18,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,19,前两个系数都具有PRE含义。特别适合不存在任何,同分对,的情况;的特殊性在于它,仅适用于r=c的列联表,,否则其取值的范围难以确定。,但是社会学研究中比较常见的情况是同分对很多,并且大多数列联表的行数与列数不相等,这种情况下就要采用 系数,美中不足的是这个系数没有PRE含义。,三个,Kendalls 系数,的比较,20,3、Somers,d,系数,萨默斯(Somers)提出了另外一个Gamma系数的修正系数,既考虑同分对,又,具有消减误差比例意义,的定序相关测量法,即d系数。d系数是一种,不对称相关关系,的等级测量办法。,若Y是因变量,以X来预测Y时,用d,YX,来表示;若用Y来预测X,则用d,XY,来表示。其计算公式为:,21,【练习2】,Ns=223,Nd=125,Tx=183,Ty=165,Txy=84,T780,归属感,工作满足感,低,中,高,低,8,4,3,中,6,5,1,高,4,4,5,G0.28,若以变量X工作满足感来预测变量Y归属感,其等级相关系数为,:,若以变量Y归属感来预测工作满足感变量X,d,XY,=0.185,22,小结:,目前为止,我们介绍了Gamma系数、三个,Kendalls 系数和,Somers,d,系数,这个五个系数,相比,,分子都是相同,的,只是分母有所变化。,d系数的分母分别加上了N,X,和N,Y,,所以d系数的绝对值总是,小于,Gamma系数的绝对值。,G系数,和d系数都具有,消减误差比例的意义,,只有 不具PRE含义。,G系数和,Kendalls 系数都可用来测量,对称关系,的两个定序变量,只有,d,系数是一种,不对称,测量。,23,4、斯皮尔曼等级相关系数(Spearmans rho),又称秩相关系数,第一位推导等级之间相关系数的人是英国的斯皮尔曼,他发明了一个等级相关的公式,用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以r,s,来表示。其计算公式是:,r,s,【-1,1】,di表示每个样本单位在两个变量上的等级之差。,24,【例】比赛名次和观众评选最受欢迎的球队,球队名,比赛名次Xi,受欢迎排名Yi,d,i,d,i,2,A,1,1,0,0,B,2,3,-1,1,C,3,4,-1,1,D,4,5,-1,1,E,5,8,-3,9,F,6,6,(6.5),-0.5,0.25,G,7,9,(9.5),-2.5,6.25,H,8,(8.5),6,(6.5),2,4,I,8,(8.5),9,(9.5),-1,1,J,10,2,8,64,问:比赛名次和受观众欢迎的排名之间相关程度如何?,25,Notice:,(1)d,i,表示每个样本单位在两个变量上的,等级之差,,,而非变量值本身之差,;,(2)适用于,对称关系,的两个变量;,(3),r,s,的平方,有PRE意义,测量不同等级级别之间差距的程度。,26,如我们想了解学生活动能力与智商之间是否相关,对10名同学进行抽样调查,。,学生,1,2,3,4,5,6,7,8,9,10,IQ,(,Xi,),106,86,100,101,99,103,97,113,112,110,每周看电视小时数,(,Yi,),7,0,27,50,28,29,20,12,6,17,27,学生,1,2,3,4,5,6,7,8,9,10,IQ,(,Xi,),106,86,100,101,99,103,97,113,112,110,等级Xi,7,1,4,5,3,6,2,10,9,8,每周看电视小时数,(,Yi,),7,0,27,50,28,29,20,12,6,17,等级Yi,3,1,7,10,8,9,6,4,2,5,学生,2,7,5,3,4,6,1,10,9,8,等级Xi,1,2,3,4,5,6,7,8,9,10,等级Yi,1,6,8,7,10,9,3,5,2,4,di,0,-4,-5,-3,-5,-3,4,3,7,6,di,2,0,16,25,9,25,9,16,9,49,36,28,第四节:定类变量与定距变量(定序定距),Nominal or Ordinal by Interval,当两个变量一个为定类或定序变量,另一个为定距或定比变量时,我们用,相关比率,(correlation ratio),E,2,或eta系数(E)来测量二者之间的相关程度。,相关比率E,2,数值范围由0到1,也具有消减误差比例的意义。其计算公式为:,Y是依因变量的数值;是因变量的均值;,是在自变量X的每个取值Xi上的因变量的均值。,29,【例子】调查得到如下数据,求职业与收入水平之间的相关程度。,从E值可见,职业与收入水平之间有中等程度的相关;而用E,2,值则可说明,用职业预测收入水平,可以消减20的误差,。,工人,教师,干部,收入,(元),250,340,380,280,280,360,300,320,340,220,380,400,320,260,300,380,340,320,350,350,频数n,i,7,6,7,均值,300,320,350,30,(2)用第二种方法,会更加简化计算过程,提高精确度。也需要计算 ,方法同上,还需要分别计算 。,工人,教师,干部,收入(元),250,62500,340,115600,380,144400,280,78400,280,78400,360,129600,300,90000,320,102400,340,115600,220,48400,380,144400,400,160000,320,102400,260,67600,300,90000,380,144400,340,115600,320,102400,350,122500,350,122500,频数,i,7,6,7,均值,300,320,350,31,第五节:定距变量与定距变量(,Interval,by Interval,),前面几类相关的测量大多利用变量值的,频数,来进行计算,这是由定类、定序变量的数学特征决定的。对于定距变量来说,由于它们是数值型的,因而我们可以利用变量的,取值,本身计算更精确一些的相关系数来反映它们之间的相关程度,这种系数就是,皮尔逊相关系数r,或称皮尔逊积差相关系数,,其计算公式为:,-1,r1,32,【例1】对10人工人进行调查得到以下数据,试求工人的年龄和收入之间的相关程度,【,工人,代号,1,2,3,4,5,6,7,8,9,10,年龄,(岁),25,32,41,28,37,50,44,54,33,26,收入,(元),280,300,350,300,380,360,400,420,260,250,为了便于计算,先求出 然后再编制表格:,33,r系数显示,在年龄和收入之间,具有很强的正相关关系,即年龄越大,工资收入越多。,年龄,X,收入,Y,25,280,12,144,50,2500,600,32,300,5,25,30,900,150,41,350,4,16,20,400,80,28,300,9,81,30,900,270,37,380,0,0,50,2500,0,50,360,13,169,30,900,390,44,400,7,49,70,4900,490,54,420,17,289,90,8100,1530,33,260,4,16,70,4900,280,26,250,11,121,80,6400,880,370,3300,910,32400,4670,34,对于频数分布表,r的计算公式,为:,f为各组所对应的频数。,35,【例2】100名青年受教育年限与理想子女数表,受教育年限X,理想子女数Y,人数f,19,1,4,8,1.9,256,14.44,60.8,16,2,10,5,0.9,250,8.1,45,15,3,10,4,0.1,160,0.1,4,12,2,25,1,0.9,25,20.25,22.5,9,3,26,2,0.1,104,0.26,5.2,9,4,10,2,1.1,40,12.1,22,6,5,10,5,2.1,250,44.1,105,6,4,5,5,1.1,125,6.05,27.5,1100,290,100,1210,105.4,284,结论:计算结果显示,所调查的100名青年中,受教育年限与理想的子女数目之间存在着较强的负相关,即受教育年限越长,其理想的子女数目越少。,36,Notice:,(1)r是一种,对称关系,的测量,如果将XY的位置互换,r的取值不变;,(2)r的取值在,【1,1】,之间,绝对值越大,相关程度越高;绝对值越小,相关程度越低。社会科学中的现象一般都是弱相关,r的取值通常在,0.30.7,之间就算是明显的相关了;,(3)r的取值具有,方向性,,取值为正表明是正相关,取值为负表明是负相关;,(4)r本身不具有消减误差比例的意义,但是其平方,r,2,具有消减误差比例,的意义。,r,2,又称为决定系数或判定系数,,它具有直观的解释意义。,37,决定系数r,2,的PRE意义:,比如【例1】中研究工人的年龄和收入之间的关系,r0.86,r,2,0.74,说明用工人的年龄来预测收入时能够消减74的误差;,【例2】中研究100名青年受教育年限与理想子女数之间的关系时,r0.79,r,2,0.62,说明用受教育年限来预测和估计其理想子女数时可以消减62的误差。,38,各种层次变量之间的相关测量方法总结表,两变量层次,相关系数,取值范围,是否对称,有无PRE意义,检验方法,定类定类,(定类定序),Q,,Lambda(),Tau(),【,-,1,1】,【0,1】,【0,1】,不对称;,对称,不对称不对称,无;,有;,有;,检验,定序定序,Gamma(G),Kendall,s,Somer,s d,【,-1,,,1】,【,-,1,,,1】,【,-,1,,,1】,【,-,1,1】,对称;,对称;,对称;,不对称,无,(,r,s,2,有),有;,有,无,有;,Z检验,定类定距,(定序定距),Eta(E),E,2,【0,1】,【0,1】,不对称;,不对称;,无,,有;,F检验,定距定距,r,r,2,【,-,1,1】,【0,1】,对称;,对称;,无;,有;,F检验或,t检验,39,第六节:回归分析(Regression Analysis),回归概念的提出(了解):,回归的概念是由英国的生物学家,高尔顿,首先提出的,他在1887年研究人体身高的遗传问题时发现,身高的遗传与遗传学通常的观点并不一致。按遗传学的观点,子辈身高Y与父辈身高X之间有相关关系,通常父辈较高者,其子辈也高,依此推论,一代代的遗传下来,人们的身高必然两极分化。但事实上,,在每个族群中个体的身高一般都在某个平均身高附近波动,也就是说子辈身高趋向父辈平均身高,,高尔顿把这种趋向中心的现象称为回归。,40,回归分析是一种,因果分析,,对象是,定距及以上层次的变量。,如果自变量只有一个,称为,一元回归,;如果自变量有两个或两个以上称为,多元回归,;回归分析的中心是建立,回归方程,;根据回归方程的特征,由可以分为,线性回归,和,非线性回归,。,一元线性回归分析,是所有回归分析的基础,也是我们介绍的重点和难点,其统计学基础是,最小二乘法,。,41,回归分析的步骤:,(1)首先根据理论分析或根据研究的需要,确定自变量X和因变量Y,;,(2)先根据相关数据作,散点图,来观察X和Y的关系,如果两变量的确呈现出一定的,线性相关,趋势,便可以进行回归分析;张彦教材P224225,(3),回归直线方程为:YabX,,其中,常数a表示直线在Y轴上的截距,,,b表示直线的斜率,被称为回归系数,。,42,Y=a+bX,43,【,例】下面是10个女性教育年限和家务劳动时间的关系,求回归直线方程。,教育年限X,家务劳动时间Y,6,5,-2.9,2.2,-6.38,8.41,6,4,-2.9,1.2,-3.48,8.41,6,4,-2.9,1.2,-3.48,8.41,9,4,0.1,1.2,0.12,0.01,9,3,0.1,0.2,0.02,0.01,9,3,0.1,0.2,0.02,0.01,9,2,0.1,-0.8,-0.08,0.01,9,1,0.1,-1.8,-0.18,0.01,13,1,4.1,-1.8,-7.38,16.81,13,1,4.1,-1.8,-7.38,16.81,89,28,28.2,58.9,44,回归方程的作用:,回归方程有很好的预测功能,比如我们知道受教育年限跟家务劳动的时间的回归方程为,Y7.070.48X,,,如果X10,则家务劳动的时间为:Y7.070.48102.27;,如果X8,则家务劳动的时间为:Y7.070.4883.23.,45,年龄,X,收入,Y,25,280,12,144,50,600,32,300,5,25,30,150,41,350,4,16,20,80,28,300,9,81,30,270,37,380,0,0,50,0,50,360,13,169,30,390,44,400,7,49,70,490,54,420,17,289,90,1530,33,260,4,16,70,280,26,250,11,121,80,880,370,3300,910,4670,课堂练习,46,年龄,X,收入,Y,25,280,12,144,50,600,32,300,5,25,30,150,41,350,4,16,20,80,28,300,9,81,30,270,37,380,0,0,50,0,50,360,13,169,30,390,44,400,7,49,70,490,54,420,17,289,90,1530,33,260,4,16,70,280,26,250,11,121,80,880,370,3300,910,4670,47,Notice:,(1)回归分析是因果分析,所以是一种不对称测量。,比如用受教育年限来预测家务劳动的时间,前者是自变量,后者是因变量;,(2)我们把b叫做回归系数,它实际上是直线的斜率,。表示X每变化一个单位,Y变化多少个单位;例题中,表示教育程度每增加一年,家务劳动的时间会减少0.48个小时;如果b0,则表示X对Y没有影响,不管教育年限有多长,家务劳动的时间都是7个小时;b的正负表示了X和Y的相关的方向。,(3)b不是相关系数,。我们说相关系数的变动在1和1之间,b并不如此。b表示了变化的,程度,如果单位发生变化,b的取值会相应的改变,如果我们把家务劳动用分钟来表示,b就会变得很大。如果用月数来表示教育时间,b就会变得很小。,(4),相关的程度用皮尔逊r或者r,2,系数表示,。变化的程度和我们所说的相关的程度不同,也就是说,即使X和Y的关系非常松散,我们仍然可以作出回归方程,这和X和Y的相关程度并没有关系。,48,相关系数和回归系数的性质:一个对比性的讨论,(1)对称的关系,,一般不论对称非对称皆会应用相关系数;这表示应用相关系数是并不要求X和Y具有因果关系;但是回归预测却是要求有明确的因果关系;,(2)相关系数和回归系数不同,,不会因为坐标原点的改变(关于回归常数)或单位的变化而变化,因此所有的数值减掉或加上一个常数,相关系数不变。回归系数则会因为所取单位的变化而变化。,(3)相关系数会因为变量取值范围的不同而发生变化,,尽管回归系数可能是相同的。将一些极端值加进来,回归直线可能不变,但是相关系数会发生变化。,(4)回归系数仅反映的是增量X和增量Y之间的关系,而相关系数则表示了真实数据和回归直线的靠拢和贴近的程度。,相关系数则反映了预测效果的好坏,但是无法反映X的变化和Y变化之间的关系;回归系数反映了X与Y数量变化之间的关系,但是不能反映预测效果的好坏。,49,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服