资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第十一章,双变量统计分析,Bivariate,descriptive statistics,Measures of association,相关分析,Scatter diagram,散点图,一、变量间的关系,1,、相关关系,correlation,(,1,)概念,(,2,)相关关系的方向,正关系、负关系,文化程度与收入水平,文化程度与计划生育,(,3,)相关关系的强度,-1,,,1,(,4,)相关关系的类型,(,5,)相关关系与散点图,2,、因果关系,当其中一个变量变化时会引起另一个变量也随之发生变化,但反过来,后一变量变化时,却不会引起前一变量变化。,因果关系,3,个条件,变量,x,与,y,存在不对称的相关关系,变量,x,与,y,发生顺序有先后之别,变量,x,与,y,的关系不是同源于第三个变量 的影响,二、交互分类,1,交互分类的定义与作用,所谓交互分类,就是,将一组数据按照两个不同变量的类型进行综合的分类,。交互分类的结果通常以,交互分类表,的形式反映出来。,老年,中年,青年,合计,小学以下,68,45,20,133,初中,20,32,44,96,高中,11,18,26,55,大专以上,1,5,10,16,合计,100,100,100,300,表,1 500,名工人工资收入分布,工资收入,水平,人数,比例,%,高,50,10,中,250,50,低,200,40,合计,500,100,表,2 500,名工人文化水平与工资收入交互分类表,工资收入,大专以上,中学,小学及以下,合计,高,26,18,6,50,中,14,202,34,250,低,5,55,140,200,合计,45,275,180,500,交互分类方法的适用对象主要是定类与定序层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用,我们应该熟悉这种方法。,制表的注意,:,表号、线条、百分比、下端频数、保留一位,小数、变量,2,、,2,检验,通过实例讨论何为,2,检验。,表中显示,年龄与对待老年人再婚问题的态度存在关系,随着年龄的下降,较多的人反对老年再婚。,2,交互分类表的检验,要保证我们从样本中得出的结论具有统计意义,保证样本中所体现的变量间关系也反映了总体的情况,就必须对它们进行检验。,的计算公式为:,为交互分类表中每一格的,观察频数,;,为交互分类表中所对应的,期望频数,。,例,1,年龄与态度的交互分类表,青年,中年,老年,合计,赞成,144,154,30,328,反对,56,126,90,272,合计,200,280,120,600,df,=(r-1),(,c-1,),=(2-1)(3-1)=2 P=0.05,由表查得临界值为,5.991,由于,x,2,=68.365.991,所以否定年龄与提前退休的态度无关系的假设,得出总体中二者有关系的结论,.,讨论,:x,2,检验作用和缺点是什么,?,检验的具体步骤:,首先,建立两变量间无关系的假设,即设两变量相互独立,互不相关。,然后计算出值。,再根据自由度和给出的显著性水平,即,P,值,查分布表,得到一临界值;自由度计算公式中的,r,和,c,分别为交互分类表的行数和列数,假定一个给定的显著性水平如,P=0,05,,由书后的分布表可查得临界值为,5,991,。,将计算出的值与查得的临界值进行比较,若值大于或等于临界值,则称差异显著,并拒绝两变量独立的假设,也即承认两变量间有关系;若值小于临界值,则称差异不显著,并接受两变量独立的假设,即两变量之间无关系。,3,、关系强度的测量,以上讨论的是两个变量间是否存在关系的问题。当,2,检验表明,两变量间存在关系时,是否就意味着这种关系是一种强关系,或重要关系呢?这不一定,因为变量关系的强弱和变量间是否存在关系是两个完全不同的问题。,3,关系强度的测量,1,系数,当交互分类表为表(即两行两列)时,可用,系数测量关系的强度。,系数计算公式为:,a,、,b,、,c,、,d,分别为表中的,4,个格值,X1,X2,Y1,a,b,Y2,c,d,男生,女生,赞成,120,15,反对,30,35,学生对学分制态度统计表,说明性别与对学分制态度间关系较强,。,例,2,学生对学分制态度统计表,对于交互分类表(,r,、,c,可大于,2,),可以证明,系数可用下列形式表示,由于,系数除了在表中可控制在,-1,,,+1,之间外,当表的格数增多后,,值将增大,因而此时的,值是没有上限的,这样系数间就缺乏比较,为此人们又作了进一步的改进,比如,V,系数,其公式为:,2V,系数,3C,系数,采用,C,系数时,要用上限表修正(,P226,、,198,),C,系数优点,:,不受样本规模限制,当,x,2,达到显著程度,且样本规模又很大时,,最好参照,C,值的大小。,4,系数,系数是一种具有消减误差比例意义的相关统计量,其计算公式为:,PRE,的意义,男生,女生,总计,赞成,120,15,135,反对,30,35,65,总计,150,50,200,解:,结果表示用性别去解释态度的不同,,可以减少预测误差的,31%,。,讨论,:,当表中众值都集中在同一行时,情况会怎样,?,求下列交互分类表中的,值,作 业,男生,女生,总计,赞成,96,24,120,反对,18,62,80,总计,114,86,200,性别与吸烟交互分类表,判断性别在吸烟上是否存在显著差异。,如存在,关系强度如何?,三、两变量关系的测量与检验方法,变量,层次,相关,系数,取值,范围,是否,对称,有无消减误差比例,检验,方法,定类,-,定类(定类,-,定序),0-,1,对称,有,X,2,检验,定序,-,定序,G,-1,1,对称,有,Z,检验,定类,-,定距(定序,-,定距),E,E,2,0,1,不对称,无有,F,检验,定距,-,定距,r,-1,1,对称,有,F,检验,1.,定序变量,-,定序变量,收入水平,大专以上,中学,小学以下,合计,高,12,10,3,25,中,8,30,5,43,低,4,16,12,32,合计,24,56,20,100,Ns=12(30+5+6+12)+10(5+12)+8(16+12)+30(12)=1500,Nd,=3(30+8+16+4)+10(8+4)+5(4+16)+30(4)=514,1.,定序变量,-,定序变量,即文化程度与收入水平的相关程度为,0.49.,用文化程度去预测收入水平可以消减,49%,的误差,1.,定序变量,-,定序变量,进行,Z,检验,需将,G,值标准化为,Z,值,当显著度为,0.05,时,Z,临界值为,1.96,由于本例,Z=2.531.96,故在总体中文化程度与收入水平存在较强相关,讨论:当,P0.001,Z=3.30,这时能否得出以上结论?,2.,定类(或定序)变量,-,定距变量,ni,为,X,变量每一取值合计值,n,为总频数(,P232,204,表,10-17,,,10-18),定类与定距变量,结论:职业与收入水平之间有中等程度相关。,用职业预测收入水平,可消减,20%,的误差。,对相关比率进行,F,检验,当显著度,P0.05,,,df,1,=k-1=3-1=2,df,2,=,n-k,=20-3=17,查,F,检验表临界值为,3.59,,由于,F,1,小于,3.59,,故接受虚无假设,从总体看,被调查者职业与收入水平无关。,定序与定距变量,结论:文化程度与收入水平具有较高的相关,用文化程度预测收入水平,可以消减,75%,的误差,F,检验,The,pearson,product-moment correlation coefficient,3.,定距变量,-,定距变量,3.,定距变量,-,定距变量,特点:,1.r,是对称关系的测量,2.r,取值范围,【-1,,,1】,3.r,取值具有方向性,4.r,不具有消减误差比例的意义,,r,2,具有消减误差比例的意义。,定距变量,-,定距变量,说明年龄与收入具有很强的正相关关系,用其中一个变量预测另一个变量,能够消减,74%,的误差。,当显著度,P0.01,,,df,1,=k-1=2-1=1,df,2,=,n-k,=10-2=8,查,F,检验表临界值为,11.26,,由于,22.77,大于,11.26,,故接受研究假设,总体中工人收入与年龄存在明显相关。,分组资料的计算:,说明受教育年限与理想的子女数目间存在较强的负相关关系。用其中一个变量预测另一个变量值时,可消减,62%,的误差。,将数字代人公式,:,各种测量方法目的是理解两个变量在样本中相关程度的强弱或大小。,对各种相关系数进行相应的检验,目的是推论两变量在总体中是否相关。,依据变量的测量层次来确定合适的相关测量和检验工具。,三、两变量关系的测量与检验方法,变量,层次,相关,系数,取值,范围,是否,对称,有无消减误差比例,检验,方法,定类,-,定类(定类,-,定序),0-,1,对称,有,X,2,检验,定序,-,定序,G,-1,1,对称,有,Z,检验,定类,-,定距(定序,-,定距),E,E,2,0,1,不对称,无有,F,检验,定距,-,定距,r,-1,1,对称,有,F,检验,1,、相关系数,例子:调查,10,名工人的工龄与工资情况如下表:,这,10,名工人的工龄与工资是否相关?,四、回归分析,相关分析的目的在于了解两个变量之间的关系强度,即用相关系数,r,来描述,X,和,Y,两个变量之间的共变特征。它并不指出,X,和,Y,哪个是原因,哪个是结果,回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以使依据回归方程对未知的情况进行估计。,即,回归分析增加了因果性,,并具有了预测的功能,因此,它比相关分析作用更大。,回归分析,最佳回归是依据最小二乘法计算达到的,,其标准方程为:,linear regression,其中,b,称回归系数,计算公式为,:,P.241,表,10-20,-regression analysis,回归分析,linear regression,Y=,bX+a,Y=the predicted value,b=the slope of the regression line,a=the intercept,a=Y-,bX,回归系数,b,表示自变量对因变量影响大小和方向,主要作用是用自变量的变化来预测因变量的变化。,变量间相关程度通常用,r,表示。,r,2,具有消减误差的意义。,r,2,称作决定系数,用以度量回归方程与观察资料的拟合程度。,回归分析,b=4670/910=5.13 a=Y-,bx,=330-5.13x37=330-189.8=140.2,得到直线回归方程,:,Y=5.13X+140.2,对不同年龄工人收入预测:,年龄为,45,岁,则收入,Y=,(,5.13x45+140.2)=371.05,元,运用回归分析进行预测时注意:,一是要注意时间条件,即回归方程往往反映的是一定时期内变量间的相互关系,当时代不同时,这种关系常常会发生变化;,二是要注意预测不能超出资料所适合的范围,即回归方程的预测在变量取值上有一定的临界条件,忽视这一点,有时也会作出不合理的预测来。,作 业,1,教育低,中,高,总计,工资低,20,6,4,30,中,10,15,5,30,高,8,11,21,40,总计,38,32,30,100,教育程度与工资收入表,教育程度与工资收入是否相关?,关系强度是多少?,作业,2,(课本第,5,题),作业,3,教育程度与年收入回归系数计算表,个案,年收入(千元),教育程度,XY,X,2,1,18,16,288,256,2,6,6,36,36,3,12,15,180,225,4,23,16,368,256,5,15,9,135,81,6,9,9,81,81,7,14,12,168,144,8,11,9,99,81,9,15,12,180,144,10,17,16,272,256,总计,140,120,1807,1560,
展开阅读全文