1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SPSS,数据分析,-,第,7,讲,SPSS,数据分析教程,1,主要内容,相关分析的基本概念,如何绘制各种散点图,三种相关系数的偏相关分析的概念、方法和结果解释,列联表分析,2,相关分析的基本概念和散点图,3,什么是相关分析,相关分析是分析客观事物之间关系的定量分析方法。许多事物或现象之间总是相互联系的,并且可以通过一定的数量关系反映出来。,比如,教育需求量与居民收入水平之间,科研投入与科研产出之间,投资额和国民收入等等,都有着一定的依存关系。,4,相关关系的种类,相关关系的种类:是否线性,线性相关,正相关
2、,负相关,曲线相关,相关关系的种类:据变量的度量类型,定类变量和定类变量之间的相关,定序变量和定序变量之间的相关,尺度变量和尺度变量之间的相关,5,相关分析的作用,判断变量之间有无联系,确定相关关系的表现形式及相关分析方法,把握相关关系的方向与密切程度,为进一步采取其他统计方法进行分析提供依据,用来进行预测,6,散点图,相关散点图是观察两个变量之间关系的一种非常直观的方法。散点图以横轴表示两个变量中的一个变量,以纵轴表示另一个变量,将两个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状、分布模式和疏密程度来形象描述两个变量之间的相关关系。,7,散点图,旧对话框,car
3、_sales.sav,记录了对市面上常见汽车的调查结果,它包括车的长、宽、净重等物理指标,同时还有车的厂家、型号、新车售价、发动机、马力、耗油量等。我们想考察车的耗油量是否和售价有关系,是否车越省油价格越高呢?,8,9,10,11,用图表构建程序绘制散点图,12,相关系数,通过计算相关系数来分析变量之间相互关系的方法。,计算相关系数的方法很多,由于我们所面对的各种变量都具有不同的性质和类型,因此应当根据变量的特点选择适当的分析相关的方法。对于不同类型的数据,计算相关系数的方法也不相同。,13,线性相关的度量,尺度数据间的相关性的度量,Pearson,相关系数,相关系数的数值范围是介于,1,与,
4、+1,之间,:,如果,|,|,0,,表明两个变量没有线性相关关系。,如果,|,|,1,,则表示两个变量完全直线相关。线性相关的方向通过相关系数的符号来表示,,“,+,”,号表示正相关,,“,”,表示负相关。,14,相关系数为,0,或接近于,0,不能说明两个变量之间没有相关性,它只说明没有线性相关性。不能排除具有其它非线性关系。,Pearson,相关系数是一种线性关联度量。如果两个变量关系密切,但其关系不是线性的,则,Pearson,相关系数就不是适合度量其相关性的统计量。,15,SPSS,的双变量相关可以计算两个或者两个以上变量间的协方差和,Pearson,相关系数。同时还可以检验该相关系数是
5、否显著区别于,0,。,设相关系数为,,则,SPSS,相关系数检验的原假设为:,H,0,:|,|=0,16,car_sales.sav,记录了对市面上常见汽车的调查结果,它包括车的长、宽、净重等物理指标,同时还有车的厂家、型号、新车售价、发动机、马力、耗油量等。我们想考察车的耗油量是否和新车售价有关系,是否车越省油价格越高呢?,17,选择,【,分析,】【,相关,】【,双变量,】,18,19,20,Spearman,等级相关系数,定序变量之间的相关性的度量,斯皮尔曼等级相关的适用条件为:,两个变量为定序变量。,一个变量为定序变量,另一个变量为尺度数据,且两总体不是正态分布,样本容量,n,不一定大于
6、,30,。,21,设,D,是两个变量每对数据的等级差,,n,是样本量。,则,Spearman,相关系数为,:,22,每周看电视的时间和,IQ,之间的关系,我们用,Spearman,等级相关分析二者的相关性。,23,24,Kendall,的,tau-b(K),Kendall,的,tau,系数是另一种计算定序变量之间或者定序和尺度变量之间相关系数的方法。,Spearman,的等级相关系数可以方便检验两个定序变量是否相关,但是很难具体解释两个变量如何相关及相关程度。,Kendall,的等级相关系数可以同时反映两个变量的相关程度。,25,设样本量为,n,,考察两个变量,X,和,Y,之间的相关关系,,X
7、,和,Y,的取值记为,x,i,y,i,。所有像,(x,i,y,i,),对的个数为,n(n-1)/2,。和分别表示和的秩次,如果对于任意,k,,有我们称,(x,k,y,k,),为同序对;否则,称为逆序对。,总的同序对的个数记为,n,c,,逆序对的个数记为,n,d,,则,Kendall,的,Tau,系数的定义为:,26,偏相关分析,政府医疗基金的投入和发病率之间存在关系吗?尽管您可能希望存在一个负相关的关系,但是它们之间的相关系数表明二者存在显著的正相关关系,即随着医疗基金的增长,发病率也表现为增长。不过,对保健提供商的拜访率的控制,实际上消除了所观察到的正相关。保健基金和发病率显示为正相关的原因仅仅是,当基金增长时,更多的人可以获得保健服务,从而导致医生和医院所报告的病例更多。,27,SPSS,的,“,偏相关,”,过程计算偏相关系数,该系数在控制一个或多个附加变量效应的同时描述两个变量之间的线性关系。,打开,health_funding.sav,数据文件,选择,【,分析,】【,相关,】【,偏相关,】,28,29,30,动手练习,分析数据,car_sales.sav,中变量汽车销量和汽车耗油量之间的关系。它们是否有线性相关性?如果没有线性相关性,二者之间有其它关系吗?,31,集体项目,32,