SPSS统计与分析讲稿第十二章利用SPSS进行相关分析课件.ppt

资源描述

单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第十,二,章直线回归与相关,客观事物在发展过程中是相互联系、相互影响，常常要研究两个或两个以上变量间的关系。,下一张,主页,退出,下一张,主页,退出,上一张,一、回归与相关概述,一类是完全确定性的关系，又称函数关系，可以用精确的数学表达式来表示，即当变量x的值取定后，变量y有唯一确定的值与之对应。,如长方形的面积（,S,）与长（,a,）和宽（,b,）的关系：,S=ab,。它们之间的关系是确定性的，只要知道了其中两个变量的值就可以精确地计算出另一个变量的值，这类变量间的关系称为函数关系。,1、各种变量间的关系大致可分为两类：,确定性关系,非确定性关系,如人的身高与体重的关系，作物种植密度与产量的关系，食品价格与需求量的关系等等，这些变量间都存在着十分密切的关系，但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系，把存在相关关系的变量称为相关变量。,下一张,主页,退出,上一张,另一类是非确定性关系，不能用精确的数学公式来表示，当变量x的值取定后，y有若干种可能取值。,在一定范围内，对一个变量的任意数值（,X,i,），虽然没有另一个变量的确定数值y,i,与之对应，但是却有一个特定y,i,的条件概率分布与之对应，这种变量的不确定关系，称为相关关系。,对多个变量进行相关分析时，研究一个变量与多个变量间的线性相关称为复相关分析；研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。,下一张,主页,退出,上一张,统计学上采用相关分析(correlation analysis)来研究呈平行关系相关变量之间的关系。,对两个变量间的直线关系进行相关分析称为简单相关分析（也叫直线相关分析）；,回归分析是研究一个自变量或多个自变量(Independent)与一个依变量(Dependent)之间是否存在某种线性关系或非线性关系的一种统计学分析方法。,下一张,主页,退出,上一张,统计学上采用回归分析（regression analysis）方法研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量，表示结果的变量称为依变量。,研究“一因一果”，即一个自变量与一个依变量的回归分析称为一元回归分析；,研究“多因一果”，即多个自变量与一个依变量的回归分析称为多元回归分析。,一元回归分析又分为直线回归分析与曲线回归分析两种；多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。,下一张,主页,退出,上一张,SPSS的相关分析功能被集中在Statistic菜单的Correlate子菜单中，它包括以下3个过程：,Bivariate过程：此程度用于进行两个/多个变量之间的参数/无参数相关分析，如果是多个变量，则给出两两相关的分析结果，这是Correlate子菜单中最为常用的一个过程，实际上用户对它的使用可能占到相关分析的95%以上。,Partial过程：就是偏相关分析。当需要进行相关分析的两个变量取值均受到其他变量的影响时,Distance过程：该过程一般不单独使用，而是作为因素分析、聚类分析和多维尺度分析的预先分析过程，以协助了解复杂数据集的内在结构，为进一步分析做准备,下一张,主页,退出,上一张,二、相关分析(correlation analysis),在进行相关分析之前必须做散点图，以判断两变量之间有无相关趋势，及趋势是否呈线性(Line)关系，如果在图形上两个变量之间存在线性相关趋势，才能继续后面的分析。,(1)、散点图分析：,Graphs Scatter Simple,散点图中可以看出，体重与肺活量有着非常明显的直线相关趋势，并且从图中可以看出，没有影响过强的异常点，因此可放心地进行相关分析,；如果有过强点，可考虑曲线回归分析或其它相关分析,下一张,主页,退出,上一张,Options对话框,下一张,主页,退出,上一张,用于选择需要计算的描述统计量和统计分析,每个变量的平均值和标准差,各变量的离均差平方和及变量方阵,缺失值处理方法,Analyze,-,Correlate,-,Bivariate,打开,Bivariate,主对话框，将,weight和lung,变量,选,入,Variables,框；,选择Correlation Coefficients(选择相关系数)：一般要求计算Pearson和Spearman相关系数,选择Test of Significance(选择相关系数的检验)：一般选择two-tailed,Flag significant correlations：在结果中用星号标记有统计学显著性意义的相关系数。,单击,Options,按钮进入,Options对话框,，选中,Means and standard deviations,和,Cross-product deviations and covariances,，M,issing Values,选择系统默认,下一张,主页,退出,上一张,(3)结果分析,下一张,主页,退出,上一张,这是散点图，从中可以看出体重与肺活量有非常明显的直线相关趋势，并且从图中也没有发现影响过强的异常点，故可进行相关分析,这是描述统计量，有平均值和标准差,下一张,主页,退出,上一张,这是变量间两两Pearson相关系数方阵,1、现抽取1963-1982年共20年的统计数据(见研究投资性变量)，试分析投资性变量与国民收入之间的相关关系。,2、研究商品零售总额与收入间的相关关系(数据见商品零售总额与收入),3、试分析体重与进食量的关系(数据见体重与进食量),4、试分析高一与高二数学成绩的关系(高一与高二数学成绩),例题,下一张,主页,退出,上一张,当分析两个变量之间相关关系时，往往会有其他变量的影响掺和在里面，使得计算出的相关系数难以体现出这两个变量间的真实相关关系。这时就要用Parial过程进行偏相关分析。,例现已测得20名糖尿病人的血糖(y，mmol/L)、胰岛素(x1，mU/L)及生长激素(x2，ug/L)的测量数据。请分析糖尿病人的血糖与生长激素浓度间有无相关关系。,下一张,主页,退出,上一张,(二),、Parial过程,pcorr,Options对话框,下一张,主页,退出,上一张,用于选择需要计算的描述统计量和统计分析,每个变量的平均值和标准差,包括协变量在内所有变量的相关方阵,缺失值处理方法,(1)、,对话框介绍,Analyze,-,Correlate,-,Partial,顺序打开Partial主对话框，将,y和x2选,入,Variables,框；将,x1选,入,Controlling for框,；,选,中,Testtwo-tailed,和,Display actual significance level,单击,Options,按钮进入,Options对话框,，选中,Means and standard deviations,和,Zero-order correlation,，M,issing Values,选择系统默认,单OK，输出结果,(2),Parial,分析过程,下一张,主页,退出,上一张,这是变量间两两Pearson相关系数方阵,1、现测定30名13岁男童的身高、体重、肺活量数据，试分析身高与肺活量的关系，以体重作为控制变量,2、研究商品零售总额与收入间的相关关系(数据见商品零售总额与收入),3、试分析体重与进食量的关系(数据见体重与进食量),4、试分析高一与高二数学成绩的关系(高一与高二数学成绩),例题,下一张,主页,退出,上一张,Distance过程是,对观察值之间或变量之间相似或不相似程度的一种测度，是计算一对变量之间或一对观测值之间的广义的距离,例在某体育比赛中，有中、英、法等7个国家的裁判对选手进行评分，评分结果见judges.sav。请根据评分高低判断哪些国家的裁判比较类似，为以后的聚类分析提供信息。,下一张,主页,退出,上一张,(三),、Distances过程,judges,Measure对话框,下一张,主页,退出,上一张,用于确定测距方法，数据测量方法不同，测距的方法也不同有三类数据：计量数据、计数数据和二值数据，选中后点击下拉菜单，可以选择距离的计算方法,用于确定在进行计算之前，是否对个案或变量进行标准化,用于对距离测度的结果进行转换,绝对值，对距离取绝对值,改变符号，把相似性测度值转换成不相似性测度值或相反,先减去最小值，然后除以范围差值,Measure对话框,下一张,主页,退出,上一张,用于确定测距方法，数据测量方法不同，测距的方法也不同有三类数据：计量数据、计数数据和二值数据，选中后点击下拉菜单，可以选择距离的计算方法,下一张,主页,退出,上一张,Interval(计量数据)：,Euclidean distance：Euclidean距离，是两变量之差的平方和的平方根，默认选项,Squared Euclidean distanc：Euclidean距离平方，是两变量之差的平方和,Chebychev：Chebychev距离，两项之差的最大绝对值,Block：区组距离，变量的两个值之间差的绝对值之和,Minkowski：Minkowski距离，两变量值之差的p次幂绝对值之和的p次方根,Customized：自定义距离，两变量值之差的p次幂绝对值之和的r次方根，可以设定p和r,Measure对话框,下一张,主页,退出,上一张,用于确定测距方法，数据测量方法不同，测距的方法也不同有三类数据：计量数据、计数数据和二值数据，选中后点击下拉菜单，可以选择距离的计算方法,Options对话框,下一张,主页,退出,上一张,用于选择需要计算的描述统计量和统计分析,每个变量的平均值和标准差,包括协变量在内所有变量的相关方阵,缺失值处理方法,(1)、对话框介绍,Analyze,-,Correlate,-,Distance,的顺序打开主对话框。,Variables框：用于选入需要进行距离相关分析的变量，至少需要选入两个,Lable Cases by 框：选择一个变量，其取值会在输出结果中给相应记录加上标签，以方便阅读。该框只在分析记录间距离时可用,Compute Distances单选框组：其中有两个选择，Between cases表示做记录之间的距离相关分析；Between variables表示做变量之间的距离相关分析,1、,Distances,分析,过程,下一张,主页,退出,上一张,Measure单选框组：用于分析时采用的距离类型。Dissimilarities为不相似性测距，即数值越大表示距离越远；Similarities为相似性测距，数值越大表示离得越近。,Similarity Measures对话框,Measure框组：用于确定采用的测距方法，,计量数据,可以采用Pearson correlation即常用的积距相关系数，也可采用Cosine(余弦)，即以变量矢量的余弦值为距离，值域介于-1-+1之间，数值越大表明相似性越高。二分类变量：给出了一大堆测量指标，其实非常少用。读者只需要使用默认的Russell and Rao(以二分点乘积为配对系数)即可。,下一张,主页,退出,上一张,Tranform Values框组与Transform Measures复选框组,这两个框组的属性实际上和不相似性测距时完全相同，我们会在聚类分析中讲述。,2、结果解释,下一张,主页,退出,上一张,

展开阅读全文