1、第五章第五章 相关分析与检验相关分析与检验.相关分析之一有关与无关v寻找变量间的关系是科学研究的首要目的。寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即变量间的关系最简单的划分即:有关与无有关与无关。关。v在统计学上,我们通常这样判断变量之间在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,是否有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则另外一个变量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二者无关。引起另一个变量的变化则二者无关。.性别与四级英语考试
2、通过率的相关统计性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。的取值并未发生变化,因此性别与考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。自变量的不同取值在因变量上有差异,两变量有关。.统计结果显示,当性别取值不同时,收入变量统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。的取值发生了变化,因此性别与月收入有关。自变量自变量因变
3、量因变量.变量关系的统计类型变量关系的统计类型.相关分析之二关系强度n变量关系强度的含义变量关系强度的含义:指两个变量相关程度指两个变量相关程度的高低。统计学中是以准实验的思想来分的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:析变量相关的。通常从以下的角度分析:A)两变量是否相互独立。)两变量是否相互独立。B)两变量是否有共变趋势。)两变量是否有共变趋势。C)一变量的变化多大程度上能由另一变量)一变量的变化多大程度上能由另一变量的变化来解释。的变化来解释。.变量关系强度测量的主要指标变量关系强度测量的主要指标.相关分析之三关系性质n直线相关与曲线相关直线相关与曲线相关
4、n正相关与负相关正相关与负相关n完全相关与完全不相关完全相关与完全不相关.一、列联相关一、列联相关n(一)列联分析的基本原理(一)列联分析的基本原理n自变量发生变化,因变量取值是否也自变量发生变化,因变量取值是否也发生变化。发生变化。n比较边缘百分比和条件百分比的差别。比较边缘百分比和条件百分比的差别。.n卡方测量用来考察两变量是否独立卡方测量用来考察两变量是否独立(无关无关)。其原理是根据这一概率定理:若两变量无其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积于各自独立发生的概率乘积.n在列联表中,这一定理就
5、具体转化为:在列联表中,这一定理就具体转化为:若若两变量无关,则两变量中条件概率应等于两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有各自边缘的概率乘积。反之,则两变量有关,或称两变量不独立。关,或称两变量不独立。.由此可见,由此可见,期望值(独立模型)与观察值期望值(独立模型)与观察值的差距越大,说明两变量越不独立,也就的差距越大,说明两变量越不独立,也就越有相关。越有相关。因此,卡方的表达式如下:因此,卡方的表达式如下:卡方的取值在卡方的取值在0之间。卡方值越大,关之间。卡方值越大,关联性越强。在联性越强。在SPSS中,有中,有Pearson X2和和相似比卡方(相
6、似比卡方(Likelihood Ratio X2)两种。)两种。.的改进标准化系数的改进标准化系数:为使为使 值有一固定的区间,便于比较,采值有一固定的区间,便于比较,采用了以下几个修正:用了以下几个修正:A、系数(系数(Phi):):(01),适用于,适用于22表。表。B、列联系数(列联系数(Contingency Coefficient):):(01),适用任意表。,适用任意表。C、Cramer V系数:系数:(01),适用任意表。,适用任意表。D、系数系数(Lambda):(01),适用任意表。,适用任意表。E、Goodman&Kruskal-tau系数系数:(01),适用,适用任意表。
7、任意表。.(二)列联表分析的功能(二)列联表分析的功能v调用列联表分析过程可进行定类与定序资料列联表调用列联表分析过程可进行定类与定序资料列联表分析,一个行变量和一个列变量可组成一个二维列分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的表。而多个行、列、控制变量就可组成一个复杂的多维列联表。多维列联表。v在分析中可对二维和多维列联表资料进行统计描述在分析中可对二维和多维列联表资料进行统计描述和和x2检验,并计算相应的百分数指标。此外,还可检验,并计算相应的百分数指标。
8、此外,还可计算四格表确切概率计算四格表确切概率(Fishers Exact Test),),且且有单双侧(有单双侧(One-Tail、Two-Tail)、)、对数拟然比检对数拟然比检验(验(Likelihood Ratio)以及线性关系的以及线性关系的Mantel-Haenszel x2检验。检验。.列联表的格式列联表的格式.(三)列联表分析过程(三)列联表分析过程列联表分析步骤:列联表分析步骤:按按AnalyzeDescriptive Statistics Crosstabs 顺序打开顺序打开 Crosstabs 主对话框。主对话框。.Crosstabs 对话框对话框.Statistics
9、对话框对话框.Cell Display 对话框对话框.Table Format 对话框对话框决定各行的决定各行的排列顺序:排列顺序:升序升序降序降序.(四)例(四)例1 为了探讨吸烟与慢性支气管炎有无关系,为了探讨吸烟与慢性支气管炎有无关系,调查了调查了339人,情况如下:人,情况如下:吸烟和慢性支气管炎调查表吸烟和慢性支气管炎调查表患慢性支气管炎患慢性支气管炎 未患慢性支气管炎未患慢性支气管炎吸烟吸烟43162不吸烟不吸烟13121.p录入数据录入数据“Crosstab.sav”。变量。变量h为频次;变量为频次;变量x为为是否吸烟:是否吸烟:1为吸烟,为吸烟,2为不吸烟;变量为不吸烟;变量n
10、为是否患病:为是否患病:1为患病,为患病,2为不患病。为不患病。p选择变量选择变量h进行加权。进行加权。p按按Analyze-Descriptive Statistics-Crootabs 顺序打顺序打开开 Crootabs 主对话框。将主对话框。将x变量变量 选入选入Row框作为行变框作为行变量,将量,将n变量变量 选入选入Column 框作为列变量。框作为列变量。p打开打开Statistics对话框,选中对话框,选中Chi-squareContingency coefficient和和Phi and CramersV复选框,单击复选框,单击Continue返回。返回。p单击单击Cell按钮
11、,打开按钮,打开Cell display对话框,选中对话框,选中observed和和Expected 复选框,单击复选框,单击Continue返回;单返回;单击击OK。1.操作步骤操作步骤.统计摘要表,列出观测量有效值个数、缺失值统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。个数和总的个数。2.输出结果及分析输出结果及分析 吸烟与患病统计摘要表吸烟与患病统计摘要表.吸烟与患病列联表吸烟与患病列联表.卡方检验卡方检验.对称性检验表对称性检验表.例例2:以以SPSS自带的数据文件自带的数据文件”1991 U.S.General Social Survey.sav”为例分析影响幸福的因素。
12、为例分析影响幸福的因素。.二、二、相关分析相关分析(Correlate).(一)简介n相关分析用于描述两个变量间联系的密切程度,相关分析用于描述两个变量间联系的密切程度,其特点是变量不分主次,被置于同等的地位。检其特点是变量不分主次,被置于同等的地位。检验的假设为相关系数为验的假设为相关系数为0。可选择是单尾检验还是。可选择是单尾检验还是双尾检验。双尾检验。n在在Analyze的下拉菜单的下拉菜单Correlate命令项中有三个命令项中有三个相关分析功能子命令相关分析功能子命令Bivariate过程、过程、Partial过程、过程、Distances过程,分别对应着相关分析、偏相关过程,分别对
13、应着相关分析、偏相关分析和相似性测度的三个分析和相似性测度的三个spss过程。过程。.(二)相关分析类型(二)相关分析类型nBivariate过程用于进行两个或多个变量间的过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的相关分析,如为多个变量,给出两两相关的分析结果。分析结果。nPartial过程,当进行相关分析的两个变量的过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。其他变量影响后的相关系数。nDistance
14、s过程用于对同一变量各观察单位间过程用于对同一变量各观察单位间的数值或各个不同变量间进行相似性或不相的数值或各个不同变量间进行相似性或不相似性分析,一般不单独使用,而作为因子分似性分析,一般不单独使用,而作为因子分析等的预分析。析等的预分析。.(三)(三)Bivariate相关分析相关分析n在进行相关分析时,散点图是重要的工具,在进行相关分析时,散点图是重要的工具,分析前应先做散点图,以初步确定两个变分析前应先做散点图,以初步确定两个变量间是否存在相关趋势,该趋势是否为直量间是否存在相关趋势,该趋势是否为直线趋势,以及数据中是否存在异常点。否线趋势,以及数据中是否存在异常点。否则可能的出错误结
15、论。则可能的出错误结论。nBivariate相关分析的步骤:相关分析的步骤:输入数据后,依输入数据后,依次单击次单击AnalyzeCorrelateBivariate,打开打开Bivariate Correlations对话框对话框.Bivariate Correlations 对话框对话框.Options 对话框对话框对每一个变量对每一个变量输出均值、标准输出均值、标准差和无缺省值的差和无缺省值的观测数。观测数。对每一个变量对每一个变量输出交叉距阵和输出交叉距阵和协方差距阵。协方差距阵。计算某个统计量时,在这一对变量计算某个统计量时,在这一对变量中排除有缺省值的观测值。中排除有缺省值的观测值
16、。对于任何分析,有缺省值的观测值对于任何分析,有缺省值的观测值都会被排除。都会被排除。.例1:以SPSS自带的数据文件”1991 U.S.General Social Survey.sav”为例分析自己教育、父亲教育、母亲教育、配偶教育与自己职业社会声望的关系。.例例2 2:定序变量的:定序变量的SpearmanSpearman分析实例分析实例 为研究集团迫使个人顺从的效应,一为研究集团迫使个人顺从的效应,一些研究者用量表对些研究者用量表对1212名大学生进行了调查,名大学生进行了调查,数据如下。数据如下。学生学生A B CDEFGHIJKL权威主义权威主义 265110983412711地位
17、欲地位欲342181110671259权威主义和地位欲评秩权威主义和地位欲评秩.1)输入数据,依次单击)输入数据,依次单击AnalyzeCorrelateBivariate,打开,打开Bivariate Correlations对话框对话框2)选择)选择power和和position 变量进入变量进入 Variables框中。框中。3)在)在Correlation Coefficients栏内选择栏内选择Spearman。4)在)在Test of Significance栏选择栏选择Two-tailed。5)选择)选择Flag significant correlation。6)单击)单击Op
18、tions按钮,选择按钮,选择Mean and standard deviations、Cross-product deviations and covariances、Exclude cases pairise选项。选项。7)单击)单击OK。分析步骤:分析步骤:.从表中可看出,权威主义和地位欲的相关系数从表中可看出,权威主义和地位欲的相关系数为为0.818,这表明权威主义越高的人地位欲也越高。,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为权威主义与地位欲不相关的假设检验值为0.001,否,否定假设,即权威主义与地位欲是相关的。定假设,即权威主义与地位欲是相关的。结
19、果分析:结果分析:.例例3:定序变量的:定序变量的Kendall分析实例分析实例 仍用前例中的数据(数据文件:权威(仍用前例中的数据(数据文件:权威(Spearman相关)相关).sav)。操作过程相同,只是在第。操作过程相同,只是在第3)步在)步在Correlation Coefficients栏内选择栏内选择Kendalls选项。结果如下:选项。结果如下:权威主义和地位欲的相关系数为权威主义和地位欲的相关系数为0.667,这表明权,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为相关的假设检验值为0.003,否定假设,即权威主义与,否定假设,即权威主义与地位欲是相关的。结果类似于地位欲是相关的。结果类似于Spearman分析。分析。.上机作业上机作业n掌握不同层次相关的操作;掌握不同层次相关的操作;n完成实验报告二。完成实验报告二。.