资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第八章 相应分析,第一节,引 言,第二节,列联表,第三节,相应分析的基本理论,第四节,相应分析中应注意的问题,第五节,实例分析与计算机实现,第一节 引 言,相应分析,(correspondence analysis),也叫对应分析,其特点是它所研究的变量可以是定性的。通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究,因而它的应用越来越广泛,现在这种方法已经成为常用的多元分析方法之一。,在社会、经济以及其他领域中,进行数据分析时经常要处理因素与因素之间的关系,及因素内部各个水平之间的相互关系。例如,评价某一个行业所属企业的经济效益,我们不仅要研究因素,A,,即企业按照经济效益好坏的分类情况,以及要研究因素,B,,即经济效益指标之间的关系,还要研究哪些企业与哪些经济效益指标更密切一些。这就需要相应分析的方法,将经济效益指标和企业状况放在一起进行分类、作图,以便更好的描述两者之间的关系,在经济意义上做出切合实际的解释。,相应分析的思想首先由理查森(,Richardson,)和库德(,Kuder,)于,1933,年提出,后来法国统计学家让,-,保罗,贝内泽(,Jean-Paul,Benzcri,)等人对该方法进行了详细的论述而使其得到了发展。为了把握相应分析方法的实质,本章将从列联资料入手,介绍一些基本概念和相应分析的基本理论,并让读者理解相应分析与独立性检验的关系,进一步明确对实际问题进行相应分析研究的必要性所在。,第二节,列联表,一,列联表的概念,二,有关记号,一、列联表的概念,在实际中经常要了解两组或多组因素,(,或变量,),之间的关系。设有两组因素,A,和,B,,其中因素,A,包含,r,个水平,即,A,1,,,A,2,,,,,A,r,;因素,B,包含,c,个水平,即,B,1,,,B,2,,,,,B,c,。又设有受制于这两个因素的载体,(,或客体,),的集合总体,。我们希望通过对总体,关于这两组因素的有关资料,(,或抽样资料,),,来分析这两组因素的关系。,例如,要考查在某个人群中关于吸烟或不吸烟,(,因素,A,),与得肺癌或不得肺癌,(,因素,B,),两组因素之间的关系。通常的作法是,随机地从该人群中抽样,对这两种因素进行调查,设调查了,k,个人,得到一个二维列联表,见表,8.1,。,其中,,k,ij,为调查的,k,人中出现因素,A,的第,i,个水平和因素,B,的第,j,个水平的人数。这样,我们就得到一个两因素,即吸烟与是否得肺癌的,2,2,列联表。,表,8.1,二维列联表,表,8.2,一般的二维列联表,二、有关记号,为了叙述方便,先引进一些基本概念和记号。,设,K,=(,k,ij,),r,c,为一个,r,c,的列联表,(,表,8.2),,称元素,k,ij,为原始频数。将列联表,K,转化为频率矩阵,记为,F,=(,f,ij,),r,c,,见表,8.3,。,表,8.3,一般的二维频率表,第三节,相应分析的基本理论,一,原始资料的变换,二,基于矩阵的分析过程,我们知道相应分析的主要目的是寻求列联表行因素,A,和列因素,B,的基本分析特征和它们的最优联立表示。为了实现行因素,A,与列因素,B,最优联立表示,进一步剖析行因素,A,内部之间,列因素,B,内部之间,以及因素,A,和列因素,B,之间的关系,这里将介绍原始的列联资料,K,=(,k,ij,),r,c,变换成矩阵,Z,=(,z,ij,),r,c,的具体过程,这样使得,z,ij,对因素,A,和列因素,B,具有对等性,在此基础上进行相应分析。,一、原始资料的变换,二、基于矩阵的分析过程,(,8.14,)式表明,Zu,j,为相对于特征值,j,的关于因素,A,各水平构,成的协差阵,r,的特征向量。这样我们就建立了相应分析中,R,型因子分析和,Q,型因子分析的关系。也就是说,我们可以从,R,型因子分析出发而直接得到,Q,型因子分析的结果。,这里需要强调的是,由于,r,和,c,有相同的特征根,而这些特征根又表示各个公共因子所提供的方差。那么,在因素,B,的,c,维空间,R,c,中的第一公共因子,第二公共因子直到第,m,个公共因子与因素,A,的,r,维空间,R,r,中相对于的各个主因子在总方差中所占的百分比就完全相同。这样就可以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上。一般情形,我们取两个公共因子,这样就可以在一张二维平面图上绘出两个因素各个水平的情况,即可以直观地描述两个因素,A,和因素,B,以及各个水平之间的相关关系。,第四节,相应分析中应注意的问题,我们知道相应分析是分析两组或多组变量之间关系的有效方法,在离散情况下,它是从资料出发通过建立因素间的二维或多维列联表来对数据进行分析。在此我们要问,这种分析是否有意义,或者说对于所给的数据是否值得做这种相应分析。这一节我们将介绍相应分析与独立性检验的内在关系,以此说明应用相应分析方法在解决实际问题时,避免盲目性。,第五节,实例分析与计算机实现,一,利用,SPSS,进行相应分析,实例,1,二,利用,SPSS,进行相应分析,实例,2,一、利用,SPSS,进行相应分析,实例,1,数据来自,SPSS,软件自带数据集,voter.sav,,为,1992,年美国大选的部分数据。要求对选民的最高学历水平(,degree,)和所支持的总统候选人(,pres92,)进行相应分析。,(一)操作步骤,1.,正确打开数据集,voter.sav,后,由,AnalyzeData,ReductionCorrespondence,Analysis,可进入相应分析的主对话框(图,8.1,)。,图,8.1,相应分析主界面,2.,从左侧变量列表中选择两个变量作为相应分析的两个维度。这里我们选择,pres92,作为行维度,点击,Row,左侧的三角箭头就可以看到在,Row,项下出现了,pres92(?),,这时用鼠标选中该变量,其下方的,Define Range,子对话框激活,点击后出现变量水平设置窗口(图,8.2,)。分为上下两个部分:,Category range for row variable:pres92,和,Category Constraints,。,这里要分析所有的三位总统候选人和选民的学历水平的关系,所以在,Minimum value,中填入,1,,在,Maximum value,中填入,3,,之后点击,Update,按钮。就可以在下方的,Category Constraints,栏中看到,后续分析中的行变量仅包含,3,个类目,分别是,1,、,2,和,3,。,图,8.2 Define Row Range,子对话框,在右侧还有三个单选项:,None,表示没有任何约束;,Categories must be equal,可用于指定某些类目的得分必须相同,最多可以设置有效类目的个数减,1,个得分相等的类目,如本例中最多可以设置,2,个类目得分相等;,Category is supplemental,表示某些类目不参加相应分析但是会在图形中标示。这里我们不对分类进行任何约束,点击,Continue,按钮后回到主对话框。,类似的可以指定,degree,的有效类目最小值为,0,,最大值为,4,。,3.,点击,Model,按钮,指定相应分析结果的维数。(图,8.3,),(,1,),Dimensions in solution,。默认为,2,,最大可以设置为各变量 中的最少类目数减,1,。,(,2,)选择距离测度的方式,Distance Measure,。有,Chi square,和,Euclidean,两种,定性变量应该用,Chi square,。,(,3,)标准化方法,Standardization Method,。,图,8.3 Model,子对话框,(,4,)正态化方法,Normalization Method,。需要比较行列变量的类 目差异时选择,Symmetrical,,需要比较行列变量中任意两个类目的 差异时选择,Principal,,比较行变量的类目差异时选择,Row principal,,而比较列变量的类目差异时选择,Column principal,,也 可以在,Customize,中指定,-1,1,之间的任意实数,特别的,如果输入,-1,则为,Column principal,,输入,1,为,Row principal,,输入,0,为,Symmetrical,。而一般该对话框中的选项无需改动。,4.,点击,Statistics,按钮,设定输出的相应分析统计量,如图,8.4,。可以指定输出相应分析表,Correspondence table,,行点总览表,Overview of row points,,列点总览表,Overview of column points,,行轮廓,Row profiles,,列轮廓,Column profiles,。默认只输出前三项。而,Permutations of the correspondence table,是用于指定前,n,个维度的行列得分表。如果该项选中,下方的,Maximum dimension for permutations,被激活,用于指定维度,n,。此外,还可以在,Confidence Statistics for,复选项中选择计算行点和列点的标准差以及相关系数。,图,8.4 Statistics,子对话框,5.,点击,Plots,按钮,设定输出的统计图,如图,8.5,。可以指定输出相应分析的散点图,Scatterplots,,默认只输出包含行列变量的双变量散点图,Biplot,。也可指定输出行点图,Row points,和列点图,Column points,。而,ID label width for,Scatterplots,是指定散点标签的长度,默认,20,。下方的,Line plots,项中,可以输出行,/,列点对应于行,/,列得分的线图,和散点图类似。,6.,我们在,Model,,,Statistics,,,Plots,三个子对话框中都使用默认设定,点击主对话框的,OK,按钮,即得到相应分析的结果。,图,8.5 Plots,子对话框,(二)结果分析:,SPSS,运行相应分析后会产生以下四张表(表,8.4,到表,8.7,)。,1.Correspondence Table,(相应分析表),如表,8.4,,即列联表。,Active Margin,为边际频数。大致可以看出,Clinton,在各个学历层次都有最高的票数。,表,8.4,列联表,2.Summary,(总览表),如表,8.5,。,表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。,Singular Value,为特征值的平方根,根据总惯量和特征值求和相等,有,0.1392+0.0162=0.019+0.000=0.019,。第一个维度惯量,0.019,,占总惯量的,98.7%,,第二个维度惯量接近,0,,仅占总惯量,1.3%,。因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍然保留两个维度。总惯量,35.8671844=0.19,,满足总惯量和卡方统计量的关系式。同时卡方统计量的自由度,8=(3-1)(5-1),,数值为,0.000,,说明行列变量之间存在显著的相关性,相应分析是有意义的。,表,8.5,总览表,3.Overview Row Points,与,Overview Column Points,(行,/,列点总览表),如表,8.6,,表,8.7,。,现以表,8.6,为例,,Mass,项表示行变量中每个类目的边际概率。,Score in dimension,下面则是行点在两个维度的坐标(,SPSS,称为得分),即有坐标点,Bush,(,0.194,-0.156,),,Perot,(,0.663,0.198,),,Clinton,(,-0.346,0.053,)。,Inertia,项为惯量,即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和,即,0.19=0.002+0.009+0.008,。比较表,8.6,和表,8.7,的总惯量,可以发现行惯量与列惯量相等。,Contribution,项有两个部分,分别是行变量的每个类目对维度(公共因子)特征值的贡献,每一个维度对每个类目的特征值的贡献。,表,8.6,行点总览表,表,8.7,列点总览表,4.,相应分析图,如图,8.6,。,可以发现研究生层次的选民(,Graduate degree,)倾向于具有实干精神的,Clinton,,而较,Clinton,更为激进的,Bush,更受,high school,和,Bachelor,层次的选民欢迎,,Perot,仅和,junior college,层次的选民较近。,图,8.6,相应分析的二维图,5.,如果在,Statistics,子对话框中选中了,Row profile,和,Column profile,,,SPSS,还会输出以下两张表(表,8.8,,表,8.9,)。,表,8.8,行轮廓表,表,8.9,列轮廓表,6.,行,/,列点图(图,8.7,,图,8.8,)。,如果要单独考察行,/,列变量的各个水平在两个公共因子维度上的分布情况,可在,Plots,子对话框中选中,Row points,和,Column points,。运行后即得下图:,图,8.7,行点在两个公共因子维度上的分布,图,8.8,列点在两个公共因子维度上的分布,二、利用,SPSS,进行相应分析,实例,2,表,8.10 4,只股票的财务数据,(一)操作步骤:,1.,首先由,SPSS,的因子分析过程(详细步骤参见因子分析一章),通过主成分法估计和最大方差旋转法进行因子旋转,发现需要,3,个公共因子才能解释,83%,以上的方差。可得因子得分的计算公式为(加上*号的变量和因子表示都已经标准化):,因此,factor1,可以称为股票规模因子,,factor2,称为股票收益因子,,factor3,称为个股价值因子。将这三个因子划分为,5,个等级:低于,-0.5,,,-0.50,,,00.5,,,0.51,,大于,1,,分别编码为,1,2,3,4,5,。这样就可以利用相应分析来详细的研究这三个因子之间的关系。,2.,在相应分析的主对话框中,我们以,factor1,和,factor2,为例说明。设置好类目(图,8.9,),在,Model,子对话框中仍然选择维数,2,,其他设置不变,点击,OK,后,就得到相应分析的结果。,图,8.9,相应分析主界面,(二)结果分析:,这里仅列出相应分析表(表,8.11,)、总览表(表,8.12,)以及相应分析图(图,8.10,),其余图表的分析与前一例题类似。,表,8.11,列联表,表,8.12,总览表,从表,8.12,中可以看出,卡方检验是显著相关的,因此相应分析是有意义的,而且只需要两个公共因子就可以解释,92.7%,的总惯量。所以使用二维图就可以充分的反映行列变量之间的关系了。在图,8-10,上可以发现,规模因子为,1,和,5,,个股价值因子为,5,,这表明“小股票”和“大股票”都可能实现最高的个股价值,并且“小股票”似乎更有可能。而股票规模因子中略高于平均水平的取值为,3,4,,这两个档次较为接近可以将其合并为一个档次,相应的个股价值因子也略高于平均水平。,读者应该可以发现相应分析实际是对两组高维空间的点的二维投影进行分析。有时在高维空间中相隔很近的点投影后却显的很远,因此有时需要进一步分析每个类目对公共因子的贡献大小。同时相应分析主要是建立在图形分析的基础上,而没有给出足够充分的统计量来度量这种相关程度,因此相应分析的结果带有一定的主观性。,图,8.10,二维相应分析图,本章结束,
展开阅读全文