1、第7章 对 应 分 析Correspondence Analysis7.1列联表及列联表分析7.2对应分析1.7.1列联表及列联表分析一、列联表及其作用1.列联表是观测数据按两个或更多属性变量(定类尺度或定序尺度)分类时所列出的频数表。2.列联表用于考察两个(或多个)分类变量的统计学关联。如行变量与列变量之间的关联性。2.一般,若总体中的个体可按两个属性A与B分类,A有n类A1,A2,An,B有p类B1,B2,Bp,属于Ai和Bj的个体数目为nij(i=1,2,n;j=1,2,p),nij称为频数,则可形成np的二维列联表,简称np表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多
2、维列联表。3.列联表B1B2BjBpA1 n11n12n1jn1pn1.A2 n21n22n2jn2pn2.Aini1ni2nijnipni.An nn1nn2nnjnnpnn.n.1n.2n.jn.pn4.频率意义上的列联表B1B2BjBpA1 p11p12p1jp1pp1.A2 p21p22p2jp2pp2.Aipi1pi2pijpippi.An pn1pn2pnjpnppn.p.1p.2p.jp.p15.列联表独立性检验对于数值型变量相关关系,通常是计算相关系数和进行回归分析。描述两个定性变量之间的相关性是指广义的相关性,称为关联性。两个定性变量的关联程度在某种意义上就是指的“不独立”,
3、它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系。在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着关联。最常用的检验办法是列联表独立性检验。列联表检验的零假设是两变量 X和Y 相互独立,计算一个卡方统计量,与列联表中频数取值和零假设下期望取值之差有关,当卡方 很大时否定零假设。6.例 吸烟与慢性支气管炎调查表 为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如表所示:设想有两个随机变量A,B:A:1表示吸烟,2表示不吸烟;B:1表示患慢性支气管炎,2表示未患。零假设为:H0:A与B相互独立 BA患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13
4、1217.STATISTICS FOR TABLE OF SMOKE BY BRON Statistic DF Value Prob Chi-Square 1 7.469 0.006 Likelihood Ratio 1 7.925 0.005 Chi-Square Continuity Adj.Chi-Square 1 6.674 0.010 Mantel-Haenszel Chi-Square 1 7.447 0.006 Fishers Exact Test(Left)4.09E-03 (Right)0.998 (2-Tail)6.86E-03 Phi Coefficient-0.148
5、Contingency Coefficient 0.147 Cramers V-0.148 Sample Size=339 8.列联表中列出了表格单元频数和在零假设下的期望频数,可以看出,吸烟人中患病的数目比期望数目大。检验的结果只要看后面的统计量部分的Chi-Square一行,其值为7.469,p值为0.006,所以应否定零假设,吸烟与患慢性支气管炎是不独立的。9.对应分析又称为相应分析,也称RQ分析。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表来揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单元格的相对位置,以简单、直观地表明列
6、联表的行与列的关系。对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因子分析中,R型因子分析和Q型因子分析是分开进行的。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维图形表示数据表中的行与列的关系。(对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步)。7.2 对应分析10.对应分析基本步骤:1 1、获取对应分析数据 确定研究目的,选择对应分析所需数据,应该包括的背景资料。2 2、建立列联表 3 3、对应分析 4 4、利用对应图解释结果。11.二、对应分析的原
7、理 由于R R型因子分析和Q Q型因子分析是反映一个整体的不同侧面,R R型因子分析是从列来讨论(对变量),Q Q型因子分析是从行来讨论(对样品),因此他们之间存在内在的联系。设原始数据矩阵为:12.由于因子分析都是基于协方差矩阵或相关系数矩阵完成的,所以必须从变量和样品的协方差矩阵入手来进行分析。13.变量的叉积矩阵样品的叉积矩阵 显而易见,变量和样品的叉积矩阵的阶数不同,一般来说,他们的非零特征根也不一样,那么能否将观测值做变换。14.(一)规格化矩阵15.我们可以把pij解释成概率,因为所有的元素之和为1。称为行轮廓。即把第i i行表示成在p p维欧氏空间中的一个点16.行轮廓矩阵为:由
8、此,我们可以将属性变量A A的n n个取值可以用P P维空间的n n个点来表示。n n个点的坐标即为该行轮廓矩阵。但是,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将行轮廓中的各列元素均除以其期望的平方根。得矩阵D(R)第j个变量的期望为:17.矩阵D(R)是消除了变量B的各个状态概率影响的P维空间n个点的相对坐标。则这n个点的重心,也有p维坐标,设其第j个分量为:N个点的重心为:18.总惯量 由矩阵D(R)定义的n 个点与其重心的欧氏距离之和称为行轮廓矩阵N(R)的总惯量。记为 .同时,可证明:19.称为列轮廓。同理:列轮廓矩阵为:20.因为原始变量的数量等级可能不同,所
9、以为了尽量减少各变量尺度差异,将列轮廓中的各行元素均除以其期望的平方根。得矩阵D(Q)21.利用行轮郭矩阵,可得第i个样品与第j个样品的协方差:令Z为zij所组成的矩阵,则22.利用列轮廓矩阵,可得第i个变量与第j个变量的协方差:令Z为zij所组成的矩阵,则23.设 是A=ZZ的非零特征根,则令Z为zij所组成的矩阵,则 因此将矩阵变换成矩阵Z,则很容易求出A和B存在着的简单对应关系。由特征根和特征向量的性质,A和B有相同的非零特征根。在上式的两边都左乘Z,则可见 也是ZZ的特征根,相应的特征向量是24.三、对应图 设12 l(0imin(n,p)为矩阵A和B的非零特征根,其相应的特征向量为2
10、5.我们知道因子载荷矩阵的含义是原始变量与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘制散点图,则构成对应图。26.例 某地环境检测部门对该地所属8个地区的大气污染状况进行了系统的的检测,每天4次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二氧化硫、碳4、环氧氯丙烷、环已烷6种气体的浓度。有资料如下:27.0.056 0.084 0.031 0.038 0.0081 0.0220.049 0.055 0.10.110.022 0.00730.038 0.130.079 0.170.058 0.0430.
11、034 0.095 0.058 0.160.20.0290.084 0.066 0.029 0.320.012 0.0410.064 0.072 0.10.210.028 1.380.048 0.089 0.062 0.260.038 0.0360.069 0.087 0.027 0.050.089 0.02128.特征根贡献率(%)累 积 贡 献 率(%)10.5066870.0070.0020.1221316.8786.8730.056587.8294.69 F1和G1,F2和G2尺度相同,所以可以在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图。29.R型因子分析的载荷F1F2
12、0.13831-0.043850.203330.026500.11003-0.019850.21754-0.186870.217200.28831-0.582750.03279Q型因子分析的载荷F1F20.10599-0.023540.15369-0.061640.16284-0.009280.223880.223770.15853-0.19307-0.561530.019000.16656-0.106640.164290.1364430.-0.20-0.15-0.10-0.050.000.050.100.150.200.250.30-0.6-0.5-0.4-0.3-0.2-0.10.00.1
13、0.20.3变量样品对应图31.由图我们可以看出,全部变量与样品分为3类。每一类聚合一些变量和样品。第一类:聚合了环氧氯丙烷X5和D和H两个地区,表明D和H两个地区主要大气污染物为环氧氯丙烷。第二类:包含变量X1,X2,X3,X4和样品A,B,C,E和G地区,这5个地区的主要污染物是氯、硫化氢、二氧化硫、碳4。第三类:包含X6和地区F,该地区的主要污染物是环已烷。32.1992-1994年在北京市进行的“北京老龄化多维纵向研究”。在这项研究中,先后在两年时间里,对一批60岁以上的老年人进行了纵向追踪调查,有2703位老年人在两次调查中都被调查,了解对被调查的老年人“日常生活自理能力”和“自评健
14、康情况”,得如下资料:33.自评健康状况生活自理能力完全自理部分自理不能自理合计很好129148151好931146961173一般66011674850差25110481436很差1172341没回答15132452合计1997400306270334.InertiaandChi-SquareDecompositionSingularPrincipalChi-ValuesInertiasSquaresPercents1836547290-+-+-+-+-+-0.296150.08770237.06092.45%*0.084630.0071619.3587.55%*-0.09486256.418(DegreesofFreedom=10)35.RowCoordinatesDim1Dim21-0.25463-0.076812-0.12566-0.026713-0.09409-0.0018440.338420.1530151.38102-0.4086361.18558-0.10506ColumnCoordinatesDim1Dim21-.158972-.02163720.2317290.19196030.734563-.10971936.37.