1、Canonical Correlation Analysis典型相关分析典型相关分析一、引言一、引言 1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型典型(则则)相关系数相关系数(一)何时采用典型相关分析(一)何时采用典型相关分析 典型相关是简单相关、多重相关的推广;典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相或者说简单相关系数、复相关系数是典型相关系数的特例。关系数的特例。典型相关典型相关是研究是研究两组变两组变量量之间相关性的一种统
2、计分析之间相关性的一种统计分析方法。也是一种降维技术。方法。也是一种降维技术。由由Hotelling(1935,1936)Hotelling(1935,1936)最早最早提出,提出,Cooley and Lohnes(1971)Cooley and Lohnes(1971)、Kshirsagar(1972)Kshirsagar(1972)和和 Mardia,Mardia,Kent,and Bibby(1979)Kent,and Bibby(1979)推动了它推动了它的应用。的应用。实例(X与Y地位相同)X X1 1,X X2 2,X Xp pY Y1 1,Y Y2 2,Y Yq q1 1临床症
3、状临床症状所患疾病所患疾病2 2原材料质量原材料质量相应产品质量相应产品质量3 3居民营养居民营养健康状况健康状况4 4生长发育(肺活量)生长发育(肺活量)身体素质(跳高)身体素质(跳高)5 5人体形态人体形态人体功能人体功能 1985年中国年中国28 省市城市男生省市城市男生(1922岁岁)的调查数据。记的调查数据。记形态指标形态指标身高身高(cm)、坐高、体重、坐高、体重(kg)、胸围、胸围、肩宽肩宽、盆骨宽分别为盆骨宽分别为X1,X2,X6;机能机能指标指标脉搏脉搏(次次/分分)、收缩压、收缩压(mmHg)、舒、舒张压张压(变音变音)、舒张压舒张压(消音消音)、肺、肺活量活量(ml)分别
4、为分别为Y1,Y2,Y5。现。现欲研究这两组变量之间的相关性。欲研究这两组变量之间的相关性。简单相关系数矩阵简单相关系数矩阵 简单相关系数公式符号简单相关系数公式符号CorrCorr(X X)R R1111CorrCorr(Y Y)R R2222CorrCorr(Y Y,X X)R R2121CorrCorr(X X,Y Y)R R1212简单相关系数简单相关系数描述两组变量的相关关系的缺点描述两组变量的相关关系的缺点 只是孤立考虑单个只是孤立考虑单个X与单个与单个Y间的相关,间的相关,没有考虑没有考虑X、Y变量组内部各变量间的相变量组内部各变量间的相关。关。两组间有许多简单相关系数(实例为两
5、组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描个),使问题显得复杂,难以从整体描述。述。(二)典型相关分析的思想(二)典型相关分析的思想采用主成分思想寻找第i对典型典型(相关相关)变变量量(Ui,Vi):典型相关系数典型相关系数典型变量系数或典型权重典型变量系数或典型权重 X*1,X*2,X*p和Y*1,Y*2,Y*q分别为X1,X2,Xp和Y1,Y2,Yq的正态离差标准化值。记第一对典型相关变量第一对典型相关变量间的典型相关系数为:Corr(U1,V1)(使U1与V1 间最大相关)第二对典型相关变量第二对典型相关变量间的典型相关系数为:Corr(U2,V2)(与U1、V
6、1 无关;使U2与V2 间最大相关).第五对典型相关变量第五对典型相关变量间的典型相关系数为:Corr(U5,V5)(与U1、V1、U4、V4无关;U5与V5 间最大相关)有:典型相关变量的性质典型相关变量的性质1221典型变量典型相关系数1与2是三个X变项的线性组合。1与2代表两个Y变项的线性组合。典型加权系数(三)典型相关分析示意图(三)典型相关分析示意图二、典型相关系数及其检验二、典型相关系数及其检验 (一)求解典型相关系数的步骤(一)求解典型相关系数的步骤1.求X,Y变量组的相关阵 R=;2.求矩阵 A、B 可以证明A、B有相同的非零特征根;3.求A或B的i(相关系数的平方)与 ,i1
7、m,即 ;4.求A、B关于i的特征根向量即变量加权系数。(二)典型相关系数计算实例(二)典型相关系数计算实例1.求X,Y变量组的相关阵 R=CorrCorr(X X)R R1111CorrCorr(Y Y)R R2222CorrCorr(Y Y,X X)R R2121CorrCorr(X X,Y Y)R R12122.求矩阵求矩阵A、BA矩阵矩阵(pp)0.5298 0.5298 0.4586 0.4586 0.3053 0.3053 0.3986 0.3986-0.2919-0.2919-0.1778-0.1778-0.0912-0.0912-0.0701-0.0701-0.1669-0.
8、1669-0.1939-0.1939-0.0007-0.0007-0.0168-0.0168 0.2274 0.2274 0.2739 0.2739 0.5489 0.5489 0.0840 0.0840 0.5238 0.5238 0.4468 0.4468 0.0966 0.0966 0.0376 0.0376 0.0510 0.0510 0.3877 0.3877-0.2523-0.2523-0.1759-0.1759-0.0915-0.0915-0.0979-0.0979-0.0669-0.0669-0.0377-0.0377 0.0061 0.0061-0.0806-0.0806 0
9、0949 0.0949 0.1421 0.1421 0.1757 0.1757-0.0210-0.0210 0.2171 0.2171 0.3142 0.3142 B矩阵矩阵(qq)0.2611-0.0560-0.0337-0.0551-0.0312-0.0053 0.5572 0.1009 0.0034-0.0543-0.0632-0.0843 0.0859 0.0013 0.1743-0.1175-0.0007 0.1183 0.2550 0.1490-0.1052 0.1390 0.3531 0.2912 0.5573 3.求矩阵求矩阵A、B的的(相关系数(相关系数的平方)的平方)A
10、A、B B有相同的非零特征值有相同的非零特征值B矩阵求矩阵求(典型相关系数的平方)(典型相关系数的平方)0.2611-0.2611-0.0560-0.0560-0.0337-0.0337-0.0551-0.0551-0.0312-0.0312-0.0053-0.0053 0.5572-0.5572-0.1009 0.1009 0.0034 0.0034-0.0543-0.0543-0.0632-0.0632-0.0843-0.0843 0.0859 0.0859-0.0013 0.0013 0.1743 0.1743-0.1175-0.1175-0.0007-0.0007 0.1183 0.1
11、183 0.2550 0.2550-0.1490 0.1490-0.1052-0.1052 0.1390 0.1390 0.3531 0.3531 0.2912 0.2912 0.5573 0.5573-5个个与典型相关系数与典型相关系数1 1 0.76430.76432 2 0.5436 0.5436 3 3 0.2611 0.2611 4 40.1256 0.1256 5 50.02200.0220 4.4.求求A A、B B关于关于i i的变量系数的变量系数(求解第(求解第1 1典型变量系数)典型变量系数)求解第求解第2 2典型变量系数典型变量系数 求解第求解第5 5典型变量系数典型变量
12、系数 5 5组(标准化)典型变量系数组(标准化)典型变量系数(X)(X)U1U2U3U4U5X1X10.5852 0.5852-1.1443-1.1443 0.7823 0.7823 0.0352 0.0352-0.8298-0.8298 X2X2-0.2175-0.2175 0.0189 0.0189 0.6032 0.6032 0.1289 0.1289 1.5590 1.5590 X3X30.5288 0.5288 1.6213 1.6213-0.7370-0.7370-0.4066-0.4066-1.1704-1.1704 X4X40.1890 0.1890-0.9874-0.9874
13、0.7753-0.7753 0.1229 0.1229 0.6988 0.6988 X5X5-0.1193-0.1193-0.0626-0.0626-0.2509-0.2509-0.5860-0.5860 1.0488 1.0488 X6X60.1948 0.1948 0.8108 0.8108 0.1467 0.1467 0.9523 0.9523-0.5140-0.5140 5 5组(标准化)典型变量系数组(标准化)典型变量系数(X)(X)由标准化典型变量系数获得原变量由标准化典型变量系数获得原变量X X对应的粗典型变量系数对应的粗典型变量系数粗典型变量系数可由标准典型变量系数与相应的标
14、准差之比获得。5 5组(标准化)典型变量加权系数组(标准化)典型变量加权系数(Y)(Y)V1V2V3V4V5Y1Y1-0.0838-0.1325 1.0807 0.3750-0.0376 Y2Y2-0.0878 1.2688 0.0701 0.2476-0.3342 Y3Y30.2147-0.3301 0.2218-1.0863 1.4100 Y4Y40.2920-0.2392-0.5765 1.3368-0.2942 Y5Y50.7607-0.2995 0.6532-0.0017-0.6905(三)典型相关系数的(三)典型相关系数的特点特点 1.两变量组的变量单位改变,典型相关系数不变,但典
15、型变量加权系数改变。(无论原变量标准化否,获得的典型相关系数不变)2.第一对典则相关系数较两组变量间任一个简单相关系数的绝对值都大,即 1max(|Corr(Xi,Yj)|)或 1max(|Corr(X,Yj)|)max(|Corr(Xi,Y)|)(四)校正典型相关系数(四)校正典型相关系数(Adjusted Canonical Correlation)为了使结果更加明了,增加大值或小值,减少中间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。(五)典型相关系数的(五)典型相关系数的假设检验假设检验
16、 1.全部总体典型相关系数均为02.部分总体典型相关系数为01.全部总体典型相关系数为全部总体典型相关系数为0F近似检验(计算公式)近似检验(计算公式)F近似检验(近似检验(SAS结果)结果)Test of H0:The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr F1 0.06798466 2.24 30 70 0.00302 0.28840509 1.38 20 60.649 0.1686
17、3 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920多变量统计量与多变量统计量与F近似检验近似检验 Multivariate Statistics and F ApproximationsStatistic Value F Value Num DF Den DF Pr FWilks Lambda 0.06798 2.24 30 70 0.0030Pillais Trace 1.71651 1.83 30 105 0.0133Hotelling-Lawley Tra
18、ce 4.95277 2.62 30 35.396 0.0032 Roys Greatest Root 3.24221 11.35 6 21 .0001 NOTE:F Statistic for Roys Greatest Root is an upper boun.多变量统计量的计算公式多变量统计量的计算公式2.部分总体典型相关系数为部分总体典型相关系数为0仅对较小的典型相关作检验仅对较小的典型相关作检验卡方近似检验卡方近似检验部分总体部分总体F近似检验(计算公式)近似检验(计算公式)三、典型结构分析三、典型结构分析与原变量间的相关程度和典型与原变量间的相关程度和典型变量加权系数有关。变量加
19、权系数有关。典型变量与原变量的亲疏关系典型变量与原变量的亲疏关系 原变量与自已的典型变量原变量与自已的典型变量 原变量与对方的典型变量之原变量与对方的典型变量之间的相关系数。间的相关系数。原变量在典型变量上的负荷原变量在典型变量上的负荷(即原变量与典型变量间的相关系数即原变量与典型变量间的相关系数即原变量与典型变量间的相关系数即原变量与典型变量间的相关系数)U1U2U3U4U5V1V2V3V4V5身身 高高X X1 10.9050-0.08060.3777-0.14870.08870.7912-0.0594 0.1930-0.0527 0.0132 坐坐 高高X X2 20.86160.011
20、20.4152-0.03600.24120.7532 0.0083 0.2121-0.0128 0.0357 体体 重重X X3 30.93610.1655-0.0471-0.2933-0.02470.8184 0.1220-0.0240-0.1039-0.0037 胸胸 围围X X4 40.6958-0.3189-0.53820.31910.13540.6083-0.2351-0.27500.1131 0.0201 肩肩 宽宽X X5 50.13560.5329-0.0321-0.23760.73890.1185 0.3929-0.0164-0.0842 0.1095 骨盆宽骨盆宽X X6
21、60.24330.4412-0.04050.74780.39080.2127 0.3253-0.02070.2650 0.0579 脉脉 搏搏Y Y1 1-0.3610-0.0625 0.3757 0.1605 0.0410-0.4130-0.0848 0.7353 0.4530 0.2764 收缩压收缩压Y Y2 20.3963 0.6232 0.0495 0.0508 0.0332 0.4533 0.8452 0.0968 0.1433 0.2240 舒张压舒张压(音变音变)Y Y3 30.5801 0.1568 0.0378 0.0287 0.1050 0.6636 0.2127 0.0
22、740 0.0810 0.7087 舒张压舒张压(消音消音)Y Y4 40.5003 0.0296-0.0837 0.2339 0.0677 0.5723 0.0401-0.1638 0.6600 0.4565 肺活量肺活量Y Y5 50.7994 0.0094 0.0685-0.0743-0.0473 0.9144 0.0128 0.1341-0.2098-0.3190 负荷矩阵的表达负荷矩阵的表达左上角的矩阵左上角的矩阵 X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5 X2=0.8616U1+0.0112U2+0.4152U3-0.0360U
23、4+0.2412U5X6右下角的矩阵右下角的矩阵 Y1=-0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5 Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0.2240V5.Y5各典型变量的意义解释各典型变量的意义解释UVCorr(U,V)1身高、坐高、体重、胸围身高、坐高、体重、胸围舒张压、肺活量舒张压、肺活量0.87422肩宽肩宽收缩压收缩压0.73733胸围胸围(-)脉搏脉搏0.51054骨盆宽骨盆宽舒张压舒张压(消音消音)0.35425肩宽肩宽舒张压舒张压(音变音变)0.1510 等于该变量与自己这方典型变等于该变
24、量与自己这方典型变量的相关系数与典则相关系数的乘量的相关系数与典则相关系数的乘积积 原变量与对方典型变量的相关原变量与对方典型变量的相关原变量与对方典型变量的相关原变量与对方典型变量的相关 右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量来预测原变量(回归)提供依据。四、典型变量的冗余分析四、典型变量的冗余分析(Canonical Redundancy Analysis)该方法由Stewart and Love 1968;Cooley and Lohnes 1971;van den Wollenberg 1977)发展。以原变量与典型变量间相关为基础。通过计算X、Y变量组
25、由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。典型典型变量变量编号编号X X1 1,X X2 2,X X3 3,X X4 4,X X5 5,X X6 6被被U U1 1,U U2 2,U U5 5解释解释 典型相典型相关系数的关系数的平方平方被被V V1 1,V V2 2,V V5 5解释解释百分比百分比累计百分比累计百分比百分比百分比累计百分比累计百分比10.4999 0.4999 0.7643 0.3821 0.3821 20.1024 0.6023 0.5436 0.0557 0.4377 30.1016 0.7039 0.2611
26、0.0265 0.4643 40.1378 0.8417 0.1256 0.0173 0.4816 50.1306 0.9724 0.0220 0.0029 0.4844 X原变量的相关被典型变量解释的百分比原变量的相关被典型变量解释的百分比典型典型变量变量编号编号Y Y1 1,Y Y2 2,Y Y3 3,Y Y4 4,Y Y5 5被被V V1 1,V V2 2,V V5 5解释解释 典型相典型相关系数平关系数平方方被被U U1 1,U U2 2,U U5 5解释解释百分比百分比累计百分比累计百分比百分比百分比累计百分比累计百分比10.3960 0.3960 0.7643 0.30270.30
27、2720.1537 0.5497 0.5436 0.08360.386230.1201 0.6698 0.2611 0.03130.417640.1424 0.8122 0.1256 0.01790.435550.1878 1.0000 0.0220 0.00410.4396Y原变量的相关被典型变量解释的百分比原变量的相关被典型变量解释的百分比 U1,U2,U5并没有完全概括X变量的全部信息(97.24),而V V1 1,V V2 2,V V5 5 却概括了Y变量的全部信息(100);V V1 1,V V2 2,V V5 5中仅蕴含X变量信息的48.44%,而U1,U2,U5中仅蕴含Y变量信息的43.96%。实例冗余分析的解释






