收藏 分销(赏)

典型相关分析专题培训课件.ppt

上传人:w****g 文档编号:2716096 上传时间:2024-06-04 格式:PPT 页数:52 大小:1,015KB
下载 相关 举报
典型相关分析专题培训课件.ppt_第1页
第1页 / 共52页
典型相关分析专题培训课件.ppt_第2页
第2页 / 共52页
典型相关分析专题培训课件.ppt_第3页
第3页 / 共52页
典型相关分析专题培训课件.ppt_第4页
第4页 / 共52页
典型相关分析专题培训课件.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、典型相关分析典型相关分析10.1 典型相关分析及基本思想典型相关分析及基本思想 典型相关分析方法典型相关分析方法(canonical correlation analysis-CCA)最早源于荷泰林最早源于荷泰林(H,Hotelling)于于1936年在年在生物统计生物统计期刊上发表的一篇论文期刊上发表的一篇论文两组两组变式之间的关系变式之间的关系。他所提出的方法经过多年的应用。他所提出的方法经过多年的应用及发展,逐渐达到完善,在及发展,逐渐达到完善,在70年代臻于成熟。年代臻于成熟。由于典型相关分析涉及较大量的由于典型相关分析涉及较大量的矩阵矩阵计算,其方计算,其方法的应用在早期曾受到相当的

2、限制。但随着当代计算法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。析中的困难,因此它的应用开始走向普及化。The canonical correlation analysis-CCA 在在解解决决实实际际问问题题中中,这这种种方方法法有有广广泛泛的的应应用用。如,在工厂里常常要研究产品的如,在工厂里常常要研究产品的 q个个质量指标质量指标 和和 p 个个原材料指标原材料指标 的的相关相关关系。关系。当当然然可可以以用用最最原原始始的的方方法法,分分别别计计算算两两

3、组组变变量量之之间间的的全全部部相相关关系系数数,一一共共有有p*qp*q个个简简单单相相关关系系数数,这这样又烦琐又不能抓住问题的本质。样又烦琐又不能抓住问题的本质。如如果果能能够够采采用用类类似似于于主主成成分分的的思思想想,分分别别找找出出两两组组变变量量的的各各自自的的某某个个线线性性组组合合,讨讨论论线线性性组组合合之之间间的的相关关系,则更简捷。相关关系,则更简捷。The canonical correlation analysis-CCAvWith canonical correlation,we are working with two sets of variable(e.g

4、.,we might have one set of variables measuring the personality characteristics of high school students and another set of variables measuring their vocational interests).vIn canonical correlation,we are also trying to re-express and simplify the data.Our goal is to find two linear combinations of th

5、e original variables-one combination from the first set variables and one combination from the second(called canonical variables)-that exhibit the largest possible covariance.vFrom James etcAnalyzing Multivariate DataFrom James.Analyzing Multivariate DatavIn principal components analysis(PCA),we fou

6、nd that a small number of components could account for much of the variance(i.e.,information)in the entire data set.vWith canonical correlation,we will find that a few pairs of canonical variates can account for much of the interdependence between two sets of variables.例:例:家庭特征家庭特征与与家庭消费家庭消费之间的关系之间的

7、关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:分析分析两组变量之间两组变量之间的关系。的关系。The canonical correlation analysis-CCAX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的变量间的相关系数相关系数矩阵矩阵The canonical correlati

8、on analysis-CCAy2y3y1x2x1The canonical correlation analysis-CCA 典型相关分析的典型相关分析的思想思想:首先分别在每组变量中找出首先分别在每组变量中找出第一对第一对线性组合,线性组合,使其具有使其具有最大相关性最大相关性,The canonical correlation analysis-CCA 然后再在每组变量中找出然后再在每组变量中找出第二对第二对线性组合,使其线性组合,使其分别与本组内的第一线性组合分别与本组内的第一线性组合不相关不相关,第二对线性组,第二对线性组合本身具有合本身具有次大次大的相关性。的相关性。既既:u2和和

9、v2与与u1和和v1相互独立相互独立,但,但u2和和v2有有次大次大相相关性关性。如此继续下去,直至进行到。如此继续下去,直至进行到r步,步,两组变量的两组变量的相关性被提取完为止。相关性被提取完为止。r min(p,q),可以得到,可以得到r组组变量。变量。The canonical correlation analysis-CCA10.2 典型相关的数学描述典型相关的数学描述 考虑两组变量的向量考虑两组变量的向量 其其协方差阵协方差阵为为 其中其中 1111是是第一组第一组变量的协方差矩阵;变量的协方差矩阵;2222是是第二第二组组变量的协方差矩阵;变量的协方差矩阵;是是X X和和Y Y的

10、的其其协方差协方差矩矩阵。阵。矩阵的矩阵的分块分块The canonical correlation analysis-CCA 如果我们记两组变量的如果我们记两组变量的第一对第一对线性组合为:线性组合为:其中:其中:所以,典型相关分析就是求所以,典型相关分析就是求a a1 1和和b b1 1,使,使 uvuv达到最大达到最大。想一想想一想如何求如何求?The canonical correlation analysis-CCA10.3 10.3 总体总体的典型的典型相关系数相关系数和典型变量和典型变量 在在约束约束条件条件:下,求下,求a a1 1和和b b1 1,使,使 uvuv达到最大。令

11、达到最大。令The canonical correlation analysis-CCA 根据数学分析中根据数学分析中条件极值条件极值的求法,引入的求法,引入LagrangeLagrange乘数乘数,求,求极值极值问题,则可以转化为求问题,则可以转化为求 的的极大值极大值,其中,其中 和和 是是 LagrangeLagrange乘数。乘数。The canonical correlation analysis-CCA不含不含将上面的将上面的3 3式分别左乘式分别左乘 和和 The canonical correlation analysis-CCA注意注意到到将将 左乘(左乘(3 3)的第二式,

12、得)的第二式,得 并将并将第一式第一式代入,得代入,得 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为等于等于单位阵单位阵特征根定义特征根定义The canonical correlation analysis-CCA将将 左乘(左乘(3 3)的第一式,并将第二式代入,得)的第一式,并将第二式代入,得 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为回顾特征根回顾特征根定义定义令令The canonical correlation analysis-CCA 结结论论:既既是是A A又又是是B B的的特特征征根根,和和 是是相相应应于于A A和和B B的特征向量。的特征向量

13、。至此,典型相关分析转化为求至此,典型相关分析转化为求A A和和B B特征根特征根和和特征特征向量向量的问题。的问题。第第一一对对典典型型变变量量提提取取了了原原始始变变量量X X与与Y Y之之间间相相关关的的主主要要部部分分,如如果果这这部部分分还还不不能能足足以以解解释释原原始始变变量量,可可以以在在剩剩余余的的相相关关中中再再求求出出第第二二对对典典型型变变量量和和他他们们的的典典型相关系数。型相关系数。The canonical correlation analysis-CCA 在剩余的相关中再求出在剩余的相关中再求出第二对第二对典型变量和他们典型变量和他们的的典型相关系数典型相关系数

14、。设第二对典型变量为:。设第二对典型变量为:在在约束条件约束条件:求使求使 达到达到最大最大的的 和和 。独立独立性性The canonical correlation analysis-CCA例:家庭特征与家庭消费之间的关系例:家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:分析分析两组变量两组变量之间的关系。之间的关系。The canonical correlation analysis-CCAX1X2y1y2y3X11.000.800.260.670.34X20.

15、801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵The canonical correlation analysis-CCA典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关典型相关系数的平系数的平方方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919The canonical correlation

16、analysis-CCAX X组典型变量的系数组典型变量的系数U1U2X1(就餐)就餐)0.7689-1.4787X2(电影)(电影)0.27211.6443Y Y组典型变量的系数组典型变量的系数V1V2Y1(年龄)(年龄)0.04911.0003Y2(收入)(收入)0.8975-0.5837Y3(文化)(文化)0.19000.2956典型变量的典型变量的性质性质1 1、同一组同一组的典型变量之间的典型变量之间互不相关互不相关 X组的典型变量之间是组的典型变量之间是相互独立相互独立的:的:Y组的典型变量之间是组的典型变量之间是相互独立相互独立的:的:因为特征向量之间是因为特征向量之间是正交正交

17、的。故的。故注意正交注意正交与独立的与独立的关系关系The canonical correlation analysis-CCA2 2、不同组的典型变量之间、不同组的典型变量之间相关性相关性 不同组内一对典型变量之间的不同组内一对典型变量之间的相关系数相关系数为:为:同对同对则协方差为则协方差为 i,不同对不同对则为零。则为零。The canonical correlation analysis-CCA小结小结v1、典型相关分析关注并解决原始数据中、典型相关分析关注并解决原始数据中两组变量之两组变量之间间的相关关系问题;的相关关系问题;v2、典型相关分析最终转化为求典型相关分析最终转化为求A和

18、和B的的特征根特征根和和特特征向量征向量问题。问题。v3、第一对第一对典型变量,典型变量,第二对第二对典型变量典型变量;v4、注意构造各、注意构造各”对对”典型变量的典型变量的约束约束条件;条件;v5、注意典型变量的两个、注意典型变量的两个性质。性质。The canonical correlation analysis-CCA2024/6/4 周二26DXL10.4、样本样本典型相关系数和典型变量典型相关系数和典型变量 在实际应用中,总体的协方差矩阵在实际应用中,总体的协方差矩阵 常常是常常是未未知知的,类似于其他的统计分析方法,需要从总体中的,类似于其他的统计分析方法,需要从总体中抽出一个样

19、本,根据样本对总体的协方差或相关系抽出一个样本,根据样本对总体的协方差或相关系数矩阵数矩阵R进行进行估计估计,然后利用估计得到的协方差或相,然后利用估计得到的协方差或相关系数矩阵再进行典型相关分析。关系数矩阵再进行典型相关分析。由于估计中抽样误差的存在,所以估计以后还由于估计中抽样误差的存在,所以估计以后还需要进行有关的需要进行有关的假设检验假设检验。The canonical correlation analysis-CCA 假设有假设有X组和组和Y组变量,样本容量为组变量,样本容量为n。假设。假设(X1,Y1),(X2,Y2),(Xn,Yn),观测值矩阵观测值矩阵为:为:The canon

20、ical correlation analysis-CCAv 的的最大似然估计最大似然估计是是 v用用 代替代替 并按以上方法计算并按以上方法计算 和和 ,称称 为样本典型相关系数,为样本典型相关系数,称称 为为样本样本的典型变量。的典型变量。可以证明可以证明 分别是分别是总体总体典型相关系数和典型相关系典型相关系数和典型相关系 数向量的数向量的最大似然最大似然估计。估计。The canonical correlation analysis-CCA2024/6/4 周二29DXLv计算时也可以从样本的相关矩阵出发求样本的计算时也可以从样本的相关矩阵出发求样本的典型相关系数典型相关系数和和典型变

21、量典型变量,将相关矩阵剖分为:,将相关矩阵剖分为:The canonical correlation analysis-CCA2024/6/4 周二30DXLv则有则有将将 带入带入(7)-(8)式可得:式可得:则则 分别为矩阵分别为矩阵 与与 的相应的相应于特征根于特征根 的的特征向量特征向量。从而得到第从而得到第i对样本的对样本的典型典型变量:变量:及典型相关系数及典型相关系数The canonical correlation analysis-CCA2024/6/4 周二31DXL10.5、典型、典型相关系数相关系数的显著性检验的显著性检验典典型型相相关关分分析析是是否否恰恰当当,应应该

22、该取取决决于于两两组组原原变变量量之之间间是是否否相相关关,如如果果两两组组变变量量之之间间毫毫无无相相关关性性而而言言,则则不不应应该该作作典典型型相相关关分分析析。用用样样本本来来估估计计总总体体的的典典型相关系数是否有误,需要进行检验。型相关系数是否有误,需要进行检验。(一)整体检验(一)整体检验检验的检验的统计量统计量:Wilkes分布分布The canonical correlation analysis-CCAv按大小次序排列为按大小次序排列为v当当n1时,在时,在 成立下成立下 近似近似服从服从 分布分布v这里这里 ,v因此在给定检验水平因此在给定检验水平 之下,若由样本算出的之

23、下,若由样本算出的 临临界值,则界值,则否定否定 (不相关被否定,即相关);不相关被否定,即相关);v即第一对典型变量即第一对典型变量 具有具有相关性相关性,其相关系数为,其相关系数为 ,即至少可以认为第一个典型相关系数即至少可以认为第一个典型相关系数 为为显著显著的。的。10.5、典型相关系数的、典型相关系数的显著性显著性检验检验The canonical correlation analysis-CCA2024/6/4 周二33DXL10.5、典型相关系数的、典型相关系数的显著性显著性检验检验v第二步:将第二步:将 除去,再检验其余除去,再检验其余 个典型相关系数的个典型相关系数的显著显著

24、性性,这时计算,这时计算v则统计量则统计量 近似近似服从服从v 个自由度的个自由度的 分布,分布,v若若 ,则认为,则认为 被否定,即第二对典型变量被否定,即第二对典型变量 相相关。The canonical correlation analysis-CCA2024/6/4 周二34DXL10.5、典型相关系数的显著性检验、典型相关系数的显著性检验v第三步:以下第三步:以下逐个逐个检验,直到某一个相关系数检验,直到某一个相关系数 检验为检验为不显著不显著为止。这为止。这时我们就找到反映两组变量相互关系的时我们就找到反映两组变量相互关系的k-1对对典型变量典型变量。v一般一般,检验第,检验第r个

25、(个(rk)典型相关系数的显著性时,作统计量典型相关系数的显著性时,作统计量v它它近似近似服从服从 个自由度的个自由度的 分布。分布。v其中其中 The canonical correlation analysis-CCA2024/6/4 周二35DXL 注意:注意:1 1)对对两两组组变变量量x x和和y y进进行行典典型型相相关关分分析析,采采用用的的也也是是一一种种降降维维技技术术。我我们们希希望望使使用用尽尽可可能能少少的的典典型型变变量量对对数数,为为此此需需要要对对一一些些较较小小的典型相关系数是否为零进行假设检验。的典型相关系数是否为零进行假设检验。2 2)H H0 0经检验被经

26、检验被拒绝拒绝,则应进一步作检验。,则应进一步作检验。The canonical correlation analysis-CCA 若原假设若原假设H H0 0被接受,则认为只有第二对典型变被接受,则认为只有第二对典型变量是有用的;若原假设量是有用的;若原假设H H0 0被拒绝,则认为第二对被拒绝,则认为第二对典型变量也是有用的,并典型变量也是有用的,并进一步进一步检验假设。检验假设。(二)部分总体典型(二)部分总体典型相关系数为零相关系数为零的检验的检验The canonical correlation analysis-CCA如此进行下去如此进行下去.直至直至对某个对某个k,有有The c

27、anonical correlation analysis-CCA检验的统计量检验的统计量 近似近似服从自由度为服从自由度为(p-k)(q-k)(p-k)(q-k)的的 2 2分布。在给分布。在给定的显著性水平定的显著性水平 下,如果下,如果 2 22 2(p-k)(q-k)(p-k)(q-k),则,则拒绝拒绝原假设,认为原假设,认为至少至少第第k+1k+1对典型变量之间的相关对典型变量之间的相关性显著。性显著。The canonical correlation analysis-CCAWilkes分布与分布与 2分布分布10.6、计算步骤及实例、计算步骤及实例计算步骤计算步骤:第一步第一步

28、计算相关系数阵计算相关系数阵R,并将,并将R剖分为剖分为第二步第二步 求求典型相关系数典型相关系数及及典型变典型变量;量;首先求首先求则则 典型变量典型变量:The canonical correlation analysis-CCA10.6、计算步骤及实例、计算步骤及实例第三步第三步 典型相关系数的显著性检验。典型相关系数的显著性检验。2 法法典型相关分析的典型相关分析的逻辑逻辑框图框图确定典型相关分析的目的确定典型相关分析的目的设计典型相关分析设计典型相关分析检验典型相关分析的基本假设检验典型相关分析的基本假设典型函数的估计和识别典型函数的估计和识别解释典型函数和变量解释典型函数和变量验证

29、模型验证模型The canonical correlation analysis-CCA10.6 计算算实例例v例例1 对某高中一年级男生对某高中一年级男生38人进行人进行体力测试体力测试(共(共7项指标)及项指标)及运动能力运动能力测试测试(共五项指标),试对两组指标作典型相关分析。(共五项指标),试对两组指标作典型相关分析。v体力测试体力测试指标:指标:X1=反复横向跳(次);反复横向跳(次);X2=纵跳(纵跳(cm););X3=背力背力(kg);X4=握力(握力(kg);X5=台阶试验(指数);台阶试验(指数);X6=立定体前屈立定体前屈(cm););X7=俯卧上体后仰(俯卧上体后仰(c

30、m););v运动能力运动能力测试指标:测试指标:X8=50米跑(秒);米跑(秒);X9=跳远(跳远(cm);X10=铅球铅球(m););X11=引体向上(次);引体向上(次);X12=耐力跑(秒)耐力跑(秒)v原始数据(略):原始数据(略):P226第一步,计算第一步,计算相关矩阵相关矩阵 :X1X2X3X4X5X6X7X8X9X10X11X12X11.000.300.16-0.020.240.07-0.160.400.360.410.28-0.47X21.000.380.01-0.100.450.25-0.300.640.500.56-0.24X31.000.31-0.240.19-0.01

31、-0.300.550.550.32-0.48X41.00-0.030.050.20-0.280.37-0.040.24-0.09X51.000.050.32-0.43-0.18-0.010.14-0.01X61.000.28-0.080.260.330.23-0.28X71.00-0.250.150.030.080.19X81.00-0.44-0.26-0.460.07X91.000.490.60-0.46X101.000.35-0.52X111.00-0.42X121.00第二步第二步 求求 的的特征值特征值和相应的特征向量,从而和相应的特征向量,从而得出得出典型相关系数典型相关系数和和典型

32、变量典型变量序序号号典型相关典型相关 系数系数 典型变量典型变量 1 2 3 4 52024/6/4 周二45DXL第三步 典型相关系数的显著性检验v检验 :为此计算结论:第一对典型变量是有价值的结论:第一对典型变量是有价值的2024/6/4 周二46DXL第三步第三步 典型相关系数的显著性检验典型相关系数的显著性检验检验 :为此计算结论:第二对典型变量是有价值的。结论:第二对典型变量是有价值的。2024/6/4 周二47DXL第三步第三步 典型相关系数的典型相关系数的显著性显著性检检验验故故 为不显著的典型相关系数,结论:为不显著的典型相关系数,结论:第三对典型变量价值不大。第三对典型变量价

33、值不大。查检验 :为此计算分布表得个自由度的2211535)2()2(c=-pp结论:因而第四对和第五对典型变量价值也不大!结论:因而第四对和第五对典型变量价值也不大!2024/6/4 周二48DXLv根据以上的结果可知对根据以上的结果可知对原始两组变量原始两组变量的研究可转化为对第一的研究可转化为对第一对及第二对典型变量的研究,通过它们之间的对及第二对典型变量的研究,通过它们之间的相关性相关性的研究的研究来反映原始两组变量之间的来反映原始两组变量之间的相关关系相关关系。v第一对典型变量中,无论是第一组变量还是第二组变量,其第一对典型变量中,无论是第一组变量还是第二组变量,其测试结果越好,测试

34、结果越好,的数值也越大,可以解释为它表示的数值也越大,可以解释为它表示全全面能力面能力程度,我们看到这两组系数中只有程度,我们看到这两组系数中只有 系数为负,系数为负,而而恰好恰好这两个变量取值意义和其它变量意义相反。这两个变量取值意义和其它变量意义相反。v第二对典型变量中,第一组变量内第二对典型变量中,第一组变量内 的系数较大,第的系数较大,第二组变量内二组变量内 的系数较大,所以第二对典型变量可的系数较大,所以第二对典型变量可以解释为以解释为局部能力局部能力(即下半身腿的能力)的程度,它显示出(即下半身腿的能力)的程度,它显示出跳的能力强。跳的能力强。第三步第三步 结果分析结果分析2024

35、/6/4 周二49DXL10.6 计算算实例例v例例2 全国全国30个省市自治区农村居民个省市自治区农村居民收入收入与与支出支出的典型相关分的典型相关分析析v反映农村居民反映农村居民收入收入的变量的变量4个:个:X1=劳动者报酬(元);劳动者报酬(元);X2=家庭经营收入(元);家庭经营收入(元);X3=转移性收入(元);转移性收入(元);X4=财产性财产性收入(元);收入(元);v反映农村居民生活费反映农村居民生活费支出支出的变量取的变量取8个:个:X5=食品支出(元);食品支出(元);X6=衣着支出(元);衣着支出(元);X7=居住支出(元);居住支出(元);X8=家庭设备家庭设备及服务支

36、出(元);及服务支出(元);X9=医疗保健支出(元);医疗保健支出(元);X10=交通和交通和通讯支出(元);通讯支出(元);X11=文教、娱乐用品及服务支出(元);文教、娱乐用品及服务支出(元);X12=其它商品及服务支出(元)(原始数据略)其它商品及服务支出(元)(原始数据略)P231本章思考题v1、典型相关分析、典型相关分析关注关注和和解决解决什么问题?什么问题?v2、典型相关分析用到哪些、典型相关分析用到哪些线性代数线性代数知识?知识?v3、什么情况下、什么情况下不能不能做典型相关?如何判断?做典型相关?如何判断?v4、样本样本典型相关系数有何特点?典型相关系数有何特点?v5、为何要进行典型相关系数的、为何要进行典型相关系数的显著性显著性检验?何时可检验?何时可以结束这种检验?以结束这种检验?v6、典型相关与主成分分析有何区别和联系?、典型相关与主成分分析有何区别和联系?v7、总结典型相关多元统计分析中的地位与作用。、总结典型相关多元统计分析中的地位与作用。The canonical correlation analysis-CCA作业v1)用)用SAS 计算例计算例1;v2)用)用SAS计算例计算例2;v3)用典型相关分析技术分析文、理科科目学)用典型相关分析技术分析文、理科科目学习的特点;习的特点;

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 职业教育

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服