资源描述
北大北大数学学院数学学院1第七章第七章 7.27.2样本的主成分样本的主成分应用例子应用例子7.2.17.2.1 例例7.2.17.2.1 学生身体各指标的主成分分析学生身体各指标的主成分分析.随机抽取随机抽取3030名某年级中学生名某年级中学生,测量其身高测量其身高(X1)(X1)、体重、体重(X2)(X2)、胸围、胸围(X3)(X3)和坐高和坐高(X4),(X4),数据见书中数据见书中P277P277表表7.4(7.4(或以下或以下SASSAS程序的数据行程序的数据行).).试对中学试对中学生身体指标数据做主成分分析生身体指标数据做主成分分析.解解 (1)(1)以下以下SASSAS程序首先生成包括程序首先生成包括3030名学生名学生身体指标数据的身体指标数据的SASSAS数据集数据集d721(d721(其中变量其中变量NUMBERNUMBER记录识别学生的序号记录识别学生的序号),然后调用,然后调用SAS/STASAS/STA软件中软件中的的PRINCOMPPRINCOMP过程进行主成分分析过程进行主成分分析.北大北大数学学院数学学院2第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 学生身体指标数据的描述统计量和相关阵学生身体指标数据的描述统计量和相关阵北大北大数学学院数学学院3第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 输出输出7.2.1 7.2.1 相关阵的特征值和特征向量相关阵的特征值和特征向量北大北大数学学院数学学院4第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 PRINCOMPPRINCOMP过程由相关阵出发进行主成分分析过程由相关阵出发进行主成分分析.由输出由输出7.2.17.2.1中相关阵的特征值可以看出,第中相关阵的特征值可以看出,第一主成分的贡献率已高达一主成分的贡献率已高达88.53%88.53%;且前二个主;且前二个主成分的累计贡献率已达成分的累计贡献率已达96.36%.96.36%.因此只须用两个因此只须用两个主成分就能很好地概括这组数据主成分就能很好地概括这组数据.另由第三和四个特征值近似为另由第三和四个特征值近似为0 0,可以得出这,可以得出这4 4个标准化后的身体指标变量个标准化后的身体指标变量(Xi*,i=1,2,3,4)=1,2,3,4)有有近似的线性关系近似的线性关系(即所谓共线性即所谓共线性),),如如 0.505747 0.505747 X1 1*-0.690844-0.690844 X2 2*+0.461488+0.461488 X3 3*-0.232343-0.232343 X4 4*c(c(常数常数).).北大北大数学学院数学学院5第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 由最大的两个特征值对应的特征向量可以写出由最大的两个特征值对应的特征向量可以写出第一和第二主成分第一和第二主成分:Z1 1=0.4970=0.4970 X1 1*+0.5146+0.5146 X2 2*+0.4809 +0.4809 X3 3*+0.5069+0.5069 X4 4*Z2 2=-0.5432=-0.5432 X1 1*+0.2102+0.2102 X2 2*+0.7246+0.7246 X3 3*-0.3683-0.3683 X4 4*第一和第二主成分都是标准化后变量第一和第二主成分都是标准化后变量Xi*(i=1,2,3,4)=1,2,3,4)的线性组合,且组合系数就是特征的线性组合,且组合系数就是特征向量的分量向量的分量.北大北大数学学院数学学院6第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 利用特征向量各分量的值可以对各主成利用特征向量各分量的值可以对各主成分进行解释分进行解释.第一大特征值对应的第一个特征向量的各第一大特征值对应的第一个特征向量的各个分量值均在个分量值均在0.50.5附近附近,且都是正值且都是正值,它反映它反映学生身材的魁梧程度学生身材的魁梧程度.身体高大的学生身体高大的学生,他的他的4 4个部位的尺寸都比较大个部位的尺寸都比较大;而身体矮小的学生而身体矮小的学生,他的他的4 4个部位的尺寸都比较小个部位的尺寸都比较小.因此我们称因此我们称第一主成分为大小因子第一主成分为大小因子.北大北大数学学院数学学院7第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 第二大特征值对应的特征向量中第第二大特征值对应的特征向量中第一一(即身高即身高X1X1的系数的系数)和第四个分量和第四个分量(即即坐高坐高X4X4的系数的系数)为负值为负值,而第二而第二(即体重即体重X2X2的系数的系数)和第三个分量和第三个分量(即胸围即胸围X3X3的系的系数数)为正值为正值,它反映学生的胖瘦情况它反映学生的胖瘦情况,故故称第二主成分为胖瘦因子称第二主成分为胖瘦因子.北大北大数学学院数学学院8第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 输出输出7.2.2 7.2.2 第二主成分得分对第一主成分得分的散布图第二主成分得分对第一主成分得分的散布图北大北大数学学院数学学院9第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 输出输出7.2.27.2.2是是PLOTPLOT过程产生的输出图形,过程产生的输出图形,从图中可以直观地看出,按学生的身体指从图中可以直观地看出,按学生的身体指标尺寸,这标尺寸,这3030名学生大约应分成三组名学生大约应分成三组(以第以第一主成分得分值为一主成分得分值为-1-1和和2 2为分界点为分界点).).每一组包括哪几名学生由每个散点旁边每一组包括哪几名学生由每个散点旁边的序号可以得知的序号可以得知.更详细的信息可从更详细的信息可从PRINTPRINT过程产生的输出数据列表中得到过程产生的输出数据列表中得到.北大北大数学学院数学学院10第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的输出结果的输出结果 按第一主成分得分排序后的主成分得分和原始数据按第一主成分得分排序后的主成分得分和原始数据北大北大数学学院数学学院11第七章第七章 7.27.2样本的主成分样本的主成分例例7.2.17.2.1的结果分析的结果分析 以上以上输出列表中把输出列表中把3030个观测按第一主成分从小个观测按第一主成分从小到大重新排序后的输出结果到大重新排序后的输出结果.从这里可以得到分从这里可以得到分为三组时各组学生的更多的信息如下为三组时各组学生的更多的信息如下:G G1 1=11,15,29,10,28,6,24,14,2,27,18=11,15,29,10,28,6,24,14,2,27,18 G G2 2=4,30,22,1,16,26,23,21,8,9,7,17=4,30,22,1,16,26,23,21,8,9,7,17 G G3 3=20,13,19,12,5,3,25=20,13,19,12,5,3,25 若考虑用若考虑用Z1 1,Z2 2进行聚类进行聚类,这就是主成分这就是主成分聚类方法聚类方法.北大北大数学学院数学学院12第七章第七章7.37.3主成分分析的应用主成分分析的应用 主成分分析方法把主成分分析方法把p维数据简化维数据简化为为m(m p)维数据后,进一步地可维数据后,进一步地可用于变量的分类,样品的分类,用于变量的分类,样品的分类,对样品进行排序或对系统进行评对样品进行排序或对系统进行评估,以及主成分回归,主成分聚估,以及主成分回归,主成分聚类,多维正态数据的主成分检验类,多维正态数据的主成分检验等方面。等方面。北大北大数学学院数学学院13第七章第七章7.37.3主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类 考察考察m维空间的维空间的p个点个点Qi,其坐标为其坐标为 Qi=(=(i1,i2,.,.,im)(i=1,2,=1,2,p).).按距离最近准则对按距离最近准则对p个点进行分类个点进行分类.当当m=2=2时时,p个点可在平面上点出来个点可在平面上点出来,利利用散布图可直观地给出指标的分类用散布图可直观地给出指标的分类.北大北大数学学院数学学院14第七章第七章7.37.3主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类-例子例子7.3.17.3.1 例例7.3.17.3.1 服装定型分类问题服装定型分类问题 为解决服装定型分类问题,对为解决服装定型分类问题,对128128个成年男个成年男子的身材进行测量,每人各测得子的身材进行测量,每人各测得1616项指标:身项指标:身高高(X1)(X1)、坐高、坐高(X2)(X2)、胸围、胸围(X3)(X3)、头高、头高(X4)(X4)、裤、裤长长(X5)(X5)、下档、下档(X6)(X6)、手长、手长(X7)(X7)、领围、领围(X8)(X8)、前、前胸胸(X9)(X9)、后背、后背(X10)(X10)、肩厚、肩厚(X11)(X11)、肩宽、肩宽(X12)(X12)、袖长、袖长(X13)(X13)、肋围、肋围(X14)(X14)、腰围、腰围(X15)(X15)和腿肚和腿肚(X16).16(X16).16项指标的相关阵项指标的相关阵R见表见表7.5(7.5(因相关阵因相关阵为对称阵为对称阵,只给出相关阵的上三角部分只给出相关阵的上三角部分).).试从试从相关阵相关阵R出发用出发用PRINCOMPPRINCOMP过程进行主成分分过程进行主成分分.北大北大数学学院数学学院15第七章第七章7.37.3主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类-例子例子7.3.17.3.1 北大北大数学学院数学学院16第七章第七章7.3 7.3 主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类-例子例子7.3.17.3.1的输出结果的输出结果 北大北大数学学院数学学院17第七章第七章7.3 7.3 主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类-例子例子7.3.17.3.1的输出结果的输出结果 北大北大数学学院数学学院18第七章第七章7.3 7.3 主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类-例子例子7.3.17.3.1的结果分析的结果分析 1.前三个主成分说明的方差比例已在前三个主成分说明的方差比例已在70%以上以上;2.由最大特征值对应的特征向量由最大特征值对应的特征向量(即列标题为即列标题为 PRIN1的列的列)可得出第一主成分可得出第一主成分:PRINT1=0.3446X1+0.2662X2+0.1634X16各指标的系数都为正各指标的系数都为正,数值均在数值均在0.1至至0.3之间之间.这这个主成分一般称为个主成分一般称为魁梧因子魁梧因子(或大小因子或大小因子);3.由次大特征值对应的特征向量由次大特征值对应的特征向量(即列标题为即列标题为 PRIN2的列的列)可得出第二主成分可得出第二主成分:PRINT2=-0.1968X1-0.1473X2+0.3137X3+0.3599X16北大北大数学学院数学学院19第七章第七章7.3 7.3 主成分分析的应用主成分分析的应用指标(指标(变量)分类变量)分类-例子例子7.3.17.3.1的结果分析的结果分析 各指标的系数有正有负各指标的系数有正有负,负系数对应的变量负系数对应的变量 (X1,X2等等)都是反映人体高低的变量都是反映人体高低的变量;正系数正系数 对应的变对应的变 量量(X3,X16等等)都是反映人体胖瘦的都是反映人体胖瘦的 变量变量.这个主成分一般称为高低或这个主成分一般称为高低或胖瘦因子胖瘦因子;4.由第三大特征值对应的特征向量由第三大特征值对应的特征向量(即列标题为即列标题为 PRIN3的列的列)可得出第三主成分可得出第三主成分 PRINT3.查看查看 各指标的系数各指标的系数,发现绝对数值最大和次大对应发现绝对数值最大和次大对应 的变量为的变量为前胸前胸(X9)(X9)和后背和后背(X10)(X10).故这个主成故这个主成 分一般称为分一般称为特体因子特体因子.
展开阅读全文