合理进行多元分析——定量资料对应分析.pdf

资源描述

1、2023 年第 36 卷第 S1期四川精神卫生http：/合理进行多元分析定量资料对应分析胡纯严1，胡良平1，2*（1.军事科学院研究生院，北京 100850；2.世界中医药学会联合会临床科研统计学专业委员会，北京 100029*通信作者：胡良平，E-mail：）【摘要】本文目的是介绍与定量资料对应分析有关的基本概念、计算方法、两个实例以及SAS实现。基本概念包括变量与样品、显变量与隐变量、因子分析、R型分析与Q型分析、对应分析；计算方法涉及基本原理、变量变换、构建R型和Q型协方差矩阵、因子分析；两个实例分别为“某年中国10个省份农村居民家庭人均消费支出数据”和“不同民族的各种基因出现的频率”

2、；借助SAS软件，对两个实例中的定量资料进行了定量资料对应分析，并对SAS输出结果做出了解释。【关键词】对应分析；因子分析；变量变换；协方差矩阵；特征值中图分类号：R195.1 文献标识码：A doi：10.11886/scjsws20230726001 Reasonably carry out multivariate analysis：quantitative data correspondence analysisHu Chunyan1，Hu Liangping1，2*（1.Graduate School，Academy of Military Sciences PLA China，Be

3、ijing 100850，China；2.Specialty Committee of Clinical Scientific Research Statistics of World Federation of Chinese Medicine Societies，Beijing 100029，China*Corresponding author:Hu Liangping，E-mail：）【Abstract】The purpose of this article was to introduce the basic concepts，calculation methods，two examp

4、les and SAS implementation related to the quantitative data correspondence analysis.The basic concepts included variable and sample，explicit variable and latent variable，factor analysis，R-type analysis and Q-type analysis，and correspondence analysis.The calculation methods involved the basic princip

5、les，variable transformation，construction of R-type and Q-type covariance matrices，and factor analysis.The data in the two examples were per capita consumption expenditure data of rural households in 10 provinces in China in a certain year and frequency of occurrence of various genes of different eth

6、nic groups.With the help of SAS software，the quantitative data in the two examples were analyzed by quantitative data correspondence analysis，and the SAS output results were given an explanation.【Keywords】Correspondence analysis；Factor analysis；Variable transformation；Covariance matrix；Eigenvalue对于一

7、个单组设计多元定量资料，通常各行代表样品或观测，各列代表定量变量或观测指标。对于以这种形式呈现的多元定量资料，大多数多元统计分析方法可以实现的统计分析目的包括如下两个：其一，研究全部定量变量之间的相互或依赖关系；其二，研究全部样品之间的相似或接近程度。本文将介绍一种非常特殊的多元统计分析方法，即定量资料对应分析。该法可以把变量与样品这两种截然不同的“属性”改造成同一种“属性”，从而将它们所代表的“数据点”呈现在同一个直角坐标系中，进而实现研究变量与样品之间关联关系的目的。1 基本概念 1.1变量与样品在统计学上，最常见的一种数据形式就是对n个个体观测m个指标的取值，将所获得的结果写成 n 行

8、m 列的一个数据矩阵。每一列代表一个指标在n个个体上的全部信息，统计学上习惯将指标称为“变量”；每一行代表一个个体在m个指标上的全部信息，统计学上习惯将个体称为“样品”。需要说明的是，严格意义上的“指标”通常指“观测结果”，而“变量”可以包括“原因变量”与“结果变量”，故采用“变量”取代“指标”，更贴近统计资料的真实情况。1.2显变量与隐变量通常的回归分析方法是以模型的形式呈现因变量与自变量之间的依赖关系，回归模型中可以直接观测其取值的变量被称为“显变量”，例如身高、体重、血压等；有些具有实际意义但无法直接测量73四川精神卫生 2023 年第 36 卷第 S1期http：/其取值的变量，被称为

9、“隐变量或潜变量”1-2，例如内向型性格、交感神经的状态、个人能力等。1.3因子分析通过显变量的取值大小，找出在背后控制或影响它们的隐变量，并用模型将这两类变量互相表达出来（即以显变量线性表达隐变量，或以隐变量线性表达显变量）的一种多元统计分析方法，称为因子分析3-4。1.4R型分析和Q型分析在统计学上，通常把以变量为研究对象的因子分析称为R型因子分析，简称为R型分析；而把以样品为研究对象的因子分析称为Q型因子分析，简称为Q型分析。1.5对应分析对应分析是将变量与样品所反映的信息融合在一起进行联合分析，并以二维平面图形呈现它们之间关联关系的一种多元统计分析方法5-6。它主要解决以下两方面的问题

10、：其一，根据R型分析和Q型分析的内在联系，可将变量与样品同时反映到同一个直角坐标系中，便于对实际问题进行分析，从而揭示变量与样品之间的联系；其二，从R型因子分析出发，能直接获得Q型因子分析的结果，从而克服了样品容量大、作Q型分析存在的计算上的困难。2 计算方法 2.1基本原理对应分析的关键是利用数据变换方法，使含有n个样品m个变量的原始数据矩阵X=（x）nm变成另一个矩阵Z=（z）nm，并使R=ZZ（分析变量之间关系的协方差矩阵）与Q=ZZ（分析样品之间关系的协方差矩阵）具有相同的非零特征根，它们相应的特征向量之间也有密切关系7-8。对协方差矩阵 R 和 Q 进行加权主成分分析或因子分析，分别

11、能提取两个最重要的公因子 R1、R2与Q1、Q2。由于采取的是一种特殊变换方法，公因子 R1与 Q1在本质上是相同的，R2与 Q2在本质上也是相同的，故可用dim1作为R1和Q1的统一标志，用dim2作为R2和Q2的统一标志。可将（R1，Q1）和（R2，Q2）两组数据点呈现在由（dim1，dim2）组成的同一个直角坐标系中，以便考查变量与样品之间的关联关系。2.2变量变换设原始数据矩阵X=（Xij）nm，i=1，2，n，其中n为样品数；j=1，2，m，其中m为变量数。又设Xi.为第i行的合计、X.j为第j列的合计、X.为全部数据的合计，则变量变换公式见式（1）。Zij=Xij-Xi.X.j/X

12、.Xi.X.j（1）由此变换产生出矩阵Z，Z=（Zij）nm。2.3构建R型和Q型协方差矩阵基于前述产生的数据矩阵Z，将其转置得到矩阵 Z，将这两个矩阵相乘，得到 Q 型协方差矩阵，见式（2）。Q=ZZ（2）再改变这两个矩阵的先后顺序，可得到R型协方差矩阵，见式（3）。R=Z Z（3）2.4因子分析分别对R=Z Z、Q=ZZ 实施因子分析，从每次因子分析的结果中，提取前两个公因子，将它们组建成一个二维直角坐标系，可以证明，这两个直角坐标系是完全重合的。因为R型协方差矩阵与Q型协方差矩阵具有相同的非零特征根。由此可知，对于经式（1）变量变换后构建的 Z矩阵，可构建出 R 型协方差矩阵和 Q 型协

13、方差矩阵，再对它们分别实施因子分析，最终就实现了对应分析。3 实例与SAS实现 3.1问题与数据结构3.1.12个实际问题及数据【例1】某研究者收集了我国部分省份的农村居民家庭人均消费支出的数据。选取7个变量：A为食品支出比重，B为衣着支出比重，C为居住支出比重，D为家庭设备及服务支出比重，E为医疗保健支出比重，F为交通和通讯支出比重，G为文教娱乐、日用品及服务支出比重。考查的地区（即样品）有10个，资料见表19。【例2】疾病与人的基因型密切相关，而不同民族的人群中各种基因出现的频率不同。表2是某研究者收集的不同民族各种基因出现频率的相关资料9。试分析各种基因出现的频率与民族的关系。74202

14、3 年第 36 卷第 S1期四川精神卫生http：/3.1.2对数据结构的分析例1中，地区可以被视为“样品”，AG代表7个变量，故这是一个单组设计7元定量资料。例2中，4个民族可以被视为“样品”，基因型可以被视为“变量”，故这是一个单组设计 44元定量资料。3.1.3创建SAS数据集分析例 1 资料，设所需要的 SAS 数据步程序如下：data a1；input regine$7.A B C D E F G；cards；（此处输入表 1 中的 10 行数据，包括第 1 列“地区”）；run；分析例 2 资料，设所需要的 SAS 数据步程序表1某年中国10个省份农村居民家庭人均消费支出数据Tab

15、le 1Per capita consumption expenditure data of rural households in 10 provinces of China in a certain year地区1山西2内蒙古3辽宁4吉林5黑龙江6海南7四川8贵州9甘肃0青海A0.583 9100.581 2180.565 0360.530 9180.555 2010.654 9520.640 0120.725 2390.678 6300.665 913B0.111 4800.081 3150.100 1210.105 3600.096 5000.047 8520.061 6800.056

16、 3620.058 0430.088 508C0.092 4730.112 3800.123 9700.116 9520.143 4980.095 2380.116 6770.073 2620.088 3160.096 899D0.050 0730.042 3960.041 1210.045 0640.037 5660.047 9450.048 4710.044 3880.038 1000.038 191E0.038 1930.043 2800.043 4290.043 7350.052 1110.022 1340.033 5290.016 3660.039 7940.039 275F0.01

17、8 8030.040 0040.031 3280.038 5080.026 2670.018 5190.017 4390.015 7200.015 1670.019 243G0.079 9460.083 3390.078 9190.095 2560.072 8290.096 8440.072 0430.057 2610.067 9990.033 801表2不同民族的人群各基因出现的频率Table 2Frequency of various genes appearing in different ethnic groups基因型A1A2A3A9A10A11A28A30A31A32A33B5B7

18、B8B12B13B14B15B18B27B35B37频率藏族0.030 80.333 30.020 40.303 70.040 90.135 400.041 30.051 8000.282 800.010 20.010 20.010 200.192 30.005 00.106 70.062 60.010 2尼泊尔0.018 00.107 00.019 00.279 00.018 00.422 00.018 000.037 00.019 00.067 00.118 00.019 00.011 80.037 00.077 000.254 00.028 000.057 00.018 0印度0.119

19、 00.148 00.101 00.156 00.039 00.126 00.083 000.022 00.039 00.083 00.134 00.080 00.045 00.066 00.006 00.006 00.096 00.022 00.026 00.148 00.009 0汉族0.014 90.349 20.017 60.141 40.031 30.297 70.009 40.021 70.012 10.001 30.060 80.082 50.024 40.009 40.012 10.065 00.001 30.109 200.020 40.034 20.006 7基因型B38B

20、39B46B48B50B53B54B55B56B57B58B60B61B70C1C2C3C4C5C6C7C8频率藏族0.046 50.010 20.010 20.057 20.010 20.005 00.015 30.057 20.010 20.005 000.062 60.089 90.005 00.089 90.020 40.179 80.165 100.025 60.171 20.005 0尼泊尔0.047 000.009 00.150 00.018 0000.028 00.009 00.018 00.067 00.028 0000.037 000.107 00.077 00.009 0

21、0.245 00.218 00印度0.003 00.009 000.003 00.037 00.006 000.026 00.006 00.039 00.033 00.022 00.083 00.008 00.023 00.073 00.083 00.134 00.016 00.045 00.119 00.004 0汉族0.001 50.017 60.181 30.010 8000.017 60.021 70.004 00.034 10.013 90.072 30.108 000.171 60.039 70.326 90.049 50.005 40.008 10.115 20.002 775四

22、川精神卫生 2023 年第 36 卷第 S1期http：/如下：data a2；input gen$Z N Y H；cards；（此处输入表2中的全部数据，包括“基因型”）；run；3.2用SAS实现统计分析3.2.1分析例1的资料设所需要的SAS过程步程序如下10：proc corresp data=a1 OUTC=aaa；var A B C D E F G；id regine；run；%plotit（data=aaa，datatype=corresp，tsize=0.5，color=black，href=0，vref=0）【SAS 输出结果及解释】各地区在两个公因子上的负荷见表 3。在以

23、dim1 为横轴、以 dim2 为纵轴的直角坐标系内，每个地区就是一个点，如“山西”点的坐标为（0.058，-0.028），显然，该点在第四象限。这10个点中任何两点之间的欧氏距离都可以计算出来，并被标记在直角坐标系相应的位置上。与各地区对应的3个统计量的计算结果见表4。表4中，“质量”为每个地区上两个公因子贡献率之和，此值接近，表明对应的地区信息由两个公因子就可很好地反映出来；“密度”为原始数据中各行数据之和占总合计的百分比；“惯量”为每个地区对总特征值0.026贡献的比例。每个公因子在每个地区上的贡献率见表5。各列数值之和为。显然，“贵州”“吉林”和“黑龙江”对第一公因子贡献最大；“青海”

24、和“海南”对第二公因子贡献最大。各地区的坐标对特征值贡献最多的标志见表6。贡献少、中、多分别用0、1、2表示。每个地区对两个公因子各自的贡献率见表7。各行数值之和近似为1，因为只用了两个主要的公因子。由各行数值可看出，只有“辽宁”“吉林”“海南”“贵州”和“青海”这5个地区可以由这两个公因子较好地反映出来。同理，可以解释关于列变量（本例为“农村居民家庭人均消费支出项目”）的类似输出结果。因篇幅所限，此处从略，仅扼要说明如下：项目F、E、B对第一公因子贡献较大；项目G对第2公因子贡献最表3各地区在两个公因子上的负荷Table 3Load of each region on two common

25、factors地区1山西2内蒙古3辽宁4吉林5黑龙江dim10.0580.0910.1260.1840.148dim2-0.0280.042-0.0100.047-0.041地区6海南7四川8贵州9甘肃0青海dim1-0.117-0.060-0.228-0.125-0.073dim20.1340.024-0.007-0.008-0.153表4与各地区对应的3个统计量的计算结果Table 4Calculation results of three statistics corresponding to each region地区1山西2内蒙古3辽宁4吉林5黑龙江6海南7四川8贵州9甘肃0青海质量

26、0.2240.6460.9810.9440.7780.9850.4560.9490.7800.980密度0.0990.1000.1000.0990.1000.1000.1010.1010.1000.100惯量0.0700.0590.0610.1430.1150.1220.0350.2080.0760.110表5各公因子在各地区上的贡献率Table 5Contribution rates of common factors in different regions地区1山西2内蒙古3辽宁4吉林5黑龙江dim10.0190.0480.0900.1940.126dim20.0160.0370.00

27、20.0450.035地区6海南7四川8贵州9甘肃0青海dim10.0790.0210.3010.0900.031dim20.3720.0110.0010.0010.479表6各地区的坐标对特征值贡献最多的标志Table 6Indicators with the most contribution of coordinates to eigenvalues by region地区1山西2内蒙古3辽宁4吉林5黑龙江dim100111dim200000最佳11111地区6海南7四川8贵州9甘肃0青海dim100110dim220002最佳21112表7每个地区对两个公因子各自的贡献率Table

28、7Contribution rates of each region to two common factors地区1山西2内蒙古3辽宁4吉林5黑龙江dim10.1820.5320.9750.8860.721dim20.0420.1140.0060.0580.057地区6海南7四川8贵州9甘肃0青海dim10.4250.3960.9480.7760.183dim20.5600.0600.0010.0030.798762023 年第 36 卷第 S1期四川精神卫生http：/大。绘制出反映本资料中各“地区”与各“农村居民家庭人均消费支出”之间关联性的二维图形，见图1。由图1可看出，“辽宁”“山西

29、”和“黑龙江”在项目“C（居住支出比重）”上比较接近，“甘肃”和“四川”在项目A（食品支出比重）和D（家庭设备及服务支出比重）上比较接近。3.2.2分析例2的资料设所需要的SAS过程步程序如下10：proc corresp data=a2 OUTC=aaa；var Z N Y H；id gen；run；%plotit（data=aaa，datatype=corresp，tsize=0.5，color=black，href=0，vref=0）【SAS输出结果及解释】因SAS输出结果很多，为节省篇幅，下面仅给出反映“民族”与“基因型”之间关联性的图形，见图2。图2中，H（汉族）与Z（藏族）距离非常

30、近，而它们与Y（印度）和N（尼泊尔）相距都很远。H（汉族）与Z（藏族）周围有如下基因型：A30、C1、C3、A2、B60、B55、B5、B27。也就是说，H（汉族）与Z（藏族）前述8种基因型出现的频率比较接近。从图2显示的坐标点的位置直观给出结论，其精确度较低。若基于输出坐标点的坐标，按欧式距离公式计算出来，就更精确了。4 讨论与小结 4.1讨论对应分析生成的二维图上的各状态点，实际上是两个多维空间上的点的投影，在特殊情况下，在多维空间中相距较远的点，在二维平面上的投影却很接近。此时，需借助公因子的贡献大小等信息对二维图中各点进行深入分析。另外，对应分析只能用图形的方式呈现变量与样品之间的关联

31、关系，不能给出度量这种关联程度的具体的统计量8。4.2小结本文介绍了与对应分析有关的基本概念、计算方法、两个实例以及使用SAS实现计算的方法。基本概念包括变量与样品、显变量与隐变量、因子分析、R型分析与Q型分析、对应分析；计算方法涉及基本原理、变量变换、构建R型和Q型协方差矩阵、因子分析；两个实例分别为“某年中国10个省份农村居民家庭人均消费支出数据”和“不同民族的各种基因出现的频率”；借助SAS软件，对两个实例中的数据进行了对应分析，并对SAS输出结果做出了解释。参考文献1张岩波.潜变量分析 M.北京：高等教育出版社，2009：1-13.Zhang YB.Latent variables a

32、nalysisM.Beijing：Higher Education Press，2009：1-13.2Armitage P，Colton T.Encyclopedia of biostatisticsM.2nd edition.New York：John Wiley&Sons，Inc，2005：4300-4304.3Johnson RA，Wichern DW.实用多元统计分析 M.6 版.北京：清华大学出版社，2008：481-538.Johnson RA，Wichern DW.Applied multivariate statistical analysisM.6th edition.Bei

33、jing：Tsinghua University Press，2008：481-538.4王静龙.多元统计分析M.北京：科学出版社，2008：360-375.Wang JL.Multivariate statistical analysisM.Beijing：Science Press，2008：360-375.图1“地区”与“支出”之间的关联性Figure 1Association between region and expenditure图2反映“民族”与“基因型”之间关联性的图形Figure 2Showing the association between ethnicity and

34、genotype77四川精神卫生 2023 年第 36 卷第 S1期http：/5李卫东.应用多元统计分析 M.北京：北京大学出版社，2008：239-258.Li WD.Applied multivariate statistical analysisM.Beijing：Peking University Press，2008：239-258.6高惠璇.应用多元统计分析 M.北京：北京大学出版社，2005：324-342.Gao HX.Applied multivariate statistical analysisM.Beijing：Peking University Press，2005

35、：324-342.7余锦华，杨维权.多元统计分析与应用 M.广州：中山大学出版社，2005：232-250.Yu JH，Yang WQ.Multivariate statistical analysis and applicationM.Guangzhou：Sun Yat-sen University Press，2005：232-250.8何晓群.多元统计分析 M.2版.北京：中国人民大学出版社，2008：227-254.He XQ.Multivariate statistical analysis M.2nd edition.Beijing：China Renmin University

36、Press，2008：227-254.9胡良平.面向问题的统计学：（3）试验设计与多元统计分析M.北京：人民卫生出版社，2012：275-285.Hu LP.Problem-oriented statistics：（3）experimental design and multivariate statistical analysisM.Beijing：Peoples Mental Publishing House，2012：275-285.10 SAS Institute Inc.SAS/STAT15.1 users guide M.Cary，NC：SAS Institute Inc，2018：2514-2578.（收稿日期：2023-07-26）（本文编辑：吴俊林）78

展开阅读全文