合理进行多元分析——非度量型多维尺度分析.pdf

资源描述

1、四川精神卫生 2023 年第 36 卷第 S1期http：/合理进行多元分析非度量型多维尺度分析胡纯严1，胡良平1，2*（1.军事科学院研究生院，北京 100850；2.世界中医药学会联合会临床科研统计学专业委员会，北京 100029*通信作者：胡良平，E-mail：）【摘要】本文目的是介绍与非度量型多维尺度分析有关的基本概念、计算方法、两个实例以及SAS实现。基本概念包括非度量型、应用场合、基本思想和应力系数；计算方法涉及定义研究对象之间的次序关系和Kruskal算法的基本步骤；两个实例分别为“英文字母错误识别调查结果”和“6种糖果相似性的调查结果”；借助SAS软件，对两个实例中的数据分别进

2、行了非度量型多维尺度分析，并对SAS输出结果做出了解释。【关键词】非度量型；相似性；相异性；应力系数；单调回归转换中图分类号：R195.1 文献标识码：A doi：10.11886/scjsws20230726004 Reasonably carry out multivariate analysis：nonmetric multidimensional scaling analysisHu Chunyan1，Hu Liangping1，2*（1.Graduate School，Academy of Military Sciences PLA China，Beijing 100850，Chin

3、a；2.Specialty Committee of Clinical Scientific Research Statistics of World Federation of Chinese Medicine Societies，Beijing 100029，China*Corresponding author:Hu Liangping，E-mail：）【Abstract】The purpose of this article was to introduce the basic concepts，calculation methods，two examples and SAS imple

4、mentation related to the nonmetric multidimensional scaling analysis.Basic concepts included nonmetric，application occasions，basic ideas and stress coefficients.The calculation methods involved the definition of the order relationship between the research objects and the basic steps of the Kruskal a

5、lgorithm.The data in the two examples were survey results on misrecognition of English letters and survey results on the similarity of 6 candies.With the help of SAS software，nonmetric multidimensional scaling analysis was carried out on the data in the two examples，and an explanation was made for t

6、he output results of SAS.【Keywords】Nonmetric；Similarity；Dissimilarity；Stress coefficient；Monotone regression transformation在大量的实际问题中，人们获得的相似性或相异性数据所反映的仅仅是研究对象之间近似程度的顺序关系，而非具体的数值大小，这时，度量型多维尺度分析将不再适用，需要采用非度量型多维尺度分析。本文将介绍非度量型多维尺度分析的基本概念、计算方法、应用实例以及SAS实现。1 基本概念 1.1非度量型所谓非度量型，就是所获得的每个数据本身并非具有高度的精确性，数据之间彼

7、此的数量大小是不准确的，只知道它们之间的先后顺序关系。1.2应用场合非度量型多维尺度分析适用于无法获得研究对象之间精确的相似性或相异性数据，仅能得到它们之间等级或次序关系数据的情形。1.3基本思想应用最广的是Shepard于1962年提出的非度量型多维尺度模型1-2，其基本思想是将研究对象之间的相似性或相异性数据视为点间距离的单调函数，在保持原始数据次序关系的基础上，用新的相同次序的数据替换原始数据，然后采用度量型多维尺度分析。1.4应力系数应力系数是依据输入数据与输出结果之间的吻合程度、评价模型对资料的拟合效果的统计量3-4。2 计算方法 2.1定义研究对象之间的次序关系设ij代表第i个对象

8、与第j个对象之间的相似性或相异性的数量，X1，Xn代表 p维空间中的 n个点，第i个点Xi的坐标为（xi1，xi2，xip），任意两点Xi922023 年第 36 卷第 S1期四川精神卫生http：/和Xj之间的距离为dij。将所有研究对象之间的ij按从小到大的顺序排列，见式（1）。i1j1 i2j2 imjm，m=12n(n-1)（1）对象i和对象j所对应的ij在该排列中的次序可看作是ij的秩。在非度量型多维尺度分析中，就是要寻找与研究对象对应的点Xi和Xj，使得Xi和Xj之间的距离dij也有如上的次序即式（1）中的次序，见式（2）。di1j1 di2j2 dimjm（2）在非度量型多维尺

9、度分析中，就是要使研究对象之间相似性或相异性ij的次序关系与低维空间中各点距离dij的次序关系相匹配。2.2Kruskal算法的基本步骤在求解非度量型多维尺度模型的不同算法中，Kruskal的算法应用最广，包括以下五个步骤5-6。第一步，确定空间的维数k，给出X1，Xn的初始值，也就是各点坐标的初始值，该初始值可以采用古典解或随机初始值。第二步，根据各点的坐标计算两点之间的距离dij。第三步，根据ij以及上一步计算的距离dij，采用最小二乘单调回归计算出dij，由此将ij转换为dij。第四步，以dij为基础，通过最小化应力函数重新计算各点的坐标。应力函数的定义有多种形式，其中原应力（Raw s

10、tress）、应力-1（Stress-1）、应力-2（Stress-2）分别定义如下，见式（3）、式（4）和式（5）。r=i=1nj=1n(dij-dij)2（3）Stress-1=1=i=1nj=1n(dij-dij)2i=1nj=1nd2ij（4）Stress-2=2=i=1nj=1n(dij-dij)2i=1nj=1n(dij-d)2（5）式（5）中，d为距离dij的平均值。应力函数同样可以应用于度量型多维尺度分析，只需将以上各式中的dij用f(ij)（映射函数）代替。在应力函数中，dij是已知的，由前文第三步算得，dij以及与之相关的各点坐标是未知的，需要进行估计，这时不再使用第一步中

11、的初始值。最小化应力函数就可以估计出各点的坐标，估计过程可以使用梯度法。第五步，估计出各点新的坐标值后，如果满足收敛标准，则计算停止，该值即为最终的估计值；如果不满足收敛标准，则以该估计值为初始值，返回二步重新进行整个计算，如此反复进行，直至收敛标准满足为止。Kruskal算法是一个二重迭代过程，其目的是找到使应力尽可能小的k维空间中的n个点。应力的取值大小预示拟合效果，但尚无统计检验方法给出精准的判断。在实践中，可参考以下经验作出判断：当Stress-1=0时，说明拟合完美；当0Stress-12.5%时，说明拟合非常好；当 2.5%Stress-15%时，说明拟合较好；当5%Stress-

12、110%时，说明拟合一般；当10%Stress-120%时，说明拟合较差。3 实例与SAS实现 3.1问题与数据结构3.1.12个实际问题及数据【例1】在初学英语时，部分字母常被认错，表1的数据是在一次调查中获得的结果，“列”表示的字母被认作“行”表示的字母的次数1。试根据表1资料，对这些字母之间的相似程度进行分析。【例2】调查消费者对6种糖果的看法，让他们对任意两种糖果的相似性打分，1分表示最相似，15分表示最不相似。某消费者的评价结果见表21。请选择合适的统计分析方法对该资料进行分析。3.1.2对数据结构的分析表1用下三角矩阵的形式呈现了不同英文字母之间的相似性情况，该表中数据越大，说明两

13、个英文字母越相似；数据越小，说明两个英文字母越不相似，所以此资料属于相似性数据。表1英文字母错误识别调查结果Table 1Survey results of English letter error recognition字母bdpqgmnvw错误识别的次数b.2315552110d.510100101p.16151010q.161211g.2223m.21515n.215v.32w.93四川精神卫生 2023 年第 36 卷第 S1期http：/表 2 用下三角矩阵的形式呈现了不同糖果之间的相似性情况，较大的数值表示两种糖果之间的差别越大或近似程度越小，较小的数值表示近似程度越大，所以该数据

14、是相异性数据。3.1.3创建SAS数据集分析例 1 资料，设所需要的 SAS 数据步程序如下：data a1；input letter$x1-x9；cards；b.d 23.p 15 5.q 5 10 16.g 5 10 15 16.m 2 0 1 1 2.n 1 1 0 2 2 21.v 1 0 1 1 2 5 21.w 0 1 0 1 3 15 5 32.；run；分析例 2 资料，设所需要的 SAS 数据步程序如下：data a2；input letter$x1-x6；cards；A 0.B 2 0.C 13 12 0.D 4 6 9 0.E 3 5 10 1 0.F 8 7 11 14

15、 15 0；run；3.2用SAS实现统计分析3.2.1分析例1的资料设所需要的SAS过程步程序如下7：proc mds data=a1 level=ordinal pfinal similarout=aaa outfit=bbb outres=ccc；id letter；run；proc print data=aaa；run；proc print data=bbb；run；proc print data=ccc；run；【SAS程序说明】建立数据集a1，本资料中数据矩阵的主对角线元素都是缺失值。在MDS过程步中，选项level=ordinal表示进行非度量型分析。选项similar指定这里的

16、数据为相似性数据，因为本资料中评分的值越大，说明两个英文字母越相似。需要注意的是，由于主对角线元素是缺失值，这里必须写出similar选项，否则，结果将会有很大的不同。【SAS输出结果及解释】迭代计算输出结果很多，此处从略。最后一行内容为“拟合劣度统计量或应力系数”，其数值为0.0240.025，说明模型对资料的拟合效果非常好。基于模型算出的二维拟合构图中与各英文字母对应的2个坐标轴上的坐标见表3。表 3 是不同英文字母在二维空间中所对应的点的坐标，也就是拟合构图或感知图中各点的横坐标与纵坐标。这部分结果由pfinal选项所产生，默认状态下它们不会被输出。基于非度量型多维尺度分析所产生的拟合构

17、图见图1。图1中，（b，d），（g，q，p），（m，n），（v，w），这4个括号内的英文字母彼此之间非常相似，极易出现识别错误。非度量型多维尺度分析模型对资料的拟合效果见图2。横坐标代表二维空间中两点的距离，纵坐标代表经过最小二乘单调回归转换后的相似性数据。本资料中所有散点都集中在直线两端，但散点离直线的距离都很小，说明模型对资料的拟合效果非常好。表26种糖果相似性的调查结果Table 2Survey results of similarity among six candies糖果类型ABCDEF相异性分值A0213438B.012657C.091011D.0114E.015F.0表3基于模

18、型算出的二维拟合构图中2个坐标轴上的坐标Table 3Coordinates on two coordinate axes in the two-dimensional configuration calculated based on the model字母bdpqgdim11.251.301.351.251.11dim20.230.25-0.12-0.20-0.18字母mnvwdim1-1.55-1.56-1.58-1.57dim20.240.11-0.13-0.21942023 年第 36 卷第 S1期四川精神卫生http：/3.2.2分析例2的资料设所需要的SAS过程步程序如下7：pr

19、oc mds data=a2 level=ordinal coef=identity fit=1 formula=1pfinal out=aaa outfit=bbb outres=ccc；id letter；run；proc print data=aaa；run；proc print data=bbb；run；proc print data=ccc；run；【SAS程序说明】首先建立数据集a2，字符型变量letter表示糖果种类，变量x1-x6代表不同糖果之间的相异性评分。使用MDS过程实现非度量型多维尺度分析，proc mds语句表示调用MDS过程。该语句中的选项level=ordinal

20、规定使用非度量型多维尺度分析，默认状态下采用的也是非度量型多维尺度分析；coef=identity表示采用未加权模型；fit=1表示使用距离本身；formula=1 规定使用 Kruskal 应力1的公式计算应力系数；pfinal规定输出模型中各项参数的最终估计值。【SAS输出结果及解释】例2资料迭代计算的过程和结果见表4。结果显示，经过5次迭代，收敛标准得到满足，模型最终收敛。拟合劣度标准为0.0030.025，说明模型对资料的拟合效果非常好。基于模型算出的二维拟合构图中与 6 种糖果对应的两个坐标轴上的坐标见表5。表5是6种糖果在二维空间中所对应的点的坐标，也就是拟

21、合构图中各点的横坐标与纵坐标。这部分结果是由pfinal 选项所产生的，默认状态下它们不会被输出。由此模型计算得到的拟合构图见图3。（A、B），（D、E），C，F，形成了4种类型，即A与B这两种糖果接近；D与E这两种糖果接近；而C、F与其他四种都相差很大。反映模型对资料拟合效果的散布图见图4。几乎所有的散点都在一条直线上，说明模型对资料的拟合效果非常好。图19个英文字母彼此之间关系的拟合构图Figure 1Configuration of the relationship between 9 English alphabet.图2多维尺度分析模型对9个英文字母识别错误资料拟合效果散布图Figu

22、re 2Scatter plot of the fitting effect of multidimensional scaling analysis model on the recognition error data of 9 English alphabet表4基于模型拟合例2资料的迭代计算过程和结果Table 4Iterative calculation process and results based on the model fitting example 2 data迭代012345类型InitialMonotoneGau-NewMonotoneGau-NewGau-New拟

23、合劣度准则0.1790.0110.0070.0050.0030.003准则中的更改.0.1690.0040.0020.0010.000收敛测度单调.0.141.0.005.梯度.0.760.0.7040.0110.000表5基于模型算出的二维拟合构图中2个坐标轴上的坐标Table 5Coordinates on two coordinate axes in the two-dimensional configuration calculated based on the model糖果ABCDEFdim10.15-0.12-0.411.081.27-1.98dim20.950.79-1.85-

24、0.210.010.3095四川精神卫生 2023 年第 36 卷第 S1期http：/4 讨论与小结 4.1讨论4.1.1低维空间维数的确定在非度量型多维尺度分析中，可以通过制作应力与维数k的图形来实现维数的确定8-9。在图形中，应力会随着维数的增加而下降，若找到一个k，下降趋势到这一点开始接近水平状态，即形成一个“肘”形曲线，这个k便是“最佳”维数。与度量型多维尺度分析相同，实际应用中空间的维数通常不会超过三维，使用最多的仍然是二维空间。4.1.2两种类型多维尺度分析的选择虽然非度量型多维尺度分析利用的只是研究对象之间近似程度的次序关系，但是，当定量的近似数据不可靠、而其中的顺序关系可靠时

25、，采用非度量方法所得的结果更接近实际。4.2小结本文介绍了与非度量型多维尺度分析有关的基本概念、计算方法、两个实例以及SAS实现的方法。基本概念包括非度量型、应用场合、基本思想和应力系数；计算方法涉及定义研究对象之间的次序关系和Kruskal算法的基本步骤；两个实例为“英文字母错误识别调查结果”和“6 种糖果相似性的调查结果”；借助SAS软件，对实例中的数据进行了非度量型多维尺度分析，并对SAS输出结果做出了解释。参考文献1胡良平.面向问题的统计学：（3）试验设计与多元统计分析M.北京：人民卫生出版社，2012：125-134，303-317.Hu LP.Problem-oriented st

26、atistics：（3）experimental design and multivariate statistical analysisM.Beijing：Peoples Mental Publishing House，2012：125-134，303-317.2余锦华，杨维权.多元统计分析与应用 M.广州：中山大学出版社，2005：251-268.Yu JH，Yang WQ.Multivariate statistical analysis and applicationM.Guangzhou：Sun Yat-sen University Press，2005：251-268.3张润楚.多

27、元统计分析M.北京：科学出版社，2006：288-311.Zhang RC.Multivariate statistical analysis M.Beijing：Science Press，2006：288-311.4万崇华，罗家洪.高级医学统计学 M.北京：科学出版社，2014：199-217.Wan CH，Luo JH.Advanced medical statisticsM.Beijing：Science press，2014：199-217.5李卫东.应用多元统计分析 M.北京：北京大学出版社，2008：313-330.Li WD.Applied multivariate stati

28、stical analysisM.Beijing：Peking University Press，2008：313-330.6何晓群.多元统计分析 M.2版.北京：中国人民大学出版社，2008：227-254.He XQ.Multivariate statistical analysis M.2nd edition.Beijing：China Renmin University Press，2008：227-254.7SAS Institute Inc.SAS/STAT15.1 users guide M.Cary，NC：SAS Institute Inc，2018：2514-2578，299

29、7-3216.8Armitage P，Colton T.Encyclopedia of biostatisticsM.2nd edition.New York：John Wiley&Sons，Inc，2005：3635-3643.9Johnson RA，Wichern DW.实用多元统计分析 M.6 版.北京：清华大学出版社，2008：706-715.Johnson RA，Wichern DW.Applied multivariate statistical analysisM.6th edition.Beijing：Tsinghua University Press，2008：706-715.（收稿日期：2023-07-26）（本文编辑：吴俊林）图36种糖果彼此之间关系的拟合构图Figure 3Configuration of the relationship between six different candies图4多维尺度分析模型对6种糖果资料拟合效果散布图Figure 4Scatter plot of the fitting effect of multidimensional scaling analysis model on six kinds of candy data96

展开阅读全文