多元分析中各种分析方法.doc

资源描述

1、相关分析方法地理要素之间相互关系密切程度的测定，主要是通过对相关系数的计算与检验来完成的。1. 两要素之间相关程度的测定1) 相关系数的计算与检验(1) 相关系数的计算相关系数表示两要素之间的相关程度的统计指标。对于两个要素x与y，如果它们的样本值分别为xi与yi（i=1，2，.，n），它们之间的相关系数：，rxy0，表示正相关，即同向相关；rxyr0.01=0.432，故rxy在=0.01的置信水平上是显著的。2. 多要素间相关程度的测定1) 偏相关系数的计算与检验在多要素构成的地理系统中，当研究某一个要素对另一个要素的影响或相关程度时，把其它要素的影响视为常数，而单独研究两个要素之间

2、的相互关系的密切程度时，称为偏相关。用以度量偏相关程度的统计量，称为偏相关系数。 (1) 偏相关系数的计算偏相关系数矩阵：一级偏相关系数的计算：一级偏相关系数可用单相关系数来计算。假设有三个要素x1、x2、x3，其两两之间的单相关系数矩阵为对于上述三个要素x1、x2和x3，它们之间的偏相关系数共有三个，即r123，r132，r231其计算公式分别如下：r123，r132，r231又称为一级偏相关系数。二级偏相关系数的计算：二级偏相关系数若有四个要素x1、x2、x3和x4，则有六个偏相关系数，即r1234，r1324，r14.23,r2314，r2413，r3412，称为二级偏相关系数

3、，计算公式如下：r1234表示在x3和x4保持不变的条件下，x1和x2的偏相关系数，其余r2314，r2413，r3412的计算公式依次类推 (2) 偏相关系数的性质范围在-1，1；绝对值越大，偏相关程度越大；偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数（详见后述）。 (3) 偏相关系数的显著性检验偏相关系数的显著性检验，一般采用t检验法。计算公式为举例说明例3：对于某四个地理要素x1，x2，x3，x4的23个样本数据，经过计算得到了如下的单相关系数矩阵：试计算各个一级和二级偏相关系数并对其进行显著性检验。解：(1) 求一级偏相关系数；把数值代入一级偏相关系数公

4、式计算得：同理，依次可以计算出其它各一级偏相关系数，见表3.1.5。表3.1.5 一级偏相关系数r123r132r142r143r2310.8210.8080.6470.895-0.863r241r243r241R3420.9560.945-0.8750.371(2) 求二级偏相关系数；求出一级偏相关系数后，可代入公式计算二级偏相关系数：同理，依次可计算出其它各二级偏相关系数，见表3.1.6。表3.1.6 二级偏相关系数r1234r1324r1423R2314r2413R3412-0.1700.8020.635-0.1870.821-0.337(3) 显著性检验。对于r2413=0.

5、821, 在自由度为23-3-1=19时，查表得 t0.001=3.883，tta ，这表明在置信度水平 =0.001上，偏相关系数r2413是显著的。2) 复相关系数的计算与检验复相关分析法能够反映各要素的综合影响。几个要素与某一个要素之间的复相关程度，用复相关系数来测定。(1) 复相关系数的计算复相关系数，可以利用单相关系数和偏相关系数求得。设y为因变量，x1，x2，xk为自变量，则将y与x1，x2，xk之间的复相关系数记为Ry12k。则其计算公式如下。当有k个自变量时，(2) 复相关系数的性质复相关系数介于0到1之间复相关系数越大，要素（变量）的相关程度越密切。复相关系数为1，完全相

6、关；复相关系数为0，完全无关。复相关系数必大于或至少等于单相关系数的绝对值。 (3) 复相关系数的显著性检验一般采用F检验法。计算公式： n为样本数，k为自变量个数。查F检验的临界值表，可以得到不同显著性水平上的临界值F，若FF0.01，则表示复相关在置信度水平a=0.01上显著，称为极显著；若，则表示复相关在置信度水平a=0.05上显著；若，则表示复相关在置信度水平a=0.10上显著；若 FF0.10，则表示复相关不显著，即因变量Y与k个自变量之间的关系不密切。举例说明例4：对于某四个地理要素x1，x2，x3，x4的23个样本数据，经过计算得到了如下的单相关系数矩阵：若以x4为因变量，

7、x1，x2，x3为自变量，试计算x4与x1，x2，x3之间的复相关系数并对其进行显著性检验。解：(1) 计算复相关系数按照公式计算：(2) 显著性检验，复相关达到了极显著水平。判别分析假设有个总体，判别分析就是根据某个个体的观察值来推断该个体是来自这个总体中哪一个总体。下面的例子说明判别分析有着广泛的应用。（1）根据已有的气象资料，如气温、气压等判断明天是晴天还是阴天，是有雨还是无雨。明天的天气情况是未来的行为。因为是未来行为，难以得到它的完全信息。已有的气象资料仅是它的一部分信息。基于未来行为的不完全信息对未来行为进行预测是判别分析的一个应用。（2）在非洲发现了一种头盖骨化石，考古学家要研

8、究它究竟是像猿（如黑猩猩）还是像人。倘若研究对象是活的，就能对他进行各方面的观察，有充足乃至完全的信息。但研究对象早就死了，他的很多重要信息都丢失了。考古学家只能根据不完全信息，如牙齿的长宽来进行判断。当信息丢失后，对过去的行为进行判断是判别分析的另一个应用。（3）有时人们难以得到完全的信息，这里有两种情况。情况之一是信息完全只能来自破坏性试验。例如，汽车的寿命只有在把它用坏之后才知道。一般地，希望根据一些测量指标（如零部件的性能）就能事先对汽车的寿命作出判断。情况之二是获得完全信息的代价太高。例如，有些疾病可用代价昂贵的检查或通过手术得到确诊。但人们往往更希望用便于观察得到的一些外部症状来诊

9、断体内的疾病，以避免过大的开支和损失。在完全信息难以得到时，对行为判断是判别分析的又一格应用。正因为判别分析是基于不完全信息作出的判断，它就不可避免地会犯错误，一个好的判别法则错判的概率应很小。除了错判概率，在判别分析问题中还应考虑费用，一个好的判别法则错误的损失应很小。关于判别法则优良性的讨论从略。判别分析问题的描述：设有个维总体，其分布特征已知（如已知分布函数分别为，或知道来自各个总体的训练样本）。对给定的一个新样品，我们要判断它来自哪个总体。在进行判别归类时，由假设的前提，判别的依据及处理的手法不同，可得出不同判别方法。如距离判别，贝叶斯（Bayes）判别，费希尔(Fisher)判别，逐

10、步判别，序贯判别等。5.1 距离判别距离判别的基本思想是：样品和哪个总体距离最近，就判断它属哪个总体。距离判别也称为直观判别法。一、马氏距离定义5.1.1 （马氏距离）设总体为元总体（考察个指标），均值向量为，协方差阵为，则样品与总体的马氏距离定义为。当时，。二、两总体的距离判别先考虑两个总体的情况。设有两个总体和，已知来自的训练样本为其中是取自的样品个数，则总体的均值向量的估计量为总体的协方差的估计（称为组内协方差阵）为其中称为组内离差阵；当假定时，反应分散性的协方差阵的估计为并称为合并样本协方差阵，其中问题是对任给的维样品，要判断它来自哪个总体。1、时的判别方法一个最直观的想法是，分别计

11、算样品到两个总体的距离和，并按距离最近准则判别归类，判别准则为：或这里的距离是指马氏距离。利用马氏距离的定义及两总体协方差阵相等的假设，可以简化马氏距离的计算公式：其中是的线性函数。对给定样品，为计算到各种总体的马氏距离，只须计算：称为线性判别函数，称为判别系数向量，称为常数项。若考察这两个马氏距离之差，经计算可得：其中，。则判别准则还可以写为：是的线性函数，即，其中。也称为线性判别函数，为判别系数。把维空间划分为两部分：和，即是的一个划分。显然，判别方法的最终结果是得到中的一个划分。由判别函数得到划分，当样品落入时判，否则。2、时的判别方法当两总体协方差不等时，按距离判别准则先分别计算到两个

12、总体的距离和，然后按距离最近准则判别归类，或则类似地计算判别函数并用于判别归类。三、多总体的距离判别设有个元总体：，它们的均值向量和协方差阵分别为。对任给的元样品，要判断它来自哪个总体。多个总体的情况，按距离最近的准则对进行判别归类时，首先计算样品到个总体的马氏距离，然后进行比较，把判归距离最小的那个总体。设时，若，则。计算马氏距离时，类似地可考虑或不全相等的两种情况，并用样本统计量作为和的估计进行计算。5.2 贝叶斯(Bayes)判别法及广义平方距离判别法距离判别只要求知道总体的特征量（即参数）均值和协方差阵，不涉及总体的分布类型。当参数未知时，就用样本均值和样本协方差阵来估计。距离判别方法

13、简单，结论明确，是很实用的方法。但该方法也有缺点：一是该判别法与个总体出线的机会大小（先验概率）完全无关；二是判别方法没有考虑错判造成的损失，这是不合理的。贝叶斯判别法正是为解决这两方面问题而提出的判别方法。贝叶斯的统计思想总是假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识；然后抽取一个样本，用样本来修正已有的认识（先验分布概率），得到后验概率分布。各种统计推断都通过后验分布来进行。将贝叶斯思想用于判别分析就得到贝叶斯判别法。在正态总体的假设下，按贝叶斯判别的思想，在错判造成的损失相等时得到的判别函数，其实就是马氏距离判别在考虑先验概率及协方差阵是否相等情况下的推广，故在软件的

14、过程中称为广义平方距离判别法。所谓判别方法，就是给出空间的一种划分：。一种划分对应一种判别方法，不同的划分就是不同的判别方法。贝叶斯判别法也是给出空间的一种划分。一、先验概率（先知知识）设有个元总体：。假设事先对所研究的问题有一定的认识，这种认识常用先验概率来描述，即已知这个总体各自出现的概率（验前概率）为。比如研究人群得癌和没有得癌两类群体的问题，由长期经验知：。这组验前概率称为先验概率。二、广义平方距离在马氏距离的基础上，进一步考虑先验概率及各组内协方差阵的不同，定义样品到总体的广义平方距离或为：其中其中为第类的组内样本协方差阵。由以上公式可见，当不变，而某个大（即总体出现的机会大）时，则

15、变小，故广义平方距离也变小，进而判为的可能性大。利用广义平方距离的判别法为：判，当。三、后验概率（条件概率）标准的贝叶斯判别法应该计算后验概率分布，即计算当样品已知时，它属于的概率，记为，这个概率作为判别归类的准则，其概率意义更为直观。假定总体的概率密度函数给定，由条件概率的定义可以导出：若假设为正态总体，其密度函数为，则属于第组的后验概率为：（1）由经验人为赋值。例如，。（2）假定各种错判损失都相等，即令。2、关于先验概率的平均损失有了先验概率的概念后，判别法关于先验概率的错判平均损失定义为其中表示实属的样品被错判为其他总体的损失。3、什么是贝叶斯判别准则定义5.2.1 设有个元总体：，相应

16、的先验概率为。如果有判别法，使得带来的平均损失达最小，即，则称判别法符合贝叶斯判别法准则，或称为贝叶斯的解。4、符合贝叶斯准则的判别法（贝叶斯别的解）定理 5.2.1 设有个元总体：，已知的联合密度函数为，先验概率为，错判损失为，则贝叶斯判别的解为其中，它表示把样品判归的平均损失。证明：由上面的各式得则贝叶斯判别准则为5、正态总体的贝叶斯判别法设为正态总体，并假定错判损失相等，先验概率为。（1）当时，设总体的概率密度函数为，则，其中是与无关的依赖于样品的常数；当未知时，由样本可计算第个总体的样本均值向量为合并样本协方差阵为。计算时，把样本均值向量与合并样本协方差阵代入，即得贝叶斯判别的解为，其

17、中，并且称为线性判别函数，而称为判别系数，为常数项。上面所得结果与距离判别法的结果相比较可以看出，除线性判别函数的常数项增加了考虑先验概率的部分外，此时的贝叶斯判别法与协方差阵相等情况下的马氏距离判别法是一致的。计算时，把样本均值向量与合并样本协方差阵代入，即得贝叶斯判别的解为，其中，并且称为线性判别函数，而称为判别系数，为常数项。，春旱的会判：y1 =356.7470 320.8808 379.5553 318.9815 375.5029 401.4795y2 =353.9169 317.8649 368.9312 319.2432 370.8197 388.7958无旱的回判：y11 =3

18、15.6905 275.8946 309.1002 307.0698 307.3236 286.4146 298.5802 272.9802y22 =323.7357 282.1179 316.9441 310.0000 310.8680 294.4754 304.5866 280.02415.3 费希尔(Fisher)判别一、费希尔判别的基本思想费希尔判别的基本思想是投影。将组元数据投影到某一个方向，使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想。利用方差分析的思想来导出判别函数，这个函数可以是线性的，也可以是很一般的函数。因线性判别函数在实际应用中最方便，本节仅讨论线性判别函数的导出。设从总体分别抽取元样本如下：。令为维空间任一向量，为向量以为法线方向上的投影。上述个组中的元数据投影后为每个总体的数据投影后均为一元数据。对这组一元数据进行一元方差分析，其组间平方和为：其中和分别为的样本均值和总体样本均值，并记而为组间离差阵：合并的组内平方和为其中合并的组内离差阵为因此，若个总体的均值有显著差异，则比值，应充分大。利用方差分析的思想，此问题化为求投影方向，使达极大值。显然使达极大的解不唯一。若使达极大，则也使达极大，故对附加一约束条件，即选取，使。因此，问题又化为求使在条件下达极大。

展开阅读全文