资源描述
相关分析方法
地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。
1. 两要素之间相关程度的测定
1) 相关系数的计算与检验
(1) 相关系数的计算
相关系数——表示两要素之间的相关程度的统计指标。
对于两个要素x与y,如果它们的样本值分别为xi与yi(i=1,2,...,n),它们之间的相关系数:
,
rxy>0,表示正相关,即同向相关;rxy<0,表示负相关,即异向相关。 的绝对值越接近于1,两要素关系越密切;越接近于0,两要素关系越不密切。
■ 若记:
则:
■ 若问题涉及到x1,x2,…,xn等n个要素,多要素的相关系数矩阵:
[相关系数矩阵的性质]
① rii=1(i=1,2,…,n),每一个要素xi与它自己本身的相关程度最大;
② rij= rji(i,j=1,2,...,n),第i个要素xi对第j个要素xj的相关程度,与第j个要素xj对第i个要素xi的相关程度相等。
[举例说明]
例1:中国1952~1999年期间的国内总产值(GDP)及其各次产业构成数据如表3.1.1(单击显示该表)所示。试计算GDP与各次产业之间的相关系数及相关系数矩阵。
表3.1.1 中国1952~1999年48年国内总产值及其构成数据(单位:108元)
年份
国内生产总值x1
第一产业x2
第二产业x3
第三产业x4
1952
679
342.9
141.8
194.3
1953
824
378
192.5
253.5
1954
859
392
211.7
255.3
1955
910
421
222.2
266.8
...
...
...
...
...
1999
81910.9
14457.2
40417.9
27035.8
注:本表数据详见书本P38-39。
解:
(1) 将表3.1.1中的数据代入相关系数计算公式计算,得到国内生产总值(GDP)与第一、二、三产业之间的相关系数分别为 0.9954, 0.9994, 0.9989。
(2) 根据表3.1.1中的数据,进一步计算,得到国内生产总值及一、二、三产业之间的相关系数矩阵:
(2) 相关系数的检验
一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成。表3.1.2(点击显示该表)给出了相关系数真值 (即两要素不相关)时样本相关系数的临界值
表3.1.2 检验相关系数 的临界值(ra)表
α
f
0.10
0.05
0.02
0.01
0.001
1
0.98769
0.99692
0.999507
0.999877
0.9999988
2
0.90000
0.95000
0.98000
0.99000
0.999000
3
0.8054
0.8783
0.93433
0.95873
0.991160
4
0.7293
0.8114
0.8822
0.91720
0.97406
...
...
...
...
...
...
100
0.1638
0.1946
0.2301
0.2540
0.3211
注:本表数据详见书本40和41页。
[临界值表说明]
(1) f 称为自由度,其数值为f=n-2,这里n为样本数;
(2) α代表不同的置信水平;表内的数值代表不同的置信水平下相关系数的临界值,即ra;公式 表示当所计算的相关系数 的绝对值大于在α 水平下的临界值ra时,两要素不相关(即 )的可能性只有 α。)
一般而言,当 时,则认为两要素不相关,这时的样本相关系数就不能反映两要素之间的关系。
2) 秩相关系数的计算与检验
(1) 秩相关系数的计算
秩相关系数——是描述两要素之间相关程度的一种统计指标,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。
设两个要素x和y有n对样本值,令R1代表要素x的序号(或位次),R2代表要素y的序号(或位次), 代表要素x和y的同一组样本位次差的平方,则要素x和y之间的秩相关系数被定义为
(2) 秩相关系数的检验
与相关系数一样,秩相关系数是否显著,也需要检验。表3.1.4(点击显示该表及表的说明)给出了秩相关系数检验的临界值。
表3.1.4 秩相关系数检验的临界值
n
显著特征
n
显著特征
0.05
0.01
0.05
0.01
4
1.000
16
0.425
0.601
5
0.900
1.000
18
0.399
0.564
6
0.829
0.943
20
0.377
0.534
7
0.714
0.893
22
0.359
0.508
8
0.643
0.833
24
0.343
0.485
9
0.600
0.783
26
0.329
0.465
10
0.564
0.746
28
0.317
0.448
12
0.506
0.712
30
0.306
0.432
14
0.456
0.645
说明:表3.1.4中,n代表样本个数,α代表不同的置信水平,也称显著水平,表中的数值为临界值ra
[举例说明]
例2:全国1999年各省(市、区)的总人口(x)和社会总产值(y)及其位次列于表3.1.3( 因为缺数据,香港、澳门、台湾三个地区未列入)(点击显示该表)。试计算总人口(x)与社会总产值(y)之间的秩相关系数并对其进行检验。
表3.1.3 1999年全国各省(市、区)总人口与国内生产总值
省
(市、区)
总人口(x)及其位次
国内生产总值(y)及其位次
位次差的平方
d2i=(R1i-R2i)2
人口数(万人)
位次R1
产值(亿元)
位次R2
北京
1257
26
2174.46
15
121
天津
959
27
1450.06
23
16
河北
6614
6
4569.19
6
0
...
...
...
...
...
...
新疆
1774
24
1168.55
25
1
∑
124219
/
87671.13
/
962
注:本表数据详见书本42页。
解:
(1) 计算秩相关系数。
n=31,n(n2-1)=29760,将表3.1.3中最后一列数据代入上面的秩相关系数公式计算得:
即:总人口(x)与国内生产总值(y)之间的等级相关系数为0.806。
(2) 秩相关系数的检验。
n=31,表中没有给出相应的样本数下的临界值 ,但同一显著水平下,随着样本数的增大,临界值ra减少。在n=30时,查表得:r0.05=0.306,r0.01=0.432,由于r`xy=0.806>r0.01=0.432,故r`xy在α=0.01的置信水平上是显著的。
2. 多要素间相关程度的测定
1) 偏相关系数的计算与检验
在多要素构成的地理系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数,而单独研究两个要素之间的相互关系的密切程度时,称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。
(1) 偏相关系数的计算
偏相关系数矩阵:
① 一级偏相关系数的计算:
一级偏相关系数——可用单相关系数来计算。假设有三个要素x1、x2、x3,其两两之间的单相关系数矩阵为
对于上述三个要素x1、x2和x3,它们之间的偏相关系数共有三个,即r12·3,r13·2,r23·1其计算公式分别如下:
r12·3,r13·2,r23·1又称为一级偏相关系数。
② 二级偏相关系数的计算:
二级偏相关系数——若有四个要素x1、x2、x3和x4,则有六个偏相关系数,即r12·34,r13·24,r14.23,r23·14,r24·13,r34·12,称为二级偏相关系数,计算公式如下:
r12·34表示在x3和x4保持不变的条件下,x1和x2的偏相关系数,其余r23·14,r24·13,r34·12的计算公式依次类推
(2) 偏相关系数的性质
① 范围在[-1,1];
② 绝对值越大,偏相关程度越大;
③ 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数(详见后述)。
(3) 偏相关系数的显著性检验
偏相关系数的显著性检验,一般采用t检验法。
计算公式为
[举例说明]
例3:对于某四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:
试计算各个一级和二级偏相关系数并对其进行显著性检验。
解:
(1) 求一级偏相关系数;
把数值代入一级偏相关系数公式计算得:
同理,依次可以计算出其它各一级偏相关系数, 见表3.1.5。
表3.1.5 一级偏相关系数
r12·3
r13·2
r14·2
r14·3
r23·1
0.821
0.808
0.647
0.895
-0.863
r24·1
r24·3
r24·1
R34·2
0.956
0.945
-0.875
0.371
(2) 求二级偏相关系数;
求出一级偏相关系数后,可代入公式计算二级偏相关系数:
同理,依次可计算出其它各二级偏相关系数,见表3.1.6。
表3.1.6 二级偏相关系数
r12·34
r13·24
r14·23
R23·14
r24·13
R34·12
-0.170
0.802
0.635
-0.187
0.821
-0.337
(3) 显著性检验。
对于r24·13=0.821,
在自由度为23-3-1=19时,查表得 t0.001=3.883,t>ta ,这表明在置信度水平 =0.001上,偏相关系数r24·13是显著的。
2) 复相关系数的计算与检验
复相关分析法能够反映各要素的综合影响。几个要素与某一个要素之间的复相关程度,用复相关系数来测定。
(1) 复相关系数的计算
复相关系数,可以利用单相关系数和偏相关系数求得。
设y为因变量,x1,x2,…,xk为自变量,则将y与x1,x2,…,xk之间的复相关系数记为Ry·12…k。则其计算公式如下。
当有k个自变量时,
(2) 复相关系数的性质
① 复相关系数介于0到1之间
② 复相关系数越大,要素(变量)的相关程度越密切。复相关系数为1,完全相关;复相关系数为0,完全无关。
③ 复相关系数必大于或至少等于单相关系数的绝对值。
(3) 复相关系数的显著性检验
一般采用F检验法。
计算公式:
n为样本数,k为自变量个数。查F检验的临界值表,可以得到不同显著性水平上的临界值Fα,若F>F0.01,则表示复相关在置信度水平a=0.01上显著,称为极显著;若 ,则表示复相关在置信度水平a=0.05上显著;若 ,则表示复相关在置信度水平a=0.10上显著;若 F<F0.10,则表示复相关不显著,即因变量Y与k个自变量之间的关系不密切。
[举例说明]
例4:对于某四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:
若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数并对其进行显著性检验。
解:
(1) 计算复相关系数
按照公式 计算:
(2) 显著性检验
,复相关达到了极显著水平。
判别分析
假设有个总体,判别分析就是根据某个个体的观察值来推断该个体是来自这个总体中哪一个总体。下面的例子说明判别分析有着广泛的应用。
(1)根据已有的气象资料,如气温、气压等判断明天是晴天还是阴天,是有雨还是无雨。明天的天气情况是未来的行为。因为是未来行为,难以得到它的完全信息。已有的气象资料仅是它的一部分信息。基于未来行为的不完全信息对未来行为进行预测是判别分析的一个应用。
(2)在非洲发现了一种头盖骨化石,考古学家要研究它究竟是像猿(如黑猩猩)还是像人。倘若研究对象是活的,就能对他进行各方面的观察,有充足乃至完全的信息。但研究对象早就死了,他的很多重要信息都丢失了。考古学家只能根据不完全信息,如牙齿的长宽来进行判断。当信息丢失后,对过去的行为进行判断是判别分析的另一个应用。
(3)有时人们难以得到完全的信息,这里有两种情况。情况之一是信息完全只能来自破坏性试验。例如,汽车的寿命只有在把它用坏之后才知道。一般地,希望根据一些测量指标(如零部件的性能)就能事先对汽车的寿命作出判断。情况之二是获得完全信息的代价太高。例如,有些疾病可用代价昂贵的检查或通过手术得到确诊。但人们往往更希望用便于观察得到的一些外部症状来诊断体内的疾病,以避免过大的开支和损失。在完全信息难以得到时,对行为判断是判别分析的又一格应用。
正因为判别分析是基于不完全信息作出的判断,它就不可避免地会犯错误,一个好的判别法则错判的概率应很小。除了错判概率,在判别分析问题中还应考虑费用,一个好的判别法则错误的损失应很小。关于判别法则优良性的讨论从略。
判别分析问题的描述:设有个维总体,其分布特征已知(如已知分布函数分别为,或知道来自各个总体的训练样本)。对给定的一个新样品,我们要判断它来自哪个总体。
在进行判别归类时,由假设的前提,判别的依据及处理的手法不同,可得出不同判别方法。如距离判别,贝叶斯(Bayes)判别,费希尔(Fisher)判别,逐步判别,序贯判别等。
5.1 距离判别
距离判别的基本思想是:样品和哪个总体距离最近,就判断它属哪个总体。距离判别也称为直观判别法。
一、马氏距离
定义5.1.1 (马氏距离)设总体为元总体(考察个指标),均值向量为
,协方差阵为,则样品与总体的马氏距离定义为
。
当时,
。
二、两总体的距离判别
先考虑两个总体的情况。设有两个总体和,已知来自的训练样本为
其中是取自的样品个数,则总体的均值向量的估计量为
总体的协方差的估计(称为组内协方差阵)为
其中称为组内离差阵;
当假定时,反应分散性的协方差阵的估计为
并称为合并样本协方差阵,其中
问题是对任给的维样品,要判断它来自哪个总体。
1、时的判别方法
一个最直观的想法是,分别计算样品到两个总体的距离和,并按距离最近准则判别归类,判别准则为:
或
这里的距离是指马氏距离。利用马氏距离的定义及两总体协方差阵相等的假设,可以简化马氏距离的计算公式:
其中是的线性函数。对给定样品,为计算到各种总体的马氏距离,只须计算:
称为线性判别函数,称为判别系数向量,
称为常数项。
若考察这两个马氏距离之差,经计算可得:
其中
,。
则判别准则还可以写为:
是的线性函数,即,其中。也称为线性判别函数,为判别系数。
把维空间划分为两部分:和,即是的一个划分。显然,判别方法的最终结果是得到中的一个划分。由判别函数得到划分,当样品落入时判,否则。
2、时的判别方法
当两总体协方差不等时,按距离判别准则先分别计算到两个总体的距离和
,然后按距离最近准则判别归类,或则类似地计算判别函数并用于判别归类。
三、多总体的距离判别
设有个元总体:,它们的均值向量和协方差阵分别为
。对任给的元样品,要判断它来自哪个总体。
多个总体的情况,按距离最近的准则对进行判别归类时,首先计算样品到个总体的马氏距离,然后进行比较,把判归距离最小的那个总体。设时,若,则。
计算马氏距离时,类似地可考虑或不全相等的两种情况,并用样本统计量作为和的估计进行计算。
5.2 贝叶斯(Bayes)判别法及广义平方距离判别法
距离判别只要求知道总体的特征量(即参数)——均值和协方差阵,不涉及总体的分布类型。当参数未知时,就用样本均值和样本协方差阵来估计。距离判别方法简单,结论明确,是很实用的方法。但该方法也有缺点:一是该判别法与个总体出线的机会大小(先验概率)完全无关;二是判别方法没有考虑错判造成的损失,这是不合理的。贝叶斯判别法正是为解决这两方面问题而提出的判别方法。
贝叶斯的统计思想总是假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识;然后抽取一个样本,用样本来修正已有的认识(先验分布概率),得到后验概率分布。各种统计推断都通过后验分布来进行。将贝叶斯思想用于判别分析就得到贝叶斯判别法。
在正态总体的假设下,按贝叶斯判别的思想,在错判造成的损失相等时得到的判别函数,其实就是马氏距离判别在考虑先验概率及协方差阵是否相等情况下的推广,故在软件的过程中称为广义平方距离判别法。
所谓判别方法,就是给出空间的一种划分:。一种划分对应一种判别方法,不同的划分就是不同的判别方法。贝叶斯判别法也是给出空间的一种划分。
一、先验概率(先知知识)
设有个元总体:。假设事先对所研究的问题有一定的认识,这种认识常用先验概率来描述,即已知这个总体各自出现的概率(验前概率)为
。比如研究人群得癌和没有得癌两类群体的问题,由长期经验知:。这组验前概率称为先验概率。
二、广义平方距离
在马氏距离的基础上,进一步考虑先验概率及各组内协方差阵的不同,定义样品到总体
的广义平方距离或为:
其中
其中为第类的组内样本协方差阵。由以上公式可见,当不变,而某个大(即总体出现的机会大)时,则变小,故广义平方距离也变小,进而判为的可能性大。
利用广义平方距离的判别法为:
判,当。
三、后验概率(条件概率)
标准的贝叶斯判别法应该计算后验概率分布,即计算当样品已知时,它属于的概率,记为,这个概率作为判别归类的准则,其概率意义更为直观。假定总体的概率密度函数给定,由条件概率的定义可以导出:
若假设为正态总体,其密度函数为
,
则属于第组的后验概率为:
(1)由经验人为赋值。例如,。
(2)假定各种错判损失都相等,即令
。
2、关于先验概率的平均损失
有了先验概率的概念后,判别法关于先验概率的错判平均损失定义为
其中表示实属的样品被错判为其他总体的损失。
3、什么是贝叶斯判别准则
定义5.2.1 设有个元总体:,相应的先验概率为
。如果有判别法,使得带来的平均损失达最小,即,则称判别法符合贝叶斯判别法准则,或称为贝叶斯的解。
4、符合贝叶斯准则的判别法(贝叶斯别的解)
定理 5.2.1 设有个元总体:,已知的联合密度函数为,先验概率为,错判损失为,则贝叶斯判别的解
为
其中,它表示把样品判归的平均损失。
证明:由上面的各式得
则贝叶斯判别准则为
5、正态总体的贝叶斯判别法
设为正态总体,并假定错判损失相等,先验概率为。
(1)当时,设总体的概率密度函数为,则
,
其中
是与无关的依赖于样品的常数;
;
当未知时,由样本可计算第个总体的样本均值向量为合并样本协方差阵为
。
计算时,把样本均值向量与合并样本协方差阵代入,即得贝叶斯判别的解
为
,
其中,并且称为线性判别函数,而称为判别系数,
为常数项。
上面所得结果与距离判别法的结果相比较可以看出,除线性判别函数的常数项增加了考虑先验概率的部分外,此时的贝叶斯判别法与协方差阵相等情况下的马氏距离判别法是一致的。
计算时,把样本均值向量与合并样本协方差阵代入,即得贝叶斯判别的解
为
,
其中,并且称为线性判别函数,而称为判别系数,
为常数项。
,
春旱的会判:
y1 =356.7470 320.8808 379.5553 318.9815 375.5029 401.4795
y2 =353.9169 317.8649 368.9312 319.2432 370.8197 388.7958
无旱的回判:
y11 =315.6905 275.8946 309.1002 307.0698 307.3236 286.4146 298.5802 272.9802
y22 =323.7357 282.1179 316.9441 310.0000 310.8680 294.4754 304.5866 280.0241
5.3 费希尔(Fisher)判别
一、费希尔判别的基本思想
费希尔判别的基本思想是投影。将组元数据投影到某一个方向,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想。利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是很一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出。
设从总体分别抽取元样本如下:
。
令为维空间任一向量,为向量以为法线方向上的投影。上述个组中的元数据投影后为
每个总体的数据投影后均为一元数据。对这组一元数据进行一元方差分析,其组间平方和为:
其中和分别为的样本均值和总体样本均值,并记
而为组间离差阵:
合并的组内平方和为
其中合并的组内离差阵为
因此,若个总体的均值有显著差异,则比值,应充分大。利用方差分析的思想,此问题化为求投影方向,使达极大值。显然使达极大的解不唯一。若使达极大,则也使达极大,故对附加一约束条件,即选取,使。因此,问题又化为求使在条件下达极大。
展开阅读全文