资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,中国石油大学(华东)地球科学与技术学院,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,中国石油大学(华东)地球科学与技术学院,*,第五章 地理系统要素间的相关分析与回归分析,学习目标:,理解地理要素相关的含义,掌握地理相关程度的度量方法,可用,C,语言实现,掌握理解地理回归的含义和作用,可用,C,语言实现回归模型的建立,掌握并理解地理系统的空间趋势面分析,重点,:地理要素的相关分析;地理要素的回归分析;地理系统的空间趋势面分析,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,1,中国石油大学(华东)地球科学与技术学院,第五章 地理系统要素间的相关分析与回归分析,5.1,地理要素间的相关分析,5.2,地理要素间的回归分析,5.3,地理系统的空间趋势面分析,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,2,中国石油大学(华东)地球科学与技术学院,第一节 地理要素间的相关分析,1,、地理要素相关的含义,2,、地理要素相关程度的度量,3,、相关系数的显著性检验,4,、多要素见相关程度的度量,1,、地理要素相关的含义,地理预测的需求,预测,是当代地理学的重要内容。地区自然要素的变化的预测,地理环,境各要素在人类活动干预下的变化的预测,地区或城市经济系统要素的预测,区域或城市人口预测等等,都在现代地理研究中占有重要地位。地理要素的预测对于人类社会活动、生产活动、生活等方面的意义是显而易见的。报准一次特大洪水,可以使洪水区人民的生命财产少受许多损失;漏报一次台风,会造成台风所经地区工农业生产的巨大损失,预测,也成为避免一个地区或一个国家经济紊乱和比例失调的手段。预先对区域经济发展的远景作出科学的估计,可以使地区经济稳定地、协调地向前发展。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,3,中国石油大学(华东)地球科学与技术学院,1,、地理要素相关的含义,预测对于地理学理论研究的意义也是明显的。预测研究必须深入探讨地理系统各要素之间的数量关系,否则预测容易流于猜测;预测研究还必须探寻地理系统的动态规律。开展预测研究,正是把地理学研究推向新阶段的杠杆,地理预测,是以地理系统分析为基础的,预测往往是分析的结果和分析结果的扩展、伸延;预测的结果,往往又为地理系统分析提供新的信息。从方法论看,这是一个有“反馈”的系统分析过程(如下图所示)。在地理预测中,经常使用的方法是概率统计方法、投入,-,产出方法和模型,以及其它运筹学、最优化模型。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,4,中国石油大学(华东)地球科学与技术学院,1,、地理要素相关的含义,地理要素相关,设,x,和,y,为两种地理要素,.,若,y,严格地随着,x,的变化而变化,如,图(,a,),所示,所有观测点均落在直线或曲线上,则称为,完全相关,,或称,函数关系,。若观测点在散点图中均落在直线或曲线两旁,如,图(,b,),所示。则表示两个要素之间具有相关关系,因此也称为,统计相关,。在地理问题中,许多要素间都具有这种关系。所有的观测点,如果在散点图中分布状态散乱无规律可循,如,图(,c,),所示。则表示这两个要素之间相互独立,没有依存关系。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,地理要素关系图,5,中国石油大学(华东)地球科学与技术学院,1,、地理要素相关的含义,地理要素相关,所谓,相关,,是指两个或两个以上变量间相互关系是否密切。在研究这种关系时并不专指哪一个是自变量,哪一个是因变量,而视实际需要确定。相关分析仅限于两个或两个以上变量具有相关关系者,其主要目的是计算出表示两个或两个以上变量间相关程度和性质。地理系统中绝大多数的要素间是具有相关关系的,故相关分析在地理学中早为人所注意,并得到了广泛的应用。所谓,地理相关,,就是应用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标。,地理相关的类型:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,6,中国石油大学(华东)地球科学与技术学院,2,、地理要素相关程度的度量,由于地理相关基本类型的不同,因而度量地理相关程度的指标也各异,现,分述如下:,简单直线相关程度的度量,在一般情况下,当探讨两个地理要素间为直线相关时,就要研究它们之间的,相关程度和相关方向,。所谓相关程度,就是要研究它们之间的相互关系是否密切;所谓相关方向,又可分为两种,即,正相关和负相关,。正相关是表示两个要素之间呈同方向变化的相关,也就是,y,值随,x,的增加而变大或随,x,的减少而变小;负相关是表示两个要素之间呈反方向变化的相关,即,y,值随,x,的增加而变小或随,x,的减少而变大。而用量度量直线相关程度和方向的指标,就是相关系数。公式如下:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,7,中国石油大学(华东)地球科学与技术学院,利用上式计算的相关系数,具有下列三点性质:,1,)相关系数的分布范围,介于,-1,r,1,2,)当相关系数为正值时,表示两个要素(或变数)之间为正相关,相,关系数为负值,表示两个要素(或变数)之间为负相关。,3,)相关系数的绝对值,|,r,|,越大,表示两个要素间相关程度越密切。,顺序(等级)相关系数,r,s,与前述相关系数一样,它也是描述两要素之间相关程度的一种统计指标,不过在计算方法上,与前述相关系数的计算有所不同。等级相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代表实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。,设两个要素,x,和,y,有,n,对样本值,令,R,1,代表要素,x,的序号,(,或位次,),,,R,2,代表要素,y,的序号(或位次),代表要素,x,和,y,的同一组样本位次差的平方,那么要素,x,和,y,之间的等级相关系数被定义为:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,8,中国石油大学(华东)地球科学与技术学院,简单非线性相关程度的度量,地理系统两要素间的关系许多是线性的,但也有许多要素间的关系不是线性关系。例如,大城市近年来的人口增长、作物叶面积与气温的关系、市中心到市区各部分的距离与相应地区人口密度之间的关系等等,都表现为非线性关系。,在探讨两个地理要素间的直线相关程度时,既要研究它们之间的相关程度,又要注意它们之间的相关方向。但是,当研究简单非线性相关程度时,因曲线方向不像直线方向那样固定,所以只能探讨其相关程度而不能探讨其相关方向。,表示简单非线性相关程度的统计量,通常用相关指数,R,yx,来度量。相关指数的性质,随相关曲线形状的不同而异。相关指数的性质如下:,1,),相关指数的分布范围介于,0,到,1,之间,2,)相关指数的数值越大,两个要素间的曲线相关程度越密切。当,R,yx,=1,,表示两个要素间为完全曲线相关;当,R,yx,=0,时,表示两,个要素间为完全无曲线相关,。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,9,中国石油大学(华东)地球科学与技术学院,3,)相关指数必大于或至少等于用同一批资料所求得的相关系数的绝对,值,即,Ryx,|r|,。,4,),Rxy,的性质与上述情况基本相同,但在通常情况下,,Ryx,与,Rxy,不相,等,仅当完全相关或完全无关时,两者才相等。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,多要素相关与相关矩阵,如果问题涉及到 等,n,个要素,则对其中任何两个要素,x,i,和,x,j,,我们都可以按照前面的公式计算它们之间的相关系数,r,ij,,,这样就可得到多要素的相关系数矩阵:,显然,由公式容易知道:,1,),r,ii,=1(,i,=1,2,n,),即每一个要素,x,i,与其自身的相关程度最大;,2,),r,ij,=,r,ji,,即第,i,个要素,x,i,对第,j,个要素,x,j,的相关程度,与第,j,个要素,x,j,对第,i,个要素,x,i,的相关程度相等。,10,中国石油大学(华东)地球科学与技术学院,3,、相关系数的显著性检验,当要素之间的相关系数求出之后,还需要对所求得的相关系数进行检验。,这里的相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少,或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过,检验,才能知道它的可信度。,一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数,检验的临界表完成的。,在表中,左边的,f,值称为自由度,其数值为,f,=,n,-,2,,,这里的,n,是样本数;上,方的,代表不同的置信水平;表内的数值代表不同的置信水平下相关系数,=0,的临界值,即,r,;,公式 的意思是当所计算的相关系数,r,的,绝对值大于在,水平下的临界值,r,时,两要素不相关(,=0,)的可能性,只有,。,一般而言,当 时,则认为两要素不相关,这时的样本相关系数就,不能反映两要素之间的关系。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,11,中国石油大学(华东)地球科学与技术学院,4,、多要素间相关程度的测定,偏相关系数的计算与检验,地理系统是一种多要素的复杂的巨系统,其中一个要素的变化必然影响,到其它各要素的变化,因此它们之间存在着不同程度的相关关系。在多要,素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相,关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要,素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为,偏相关。所以度量偏相关的统计量,称为偏相关系数。,偏相关系数,,可以利用单相关系数来计算。假设有三个要素,x1,、,x2,、,x3,其两两间单相关系数矩阵为:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,12,中国石油大学(华东)地球科学与技术学院,因为相关系数矩阵是对称的,故在实际计算时,只要计算 即,可。在偏相关分析中,常称这些单相关系数为零级相关系数。,对于上述三个要素,x,1,、,x,2,、,x,3,,,它们之间的偏相关系数共有三个,,即 (下标中点后面的数字,代表计算偏相关系数时,保持不,变量,如 表示,x,3,保持不变),其计算公式分别如下:,上面三个式子表示三个偏相关系数,称为,一级偏相关系数,。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,若有四个要素,x,1,、,x,2,、,x,3,、,x,4,,,则有六个偏相关系数,即:,它们称为,二级偏相关系数,,其计算公式分别如下:,13,中国石油大学(华东)地球科学与技术学院,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,如果所考虑的要素多于四个时,则可以依次考虑,计算三级甚至更多,级偏相关系数。对于偏相关系数,它具有下述性质:,1,)偏相关系数分布的范围,-1,到,1,之间。,2,)偏相关系数的绝对值越大,表示偏相关程度越大。,3,)偏相关系数的绝对值必小于或最多等于由同一资料所求得的复相关,系数,即 。,偏相关系数系数的显著性检验,:偏相关系数的显著性检验,一般采用,t,检验法,其统计量为:,在上式中,为偏相关系数,,n,为样本数,,m,为自变量个数,计算出,t,值后,查,t,分布表,可得出不同显著水平上的临界值,t,,若,t,t,(n-m-1),则表示偏相关显著。,14,中国石油大学(华东)地球科学与技术学院,复相关系数的计算与检验,严格来说,以上的分析都是揭示两个要素间的相关系数,或者是在其它,要素固定的情况下来研究两要素间的相关关系的。但实际上,一个要素的变,化往往受多种要素的综合作用和影响,而单相关或偏相关分析的方法都不能,反映各要素的综合影响。要解决这一问题,就必须采用研究几个要素同时与,某一个要素之间的相关关系的复相关分析法。所谓复相关就是研究几个要素,同时与某一个要素之间的相关关系,而度量复相关程度的指标,可以用复相,关系数来测定。复相关系数又可利用单相关系数和偏相关系数求得,当然还,可用回归法和行列式法求得。,复相关系数,,可以利用单相关系数和偏相关系数来计算,设,y,为因变量,,x,1,、,x,2,,,,,x,k,为自变量,则将,y,与,x,1,、,x,2,,,,,x,k,之,间的复相关系数记为 。其计算公式如下:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,当有两个自变量时:,15,中国石油大学(华东)地球科学与技术学院,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,当有三个自变量时:,一般地,当有个自变量时:,对于复相关系数而言,其性质可以概括为:,1,)复相关系数介于,0,到,1,之间;,2,)复相关系数越大,则表明变量之间的相关程度越密切;,3,)复相关系数必大于或至少等于单相关系数的绝对值;,复相关系数的检验,对复相关系数的显著性检验,一般采用,F,检验法。其统计量公式为:,其中,,n,为样本数,,k,(,第一自由度,),为自变量个数。,若 ,则表示复相关在置信度水平 上显著。,16,中国石油大学(华东)地球科学与技术学院,第二节 地理要素间的回归分析,1,、引言,2,、地理回归分析的意义和作用,3,、一元地理回归模型的建立,4,、多元地理回归模型的建立,1,、引言,在经济分析和企业管理中,经常要遇到各种各样的变量,他们之间有,些关系密切,有些关系不太密切,例如空调、电风扇的需求量与气候有关,,气温越高,空调电风扇的需求量就会增加,商品价格提高了,其销售量也,会受影响,居民收入增加也会引起一些商品的需求量增加等等。一般来说,,变量之间关系大致可以分成二类,,一类为确定性关系,,即一个变量被其他,变量唯一确定。,例如,X,表示某商品的数量,,Y,表示该商品的单价,则其总价,Z,为,Z,=,XY,另一类为非确定性关系,,即一个变量与其他变量之间有一定的关系,,但是这一关系又不是完全确定的。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,17,中国石油大学(华东)地球科学与技术学院,1,、引言,例如,原煤的产量与其投资额、电力消耗量、火药消耗量以及木材消耗,量有关,但即使将影响原煤产量的这四个变量因素完全确定,原煤的产量仍,有高有低。这是因为影响其原煤产量的高低远不止以上四个因素,其他因素,例如采煤技术水平、管理水平,等等都影响着原煤的产量,故投资额、电,力消耗量、火药消耗量以及木材消耗量四个因素与原煤产量有关系,但又不,能完全确定其原煤产量。,例如,家庭的食品支出与家庭收入、家庭的人口数有关,但是对家庭人,口、收入相同的家庭,其食品支出也不尽相同。这是因为还有其他因素,例,如不同地区、城市、农村、南方、北方的家庭用于食品的支出不同,另外传,统习惯也影响着家庭对食品支出的多少。故家庭食品的支出与家庭收入、家,庭人口数也是属于不确定的关系。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,18,中国石油大学(华东)地球科学与技术学院,上述这种不确定关系中,通常我们称原煤产量、家庭食品支出为因,变量,在计量经济模型中称为,被解释变量,,而投资额、电力消耗、,、,家庭收入、家庭人口等称为自变量,在计量经济模型中称为,解释变量,,,而其他因素例如技术水平、管理水平、地区、习惯也对上述的被解释变,量有影响,但大多数是在研究的目标中未予控制或难于控制的,随机因素,,,因此被解释变量受到两方面的影响,一方面受到解释变量,x,1,,,x,2,,,x,k,的影响,这部分可表为函数的形式,f,(,x,1,,,x,2,,,x,k,),,另一方面,则为一些随机因素所致,它们可视为随机误差。建立上述变量间的关系,,需用下面介绍的回归分析方法。回归分析在理论上和应用上也都是极为重,要的。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,19,中国石油大学(华东)地球科学与技术学院,2,、地理回归分析的意义和作用,(,1,)意义,地理系统各要素之间的相互关系,可通过大量的观测、试验或实验取,得一定的地理数据,然后用数理统计的方法,寻找出隐藏在随机性后面的,统计规律,而后用回归方程来表达。,应当注意,虽然函数关系与相关关系是两类不同类型的变量之间的关,系,但它们之间并,无严格的界限,。相关关系的变量之间尽管没有确定性的,关系,但在大量数据条件下,从一定的统计意义上来看,它们之间可能存,在着某种类型的函数关系。因而可以借助于函数关系的数学表达式来表达。,而变量之间的函数关系,从理论上说是完全精确的函数关系,但是如果对,某种函数关系的变量作多次测定,由于有误差存在,所得数据有时并不绝,对相同,因而它们之间的关系就变成了非确定性了。严格来讲,回归分析,就是处理变量之间具有相关关系的一种数理统计方法。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,20,中国石油大学(华东)地球科学与技术学院,实际上,回归分析和相关分析都是研究和处理变量之间相互关系的一,种数理统计方法,但它们之间既有联系,又有区别。在研究对象和内容上,两者是相同的,相关分析主要是研究要素之间联系的密切程度,并没有严,格的自变量和因变量之分;而回归分析则主要是研究要素之间联系的数学,表达形式,因而就有自变量和因变量之分,从而就可由自变量的取值来预,测、延长或插补和控制因变量的取值,所以回归分析尚有地理预测的性质,。,回归分析的主要内容,从一组地理数据出发,确定这些要素之间的定量数学表达形式,即回归模型;,根据一个或几个要素的值来预测或控制另一个要素的取值;,从影响某一个地理过程的许多要素中,找出哪些要素是主要的,哪些是次要的,这些要素之间又有什么关系。,回归分析所研究的地理数学模型,根据要素的多少可以分为一元地理,回归模型和多元地理回归模型。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,21,中国石油大学(华东)地球科学与技术学院,3,、一元地理回归模型的建立,现代地理学研究的对象是多层次多要素的复杂系统,其要素之间的相,互关系,既有线性的,也有非线性的。因此地理要素之间的回归分析模型,,既有线性回归模型,也有非线性回归模型,。,在回归分析中,我们一般使用地理系统分析(绪论中所讲过的计量地,理学中使用的方法之一),它是把复杂的地理系统由大系统分解为次一级,的系统、各级分系统或子系统,有时直至分解为一个输入与一个输出的简,单系统,进而对地理要素间数量关系进行分析,求出在地理系统背景之下,的两个要素之间的输入,-,输出参数。,一元地理回归模型所处理的问题,是解决两个要素之间的定量关系。,两个要素之间的数量关系,有的是线性关系,有的是非线性关系。这样就,提出一个重要问题,即如何正确地分析与判断要素之间的关系是线性回归,模型还是非线性回归模型,在非线性回归模型中的曲线又属于哪种类型?,因此,只有首先判断出回归方程类型,然后才能正确地求出回归模型的参,数。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,22,中国石油大学(华东)地球科学与技术学院,(,1,)一元线性回归模型,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,由于地理要素是系统中的要素,所以要求地理系统中全部要素对于两,个我们所考虑的因素的作用,都能用两要素之间的关系加以反映。而无法,用两要素关系来反映的部分(常称为“,剩余项,”或误差),要设法使之尽可,能地小。这样的思想,可以从三个方面来实现。,、对于各项预测而言,都会有两要素关系无法表示的部分。加入我,们把第,k,次预测的剩余项或误差记为,e,k,,,则我希望每次预测的误差中最大的,误差达到最小,即:,、或者,我们希望历次预测的误差绝对值的总和达到最小,即:,、使误差的平方和达到最小,即:,虽然前两种思想是直观而易于接受的,但计算过程很繁琐;以最后一,种所表示的思想最常用,这一思想就是所谓的,最小二乘法,,它在地理预测,中,有很广泛的使用。,23,中国石油大学(华东)地球科学与技术学院,设有两个地理要素和,,x,为自变量,,y,是因变量。则,一元线性回归模,型的基本结构形式为:,上式中,,a,、,b,为待定参数;,,n,为,n,组观测 、,,,,的下标;为随机变量。如果记 、分别为参数,a,、,b,的拟合值,则一元线,性回归模型可表达为:,上一个式子代表,x,和,y,之间相互关系的拟合直线,常称为,回归直线,;是回归,系数,也就是直线的斜率;是,y,的估计值,也称为,回归值,。,回归值 与实际观测值,y,i,之差,刻划了,y,i,与 的偏离程度,也就是观测,值与回归值之间的误差大小,通常总希望它们的误差,e,i,的平方和为最小,,即:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,24,中国石油大学(华东)地球科学与技术学院,(,a,),参数,a,、,b,的最小二乘估计,根据取极值的必要条件,有,:,即,:,上述方程组可以进一步写成,:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,25,中国石油大学(华东)地球科学与技术学院,或者,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,26,中国石油大学(华东)地球科学与技术学院,(,b,),回归模型估计的误差,当一元线性地理回归模型求出之后,它的效果如何,它所揭示的地理,规律性强不强,用它来进行地理预测精度如何?所有这些问题都需要进一,步作出分析。,由线性回归模型所估计的值 往往与实际观测值,y,不完全一致,所以反,映在散点图上的观测值,y,和由,x,值所估计的值 常不吻合,而散布在回归直,线的附近,这种误差就是由于用线性回归模型由值估计的值时所产生的误,差。这种误差,称为,回归方程估计误差,。,如果把估计值 看作是各个,x,值所对应的各个,y,值的均值,并以标准差,的形式来估计其误差的大小,则称为,标准估计误差,(也称为,剩余标准差,)。,记作,S,,,其计算公式为:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,27,中国石油大学(华东)地球科学与技术学院,(,c,),一元线性回归模型显著性检验,回归模型建立后,需要对模型的可信度进行检验,以鉴定模型的质量。,线性回归模型的显著性检验是借助于,检验,来完成的。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,28,中国石油大学(华东)地球科学与技术学院,在回归分析中,,y,的,n,次观测值,y,1,、,y,2,,,,,y,n,之间的差异,可以用观测,值,y,i,与其平均值 的离差平方和来表示,它被称为,总的离差平方和,,记为,:,从上图可以看出,每一个观测点的离差可以分解为:,可以证明:,上式中,称为,误差平方和,,或,剩余平方和,,而,U,称为,回归平方和,。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,29,中国石油大学(华东)地球科学与技术学院,可以证明下式中的交叉项:,从公式可以看出,当,U,对,L,yy,的贡献越大时,,Q,的影响就越小,回归模型的,效果就越好。这样,就可以由统计量,衡量回归模型的效果,显然,F,越大,就意味着模型的效果越佳。事实上,统计,量 ,在显著水平 下,若 ,则认为回归方程效果在此水平,下显著。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,30,中国石油大学(华东)地球科学与技术学院,一元非线性地理回归模型,在许多实际地理问题中,有时两个要素之间的关系并不是线性关系,而,是某种非线性关系,这时我们选择适当的类型曲线比选直线更符合地理实,际情况。所以,我们需要进一步掌握曲线的选配,确定曲线的类型,然后,再化曲线回归模型为直线回归模型来处理。,选配曲线的基本方法,;,地理上最常见的非线性回归模型的建立方法:,幂函数、指数函数、对数函数;,一元非线性回归模型的显著性检验,相关指数,具体计算见下式:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,31,中国石油大学(华东)地球科学与技术学院,(,4,)多元地理回归模型的建立,一个地理系统,其结构特点是多要素的。例如,我们考察一个由两个,输入:流域面积(,A,)、,年降雨量(,R,),和一个输出:年径流量(,Q,),的地,理系统。分析,A,、,R,与,Q,之间的关系,设为 ,这就是一个多要素的地,理系统。再如考察一个钢、铁产量为输入和运输量为输出的区域钢铁生产,-,运输系统,也是一个多要素系统。诸如此类情况,是地理系统分析中经常,遇到的,它可以用这样的数学模型表示:,一般情况下,我们是分别考察几个输入和一个输出之间的关系,即把,上述模型分解成:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,32,中国石油大学(华东)地球科学与技术学院,多元线性回归分析,(,a,),多元线性地理回归模型的建立,假设某一个因变量,y,受,k,个自变量,x,1,,,x,2,,,,,x,k,的影响,其,n,组观测,值为(,y,:,x,1,,,x,2,,,,,x,k,),,1,,,2,,,,,n,。,那么,多元线性回,归模型的结构形式为:,在上式中,0,,,1,,,,,k,为待定参数,,为随机变量。如果,b,0,,,b,1,,,,,b,k,分别是,0,,,1,,,,,k,的拟合值,则得回归方程为:,在上式中,,为常数,b,0,,,b,1,,,,,b,k,被称为,偏回归系数,。,偏回归系数 的意义是,当其他自变量 都固定时,自,变量,x,i,每变化一个单位而使因变量,y,平均改变的数值。该模型在几何上表示,一个超平面,也可称为,y,对,x,1,,,x,2,,,,,x,k,的回归平面。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,33,中国石油大学(华东)地球科学与技术学院,根据最小二乘原理,的估计值 要使,由求极值的必要条件得:,将上述方程组展开整理得:,上述方程组,称为正规方程组。它的系数矩阵 可以表示如下:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,34,中国石油大学(华东)地球科学与技术学院,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,35,中国石油大学(华东)地球科学与技术学院,显然,,A,为对称矩阵。正规方程组常数项可以表示为矩阵,B,,,则其形式,如下:,设 ,则方程组可以写成矩阵形式:,Ab,=,B,即:,可以看出,上述计算过程用计算机很容易实现。但是由于有许多乘法,运算,在数值较大的情形下,比较容易造成溢出而动态停机;且由于直接,利用结构矩阵连续进行乘法和求逆运算,误差积累较大。所以,针对上述,情形,采用了相似于上述形式而对数据加以处理的线性回归数学模型,以,避免上述缺点。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,36,中国石油大学(华东)地球科学与技术学院,(,b,),线性回归数学模型的另一种形式,一般多元线性回归模型中,常用下面的数据结构形式:,其中:,它的结构矩阵,X,:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,37,中国石油大学(华东)地球科学与技术学院,常数项矩阵,B,:,系数矩阵,可以看出,数据经过上述处理之后,,A,矩阵比前面的,A,矩阵降了一阶,,求逆运算时,可以节省运算量,数据,x,ij,都成了 ,数值减少,可以避,免在计算过程中因数字过程而溢出,并减少了累计的误差。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,38,中国石油大学(华东)地球科学与技术学院,在计算机求解(计算逆阵)时,常采用求解求逆紧凑算法,以节约存,贮。这在概率统计计算中,一般已经具有足够的精度。,求解求逆紧凑算法是对矩阵作如下的线性变换:,其中,k,=1,,,2,,,,,p,,,此处,p,表示矩阵中变量的个数,即,k,表示在对扩展,矩阵进行变换时需要消除第,k,个因子,而,l,表示目前正在进行的第,l,步变换。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,39,中国石油大学(华东)地球科学与技术学院,(,c,),多元线性回归模型的显著性检验,方差分析比的计算,对于多元线性回归,它同一元线性回归一样,也需要对回归模型进行,显著性检验。如果经过检验是显著的,则说明建立的回归模型是有用的,,否则,毫无意义。,通过对一元线性回归分析,我们知道:观测值,y,1,,,y,2,,,,,y,n,之间的波,动或差异,是由两个要素引起的,一个是变量,x,的取值不同,另一个是受其,他随机因素引起的。为了从,y,的总的变差中将它们区分开来,就需要对回归,模型进行方差分析,也就是将,y,的总离差平方和,L,yy,分解成两部分,即:回归,平方和,U,和剩余平方和,Q,。,从图中可以看出,每一个观测点的离差都可以分解为:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,40,中国石油大学(华东)地球科学与技术学院,将上式两边平方,然后再对个点求和,则有:,可以证明,它们的交叉项等于,0,,即:,在多元线性回归分析中,回归平方和表示的是所有个自变量对的变差,的总影响,因此,它可以按下式计算:,而剩余平方和则等于:,由以上公式可以知道:它与一个自变量的情况完全相似,即回归平方,和越大,则剩余平方和越小,线性关系越密切,回归效果越好,方程的预,测精度就越高。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,41,中国石油大学(华东)地球科学与技术学院,在多元回归分析中,各个平方和的自由度可按下述原则来确定:总平,方和的自由度仍为,n,-1,;,回归平方和的自由度等于自变量的个数,k,;,剩余平,方和的自由度等于,n,-,k,-1,。,剩余平方和除以它的自由度,称为方差,即,在多元线性回归问题上,对整个回归进行显著性检验时,通常使用检,验法。值等于回归方差和剩余方差之比。,F,分布表中有两个自由度,,f,1,表示回归方差的自由度,k,,,f,2,表示剩余方,差的自由度,n,-,k,-1,。有时把回归方差的自由度称为第一自由度,而把剩,余方差的自由度称为第二自由度。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,42,中国石油大学(华东)地球科学与技术学院,复相关系数,复相关系数,R,是检验模型显著性的定性指标,,和单相关系数,r,不同,它,只取值于,0,与,1,之间,它是由回归平方和和总离差平方和的比值决定的。即,一般统计表上没有列出复相关系数,R,检验值,但可以由,F,分布表推求:,其中,,F,是回归自由度为,p,,,剩余自由度为,m,-,p,-1,查得的分布表,F,上的临界,值;,m,是统计样本数。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,43,中国石油大学(华东)地球科学与技术学院,预测精度的估计,在多因素影响下的一个地理系统要素的预测时,还必须事先估计误差,的大小,以确定预测的精度。无疑预测与拟合误差是由引起的,可以证明,而,2,的无偏估计是:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,44,中国石油大学(华东)地球科学与技术学院,(,d,),回归模型回归系数的显著性检验,在一个多输入与一个输出的地理系统中,如果通过方差分析表明预,测模型是显著的,但并不能表示每一个输入对输出的影响都是显著的。,有可能在几个影响要素中,存在着对输出要素没有重要影响的要素。因,此,还必须对各个输入要素逐个进行显著性检验。它是通过计算回归系,数的,F,检验值或,t,检验值来实现的。同时,由于影响要素的量纲差异,预测,模型的回归系数并不能直接说明要素的重要程度,也需要作某些变换以,消除量纲影响,使回归系数具有可比性。这种经过变换的回归系数称为,标准回归系数,。此外,还可以计算偏回归平方和、偏相关系数等用以分,析要素的重要性。,回归系数,F,比的计算,可以利用信息矩阵,A,的逆矩阵来构造,F,统计量:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,45,中国石油大学(华东)地球科学与技术学院,取一定的显著性水平,,在,F,分布表上查得,F,。如果 ,则可,以认为我们所考虑的要素是具有重要意义的,否则,就是可以忽略的要素。,上式中的,c,jj,是下面矩阵对角线上的元素,下标,j,表示多元回归方程中的,第几个偏回归系数。,回归系数的,t,检验,其中:,取一定的显著性水平,,在,t,分布表上查得,t,。如果,t,j,t,,,则可以,认为我们所考虑的要素是具有重要意义的,否则,就是可以忽略的要素。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,46,中国石油大学(华东)地球科学与技术学院,标准回归系数的计算,标准回归系数是用以比较要素重要性,消除量纲影响的计算值。若以,表示,则:,其中:,可以根据的 绝对值的大小,确定要素的重要性。,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,47,中国石油大学(华东)地球科学与技术学院,偏回归平方和与偏相关系数的计算,偏回归平方和,U,j,按下式计算:,它表示由一个要素所引起的回归平方和的大小。偏回归平方和越大,,要素的意义就越重要。进一步,可以计算偏相关系数:,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,48,中国石油大学(华东)地球科学与技术学院,(,e,),不显著要素的剔除与模型中回归系数的调整计算,假设剔除 ,重新计算后的回归系数为 ,则:,其中 、均为系数矩阵,A,的逆矩阵,C,中的元素,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,49,中国石油大学(华东)地球科学与技术学院,在地理系统中,除部分问题是线性关系外,还有大部分问题属于非线,性问题。,(,a,),多项式回归模型的建立方法,在地理系统中,由于各要素之间关系十分错综复杂,有些回归曲线经,过变量变换后可以化为直线处理,但也有些曲线不能化为直线处理,如二,次多项式就不能通过变量变换线性化,但可将它化为二元线性回归模型,,然后按多元线性回归分析方法处理。由此可以推广到包括多要素的任意多,项式:,令 、,,,,,则上式可以化为:,这种方法可以处理相当一类非线性回归问题。它在回归分析中占有重,要的地位,其原因是:,任何函数都可以在较小区间内用多项式来逐步逼进,。,因此,在分析某一要素与其他要素的定量关系时,可以不问,y,与,x,的关系,,直接用多项式回归进行分析计算,其效果往往较好。,多元非线性地理回归模型的建立,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,50,中国石油大学(华东)地球科学与技术学院,(,b,),幂函数乘积模型的建立方法,该方法的基本思路是把某一要素,y,与其他要素,x,j,之间的函数关系写成,并把它们之间的函数关系,看成是幂函数的连乘积形式,即,上式中,,k,、,a,、,b,、,c,、,d,为待定地理参数。建立幂函数乘积模型的过程,也,就是确定参数的过程。,比如,要建立四个要素 影响一个地理要素,y,的幂函数乘积模型,时,可以用相关分析法,分别找出各要素间的相关程度,然后按相关系数,的大小,依次求出参数 ,最后确定待定常数。,其具体计算步骤如下:,1,),按幂函数建立回归模型的方式,先将,x,4,与,y,的数据输入计算机,即,可求出,x,4,的幂值,d,;,2,),按同样方法,输入,x,3,与 的数据,即可求出,x,3,的幂值,c,;,3,)按同样方法,输入,x,2,与 的数据,即可求出,x,2,的幂值,b,;,计 量 地 理 学,-,第五章 地理系统要素间的相关分析与回归分析,51,中国石油大学(华东)地球科学与技术学院,4,),按
展开阅读全文