1、一、空间数据的插值用各种方法采集的空间数据往往是按用户自己的要求获取的采样观测值,亦既数据集合是由感兴趣的区域内的随机点或规则网点上的观测值组成的。但有时用户却需要获取未观测点上的数据,而已观测点上的数据的空间分布使我们有可能从已知点的数据推算出未知点的数据值。在已观测点的区域内估算未观测点的数据的过程称为内插;在已观测点的区域外估算未观测点的数据的过程称为外推。空间数据的内插和外推在GIS中使用十分普遍。一般情况下,空间位置越靠近的点越有可能获得与实际值相似的数据,而空间位置越远的点则获得与实际值相似的数据的可能性越小。下面介绍一些常用的内插方法。1、边界内插使用边界内插法时,首先要假定任何
2、重要的变化都发生在区域的边界上,边界内的变化则是均匀的、同质的。边界内插的方法之一是泰森多边形法。泰森多边形法的基本原理是,未知点的最佳值由最邻近的观测值产生。如图4-6-1所示。 泰森多边形的生成算法见5.7。2、趋势面分析趋势面分析是一种多项式回归分析技术。多项式回归的基本思想是用多项式表示线或面,按最小二乘法原理对数据点进行拟合,拟合时假定数据点的空间坐标X、Y为独立变量,而表示特征值的Z坐标为因变量。当数据为一维时,可用回归线近似表示为:其中,a0、a1为多项式的系数。当n个采样点方差和为最小时,则认为线性回归方程与被拟合曲线达到了最佳配准,如图4-6-2左图所示,即: 当数据以更为复
3、杂的方式变化时,如图4-6-2右图所示。在这种情况下,需要用到二次或高次多项式: (二次曲线) 在GIS中,数据往往是二维的,在这种情况下,需要用到二元二次或高次多项式: (二次曲面) 多项式的次数并非越高越好,超过3次的多元多项式往往会导致奇异解,因此,通常使用二次多项式。 趋势面是一种平滑函数,难以正好通过原始数据点,除非数据点数和多项式的系数的个数正好相同。这就是说,多重回归中的残差属正常分布的独立误差,而且趋势面拟合产生的偏差几乎都具有一定程度的空间非相关性。 3、局部内插在GIS中,实际的连续空间表面很难用一种数学多项式来描述,因此,往往使用局部内插技术,即利用局部范围内的已知采样点
4、的数据内插出未知点的数据。常用的有线性内插、双线性多项式内插、双三次多项式(样条函数)内插。(1)、线性内插线性内插的多项式函数为:只要将内插点周围的3个数据点的数据值带入多项式,即可解算出系数a0、a1、a2 。(2)、双线性多项式内插双线性多项式内插的多项式函数为: 只要将内插点周围的4个数据点的数据值带入多项式,即可解算出系数a0、a1、a2、a3 。如果数据是按正方形格网点布置的(如图4-6-3),则可用简单的公式即可计算出内存点的数据值。设正方形的四个角点为A、B、C、D,其相应的特征值为ZA、ZB、ZC、ZD,P点相对于A点的坐标为dX、dY,则插值点的特征值Z为:(3)、双三次多
5、项式(样条函数)内插双三次多项式是一种样条函数。样条函数是一种分段函数,对于n次多项式,在边界处其n-1阶导数连续。因此,样条函数每次只用少量的数据点,故内插速度很快;样条函数通过所有的数据点,故可用于精确的内插,可以保留微地貌特征;样条函数的n-1阶导数连续,故可用于平滑处理。双三次多项式内插的多项式函数为:将内插点周围的16个点的数据带入多项式,可计算出所有的系数。4、移动平均法在未知点X处内插变量Z的值时,最常用的方法之一是在局部范围(或称窗口)内计算个数据点的平均值。既:对于二维平面的移动平均法也可用相同的公式,但位置Xi应被坐标矢量Xi代替。窗口的大小对内插的结果有决定性的影响。小窗
6、口将增强近距离数据的影响;大窗口将增强远距离数据的影响,减小近距离数据的影响。当观测点的相互位置越近,其数据的相似性越强;当观测点的相互位置越远,其数据的相似性越低。因此,在应用移动平均法时,根据采样点到内插点的距离加权计算是很自然的。这就是加权移动平均法,即: 其中,i是采样点i对应的权值,常取的形式有: 加权平均内插的结果随使用的函数及其参数、采样点的分布、窗口的大小等的不同而变化。通常使用的采样点数为68点。对于不规则分布的采样点需要不断地改变窗口的大小、形状和方向,以获取一定数量的采样点。空间内插方法比较(空间统计学)摘 要:空间内插可以分为几何方法、统计方法、空间统计方法、函数方法、
7、随机 模拟方法、物理模型模拟方法和综合方法。介绍了每一种方法的适用范围、算法和优缺点。指出没有绝对最优的空间内插方法,必须对数据进行空间探索分析,根据数据的特点,选择最优方法;同时,应对内插结果做严格的检验。开发通用空间内插软件、 智能化内插以及加强相关基础研究将是空间内插研究的重点。 1 空间内插 根 据已知地理空间的特性探索未知地理空间的特性是许多地理研究的第一步,也是地理学的 基本问题。常规方法无法对空间中所有点进行观测,但是我们可以获得一定数量的空间样本,这些样本反映了空间分布的全部或部分特征,并可以据此预测未知地理空间的特征。在这 一意义上,空间内插可以被定义为根据已知的空间数据估计
8、(预测)未知空间的数据值。其目标可以归纳为:缺值估计:估计某一点缺失的观测数据,以提高数据密度;内插等值线:以等值线的形式直观地显示数据的空间分布;数据格网化:把无规则分布的空间数 据内插为规则分布的空间数据集,如规则矩形格网、三角网等。 空 间内插对于观测台站十分稀少,而台站分布又非常不合理的地区具有十分重要的实际意义 。这些地区的常规观测常常不能满足要求,在这种情况下,利用有限的常规观测估计合理的空间分布,或尽可能地提高数据密度就成为迫切要求。在这些方面,缺值估计和数据格网化 将发挥重要的作用。 (1) 缺值估计。各种科学考察中形式多样的短期观测是提高数据观测密度的重要方式, 无形中起到了
9、加密台站的作用;而且由于这些考察常常到达人迹罕至的高海拔和极地等区域 ,有助于了解区域内观测变量的完整空间分布。但是,这些观测序列往往很短,短则数十天,长不过几年。如何利用周围台站的长序列观测资料和短期观测本身的信息,将观测变量插 补到长序列是一个重要问题。 (2) 数据格网化。规则格网能够更好地反映连续分布的空间现象,并对他们的变化作出模拟。现代地球科学模型和气候模型,如GCM(一般环流模型),都要求与GIS数据模型和遥 感数据高度兼容的空间数据集。格网化的数据,尤其是规则矩形格网,已成为目前地学模型 的主要数据形式。因此,对已知观测台站的观测数据进行空间内插,得到格网化数据是模型的第一步。
10、 空间内插一般包括这样几个过程:内插方法(模型)的选择;空间数据的探索分析,包括对数据的均值、方差、协方差、独立性和变异函数的估计等;内 插方法评价;重新选择内插方法,直到合理;内插。 因此,通过比较而选择一个合用的、适合于数据空间分布特点的内插方法是空间内插的关键 。本文将空间内插分类为几何方法、统计方法、空间统计方法、函数方法、随机模拟方法、物理模型模拟方法和综合方法,通过比较研究,指出每一种方法的适用范围、算法和优缺点 。 2 空间内插方法比较 空间内插可依据:确定或随机;点与面;全局或局部等标准分类。本文依据内插方法的基本假设和数学本质,把空间内插分类为以下几种方法。 2.1几何方法
11、是 最简单的空间内插方法。几何方法基于“地理学第一定律”的基本假设,即邻近的区域比距离远的区域更相似。几何方法的优点是计算开销少,具有普适性,不需要根据数据的特点对方法加以调整。当样本数据的密度足够大时,几何方法一般能达到满 意的精度。几何方法的最大问题是,无法对误差进行理论估计。最常用的几何方法有泰森多边形(最近距离法)和反距离加权方法。 2.1.1泰森多边形(最近距离法) 泰森多边形用于生成“领地”或控制区域。实际上,尽管泰森多边形产生于气候学领域,它却特别适合于专题数据的内插,因为它生成专题与专题之间明显的边界,不会有不同级别之间的中间现象。泰森多边形的算法非常简单,未采样点的值等于与它
12、距离最近的 采样点的值。 2.1.2反距离加权方法 反距离加权法是最常用的空间内插方法之一。它认为与未采样点距离最近的若干个 点对未采样点值的贡献最大,其贡献与距离成反比。可用下式表示: (1) 式中,Z是估计值,Zi是第i(i=1,n)个样本,i是距离,p是距离的幂,它显著影响内插的结果,它的选择标准是最小平均绝对误差。Husar等的研究结果表明,幂越高,内插结果越具有平滑的效果。 2.2统计方法 其 基本假设是,一系列空间数据相互相关,预测值的趋势和周期是与它相关的其它变量的函数。统计方法的优点是计算开销不大,有一定的理论基础,能够对误差作出整体上的估计。 但是,其前提是一定要有好的采样设
13、计,如果采样过程不能反映出表面变化的重要因素,如周期性和趋势,则内插一定不能取得好的效果。常用的统计方法有趋势面方法和多元回归方法。 2.2.1趋势面 趋势面根据有限的观测数据拟合曲面,进行内插。它适用于:能以空间的视点诠释趋势和残差;观测有限,内插也基于有限的数据。当趋势和残差分别能与区域和局部尺度的空间 过程相联系时,趋势面分析最有用。 趋势面方法可以被定义为: y=A+e (2) 式中,y是n1维矩阵,对应于n个样本;A是n个样本的坐标矩阵;是趋势面参数矩阵。A和依赖于趋势面的次数。趋势面的次数是它最重要的特征。 e是残差,通常是一个独立随机变量。当残差是随机独立时,统计检验有效;但实际
14、上,趋势面中的残差常是自相关(特别是趋势面的次数较低时),因此,检验是显著有偏差的。残差的空间自相关可以用随机过程模型模拟。 由于趋势面的以上特性,它的目标有时并非最佳拟合,而是把数据分成区域趋势组分和局部的残差。 2.2.2多元回归 在各种统计方法中,使用较多的是回归分析,其特点是不需要分布的先验知识。 多 元回归在数学形式上与趋势面很相似,但是,它们又有着显著的不同。首先,在趋势面分析中,A是坐标矩阵,而在回归分析中,它可以是任意变量。其次,在趋势面方法中,模 型的拟合严格地遵从自常数、一次、二次、立方等的顺序,主要的问题是确定模型的次数, 因此,趋势面分析有内在的多重共线性问题;而在多元
15、回归中,尽管也存在多重共线性,但它并非内在的,可以通过逐步回归解决,因此,相对于趋势面的选择次数,多元回归的核心 问题是选择变量(主成分分析等方法有助于选择变量)和区分模型。 2.3空间统计(Geostatistics)方法 空间统计又称地质统计学,于20世纪50年代初开始形成,60年代在 法国统计学家Matheron的大量理论研究工作基础上逐渐趋于成熟。其基本假设是建立在空间相关的先验模型之上的。假定空间随机变量具有二阶平稳性,或者是服从空间统计的本征假设(in trinsic hypothesis。则它具有这样的性质:距离较近的采样点比距离远的采样点更相似,相似的程度、或空间协方差的大小,
16、是通过点对的平均方差度量的。点对差异的方差大小只与采样点间的距离有关,而与它们的绝对位置无 关。空间统计内插的最大优点是以空间统计学作为其坚实的理论基础,可以克服内插中误差难以分析的问题, 能够对误差做出逐点的理论估计;它也不会产生回归分析的边界效应。缺点是复杂,计算量大,尤其是变异函数(variogram)是几个标准变异函数模型的组合时,计算量很大;另一 个缺点是变异函数需要根据经验人为选定。空间统计方法以Kriging及其各种变种(Cokri ging等)为代表。 2.3.1Kriging内插 (1) Kriging内插的公式 Kriging内插由南非地质学家Krige发明,并因此而命名。
17、Matheron给出了Kriging的一般公式。Kriging内插的公式为: (3) 式中,z(xi)为观测值,它们分别位于区域内xi位置;x0是一个未采样点;i为权,并且其和等于1。即 (4) 选取i,使z(x0)的估计无偏,并且使方差DD(-*2DD) 2e小于任意观测值线形组合的方差。 最小方差由下式给定: (5) 它由下式得到: (6) 式中,(xi,xj)是z在采样点xi和xj之间的半方差(semi-variance),(xj,x0)是z在采样点xi和未知点x0之间的半方差,这些量都从适宜的变异函数得到。是极小化处理时的拉格朗日乘数。 估计半方差是一个较为复杂的过程,这一过程称为空间
18、数据探索分析(ESDA)。 (2) 空间数据探索分析(ESDA) 对于Kriging内插而言,空间数据探索分析的目标是建立半方差(h)和点对之间的空间距离h之间的关系,即变异函数。 由于空间统计的本征假设可以表示为以下两个公式: 任意两个距离为h的两点间的差值的数学期望为0: EZ(x)-Z(x+h)=0 (7) 任意两个距离为h的两点间的差值的方差最小: VarZ(x)-Z(x+h)=E(x)-(x+h)2=2(h) (8) 因此,由下式估计半方差(h): (9) 这 一关系即变异函数。它提供了内插、优化采样的有用信息。Kriging内插的第一步是 根据样本找到适合的变异函数理论模型。最常用
19、的变异函数模型有:nugget、球面、指数、 高斯、阻尼正弦、幂和线形模型。其中,前几种模型在一定的范围内达到极大方差,而线形 模型的方差增长没有极限。以下是几种基本变异函数的形式,这些变异函数的特性分别是: Nugget模型缺乏空间相关。 球面模型空间相关随距离的增长逐渐衰减,当距离后,空间相关消失。 指数模型空间相关随距离的增长以指数形式衰减,相关性消失于无穷远。表示距离,在此距离上95%的变量的可变性趋于稳定。 高斯模型空间相关随距离的增长而衰减,相关性消失于无穷远。曲线起始一段的形状是抛物线,表示变量的空间变化非常平滑。 阻尼正弦模型阻尼正弦模型适宜于周期性变化的空间变量,但其变化强度
20、随距离的增长而衰减。表示周期。 线性模型空间可变性随距离的增长而呈线性地增长,不会在某一距离稳定下来。 变异函数的形式是内插质量的关键。需要注意的是,由于不同的区域有不同的空间模式,因 而也就有不同的变异函数。而空间内插都有一个隐含的假定,即空间是连续的,因此,在选择变异函数模型之前,检查数据以确定空间连续性是十分必要的。 2.3.2Cokriging内插 Cokriging (共协kriging)内插的基本原理与Kriging相同,但它通过考虑一个以上变量而优化估计;内插由于考虑了变量之间的关系而得到改善。例如,在估计温度、降水等气候变 量时,海拔高度是附加的重要变量。Cokriging内插
21、包括以下过程:确定多个观测值之间 空间相关的特征;借助于变异函数和交叉变异函数(crossvariogram),对相关建模; 利用这些函数估计内插值。 除公式(7)、(8)外,Cokriging引入一个新的假定,即两个变量之间差值的方差最小。 VarZ(x)-Zk(x)=2k(h) (10) 式中,Zk(x)是与估计值Z(x)相关的第k个变量。 Cokriging 中引入交叉变异函数,它是两个不同变量之间的相关随距离变化的函数。它与简单 变异函数不同,前者的形式是方差,因此总为正或零;而后者的形式为协方差,因此可以为 正、负或零。如果两个变量向相反的方向变化,交叉变异函数为负;如果两个变量的变
22、化相独立,交叉变异函数为零。 交叉变异函数的形式为: (11) Cokriging内插的关键是估计交叉变异函数,以分析变量自身以及变量之间的空间相关。Cokriging的其它过程都是与Kriging一致的。 2.4函数方法 是 使用函数逼近曲面的一种方法。函数方法在空间内插领域大多用于一些特殊场合,如利用 高密度的高程数据产生等高线、为提高格网数据的空间分辨率而内插数据等。对于利用有限的观测数据进行缺值预测和内插格网,函数方法多不适合,因为它难以满足内插的精度,也 难以估计误差。函数方法的特点是不需要对空间结构的预先估计、不需要做统计假设。缺点是难以对误差进行估计,点稀时效果不好。常用的函数方
23、法有:傅里叶级数、样条函数、双线性内插、立方卷积法等。 2.4.1傅里叶级数 对于周期性的数据序列,如海浪,可以利用傅里叶级数将它们分解为正弦波和余弦波。 2.4.2样条函数方法 样 条函数是使用函数逼近曲面的一种方法。样条函数易操作,计算量不大,它与空间统计方 法相比具有以下特点,不需要对空间方差的结构做预先估计;不需要做统计假设,而这些假设往往是难以估计和验证的;同时,当表面很平滑时,也不牺牲精度。样条函数适合于非常平滑的表面,一般要求有连续的一阶和二阶导数;它适合于根据很密的 点内插等值线,特别是从不规则三角网(TIN)内插等值线。 样条函数的缺点是难以对误差进行估计,点稀时效果不好。样
24、条函数的种类很多,最常用的有B样条、张力样条和薄盘样条等。 2.4.3双线性内插 双线性内插和立方卷积法都主要用于网格数据的内插(重采样),一般很少用于根据离散 数据内插空间分布。它使用与待估计网格距离最近的4个网格值,线性内插获得新的网格值 。双线性内插方法的优点是数据重采样后的结果较为平滑,没有阶跃效应, 同时具有较高的精度。缺点是网格被平均化,具有低频滤波的效果;边缘被平滑,有些极值丢失了。 2.4.4立方卷积法 是 最常使用的网格数据内插方法之一。它使用与待估计网格距离最近的16个网格值,根据立方卷积公式计算输出。立方卷积公式有几个不同版本,有的产生低通滤波的效 果,有的产生高通滤波的
25、效果,较好的方法应该在高频信息和低频信息的取舍间取得平衡。 立方卷积法的优点是采样结果的统计信息(均值和方差)与原数据的相似程度比其他采样方法高。缺点是数据值被改变,因此不能用于类型数据(专题图)的内插。立方卷积法特别适 宜于显著改变了网格尺寸,但要保持原数据统计特性的数据内插,如数字高程数据的重采样。 2.5随机模拟方法 其基本假设 与空间统计方法不同,随机模拟认为地理空间具有非平稳性,是空间异质的。它通过空间分布现象的可选的、等概率的、数值表达(地图)来对空间不确定性建模。对应不确定性,可以接受可选的多个答案。与空间统计方法不同,随机 模拟方法不是产生唯一的估计结果,它产生一系列可选的结果
26、,它们都与实际数据一致,而 且相关模型将它们联系起来。随机模拟方法的最大优点是定义了各种随机变量之间的空间相关,这类相关可以根据相邻数据把高度不确定性的先验分布更新为低不确定性的后验分布。 缺点是建模困难,计算量大。常用的随机模拟方法有高斯过程、马尔科夫过程、蒙特卡罗方法、人工神经网络方法等。 2.6确定性模拟 其 基本假设是变量的空间分布受物理定律控制,因此,可以使用物理模型或半经验、半物理 的模型模拟空间分布。对于这一类内插,常常是使用有限的观测值获得一些必须的经验参数,再把这些参数代入到物理模型之中。典型的例子是,GCM是一个纯物理模型,但它的参数 化使用了经验方法。在山区气候变量的内插
27、过程中,也大量使用这种方法。确定性模拟的最大优点即它的确定性,它不依赖或很少依赖观测样本。但空间现象是否可以被确定性地预测以及我们是否可以持这一乐观的信念十分值得怀疑。 2.7综合方法 是以上几种方法的综合。对于空间变量,一般能够用不同的方法分别对结构化变量、随机变 量和观测误差(残差)建模。王劲峰把空间变量分解为: 空间变量=趋势+周期+随机+噪声 (12) 并分别用统计方法、谱函数、人工神经网络和随机过程建模描述相应的成分。 综合方法还适宜于能够得到辅助性数据,如遥感数据的场合。通过从辅助性数据中提取空间 模式,在合理的数据结构,如四叉树的支持下,划分空间同质的区域,从而逼近最佳的预测值。
28、 3结论与建议 3.1结论 (1) 空间内插可依据其基本假设和数学本质分类为:几何方法、统计方法、空间统计方法 、函数方法、随机模拟方法、物理模型模拟方法和综合方法。 (2) 空间内插是极为重要的GIS空间分析方法。对于观测台站稀少,而测点分布又极不合理的地区,空间内插是研究这些区域空间变量空间分布的基本方法,是建立空间模型的前提之一。 (3) 空间数据探索分析是分析地理数据的重要工具,它的一个重要目标是估计空间变量的 变异函数。变异函数反映空间相关随距离变化的特征,可以用几个基本变异函数模型描述。根据变异函数,可以判断数据是否具有平稳性,是否符合空间统计的本征假设。 (4) 本文比较了主要的
29、空间内插方法,分析了各种方法的假设、适用范围、算法和优缺点 ,并且重点介绍了空间统计方法。必须指出,对于众多的空间内插方法而言,没有绝对最优的空间内插方法,只有特定条件下的最优方法。因此,必须依据数据的内在特征,依据对数 据的空间探索分析,经过反复实验,选择最优的空间内插方法。同时,应对内插结果做严格的检验。 3.2对空间内插研究的建议 (1) 开发通用空间内插软件。空间内插是地理学的基本问题,也是GIS重要的空间分析方法。但现有的GIS软件中包括的空间内插方法都很少,如ARC/INFO中只有趋势面、Kriging和 一些特定用途的函数方法,而且它们的界面不友好,难以使用。因此,应开发具有以下
30、特 点的通用空间内插软件:包括尽可能多的空间内插例程;智能化的人机界面,提供友好 的人机界面,通过一系列有关用户意图、目标和数据特性的问题,引导用户,使用户选择最适宜的方法;良好的数据库接口,与GIS的兼容性。利用ODBC(开放数据库互联)等技 术手段从各种关系数据库中析取所需数据,生成与GIS兼容的空间数据和属性(表)数据。 (2) 智能化。智能化的一个目标是减少内插中的主观性。例如,变异函数模型的选择具有 很大的经验成分,变异函数的拟合往往是依据经验,反复实验的结果。应通过人机交互减少这种主观性。智能化的另一个目标是通过人为干预,在内插中考虑非地带性因素的影响。如 地下水等埋深线是与河流平
31、行的,地质现象的内插必须考虑断层,人为干预可以对这些非区域化的因子建模。 (3) 加强基础研究。空间内插方法都建立在一定的假设基础上,这些假设都有一定的局限 性。在这些假设中,我们往往回避的是空间不连续性和空间异质两个问题,如何将地理空间分解为不同区域?分区后是否存在界面处的不连续现象?如何对空间异质的区域建模都是亟 需回答的重要问题。4.6 空间数据的插值方法 在已观测点的区域内估算未观测点的数据的过程称为内插;在已观测点的区域外估算未观测点的数据的过程称为外推。空间数据的内插和外推在GIS中使用十分普遍。数字高程模型(DEM),也称数字地形模型(DTM),是一种对空间起伏变化的连续表示方法
32、。一、空间数据的插值 在已观测点的区域内估算未观测点的数据的过程称为内插;在已观测点的区域外估算未观测点的数据的过程称为外推。空间数据的内插和外推在GIS中使用十分普遍。一般情况下,空间位置越靠近的点越有可能获得与实际值相似的数据,而空间位置越远的点则获得与实际值相似的数据的可能性越小。下面介绍一些常用的内插方法:边界内插、趋势面分析、局部内插和移动平均法。局部内插包括线性内插、双线性多项式内插、和双三次多项式(样条函数)内插。二、数字高程模型(DEM)的生成 数字高程模型(DEM),也称数字地形模型(DTM),是一种对空间起伏变化的连续表示方法。由于DTM隐含有地形景观的意思,所以,常用DEM,以单纯表示高程。DEM有许多用途。DEM的表示方法有拟合法、等值线、格网DEM和不规则三角网DEM(TIN)。
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100