资源描述
学号________________
密级________________
武汉大学本科毕业论文
地图数据的分级方法研究
院(系)名 称:XXX XXX
专 业 名 称 :XXX XXX
学 生 姓 名 :X X X
指 导 教 师 :XXX 教授
郑 重 声 明
本人呈交的学位论文,是在导师的指导下,独立进行研究工作所取得的成果,所有数据、图片资料真实可靠。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果不包含他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确的方式标明。本学位论文的知识产权归属于培养单位。
本人签名: 日期:
摘 要
分类分级是人们揭示空间关系的一种方法。本文以制图信息理论为指导,根据专题地图分级表示方法的特点,在地图数据的分级方法方面,探讨了地图的分级问题。首先分析了影响地图分级的因素,通过介绍地图分级的原则引出分级数的确定和分级界限的确定应该遵循的原则和要求。通过对已有的数据分级方法及分级模式进行分析总结,从传统分级方法和现代分级方法两方面进行分析汇总,提出地图数据分级处理的流程。
关键字:地图;数据分级;方法
Abstract
Classification and grading is a methods that Reveal spatial relationships. This text the cartographic information theory as the guidance, Characteristics of methods classification of according thematic map, In terms of classification method of map data, Discusses the classification of map problem. First analyzes the factors that affect the classification of maps, by introducing theprinciples of map classification leads to classification determination of the determination of the number and grade boundaries should be guided by principles and requirements. By the classification and categorization of models existing data were analyzed, From traditional grading method and modern classification of analysis summary, Proposed map data classification Processing processes.
Key words: map;data classification;method
目 录
第一章 研究背景及意义 5
1.1 研究背景 5
1.2 研究现状 5
1.3 研究意义 6
第二章 地图数据分级相关理论 7
2.1 影响分级的因素 7
2.2 分级的原则 7
2.2.1 科学性原则 7
2.2.2 体现专题信息分布特征 8
2.2.3 分级的基本原则是各种分级方法的基础 8
2.3 分级数的确定 8
2.4 分级及界限的确定 9
第三章 分级方法 11
3.1 传统分级方法 11
3.1.1 级数分级 12
3.1.2 数列分级 12
3.2 现代分级方法 13
3.2.1 分位数分级 13
3.2.2 逐步聚类分级 13
3.2.3 最优分割分级 14
3.2.4 模糊聚类分级 14
3.3 分级结果的检验 15
参考文献 16
第一章 研究背景及意义
1.1 研究背景
随着专题地图应用范围的扩大与内容的不断深化,给地图提出了由定性转向定量分析脚新要求。随着计算机技术对地图制图学的作用越来越明显,一些现代数学模型、数学方法也在其中发挥了越来越重要的作用,为解决地图制图数据的广泛性和复杂性提供了依据。制图人员要把大量的描述专题要素空间分布的统计数据编制成为具有高度科学性和符合用途要求的地图,使区域分布特征和各要素的相互关系变得更加直观,必须使用分级表示法。分级方法是地图数据处理特别是专题地图数据表达和分析中的一种重要方法,分级表示法实质上是统计学和地图学结合的产物,分级的数据处理测重于统计学方面的工作,涉及到广泛的数据处理方法,包括对数据的排序和统计分析,分级数和分级界线的确定以及作为视觉变量模拟的基础代表值的获取等。科学分级能够正确显示信息空间的分布的特征,真实地反映专题现象的实际分布规律。因此,要编制分级统计地图,必须对统计数据进行科学合理的分级。
1.2 研究现状
制图要素的分级方法,一直是制图学界关注的问题之一。六十年代以前,制图人员一般仅从具体问题出发,在分级数确定的前提下,借助某一种数列或级数来获取规则的分级界限或分级间隔;七十年代以后,随着计算机的广泛应用,制图学者纷纷将大量数学方法引用到制图要素的分级中,取得了很大进展。
关于分级算法的研究在不断地改进和发展,为专题数据处理和专题制图的发展起了很大推动作用,但目前专题数据分级处理研究还存在一些问题:①分级处理关系分级数和分级界限2个方面,至今为止的研究几乎都是围绕分级界限的确定,忽视了分级数对分级质量影响的研究;②在确定分级模型时,注重对数据客观分布规律的研究,忽视数据空间特征等其他因素。
1.3 研究意义
原始数据不能直观地反映: a现象在空间分布上的规律性;b由于数量差异而产生质量差异感、特殊的水平或集群性。数据一旦分级,级内数据的数量差别消失,造成一些信息损失,但是,它也为读者提供了更加直观的信息,把同质区域作为一个等级表达出来,提供集群概念。分级的重要任务:找出关键的临界值,增强同级间的同质性和各级间的差异性
当前信息渠道畅通、信息资源丰富,普通用户利用感兴趣数据参与制图的热情日益高涨,专题地图设计制作呈现出大众化趋势。专题数据分级处理作为专题地图制作的重要数据处理方式,很多时候直接影响着制图结果。许多研究表明,未经分级而制图的数据所表现的地理分布特征缺乏特定的意义,当数据分成具有规律性的各级时,其信息传递能力大大增强。因此如何让普通用户选择合适的数据分级方法,快速准确地进行数据处理,是实现普通用户简便合理制图的重要任务。
第二章 地图数据分级相关理论
2.1 影响分级的因素
地图的目的、用途不同,对统计数据要求的统计精度也不同。因此,地图的目的和用途对分级有重要影响,无论怎样分级,都应满足地图统计精度的要求,然后在此条件下,尽可能选择较少的分级数,使地图有较高的易读性。其次,地图的比例尺对分级也有重要影响,如果比例尺增大。制图单元扩大,可利用的视觉变量的变化范围也增大,那么,适当地增加分级,也不会影响地图的易读性。
专题信息数据的学科分级及数据的客观分布特征对分级也有很大影响。一味追求地图的美观易读和数据的分布特征,而忽视统计数据的学科分级,做出的地图是没有任何科学性的。如在省区的土壤制图中,有效铜含量的全国统一分级为≤0.10Ppm,0.11-0.20PPm,0.21一1.00PPm,1.01-1.80PPm,>1.80ppm五级,而山西省的土壤有效铜含量范围在0.11-7.20ppm之间。在作图分级时,不能因为山西省无第一级而将第二级作为第一级,更不能按照数据的范围和分布进行其它任何种类的分级,而必须按照上述的五级划分制。除此之外,数据的空间分布特征也是分级时不可忽视的,传统的分级不是从统计学和制图学的结合来考虑分级的数据处理,而是完全从制图学的要求出发,凭经验和粗略的估计,用某种数列或级数来确定分级界线,甚至把所有的数据都看成为正态分布,将数据划分为中间多而两头少,或者只凭主观估计划分,掩盖了数据本身的规律和客观特征,这都是不可取的。
2.2 分级的原则
统计地图的目的在于将具有高度科学性和概括性的地图呈现给读者,使读者对于专题要素的分布特征和相互关系有一个直观的印象,便于读者分析其中的规律。因此,科学性和能体观专题信息分布特征是分级的重要原则。
2.2.1 科学性原则
许多专题要素都存在于一定的学科范围之内,在所在的学科范围之内质的差别都有固定的数值范围。在分级时,一定要注重质的指标,其次才能在同一量的范围内分级。如地面坡度图中,把3°视为平原的上限,8°为极缓坡的上限,8°-15°为缓坡,15°-25°为陡坡,25°-35°为极陡坡(不利于农业耕种),35°以上则不能耕种,如需细分,也只能在这一范围内,而不能跨过界限值。
2.2.2 体现专题信息分布特征
在没有固定学科的固定分级时,要照顾到专题信息的分布特征。比较简便的就是应用统计学上的聚类分析法,然后依习惯略作调整。值得注意的是,依照有些习惯的分级方法比单纯地体现专题要素的分布特征更为重要,这一点在下文中将有详细例论。
2.2.3 分级的基本原则是各种分级方法的基础
(1)客观反映数据的分布特征,以数据的集群性作为分级数的重要依据
(2)分级界限应该在数据变化显著特征上,使各级内部差异尽可能的小,等级之间的差异尽可能大
(3)分级的结果:一般是中间级别包含的单元多,两端级别包含单元较少。也有要求分级单元数近似相等
(4)根据地图的用途和要素特征,要保留个别的特征级别和分级界限
(5)为了用途的方便,应适当地保持凑整地分级界限
(6)对于离散分布的现象,且物理个数不多,相邻级别的分级界限可以断开;对于连续分布现象的分级,其界限必须是相互连接的,并要正确处理分级点的所属关系。
2.3 分级数的确定
分级,实际上是简化数据的一种综合方法。从统计学的角度讲,分级数越多,对数据综合程度就越小。从心理物理学的角度讲,人们在地图上能辩别的等级差别是非常有限的。对制图来说,一方面为了尽可能保持数据原貌,必须增加分级数;另一方面为了增强地图的易读性,又必须限制分级数。由于分级数目的多少是制图综合程度的主要反映,所以分级数的确定必须顾及地图的用途、比例尺、数据本身的特点及其它各种因素的影响。如果对任意给定的分级数都可定鱿地估计其综合程度.那么就可以在满足对地图统计精度要求的条件下,尽可能选择较少的分级数。
分级数是地图综合程度的主要反映,控制着地图的精确性。分级数越多,对数据的综合程度就越小,数值估计的精度会随着分级数的增加而提高,由分级产生的数值估计误差也越小;相反,分级数越少,综合程度越高,数值估计误差也越大。地图的比例尺越大,则地图视觉变量的变化范围也会随着增大,此时的分级数也可随之增加。由于人的肉眼在地图上所能辨认的等级差别是有限的,为了增加地图的易读性,必须尽量减少分级数;相反,为了尽可能地保持数据原貌,又必须增加分级数。分级数还应符合数据的分布特征,针对数据明显为聚群分布的应该以数据的聚群数作为分级数。除去上文所述的影响分级的几个因素外,还必须考虑人肉眼的视觉感受效果。在一般的地图上,7级以上为能用的最大分级数,以4-7级为比较适宜。
目前,制图数据的数据量非常大、类型多样化、处理复杂化,因此,数学模型法逐渐成为制图数据处理不可或缺的最有效的方法之一。
2.4 分级及界限的确定
分级界限的确定是分级问题最主要的方面,对在分级中能否保持数据特征起决定性作用,也直接影响到地图的科学性和实用性。分级界限的确定首先要考虑数据内容的学科分级或习惯分级,然后才能考虑其它影响因素,因为有些习惯分级是人们经过长期实践总结出来的,其中不乏科学性。如统计不同收入水平人数时,人均纯收入的分级为<150元,150-200元,200-300元,300-500元,500一800元,800一1000元和≥1000元,而不果用别的分级方法。因为150元以下是国家规定的贫困县标准,而200元以下是少民族的贫困县标准,再往上的,分教为习惯分法,但也体现出其一定的科学性:200一300元(或150一300元)墓本上为艰苦的收支平衡300一500元为收支平衡或略有结余,500一800元则有结余并稍富裕,800二1000元则为较富裕,1000元以上为富裕。当然,这是相对于目前的经济水平和大范围的省(区)、县(区)来说的,若对较富裕的拭市或地区,再用这个分级就未免不妥。同样,随着社会的发展,人民收入水平的提高,这种分级方法可能就会被新的分级所代替。
其次,为了保持数据特征,分级界限必须与数据的实际范困相一致,任何一个等级内必须有数据.任何一个数据必须有相应的等级。如果数据的粱群性显著,应以一定范圈内的数据最大值和最小值适当凑整后作为此级的上下限,而不必顾及分级界限的连接性。对于个别极不合群的特殊数据,也可特殊处理,如对于下列一组数据:1、2、3、4、5、22、23、24、31、32、33、37、39、40、159。根据其分布特征,可分为五级:1一5,21一25,31一35,36一40,159;也可分为四级:1一5,21一25,31一40,159(视具体情况而定)。这里分极界限并不完全连接,而且将159作为单独一级处理,反映了数据的客观特征。如若硬将其界限相连,不仅很困难,也很难反映数据真实分布特征。
图例是整幅地图分级表示法的缩影,要反映出地图上出现的每一个等级,分级和分级符号之间要建立起良好的对应关系,平体现分级表示法的基本思想。在实际工作中,由于数据的差异不同,有时过大,有时过小,符号的大小不可能实现同样幅度的变化,这时就不必拘泥于刺激和感受关系的要求,视觉变量的变化范围选择在读者容易察觉和易于辨别的范围内即可。
将制图对象中,有最大相似程度的现象聚合为类,反映呈地域分布的地理现象的特征,从而编制各种类型图或区划图。
第三章 分级方法
分类是人们认识事物的一种方法,是将具有共同属性特征的事物归并在一起,分类是人们认识事物的一种方法,是将具有共同属性特征的事物归并在一起,二把具有不同属性特征的事物分开的过程。同属性特征的事物分开的过程。分类中最常用的方法是层次分类法。分类中最常用的方法是层次分类法。层次分类法是将初始的分类对象按所选定的若干个属性或特征一次分成若干层目录,层次分类法是将初始的分类对象按所选定的若干个属性或特征一次分成若干层目录,并编 制成一个有层次、逐级展开的分类体系。其中,同层次类目之间存在并列关系,不同层次 类目之间存在隶属关系,同层次类目互不交叉、互不重复。层析分类法的优点是层次清晰,类目之间存在隶属关系,同层次类目互不交叉、互不重复。层析分类法的优点是层次清晰,使用方便;缺点是分类体系确定后,不易改动,当分类层次较多时,代码位数较长。使用方便;缺点是分类体系确定后,不易改动,当分类层次较多时,代码位数较长。
分级的实质是认识事物群体特征的一种概括,对各种专题数据进行分级、处理,并选用相应的表示方法制成专题图。分级方案的优劣、直接关系着地理信息传输的科学性,要获得优化的分级方案,必须运用科学的分级定量标准和合理的分级方法。分级有利于揭示现象的分布、发展变化规律。定点符号法、动线符号法、统计图表法、等值区域法和等值线法等表示的专题地图,都需对庞大的数据群进行分级常丽君,梁红 . 制图数据的模糊分级模型研究 [J]. 地理与地理信息科学,2010,26(1):52-53
。
3.1 传统分级方法
制图要素的分级方法,一直是制图学界关注的问题之一。六十年代以前,制图人员一般仅从具体问题出发,在分级数确定的前提下,借助某一种数列或级数来获取规则的分级界限或分级间隔。
传统分级方法:数列分级方法和级数分级方法由于仅仅依据分级数据的最大值、最小值和分级数就可以确定分级界限,所以把各种数列和级数分级方法称为传统分级方法。传统分级方法既适合于绝对数量的分级,也适合于相对数量的分级;既适合于点状分布要素,也适合于线状和面状分布要素。
3.1.1 级数分级
当人们关注的重点是分级间隔的变化时,就需要考虑使用级数分级法。级数分级方法的特点是直接求得分级间隔,制图数据处理中的传统级数分级方法主要由以下两种:
(1)算术级数分级
Bi=a+(i-1)d
其中,Bi为分级间隔,a为首项的值,d为公差。
(2)几何级数分级
Bi=gri-1
式中g为第一个非0的值,r为公比,i=1,2,…,K+1
上两式中d和r的不同取值可以得到无数种级数分级。
3.1.2 数列分级
数列分级的分级界限时某种数列中的一些点,一旦选定了某种数列,则分级界限完全取决于数据的最大值、最小值和分级数。数列分级有等差数列分级、等比数列分级以及倒数数列分级三种方式。设H为数列的最高值,L为数列的最低值,Y为级差基数,Bi为某级所需级差基数的倍数值。
(1)等差数列
(2)等比数列
(3)倒数数列
(4)方根数列
上面各式中,i=1,2,…,K+1。
对数列分级,分级界限时某种数列中的一些点,一旦选定了某种数列,则分级界限就完全取决于数据的最大值、最小值和分级数,因此,数列分级是直接求得分级界限的。在采用的级差为算术级数或者几何级数时,也可以采用以下的六种变化方法来确定分级间隔:①按某一恒定的速率递增②按某一加速递增③按某一减速度递增④按某一恒定速率递减⑤按某一加速递减⑥按某一减速度递减
在采用的级差为算术级数或者几何级数时,也可以采用以下的六种变化方法来确定分级间隔:①按某一恒定的速率递增②按某一加速递增③按某一减速度递增④按某一恒定速率递减⑤按某一加速递减⑥按某一减速度递减
传统分级方法的优点是:计算简单,分级界限的变化有规律可循,便于读者理解和进行对比分析。它的主要缺点是:分级界限的确定脱离数据分布特征,造成对原始数据信息的某种歪曲。
3.2 现代分级方法
七十年代以后,随着计算机的广泛应用,制图学者纷纷将大量数学方法引用到制图要素的分级中,取得了很大进展。然而,传统的数列、级数分级方法,由于其所产生的分级界限有规律地变化,而且应用领域较广,从总体上仍具有其它方法无与伦比的优势。现代分级方法是统计学引入到制图学中,特别是计算机在制图学中得到应用后发展起来的。这类方法在确定分级界限时,常常要对数据进行统计分析,而且有些分级界限的确定直接以一些统计量为基础。与传统的分级方法相比,这类方法确定的分级界限都是不规则的。
3.2.1 分位数分级
分位数分级法是按某种变量系统确定分级间隔的分级方法的一种。该方法产生不规则的变距。分位数分级界限的形成保证每级中数据的个数相符,但目前等级划分方法大多是由研究者主观决定,若分界点选择不当,其模型预测效果便会受到影响,甚至会影响到研究结论的正确性,并最大限度地降低分级界限的重要性。
3.2.2 逐步聚类分级
该方法在算法上吸取了逐步聚类法中“逐步聚类”的思想,根据样品的相似性,将样品归为若干类,使每类的个体之间具有较密切的关系,而各类之间的关系相对地比较疏远。该思想恰好符合确定分级的一般原则,因而考虑用聚类分析的方法来确定分级
3.2.3 最优分割分级
最优分割法适用于样品间围绕均值以不同分散程度分散的有序样品间的分级,专题要素的分级,往往采用等差、等比等分级方法;然而,这些方法带有较多的主观性,分级精度难以得到保证。基于如何将数值接近的数据聚合一起,形成一个集合,使每一集合内部的数值差别尽可能地小,不同集合之间的数值差别尽可能地大这一基本原则,以此为基础,探索出了最优分割分级法。最优分割法是在有序样本不被破坏前提下,使其分割的级内离差平方和为最小而级间离差平方和达到极大的一种分级方法,它可以用来对有序样本或可以变为有序的样本进行分级。极差分割是一种计算简单、计算量较小的分级方法,但其分割数(分级数)存在很大的不确定性,不利于分类分级处理。
最优分割分级法的基本原则是:n个数据按大小顺序排列后,有n-1个“空隙”,当分成K-1个分级界限。因此,n个数据被分成K个等级有种可能的分法。计算每种分法,找出使误差函数达到最优的分级方法为最优分级方案。选择变差总和最小的分级结果即这 n 个有序排列数据的最优二分割。在此,取级内离差和为误差函数,其中Yj(1),Yj(2)为第j级内数据下界和上界的下标。
3.2.4 模糊聚类分级
模糊聚类法是用模糊数学方法来处理分类的一种方法。根据逐步聚类法确定分级的基本思想,按照数据之间的相似程度确定分级时,一个数据属于哪个等级并不是绝对的,这样分级伴随着一定的模糊性,因而用模糊聚类法分级就跟切合实际。
聚类分析是按一定原则研究事物分类的一种多元统计分析方法,它根据样本的多指标、多个观察样品、定量的确定样品、指标之间的相似性和亲疏关系,其目的是对空间物体的集群性进行分析,将其分为几个不同的子群(类)。子群的形成是GIS运作的结果,根据此可揭示某种地理机制。
模糊聚类的思路:设有待分类的样本集X={x1,x2,…,xm},其中m为样本容量,样本可以是任何一个待分类专题数据集。模糊混合聚类法的基本思想是:先将待分类的样本X按模糊聚类最大矩阵元原理选择合理的初始分类数,然后根据最小二乘法最优准则与模糊决策原理进行修改.直至得到最优分类为止。
多聚类方法的做法是;对n个子群,首先选择最近的两个子群(点)归为一个新的子群,这样就得到n- 1个子群,接下去重新计算n- 1个子群两两之间的聚类统计量,再得到n- 2个子群……,依次类推,直至满足所要求的分级数。
模糊聚类分级法依据逐步聚类法确定分级的基本思想,按照数据之间的相似程度确定分级时,一个数据属于哪一个等级并不是绝对的,而有一定的模糊性
计算步骤:数据排序、建立相似矩阵、相似矩阵转化为等价矩阵、由等价矩阵进行聚类分级。
模糊相似关系一定是满足自反性和对称性,但一般而言,它并不一定满足传递性,也就是说它不一定是模糊数学等价关系。因而,需要采用传递闭合的性质将模糊相似性关系通过自乘改造为模糊等价关系。
3.3 分级结果的检验
分级结果的检验:一般以以下两个标准来检验
(1)各级中样本数成正态分布或均匀分布
(2)同级区域的连通性
优良的分级应当使分级后产生的区域数相对较少,即连通性较大,通常用破碎指数来衡量:
m为分级后产生的区域数,n为地图上表示的单元总数
F=1 没有任何两个单元连通
F=0 所有单元连通为一个区域
0<F<1 一般情况
参考文献
[1] 李云岭.GIS多比例尺空间数据组织体系构建研究[J].地理与地理信息科学,2003,19(6):8-9
[2] 张世英,王违红. 最优分割法的适用性及一类有序样品的聚类方法[J].应用数学学报,1987,10(2):139-140
[3] 蔡畅,流川. 模糊聚类法在专题数据分级中的应用[J]. 测绘与空间地理信息,2008,31(6):11-12
[4] 何宗宜.地图数据处理模型的原理与方法[M].武汉:武汉大学出版社,2004:78-92
[5] 常丽君,梁红. 制图数据的模糊分级模型研究 [J]. 地理与地理信息科学,2010,26(1):52-53
[6] 李铭.专题地图统计数据分级的模式识别方法的研究[J].常德师范学院学报(自然科学版),2000,12(1):78- 81
[7] 郭庆胜,李留所.顾及空间自相关的统计数据分级质量评价[J]. 武汉大学学报:信息科学版,2006(3):240-243
[8] 江南,白小双,孙娟娟.基于多属性决策的统计数据分级评价模型[J].测绘学报,2007,36(2):198- 202.
[9] 余嘉元. 简化的最优分割法及其在心理学中的应用[J]. 南京大学学报:社会科学版,1993(1):46-48
[10] 姚宇婕. 引导型专题地图数据分级处理研究[J]. 测绘工程,2012,21(2):26-29
[11] 孙娟娟. 专题地图数据分级模型的研究[D]. 郑州:信息工程大学,2007
[12] 崔纪锋.统计专题地图的设计与实现[D].郑州:信息工程大学测绘学院,2005.
展开阅读全文