资源描述
空间数据挖掘
1.空间数据挖掘的诞生
1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念。它针对的一般是非空间数据,其研究和应用的成果势必对空间数据的利用造成影响,引导地球空间信息学向更深的层次发展。1994年,在加拿大渥太华举行的GIS国际学术会议上,李德仁院士首次提出了从GIS数据库中发现知识(knowledge discovery from GIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数据变成无限的知识,使GIS成为智能化的信息系统。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,又出现了数据挖掘(data mining,DM),后又相继出现了数据发掘、数据开采、数据采掘、知识提取、信息发现、信息收获、数据考古等。由于DM和KDD较为常用且难以分离,而且DM通常被认为是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤,即数据挖掘和知识发现(data mining and knowledge discovery,DMKD)。同时,李德仁院士也把KDD进一步发展为空间数据挖掘和知识发现,系统地研究或提出了可用的理论、技术和方法,并取得了很多创新性成果,奠定了空间数据挖掘和知识发现在地球空间信息学中的学科地位和基础。
2.空间数据挖掘的定义
空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间模式、普遍特征、规则和知识的过程。空间数据挖掘是一个交叉学科领域,受多个学科的影响,包括空间数据库系统、统计学、机器学习、模式识别、可视化和空间信息科学等。空间数据挖掘可用于对空间数据的理解、空间关系和空间与非空间数据间关系的发现、空间知识库的构造、空间数据库的重组和空间查询的优化等方面,在GIS、遥感、图像处理、导航等领域具有广阔的应用前景。
3.空间数据挖掘的特点
空间数据挖掘是空间信息技术发展的必然结果,是数据挖掘的一个特殊领域,不同于一般的事务或关系型数据挖掘。空间数据挖掘的内容比一般的数据挖掘丰富得多,所能发现的知识主要包括空间特征规则、空间区分规则、空间分布规律、空间分类规则、空间聚类规则、空间关联规则、空间演变规律、面向对象的知识和空间偏差型知识等。空间数据挖掘主要有以下特点:1)数据源丰富,数据量庞大,信息模糊,数据类型多,存取方法复杂;2)采用空间索引机制组织数据;3)应用领域十分广泛,与空间位置相关的数据都可以对其进行挖掘;4)挖掘方法和算法非常多,并且多数算法比较复杂;5)知识的表达方式多样化,对知识的理解和评价依赖于人对客观世界的认知程度;6)空间数据具有多尺度性、高维性,并且相互之间高度自关联。空间数据挖掘与通常的数据挖掘的主要区别见(表1)。
4.空间数据挖掘的主要方法分类
空间数据挖掘是多学科和多种技术交叉融合的新领域,汇集了人工智能、机器学习、数据库技术、模式识别、统计学、GIS、基于知识的系统、可视化等领域的相关技术,因而空间数据挖掘的方法很多。根据所采用的挖掘技术方法,可以将空间数据挖掘方法分为7大类:基于机器学习的方法、基于统计和概率论的方法、基于集合论的方法、基于图论的方法、基于仿生物学的方法、基于地球信息学的方法和基于计算机理论的方法(表2)。为了完成各种数据挖掘任务,需根据不同的问题采取不同的挖掘技术;为了发现某类知识,常常需要综合应用这些方法。
5.空间数据挖掘的体系结构与基本过程
5.1 空间数据挖掘的体系结构
数据挖掘的体系结构有多种,如通用数据挖掘原型、并行体系结构、多组件体系结构等,可将其扩展后用于空间数据挖掘。本文借鉴上述数据挖掘体系结构,提出一种新的空间数据挖掘体系结构(图1)。该空间数据挖掘系统大致分为4层结构:第一层是数据源,指利用空间数据库或空间数据仓库管理系统提供的索引、查询优化等功能获取的空间数据或非空间数据。第二层是空间数据挖掘系统,包括控制器、挖掘处理过程和初步发现的知识。挖掘处理过程是空间数据挖掘系统的核心,包括数据库接口、数据聚焦、模式提取和评估4个模块。其中,数据库接口是用户直接通过空间数据库或数据仓库管理工具交互地选取与任务相关的数据,并对查询和检索结果进行可视化分析和查询优化;数据聚焦是进行对象和属性抽取,得到用于模式识别的数据;模式提取主要运用统计学、机器学习、数据挖掘等技术发现规则和模式;评估是对挖掘的“知识”去除冗余信息。第三层是知识层,是知识的具体运用,如进行空间决策分析等,或将有用的知识通过知识库管理系统存人领域知识库,用于指导搜索或评估结果模式的兴趣度。第四层是用户界面,用多种方式(如可视化工具等)将获取的信息和发现的知识以便于理解的方式反馈给用户,用户也可以通过本地或网络控制空间数据挖掘的每一步。一般空间数据挖掘的多个过程相互连接,需要反复进行人机交互,才能得到令用户满意的结果。
5.2 空间数据挖掘的基本过程
空间数据挖掘的目标是把大量的原始数据转换成有价值的知识,挖掘过程一般可分为数据清理、数据集成、数据选择、数据变换、空间数据挖掘、模式评估、知识表示等阶段(图2)。数据清理是消除原始数据的噪声或不一致数据;数据集成是将多种数据源组合在一起;数据选择是根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据;数据变换是将数据统一成适合挖掘的形式;空间数据挖掘是运用选定的知识发现算法,从数据中提取用户所需的知识;模式评估是根据某种兴趣度度量并识别表示知识的真正有趣的模式;知识表示就是使用可视化技术和知识表示技术,向用户提供挖掘的知识。不难看出,空间数据挖掘实际上是一个人引导机器、机器帮助人的交互理解数据的过程。
6.可视化空间数据挖掘研究
6.1 可视化研究概述
可视化(Visualization)技术是指将描述自然、社会状况的数字、字符等信息转换为人类直观可视的图像,以从中洞察自然、社会本质的技术。它向人们提供一种方法和手段,即以人们惯于接受图形、图像并辅之以信息处理技术,将被感知,被认知、被想象、被推理、被综合及被抽象了的对象属性及其变化发展的形式和过程,通过形象化、模拟化、仿真化、现实化的技术手段表现出来,利用这种方法和手段人们可以观察人们所不能观察到的事务或概念,其目标是帮助人们增强认知能力。基于计算机的可视化技术不仅仅把计算机作为信息集成处理的工具,用计算机图形和其他技术来考虑更多的样本、变量和联系。它更是用户之间的一种交流媒介,在认知激励和用户认知之间建立起一个反馈环。可视化不仅是客观现实的形象再现,也是客观规律、知识和信息的有机融合。根据研究的对象、目的及方式的不同,可视化可以分为科学可视化、数据可视化、信息可视化、知识可视化。一般情况下,研究较多的可视化技术多指数据可视化。数据可视化是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,具有交互性、多维性和可视性三大特点。它拓宽了传统的图标功能,使用户对数据的剖析更加清晰,并可以控制数据分析过程。
人类的认知系统可以识别空间三维物体,对于抽象的物体或者像素的识别很困难。空间的可视性最多能够达到四维。目前,可视化方法研究主要体现在以下几个方面:1)空间三维图形:不同的图形元素的组合的变换映射为不同的数据维解释。把一个可视化空间结构和一条数据信息对应起来。通过图形的密度和颜色的分布,大致能够了解数据的分布、数据之间的相似性和数据之间的关系。2)颜色图:分为彩色图和灰度图。彩色图的每一种颜色,对应着不同的属性维,灰度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深,数值越大或者用它来强调某种特别的信息,它通常预先需要很好的映射定义。3)亮度:对于特定的区域,用不同的亮度来辅助人眼对视点的观察。4)数学的方法:利用数学中统计的方法,先对数据关系进行分析,得到数据的大体分布信息,然后再结合其他的可视化方法来进行细节数据分析。或者利用数学中统计的方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。目前,对可视化的研究多集中在多维数据可视化研究方面。任东怀等对多维数据可视化中采用的主要视图变换方法、目前主要的多维数据可视化技术(包括:Scatterplot Matri技术,几何图技术,图标技术、平行坐标技术、Hierarchy技术以及Treemap、Cone Trees等层次化技术等)以及主要的降维技术等进行了详细地阐述。
6.2 可视化空间数据挖掘
为了在数据挖掘过程中将人类的灵活性、创造力和通用的常识与计算机强大的计算和存储功能结合起来,从而将可视化技术应用到数据挖掘中,产生了可视化数据挖掘技术。因此,用户可以根据可视化的视觉反馈指导更快地研究数据的更多特性。数据挖掘中的可视化技术根据是否包括物理数据,可粗略地分为两类:科学计算可视化和信息可视化。科学计算可视化显示的对象涉及标量、矢量和张量等不同类别的空间数据,研究的重,点放在如何真实、快速地显示三维数据场。信息可视化研究的对象主要是显示多维的标量数据,研究的重点放在设计和选择合适的显示方式表示庞大的多维数据及其相互之间的关系,是从数据信息到可视化形式再到人的感知系统的可调节的映射。SDM针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境。在SDM中可视化对于知识发现和知识构建有两个显著的优点:提供,高度的交互功能,让用户比较自由地发挥自己的能动性,控制数据挖掘过程:提供丰富的可视化表现能力,从空间数据的各维,各角度同时展开分析,有利于用户更深入地理解问题和选用更适当的数据挖掘模型算法。
6.3 空间数据挖掘中可视化技术的应用
SDM的每一步流程均能够同可视化结合起来:包括数据选取过程、数据预处理、SDM算法的分析处理、SDM结果的解释和表达,可视化贯穿于SDM整个流程当中,可视化手段对于知识的提炼、整理和表现都至关重要。因此,将SDM过程置于可视化的环境之下,二者的结合促使数据挖掘经历一个数据可视化--挖掘算法的应用--挖掘结果的验证和可视化表达--挖掘算法的进一步改进和完善的循环往复的提高过程,可视化在其中扮演重要角色。目前SDM中可视化技术的应用主要体现在以下几个方面:
1)数据可视化。数据库和数据仓库中的数据可看作具有不同的粒度或不同的抽象级别,也可以看作是由不同属性和维组合起来的。数据能用多种可视化方式进行描述,比如盒状图、三维立方体、数据分布图表、曲线、曲面、连接图等,或者以上几种方法的任意组合,完成数据组织的可视化。数据分析的目的不同,采用的方法也不同。目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等。
2)挖掘过程的可视化。即指数据挖掘过程的各个环节用可视化的方式表现出来,用户可从中直观地看到内容,如:数据从哪个数据仓库或数据库抽取出来;数据怎样被抽取:所选择的数据是如何经过清理、预处理、集成和挖掘的;数据挖掘过程中哪种数据挖掘算法被选取:结果如何存储和显示的。这方面值得一提的是一个开源的数据挖掘软件产品--Weka,Weka用可视化的形式描述各种数据挖掘过程,用户可以看出数据是怎样清洗、转换和挖掘的。
3)挖掘模型的可视化。并不是每个用户都是数据挖掘方面的专家;用户事先也不知道数据挖掘能发现什么样的信息;有些模型很难被理解。因此我们必须把数据挖掘模型转换成最自然的表示。只有这样,才能更有效地理解模型,然后采取行动。另外,有些模型得到的结果很庞大,如关联规则。有可能一次数据挖掘得到许多的规则,如何从这些规则中发现感兴趣的是一个辣手的问题。因此,模型可视化主要可以考虑两个方面:让模型输出可视化和交互操纵。即挖掘模型输出时用一种有意义的方式表示,同时允许用户操纵模型,改变模型输入以观察模型输出的变化。
4)挖掘结果的可视化。既将数据挖掘得到的知识或结果用可视化的形式表示出来,这些形式包括盒图、散列图、决策树、簇、概化规则等。在数据挖掘系统和产品方面早期比较著名的有加拿大SimonFraser 大学的Han Jiawei 博士等人开发的OLAP挖掘系统DBMiner2.0,提供了对挖掘结果进行交互式可视化的功能,其他的还有IBM的Intelligent Miner,Polar System,SAS的Enterprise Miner,Minset3.0等都是提供数据挖掘结果可视化功能的数据挖掘软件。
5)数据挖掘交互式可视化。数据挖掘交互式可视化把用户引入到挖掘过程当中,使具有灵活性、创造性和大量知识的人能与具有强大处理能力和海量存储能力的计算机相结合,在交互式数据挖掘过程中,帮助用户作出明智的数据挖掘决策。Nigel等提出了针对企业用户的一个数据挖掘的试验性过程,指出数据挖掘应该在整个过程中都提供可视化,而不仅仅在结果呈现时才将可视的信息展现给用户,这样用户能够掌握的信息就会更多,数据挖掘也可以更充分的应用人脑中的知识。基于此理念,Nigel等人还开发了一个数据挖掘交互式可视化软件VDEM(Vitual Data Mining Environment),将人设置在虚拟环境中来找到解决数据挖掘问题的线索。
6)可视化数据挖掘与GIS的结合。数据挖掘可以利用GIS作为可视化的有效手段,如加拿大Simon Fraser大学开发了建立在Maplnfo基础上的可视化教据挖掘系统GeoMiner,该系统通过GMQL查询语言作为空间数据挖掘查询工具,用户可以动态地以图形、图表和地图的形式操作和观察数据挖掘过程。德国国家信息技术中心研发了基于Web的空间数据挖掘系统SPIN,其实质是将交互式地图设计工具Descarts与空间数据挖掘(机器学习和贝叶斯统计)的数据分析工具结合起来。美国宾夕法尼亚大学的Apoala项目研发了一种将地理可视化技术同空间知识发现紧密结合用于复杂多维环境数据的分析处理方法。在目前针对可视化空间数据挖掘提出的屈指可数的系统中,有代表性的是基于Linux系统的XGobi。运行时,XGobi与ArcView3.0构成一个松散集成环境。这一环境通过动态连接两种软件:GIS软件--ArcView和多维数据可视化工具--XGobi,充分利用二者的优势,以动态地图为主体,动态关联多种多维数据可视化技术的可视化表达方式,协同完成空间数据挖掘可视化的任务。
7.空间数据挖掘的发展趋势
由于空间数据具有海量、非线性、多尺度和模糊性等特点,从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究:1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。2)多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。3)网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量一体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时间等)的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。可以预见,空间数据挖掘不仅会促进空间科学、计算机科学等的发展,而且必将增强人类认识世界、发现知识的能力,从而更好地改造世界,服务人类社会。
展开阅读全文