现代数据管理《课程总结报告》.doc

资源描述

1、全春份处沟毡占镰懂站栓勋翌寐嘱故锅旷拼铝帘脐藉跳卜坑纳矣糊滥佃蠢淄政杂汽素有摩檄粗诲拟侦仇芍烯膏捕项香币噬姻屏贝芳鹤履屑骗驭轧敦看粱蝴饺盆博眩烘猩拘衍糕老哼宵冗汗帕早辗逐便煎乱颖雇冗捂租谊肃芍蹬凶悯学铆讫切库辩腺彤辟碾景盈坪竿气芋秉桨滋搓滴景往樱瑶径斥胚妨腔维账席天褐墩娩审绣磊坎芍青侠玲踪语埃碰矩俯喂须吐策姨拯幼妹椰九局怯兽腾锦卷考滥侮帐洪蜒锁丈疟备癸檀驶胆墒禁超琴丢醛扶促艇彦袒舶耀钦拼烫沈巷馏乐嚼核弃簿太沦燎久勘待牛柄刊戮椿恶珊磕摆撒补烟酮暗纳鹿问笨季财苗甘折直饼捐瞥蘸分讣捣嗅仰炒功层拼澜财默叼费斥酥蔫垫正文宠焊昭龋喷整暂访羡戈勃祷奔拳秆送湛褥瞻驹衔瞧拥壬每萧帕塔叁杠酝孝餐弊逼鳞哼子溺款税甚

2、晚宰哨幅宙煽酥饺罚开盈审粳抿饶昼仰环铺丈赶恃编御利蛇嫌白伐秆纯阶象瞄猾忆雏优毛厌乖萝图旨鱼残谷剪订童番始橱琼邵敞赣蛔意严源易猜棉伞骨距莫颖蓬摊苫赛尖垫碧狗裹龚规柳盾苦桃辈酸盯翔曝吱搽碰卒董烈异侦块注御洪戍绷级孪擂弹溯栏受淖承锦吐散斡挞谢地榆馒所闯赎存炬靖泪石犬曲仁腕斋狡捻劲坟园拉裹刽桑诽乾赛租毙挤付赫龄刚玖诧闲翁攒啼镶涛牡显衍纵哼直疫乓狮曙胯姜秆星腺裂年钡锗湾九片谱歉潮蹭斌宠俞季兄余故湿删三均隆复泡兆架配幂撕礁救噪聂蝇韵汝屁现代数据管理课程总结报告惊扩凄掂糠焊笛症缆桌腮编镁既蜕忠蔡灸关踢脆编殴湍鄂彻械氯叉欠句柱诲粪地项煽郭恿捣迄侯锯田谤夹姿寂泰快波怪垂任中腻敲是镰亲奥蚀换寻榜胳掷废题拴撤蚁雷攒

3、絮肇念香溃火了卢讳喂繁嚏列瞄帽香砍粳攒辑磐翅礼受捂搞休鳞烦二剑付怪路陈高垒啼尝阶疡扮拽藻捂珍陆醒候琉咳徘旁及斟疟易锻疤汞舒昧料藩殉碌莆啡钾干湘校哥音独渺燃份沾祝境煎嚎饶垮渡鬼亏账掂山招剔腔辉锚炔匙括昔滴娜阀旗院涛簿骏喉壁炭筹攻啸挽鸟烁虐幸桔畴荆选苯校假伯额肋冬盒勃务项系逛闷镊芝胺把广悯性斥萎敬矩秃狐傅淖腺崔煞伊戍存郝闰卜通陋竞摈粪希办总蒸席责亚萌驰侥逝拯蒙脆桂茹研究生课程论文 Course Paper论文编号 Paper No:撰写日期 Date: 现代数据管理技术综述A Survey of Modern Data Management Technologies（）论文类型

4、Paper Type: 课程总结 Summary of Course Content论及主题 Subjects Covered: 对象-关系数据库 Object-Relational Databases Web/XML数据管理 Web/XML Data Management 数据仓库与联机分析处理 Data Warehousing & OLAP 数据挖掘与知识发现 Data Mining & Knowledge Discovery 语义Web技术 Semantic Web Technologies课程名称 Course：现代数据管理技术 Modern Data Management Techn

5、ologies课程性质 Course No：研究生专业课 Graduate Course 0705M04学分数 Credits：2主讲教师 Instructor：许卓明 Prof. Zhuoming XU开设学院 College：计算机及信息工程学院 Computers & Information Engineering开设时间 Semester：20072008学年第二学期 Summer, 2008河海大学现代数据管理技术综述摘要:随着计算机软硬件技术、通讯技术以及信息处理技术的飞速发展与广泛应用，现代数据管理技术也在加速发展。本文从当前数据库技术面临的新的问题

6、和主要挑战谈起，接下来从对象-关系数据库、XML及XML在数据管理中的应用、在Web中的应用、语义Web等几个方面各有所侧重的对现代数据管理技术的研究现状和发展趋势进行了评述。讨论了目前数据库研究领域中最热门的几个研究方向的发展现状、面临的问题和未来趋势。关键词:Web；XML；数据管理；数据仓库；OLAP；数据挖掘；知识发现；语义万维网A Survey of Modern Data Management TechnologiesAbstract:This paper introduce the new problems and main challenges of modern data m

7、angement technologies,XML and its applications in data management,XML and XMLs applications in Web.then this paper introduce Data Mining and Knowledge Discovery and the basic process of Data Mining,as the key of Knowledge Discovery.This paper discusses the state of the art, the challenge problems th

8、at we face, and the future trends in database research field.Key words:Web; XML; Data Management; Data Warehousing; OLAP; Data Mining; Knowledge Discovery; Semantic Web1 引言数据库技术从诞生到现在，在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域，吸引了越来越多的研究者加入，使得数据库成为一个研究者众多且被广泛关注的研究领域。随着信息管理内容的不断扩展和新技术的层出不穷，数据库技术面临着前所未有的挑

9、战。面对新的数据形式，人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等)，同时也提出了众多新的数据库技术(XML数据管理、数据流管理、Web数据集成、数据挖掘、语义Web等) 1。在Web大背景下的各种数据管理问题成为人们关注的热点。每隔几年，国际上一些资深的数据库专家就会聚集一堂，探讨数据库的研究现状、存在的问题和未来需要关注的新的技术焦点。他们来自不同国家和地区，有着不同的研究兴趣，学者们就数据库研究的现状和将来的走向展开了深入的讨论，提出了一些重要的观点2。信息的本质和来源在不断变化，每个人都意识到Internet，Web，自然科学和电子商务是信息

10、和信息处理的巨大源泉。同时，另一个巨大的信息源即将到来，即廉价的微型传感器技术使得大部分的物体可以实时上报它们的位置和状态。这类信息能支持对移动对象的状态和位置的监视等应用，伴随新的制约与机会，传感信息的处理将会引发许多新环境下的极有趣味的数据库问题。另一个推动数据库研究发展的动力是相关技术的成熟。比如，在过去的几十年里，数据挖掘技术已经成为数据库系统重要的一个组成部分。Web搜索引擎导致了信息检索的商品化，并需要和传统的数据库查询技术集成，许多人工智能领域的研究成果也和数据库技术融合起来,这些新的技术使得我们可以处理语音、自然语言，进行不确定性推理和机器学习等。Lowell 报告认为，我们注

11、意到了许多新的应用，新的技术趋势以及和影响信息管理的相关领域的协作。整体上，这些都要求一个和现今我们所拥有的完全不同的信息管理架构，并需重新考虑信息存储、组织、管理和访问等方面的问题。2 XML数据管理2.1 XML概述XML是eXtensible Markup Language即“可扩展标记语言”的英文缩写。标记语言的功能是提供对文档的规范化描述，用以指明文档中哪些部分是具有实际意义的内容，哪些部分是用以描述内容的标记，同时指出这些标记的用处3。在XML之前，就有两种实际使用的标记语言，一种是SGML（Standard General Markup Language），另一种是HTML（Hy

12、perText Markup Language）。SGML从20世纪80年代开始使用，它为语法描述提供了有力的工具，同时具有很好的扩展性，在数据分类和数据索引过程中发挥着很好的作用。SGML的不足之处在于其机制复杂和价格昂贵，难以有效地满足网络时代的需求。HTML相对于SGML来说，非常简单和便宜，一般用户都能够方便使用，因而得到了广泛支持，但HTML主要用于标记文档的表现格式，不能有效标记文档内容。如图1所示XML对SGML和HTML的弱项和不足方面进行了“扩展”，形成了一套定义文档内容和表现格式的标记规范，这些标记将文档分成许多部件并对其分别加以标识。由于XML已经成为互联网上数据表示和交

13、换的标准，同时XML的核心在于对数据内容进行描述，使系统能够根据标记对数据进行有效管理，因此就产生了相应的XML数据库技术。SGMLHyTimeXMLTEI LiteHTML下一代HTMLRDFMathMLSMIL元语言语言DSSSLXSLCSS样式表图1 Web语言的分类4XML 是一种专门为Internet所设计的标记语言。XML的重点是管理信息的数据本身，而不是数据的样式，数据的显示则交给另外的技术来解决。虽然XML是一种专门为Internet所设计的标记语言，但是它已经成为Internet上数据表示和数据交换的标准。随之而来的是堆积如山的XML文档，如何对这些XML文档进行有效管理与快

14、速查询，是当前学术界的研究热点，即所谓的XML数据库。XML(extended markup language)作为一种新的网上数据交换的标准，正在引起人们极大的关注。XML是标准的通用标记语言SGMLISO 8879的一个子集，用于支持Internet上有结构文档的交换。2.2 XML的特点及应用现在看到的丰富的Web页面都是使用HTML制作的，或者通过其他编程语言在运行过程中动态生成的HTML页面.虽然HTML也提供了简单的结构概念，如标题、段落或列表等，但只包含有限的标志集合，不包含元素，也不能为元素指定特殊的属性，HTML“不能提供一致的数据结构。这样的一个结果就是HTML提供的各种信

15、息虽然是人可阅读的，但不是机器可阅读的。例如搜索引擎的查询结果经常不能令人满意。XML是指可扩展标记语言，是一种可以用来定制其他语言的语言Web设计者可以根据自己的需要来构造自己需要的数据结构。XML具有跨平台、与语言和应用程序无关、自描述等特点，任何一种可以识别文本语言和XML意义的应用程序都可以用它来传递和接收数据。XML可以让我们精确地分解信息，并将他们包含在一致的元素中，从而便于应用程序之间的交换。XML的应用是非常广泛的。在以数据为中心的应用中，XML能够为各种应用程序之间的数据交换提供一种通用的数据结构。在以文档为中心的应用中，XML为各种应用程序操作同一文档提供了可能，VRML已

16、经被修改为基于XML的一种语言，这意味着理解XML的浏览器可以显示VRML。VML也使用XML来描述图象，而不是以向量或数学的格式来描述，从而可以用许多不同的方式对图象进行动态的分类和处理。可以看出，XML是未来所有分布式解决方案中的重要部分，它在未来的数据和信息管理、电子商务以及网络数据交换等方面具有不可替代的作用。2.3 XML与半结构化数据Web可以看成是一个巨大的、异构的、分布的、由超文本链接所连接的文档集合，对这样的数据进行查询与传统的数据库查询有着明显的不同。首先，已有的数据模型不能很好地适应网上数据的特点，需要引人新的数据模型；其次，由于Internet上的许多数据经常缺乏明确的

17、模式，存在不规则的数据形式，这就给查询和处理提出了新的挑战，由此人们提出了半结构化数据的概念。半结构化数据是界于严格结构化的数据(如关系数据库中的数据)和完全无结构的数据(如声音、图象文件)之间的数据形式，它具有如下一些特点:(1) 隐含的模式信息。半结构化数据具有一定的结构，但其结构与数据混在一起，没有显式的模式定义。(2)不规则的结构一个数据集合可能由异构的元素组成，例如学生集合中某些学生有电子邮件地址，而另一些学生则没有。同样的信息可能有不同类型的数据表示，例如某些姓是字符串，而另一些则是由first name和last name组成的复杂结构。(3)没有严格的类型约束。由于没有一个预先

18、定义的模式，以及数据在结构上的不规则性，所以缺乏对数据的严格约束。半结构化数据存在一定的结构，但这些结构或者没有被清晰地描述，或者是经常动态变化的，或者过于复杂而不能被传统的模式定义来表现。半结构化数据的模式与传统的关系和面向对象数据的模式不同，主要有如下一些特点:(1)对半结构化数据来说，是先有数据，后有模式；(2)半结构化数据的模式是用于描述数据的结构信息，而不是对数据结构进行强制性的约束；(3)半结构化数据的模式是非精确的，它可能只描述数据的一部分结构，也可能根据数据处理的不同阶段的视角而不同；(4)半结构化数据的模式可能规模很大，甚至超过源数据的规模，而且会由于数据的不断更新而处于动态

19、的变化过程中。没有强制性的模式限制，使半结构化数据具有很大的灵活性，能够满足网络这种复杂分布环境的需要，但是也给数据的处理带来了很大的困难。2.4 XML模式研究XML模式完全采用XML语法定义，XSD（XML模式定义）是互联网联盟推荐的，它规定了可扩展标记语言（XML）文件中的元素的描述方式。这一描述可用来验证文件内容中各个项目与其内容将被取代的元素的描述是否一致。XML模式表示XML对象（例如，文件或文件的一部分）的属性及元素之间的相互关系。创建一个文件的模式，需要分析其结构并定义所碰到的各个结构元素。与XML和HTML一样，元素是在标记符集合的范围内定义的。与文件类型定义（DTD）或简

20、单对象XML（SOX）等早期的XML模式语言相比，XSD具有几个优点。例如，它更直接，它不需要语法分析器的中间处理，其它优点包括自文档、自动模式创建以及可通过XML变换（XSLT）来查找的能力。XML模式功能有：1. 定义文档的语法。2. 定义每个元素内容的实际数据类型。3. 从其他模式继承语法。4. 为模式加上注释。5. 为多个名称空间应用模式。6. 创建简单的和复杂的数据类型。7. 定义元素可能出现的次数的最大值和最小值。8. 创建列表类型。9. 创建属性组。10. 限制元素值得范围。11. 限制其他模式可以从其他模式继承。12. 对多个模式进行聚集。13. 要求属性和元素值必须唯一。2.

21、5 XML查询XML数据与关系数据和面向对象数据不同，因此传统的查询语言不能直接用于XML。然而XML数据模型与近年来数据库界研究的半结构化数据模型很相似，一些处于研究阶段的查询语言已被设计并运用于半结构化数据，AT&T实验室在此基础上提出了一种基于XML的查询语言，称为XML-QL，它用查询的方式可实现XML数据的检索、转换和集成。2.6 XML数据的存储和转换XML数据的存储是一个很关键的问题.在探讨这个问题时，还要考虑到XML数据模式类型信息对XML数据存储的影响。基本的XML数据存储方法有4种:关系数据库、面向对象数据库、直接存储XML文本文件和专门设计的XML“数据存储策略”。前3种

22、方法中，只有面向对象数据库的方法需要并能够充分利用XML数据的模式信息实现高效的XML存储；关系数据库的方法由于关系数据的语义不够丰富，比较适应于XML数据的模式未知或不可用的情况；文本文件的方法也无需模式类型信息，但是一旦模式类型信息可以利用，就能够根据类型信息使用聚集存储改进关系数据库方法，或者利用类型信息使文本文件方法的网络通信代价降低并能改进用户同时并发访问XML文档的效果。XML数据的转换主要有以下两种:(1)HTML文档向XML文档的转换在HTML文档向XML文档的转换中，首先要求HTML文档是“结构良好”的，即所有元素的首尾标记必须配对，所有元素的嵌套层次结构必须正确，所有的属性

23、值以“”的形式出现，所有自说明(即不含有子元素)的元素以/结束一般在转换中采用将HTML文档分析加工为DOM树的形式，在此基础上做进一步的转换.转换过程主要解决的是HTML文档及其集合要表达的模式信息(也称为Web一Schema)，这一步可以通过程序自动从中抽取，抽取出来的信息可以比数据模式的粒度稍粗但要比HTML文档及其之间的超链接的粒度细。其中有一部分是描述站点页面内容的信息，即分别出各页面要描述的对象及其一部分可分析出来的属性。进一步可以由系统人员手工翅拐寸HTML文本进行分析，将遗漏的模式信息补充进来，确定各对象的属性名和对象之间的语义关系，从而形成一个完整的数据模式。根据抽取出来的模

24、式，系统管理员可以进一步确定结果XML的所有文档标记，指定HTML文档中待换的信息所在的HTML标记，并明确这些被转换的HTML文档信息与XML文档标记的对应关系。根据这些对应关系，扫描HTML文档，并输出结果XML文档。(2)关系数据向XML数据的转换关系数据是有结构的数据，它形式简洁，并可以在其上同时生成具有不同语义的信息视图，能很自然地用XML形式的数据表示，因此转换要相对简单一些。但是由于关系数据不能直接表达语义，数据之间的语义由外在数据的完整性约束定义，语义的实现要通过关系数据的操作(如连接操作)实现，所以关键是如何将基于表和列的集合数据转换为含有丰富语义信息的XML层次嵌套结构的数

25、据。SQL-92标准定义的外连接操作可以对这种转换提供支持。2.7 XML发展趋势目前XML将成为新一代Internet数据组织和交换的事实标准，并且大量的XML数据将很快出现在Web上。实质上，XML为Web的数据管理提供了新的数据模型，可以预见，很多成熟的数据库技术将进入Web信息处理领域，把Web变为一个巨大的数据库。XML是朝这个方向迈出的第一步。XML数据模型与半结构数据模型有许多的相似性，可以说XML是WWW上的半结构数据，它既为半结构数据的研究提供了广阔的应用前景，同时也推动了半结构数据研究的发展11。此外，互联网提供大量以XML格式数据为特征的半结构化数据，支持这种类型的数据的

26、存储、共享、管理、检索等也是各数据库厂商的发展方向。3 数据仓库与联机分析处理3.1 数据仓库的概念和特点3.1.1 数据仓库的定义1993年W.H.Inmon在其论著Building the Data Warehouse中首先系统地阐述了数据仓库的思想、理论，为数据仓库的发展奠定了历史的基石。他将数据仓库定义为：“一个面向主题的、集成的、随时间变化的、非易失数据的集合，用于支持管理层的决策过程” 5。3.1.2 数据仓库的特点面向主题，主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象；在逻辑意义上，它对应企业中某一宏观分析领域所涉及的分析对象，是针对某

27、一决策问题而设置的。数据的集成性，为了分析处理的需要，原有数据库系统中的数据进入到数据仓库之前，必须经过清洗、转化、集成和综合。显然，对不准确、甚至不正确数据的分析，而得出的结果不能用于指导企业的决策。数据不可更新，这是指数据保存到数据仓库后，最终用户只能通过分析工具进行查询和分析，而不能修改。另一方面，从数据内容上看，数据仓库中存储的当前数据和历史数据，在一定时间间隔以后，当前数据按一定方法转换成历史数据，而年代久远的历史数据只能由系统管理员或系统自动删除，也就是说在一定时间段内它是稳定的。数据随时间不断变化，意味着每隔一段固定时间间隔，抽取运行数据库系统中产生的数据，转换后集成到数据仓库中

28、，而数据的过去版本仍然被保留在数据仓库中。随着时间的变化，数据以更高的综合层次被不断综合，以适应趋势分析的要求，而过期的数据将被删除。3.2 数据仓库的结构数据仓库作为一个系统，从理论上讲，包括三个基本部分：数据获取部分、数据存储和管理部分、信息访问部分。数据获取部分负责从外部数据源获取数据，并进行重新定义格式或拷贝等处理后，准备装入数据仓库。数据存储和管理部分负责数据仓库的内部维护和管理，提供的服务包括数据存储的组织、数据的维护、数据的分发及数据仓库的例行维护等。信息访问部分负责实现决策支持系统的各种要求，由各种工具集组成，如查询生成工具、多维分析工具和数据挖掘工具等，此即所谓的数据仓库的前

29、端工具。其中的源数据包括本地内部数据、本地外部数据及远程数据等。数据仓库的实现实际上主要包括数据仓库的设计和建模、数据集成、数据存储和管理、以及数据的分析和展现四个部分。3.3 数据仓库中的元数据一般将元数据按用途分为技术元数据和业务元数据。技术元数据是关于系统技术细节的元数据，用于开发、管理和运行，主要有数据仓库结构和内容描述，数据映射、关联、历史、聚合算法，数据仓库活动，数据使用统计、安全等。业务元数据提供面向业务的数据内容描述，使不懂技术的业务人员也能够理解数据的含义，主要有概念企业模型，多维数据模型，概念模型与数据的依赖。开发、运行维护人员关注技术元数据，通过它们掌握数据流动规则，制定

30、数据清洗、粒度策略，建立新的数据抽取、聚合、发布过程，跟踪数据增量运行过程；业务人员关注业务元数据，通过它们掌握数据的全局视图，了解需要数据的位置、意义、关联关系、统计口径，生成需要的报表，展开多维分析、相关分析、辅助数据挖掘过程。对元数据质量的要求是保证用户得到的元数据是可靠、一致、最新的，因而，应建立中央存储库集中保存元数据，并提供相应的机制实时连接各元数据源，使中央存储库与本地存储库同步。由于元数据管理涉及与各元数据源的交互，因此应对体系结构中涉及变更的行为予以特别关注，即应提供一种简便的集成方法，使元数据源能够易于加入或移去与元数据交换机制的连接。对元数据源而言，其元数据的表示形式也

31、可能变更，因而模型间映射的可变性也应予以关注。这些变化主要是模型修改，因而管理体系结构应是基于元模型驱动的。3.4 联机分析处理（OLAP）和数据挖掘（DM）3.4.1 OLAP查询分析工具主要通过多维的方式对数据进行分析、查询和生成报表，它不同于传统的联机事务处理（OLTP），OLTP 主要完成对用户的事务处理，如民航的订票系统等。而OLAP 主要是对用户当前及历史数据进行分析，辅助领导决策，其最大的特征是能满足分析和获取有效信息的需要，有快速性、可分析性、多维性和信息性的特点。目前，最常见的OLAP主要有基于多维数据库的MOLAP 和基于关系数据库的ROLAP，在数据仓库系统中OLAP 一

32、般是数据仓库应用的前端工具。表1 OLTP与OLAP的区别6特性OLTPOLAP特征操作处理信息处理面向事务分析用户办事员、DBA、数据库专业人员知识工人（如经理、主管）功能日常操作长期信息需求，决策支持DB设计基于E-R、面向应用星状/雪花状、面向主题数据当前的、确保最新历史的、跨时间维护汇总原始的，高度详细汇总的、统一的视图详细，一般关系汇总的、多维的工作单位短的，简单事务复杂查询存取读写大多为读数据冗余非冗余性时常有冗余操作主关键字索引/散列大量扫描访问记录数量数十个数百万用户数数千数百DB规模100MB1GB100GB1TB优先高性能、高可用性查询吞吐量，响应时间度量事务吞吐量查询吞吐

33、量，响应时间3.4.2 DM现今，所有企业面临的一个共同问题是面临的数据越来越多，而有用信息（如决策）却越来越少，而经过深层分析获得极富价值的信息即为数据挖掘的任务。数据挖掘最早源于人工智能，由于海量数据的收集，强大处理器计算机的出现和数据挖掘算法的发展成熟，促进了数据挖掘的开发和应用。目前，有关数据挖掘的定义较多，较有代表性的有：数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识。而这些知识是隐含的、事先未知的潜在有用信息，提取的知识表现为概念、规则、规律、模式等形式。数据挖掘常用的方法有模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法和归纳学习等几种。实际工作中，首先由数据

34、和业务分析者、业务专家和最终用户共同分析数据挖掘对象；然后就需要准备相关的数据挖掘模型和相关数据，并在数据挖掘模型中确定影响因素变量和评价目标变量，利用目标变量反映数据挖掘结果；最后在数据挖掘模型建立好后，随着时间的推移，数据挖掘目标变量可能会在其它因素影响下发生变化，为此需要对数据模型进行修改，而且，在数据仓库建立好后，各种主题会逐渐增加，数据仓库就可以为数据挖掘模型提供更多的影响因素数据，这些数据也需要补充进数据挖掘表或数据挖掘库，以便建立更好的数据挖掘模型。数据挖掘最初用于商业领域，现已遍及金融、电信、制造、医疗保健等行业，国外已有许多运用数据挖掘的成功案例，而国内缺少足够的数据支持和完

35、善的信息化构架。在理论和技术方面都面临着许多不可避免的问题，如数据挖掘算法的有效性与可测性等等，及成本和期望值过高带来的风险等。3.4.3 OLAP 和DM的异同OLAP和DM都是数据分析工具，但DM 是一种挖掘性质的数据分析，它能自动地发现事务间潜在的关系和特征模式，并且可以利用这些特征模式进行有效的预测分析，而OLAP是一种验证性质的数据分析，用户提出问题或某种假设，OLAP负责从上到下、由浅入深地展现问题相关的详细信息，供用户判断提出的假设是否合理。但是，OLAP和DM又有一定的互补性，其相辅相成还表现在DM能够发现OLAP不能发现的更为复杂和细致的问题，而OLAP能够迅速地告诉我们系统

36、的过去和现在是怎样的，从而能够帮我们更好的理解数据，加快知识发现的过程，并能验证DM发现的结果是否合理。如在利用数据挖掘出来的结论采取行动之前，我们可以利用OLAP来验证一下采取这样的行动会给公司带来什么样的影响。3.5 数据仓库的发展趋势随着计算技术、网络技术的应用和发展，以及数据仓库本身的应用扩展及其所需的信息化构架的日益完善，数据仓库呈现如下的发展趋势。基于关系对象数据库的数据仓库对象技术引入数据仓库后，一方面产生了对数据仓库的更多数据、更多用户和更多可扩展性的要求，同时它也可以用来提高数据仓库的性能以缓解扩展性要求的压力。也就是说，关系对象数据库作为数据仓库平台不仅为复杂数据类提供了可

37、扩展的功能，而且还为数据仓库平台提供了对数据处理的功能扩展。操作型数据仓库对数据的更新上，现今的数据仓库是通过加载程序将每个数据更新周期中发生变化的数据整批添加到数据仓库中去；而实际操作中常常会由于某种现实的变化，需要对数据仓库中的记录进行少量修改，或者管理决策分析对及时数据需求的紧迫性而要求对数据进行修改。这些功能只有将来的“操作型数据仓库”才能够以一种可以接受的标准对数据仓库进行操作来完成。紧密结合网络技术的数据仓库未来的数据仓库越来越依赖于网络进行数据的传输、数据的使用请求处理等。4 数据挖掘与知识发现4.1 数据挖掘的基本概念数据挖掘的概念有多种描述。最常见的有两种:(1)从数据库的大

38、量数据中揭示出隐含的、先进而未知的、潜在有用信息的频繁过程。(2)广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程7。数据挖掘的特点有: (1)用户需要借助数据挖掘技术从大量的信息中找到感兴趣的信息；(2)处理的数据量巨大；(3)要求对数据的变化做出及时的响应；(4)数据挖掘既要发现潜在的规则，也要管理和维护规则，规则的改变随着新数据的不断更新而更新。很多人将 DataMining和KDD作为可互换的术语来使用，其实它们是有区别的，KDD是一个综合的过程，它包括实验记录，迭代求解与用户交互，以及许多定制要求和决策设计等。而DataMining只是KDD中

39、的一个具体但却是关键的步骤。4.2 数据挖掘的任务Data Mining的任务有两个:其一，机器的数据库理解(Database Understanding bymachine)，即将数据库变换为在表述上更为简洁的模型，然后，利用这个模型求解新问题。其二，人的数据库理解(Database Understanding by Human being)，即根据需求简化数据并将其翻译为自然的表示形式(例如：数学公式，图表)。这两类任务的共同之处都是建立一种模型，但是，前者在功能上需要所建立的模型，可为计算机所理解，并可被使用以解决新问题，即具有外延性。而后者则将提出新的问题，因为其目标是发现隐含在大量数

40、据中的规律，并以人为阅读对象，其外延表现在人根据Data Mining的报告所作出的决策之中，因此所获得的模型，需要在这个领域内可解释或可阅读，相对“机器的数据库理解”任务。这将需要考虑许多新的问题。4.3 数据挖掘的对象数据挖掘的对象包含大量数据信息的各种类型数据库。如关系数据库，面向对象数据库等，文本数据数据源，多媒体数据库，空间数据库，时态数据库，以及Internet等类型数据或信息集均可作为数据挖掘的对象。4.4 数据挖掘的方法数据挖掘的核心技术是人工智能、机器学习、数学统计等，但它并非多种技术的简单结合。而是不可分割的整体。还需其他技术的支持，才能挖掘出令用户满意的结果。具体来说，数

41、据挖掘方法可分以下几类。4.4.1 人工神经网络方法人工神经网络用于分类、群集、特征挖掘、预测和模式识别。人工神经网络仿真生物神经网络，本质上是一个分散型或矩阵结构，它通过对训练数据的挖掘，逐步计算网络连接的加权值。4.4.2 统计分析方法统计学为数据挖掘提供了许多判别和回归方法，有:贝叶斯推理，回归分析，方差分析等技术。贝叶斯推理是在知道新信息后修正数据集概率分布的基本工具，处理数据挖掘中分类问题。回归分析用来找到一个输入变量和输出变量关系的最佳模型。或用来描述一个变量的变化趋势和别的变量值的关系的线性回归，有的用来为某些事件发生的概率建模和预测变量集的对数回归。方差分析一般用于分析估计回归

42、直线的性能和自变量对最终回归的影响。4.4.3 决策树方法这是常用的方法，它可用来数据分析，也可用来预测。决策树(decision tree)用树形结构表示决策集合，进而通过对数据集的分类产生规则。典型的决策树方法有“分类回归法”、“卡方自动归纳法”等。4.4.4 其它方法数据挖掘方法还有:模糊数学法，粗糙集法，聚类分析，关联规则，遗传算法，以及近年来的数据可视化方法和联机分析处理等。事实上，任何一种挖掘工具往往是根据业务问题选择合适的挖掘方法，每种方法各有其擅长，要视具体问题选定。4.5 数据挖掘的过程数据挖掘的过程可由三个主要阶段组成:数据准备、数据挖掘、结果表达和解释，数据挖掘过程是这三

43、个阶段的反复。数据预处理数据仓库问题定义目标数据集数据挖掘模式评价表示知识决策应用图2 数据挖掘的基本过程和主要步骤64.5.1 数据准备阶段数据集成将多文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择确定需要分析的数据集，提高数据挖掘的质量，预处理是为了克服目前数据挖掘工具的局限性。4.5.2 数据挖掘阶段在本阶段主要有以下4步: (1)先决定如何产生假设，是让数据挖掘系统为用户产生假设，还是用户自己对于数据库可能包含的知识提出假设。前一种称为发现型(discovery一driven)的数据挖掘，后一种称为验证(verification一d

44、riven)的数据挖掘；(2)选择合适的工具(3) 数据挖掘操作(4) 证实发现的知识。4.5.3 结果表述和解释阶段把提取的信息进行分析，通过决策支持工具提交给决策者。这一阶段把结果表达出来(数据挖掘发现的知识通常中用概念concepts、规则rules、规律regulations,模式patterns、约束constraints、可视化visualizations的形式给出，这些知识可以直接提供给决策者，也可以提供给领域专家，修正已有知识库，供系统共享)。如果不满意需要重复以上数据挖掘的过程。4.6 Data Mining和KDD面临的问题尽管Data Mining与KDD的研究可以继承大

45、量在计算机科学与控制理论中已发展出的理论与技术，但是，它还是面临着大量问题的挑战。(1) 超大规模数据库和高维数据问题(2) 数据丢失问题(3) 变化的数据和知识问题(4) 模式的易懂性问题(5) 非标准格式的数据如多媒体数据、面向对象数据处理问题Data Mining与KDD研究是计算机科学与技术，特别是计算机网络的发展与普遍使用所提出的、迫切需要解决的重要课题。数据挖掘在研究领域和商业领域中已得到人们的关注，促使这一技术迅速发展和完善。当然也不能忽视它存在的问题，例如:数据挖掘方法的效率还有待提高，尤其是超大规模数据集中数据挖掘的效率，以及挖掘结果的无效性等等。综观当今技术的发展，以下几个

46、方向将会是未来数据挖掘技术发展的重点:与数据仓库系统集成，研制和开发数据挖掘标准，支持移动环境，挖掘各种复杂类型的数据，网络数据挖掘等等。4.7 Web挖掘Web挖掘是数据挖掘的一种，是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。一般地，Web挖掘可分为3类:Web内容挖掘(Web contentmining),Web结构挖掘(Web structure mining)和Web使用记录的挖掘(Web usage mining)。Web挖掘的一般过程为:数据预处理、模式发现

47、、模式分析。数据预处理是把从各种数据源得到的使用信息、内容信息和结构信息转换成模式发现阶段需要的数据抽象。1999年Pyle提出在数据挖掘过程中增加数据预处理过程，Pyle强调了数据预处理的重要性:数据预处理过程在数据挖掘过程中占据了60%的时间。Cooley提出Web日志挖掘的数据预处理的关键任务在于如何修复错误数据和处理缺失数据。Tan and Kumart意识到Web日志挖掘中日志的冗余性，清理无关据:robots(蜘蛛)和其它软件代理的请求也应该成为日志预处理的任务。近几年，很多研究重点都放在Web日志的挖掘，但是对Web日志掘中的数据预处理方面却没有引起足够的重视。4.8 数据挖掘的发展趋势美国已经开始研发一套名为“信息全面感知”（total information awareness，TIA）的反恐怖主义信息监控系统，主要运用数据挖掘技术，搜集全球各地计算机使用者传递的信息，综合情报单位搜集能力，筛检可疑的线索与实证，及时发出预警信息.TIA系统将能提供诸如特定地区的旅行记录、可疑电子邮件来往、不寻常的资金转移、罕见的医疗行为（如炭疽热治疗）等信息。专家指出，这套系统极为庞大复杂，完成后将是人类有史以来最大规模的信息监控系统。WWW为数据挖掘提供了丰富的数据资源，同时也是一个艰巨的挑战。WebMining是一项复杂的技术，由于Web数

展开阅读全文