资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库与数据挖掘,*,北京科技大学 武 森,数据仓库,(Data Warehouse),北京科技大学 武 森,内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,1,数据仓库概述,1.1,数据仓库的产生与发展,1.2,数据仓库的含义与特征,1.3,操作型数据库系统与数据仓库,1.4,数据仓库的基本结构,1.5,数据仓库的相关概念,1.1,数据仓库的产生与发展,最早发轫于,80,年代初,W.H.Inmon,的研究,存在于其“记录系统”、“本原数据,”、“,决策支持数据库”等研究专题中,1,。,数据仓库的具体概念是,W.H.Inmon,在,1992,年出版的,建立数据仓库,一书中提出的,目前它被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。,1.2,数据仓库的含义与特征,数据仓库的含义,(,W.H.Inmon,),“,数据仓库是面向,主题的,、,综合的,、,不同时间的,、,稳定的,数据的集合,用以支持经营管理中的决策制定过程(,A data warehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process,)”。,1.2,数据仓库的含义与特征,对数据仓库含义的理解,通俗地讲,数据仓库就是企业内部一种专门的数据存储,专门用于支持,分析型数据查询,。,(,1,)专门的数据存储,以多维数据模型进行存储,该模型能够反映实际的商业分析需求,并支持预先未知的具体数据查询操作。,(,2,)分析型数据查询工具,数据仓库是,Lotus1-2-3,和,Microsoft Excel,等工具的延伸与发展,目的在于使得分析能够更准确、更快速、更灵活、更有效,支持的数据量更大。,1.2,数据仓库的含义与特征,数据仓库的特征,(,1,)数据仓库是面向主题的:传统数据库应用按照业务处理流程来组织数据,目的在于提高处理的速度。主题是一个在较高层次将数据进行归类的标准,满足该领域分析决策的需要。,(,2,)数据仓库是集成性的:数据仓库中的数据来自于多个应用系统,不仅要统一原始数据中的所有矛盾,如同名异义,异名同义等,而且要将这些数据,统一到数据仓库的数据模式,上来。,(,3,)数据仓库是随时间而变化的:数据仓库随着时间变化要不断增加新的内容。由于数据仓库常常用作趋势预测分析,所以需要,保留足够长时间的历史数据,,一般为,5,10,年。,(,4,)数据仓库是稳定的:数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的数据操作主要是数据查询,,一般情况下并不进行数据修改,。,1.2,数据仓库的含义与特征,数据仓库还具有以下特点:,(,1,)数据仓库中的,数据量非常大,。通常的数据仓库的数据量为,10GB,级,相当于一般数据库,100MB,的,100,倍,大型数据仓库的数据量可以达到一个,TB,(,1000GB,)。,数据中,索引和综合数据占,2/3,,原始数据占,1/3,3,。,(,2,)数据仓库,是数据库技术的一种新的应用,,而且到目前为止,数据仓库一般还是应用数据库管理系统来管理其中的数据。,(,3,)数据仓库的,使用人员较少,。,1.3,操作型数据库系统与数据仓库,操作型,数据库系统,分析型,数据仓库,系统目的,支持日常操作,支持管理需求、获取信息,使用人员,办事员、,DBA,、,数据库专家,经理、管理人员、分析专家,数据内容,当前数据,历史数据、派生数据,数据特点,细节的,综合的,或提炼的,数据组织,面向应用,面向主题,存取类型,增加、更改、查询、删除,查询、聚集,数据稳定性,动态的,相对稳定,操作需求特点,操作需求事先可知道,操作需求事先不知道,操作特点,一个时刻操作一单元,一个时刻操作一集合,数据库设计,基于,ER,图,基于星型模式、雪花模式,一次操作数据量,一次操作数据量小,一次操作数据量大,存取频率,比较高,相对较低,响应时间,小于,1,秒,2,、,3,秒,几秒,几分钟,1.4,数据仓库的基本结构,可视化,应用工具,数据存储,数据源,OLAP,数据挖掘,数据仓库,外部数据,内部数据,legacy systems,“2001年与2000年相比产品,P,在地区,R,的销售增长是多少?”,“我们拥有的客户有怎样的特点?”,抽取,清理,转换,图,1-1,数据仓库的基本体系结构,1.5,数据仓库的相关概念,粒度,粒度(,Granularity,),是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。,在传统的操作型数据库系统中,对数据处理和操作都是在最低级的粒度上进行的。但是在数据仓库环境中应用的主要是分析型处理,一般需要将数据划分为:,详细数据,轻度总结、高度总结,三级或更多级粒度。,1.5,数据仓库的相关概念,维度,维(,Dimension,),是指人们观察事物的特定的角度,,概念上类似于关系表的属性。,例如:企业常常关心产品销售数据随着时间推移而变化的情况,这是他从时间的角度来观察产品的销售,即时间维;企业也常常关心本企业的产品在不同地区的销售分布情况,这时他是从地理分布的角度来观察产品的销售,即地区维。,1.5,数据仓库的相关概念,数据立方体,数据立方体是指由两个或更多个属性、即两个或更多个维来描述或分类的,数据,。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。,虽然我们通常从几何意义的角度将立方体理解为三维的,但是在数据仓库中数据立方体是一个,n-,维的概念。,1.5,数据仓库的相关概念,UX-11,TR-78,EC-1,XVG,Jun.,May.,Apr.,Mar.,VCR,全部地区,南部,北部,1季度,2季度,上半年,产品,时,间,地 区,TR-75,CAMC,VIDEO,图,1-2,销售数据多维数据立方体示意图,531,539,652,683,867,Feb.,531,605,Jan.,1.5,数据仓库的相关概念,联机分析处理,(,OLAP,),联机分析处理(,OLAPOn_Line Analytical Processing,),是快速、灵活的多维数据分析工具。,OLAP,的概念最早是由关系数据库之父,E.F.Codd,于,1993,年提出的。,OLAP,的目的是支持分析决策,满足多维环境的查询和报表需求,其技术核心在于“维”的概念,,OLAP,是多维数据分析的工具。,1.5,数据仓库的相关概念,观察在某一时间点或时间段上各个产品在各个地区的销售情况,观察某地区各个产品在各个时期的销售情况,观察某种产品在某时间点或时间段上在某地区的销售情况,图,2-5 OLAP,多维数据视图,观察某种产品在各个时期和各个地区中的销售情况,产品,产品,产品,产品,地区,地区,地区,地区,时间,时间,时间,时间,1.5,数据仓库的相关概念,数据集市,数据集市(,Data Mart,),是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。数据集市一般由某一个业务部门投资建设,满足其分析决策的需要,可以将其理解为“部门级数据仓库”。,内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,2,多,维,数据模型,2.1 E-R,模型与多维模型,2.2,星型模式,2.3,星型模式的种类,2.4,数据仓库的总线型结构,2.1 E-R,模型与多维模型,实体,-,关系模型(,Entity-Relationship Model,),是操作型数据库系统普遍采用的数据建模方式,该技术的主要特点是可以,减少数据的冗余,,而且可以,保证数据的唯一性,。,2.1 E-R,模型与多维模型,虽然实体,-,关系模型能成功地应用于操作型数据库系统,但是分析人员、决策人员不可能理解、更不可能记住这些实体,-,关系,因此让他们在实体,-,关系模型中进行主动的数据检索是不可能的。,支持分析型应用的解决方案是多维数据模型,。,2.1 E-R,模型与多维模型,多维数据模型很难说是由哪一个人创建的,它是在人们追求可理解和高性能的数据库设计过程中自然形成的。,多维数据模型普遍采用的一种非常重要的模式是星形模式(,Star Schema,)。,2.2,星型模式,时间码,产品码,地区码,销售量,销售额,销售成本,产品码,产品大类,产品细类,产品名称,地区码,国家,地区,城市,时间码,日期,月份,季度,年度,时间维表,事实表,产品维表,地区维表,图,2-1,销售数据多维数据模式图,2.2,星型模式,事实表(,Fact Table,,也,称主表)包含的是,业务数据信息,,数据取值通常是可度量的、连续型的,且具有可加性,,数据量可达到几百万甚至上亿条记录,。,维表(,Dimension Table,,,也称辅表)包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。,2.2,星型模式,主码与外码,时间编码,(FK),产品编码,(FK)(PK),地区编码,(FK),销售量,销售额,销售成本,产品编码,(PK),产品大类,产品细类,产品名称,地区编码,(PK),国家,地区,城市,时间编码,(PK),日期,月份,季度,年度,时间维表,事实表,产品维表,地区维表,图,2-2,星型模式及主码与外码关系图,2.2,星型模式,代理码,地区维表,销售事实表,地区码,产品码,销售额,1001,3335,100,1001,3336,200,1002,3337,300,地区码,省份,城市,1001,山东,青岛,1002,辽宁,沈阳,2.3,星型模式的种类,简单星型模式(,Simple Star Schema,),星系模式(,Star Galaxy Schema,),星座模式(,Star Constellation Schema,),雪花模式(,Snowflake Schema,),2.3,星型模式的种类,简单星型模式(,Simple Star Schema,),时间码,产品码,地区码,销售量,销售额,销售成本,产品码,产品大类,产品细类,产品名称,地区码,国家,地区,城市,时间码,日期,月份,季度,年度,时间维表,事实表,产品维表,地区维表,图,2-1,销售数据多维数据模式图,2.3,星型模式的种类,星系模式(,Star Galaxy Schema,),时间码,季度,年度,时间维表,产品码,品牌,规格,产品维表,地区码,国家,城市,地区维表,时间码,产品码,地区码,销售量,销售额,销售事实表,图,3-4,星系模式,时间码,产品码,供应商码,销售量,销售额,采购事实表,供应商码,供应商名称,供应商帐号,供应商维表,2.3,星型模式的种类,星座模式(,Star Constellation Schema,),时间码,日期,月份,年度,时间维表,产品码,品牌,规格,产品维表,地区码,国家,城市,地区维表,图,3-6,星座模式,月销售表,日销售表,时间码,产品码,地区码,销售量,销售额,年销售表,2.3,星型模式的种类,雪花模式(,Snowflake Schema,),时间码,季码,年码,时间维表,产品码,品牌码,规格码,产品维表,地区码,国家码,城市码,地区维表,时间码,产品码,地区码,销售量,销售额,销售表,图,3-8,雪花模式,国家码,国家名称,国家维表,城市码,城市名称,城市维表,季码,季度,季维表,年码,年度,年维表,规格码,规格名称,规格维表,品牌码,品牌名称,品牌维表,2.4,数据仓库的总线型结构,数据仓库的总线型结构(,Data Warehouse Bus Architecture,),一个数据仓库内所有的数据集市必须具有,统一一致的维定义,和,统一一致的业务事实,。统一的维和统一的事实就是数据仓库的“总线”,2.4,数据仓库的总线型结构,销售量事实,销售额事实,应收帐款事实,分销渠道维,时间维,客户维,产品维,统一的事实,统一的维,财务数据集市,销售数据集市,内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,3,数据仓库的体系结构,3.1,体系结构的内容,3.2,相关的数据存储,3.3,相关的数据服务,3.4,相关的数据管理,元数据,3.1,体系结构的内容,从总体上讲,数据仓库的技术体系结构包括前台和后台两大部分内容:,后台负责分析型应用的数据准备工作,完成从数据源向数据仓库主题数据的数据变换,一般称为数据的预处理。,前台是面向数据仓库的最终用户的。对于最终用户而言,主题数据是直接的数据来源。前台需要安装一些分析型应用工具,提供分析报告、报表、图形等可视化的分析结果。,3.1,体系结构,数据仓库(主题数据),后,台,前,台,可视化分析结果,数据集市,数据集市,数据集市,数据预处理工具,抽取、转换、装载,预 处 理 数 据,数 据 源,前 端 工 具,查 询 服 务 数 据,其它工具,报表生成器,OLAP,数据挖掘,元数据,3.2,相关的数据存储,数据源:数据仓库数据的原始来源,主题数据,:存储在数据仓库中的核心数据,预处理数据:数据源和主题数据之间的中间结果,查询服务数据:主题数据和用户最终查询结果之间的中间结果,3.3,相关的数据服务,在数据仓库的技术体系结构中,主要涉及两种数据服务:,后台数据预处理,前台数据查询,3.3,相关的数据服务,后台数据预处理包括三种重要的数据操作:,抽取,(,Extraction,):,从数据源抽取所需的数据。,转换(,Transformation,):,对抽取出的数据进行一系列的转换,以满足数据仓库主题数据内容与质量上的要求。,装载(,Loading,):,将转换后的数据装载入数据仓库。,3.3,相关的数据服务,前台数据查询服务的主要工作是提供各种分析应用工具,形成可视化分析结果展现给最终用户。,数据查询,各种报表的生成,访问安全保障,其它服务,如:同数据挖掘的结合应用,3.4,相关的数据管理,元数据,“元数据是数据仓库世界中令人惊异的一个话题。想一想,我们不知道它确切地是什么,确切地放在哪里。但是,与其它话题相比,我们谈论它的时间更多,因为它而烦恼的时间更多,因为对它无所为而感觉愧疚的时间也更多。几年以前,我们认为元数据是任何关于数据的数据。这并没有多大的帮助,因为我们还是不清楚这个起到穿针引线作用的东西是什么。这个模糊的概念已逐渐清晰起来,我们已经更自信地谈论后台元数据和前台元数据。”,3.4,相关的数据管理,元数据,“,后台元数据,能够帮助数据库管理员将数据放入数据仓库,而且,在商务用户询问数据来自哪里时,也可能是他们所关心的。,前台元数据,主要出于对终端用户的考虑,其定义已经扩展,不仅仅是使我们的工具运转灵活的机油,而且是以所有的数据元素表述的一种业务内容字典。”,3.4,相关的数据管理,元数据,数据源元数据,预处理数据元数据,数据仓库主题数据元数据,前台查询服务元数据,3.4,相关的数据管理,元数据,(,1,)数据源元数据,数据源存储平台,数据源的数据格式,数据源的业务内容说明,数据源的更新频率,数据源的所有者,数据源的访问方法及使用限制,实施数据抽取的工具或其它方法,及相应的参数设置,数据抽取的进度安排,实际数据抽取的时间、内容及完成情况记录,3.4,相关的数据管理,元数据,(,2,)预处理数据元数据,数据抽取、转换、装载过程中用到的各种文件定义,从数据源到各级中间视图及主题数据实视图间的数据对应关系,有关数据净化的详细说明,数据仓库的总线,统一的事实和统一的维的定义,维表各属性的更新策略选择,代理码的分配情况,数据聚集的定义,数据聚集的使用统计及更新维护记录,完成数据转换的工具或其它方法,及相应参数设置,预处理数据的备份方法,实际数据转换与装载记录,3.4,相关的数据管理,元数据,(,3,)数据仓库主题数据元数据,各种数据库表或视图的定义,数据库分区设置,索引的建立方法,数据库访问权限分配,数据库备份方案,3.4,相关的数据管理,元数据,(,4,)前台查询服务元数据,数据库表及表中数据项的业务含义说明,可视化查询结果格式的定义,用户及其访问权限的定义,数据仓库使用情况的监控与统计,3.4,相关的数据管理,元数据,从上述数据仓库元数据的内容我们应该可以知道:为什么难以给元数据一个直观明了的定义。,可以说,除了基本数据存储以外,元数据无所不在。,它对所有的数据元素进行定义,并确定这些数据元素之间如何协调工作来共同满足分析型应用的需要。,内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,4,数据仓库的数据组织,4.1,事实表和维表的设计,4.2,数据聚集的设计,4.3,数据仓库中的索引,4.4,数据库的物理设计,4.1,事实表和维表的设计,事实表的设计包括四项工作,依时间先后顺序分别为:,明确数据集市及相应的数据源,确定事实表的粒度,确定相应的维度,确定事实表中的度量值,4.1,事实表和维表的设计,图,5-2,维表的设计与分析报表的关系,时间码,(FK),产品码,(FK),地区码,(FK),销售量,销售额,销售成本,产品码,(PK),产品大类,产品细类,产品名称,地区码,(PK),国家,地区,城市,时间码,(PK),日期,月份,季度,年度,时间维表,事实表,产品维表,地区维表,月 份,地 区,销 售 额,2001/1,东北地区,14,390,200,2001/1,华北地区,28,489,089,2001/1,西北地区,10,900,766,2001/2,东北地区,19,780,563,4.1,事实表和维表的设计,在进行维表的设计时,应该注意以下两点:,维表中的维属性应该具体明确,体现出维层次的划分,这同操作型应用不同。,在进行维表的设计时一定要注意维属性的可读性,因为维表中的维属性值将最终成为分析报表中的行标题。例如,对于产品维来讲,可以在维表中存放产品代码,但同时一定要存放完整的产品名称。因为在许多情况下很难从代码或缩写中判断到底指的是什么。因此,维表中的数据冗余是不可避免的。,4.2,数据聚集的设计,所有的数据仓库都包含数据的聚集(,Aggregates,)。,在数据仓库中,进行数据的聚集是减少,OLAP,分析需要扫描的数据量、提高查询效率的最重要的方法。,在数据聚集设计成功的情况下,系统的查询性能可以有成百上千倍的提高。就目前而言,还很难找到比这更有效的方法。,4.2,数据聚集的设计,数据聚集虽然非常有效,但并不是聚集越多越好。就一个星型模式而言,假设存在,6,个维,每个维有,3,个属性,那么可能建立的全部聚集数目为,3,6,,即,729,个。如果这些聚集全部建立起来,不仅占据存储空间,使用起来也非常的麻烦,而且还可能存在从未被使用过的聚集。,在进行数据聚集的设计时,一定要充分分析数据仓库系统的商务需求和查询性能要求,尽可能做到“必要的一个不少,不必要的一个不多”。,4.3,数据仓库中的索引,比较常见的索引方法主要包括:,B-,树索引(,B-Tree,Indexe,),位图索引(,Bit-Map,Indexe,),哈希索引(,Hash,Indexe,),B-,树索引和位图索引在数据仓库中也得到了广泛的应用。,4.3,数据仓库中的索引,新的数据仓库索引技术主要包括:,投影索引(,Projection Indexes,),位切片索引(,Bit-Sliced Indexes,),连接索引(,Join Indexes,),R-,树索引(,R-Tree Indexes,),数据仓库中的索引举例,表 名,索引名称,索引类型,取值唯一性,索引列,说 明,销售事实表,Sales_Pkey,B-,树索引,唯一,时间码,产品码,客户码,渠道码,主码索引,销售事实表,Sales_Date,B-,树索引,不唯一,时间码,主要用于星型连接查询,销售事实表,Sales_Product,B-,树索引,不唯一,产品码,主要用于星型连接查询,销售事实表,Sales_Customer,B-,树索引,不唯一,客户码,主要用于星型连接查询,销售事实表,Sales_Channel,位图索引,不唯一,渠道码,主要用于星型连接查询,时间维表,Date_Pkey,B-,树索引,唯一,时间码,主码索引,时间维表,Time_Month,位图索引,不唯一,月份,主要用于分组查询,时间维表,Time_Season,位图索引,不唯一,季度,主要用于分组查询,时间维表,Time_Year,位图索引,不唯一,年度,主要用于分组查询及过滤,产品维表,Product_Pkey,B-,树索引,唯一,产品码,主码索引,产品维表,Product_Description,B-,树索引,不唯一,产品名称,主要用于分组查询,产品维表,Product_Sub_Category,位图索引,不唯一,产品细类,主要用于分组查询及过滤,产品维表,Product_Category,位图索引,不唯一,产品大类,主要用于分组查询及过滤,客户维表,Customer_Pkey,B-,树索引,唯一,客户码,主码索引,客户维表,Customer_ Industry,位图索引,不唯一,所属行业,主要用于分组查询及过滤,客户维表,Customer_City,位图索引,不唯一,所在城市,主要用于分组查询及过滤,客户维表,Customer_Province,位图索引,不唯一,所在省份,主要用于分组查询及过滤,客户维表,Customer_Country,位图索引,不唯一,所在国家,主要用于分组查询及过滤,渠道维表,Channel_Pkey,B-,树索引,唯一,渠道码,主码索引,4.4,数据库的物理设计,我们在前面介绍的多维数据模型是数据仓库的逻辑模型。,物理设计的任务就是将逻辑模型转变为实际的数据库存储。,4.4,数据库的物理设计,按实际工作的先后顺序,物理设计主要包括下列内容:,制定数据库对象的命名规范,建立数据库物理模型,确定数据库索引策略,进行数据仓库数据量的估计,物理设计的具体实施,内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,5,数据仓库的数据预处理,5.1,数据的净化,5.2,数据预处理计划,5.3,维表的预处理,5.4,事实表的预处理,5.1,数据的净化,一般认为净化后的数据应该具备下述特点:,正确,清晰,及时,完整,一致,5.2,数据预处理计划(初步),订货数据,收款数据,价格数据,客户数据,产品分类,财务数据库,(RDBMS),行业产品代码规范,(MS Excel),销售管理系统,(RDBMS),历史销售数据存档,(,文本文件,),数据源:,主题数据:,每张发票对应一条收款记录,1999,年以前数据,集 成,据发票金额、数量计算价格,图,6-1,数据预处理初步计划,时间数据,客户编码表集成净化,2000,年以后数据,客户数据要缓慢更新,5.2,财务数据库,(RDBMS),销售管理系统,(RDBMS),历史销售数据存档,(,文本文件,),图,5-2,客户维数据预处理详细计划,财务系统人员提供客户数据,ftp,传递,Access,文件,Cust_Fi.dat,财务系统人员提供客户数据,ftp,传递,Access,文件,Cust_Sales.dat,文本文件,Cust_Old.txt,ftp,传递,文件类型转换,Access,文件,Cust_Old.dat,保留相关项,按客户名称排序,保留相关项,按客户名称排序,保留相关项,按客户名称排序,对比,挑选,更正,使数据一致、唯一、正确,元数据存至,Cust_ID_Map.dat,Cust_Proc1.dat,进行数据类型和长度的转换,进行地址数据的拆分,满足数据清晰性要求,Cust_Proc2.dat,补充还缺少的客户维数据信息,例如所在行业数据等,Cust_Proc3.dat,进行代理码的分配,并保留代理码分配元数据至,Cust_Surro_Map.dat,Cust_Proc4.dat,确认后,将数据装载至主题数据库,未来还需要进行数据的缓慢更新,Cust_Dim.dat,5.3,维表的预处理,基本数据预处理,维表代理码的分配,维表的变更处理,5.4,事实表的预处理,基本数据预处理,非代理码的替换,数据的更新维护(基本数据和聚集数据),内容安排,1,数据仓库概述,2,多维数据模型,3,数据仓库的体系结构,4,数据仓库的数据组织,5,数据仓库的数据预处理,6,数据仓库应用举例,6,数据仓库应用举例,工具:,SQL SERVER 2000,数据来源:武汉钢铁集团销售公司,分析主题:订货分析,6,数据仓库应用举例,数据源(,Foxprow,文件),6,数据仓库应用举例,订货主题的星型模式,6,数据仓库应用举例,数据预处理,应用,SQL Server 2000,中的数据转换服务,DTS,(,Data Transformation Services,),把不同的数据来源中的数据结合起来,并利用自身的数据转换功能把这些结合后的数据放入数据仓库之中,。,6,数据仓库应用举例,SQL SERVER,提供的分析工具:,在多维数据集构建完成后,用户直接进行,OLAP,操作,通过数据透视表服务(,PivotTable Services,),用,Excel 2000,将多维数据集中的数据取来做分析。,6,数据仓库应用举例,OLAP,分析,6,数据仓库应用举例,应用数据透视表的图形分析,谢 谢!,
展开阅读全文