收藏 分销(赏)

数据仓库与数据挖掘课件ppt.ppt

上传人:pc****0 文档编号:13095938 上传时间:2026-01-16 格式:PPT 页数:58 大小:174.50KB 下载积分:10 金币
下载 相关 举报
数据仓库与数据挖掘课件ppt.ppt_第1页
第1页 / 共58页
数据仓库与数据挖掘课件ppt.ppt_第2页
第2页 / 共58页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,课程安排,数据仓库:18学时数据挖掘:18学时考 试:撰写论文,第一章 数据仓库的基本概念,案例讨论:,下图展示了某电信公司的市场部和计划部对业务,A,是否具有市场前景的分析过程和结果。,试讨论为什么两部门分析结果不同。,企业级数据库,市场部,分析程序1,分析结果,1,:,前景很好,计划部,分析程序2,分析结果,2,:,前景不好,第一章:数据仓库的基本概念,1-1 数据仓库的产生与发展,传统的数据库技术作为数据管理手段,主要用于联机事务处理(,OLTP,On-Line Transaction Process,),,数据库中保存的是大量的日常业务数据。,在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全保密性等方面提供了有效的手段。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题:,决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。,传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。,事务处理型应用与分析决策型应用对数据库系统的性能要求不同。,传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据。,第一章 数据仓库的基本概念,结论:,在事务处理型应用环境中直接构建分析决策型应用是不可行的。,于是:,面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。,第一章 数据仓库的基本概念,时间:,20,世纪,80,年代初,人物:,W.H.Inmon,定义:,数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。,A data warehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process.,第一章 数据仓库的基本概念,数据仓库的四大特征:,数据是面向主题的,数据是集成的,数据是具有时间特征的,数据是相对稳定的,数据仓库的其它特点:,数据量非常大(10,GB-1000GB),是数据库技术的一种新的应用,使用人员较少,第一章 数据仓库的基本概念,1-2 数据仓库与数据库,操作型数据库 分析型数据仓库,系统目的,支持日常操作 支持管理需求,获取信息,使用人员,办事员、,DBA、,数据库专家 经理、管理人员、分析专家,数据内容,当前数据 历史数据、派生数据,数据特点,细节的 综合的或提炼的,数据组织,面向应用 面向主题,存取类型,添加、修改、查询、删除 查询、聚集,数据稳定性,动态的 相对稳定,第一章 数据仓库的基本概念,续上表:,操作型数据库 分析型数据仓库,需求特点,需求事先可知道 需求事先不知道,操作特点,一个时刻操作一单元 一个时刻操作一集合,数据库设计,基于,E-R,图 基于星型模式、雪花模式,一次操作数据量,一次操作数据量小 一次操作数据量大,存取频率,较高 较低,响应时间,小于3秒 几秒几十分钟,第一章 数据仓库的基本概念,1-3 数据仓库技术的术语,主题,:,(,Subject),主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。,例:面向主题:产品订货分析,货物发运分析,新产品开发分析;,面向,应用:财务,销售,供应,人力资源,生产调度.,主题域的特征:独立性,完备性,第一章 数据仓库的基本概念,粒度:,(,Granularity,),粒度是指数据仓库中数据单元的详细程度和级别。,数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率低),数据越综合,粒度越大,级别越高,回答查询的种类就越少。,第一章 数据仓库的基本概念,维度:,(,Dimension,),维度是指人们观察事物的角度。,例如:当人们关注产品销售情况时,有如下维度:,时间维:随时间变化的销售数据;,地区维:不同地区的销售数据;,客户维:不同客户的销售;,根据观察事物角度的细节程度不同,维又具有维层次。,数据;,渠道维:不同销售渠道的销售数据;,产品维:不同产品的销售数据,例:时间维:日期、周、月份、季度、年等;,地区维:城市、地区、国家等。,第一章 数据仓库的基本概念,数据立方体:,数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。,在三维的情况下可以用图形来表示,一般称为数据立方体。,实际的数据仓库的应用中,数据是多维的。,第一章 数据仓库的基本概念,联机分析处理:,(,OLAP),联机分析处理是快速、灵活的多维数据分析工具。,OLAP,的目的是支持分析决策,满足多维环境的查询和报表需求。,数据仓库的多维数据存储结构为,OLAP,的实施提供了理想的多维数据环境。,第一章 数据仓库的基本概念,数据集市:,(,Data Mart),数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。,一般在某个业务部门建立数据集市,或称为部门级数据仓库。,建立数据集市与数据仓库,一般是采用“自顶向下”和“自下而上”相结合的设计思想。,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,讨论题:,1、结合武汉理工大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。,1-4 多维数据模型,多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。,1-4-1,实体关系模型与多维模型,实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。,实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。,第一章 数据仓库的基本概念,多维数据模型以直观的方式组织数据,每一个多维数据模型由多个多维数据模式(,Dimensional Data Schema),表示。,每一个多维数据模式都是由一个事实表(,Fact Table),和一组维表(,Dimension Table),组成。,事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。,第一章 数据仓库的基本概念,企业销售数据的,多维数据模式图,第一章 数据仓库的基本概念,时间码,日期,月份,季度,年度,时间码,产品码,地区码,销 售 量,销 售 额,销售成本,产品码,产品大类,产品细类,产品名称,地区码,国 家,地 区,城 市,时间维表,事 实 表,产品维表,地区维表,多维数据模型的优势:,多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。,这种多维结构能支持最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。,多维数据模型对决策分析有好的扩展性。,汇总数据的巨大价值。,第一章 数据仓库的基本概念,1-4-2,星型模式,星型模式是事实表与维表通过星型方式连接而成,如下图:,第一章 数据仓库的基本概念,产品码(,PK),产品大类,产品细类,产品名称,地区码(,PK),国 家,地 区,城 市,产品维表,地区维表,时间码(,FK),产品码(,FK)(PK),地区码(,FK),销 售 量,销 售 额,销售成本,事 实 表,时间码(,PK),日期,月份,季度,年度,时间维表,第一章 数据仓库的基本概念,星型模式的优点:,星型模式结构简单,表的数目少,建模方便。,星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。,星型模式能较好地为数据仓库提供查询支持。,星型模式可以提高查询速度。,第一章 数据仓库的基本概念,主码、外码和代理码:,主码(,Primary Key):,主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。,外码(,Foreign Key):,外码是出现在一个表中,同时在另一个表中被定义成主码的属性。,代理码(,Surrogate Key):,所有的主码和外码一般都是采用没有具体含义的代理码,例如,从1开始的自然数编码。,第一章 数据仓库的基本概念,事实表:,事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售成本等,。,事实表中的数据一般是数值型,具有可加性。,事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。,第一章 数据仓库的基本概念,维表:,维表用于指导从不同的角度在事实表中选择数据行。,维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。,维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询的粒度。,第一章 数据仓库的基本概念,1-4-3,数据仓库的总线型结构,著名的数据仓库专家,Ralph,Kinball,认为,数据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据仓库的一个逻辑子集。,这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(,Data Warehouse Bus Architecture)。,第一章 数据仓库的基本概念,统一的维:,统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的,。,建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。,公布了统一维之后,各数据集市必须严格执行。,第一章 数据仓库的基本概念,统一的事实:,统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点;,统一的计算口径,统一的计量单位,统一的含义,事实表中要包含最详细的事实数据,即粒度最小 的数据,第一章 数据仓库的基本概念,讨论题:,1、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。,1-5 数据仓库的体系结构,1-5-1,体系结构的内容,总体框架,Zachman,框架:,回答问题,数据体系结构-数据仓库的内容是什么?,系统体系结构-存放在什么平台上?,技术体系结构-如何实现?,第一章 数据仓库的基本概念,前端工具,数 据 预,处理工具,技术体系结构图如下:,第一章 数据仓库的基本概念,预,处,理,数,据,数,据,源,数据集市,数据集市,数据集市,总 线,查询,服务,数据,元数据,OLAP,数据挖掘,其他工具,报表生成器,抽取、转换、装载,可视化,分 析,结 果,后台,前台,第一章 数据仓库的基本概念,1-5-2 相关的数据存储,数据源:,数据源是数据仓库的原始来源,是数据仓库系统开发与应用的数据基础,分为两部分;,企业内部数据源,企业外部数据源,第一章 数据仓库的基本概念,主题数据:,主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分析型用户的访问。,主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存储在数据仓库中的实实在在的表。,第一章 数据仓库的基本概念,实视图的好处:,通过建立实视图可以提高系统的响应速度;,由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。,实视图的特点:,时间是数据仓库中几乎所有数据的属性之一;,数据在装于数据仓库后,基本不发生变化;,实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程;,主题数据分为最小粒度数据和聚集数据。,第一章 数据仓库的基本概念,预处理数据:,从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。,预处理数据的作用:,保存大量的细节型业务处理数据,保存净化后的数据,存储代理码的分配,创建并存储统一的事实和统一的维,作为数据仓库的数据备份之一,第一章 数据仓库的基本概念,查询服务数据:,在数据仓库的主题数据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间的过渡数据。,查询服务分为:,查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询;,将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用;,将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。,第一章 数据仓库的基本概念,1-5-3 相关的数据服务,后台数据预处理:,数据抽取,(,Data Extraction),数据转换,(,Data Transformation),数据装载,(,Data Loading,),前台数据查询服务:,多种展现形式的数据查询,灵活的分析报表生成,访问安全保障,第一章 数据仓库的基本概念,1-5-4 相关的数据管理元数据,元数据的含义:,后台元数据与过程相关,它指导着抽取、净化和装载的过程;,前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。,它是所有数据元素表述的一种业务内容字典。,第一章 数据仓库的基本概念,元数据的内容,:,数据源元数据,预处理数据元数据,主题数据元数据,前台查询服务元数据,元数据的工作流程:,元数据的工作流程分为13个步骤。,1-6 数据仓库的数据组织,1-6-1,事实表和维表的设计,事实数据和维数据的区分:,数据是否是数值型数据,该数据是作为查询的条件还是查询的结果,事实表的设计:,明确数据集市及相应的数据源,确定事实表的粒度,确定响应的维度,完成事实表的设计,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,维表的设计:,维表中的属性值一般是文本型的、离散的及不具有可加性的。它们将最终成为分析型查询的约束条件,是分析型查询的起点,在形成的分析型报表中,维属性将成为列标题。,维表设计应注意以下两点:,维表中的维属性应该具体明确,体现出维层次的划分,能够成为分析型查询的约束条件。,由于维属性将成为列标题,所以进行维表设计时一定要注意维属性值的可读性。,1-6-2,数据聚集的设计,数据聚集的含义:,所有的数据仓库都包含数据的聚集,(,Aggregates),,,在数据仓库中进行数据的聚集是减少,OLAP,分析需要扫描的数据量及提高查询效率的最重要的方法。,为提高查询的效率,减少分析时需要访问的数据量,需要对数据按分析型查询的要求预先进行计算及汇总,并保存计算及汇总的结果,这就是聚集。,第一章 数据仓库的基本概念,数据聚集的创建方法:,确定聚集的内容可分两个步骤完成:,各个维的哪些属性上需要进行数据的聚集;,确定不同维的属性如何进行组合。,聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:,聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;,粒度不同的聚集数据不能存储在同一个聚集事实表中;,对于聚集事实表对应的相关各维,一般也要进行调整。,第一章 数据仓库的基本概念,数据聚集的创建方法:,确定聚集的内容可分两个步骤完成:,各个维的哪些属性上需要进行数据的聚集;,确定不同维的属性如何进行组合。,聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:,聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;,粒度不同的聚集数据不能存储在同一个聚集事实表中;,对于聚集事实表对应的相关各维,一般也要进行调整。,第一章 数据仓库的基本概念,1-6-3,数据仓库中的索引,在数据仓库中建立索引提高数据访问速度具有重要意义。,传统的数据库索引技术,传统的数据库索引技术目前仍然是主流。,B-,树索引(,B-Tree Index):,指针指向记录的实际地址,适合于高基数列值索引。,位图索引(,Bit-Map Index):,用,“,位,”,确定索引列的值,适合于低基数列值索引。,哈希索引(,Hash Index):,行标识与存储位置之间用哈系函数,f,进行转换。,第一章 数据仓库的基本概念,事实表的索引,事实表中的主码(组合码)索引一般采用,B-,树索引的方式。非主码索引可根据具体情况而定。,维表的索引,维表中的主码(简单码)索引一般采用,B-,树索引的方式。非主码索引一般采用位图索引。,数据仓库索引新技术,投影索引 (,Projection Index),位切片索引(,Bit-Sliced Index),连接索引 (,Join Index),R-,树索引 (,R-Tree Index),第一章 数据仓库的基本概念,1-6-4,数据库的物理设计,物理设计的任务就是将逻辑模型(前述的多维数据模型)转变为实际的数据库存储。,物理设计的内容,物理设计的内容包括如下方面:,制定数据库对象的命名规范,建立数据库物理模型,确定数据库索引策略,进行数据仓库数据量的估计,物理设计的具体实施,第一章 数据仓库的基本概念,案例分析:数据仓库的数据量估计,第一章 数据仓库的基本概念,时间维表,Time_id,Year,Quarter,Month,Week,地区维表,Geo_id,Country,Province,City,产品维表,Product_id,Pro_class,Pro_subclass,事实表,Time_id,Geo_id,Product_id,Sales,案例分析:数据仓库的数据量估计,上图假定每个维表具有50个条目,则它们的组合将在事实表中产生50*50*50个数据条目,并假定所有表中的所有属性为8个字节长度。,则所需存储空间计算如下:,维表空间为:50*5*8+50*4*8+50*3*8=4800,事实表空间为:50*50*50*4*8=4000000,总空间为:4000000+4800=4004800=3.8(,MB),可以看出,事实表空间比维表空间多得多。,第一章 数据仓库的基本概念,1-7 数据仓库的数据预处理,1-7-1,数据的净化,数据质量与数据净化:,高质量的,数据应该是正确的,高质量的,数据应该是清晰的,高质量的,数据应该是及时的,高质量的,数据应该是完整的,高质量的,数据应该是一致的,高质量的,数据应该是唯一的,第一章 数据仓库的基本概念,数据净化的方法:,不正确,数据的净化,例:,SQL,判别,校验,不清晰,数据的净化,例:客户维的拆分,“备注”类数据,不完整,数据的净化,例:缩小范围,补充数据,不,一致数据的净化,例:统一转换,不唯一,数据的净化,例:,SQL:DISTINCT,第一章 数据仓库的基本概念,1-7-2,数据预处理计划,初步计划,应包括数据抽取,数据转换,数据装载三部分内容。见下页图,详细计划,制定详细计划与实施数据预处理先从主题数据中的维表开始,然后再处理事实表。,就维表而言,先从简单的静态的维表开始,然后处理复杂的需要动态更新的维表。,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,财务数据库,(,RDBMS),行业产品代码规,范(,MS Excel),销售管理系统,(,RDBMS),历史销售数据,存档(文本文件),收款,数据,价格,数据,产品,分类,客户,数据,时间,数据,订货,数据,数据源:,主题数据:,每张发票,对应一条,收款记录,据发票金,额、数量,计算价格,客户编,码表集,成净化,客户数,据要缓,慢更新,集 成,2000,年以后,数 据,1999,年以前,数 据,1-7-3,维表的数据预处理,维表的基本数据预处理,可能的数据转换:,1、文件类型的转换,2、数据类型和长度的变换,3、错误的更正,4、消除数据的不一致性,不唯一性,5、修改数据结构与数据内容,6、补充数据达到完整性要求,7、代理码的分配,8、维表的变更处理,第一章 数据仓库的基本概念,1-7-4,事实表的数据预处理,事实表的基本数据预处理,可能的数据转换:,1、文件类型的转换,2、数据类型和长度的变换,3、度量单位的统一,4、数据的净化,5、生成最小粒度的数据,6、建立数据聚集,7、非代理码的替换,8、事实表的变更处理,9、数据聚集的更新维护,第一章 数据仓库的基本概念,非代理码的替换,事实表中的代理码必须与维表中的代理码绝对保持一致,即:事实表中的外码在相应的维表中一定要存在。,第一章 数据仓库的基本概念,时间,产品代码,客户代码,渠道代码,销售量,销售额,销售成本,时间码,产品码,客户码,渠道码,销售量,销售额,销售成本,将时间替换为时间码,将产品代码替换为产品码,将客户代码替换为客户码,将渠道代码替换为渠道码,数据聚集的更新维护,数据聚集在建立之后并不是一成不变的,需要不断的加入或删除。由于要时时刻刻保持同最小粒度数据的一致性,因此,聚集事实表的更新维护有以下方法:,1、在最小粒度数据装载入数据仓库之前,完成数据聚集的计算。,2、在最小粒度数据装载入数据仓库时,同时完成数据聚集的计算及装载。,3、在最小粒度数据装载入数据仓库之后,再用,SQL,语句完成数据聚集的计算。,增量维护的形式,即:只对新载入的最小粒度数据进行聚集的计算与更新,而不是完全重新计算所有的聚集。,第一章 数据仓库的基本概念,第一章 结束,软件推荐:,公司名称 数据仓库管理工具,IBM Visual Warehouse,SAS Warehouse Administrator,Oracle Enterprise Manager,Sybase Warehouse Studio,Sagent Sagent,Admin,CA PLATINUM,ERWin,PLATINUM,InfoPump,NCR Database Manager,第一章 数据仓库的基本概念,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服