收藏 分销(赏)

数据仓库简介.ppt

上传人:xrp****65 文档编号:13089381 上传时间:2026-01-14 格式:PPT 页数:68 大小:1.52MB 下载积分:10 金币
下载 相关 举报
数据仓库简介.ppt_第1页
第1页 / 共68页
数据仓库简介.ppt_第2页
第2页 / 共68页


点击查看更多>>
资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,数据仓库技术,谭义红:,15873193369,;,QQ:2647724,yhtan09,2,课程介绍,性质,是信科专业的主要专业课程、是决策支持系统方向的重要课程,目的,理解数据仓库及,OLAP,的相关概念,了解数据仓库及,OLAP,的发展趋势和应用领域,掌握数据仓库的设计、构建,数据的准备、转换、装载,数据的浏览、分析等方法和技术。,相关课程,数据库、数据挖掘、决策支持系统设计与开发,3,为什么学本课程(,Why,),信息技术在商业中发展,管理信息系统(,MIS,),企业资源计划系统(,ERP,)、客户关系管理(,CRM,),商业智能系统(,BI,),发展过程中存在的问题,数据可信性,生产率问题,无法将数据转化为信息,4,为什么学本课程(,Why,),BI,定义(,IBM,):商业智能是一系列由系统和 技术支持的以简化信息收集和分析的策略集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终战略性决策的智能、客户服务和供应链管理。,包括:数据仓库(,DW,)、联机分析(,OLAP,)、,数据挖掘(,DM,),工具:,IBM,、,Oracle,、,Microsoft,、,SAS,、,CA,等,5,为什么学本课程(,Why,),市场需求(岗位),数据仓库工程师,岗位要求,1,、,岗位要求,2,、,岗位要求,3,数据仓库开发工程师,岗位要求,1,数据仓库,BI,架构师,岗位要求,数据仓库高级开发工程师,岗位要求,数据仓库测试工程师,岗位要求,数据仓库咨询师,岗位要求,6,本课程的主要内容(,What,),数据仓库与,OLAP,的相关理论知识,数据仓库设计,数据准备、转换、装载(,SSIS,),多维数据集操作及分析,(SSAS),多维数据分析报表,(SSRS),7,如何学好本课程(,How,),重视相关概念和原理的理解,从全局把握上把握数据仓库创建、管理及,OLAP,分析技术框架,从微观角度掌握具体技术细节,主动、认真做好实验及课程设计,8,教材:,数据仓库设计:现代原理与方法,(美),Matteo,Golfareli,著,9,1,),(,美,)JOY MUNDY.,数据仓库工具箱,-,面向,SQL SERVER 2005,和,MICROSOFT,商业智能工具集,.,北京:清华大学出版社,2007,2),于宗民,刘义宁,祁国辉,.,数据仓库项目管理实践,.,北京:人民邮电出版社,2006,朱德利,.SQL Server 2005,数据挖掘与商业智能完全解决方案,.,北京:电子工业出版社,,2007.,数据仓库与,OLAP,概述,1.1,决策支持系统,1.2,数据仓库,1.3,数据仓库的体系结构,1.4,数据准备与,ETL,1.5,多维模型,1.6,元数据,1.7,访问数据仓库,1.8,多维数据的存储方式,1.9,小结,11,1.1,决策支持系统,决策支持系统,DSS(decision,support system),是可扩展交互式,IT,技术和工具的集合,这些技术和工具用于处理和分析数据以及辅助管理人员制定决策。为此,这种系统匹配管理人员的个人资源和计算机资源,以提高决策质量。,12,1.2,数据仓库,数据仓库的引入,商品名称,生产厂家,销售时间,销售地,销售员,销售量,空调,美的,2009.3.12,北京,001,2,空调,格力,2009.5.3,长沙,002,3,空调,美的,2009.5.10,北京,001,2,空调,格力,2009.6.3,长沙,002,3,空调,美的,2009.7.10,北京,001,2,空调,格力,2009.8.3,长沙,002,3,空调,美的,2009.10.10,北京,001,2,空调,格力,2009.11.3,长沙,002,3,电视机,TCL,2009.10.3,长沙,003,3,了解格力空调在长沙的月销售情况,了解各品牌空调在各城市的月销售情况,了解各销售员的月销售情况,13,1.2,数据仓库,数据仓库的引入,14,1.2,数据仓库,数据仓库的引入,15,1.2,数据仓库,数据仓库的概念和特点,概念,:,数据仓库(,DataWarehouse,,,DW,)是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。,特点:,面向主题,主题是在较高层次上将企业信息系统中的数据综合、归类和分析利用的抽象概念。每个主题对应一个分析领域。,典型主题:客户、产品、销售、利润、保险等,每个主题域都是以一组相关的表来具体实现,通过公共关键字建立联系,16,1.2,数据仓库,17,1.2,数据仓库,18,各子系统建立数据库情况,子系统,数据库名称,数据字段,销售子系统,顾客,顾客号,姓名,性别,年龄,文化程度,地址,电话,销售,员工号,顾客号,商品号,数量,单价,日期,采购子系统,订单,订单号,供应商号,总金额,日期,订单细则,订单号,商品号,类别,单价,数量,供应商,供应商号,供应商名,地址,电话,库存管理子系统,领料单,领料单号,领料人,商品号,数量,日期,进料单,进料单号,订单号,进料人,收料人,日期,库存,商品号,库房号,库存量,日期,库房,库房号,仓库管理员,地点,库存商品描述,人事管理子系统,员工,员工号,姓名,性别,年龄,文化程度,部门号,部门,部门号,部门名称,部门主管,电话,1.2,数据仓库,19,面向主题的数据组织,主题,信息类,数据字段,商品,商品固有信息,商品号,商品名,类别,颜色,商品采购信息,商品号,供应商号,供应价,供应日期,供应量,商品销售信息,商品号,顾客号,售价,销售日期,销售量,商品库存信息,商品号,库房号,库存量,日期,供应商,供应商固有信息,供应商号,供应商名,地址,电话,供应商品信息,供应商号,商品号,供应价,供应日期,供应量,顾客,顾客固有信息,顾客号,顾客名,性别,年龄,文化程度,住址,电话,顾客购物信息,顾客号,商品号,售价,购买日期,购买量,1.2,数据仓库,20,1.2,数据仓库,数据仓库的概念和特点,(续),特点,数据的集成性,数据仓库中存储的数据是从原来分散在各个子系统中的数据提取出来的,经过处理后得到的。,21,1.2,数据仓库,数据的集成性,22,1.2,数据仓库,数据仓库的概念和特点,(续),特点,数据不可修改性,数据仓库中的数据是不可更新的,只能通过分析工具进行查询、分析。,23,1.2,数据仓库,数据仓库的概念和特点,(续),特点,数据与时间相关,数据随时间变化而定期地被更新,24,1.2,数据仓库,数据仓库与传统数据库的比较,传统数据库(事务性)数据,数据仓库(决策支持)数据,面向应用:数据服务于某个特定的商务过程或功能(,OLTP,)。,面向主题:数据服务于某个特定的商务主题,例如客户信息等。它是非规范化数据(,OLAP,)。,细节数据,例如包含了每笔交易的数据。,对源数据进行摘要,或经过复杂的统计计算。例如一个月中交易收入和支出的总和。,结构通常不变,结构是动态的,可根据需要增减。,易变性(数据可改变),非易变(数据一旦插入就不能改变)。,事务驱动,分析驱动。,一般按记录存取,所以每个特定过程只操作少量数据。,一般以记录集存取,所以一个过程能处理大批数据,例如从过去几年数据中发现趋势。,反映当前情况。,反映历史情况。,通常只作为一个整体管理。,可以分区管理。,系统性能至关重要,因为可能有大量用户同时访问。,对性能要求较低,同时访问的用户较少。,1.2,数据仓库,数据仓库带来的好处,提供决策支持。,应用于,证券,、,银行,、,保险,、,移动通讯,、,商品销售,、,其它,等行业。,25,26,1.3,数据仓库体系结构,数据仓库系统的特点,分离性,可扩展性,安全性,可管理性,体系结构分类,面向结构的类型,单层体系结构,两层体系结构,三层体系结构,面向应用层次的类型,独立数据集市,星型结构,联盟体系结构,27,1.3,数据仓库体系结构,面向结构的类型,单层体系结构,28,1.3,数据仓库的体系结构,数据仓库体系结构示意图,两层体系结构,29,1.3,数据仓库体系结构,数据流,数据源层,关系数据库、或其它系统数据库,数据准备,提取、转换、加载(,ETL,),数据仓库层,数据仓库、数据集市,分析,报表、信息分析、,OLAP,、数据挖掘,30,1.3,数据仓库体系结构,层次数据(企业信息源),31,1.3,数据仓库体系结构,层次数据(企业信息源),32,1.3,数据仓库体系结构,数据集市,(,Data Marts,),定义,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也称部门数据或主题数据。,如:财务部门的数据集市,与数据仓库的关系,数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。,33,1.3,数据仓库体系结构,数据集市,(,Data Marts,)(续),特性,规模小,特定的应用,面向部门,由业务部门定义,设计和开发,由业务部门管理和维护,快速实现,购买较便宜,投资快速回收,更详细的、预先存在的数据仓库的摘要子集,可升级到完整的数据仓库,34,1.3,数据仓库体系结构,数据集市,(,Data Marts,)(续),35,1.4,数据准备和,ETL,数据集成(抽取、转换、装载,-ETL,),36,1.4,数据准备和,ETL,数据集成(抽取、转换、装载,-ETL,),37,1.5,多维模型,多维模型,概念,是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。,特性,多维,也称作立方体(或超立方体),提供一种便于使用的查询数据的机制。,38,1.5,多维模型,39,1.5,多维模型,度量值(,Measure,),度量值是一组值,是客户发生事件或动作的事实记录。,如:,客户打电话,记录次数和费用等;,超市客户销售,记录销售数量、金额等等。,度量值所在的表称为事实数据表,常规多维数据集的结构中只能有一个事实数据表。,40,1.5,多维模型,维度(,Dimension,),维度(也简称为维)是人们观察数据的角度。,例如,时间维,地区维等。,包含维度信息的表是维度表,维度表包含描述事实数据表中的事实记录的特性。,描述维度的字段称为维度属性,41,1.5,多维模型,维度成员(,Dimension Member,),维的一个取值称为该维的一个维度成员(简称维成员)。,例如,考虑时间维具有日、月、年这,3,个级别,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即,“,某年某月某日,”,。,42,1.5,多维模型,维度的层次结构,定义,层次结构是维度中成员的集合以及这些成员之间的相对位置。,如,地址维:洲、国家、城市、区、街道、门牌号,类型,均衡层次结构,层次结构的所有分支都降至同一级别,每个成员的逻辑父代就是其上级成员。,不均衡层次结构,层次结构的所有分支都降至不同级别,每个成员的逻辑父代就是其上级成员。如,CEO/,部门经理(,/,员工)、执行秘书,不规则层次结构,43,1.5,多维模型,维的级别(,Dimension Level,),人们观察数据的某个特定角度(即某个维)还可以存在不同的细节程度,我们称这些维度的不同的细节程度为维的级别。,一个维往往具有多个级别,.,例如描述时间维时(“月、季度、年”为层次结构),则月、季度、年为,3,个级别,可从不同级别来描述。,44,1.5,多维模型,45,1.5,多维模型,限制,限制数据:从立方体分离部分数据来选出分析字段。在关系代数中称为选择、投影,切片、切块操作,聚合,将多个子多维数据集合并成更大的多维数据集。,46,1.6,元数据,元数据,定义,描述数据仓库内数据的结构和建立方法的数据,即:定义数据的数据。,作用,对,DW,中的每个数据进行说明,以及数据间关系,为决策支持分析提供便利,也为操作型数据向分析型数据间转换提供支持。,47,1.7,访问数据仓库,报表,OLAP,数据挖掘,48,1.7,访问数据仓库,OLAP,(,Online Analytical,Processing,OLAP,),1993,年,,E.F.Codd,提出,OLAP,定义,OLAP,称联机分析处理,也称在线分析处理。是一种数据动态分析模型,以多维数据集的多维结构表示由来自商业数据源(如数据仓库),并经过聚合和组织整理的数据。使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。,OLAP,通过创建多维数据集,并对其进行切片、切块、钻取和旋转等数据操作,并进一步支持决策支持系统。,49,1.7,访问数据仓库,特点,快速性,:,系统应能在秒级内对用户的大部分分析要求做出反应。,可分析性,:,OLAP,系统能处理与应用有关的任何逻辑分析和统计分析。,多维性,系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。,信息性,OLAP,系统应能及时获得并管理海量信息,50,1.7,访问数据仓库,多维分析方法,方法,上卷,下钻,切片,切块,旋转,目的,从多个角度、多个侧面观察数据库中的数据。,51,1.7,访问数据仓库,上卷(,Roll-Up,),在数据立方体中执行聚集操作,通过在维级别中上升来观察更概括的数据。,沿着时间维上卷,由“季度”上升到半年,52,1.7,访问数据仓库,上卷,通过消除一个或多个维来观察更加概况的数据。,消除“经济性质”维度,53,1.7,访问数据仓库,下钻(,drill-down,),通过在维级别中下降或通过引入某个或某些维来更细致的观察数据。,沿时间维下钻,54,1.7,访问数据仓库,切片(,slice,),在给定的数据立方体的一个维上进行的选择操作。切片的结果是得到了一个二维的平面数据。,“,时间,1,季度,”,55,1.7,访问数据仓库,切块(,dice,),在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个子立方体。,(,度量值,“,正常,”,or,“,次级,”,),And,(时间,“,1,季度,”,or,“,2,季度,”,),56,1.7,访问数据仓库,转轴(,pivot or rotate,),转轴就是改变维的方向。,交换,“,时间,”,和,“,经济性质,”,轴,57,1.7,访问数据仓库,特点,OLTP(,联机事务处理,),OLAP,(联机分析处理),目的,支持事务处理,支持分析决策,数据库大小,数据库通常比较小,,数据库通常很大,,同时访问的,用户数,可以是大量用户,用户数小,决策人员或分析人员,响应时间,查询都要求迅速响应,对查询时间的要求相对较低,数据改变,插入、更新和删除操作,只通过批量导入更新数据,查询的复杂,度,数据高度规范化,通常需要进行多表的连接,数据是非规范化的,因此读,取数据时需要的表间连接很少,OLAP,与,OLTP,的区别,58,1.7,访问数据仓库,OLAP,的好处,市场和销售分析,点击流分析,基于历史数据的营销,预算,利益率分析,59,1.7,访问数据仓库,数据仓库与,OLAP,联系,数据仓库和联机分析处理一般适用于决策支持系统或业务智能系统的不同组件。,区别,数据仓库是一个过程,包含那些通常表示某个企业的历史数据和一些应用程序。对数据仓库中的数据进行组织是为了支持分析。,OLAP,技术使数据仓库能够快速响应重复而复杂的分析查询。,60,1.7,访问数据仓库,数据仓库与,OLAP,OLAP,为数据仓库数据提供了一种多维表现方式,而数据仓库结构的设计又会影响多维数据集设计和建立的难易程度。,61,1.7,访问数据仓库,关系数据库,数据文件,其他,OLTP,数据仓库,数据文件,其他,OLAP,事务处理,数据上传、转换处理,分析处理,关系数据库、,OLTP,、数据仓库与,OLAP,62,1.8,多维数据的存储方式,SQL Server,的,Analysis,三种多维数据存储方式,:,MOLAP,(多维,OLAP,,,Multidimensional OLAP,),ROLAP,(关系,OLAP,,,Relational OLAP,),HOLAP,(混合,OLAP,,,Hybrid OLAP,),63,1.8,多维数据的存储方式,ROLAP,ROLAP,的数据与计算结果直接由原来的关系数据库取得。,ROLAP,将支撑多维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系数据库中,并用独立的关系表来存放聚集数据。,不存储源数据副本,占用的磁盘空间最少,但存取速度也比较低。,64,1.8,多维数据的存储方式,MOLAP,MOLAP,使用多维数组存储数据,它是一种高性能的多维数据存储格式。,多维数据在存储中将形成,“,立方体,”,的结构。,MOLAP,存储模式将数据与计算结果都存储在立方体结构中,并存储在分析服务器上。,该结构在处理维度时创建。,存取速度最快,查询性能最好,但占用磁盘空间较多。,65,1.8,多维数据的存储方式,HOLAP,ROLAP,与,MOLAP,存储方式的结合。,原始数据和,ROLAP,一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储分析服务器。,优点:,既能与关系数据库建立连接,同时又利用了多维数据库的性能优势。,缺点,是在,ROLAP,和,MOLAP,系统之间的切换会影响它的效率。,66,1.8,多维数据的存储方式,内容,MOLAP,ROLAP,HOLAP,源数据的副本,有,无,无,占用分析服务器存,储空间,大,小,小,使用多维数据集,小,较大,大,数据查询,快,慢,慢,聚合数据的查询,快,慢,快,使用查询频度,经常,不经常,经常,三种存储方式的比较,作业,从,Internet,网搜索至少,5,个数据仓库系统,并简单介绍其中一个系统的作用和功能。(要求写出系统名称和网页地址),67,68,小结,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,这些也正是其区别于传统操作型数据库的特性所在。,OLAP,又称为多维数据分析,它的多维性、分析性、快速性和信息性成为分析海量历史数据的有力工具,。,数据仓库的体系结构:数据库、数据抽取、转换、加载、元数据、访问工具、数据集市、管理平台、信息发布系统。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服