资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章 联机分析处理,60,年代,关系数据库之父,E.F.Codd,提出了关系模型,促进了联机事务处理,(OLTP),的发展,(,数据以表格的形式而非文件方式存储,),。,1993,年,,E.F.Codd,提出了,OLAP,概念,认为,OLTP,已不能满足终端用户对数据库查询分析的需要,,SQL,对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。,因此,,E.F.Codd,提出了多维数据库和多维分析的概念,即,OLAP,。,目 录,概论,多维,OLAP,和关系,OLAP,OLAP,的体系结构,OLAP,的新发展,-OLAM,目录,概论,多维,OLAP,和关系,OLAP,OLAP,的体系结构,OLAP,的新发展,-OLAM,概 论,OLAP,的定义,OLAP,的,基本概念,OLAP,的基本分析操作,概 论,OLAP,的定义,OLAP,的,基本概念,OLAP,的基本分析操作,OLAP,的定义,OLAP,的特点,OLAP,理事会的定义,OLAP,的特征,OLAP,的,准则,OLAP,的定义,OLAP,的特点,OLAP,理事会的定义,OLAP,的特征,OLAP,的,准则,OLAP,的特点,在线性,(On Line),对用户请求的快速响应和交互式操作,由,C/S,体系结构实现。,多维分析,(Multi-dimension Analysis),是,OLAP,的核心所在。,OLAP,的定义,OLAP,的特点,OLAP,理事会的定义,OLAP,的特征,OLAP,的,准则,OLAP,理事会的定义,OLAP,是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。,OLAP,的大部分策略是将关系型的或者普通的数据进行多维数据存储,从而达到联机分析处理的目的。,OLAP,的定义,OLAP,的特点,OLAP,理事会的定义,OLAP,的特征,OLAP,的,准则,OLAP,的特征,FASMI,快速性,(Fast),系统能在数秒内对用户的多数分析要求做出反应,可分析性,(Analysis),用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告,共享性(,Shared,),在有安全保障的前提下支持多用户共享与并发操作,多维性,(Multi-dimensional),提供对数据分析的多维视图和分析,信息性,(Information),能及时获得信息,并且管理大容量信息,OLAP,的定义,OLAP,的特点,OLAP,的发展,OLAP,的特征,OLAP,的,准则,OLAP,的准则,基本特征,B,特殊特性,S,报表特性,R,维控制特性,D,概 论,OLAP,的定义,OLAP,的,基本概念,OLAP,的基本分析操作,OLAP,的基本概念,度量值,维,多维数据集,虚拟维度,父子维度,OLAP,的基本概念,度量值,维,多维数据集,虚拟维度,父子维度,度量值,度量值是人们观察事务的焦点。比如对企业来说,最受关注的其产品销售量、销售额等,度量值存放在多维数据集中的事实表中,通常为数字,即度量值是最终用户浏览多维数据集时重点查看的数字数据。,OLAP,的基本概念,度量值,维,多维数据集,虚拟维度,父子维度,维,维是指人们观察实务的角度,时间维度、地区维度,维的层次性:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述层次。时间维可以分为日期、周、月、季度、年等不同维层次,地区维也可以分为街道、城市、省、国家等不同的维层次。,维的,例子,销售地区,西南,华中,华东,四川,云南,河南,湖北,江苏,上海,OLAP,的基本概念,度量值,维,多维数据集,虚拟维度,父子维度,多维数据集,所有同质的度量值及其关联的维的维成员构成一个多维数据集。,当维数为,3,时,多维数据集表现为一个数据立方体,当维数超过,3,时,多维数据集表现为超立方体。,多维数据集是,OLAP,的核心。,每一个多维数据集都可以用一个多维数组表示。维成员作为该数组的下标、度量值为该数组元素的取值。,多维数据集可以用多维数据库实现,也可以用关系数据库实现,多维数据集例子,产品,北京,上海 化妆品,江苏 玩具,服装,电器,1 2 3 4,时间(月),销售数量:,10000,服装切片,OLAP,的基本概念,度量值,维,多维数据集,虚拟维度,父子维度,虚拟维度,虚拟维度是基于物理维度内容的逻辑维度。,可以是物理维度中的成员属性、也可以是物理维度表中的列,通过虚拟维度,可以基于物理维度表中的某个成员属性对多维数据集进行分析,而不额外占用存储空间,由于虚拟维度是基于维度的成员属性,谷只有该维度本身是被包括在多维数据集中时,才能添加使用该虚拟维度,OLAP,的基本概念,度量值,维,多维数据集,虚拟维度,父子维度,父子维度,父子维度基于两个维度表列,这两列一起定义了维度成员中的沿袭关系。,一列称为成员键列,标识每个成员;,另一列称为父键列,标识每个成员父代。所谓父代,即层次结构中的上一层节点,子列与父列必须具有相同的数据类型,而且在同一表中,父子维度的深度随其层次结构的分支而变化,概 论,OLAP,的定义,OLAP,的,基本概念,OLAP,的基本分析操作,OLAP,的基本分析操作,切片、切块、钻取、旋转等分析操作,使得用户可以从多个角度、多个侧面观察数据库中的数据、从而更加深入地了解包含在数据中的信息,OLAP,的基本分析操作,切片,切块,钻取,旋转,切片(,Slice,),切片就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员或全部属性成员来观察数据的一种分析方法。,选定一个二维子集。,OLAP,的基本分析操作,切片,切块,钻取,旋转,切块(,Dice,),切块就是在各个维上取一定区间的成员属性或全部成员属性来观察数据的一种分析方式。,可以看成是在切片的基础上,由多个切片叠和起来。,切片是切块的特例、切块是切片的扩展,切片,/,切块的例子,OLAP,的基本分析操作,切片,切块,钻取,旋转,钻取(,Drill,),钻取包含向下钻取,(Drill-down),和向上钻取,(Drill-up)/,上卷,(,Roll-up,),操作,钻取的深度与维所划分的层次相对应。,下钻是指从概括性的数据出发获得相应的更详细的数据。,上钻是指从详细的数据中获得相应的概括性的数据。,钻取的深度与维所划分的层次相对应,钻取的例子,按时间维向下钻取,按时间维向上钻取,60,OLAP,的基本分析操作,切片,切块,钻取,旋转,旋转,旋转是指改变一个报告或页面显示的维方向,旋转包括交换行和列、或是把某一行维移到列维中去,或把页面显示中的一个维和页面外的维进行交换,旋转的例子,季度与年份旋转,OLTP,数据,OLAP,数据,原始数据 导出数据,细节性数据 综合性和提炼性数据,当前值数据 历史数据,可更新 不可更新,但周期性刷新,一次处理的数据量小 一次处理的数据量大,面向应用,事务驱动 面向分析,分析驱动,面向操作人员,支持日常操作 面向决策人员,支持管理需要,OLAP VS OLTP,目录,概论,多维,OLAP,和关系,OLAP,OLAP,的体系结构,OLAP,的新发展,-OLAM,OLAP,分类,按照存储方式,OLAP,MOLAP,HOLAP,ROLAP,按照处理地点,Client OLAP,Server OLAP,混合联机分析处理,,Hybrid OLAP,OLTP,、,ROLAP,与,MOLAP,模式,多维,OLAP,和关系,OLAP,的对比,数据存储,MOLAP,和,ROLAP,的特征,星型模式,ROLAP,与,MOLAP,比较,多维,OLAP,和关系,OLAP,的对比,数据存储,MOLAP,和,ROLAP,的特征,星型模式,ROLAP,与,MOLAP,比较,数据存储结构不同,ROLAP:,关系数据库来存储数据,MOLAP:,多维数据库来存储数据,940,450,340,830,350,270,江苏,上海,北京,江苏,上海,北京,电器,电器,电器,服装,服装,服装,销售数量,销售地区,产品名称,340,270,450,350,940,830,电器,服装,北京,上海,江苏,关系数据库存储数据的方式,多维数据库存储数据的方式,940,450,340,1730,830,350,270,1450,1770,800,610,3180,江苏,上海,北京,汇总,江苏,上海,北京,汇总,江苏,上海,北京,汇总,电器,电器,电器,电器,服装,服装,服装,服装,汇总,汇总,汇总,汇总,销售数量,销售地区,产品名称,1730,1450,3180,340,270,610,450,350,800,940,830,1770,电器,服装,汇总,汇总,北京,上海,江苏,增加汇总数据的关系数据库,增加汇总数据的多维数据库,多维,OLAP,和关系,OLAP,数据存储,MOLAP,和,ROLAP,的特征,星型模式,ROLAP,与,MOLAP,比较,MOLAP,和,ROLAP,的特征比较,查询功能:,MOLAP,在查询性能和相应速度上要优于,ROLAP,空间占用:如果所有维成员组合都存在相应度量值,,MOLAP,比较节省空间,反之,当大量维成员组合不存在相应度量值,,MOLAP,会造成空间大量浪费。,分析查询能力:,MOLAP,在查询能力上要次于,ROLAP,功能强、复杂的企业级数据仓库一般选择,ROLAP,,功能单一、小型的数据集市更宜采用,MOLAP,多维,OLAP,和关系,OLAP,数据存储,MOLAP,和,ROLAP,的特征,星型模式,ROLAP,与,MOLAP,比较,星型模式,一般地,我们用一张事实表和多张维表表示星型模式。,事实表在模式图中处于中心位置,存放的是业务数据,具有可加性。,维表的信息用做对事实表进行查询时的约束条件。,事实表:用来存储事实的度量值和各个维的码值。,维 表:用来存放维的元数据(维的层次、成员类别等描述信息)。,Time_id,Sales Table,Discount%,Dollars,Units,Fact Table,Market_id,Product_id,Scenario,Product_id,Product Table,Size,Brand,Product_Desc,Dimension Table,Time_id,Year,Quarter,Period_Desc,Period Table,Dimension Table,Market_id,Market Table,Region,District,Market_Desc,Dimension Table,例子,1,例子,2,销售,事实表,时间码,(FK),产品码,(FK),地区码,(FK),销售量,销售额,地区,维表,城区码,(PK),城市,地区,国家,时间,维表,时间码,(PK),日期,月份,季度,年度,产品,维表,产品码,(PK),产品名称,产品小类,产品大类,星型,模式的形式,星系模式:多个不同的事实表共享多个维度表,且维度表不完全相同,星座模式:一系列同质而不同综合程度的事实表共享一系列维度表,雪花模式:维度层次较多,使用多个维度表来描述一个维,形成二级维表结构,可以大大减少数据冗余,节省存储空间,星系模式,销售,事实表,时间码,(FK),产品码,(FK),地区码,(FK),销售量,销售额,地区,维表,城区码,(PK),城市,地区,国家,时间,维表,时间码,(PK),日期,月份,季度,年度,产品,维表,产品码,(PK),产品名称,产品小类,产品大类,采购事实,维表,时间码,(PK),日期,月份,季度,年度,供应商,维表,供应商码,(PK),供应商名称,星座模式,年销售,事实表,月,销售,事实表,销售,事实表,时间码,(FK),产品码,(FK),地区码,(FK),销售量,销售额,地区,维表,城区码,(PK),城市,地区,国家,时间,维表,时间码,(PK),日期,月份,季度,年度,产品,维表,产品码,(PK),产品名称,产品小类,产品大类,雪花模式,销售,事实表,时间码,(FK),产品码,(FK),地区码,(FK),销售量,销售额,地区,维表,城区码,(PK),城市,地区,国家,时间,维表,时间码,(PK),日期,月份,季度,年度,产品,维表,产品码,(PK),产品名称,产品小类,产品大类,季度,维表,季码,(PK),季度,年度,维表,年码,(PK),年度,小类,维表,小类码,(PK),产品小类,大类,维表,大类码,(PK),产品大类,城市,维表,城市码,(PK),城市名,国家,维表,国家码,(PK),国家名,多维,OLAP,和关系,OLAP,数据存储,MOLAP,和,ROLAP,的特征,星型模式,ROLAP,与,MOLAP,比较,ROLAP,与,MOLAP,比较,ROLAP,优势,没有大小限制,现有的关系数据库的技术可以沿用,.,可以通过,SQL,实现详细数据与概要数据的存储,现有关系型数据库已经对,OLAP,做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、,SQL,的,OLAP,扩展,(cube,rollup),等大大提高,ROALP,的速度,MOLAP,优势,性能好、响应速度快,专为,OLAP,所设计,支持高性能的决策支持计算,复杂的跨维计算,多用户的读写操作,行级的计算,ROLAP,与,MOLAP,比较,ROLAP,缺点,一般响应速度较慢,不支持有关预计算的读写操作,SQL,无法完成部分计算,无法完成多行的计算,无法完成维之间的计算,MOLAP,缺点,增加系统复杂度,增加系统培训与维护费用,受操作系统平台中文件大小的限制,难以达到,TB,级,(,只能,1020G),需要进行预计算,可能导致数据爆炸,无法支持维的动态变化,缺乏数据模型和数据访问的标准,目 录,概论,多维,OLAP,和关系,OLAP,OLAP,的体系结构,OLAP,的新发展,-OLAM,OLAP,的体系结构,OLAP,的多层结构,OLAP,的,Web,结构,OLAP,的多层结构,OLAP,的实现基于,C/S,模式,逻辑上的,OLAP,结构由,OLAP,视图、数据存储技术两个部分组成,OLAP,的物理结构包括基于数据存储技术的两种方式:多维数据存储、关系数据存储,OLAP,的逻辑结构,OLAP,视图:对于用户来说,是数据仓库中数据的逻辑表示,无论数据怎样存储和存储在何处;,数据存储技术:数据实际存储的方式和位置,两种常用的方式是多维数据存储、关系数据存储。,OLAP,的物理结构,多维数据存储在客户端、或者,OLAP,服务器(三层的,C/S,),OLAP,的,Web,结构,用,Web,结构来组织,OLAP,应用,Web,服务器负责完成浏览器与数据库服务器之间的交互(,CGI,、,ASP,、,API,等),在客户端,采用,HTML/JSP/ActiveX,等完成与用户的交互和控制,OLAP,的,Web,结构,OLAP,的,Web,结构,三种实现方法:,静态的,HTML,报表;,通过元数据和模板,动态生成报表;,使用,Java,或,ActiveX,等技术,用户界面更加友好,方便。,目 录,概论,多维,OLAP,和关系,OLAP,OLAP,的体系结构,OLAP,的新发展,-OLAM,OLAP,的新发展,-OLAM,OLAM,应该具有的功能特征,OLAM,的主要发展方向,基于,Web,的,OLAM,需要解决的问题,OLAP,的新发展,-OLAM,OLAM,应该具有的功能特征,OLAM,的主要发展方向,基于,Web,的,OLAM,需要解决的问题,OLAM,应该具有的功能特征,OLAM,应具有极大的挖掘能力,OLAM,能提供灵活的挖掘算法选择机制,OLAM,的挖掘算法是基于多维数据模型的,基于,C/S,体系结构,具有较高的执行效率和较快的响应速度,OLAM,应该有直观灵活的可视化和良好的扩展性,OLAP,的新发展,-OLAM,OLAM,应该具有的功能特征,OLAM,的主要发展方向,(,基于,Web),基于,Web,的,OLAM,需要解决的问题,基于,Web,的,OLAM,(,B/S,体系结构),OLAM,的主要发展方向,客户在浏览器通过表单递交数据挖掘请求至,Web,服务器,Web,服务器调用相应的服务器端应用程序,接受挖掘请求,并将挖掘请求传递给,OLAM,服务器,OLAM,服务器将挖掘请求解释为具体的挖掘操作与数据库,/,数据仓库服务器交互完成挖掘过程,OLAM,服务器将挖掘结果传给,Web,服务器,Web,服务器将结果生成,Web,页反馈给浏览器端的用户,OLAP,的新发展,-OLAM,OLAM,应该具有的功能特征,OLAM,的主要发展方向,基于,Web,的,OLAM,需要解决的问题,基于,Web,的,OLAM,须解决的问题,数据描述语言的标准化,网络响应速度问题,OLAM,服务器的执行效率问题,OLAP,展望,面向对象的联机分析处理,O3LAP(Object-Oriented OLAP),对象关系的联机分析处理,OROLAP(Object Relational OLAP),分布式联机分析处理,DOLAP(Distributed OLAP),时态联机分析处理,TOLAP(Temporal OLAP),
展开阅读全文