收藏 分销(赏)

数据仓库概念及相关技术PPT.ppt

上传人:快乐****生活 文档编号:10181239 上传时间:2025-04-25 格式:PPT 页数:38 大小:1.48MB 下载积分:12 金币
下载 相关 举报
数据仓库概念及相关技术PPT.ppt_第1页
第1页 / 共38页
数据仓库概念及相关技术PPT.ppt_第2页
第2页 / 共38页


点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Teradata Confidential,#,数据仓库的概念和相关技术,Arwen.Liu,MAR,2010,目录,数据仓库相关概念,BI,技术工具,分析与应用,项目实施方法,知识索引,知识导引,什么是数据仓库?,什么是,DSS,?,什么是经营分析?,什么是,EIS,?,什么是,OLTP,,,OLAP,?,什么是,BI,?,BO,、,COGNOS,、,安讯、,BRIO,、,Teradata,、,SAS,、,SPSS,即席查询报表,特殊抽取程序,小应用程序,信息中心,决策支持系统,主管信息系统,数据仓库系统,BI,90,年代提出,,90,年代中形成潮流,BI,描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。,Gartner Group1996,商业智能领域:,DSS,、,OLAP,、数据仓库、,ETL,、数据集市、数据挖掘、商业建模,.,为提高企业运营性能而采用的一系列方法、技术和软件的总和,70,年代,70,年代提出,,80,年代得到发展,三层模式,外部模式,内部模式,二层模式:,不同的数据库类型,(,层次、关系,),,不同的数据库产品,导致重复的开发,外部模式,内部模式,概念模式,三层模式:,增加概念模式,作为单一的定义,不偏向于任何数据类型,/,访问方法,提供一致性访问,具有高可扩展性,概念模式为外部模式和内部模式提供了桥梁作用。概念模式的定义产生了数据建模技术。常用的方法包括:,IDEF1x,、,IE,等。,IDEF,方法,20,实际,70,年代,为了系统利用计算机技术提高制造效率,美国空军发起集成计算机辅助制造计划,ICAM,,以便让人们更好的分析和交流技术。,ICAM,最终发展成,IDEF,系列方法。,IDEF0,:用于产生“功能模型”,用结构化的方式来展现一个环境活系统中的活动或者处理;,IDEF1x,:用于产生“信息模型”,展现一个环境或者系统中的信息机构;,IDEF3,:用于产生“过程模型”,展现一个特定系统如何运作、处理;,IDEF1x,EBD,:,描述实体和关系,KB,:,:定义键,包括主键、外键等,FA,:描述全部属性,TM,:与具体数据库的映射关系,DBMS,:特定的数据库模型,逻 辑 模 型,物理模型,KBSI,产品,IDEF0,功能模型,(Function Modeling),IDEF1X,数据模型(,Data Modeling,IDEF2,仿真模型设计(,Simulation Model Design,IDEF3,过程描述获取(,Process Description Capture,IDEF4,面向对象设计(,Object-Oriented Design,),IDEF5,本体论描述获取(,Ontology Description Capture,),IDEF6,设计原理获取(,Design Rationale Capture,),IDEF7,信息系统审定(,Information System Auditing,),IDEF8,人与系统接口设计,(Human-System Interface Design),用户接口建模(,User Interface Modeling,),IDEF9,经营约束的发现(,Business Constraint Discovery,),场景驱动信息系统设计(,Scenario-Driven IS Design,),IDEF10,信息制品建模(,Information Artifact Modeling,),实施体系结构建模,(Implementation Architecture Modeling),IDEF11,信息工具建模(,Information Artifact Modeling,),IDEF12,组织设计,(Organization Design),组织建模(,Organization Modeling,),IDEF13,三模式影射设计(,Three Schema Mapping Design,),IDEF14,网络设计(,Network Design,),数据仓库的定义,数据仓库(,Data Warehouse,)是一个面向主题的(,Subject Oriented,)、集成的(,Integrated,)、相对稳定的(,Non-Volatile,)、反映历史变化(,Time Variant,)的数据集合,用于支持管理决策,(Decision Making Support),。,-,Bill Inmon,什么是数据仓库,相关概念,以,Data Warehouse,技术为基础,以,OLAP,和,Data Mining,工具为手段实施的一套解决方案。,DSS,(,Decision Support System,),相关概念,EIS,:主管信息系统(,Executive Information System,),指为了满足无法专注于计算机,技术,的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。,ETL,:数据抽取(,Extract,)、转换(,Transform,)、装载(,Load,)的过程。它是构建数据仓库的重要环节。,Data Mart,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数(,subjectarea,)。,经营分析系统:,Business Analysis Support System,。,元数据:,元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为,技术元数据、业务元数据和管理元数据,。,数据质量:,数据质量管理平台能够使得数据质量管理流程,自动化、集中化、智能化,ROLAP,(关系型在线分析处理),MOLAP,(多维在线分析处理),HOLAP,(混合型线上分析处理)。,Data Warehouse,Artificial,Intelligence,Data Mart,OLAP,Decision Support System,Data Mining,Operation Database,Business Intelligent System,Database System,各种概念之间的关系,数据仓库领域的两位大师,Ralph Kimball,数据,仓库,方面的知名学者,理论:,Mutildimensional Architecture(MD),Bill,Inmon,数据仓库之父,数据仓库概念的创始人,理论:,Corporate Information Factory(CIF),主要著作:,数据仓库,、,企业信息工厂,VS,主要著作:,数据仓库工具箱维度建模的完全指南,、,数据仓库生命周期工具箱 设计、开发和部署数据仓库的专家方法,生活中的朋友,学术上的对头,双方的观点,围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含该主题相关的信息;数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,创建以数据仓库为来源的数据集市,数据仓库是数据集市的联合,通过一系列相同维度定义的数据集市递增地构建数据仓库,而每个数据集市通过联合多个数据源来满足特定的业务需求,自上而下,自下而上和自上而下的结合:,双方的观点,使用数据集市联合的方式,开始会带来极高的用户体验,但随着数据集市的增多,会形成网状结构,建设重复,数据质量变差。,使用数据总线的结构来控制数据集市点建设,所有的数据集市在一套总线环境中,有相同的维度定义,故既可以迅速部署、满足业务需求,也可以规范的形成数据仓库,Inmon,Kimball,双方的数据仓库架构对比,集成转换层(,Integrated and Transformation Layer)、,操作数据存储(,Operational D,ata,Store)、,数据仓库(,Ent,erp,rise Data Warehouse)、,数据集市(,Data Mart)、,探索仓库(,Exploration Warehouse),Inmon-CIF(DW2.0),双方的数据仓库架构对比,MD,分为后台(,Back Room,)和前台(,Front Room,)两部分。后台主要负责数据准备工作,称为数据准备区(,Staging Area,),前台主要用于数据展示,称为数据集市(,Data Mart,)。全部数据集市的集合构成了数据仓库,从这种意义上说,它只是一个虚拟的部件。,Kimball-MD,Back Room,Front Room,事务表、周期快照表、累计快照表,非事实型事实表、退化维、缓慢变化维、快变超大维,不可加型事实、半加型事实、可加性事实,数据仓库的特点,面向主题:,操作型数据库的数据组织,面向事物处理,任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。,集成的:,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。,相对稳定的:,数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。,反映历史变化:,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点,(,如开始应用数据仓库的时点,),到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,OLTP,与,OLAP,针对特定问题的联机数据访问和数据分析技术,满足对数据进行多角度、快速、一致、交互、深入观察,使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。,多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。,。,On-Line Analytical Processing,On-Line Transaction Processing,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统,(Real time System),。衡量,联机,事务处理系统,的一个重要性能指标是系统性能,具体体现为实时响应时间,(Response Time),,即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。,OLTP,数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。,OLTP,OLAP,用户,操作人员,低层管理人员,决策人员,高级管理人员,功能,日常操作处理,分析决策,DB,设计,面向应用,面向主题,数据,当前的,最新的细节的,二维的分立的,历史的,聚集的,多维的集成的,统一的,存取,读,/,写数十条记录,读上百万条记录,工作单位,简单的事务,复杂的查询,用户数,上千个,上百个,DB,大小,100MB-GB,100GB-TB,OLTP,与,OLAP,ROLAP,表示基于关系数据库的,OLAP,实现(,Relational OLAP,)。,MOLAP,表示基于多维数据组织的,OLAP,实现(,Multidimensional OLAP,)。,经分系统数据仓库整体架构,数据仓库的主题划分,客户主题(,PAR,):,关注中国移动的客户(个人客户、集团客户、家庭客户),并记录客户状态的变化,服务主题(,PDT,):,服务主题:通过对中国移动实际业务的抽象表达,概括移动的主要业务和产品,描述中国移动向客户提供的产品以及客户对产品的选择和定制,。,资源主题,(RES),:资源是移动公司拥有的为客户提供服务的所有载体和团体,包括服务资源、网络资源、地域资源和渠道资源,服务使用主题,(BLL),:记录用户对各项服务的使用清单,并按照一定的原则对清单进行分类,帐务主题,(FIN),:记录用户的付费计划、各帐目项相应的费用金额等;,结算主题,(SETT),:描述与合作服务方之间发生的结算帐单、结算清单,按一定的原则对结算清单做了分类归并,客服主题,(SRV),:概括描述中国移动在客户接触过程中产生的交互信息,并对各种交互渠道和接触方式进行了整合,营销主题,(EVT),:描述中国移动针对特定的市场环境及客户群体所进行的市场宣传、促销等计划与活动,目录,数据仓库相关概念,BI,技术工具,分析与应用,项目实施方法,知识索引,工具分类,建模工具:,Powerdesigner,、,Erwin,ETL,工具:用于数据的集成和处理,Datastage,、,Infomatic,、,Automation,数据质量工具:一般集成在,ETL,工具中,分析工具:,报表工具:,BO,、,COGNOS,、安讯、润乾、,BRIO,OLAP,工具:,COGNOS,、,BO,BI,分析门户:一般集成在分析工具中,数据挖掘工具:,SAS,、,SPSS,元数据管理工具:,metacenter,、石竹、,CA,、,Infomatic,开源,BI,工具报表工具,Eclipse BIRT,Eclipse,下面的一个企业智能和报表 工具,能为,J2EE,的,WEB,应用程序创建漂亮醒目的,PDF,或者,HTML,格式的报表,它提供了核心的报表功能,JasperReports,Java,报表工具,始于,2001,,现在,JasperSoft,公司持续开发和支持该工具。该工具类似于商业软件,Crystal Report,,支持,PDF,、,HTML,、,XLS,、,CSV,和,XML,文件输出格式,现在是,Java,开发者最常用的报表工具。,JFreeReport,现在是,Pentaho,的一部分,它是一个优秀的用来生成报表的,Java,类库。它为,Java,应用程序提供一个灵活的打印 功能并支持输出到打印机和,PDF,Excel,HTML,和,XHTML,PlainText,XML,和,CSV,文件中。,开源,BI,工具,OLAP,工具,Mondrian,是,Pentaho,的一部分,为一个用,Java,开发的,OLAP,服务器,实现了,MDX,语言、,XML,解析和,JOLAP,规范,可以不写,SQL,就能分析存储于,SQL,数据库的庞大数据集,可以封装,JDBC,数据源并把数据以多维的方式展现出来,JPivot,一个,JSP,自定制的标签库,可以绘制一个,OLAP,表格和图表。用户可以执行 典型的,OLAP,导航,如下钻,切片和方块。它使用,Mondrian,作为其,OLAP,服务器。它使用,WCF(Web Component Framework),,基于,XML/XSLT,来渲染,Web UI,组件。,开源,BI,工具,ETL,工具,KETL,由具有,IBM,和,KPMG,背景的,Kinetic Networks,公司开发,现在已经有三年多的产品应用历史,成功应用于一些产品中,在点击流(,ClickStream,)分析应用中表现出色。,KETL,采用,Plug-in,的架构,使用,Java,开发,KETTLE,一个元数据驱动的,ETL,工具。已经加入,Pentaho,。,Clover ETL,一个基于,Java,的,ETL Framework,,可以用来开发自己的,ETL,应用,Enhydra Octopus,一个基于,Java,的,ETL,工具,使用,JDBC,来连接各种数据源,易于使用和部署。,开源,BI,工具,BI,平台,Pentaho,一个以工作流为核心的、强调面向解决方案而非工具组件的,BI,套件,整合了多个开源项目,工作流引擎:,Shark and JaWE,数据库:,Firebird RDBMS,集成管理和开发环境:,Eclipse,报表工具:,Eclipse BIRT,ETL,工具:,Enhydra/Kettle,OLAP Server,:,Mondrian,OLAP,展示:,JPivot,数据挖掘组件:,Weka,应用服务器和,Portal,服务器:,JBoss,单点登陆服务及,LDap,认证:,JOSSO,自定义脚本支持:,Mozilla Rhino Javascript,脚本处理器,。,开源,BI,工具,BI,平台,SpagoBI,集成了,Mondrain,和,JProvit,,能够通过,OpenLaszlo,产生实时报表。,SpagoBI,使用,java,开发,不依赖于具体的操作系统,有很强的扩展能力,报表工具:,JasperReports/Eclipse BIRT/iReport,OLAP Server,:,Mondrian,OLAP,展示:,JPivot,数据挖掘组件:,Weka,Map,引擎:,Geo,ETL,:,BIE,搜索引擎:,Lucene,Dashboard,:,OpenLaszlo,Portal Server,:,JBoss/Tomcat/JOnAS,。,目录,数据仓库相关概念,BI,技术工具,分析与应用,项目实施方法,知识索引,DSS,的产品包含什么,方法论,数据仓库,技术组件与功能,应用分析集合,数据组织过程与个性应用实现,产品,数据仓库项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针,数据模型的建模方法;,统一的概念模型、逻辑模型;,数据库中对应的组织(物理化),ETL,功能组件;,前端门户组件、模版;,元数据管理;,用户与组织;,权限组织;,面向业务的分析;,面向问题的专题;,固定报表;,即席查询分析;,KPI,;,分析、互动流程,数据的加载、清洗、组织规划的过程;,用户本地的需求整理与实现;,与开发者的经验、技能相关;,用户需要分角色,矿工,勘探员,农夫,操作员,旅行者,老总,/,经理,KPI,,仪表盘,简单的综合信息报表,营销人员,当前周期的数据,明细数据,直接获取下载,用来做业务,分析员,有一定的分析能力,对预定义的报表、查询感兴趣,偶尔使用灵活的动态报表组合自己需要的在综合信息,熟练的分析员,精通分析技术,对数据敏感,除使用固定报表、查询外,会针对特定的业务问题、数据质量问题进行分析,常使用灵活的动态可配置的应用,必要时会进入数据仓库直接探索。,专业分析员,对业务发展的趋势的假设作出求证,或者通过挖掘等技术找出改善业务的途径(特定用户进行细分等),一般直接使用数据仓库。,明确分析种类,简单图表展现;,固定报表;,动态的可配报表;,图表互动分析;,可切片旋转的,OLAP,;,KPI,指示器;,可层级筛选的明细查询;,对以上进行组合的复杂应用;,带有分析流程的应用;,应用分析的框架,规范功能,个性需求,新需求提出,统一的应用框架下管理和开发,目录,数据仓库相关概念,BI,技术工具,分析与应用,项目实施方法,知识索引,方法论,方法论主要描述了项目实施的步骤、系统建设的内容以及过程管理中的一系列方法:,实施过程中的具体内容;,采用的软件工程方法;,项目管理的内容;,实施的目标管理;,风险管理;,重点:螺旋式上升式的建设模式,对于应用分析建模、数据建模乃至整个系统的建设,都是适用的。,例子:某项目分析、建设、培训、使用、反馈、分析、改进,.,国外常见的项目过程,ETL,工具,展现分析工具,数据库,元数据管理工具,数据库建模工具,COGNOS,BO,BRIO,ORACLE,DB2,SYSBASE,CA,MetaManager,PowerDesigner,ERWIN,Infomatic,DataStage,Infomatic,解决方案,方法论,行业模型,典型分析,项目控制,项目建设,物理模型,数据加载,应用开发,上线加载,产品选购,方案选择,项目工作,1,)功能组件高度抽象与产品化(,ETL,、展现分析、建模、元数据等),2,)项目以解决方案的实施为主(公司一般具有相关行业的通用解决方案),3,)建设、实施过程以本地化、个性化为目的,完成用户的分析目标,技术方面比重较少,生命周期法的建设模式,业务维度建模的生命周期法,(Kimball),业务需求定义;,技术轨迹:技术结构设计、产品选择与安装,数据轨迹:维度建模、物理设计、,Data Staging Area,设计与开发,应用轨迹:最终用户应用规范、最终用户应用开发,部署,维护与增长,技术平台;,数据平台;,产品平台;,目录,数据仓库相关概念,BI,技术工具,分析与应用,项目实施方法,知识索引,知识索引,数据仓库,数据仓库生命周期工具箱,数据仓库工具箱维度建模的完全指南,公共仓库元模型,:,数据仓库集成标准导论,数据建模:分析与设计的工具和技术,ERWIN,数据建模,数据模型资源手册,卷,1,、卷,2,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服