收藏 分销(赏)

数据仓库基础PPT.ppt

上传人:w****g 文档编号:10181279 上传时间:2025-04-25 格式:PPT 页数:96 大小:4.15MB
下载 相关 举报
数据仓库基础PPT.ppt_第1页
第1页 / 共96页
数据仓库基础PPT.ppt_第2页
第2页 / 共96页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,英文标题,:32pt,字体,:Arial,中文标题,:32pt,字体:黑体,首选颜色,:R0 G93 B164,英文内容文字,:9-28pt,字体,:Arial,中文内容文字,:10-28pt,字体,:,黑体,首选颜色,:R80 G80 B80,第,#,页,谢谢,Thank You,谢谢,Thank You,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,英文标题,:32pt,字体,:Arial,中文标题,:32pt,字体:黑体,首选颜色,:R0 G93 B164,英文内容文字,:9-28pt,字体,:Arial,中文内容文字,:10-28pt,字体,:,黑体,首选颜色,:R80 G80 B80,第,#,页,数据仓库基础,信息技术部 开发三处 徐景春,日程,技术,知识,基本概念,体系结构,设计方法,技术实现,管理,知识,开发流程,团队角色,开发特点,DW2.0,与大数据,DW2.0,大数据平台,基础知识,实践经验,日程:技术知识,基本概念,体系结构,设计方法,技术实现,数据仓库特征,面向主题,集成,非易失的,随时间变化,背景:数据处理的发展历程,1969,:,E.F.Code,发明关系数据库,1991,:,W.H.Bill Inmon,发表“构建数据仓库”,2008,:,W.H.Bill Inmon,DW2.0,维克托,迈尔,-,舍恩伯格,大数据,文件方式,数据与程序混杂,管理复杂,并发问题,一致性问题,数据库,OLTP,处理交易,统计类需求,数据源繁杂,传统数据仓库,OLAP,处理分析,性能问题,非结构化数据,实时,说明,不是“替代”关系,本文档重点介绍“传统数据仓库”,DW2.0,大数据平台,OLTP,与,OLAP,理赔,保全,承保,OLTP,处理交易,流程,运转,OLAP,分析数据,数据,记录、观察,数据仓库定义,Data warehouse is,a subject oriented,integrated,non-volatile and time variant collection of data,in support of managements decision.,Inmon,1996,数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。,数据仓库其他定义,Data warehouse is a set,of methods,techniques,and tools,t,hat may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform,.,Ladley,1997,是一组方法、技术、工具,Data warehouse is a,process,of crating,maintaining,and using a decision-support infrastructure.,Appleton,1995Haley,1997Gardner 1998,是一个过程,四个特征,Inmon,1996,面向主题,主题是在较高层次上对数据抽象,面向主题的数据组织分为两步骤,确定主题,确定每个主题所包含的数据内容,每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户,ID,),主题内数据可以存储在不同介质上(综合级,细节级,多粒度),集成,从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清洗),代码、粒度、结构,非易失的(不可更改的),批处理增加,仓库已经存在的数据不会改变,随时间变化,键码都包含时间项,以标明数据的历史时期,面向主题,集成,非易失的(不可更改的),随时间变化,Data Mart,、,ODS,、,ETL,Data Mart,数据集市,小型的,面向部门或工作组级数据仓库。,Inmon,:部门级仓库,数据仓库数据的部分拷贝,Kimball,:数据仓库的组成部分,构成数据仓库,Operation Data Store,操作数据存储,支持企业日常的全局应用的数据集合,是不同于,DB,的一种新的数据环境,四个基本特点,面向主题的,(Subject-Oriented),集成的,可变的,当前或接近当前的,ETL,数据抽取、转换、装载(,Extract/Transformation/Load,),元数据、分割、粒度,元数据,关于数据的数据。用于构造、维持、管理使用数据仓库。,分割,数据分散到各自的物理单元中去,它们能独立地处理。,粒度,指数据仓库的数据单位中保存数据的细化或综合程度的级别,粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多,粒度影响数据仓库中数据量的大小,粒度问题是设计数据仓库的一个重要方面,在数据仓库的细节级上创建两种粒度,短期储存的低粒度(真实档案),满足细节查询,具有综合的高粒度(轻度综合),做分析,BI,的由来,商业智能(,Business Intelligence,,简称,BI,),最早是由美国,Gartner Group,于,1996,年提出的。当时将其定义为一类数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。,数据仓库、,OLAP,、数据挖掘,总是纠缠在一起,交流太麻烦,,统称为,BI,,不仅如此,以后不用,DW/OLAP/DM,,,BI,也不会过时。,本文没有严格区分数据仓库和,BI,日程:技术知识,基本概念,体系结构,设计方法,技术实现,体系结构的重点,重点问题:数据的获取、存储和使用,数据仓库和集市的加载能力至关重要,数据仓库和集市的查询输出能力至关重要,Relational,Package,Legacy,External,source,Data,Clean,Tool,Data,Staging,Enterprise,Data,Warehouse,Datamart,Datamart,RDBMS,ROLAP,RDBMS,End-User,Tool,End-User,Tool,MDB,End-User,Tool,End-User,Tool,Data Staging,:数据处理区域,为了实现,ETL,过程的临时存储,体系结构,Pieter,1998,Source,Databases,Data Extraction,Transformation,load,Warehouse,Admin.,Tools,Extract,Transform,and Load,Data,Modeling,Tool,Central,Metadata,Architected,Data Marts,Data Access,and Analysis,End-User,DW Tools,Central Data,Warehouse,Central,Data,Warehouse,Mid-,Tier,Mid-,Tier,Data,Mart,Data,Mart,Local,Metadata,Local,Metadata,Local,Metadata,Metadata,Exchange,MDB,Data,Cleansing,Tool,Relational,Appl.Package,Legacy,External,RDBMS,RDBMS,带,ODS,的体系结构,Source,Databases,Hub-Data Extraction,Transformation,load,Warehouse,Admin.,Tools,Extract,Transform,and Load,Data,Modeling,Tool,Central,Metadata,Architected,Data Marts,Data Access,and Analysis,Central Data Ware-,house and ODS,Central,Data,Warehouse,Mid-,Tier,RDBMS,Data,Mart,Mid-,Tier,RDBMS,Data,Mart,Local,Metadata,Local,Metadata,Local,Metadata,Metadata,Exchange,ODS,OLTP,Tools,Data,Cleansing,Tool,Relational,Appl.Package,Legacy,External,MDB,End-User,DW Tools,小结:体系结构,ETL,数据获取,数据仓库,数据存储,分析,数据使用,元数据管理,调度管理,数据标准管理,数据质量管理,门户,数据源,用户,数据获取:,ETL,职责,负责将数据从源系统提取到数据仓库中,功能,去掉操作型数据库中不需要的数据,统一转换数据的名称和定义,计算汇总数据和派生数据,估计遗失数据的缺省值,关键问题,增量数据获取,异常处理,异常捕获、异常处理,非功能需求,如何复用代码,性能:是否使用存储过程、如何转换,易用性:并行开发、维护,增量数据获取方式,时间戳,源表有时间戳字段,记录新增、,修改、删除更新时间戳字段,触发器,源表中创建触发器,通过触发器,捕获数据的增、删、改,数据库日志,对事务数据库的日志文件进行分析,获取变化的数据,Hash,值,通过比对记录的,hash,值,识别出变化的数据,业务日期,根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付费表的实收日期,保全生效日等,CDC,组件,Change Data Capture,改变数据捕获,存量数据,增量,1,增量,2,ETL,插入,数据仓库,修改,删除,CDC,整体连接示意图,CDC FOR ORACLE,连接核心,Oracle,数据库作为数据源,CDC FOR DATASTAGE,让数据源的增量数据落地成数据文件,作为目标端,CDC FOR ACCESSSERVER,连接,CDC FOR ORACLE,和,CDC FOR DATASTAGE,并提供用户管理,如何选择增量获取方式,数据源,源表如何记录,改造成本,影响程度,ETL,实现难度,维护成本,稳定性,目标表,需要哪些数据,写入效率,数据存储:数据仓库,职责,负责存储数据,功能,快速存取,适应变化,关键问题,4,个基本特征的数据集合,数据架构:分哪几层,数据模型:每层如何存储数据,数据流向,数据使用:分析,职责,负责数据的使用、分析、展现,常见方式,报表:常规的制式固定报表,OLAP,:联机分析处理,数据挖掘,即席查询,自助查询,联机分析处理(,OLAP,),是针对特定问题的联机访问和分析,通过对信息的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许分析人员对数据进行深入观察,概念,变量是数据的实际意义,描述数据是什么,维是人们观察数据的特定角度,维的层次是维在不同细节程度的描述,维成员是维的一个取值,多层次维的维成员是各层次取值的组合,对应一个数据项,维成员是该数据项在该维中位置的描述,多维数组可以表示为(维,1,维,2,变量),如(地区,时间,销售渠道,销售额),多维数组的取值称为数据单元(单元格),可以理解为交叉表的数据格,钻取和上卷,旋转,示例:钻取,-,操作,示例:钻取,-,效果,基于多维数据库的,OLAPMOLAP,以多维方式组织数据(综合数据),以多维方式显示(观察)数据,多维数据库的形式类似于交叉表,可直观地表述一对多、多对多的关系,如:产品、地区、销售额,关系,多维,多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构,以关系数据库存放细节数据、以多维数据库存放综合数据,MOLAP,架构,基于关系数据库的,OLAPROLAP,以二维表与多维联系来表达多维数据(综合数据),星型结构,事实表,存储事实的量及各维的码值(,BCNF,),维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余),事实表通过外键与每个维表相联系,雪花、星座、雪暴,模拟多维方式显示(观察)数据,ROLAP,架构,MOLAP,与,ROLAP,MOLAP,计算速度较快,支持的数据容量较小,缺乏细节数据的,OLAP,多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构,以关系数据库存放细节数据、以多维数据库存放综合数据,ROLAP,结构较复杂,以关系模拟多维,支持适当细节的,OLAP,较成熟,HOLAP,是以上两种的综合,数据挖掘(,Data Mining,),探测型的数据分析,发现信息、发现知识,基于人工智能、机器学习、统计学,由计算机自动智能地分析数据,获取信息,作出预测或帮助决策,需要算法的支持和机器的环境,数据挖掘的常用方法,决策树方法,利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树的节点,再根据该属性字段的不同取值建立树的分支,在每个分支子集中重复建立下层节点和分支,关联分析,为了挖掘出隐藏在数据间的相互关系,支持度,/,置信度作为输入的条件,进行筛选、分析,序列模式分析,类似与关联分析,着重于分析数据的前因后果,分类分析,对于不同分类的数据进行分析,找出他们的规律、特征,聚类分析,是分类的逆过程,根据数据特征,进行分类,数据挖掘与,OLAP,都属于分析型工具,DM,是挖掘型工具,DM,试图自动地发现隐藏在数据中的模式或规律,OLAP,是验证型工具,OLAP,更多地依赖于用户的输入和假设,两者相辅相成,互补,以,DM,挖掘潜在的模式、预测未来趋势,以,OLAP,来验证,DM,的结果,调度管理,职责,负责监控、管理,ETL,程序(,ETL,程序类型通常会有所扩展)的执行。,功能,调度策略(定时、依赖关系),调度监控,手工处理,其他,扩展:分布式,总分间的数据传输,ETL,工具有相关功能,定制开发,元数据管理,职责,负责元数据的管理,应用场景,管理信息资产,提升数据质量,辅助开发和运维,元数据分类,-Alex Berson etc,1999,业务元数据,定义:给用户易于理解的信息,主题区和信息对象类型,包括查询、报表、图像、音频、视频等,维度、指标、报表,技术元数据,定义:为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。,数据源信息,转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法),目标数据的仓库对象和数据结构定义,数据清洗和数据增加的规则,数据映射操作,访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问等,数据仓库操作型信息,例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,示例:元数据管理模块的逻辑架构,数据管控,系统建设,制定流程,技术支撑,技术,流程,人员,日程:技术知识,基本概念,体系结构,设计方法,技术实现,数据架构,数据模型,维度建模,设计方法,方法论,系统架构设计,数据架构设计,从顶层、抽象角度,数据仓库的建设方法可分为:自顶而下,自底而上。,从系统架构设计角度,数据仓库作为一个系统,其架构设计应包括的内容。如:系统定位、模块组成及相互关系、各模块的架构设计等。,数据存储是数据仓库建设的核心问题,因此数据架构的设计更值得关注。包括数据层、数据流向、数据模型。,方法论:自顶而下,构建企业数据仓库(,EDW,),Common central data model,Data re-engineering performed once,最低限度减少数据冗余和不一致性,明细历史数据,全局数据查找,基于,EDW,构建数据集市(,DM,),和部门相关的数据仓库子集,几乎是汇总级数据,直接依赖,EDW,的数据,局部数据集市,外部数据,局部数据集市,操作型数据,企业数据仓库,方法论:自底而上,创建部门的数据集市(,DM,),范围局限于一个主题区域,快速的,ROI-,局部的商业需求得到满足,本部门自治,-,设计上具有灵活性,对其他部门数据集市是一个好的指导,容易复制到其他部门,需要为每个部门做数据重建,有一定级别的冗余和不一致性,一个切实可行的方法,扩大到企业数据仓库(,EDW,),创建,EDW,作为一个长期的目标,局部数据集市,外部数据,操作型数据(全部),操作型数据,(局部),操作型数据,(局部),局部数据集市,企业数据仓库,系统架构设计,架构视图,逻辑架构,物理架构,运行架构,开发架构,数据架构,体系结构,架构,5,视图,数据架构,数据架构,数据模型,维度建模,示例:参考数据架构,参考数据架构的说明,分层是从逻辑角度划分的,并非物理上的,整合层、通用语义层、应用层是可灵活组合的,数据流向并非严格的顺层流动,整合层的主流行业概念模型(,EDW,),IBM IIW,Teradata,FS-LDM(Financial Service Logical Data Model),数据架构,数据模型,维度建模,数据模型(逻辑模型),数据模型,模型是对现实世界进行抽象的工具。在数据仓库系统中需要将,现实世界,的事物及其有关特征转换为,信息世界,的数据才能对信息进行处理与管理,这就需要依靠,数据模型,作为这种转换的桥梁。,这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。,数据架构,数据模型,维度建模,现实世界,概念模型,逻辑模型,计算机世界,信用,特性,属性,列(字段、数据项),张三,个体,实体,记录,客户,整体,同质总体,表文件,客户与产品,整体间联系,异质总体,数据库,模型设计方法,第三范式建模(,Third Normal Form,简称,3NF,),定义:,(1,),第三范式设计必须满足以下条件,每个属性的值唯一,不具有多义性;(,2,)每个非主属性必须完全依赖于整个主键,而非主键的一部分;(,3,)每个非主属性不能依赖于其他关系中的属性。,优点:数据冗余少;抽象程度高、信息高度集成;支持应用灵活;,缺点:数据获取效率较差;建设难度大;周期较长;,维度建模(,Star-Schema,),定义:维度建模是一种多维的数据关系,它由一个事实表,(Fact Table),和一组维表,(Dimension Table),组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实,(Fact),它们一般都是数值或其他可以进行计算的数据。,优点:信息显性化,因此运行效率较高;周期较短,容易见效;,缺点:数据冗余大;对信息跳跃性较强的应用支持不够理想;,数据架构,数据模型,维度建模,模型设计方法:第三范式建模,Bill Inmon,先生系统地阐述了企业级数据仓库的定义及体系结构,被誉为数据仓库之父。,其核心观点认为数据仓库应该从构建,高度抽象的企业数据模型,开始。,特点:,是一种数据驱动方法;,以,3NF,建模为基础;,着眼公司中、长期目标;,建成后系统具备较好的,适应性和扩展性。,ETL,产品,渠道,客户,保单,客户流失,渠道分析,产品分析,保费分析,数据源,业务,收付,外部,ETL,数据仓库,数据集市,数据架构,数据模型,维度建模,模型设计方法:维度建模,Ralph Kimball,先生作为数据仓库体系结构的最早实践者,在数据仓库的建设方面做了大量的工作,其业务维度生命周期方法指引了世界范围内众多数据仓,库项目的实施。,业务维度生命周期方法的突出贡献是采用了,一致的维度与事实,的概念来构建,数据仓库总线,结构。,特点:,是一种需求驱动方法;,以维度建模为基础;,实施周期短,见效快;,实施风险较低,维度模型可理解性,让所有事项尽可能简单,但是又不能简单得过了头,模型要保留“源”有信息,有价值与元价值信息都要保留;,反规范化维度层次结构设计是维度建模提高查询性能保障;,每个维都是一个等效的事实表入口点;,BI,展现工具多维立方体是维度建模完善体现;,维度模型扩展易用性;,数据仓库,数据源,业务,收付,外部,ETL,一致的维度下的,数据集市,保费分析,客户留存,渠道分析,产品分析,数据架构,数据模型,维度建模,维度模型,VS,规范化模型,规范化模型,描述业务的逻辑关系,消除冗余,解决数据的一致性问题,模型灵活、稳定,如果数据源没有企业数据模型控制,,ETL,抽取很难,维度模型,易于理解,因为冗余,性能好易于访问,多维模型在满足用户需求方面是非常高效的,但是灵活性不好,整合层,通用语义层,集市层,数据架构,数据模型,维度建模,数据模型的评估,数据,模型,集成性,管理性,性能,扩展性,可用性,完整性,支持,BI,应用 扩展,支持数据源扩展,支持模型自身扩展,快速扩展,支持各类,BI,应用,涵盖保险业务各环节,参考主流行业模数据型,安全管理,支持数据的维护,数据生命周期管理,易于理解,设计合理,优化,BI,应用性能,优化,ETL,性能,结构集成,内容集成,主题集成,扩展集成,集成可操作,增量策略,模型管理,制定标准和规范,数据架构,数据模型,维度建模,维度建模相关概念,应用驱动,业务价值链,业务过程,维度表,维度,渐变维度,退化维度,杂项维度,雪花模型,事实表,事务事实表,周期快照事实表,累积快照事实表,设计过程,选择业务过程,定义粒度,选定维度,确定事实,总线结构,总线矩阵,一致性维度,一致性事实,数据架构,数据模型,维度建模,维度基本概念:以日期维度为例,主键,维度属性,每一字段,列,成员,每一行,层次关系(路径),年、半年、季度、月、日,日期,标识,日期,年,半年,季度,月,日,星期,周描述,旬描述,年天数,假期,农历年,农历月,20150101,2015,年,1,月,1,日,2015,年,上半年,1,季度,1,月,1,日,星期四,第,1,周,上旬,1,元旦,腊月,十一,20150102,2015,年,1,月,2,日,2015,年,上半年,1,季度,1,月,2,日,星期五,第,1,周,上旬,2,工作日,腊月,十二,20150103,2015,年,1,月,3,日,2015,年,上半年,1,季度,1,月,3,日,星期六,第,1,周,上旬,3,周末,腊月,十三,20150104,2015,年,1,月,4,日,2015,年,上半年,1,季度,1,月,4,日,星期日,第,2,周,上旬,4,周末,腊月,十四,维度属性,代理键,成员,层次关系,维度特点,观察的角度,包含丰富的维度属性,即很多列,且带有描述性质,维度属性用于查询约束条件、报表标签、分组汇总,丰富的维度属性带来丰富的分析能力,“维度表是进入事实表的入口”,理论上不必有代码,如果用户很熟悉代码则可加,通用性:日期、机构、险种、渠道、,缓慢变化维(,SCD,),Slowly Changing Dimensions,背景,在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题。,处理缓慢变化维的方式,TYPE 1,:第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。,TYPE 2,:第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。,TYPE 3,:第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用,TYPE 1,来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。,示例:,SCD,维度,展业机构,业务键,展业机构代码(,AgentGroup,),代理键,展业机构,ID,(,AgentGroupID),类型,2,Branchattr,Branchtype,Branchtype2,逻辑,当上述,3,个维度属性的值,发生变化时,增加一条记录,代理键,可以保证源系统的变化不会对,BI,系统产生影响,可以允许,BI,系统整合多个源系统中的数据,可以允许在维度表中加入不存在的行,提供了一种跟踪维度属性随时间变化的方法,使用整型的代理键在关系库、多维库中是高效的方法,提高系统查询和处理性能,减少了事实表本身的大小,代价:,ETL,的性能耗费,根据成员个数选择,smallint,、,int,、,bigint,数据架构,数据模型,维度建模,退化维度、杂项维度,退化维度,维度除了主键以外没有其他维度属性。,没有维度表,如订单号,杂项维度(,junk dimension,),通过创建一个抽象的维度将多个低基数的标志位合并以将其放到维度体系中,星型模型,以事实表为中心,加上若干维表,组成星型数据模式。事实表存放基本数据,,雪花模型,维一般是由若干层次组成,把维按其层次结构表示成若干个表,规范化、节省存储空间,但需多做连接操作,事实表,事务型事实表,事务发生时,每个事务记录一行,不需要更新,维度:事务日期,例子:支付事实表、收费事实表,周期快照型事实表,周期性快照,不需要更新,维度:快照日期,例子:待发货、有效保单、有效人力,累积快照型事实表,一个事件一行,由多个步骤组成,步骤发生时更新,维度:关键步骤的多个日期,例子,1,:购买(订购日期、付款日期、发货日期、收货日期),例子,2,:承保(申请日期、暂收日期、核保日期、签单日期、核销日期),示例:维度与事实,设计过程,选取业务过程,将对业务需求的理解与对可用数据的理解组合起来,定义粒度,何种详细程度,选定维度,一旦粒度被选定,则维度随之被确定,确定事实,确定哪些度量在事实表中出现,数据架构,数据模型,维度建模,示例:总线矩阵、一致性维度,日程:技术知识,基本概念,体系结构,设计方法,技术实现,技术实现,硬件,操作系统,数据库,ETL,工具,报表工具,开发工具,中间件,逻辑,分析工具,Gartner 2015,数据仓库和分析市场魔力象限,:,领导者,Teradata,,,Oracle,,,IBM,,微软,,SAP,,惠普,:,挑战者,MapR Technologies,,,Cloudera,,,1010data,,,AWS,:特定领域者,Exasol,,,MarkLogic,,,Kognitio,,,Hitachi,,,Infobright,:,远见者,Actian,,,Pivotal,各厂商解决方案及产品,Teradata,SAP,IBM,Oracle,微软,其他,ETL,及调度,Teradata,数据库迁移工具,ETL Automation,,调度,SAP,集成平台(,XI,Administrator,workbench,,调度,DataStage,Oracle Warehouse,Builder,Integration Services,Informatica,数据仓库,Teradata,数据库,SAP,数据仓库(,BW),,,OLAP,DB2,Ooracle,Oracle Express,,,OLAP,SQL Server,Analysis Services,,,OALP,racle,展现及分析,业务浏览器组件(,Business Explore Suite,)包括查询、分析、,web,、发布。,Cognos,SPSS,Oracle Reports,Oracle Discoverer,Reporting Services,MSTR,SAS,数据管控,Teradata,元数据 管理应用、数据质量管理应用,主数据管理(,MDM,),Common Warehouse Metadata(CWM),JAVA,定制开发,.NET,定制开发,门户,Teradata Portal,SAP,企业门户(,Portal,),Oracle Portal,PerformancePoint Services,JAVA,定制开发,.NET,定制开发,管理,业务,前台,分析,后台,知识体系,保险实务,SQL,编程,分析工具,DW,设计,前端工具,Java,编程,项目管理,技术(,*,),数据库原理,数据仓库,数据建模,面向对象程序设计,设计模式,保险原理,统计学,数据挖掘,项目管理,软件工程,参考书,数据仓库(原书第,4,版),数据仓库工具箱(第,3,版),:维度建模权威指南,数据仓库工具箱:,面向,SQL Server2005,和,Microsoft,商业智能工具集,数据仓库设计,数据模型资源手册,日程,技术,知识,基本概念,体系结构,设计方法,技术实现,管理,知识,开发流程,团队角色,开发特点,DW2.0,与大数据,DW2.0,大数据平台,开发过程及相关角色,需求分析阶段,系统设计阶段,开发阶段,测试阶段,数据,探查,分析统计逻辑,设计数据模型,设计映射规则,开发,ETL,程序,测试,ETL,程序,前端需求分析,前端设计,开发前端程序,测试,前端程序,集成测试,用户测试,项目经理,技术经理,业务顾问,模型设计师,数据分析师,ETL,工程师,前端工程师,Java,工程师,各角色责任细分(一),项目经理,负责协调资源,控制项目进度、质量,达成项目目标。项目的灵魂人物,项目成败的关键。,应具备的能力,有效计划和分配资源,团结并激励整个团队并使其保持和谐,善于与客户沟通,控制项目范围,风险管理,定期评定项目开发成果并评估每个人员,敢于承认失败并把项目带回正轨,技术经理,负责系统的架构设计,确保各模块能组装到一起。,应具备的能力,系统架构设计经验,各角色责任细分(二),业务顾问,负责需求调研、分析,解答业务问题,分析指标统计逻辑,协助数据探查及分析。,应具备能力,相关业务经验比最终用户还要丰富,了解行业的标准及发展趋势,了解数据仓库的一些技术实现,善于将业务转化为技术人员所能接受的语言,模型设计师,负责设计数据模型、设计转换规则、数据探查。,应具备的能力,分析并引导用户的需求,对数据库的范式和星型结构熟练运用,设计系统的,ER,图和数据字典如属性、约束等,善于沟通,能把项目的设计架构清晰的告诉别人,熟悉,RDBMS,并有良好商业分析能力,各角色责任细分(三),ETL,工程师,负责,ETL,程序的开发。工作量最大。,应具备能力,深入了解就有系统,并理解系统内数据存储,向最终用户的顾问学习业务知识,熟悉各种常用系统的接口和规范,有很强的编码和开发能力最好能熟悉一些常用工具,能够制定计划并使数据的迁移过程自动进行,应该是一个认真仔细的人,脏数据对系统的影响往往能超出一的想象,前端工程师、,Java,工程师,负责报表程序、,JAVA,程序的开发。,应具备能力,应该是个完美主义者,用户们喜欢上帝的感受,善于与用户沟通,记住他们是以后的使用者,了解用户才操作上的喜好,投其所好大家都欢迎,有一定的美学基础,漂亮的界面总是让人喜欢,尤其是新用户,要有足够的耐心,某些中国特色的东西很锻炼人的耐力,成长路径,保险实务,SQL,编程,分析工具,DW,设计,前端工具,Java,编程,ETL,工程师,前端工程师,数据分析师,技术经理,Java,工程师,项目经理,模型设计师,项目管理,业务顾问,不同于,OLTP,系统的开发,基础工作,数据探查,理解数据源:正确写出统计逻辑;正确设计数据转换规则;正确分析数据;,需求分析,统计逻辑不明确,有标准值:直接取用标准值,或分析标准值计算逻辑。,无标准值:自行计算基准值,然后与业务一同核对。不断修正。,成果物:指标卡片,业务部分:业务语言描述;技术部分:,SQL,描述,系统设计,数据架构、数据模型,开发,ETL,开发,用户测试,数据准确性测试,进度取决需求是否明确,不明确的话在这个阶段“补课”,工作量更大。,本质:数据类项目,以数据为核心,基础,工作,需求,分析,系统,设计,开发,测试,关于逻辑确认:越早越好,确定一版统计逻辑,提取指标值,核对指标(抽样、明细),分析差异原因,需求分析阶段,测试阶段,日程,技术,知识,基本概念,体系结构,设计方法,技术实现,管理,知识,开发流程,团队角色,开发特点,DW2.0,与大数据,DW2.0,大数据平台,传统数据仓库的困境,数据源频繁变化,非结构化数据,数据质量不高,存储的数据越来越多,访问速度要求越来越快,应用越来越复杂:混合场景、实时、快速变化,DW2.0,数据生命周期,交互区,整合区,近线区,归档区,非结构化数据,元数据,技术基础能够,随时间变化,图摘自,Data Warehousing in the Age of Big DataP142 FIGURE 6.6,大数据特征,不仅仅是技术,,改变人的思维方式,视野更加开阔,信息更加丰富,数据分析,价值链,商业模式,4,个,V,(,5,个,V,),Volume,体量大,Variety,类型多,Velocity,创建、处理速度快,Value,价值密度低、应用价值大,Veracity,准确性,大数据技术组件,分布式文件系统,HDFS2,离线批量计算,MAPREDUCE,数据处理脚本,PIG,系统工具,类,SQL,查询,Hive,内存计算,流计算,数据挖掘,R,/Mahout,数据集成,FTP,RDBMS ETL,工具,SQOOP,日志采集工具,FLUME,Spark,分布式协作服务,Zookeeper,序列化工具,Avro,工作流,Oozie,类,SQL,查询,Shark,分布式资源管理框架,YARN,(含缓冲池,Tez,),Storm,S4,在线,NoSQL,数据库,HBase,内容搜索,高性能数据分析,Impala,全文检索,Search,元数据管理,HCatalog,MQ,Kafka,WebService,专用,API,数据挖掘,R,分布式资源管理框架,YARN,(含缓冲池,Tez,),分布式文件系统,HDFS2,大数据技术的发展趋势,离线批数据处理,实时交互式数据分析,10TB,的数据量,100TB,的数据量,混合式数据架构,统一数据架构,1,2,3,无论是,Google,的,Dremel,Cloudera,的,Impala,还是开源分布式内存计算框架,SPARK on Hadoop,大数据技术致力于提升实时交互式数据分析和处理能力。,传统架构的数据应用,大数据方案的数据应用,4,不是指前者替代后者的关系而是两者结合使用。例如,Google,的,Dremel,作为数据科学家的开发环境以实时交互的方式来进行,PB,级以下数据量的分析。而,MapReduce,仍然承担,PB,级以上大数据的批处理任务。,Hadoop,的,Yarn,框架以及和内存计算技术的结合使得大数据平台对更小级别数据量的计算能力有了质的飞跃。而这是原先传统领域如,MPP,数据库优势的地方。,从数据向计算靠拢逐步迈向计算向数据靠拢的大数据理念。传统的数据架构因技术限制不得不采用混合式,会造成数据多次搬家带来的许多困扰。而大数据技术正在逐渐打破这一模式,最终目标在统一的数据池上部署不同的计算资源来满足不同的数据应用需求。,大数据技术正在致力于解决传统架构中的数据应用瓶颈。例如基于,CUBE,的实时,OLAP,分析往往在大数据量和高并发下出现严重的性能问题。而,EBAY,最近推出了基于,Hadoop,的,Kylin,成为了在,TB,乃至,PB,以上大数据的终极,OLAP,解决方案。,参考书,DW2.0,:下一代数据仓库的构架,Data Warehousing in the Age of Big Data,回顾,体系结构,数据架构,数据模型,维度建模,基本概念,数据仓库的,4,个特征,技术层面,管理知识,流程,团队,处理数据,DW2.0,现在,-,传统数据仓库,逻辑层面,未来,大数据,困境,分享与祝愿,总结,和思考,实践,经验,基础,知识,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服