1、数据仓库建设商务智能(Business Intelligence)用于支持制订业务决议技能、步骤、技术、应用和实践。关键是经过数据提取、整理、分析,最终经过分析结果制订相关策略、计划,帮助企业了解新趋势、抓住新市场机会、发觉潜在威胁,达成资源合理配置,节省成本提升效益。数据仓库是商业智能基础,它为OLAP、数据挖掘提供分析和决议支持。一、 数据仓库概念1. 数据仓库定义是一个面向专题、集成、相对稳定、反应有有历史改变数据集合,用于支持管理决议。含有以下特点:l 具体交易及相关业务数据集合l 包含必需内部和外部信息l 来自于多个数据源、业务操作系统l 保留一定时间周期l 根据企业内业务规则决定存
2、放模型2. 建设必需性现在大多数信息系统因为建设时间、建设方、各阶段需求不一样,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一信息管理标准和规范、信息孤岛、不含有大容量数据管理和分析能力。3. 价值l 提升管理决议科学性和管理效率l 信息整合,可推进现在有信息管理体系重构l 打通信息孤岛全局共享,降低数据获取难度l 逐步替换各类业务管理报表系统l 利用历史数据发觉规律二、 数据仓库建设1. 业务需求定义梳理出全部业务过程,分析业务内容提取需求,对其相关数据进行探查,并对各系统关键业务人员访谈,正确了解业务需求情况,近期调研2. 技术体系结构生命周期图技术架构图:3. 数据仓库数据建模
3、数据模型是抽象描述现实世界一个方法,是经过抽象实体及实体之间联络来表示现实世界中事务相互关系一个映射,数据仓库模型是数据模型中针对特定数据仓库应用系统特定模型。数据仓库建模方法种类较多,常见三种是范式建模、维度建模、实体建模,每种方法本质上全部是从不一样角度处理业务中问题。相关数据仓库建模单独用一篇来具体介绍,这儿仅对维度建模做基础介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所提倡,是数据仓库工程领域最流行数仓建模经典。维度建模以分析决议需求出发构建模型,构建数据模型为分析需求服务,所以它关键处理用户怎样愈加快速完成份析需求,同时还有很好大规模复杂查询响应性能。1. 维度模型
4、是什么维度建模将客观世界划分为度量和上下文。度量是由业务过程和支持它们业务源系统来捕捉,常常以数据值形式出现,将其称作“事实”,事实由大量上下文包围着,这些文本形式上下文被直观地分割成多个独立逻辑块,我们称其为“维”。维度描述了度量上下文5W(who、what、when、where、why)信息,和这些上下文是怎样作用。企业每一个业务过程全部能够用维度模型来描述,维度模型由一系列含有数值量度量事实表组成,事实表中数值则被一系列带有文本属性维度表围绕。2. 维度建模基础要素1) 事实表事实表是存放业务活动或事件所产生度量。2) 维度表维度是观察业务角度,维度表统计这一角度一系列属性集合。3) 度
5、量度量是相关业务情况数值。3. 企业数据仓库总线4. 维度建模四步骤1) 选择业务过程(比如:用户注册、账户签约、产品交易等)2) 申明粒度(确定数据单位综合程度,明确事实表度量所表示含义)3) 识别维度(粒度已经确定了一个基础维度集合,依据需要再添加其它相关维度)4) 识别事实(选择适合业务过程指标)5. 深入了解维度l 代理关键字、退货维、缓慢改变维、角色饰演维、杂项维、雪花型、桥接多值维、处理层次结构。l 可加型事实、半加型事实、状态事实l 三种事实表(三个基础粒度):事实事实表(低粒度)、周期快照事实表(粒度高)、周期累计事实表三、 数仓管理4. 数据质量5. 数据转换加载(ETL过程)数据抽取考虑使用Ketlle6.1源码来做,布署在MyEclipse中做部分外围开发,关键数据处理工作由Kettle完成,对于特殊需求,能够自定义开发。6. 元数据管理参见元数据管了处理方案7. 安全及备份利用数据仓库自带备份功效。四、 系统开发物理数据库建设、ETL工具开发、数据抽取清洗作业开发、查询优化、出报表等概要、具体设计写。五、 应用开发需求调研后补充。六、 迭代优化螺旋式上升,永无止境