1、2数据仓库与数据挖掘项目建设-讲义数据仓库与数据挖掘项目建设1. 数据仓库知识简介1.1软件质量控制软件质量控制的主要目的是为了获得更高的开发效率,避免返工,提高产品的市场竞争力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包括软件建模、度量、评审以及其他活动。Jr2IIeL。1.2用于软件控制的一般性方法如下:1. 目标问题度量法,即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种方法2. 风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性方法3. PDCA循环。这种方法发源于日本,是指计划plan,做do,检查check
2、,和行动action1.3信息化的需求:随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信息,为管理决策提供支持是政府和企业事业单位共同面临的问题。L8C4JRs。解决这个问题主要依赖于亮相技术:一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信息,支持决策,即数据仓库。11yDBWg。二是发现隐藏在各种数据之中有用的知识,即数据挖掘。1.4以银行为案例的IT整体架构1.5数据仓库的定
3、义 数据仓库系统是指面向主题的、集成的、稳定的同时又是随时间变化的大量的数据集合。在综合使用一些应用软件下,用户获得想要的信息,最终为经营管理的决策提供有力的帮助bMt6qqG。 数据仓库系统的业务特征是业务需求的范围和内容,不像业务系统那样清晰和明确:系统建设的一个主要风险是体现在软件工程质量和串接方面存在较大的过程风险:系统建设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。ReqD8eK。1.6数据仓库的建设过程的挑战如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯穿于数据仓库建设整个过程的始终。那么质量控制的中心环节又是什么呢?MSDMB1S。
4、简单而言,包括事前控制:对方案和计划进行充分的咨询和论证;事中管理:对建设开发阶段进行持续不断的过程控制;事后控制:对于建设成果通过测试、评审、验收、试运行等方式进行面向结果的管理控制。XvSIAZv。1.7数据仓库的质量控制 关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点:(1) 从数据仓库的设计入手,简历适合全方位质量控制的体系结构(2) 遵从生命周期观点,全过程控制数据仓库建设质量(3) 按照数据仓库凶的工作机制和部件构成来制定质量控制标准数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追
5、求的目标来制定质量的测评、预测标准并加以实现,才能真正达到质量控制的目的aJOjWcg。1.8数据仓库的精确定义上世纪80年代中期,“数据仓库之父”William.H.Inmon先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种可以购买的产品。fKINRpD。1.9数据仓库的特点1.9.1 数据仓库是面向主题的主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类
6、后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的SNwXY3a。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间的联系mTj4gAX。1.9.2 数据仓库是集成的全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对数据进行抽取、清晰、转换和加载等集成操作。因为:rTdGZbl。(1) 数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是每一项业务处理的流水账,这类数据不适合用于分析
7、处理。在进入数据仓库之前必须经过综合计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。HZkmXOm。(2) 数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量。显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用于知道企业领导者做出科学的决策KIWS1eI。1.9.3数据仓库是相对稳定的操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供企业领导者决策分析之用,所涉及的数据操作主要是数据查询和分析,一旦某个数据进入数据操作主要是数据查询和分析,一
8、旦某个数据进入数据仓库之后,一般情况下将会被长期保留,也就是数据仓库中一般有大量的查询操作和分析,修改和删除操作一般不多,通常只需要定期的加载、刷新。k0o2Kvy。1.9.4数据仓库是相对时间变化的由于数据仓库中的数据是为了分析用的,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并将各个瞬态连续起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据提取的周期决定了动画间隔的时间,数据提取的周期越短,则动画的速度越快nSG8ebQ。1.10数据成熟度*商业智能包含(数据仓库和数据挖掘)1.11商业智能(仓库和挖掘)能够帮助我们做什么 增加销售额 深化客户关
9、系 研发客户关系 提供更好的服务 提升运营效率 降低成本 制定更好的决策1.12商业智能能够回答的一些重要的问题举例1.产品分析: 哪些产品是营利性最好的? 哪些产品是营利性最差的?2.销售分析 华南地区已经开设2年以上的商店,销售趋势是怎样的? 哪些产品具有向上的销售趋势,哪些客户群体在购买这些产品?3.客户分析 盈利性排在前10%的客户的特征是什么? 盈利性最差的10%客户的特征是什么? 哪些客户在过去6个月中的购买量超过了所有客户购买量均值2个标准差? 盈利性最好的客户群居住在什么地方?1.13数据仓库的体系架构数据仓库的简单层1. 源数据层:是数据仓库系统的基础,是整个系统的数据源泉。
10、通常包括企业内部信息和外部信息。内部信息包括存在于关系型数据库系统(Relational DataBase Management System,RDBMS)中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。XDyH4xk。2. 数据导入层:主要进行数据清洗、转换、加载(Extract-Transform-Load,以下简称ETL)。把处理后符合业务逻辑规则的数据导入到数据仓库中。通过ETL调度管理、ETL日志管理、ETL出错管理来控制管理数据加载的整个过程。通过数据质量管理进行数据的检查,及时地控制管理数据的质量情况。V9BOaIe。3. 数据存储层:
11、是整个数据仓库的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。数据集市可能是企业及数据仓库的一个组成部分。omR18rY。4. 数据应用层:主要分为查询、统计报表、多维分析和数据挖掘四大类应用。5. 数据展现层:主要分为三大类。有一定技术经验的业务人员进行多维分析、数据挖掘;普
12、通业务人员进行查询、统计报表打印;管理人员进行用户管理、权限管理等。tsHWMAW。1.14数据仓库总体架构*与上一张图异曲同工1.15商业智能技术1. 数据仓库:跨功能的数据库 历史细节数据 中型到大型的数据库2. 数据集市:聚焦在选定的主题上 依赖的(数据直接来自企业数据库) 独立的stand-alone3. 多维分析 通过多个业务主题对汇总数据进行分析 以性能为导向对数据的不同层次进行钻取4. 数据挖掘:工具驱动 依赖算法识别和预测1.16数据仓库系统特征1. 满足分析或决策类的应用需求非操作型的应用2. 一套整体性的决绝方案由数据库、前端工具、系统管理平台等部分组成3. 仓库的特点(1
13、)高质量的数据平台面向主题的、集成的、非易失的、随时间变化的数据存储业务数据的统一视图数据的一致性和完整性(2)灵活的分析和展现平台 满足分析、查询、报表等多种类型的应用需求1.17企业级数据仓库模型的规划1.18数据质量管理体系1.19 OLAP多维分析1.20 成功几个简单原则总体规划,分别实时,急用先行,沿途下蛋1.21 分步实施规划原则1. 紧迫程度主要是从业务角度来讲的,主要因素包括: 业务需求的紧迫性 业务需求的重要性 项目点可能带来的效益大小2. 难易程度主要是从技术方面考虑,影响因素包括 可行性、实现的复杂程度 周期的长度 技术的成熟度 准备工作的进度 是否有足够的数据支持 关
14、键技术是否成熟1.22 数据仓库管理概述数据仓库的管理在不同的数据仓库建设阶段,其范围和内容是不同的。数据仓库管理以数据仓库的生命周期分为规划、开发、运行和维护三个阶段。与传统应用系统不同的是,数据仓库的开发是一个持续整个生命周期的不断演进的过程。y2NYdZN。1.23在不同的阶段,数据仓库管理的重点是不同的1. 数据仓库的规划阶段 在现有系统中的位置、与现有系统的依赖关系; 前景需求的描述; 业务需求的确立; 实施条件的审核2. 数据仓库的设计与实施阶段 项目的范围和计划的管理 系统风险管理 人员和组织结构的简历 系统架构管理 数据仓库技术的选用 关键成功因素的确立3. 数据仓库支持与完善
15、阶段 数据一致性的维护 性能的维护 需求变更的维护 备份与恢复的维护1.24人员的组成看系统结构商业智能系统逻辑架构2. 数据仓库需求管理2.1 有哪些需求2.1.1 有哪些需求需求收集阶段的目标是搜集业务与IT需求,并且确定数据仓库主题。这包括确定并记录下列类型的需求。 功能需求:用来说明系统将做什么 非功能需求:确定将要建立的系统特性。如性能、可靠性、可用性、安全性、接口需求与设计约束等 系统开发过程的详细需求:包括使用的方法论、安装与发布需求、验证、测试与培训需求等2.1.2 需求和需求分析的内容 需求分析的先决条件包括项目计划、主题模型、项目风险分析、数据质量估计、安全系统文档、安全特
16、征、用户概况、评价数据仓库标准、性能标准、主题、宏观信息需求、IT标准、IT结构、开发测试与生产环境及其期限、信息结构文档、宏观业务需求和基本的维模型等。onpZ8VJ。 可提交的文档包括:已确认的验证后的数据异常报告、详细需求文档、测试计划、培训策略和项目计划等。2.1.3 需求分析的方法2.2 详细需求的收集需求分析的第二步是收集详细需求。采访用户是获得需求的最惯用的方法。采访需要记录,并且将采访记录整理好以后由被采访者确认以及修改补充和再确认。调查者对需要调查的内容以及相关的业务术语有所了解,有采访提纲,能够与业务用户单独交谈,如果参与的人过多会使得采访者不会坦诚招待,或发生相互攻击等情
17、况,并应该控制每次采访的时间,这样的话可以提高效率。Hnn6A0M。2.3详细需求2.3.1 对详细业务需求的确定 详细的开发需求,包括:信息传输的平台、方法、形式及标准,用户站点的硬件平台,用户方人员的计算机使用经验与知识,当前使用的软件一级接口需求:kUxg2Eb。 对用户情况进行调查,并且记录使用仓库的用户数量与类型。对每类用户的类型、安全约束、位置、计算环境等均进行调查tM17mlL。 安全性需求,包括存取需求、装载开发及转换需求 性能需求,包括容量、响应时间和刷新等需求2.3.2 基本维模型的建立 确认用户的数据仓库类型需求。是需要一个单一的数据仓库,还是需要数据仓库加上依赖型的数据
18、集市,或者仅需要一个单一的数据集市。xrZZqah。 确认主题和基本维。建立数据仓库与所相关的数据集市的高级主题与基本维的文档。2.3.3 对信息结构需求的收集 确定数据仓库技术体系结构,详细说明支持数据仓库的操作型系统的配置。该信息需要包括下列有关的软硬件因素:OLTP系统名称与类型、平台(包括硬件与操作系统)、网络通信协议、可用的存储空间。6yZBZJV。 计划使用的软硬件,确定与描述数据仓库中计划使用的软件与硬件结构,确定必须添加到当前配置中的软硬件。 差距分析,确定当前的IT基础结构与构建数据仓库所需的IT基础结构之间的所有不足之处。 定义设计策略,需要为下列项目定义设计策略:安全模式
19、、ETL、数据汇总、备份与恢复过程、错误恢复程序、数据转移策略等。k1VXVaA。2.3.4 分析数据质量 评价用于构造指定主题的数据质量。找出所有的质量问题并保证质量改正过程的执行。主要的质量问题包括正确性、完整性、及时性和唯一性。19GPITr。 评估数据完整性并记录发现的问题,为不完整数据的所有实例建立文档并保证改正过程的执行。 描述数据存在的质量问题,为操作型系统管理员与业务过程所有者建立报告,描述数据存在的质量问题以及它们对构建数据仓库的影响。4UAEDLF。 用户确认数据库质量问题报告,用户确认数据质量报告及建议的处理方法。 确认所有的业务规则,列出当前所有影响构建数据仓库的业务规
20、则。2.3.5 收集培训需求确认或确定相关组的成员,并确认相关的培训需求。这些组包括项目组最终用户、测试组和维护人员等。本步骤的详细内容如下:kkGjzZM。2.4需求修订有关的文档设计及策略在收集有关需求的基础之上,更新审查有关文档、计划和策略(主要包括需求文档、测试计划、测试策略和项目计划等),完善、调整和更新有关的内容。所有修改过的方案都提交用户,得到用户的同意并确认。oaV05LU。2.5需求阶段复审和总结完成需求分析阶段的主要工作之后,要对整个阶段的工作进行复审,同用户代表进行沟通协商,决定下一步的工作,将有关的文档资料提交给用户,如果同意继续下一个阶段的工作,则将有关文档提交给下一
21、个阶段的有关人员。eVK7D2k。2.6需求及需求管理阶段质量控制的方法1. 定义并跟踪业务需求和系统需求开发的方法和流程 需求规则2. 需求分析第一步就是要分析企业整体业务,确定大的分析主题及其自主体,这对整个数据仓库需求分析工作是非常重要的。业务分析主题的确立有一下几个原则:noFBANK。 从业务角度出发,而不是从技术角度出发 各主题相互独立,关联度达到最低 涵盖企业的所有业务3. 完全以业务为主导,从分析企业整体业务入手,通过自上而下的业务分析,逐步理解和摸清各项业务工作的流程、职责和分析需求,再结合现有数据情况,形成一套完善的服务于业务工作的数据仓库业务需求。q1FjcAv。4. 定
22、义并跟踪需求管理的方法和流程 选择需求管理工具 定义需求变更管理流程 需求配置管理5. 以“质量保证建议”的形式对跟踪过程中发现的问题进行分析,并提出解决方案建议。6. 在业务需求访谈的过程中按照以下方法工作:确认该部门现有的信息系统是否已经全部在列表中,是否有新的系统没在本次信息系统梳理的范围内(该系统有业务分析相关数据产生,可以作为数据仓库数据源使用)。FTJh8NV。7. 针对信息系统,进行以下内容的调查: 确认该系统目前的运行状态 确认该系统主要的业务职能 确定该系统目前采用的数据库类型,以及数据库目前管理部门是谁 。8. 和企业项目组以及业务部门相关人员,讨论系统和系统之间的关联关系
23、以及迭代关系等。并且另外使用文档进行描述。mAM15Wu。9. 完全以业务为主导,从分析企业整体业务入手,2.7需求及需求管理阶段质量控制 从业务角度出发引导和采集客户需求 从分析方法出发总结和归纳客户需求 明确非功能性需求 有效控制需求的范围 有效控制需求的完备性 简历可交互的需求管理平台 建立需求变更控制2.8需求规划的指导思想 明确需求规划指导思想 从规避整个项目的业务风险和技术风险的角色进行规划 分阶段成果提交、加强和业务部门的交流与反馈工作2.9确认需求规划原则2.9.1业务角度 业务方面的覆盖性 业务需求的紧迫性 业务需求亮点选择2.9.2技术角度 技术应用的全面性 非功能性需求的
24、可测量性 需求的数据满足度 需求的明确度2.10需求的大类 查询的需求 报表的需求 统计分析的需求 多维分析的需求 数据挖掘的需求2.11需求的成果1. 需求文档(签字确认过的):简单、易懂文字、图表、页面(或者DEMO),这个非常重要,是业务人员理解需求最有效的方法之一2. 正常情况下是一本书3.数据仓库建模3.1 关于数据仓库的数据建模1. 数据仓库是一个结构复杂的数据环境。一般的,数据仓库数据模型特指基础数据层的数据模型。2. 数据仓库数据模型同样存在概念模型、逻辑模型、物理模型及语义模型等不同层次。一般的,逻辑数据模型是数据仓库数据模型的起点与核心v1Sr9Q9。3. 由于数据仓库工程
25、建设的庞大性与复杂性,一般的最佳实践建议基于既有的商用逻辑数据模型通过一定的客户化工作进行数据仓库数据模型的建设。bseviKt。 保障数据模型的设计质量 加快数据仓库的建设历程 3.2 模型的特点 数据往往是共享的,分布的用户访问集中的数据,要求数据结构不变或相对稳定,好的数据模型设计可以保持共享数据的一致性和用户访问的有效性。Rj7NWiY。 数据模型清晰地描述了系统完整的数据流程,是应用程序作用于系统的中介,通过数据模型改进系统,可以提高系统的协调性与合理性,可以产生更好的系统设计。Vj8GiDh。 数据仓库的分析类型决定了模型的类型和模型的内容,因为提问、报告及多维分析需要聚集、清晰的
26、元数据结构。例如,多维分析需要变换粒度,这一点也要在模型中体现。一个清晰的数据仓库模型可以简化前端用户的任务。2BXCK9I。3.3 模型的类型企业级数据仓库的数据模型通常有两类:实体关系模型和多维模型。实体关系模型用来存储企业集成的交易详细数据,是多维模型的数据来源和今后应用扩展的基础多维模型主要是面向多维分析应用而建立的数据模型。3.4 模型设计的目标模型设计的主要目标是:建立企业级的DDS模型,为数据仓库的实施、应用、维护、发展提供基础支持,具体的目标包括:q4wKzGs。 梳理数据,作为DDS模型设计的基础 建立企业级逻辑模型 基于逻辑模型建立物理模型 在数据库上实现物理模型(备注:D
27、DS是直接数字式频率合成器(Direct Digital Synthesizer)的英文缩写,是一项关键的数字化技术。与传统的频率合成器相比,DDS具有低成本、低功耗、高分辨率和快速转换时间等优点,广泛使用在电信与电子仪器领域,是实现设备全数字化的一个关键技术。)CIBK7S6。3.5 模型设计的方法为了保证模型的质量,我们制定了建模方法论,对DDS模型建立的步骤和具体操作给出了说明。多维建模过程遵循以下步骤:LdpCZUu。 梳理数据建模元素(建模元素包括:事实、度量、维度) 设计和完善事实、度量和维度 多维模型设计及验证 关系型数据库和OLAP逻辑模型设计、调整、验证 物理模型设计、实施3
28、.6 设计原则在DDS建模的具体设计过程中,主要遵循4个基本的设计原则:3.6.1 中立性原则中立性原则就是指本次DDS所建的模型是中立的,可以在全企业共享的,并不偏向特定的应用。也就是说,DDS中的数据不仅可以为当前定义的应用服务,还可以为将来需要建立的应用服务。因此,我们在DDS的设计过程中,必须要兼顾各种不同类型的应用,例如,有很多数据可以同时面向OLAP和查询。L5Yw1j2。3.6.2 常用性原则常用性原则是指DDS中的数据内容以常用为原则,即只有常用的数据才被纳入DDS,对于那些非常用的数据,则由ODS直接提供数据支持。f5XjDmH。(备注:操作数据存储ODS(Operation
29、al Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。)SulgdGA。3.6.3 多样性原则一般来说,DDS应该是多维的,即DDS中所有数据都使用多维模型来构建。但考虑到SSE(指令集)的实际情况,如果存在一些数据需求,它们既符合常用性原则(即它们比较常用),又不适合用多维模型来构建,那么我们将直接把这些数据从ODS复制到DDS中。当然这不是一个简单的复制过程,而是需要进行一定的整理,例如删除多余的字段、统一键值等等。cX7qCj3。3.6.4 方便性原则在建模的过程
30、中,应当遵循方便性原则,即当数据冗余可以带来查询上的方便时,可以考虑在数据中适当增加冗余字段(尤其是维度表)FHJZ5Ay。3.7 数据资源层数据类别1.结构化数据:ER数据;多维数据2.非结构化数据:Word文件、PDF文件、E-Mail、图形文件3.8 数据仓库(数据集市)的数据模型设计该步骤完成数据仓库或数据集市的数据模型设计1. 设计数据仓库或数据集市的概念模型按照需求分析的结果以及确立的主题建立概念模型2. 设计数据仓库或数据集市的逻辑模型根据建立的概念模型以及相应的转换规则导出逻辑模型3. 设计物理数据模型从概念模型导出物理模型,即设计数据仓库中数据库结构、索引结构、实例化视图选择
31、策略和数据分片等3.9 设计概念模型输入方法工具参与的角色输出基本维模型文档概念建模技术多维模型设计工具DWAR,DWE概念模型文档3.10 设计逻辑模型输入方法工具参与的角色输出概念模型文档逻辑建模,物理建模技术型性模型,三范式模型DWAR,DWE逻辑的数据仓库数据模型和数据集市数据模型3.11 设计物理模型输入工具参与角色输出逻辑模型文档常用建模工具DWAR,DWE数据仓库的物理模型和数据集市的物理模型3.12 逻辑模型设计的质量控制尽管应用星型模型和雪花模型可在概念模型设计中建立数据仓库的概念模型,但是无法直接依靠概念模型作为概念模型到物理模型转换的桥梁。数据仓库的逻辑模型应该与数据仓库
32、物理实现时所使用的数据库匹配。由于目前数据仓库一般都建立在关系数据库基础上,因此,数据仓库设计过程中所采用的逻辑模型主要是关系模型。利用关系模型不仅可以创建星型模型与雪花模型中指标实体的关系模式,而且还可创建星型模型与雪花模型维度实体和详细类别实体的关系模式。Mxy11P6。进行数据仓库的逻辑模型设计时,一般需要完成分析主题域,确定转载到数据仓库的主题,确定粒度层次划分,确定数据分割策略,关系模式的定义和记录系统定义,确定数据抽取模型等。逻辑模型的最终设计成果应该包含每个主题逻辑定义,且将相关内容记录在数据仓库的元数据中,其中包括粒度划分、数据分割各类、表划分和数据来源等。ESiG3tR。3.
33、13 逻辑模型设计质量控制的目标逻辑数据模型是根据相应的需求分析说明书以及数据来源分析建立起企业级的数据模型,监控所建模型的准确性、完整性和可扩展性。5Nppbp3。主要评审主题域是否可以正确反映用户的决策分析需求。从用户对数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要;评审从指标实体、维实体和详细类别实体转换而来的各种关系模式是否满足关系第三范式要求;为提高数据仓库的运行效率是否需要对这些关系模型进行反规范化处理;数据的抽取模型是否建立了数据源与数据仓库的对应关系,数据的约束条件和业务规则是否在这些模型中得到了正确的反映。ghdDfr7。3.14 逻辑模型设计
34、质量控制的方法1. 依据数据源状态报告和需求分析说明书对逻辑模型设计过程中的关键点进行跟踪检查2. 以“检查单”的形式对跟踪检查过程中发现的问题进行分析,并提出解决方案建议。3. 评审逻辑模型设计阶段所提交的交付文档,主要包括:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体,维实体与详细类别实体的关系模式和数据抽取模型。4CVM8NA。3.15 跟踪检查以下关键点 逻辑模型是否能满足业务需求 数据与需求映像关系是否有明确说明 本阶段需要对需求分析报告中列出的每一条需求逐一进行分析,得出需求在实现过程中需要用到的数据,然后将这些数据的内容根据多维模型的要求分成事实、维度、度量三大类信息
35、并记录下来LxIl7Y1。 业务逻辑单元的划分是否合理 主题和事实表的确定是否准确3.16 常用的数据模型(主题域)资产、协议、财务、营销、客户、产品、渠道、机构、交易、地域,共10个主题域3.17 FS-LDM模型框架3.17.1从金融机构举例:3.17.2跟踪检查以下关键点: 数据粒度的确定是否合理 索引的策略是否合理 对于渐变维的处理是否能最好地满足业务需求 对于维度缓慢变化的解决一般有三种方案可以使用: 覆盖历史记录,直接更新维度字段的值 在维度表中增加一条新的记录,并且有标志说明这条记录的有效使用时间区间,这样可以保留历史记录 在维表中增加一个字段,记录已更改的记录旧的取值,这样也可
36、以保留历史纪录,但是只能保留前一个修改历史。 3.17.3 当事人主题域细节模型局部展示3.17.4协议主题域细节模型局部展示3.17.5事件主题域细节模型局部展示3.17.5产品主题域细节模型局部展示3.17.6 地域主题域细节模型局部展示3.17.7 渠道主题域细节模型局部展示3.17.7 财务主题域细节模型局部展示4. ETCL策略和前端应用4.1 ETL设计数据仓库处理过程的设计是数据仓库设计的核心。它涉及到数据仓库初始装载、更新、维护、归档、转储以及应用接口等诸多方面CmPyDl0。4.2数据ETL过程设计根据模型设计的结果,设计ETL程序1. 数据初始ETL过程设计。ETL过程实际
37、上由三个子过程构成:数据抽取、数据转换和数据加载。根据选用的数据仓库工具将数据从数据源抽取到临时数据集中,然后根据业务规则转换和集成为数据仓库中需要的数据格式,最后将转换的结果装入数据仓库。kjGkNLH。2. 数据更新ETL过程设计。根据规划的结果选择相应的更新策略,设计数据更新程序。3. 数据ETL过程中的错误恢复过程设计。该过程负责对相应的ETL程序在执行过程中的错误进行恢复,以保证数据仓库中数据的完整性、准确性。若ETL过程出错,则数据仓库中可能已经存在部分不完整的数据,需要将这些数据删除,然后再查找错误的原因,重新执行ETL程序等。VOpPmUT。4. 登记元数据。将关于ETL过程的
38、元数据登记到元数据中心库中,便于进行管理。5. 制定单元测试计划从速度、数据质量等方面测试ETL过程是否满足用户需求。4.3数据归档转储设计1. 设计数据归档转储过程。当数据仓库中的数据超过了预定的时限,或者很少再被使用,要将它们归档到离线存储中,或者需要将细节的数据汇总成较粗粒度级别,而后将细节数据归档04k7g6v。2. 设计错误恢复过程。即设计怎样确定在数据归档过程中发生的错误,以及恢复或者重启的过程。3. 登记注册元数据,在元数据中心库中登记关于数据归档过程的元数据4. 创建单元测试计划,测试数据归档过程是否满足功能需要。4.4备份与恢复过程设计设计备份与恢复过程中错误恢复过程、计划4
39、.5作业调度过程设计 设计作业调度过程,即确定数据仓库中的过程的时序,建立一个次序,并且计算出工作的环境,建立调度策略和标准文档4JovAGm。 设计错误恢复过程,在作业调度过程中发生的错误和恢复或者重启的过程 注册元数据,在元数据中心库中登记关于作业调度过程的元数据 建立单元测试计划,以测试作业调度过程是否正确4.6设计安全访问控制机制 设计数据安全机制,根据设计说明书设计数据 设计数据安全机制,根据设计说明书设计数据仓库安全性模型 注册元数据,在中心库中登记关于数据访问控制的元数据 创建单元测试计划,以测试安全访问控制机制是否正确4.7ETL的质量控制数据仓库中的数据是以面向主题的方式组织
40、的,而业务数据库中的数据一般是围绕着一个或几个业务处理流程来组织的,因此,将数据从业务数据库中抽取并加载到数据仓库就不是简单的复制过程,而需要十分复杂的数据处理,即数据整合。NQ4TgqU。数据整合的工作大致可分为4个步骤:数据抽取(Extract)、数据清晰(Cleaning)、数据转换(Transformation)、数据加载(Loading),即ETCL。在实际的项目实施过程中,源数据有时不经过清洗就直接转换加载进入数据仓库,这样的数据整合就变成了数据抽取、数据转换和数据加载,简称ETL。通常业内将数据整合的工作通称为ETL.WEHzRnl。4.8 ETL的质量控制的目标ETL质量控制的
41、目标是保证ETL程序完成并通过测试,数据装载进入数据仓库并通过数据验证与检查。4.9 ETL的质量控制的方法1. 依据数据源状态报告、需求分析说明书、数据仓库逻辑模型及说明文档、数据仓库物理模型及说明文档对ETL过程中的关键点进行跟踪。Tqpq9mJ。2. 以“检查单”的形式对跟踪检查过程中发现的问题进行分析,并提出解决方案建议。3. 评审逻辑模型设计阶段所提交的交付文档,主要包括:数据源数据的映射表,ETL系统设计说明书,ETL子系统测试报告,ETL流程设计说明书,ETL调整维护说明书,ETL故障错误恢复恢复说明书,ETL数据质量控制策略及流程,ETL回溯设计说明书,数据装载工作报告,数据装
42、载状态报告,ETL子系统测试报告,ETL用户手册,ETL系统备份恢复,ETL程序和源代码5gr5Smt。4.10 ETL的主要任务包括 数据源及其特性定义 数据抽取、转换和加载策略设计; 构建和测试初始加载的程序和处理流程; 构建和测试日常加载的程序和处理流程。ETL的设计与实施主要包括以下几部分工作: 数据源的确认 明确本系统的数据获取来源,包括数据源的数据存储格式、数据库类型 操作系统平台、网络状况以及数据源数据的更新周期与方式等。 源数据分析4.11 OLAP与前端的质量控制数据仓库和联机分析处理是决策支持系统的有机组成部分。数据仓库从分布在公司内部各处的OLAP数据库中提取数据并对所提
43、取的数据进行预处理,为公司决策分析提供所需的数据:OLAP则利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。oEh0nTX。4.11.1质量控制的目标 本阶段质量控制的目标为保证OLAP模型的设计、加载策略、权限设计以及前端展现设计严格满足需求分析的要求;F6IU5ri。 保证为最终用户提供共享多维信息的快速分析和及时数据库查询,确保OLAP数据模型设计合理,具有良好的扩展能力;dxttArz。 OLAP数据加载过程正确、高效;前端展现部分严格满足用户需求并且性能优越。4.11.2 质量控制方法OLAP质量控制方法主要是对以下四个过程进行评审: OL
44、AP设计评审 OLAP开发评审 OLAP子系统测试过程及结果评审 性能优化方案及结果评审5. 元数据管理与系统维护5.1主要工具厂商 数据库厂商:DB2,Oracle,SUbase,MYSQL,SQL ETCL工具厂商:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle6dbCiO1。 OLAP工具厂商:Cognos(Powerplay)、Hyperion (Essbase)、微软(Analysis Service)以及MicroStrategy几大厂商的产品。GDV2XkS。 前端展示厂商5.2元数据管理的质量控制 元数据是描述数据的数据,是指与业务
45、和技术过程以及企业数据使用相关的所有数据及包含的知识信息。元数据通过定义数据仓库的内容,帮助用户找到进行分析所需的相关信息。iNCcMsI。 元数据管理系统,从根本上讲,是将分散在数据仓库各个环节的、独立的元数据统一存储在元数据存储库中,并将各个元数据有机的联系在一起,因此,元数据管理系统的基本任务是实现数据信息的管理即元数据的管理。通过元数据管理,使分散的数据信息成为一个统一的整体。mKhGgzZ。5.3元数据管理的质量控制目标元数据系统最终将提供对整个企业的元数据管理,实现企业级的运行环境视图。元数据管理将以数据仓库数据环境为核心,完成对相关业务元数据及技术元数据的集成及应用,提供数据路径
46、、数据归属信息,并对业务术语、文档进行集中管理,通过变更报告、影响分析以及业务术语管理等应用,保证数据的完整性,控制数据质量,减少业务术语的歧义,建立业务人员之间、技术人员之间、以及业务人员与技术人员之间的沟通平台。15d1cs6。5.4元数据管理的质量控制方法对元数据系统的质量控制,一般采用事前控制的方法。所谓事前控制是指在工作计划阶段或计划前,对所要开展的工作进行充分的咨询评估。通过这种分析评估对所要开展的工作进行充分的对比和论证,把相关的实施路径、关联关系、技术难点、业务范围都梳理清楚。这样在实施的时候就可以做到脉络清晰、有的放矢。3yNRWOK。5.5元数据建设目标元数据系统最终将提供对整个企业的元数据管理,实现企业级的运行环境视图。元数据管理将以数据仓库数据环境为核心,完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,通过变更报告、影响分析以及业务术语管理等应用,保证数据的完整性,控制数