学位论文：维度建模在电信数据仓库中的应用.pdf

资源描述

摘要基于传统数据库技术的决策支持系统无法满足当前的需求，数据仓库可以更好地为企业生产运作或商业活动提供决策支持,本文结合陕西电信的实际需求，提出了基于数据仓库的商业决策解决方案.数据仓库建模是数据仓库项目成败的关键，它直接决定了数据仓库的易用性、易扩展性和易维护性。一般采用E/R模型或维度建模作为其建模策略。本文重点研究数据仓库维度模型设计和优化，结合陕西电信的数据仓库项目，主要探讨了陕西电信数据仓库维度建模设计问题，其中包括事实表和维表的设计，并通过星型模型和雪花模型来实现维度建模。本文首先介绍了数据仓库的理论基础，并根据陕西电信的机构组织和技术情况完成了数据仓库的架构设计.在对聚焦项目全面分析的之后，提出了计费收入业务商业指标和商业维度，并完成了维度建模的设计.最后是对项目的测试和验证。在数据仓库建模中引入维度建模，不仅能为商业决策者提供最迅速的查询方法，而且更主要的是维度建模具有更好的理解性和扩展性，尤其对于突如其来的变化能及时的做出应对,因此，维度模型是数据仓库建模中唯一可行的技术和方法。关键词：数据仓库维度建模ETL联机分析处理ABSTRACTBased on traditional database technology for decision support system cannot meet the current needs of data warehouse for better business operation or commercial production decision support activities.In this paper,the actual demand of Shaanxi Telecom made business decisions based on data warehouse solutions.Data model is the key to the success of data warehouse,it directly determines the data warehouses ease of use,easy scalability and easy maintenance.Generally use E/R model or dimension modeling as modeling strategy.This paper focuses on dimensional model of the design and optimization in data warehouse,combined with the data warehouse project in Shaanxi Telecom,it focuses on the design of data warehouse modeling including the design of the fact table and dimension table,through the star model and snow model to achieve dimensional model.This paper describes the theoretical basis of the data warehouse and completes the data warehouse architecture.After the comprehensive analysis of the focus project,and completed the design of dimensional modeling,Finally,it is the projects testing and validation.In data model of dimensional modeling jiot only can provide the most rapid business decision_makers,and inquires of dimensional modeling has the better can understand and extensibility,especially for the sudden changes can respond promptly.Therefore,the dimensional model of data warehouse modeling is the only feasible technologies and methods.Keyword:Data Warehouse Dimension Modeling ETL OLAPr目录第一章绪论.11.1 研究背景.11.2 项目来源.21.3 国内外研究现状.21.4 本文研究的主要内容.31.5 章节的安排.3第二章数据仓库理论基础.52.1 数据仓库的概述.52.2 维度建模的概述.62.1.1 E/R模型和维度模型.62.1.2 E/R模型和星型模型的比较.82.3 数据仓库的分析技术.92.3.1 数据挖掘概述.10.2.3.2联机分析处理的概述.122.3.3 DW、DM 和 OLAP 三者关系.132.4 维度建模常用的方法.14第三章需求分析和系统架构.193.1 聚焦项目简介.193.2 业务需求分析.203.2.1 聚焦项目分析主题.203.2.2 维度和指标解释.223.3 数据仓库总体架构设计.253.3.1 ETL 设计.253.3.2 数据仓库逻辑体系结构.253.3.3 数据仓库物理体系结构.263.3.4 数据仓库实施方案.27第四章维度建模分析和设计.314.1 聚焦项目的维度建模过程.314.1.1 选择信息主题.:.314.1.2 选择粒度.；.324.1.3 事实表.324.2.4 维表.334.2 信息包的引入.364.3 多维模型设计.384.3.1 星型模型设计.384.3.2 雪花模型设计.394.4 维度模型的实现.394.5 星型模型和雪花模型比较和进一步的优化.434.5.1 星型模型和雪花模型的优缺点.434.5.2 代理关键字.444.5.3 维度模型的规范化.454.5.4 聚集事实表.45第五章数据测试和验证.475.1 数据测试.475.2 数据验证.505.3 数据仓库的设计质量.515.3.1 数据质量的原则.515.3.2 数据质量的监控.525.3.3 错误追踪.53第六孽结束语.；.55致谢.57参考文献.59第一章绪论1第一章绪论1.1 研究背景近年来,随着信息化的发展和技术的进步，信息已成为人类社会不可或缺的重要资源，社会的信息化使得信息量的急剧增加0计算机的飞速发展使得数据处理更加容易，数据处理已经不是信息技术的重点，代之而来的是管理者如何充分利用这比海水还多的信息。人们已经不再满足于一般的事务处理，而是基于事务处理的基础之上进行分析处理，数据仓库技术就是在这种形势下应运而生了。作为一个新的研究领域，数据仓库的研究和应用得到了企业的广泛关注.首先数据仓库不是一个可以购买来提供战略信息的软件或硬件产品，而是一个用户可以从中找到战略信息的新的体系化环境。数据仓库是以计算机应用为基础的信息传递系统，用来支持各个领域的决策分析。数据仓库作为一个集成了许多数据源的中央数据库系统，从许多不同的联机事务处理数据源收集和提取数据，并通过一系列汇总计算将数据组织成易于分析的形式，从而为企业提供了一个信息集成平台，为管理人员和决策者提取信息并回答有关业务运作的问题提供支持.因此,数据仓库是信息资产的核心，是管理信息系统的“上层建筑”.尽管数据仓库技术在过去的十几年逐渐成熟，而且作为决策支持系统已经成为了一种主流认识,但是数据仓库仍然是数据管理技术中的高级应用领域，仍然会继续面对许多新的挑战。目前数据仓库正处于积累阶段.因而最主要的就是要认清传统的数据库技术和数据仓库技术之间的最主要的区别是什么，需要从全局整体上考虑数据仓库的架构和模型的设计，以及造成模型的低效以及优化和更新方面等一系列问题，以使数据仓库能够达到自己所期望的那么高的效率。建立数据仓库系统与原有的操作型系统的构建方法完全不同，原有的建模方法已不适应新的系统.用户不能完全描述他们希望在数据仓库中得到什么，但是他们习惯用商业维度思考问题，并根据商业维度进行分析。它是一种构造需求分析的商业维度和指标的逻辑设计技术，在查询和分析方面有很高的性能，它在支持决策分析方面是最好的建模方法，也就是维度建模。数据仓库建模对于数据仓库项目的成败起着关键性作用，它直接决定着数据仓库的易用性、易扩展性和易维护性。主要是为商业决策者提供最迅速的查询方法。它被广泛的应用在数据仓库和商业智能过程中。为商业决策者在决策方面提供最有效的支持。2维度建模在数据仓库中的应用1.2 项目来源中国电信是我国大型的国有通信企业，是我国最大的基础网络运营商，它是一个拥有世界上第一大固定电话网络，覆盖全国城乡、通达世界各地，成员单位遍布各个省、直辖市。近年来，随着中国电信市场正日趋成熟，在电信产业庞大的业务数据背后，运营商正面临着另一种压力，高速膨胀已不是主流发展业务的趋势，这种竞争优势差异不断的在缩小，同时企业的运营成本在不断的增加，利润空间也不断的缩小，客户更是对企业的服务质量提出了更高的要求。在这种新形势下，针对当今客户消费的自由度和选择性日趋增强，促使中国电信从以往的产品经营到现在的品牌经营的转变。面对如何能够挽留客户这一问题，中国电信提出了聚焦客户业务统计收入核算项目，这主要是为了掌握客户每月的发展变化趋势，确保集团总部能够及时、准确的掌握客户真实的数据，以方便管理者随时做出决策。本人有幸参加聚焦客户这一项目，参加了数据模型的分析、设计，以及相关代码的完成。本文从维度建模的角度来分析和研究本次课题。1.3 国内外研究现状作为一个新的研究领域，数据仓库的研究和应用得到了广泛的关注，也很快成为数据库市场一个新的增长点。国外有许多厂家和公司如IBM,Oracle,NCR和 Microsoft等有实力的公司在这个领域进行了深入的研究，相继推出了自己的数据仓库解决方案。但是，数据仓库技术体系还没有成熟，数据仓库技术还没有达到现有数据库技术的成熟度和易用性。目前市场上的数据仓库产品都是基于一个通用的技术平台设计的，虽然能解决不同用户的分析需求，但没有将特殊领域的商业逻辑与数据仓库技术集成起来，因而分析效果不可能达到理想的峰值，所以目前数据仓库技术的发展仍处于积累阶段。当今世界充满了激烈竞争，正确及时的决策是企业生存和发展的最重要环节,因此很多企业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。据统计2000年全球500家大企业中有50%的企业己经实施了数据仓库或部门级数据集市，其中在电信、银行、零售业、航空、铁路运输、邮政等传统数据密集型行业的全球领导厂商都已采用数据仓库作为决策支持。在我国，数据仓库市场启动较晚，主要由于当时我国的应用基础尚不完善及企业意识不足.但随着我国信息化建设的逐渐完善和应用意识的提高，许多行业如电信、金融、税务等逐步认识到数据仓库技术对于企业宏观发展所带来的巨大经济效益，纷纷建立起了数据仓库系统。但和国外相比，国内的数据仓库市场还不成熟，主要的原因有以下几个方面:首先，建设数据仓库的前提是要有大量的数据,第一章绪论3特别是历史数据。其次，数据仓库应用主要是一个建立的过程，实践性非常强，而国内真正能够完整实施数据仓库方案的人才严重匾乏，因此制约了国内数据仓库市场的发展。第三，目前数据仓库工具没有国产的，由于东西方文化差异，数据表现形式也不符合国内客户要求，必须重新定制开发应用界面，从而延长了建设周期。虽然数据仓库技术还需要不断完善，但是其能带来的巨大经济效益，使它的发展前景不可限量。数据仓库应用所能够带来的巨大效益也必将刺激中国数据仓库市场的发展，因此，今天研究数据仓库正当其时，中国数据仓库市场必将前景广阔，商机无限.1.4 本文研究的主要内容本次课题开发的内容是根据中国电信集团公司所提出的聚焦客户分析和收入核算项目，主要工作内容是基于维度建模技术在数据仓库中的应用。在整个课题研究中，本文主要完成的工作包括：1.论文准备：阅读大量相关的数据仓库书籍，以及对项目的从需求分析、设计到实现过程全面的研究和掌握，以及完成相关的代码和ETL流程设计；2.电信数据仓库的总体设计：分析电信数据仓库的总体设计，主要包括数据仓库物理模型设计和逻辑模型的设计过程；.3.维度模型设计和实现：维度模型的概述、详细阐述维度模型设计四个步骤,以及如何使用雪花模型和星形模型在具体项目中的应用；4.在维度模型设计之后，对数据仓库提出的一些优化方案，对生成的数据进行一些测试和验证，以及对最后数据质量的把关.1.5章节的安排按照论述的内容，本文共分为六章，各章主要内容安排如下：第一章绪论,主要介绍论文的研究背景、项目来源和国内外现状，以及论文的章节组织.第二章数据仓库理论基础。主要是对维度建模和数据仓库进行介绍、数据仓库分析技术以及维度建模的常用方法的介绍.第三章需求分析和系统架构。介绍了数据仓库逻辑体系结构和物理体系结构的设计、数据仓库的实施方案以及数据仓库的数据组织结构等。.第四章维度模型分析和设计。主要从维度模型的提出，具体项目的设计步骤,实现过程等进行阐述。第五章数据的测试和验证。通过使用维度建模技术之后的测试过程、前台的展示以及数据质量的检查等进行描述。4 维度建模在数据仓库中的应用第六章结束语。对论文的主要工作总结和进一步要做的工作进行了说明。最后为致谢、参考文献。第二章数据仓库理论基础5第二章数据仓库理论基础2.1 数据仓库的概述传统的数据库技术是以单一的数据资源，即数据库为中心，进行从事务处理、批处理到决策分析等各种类型的数据处理工作。然而，不同类型数据处理有着不同的处理特点。面对这种差异，数据库技术已经满足不了数据处理的多样化要求。近年来，随着商业活动不断的频繁、集团公司不断的向全球进行拓展，竞争愈演愈烈，虽然数据库应用的广泛普及，特别是它在响应时间、数据安全和数据完整性方面起到了非常大的作用，但是企业渴望得到更多地有价值的战略信息，它却在分析处理方面显得力不从心.因此，数据仓库技术就在这种形势下应运而生并得到了飞速的发展。人们对数据处理这种多层次的特点有了更加清晰地认识.一般认为，数据处理大致分为两大类：操作型处理（事务处理）和分析型处理。在事务处理环境中，用户的行为特点是数据的存取操作频率而每次操作的时间短，因此，系统可以允许多个用户按分时方式使用系统资源，同时保持较短的响应时间。而在分析处理中，用户的行为与此完全不同，可能某个DSS应用程序就需要连续运行几个小时,从而耗费大量的系统资源.可见这是两种处理方式完全不同的数据库技术。而数据仓库技术是在数据库技术的基础上发展而来的，两者缺一不可。数据仓库的创始者Nil Inmon认为：“数据仓库是为支持管理决策建立的，面向主题的，综合的，稳定的，随时间变化的数据集合，能够提供一个灵活的、交互的战略信息来源。首先，数据仓库的每一个主题所对应的源数据在原有的各个分散的数据库中有许多重复不一致的地方，且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起，数据是根据主题来进行组织；数据仓库的数据是集成的，它是从原来分散的数据库数据中抽取出来的.另外，数据仓库的综合数据不能从原有的系统中直接得到，必须经过统一与综合才能用于DSS分析，这也是数据仓库产生的最主要的动因。其次，数据仓库的数据主要提供企业决策分析之用，一般情况下不进行修改操作，主要是进行数据查询。它的数据反映的是一段相当长的时间内历史数据的内容，是不同时点数据库快照的集合，以及基于这些快照进行统计、综合和重组的导出数据。最后，数据仓库的数据是随时间不断变化的.也就是数据仓库用户进行分析处理时不进行数据更新操作。由于企业对战略信息需求不断的增长，加上事务处理不能满足管理者的需求。因此，数据仓库就成了唯一可行的解决方案。数据仓库就是用户非常需要用来提供战略信息的系统环境，这种新的环境与以前支持每天操作的环境是分离的。数据仓库通过对操作型系统的数据进行抽取、转换成为适合数据仓库存储、易于检 6维度建模在数据仓库中的应用索的形式。另外数据仓库通过商业维度的存储包含了商业处理的很多关键过程和度量。因而数据仓库可以用来回答用户提出来的问题。例如：关于企业每个月的各个经营指标的情况、商业趋势，以及采取何种措施来改善经营，数据仓库能够让用户直接访问数据，并能从不同的角度提供关于经营情况的统一指标。总而言之，数据仓库绝不是数据的简单堆积，而是从大量的事务型数据库中进行抽取，通过清洗和转换，从而得到有用的决策信息。2.2 维度建模的概述模型是对现实世界特征的模拟和抽象。所谓抽象就是对实际的人、物、事和概念进行人为处理，抽取多关心的共同特性，忽略了非本质的细节。它可以帮助人们更加清晰地了解客观世界。数据仓库建模是在业务需求分析之后开始，是数据仓库正式开始的第一步，正确而完备的数据模型是用户业务需求的体现，是数据仓库项目成功与否最重要的技术因素。数据仓库技术发展到现在，形成了众多的数据仓库建模技术，其中最主要的是E/R建模和维度建模。尤其是维度建模方法越来越被广泛接受。2.1.1 E/R模型和维度模型E/R模型网是设法消除数据冗余的一种逻辑设计技术.e/R模型主要关注三个元素：实体、属性和联系。实体：客观存在并可相互区别的事物称为实体，通常用矩形表示。例如，产品、销售商等。属性：实体所具有的某一特性称为属性，通常用椭圆形表示。一个实体可以由若干个属性来刻画。例如产品实体可以由产品名、产品类型、重量等属性组成。联系：实体内部的联系通常是指组成实体的各属性之间的联系，通常用菱形表示。通常在数据仓库中也采用E/R模型如图2.1所示,而E/R模型最大的优点是消除数据冗余。随着数据量的不断增长，进行查询时需要多表的连接，从而降低了数据的查询。维度模型之所以在数据仓库中比较受欢迎，除了让用户容易理解最主要的是更好的查询性能。第二章数据仓库理论基础7图2.1E/R示意图维度模型通常也称作星型模式。如图2.2所示，这种模型在数据仓库中非常受欢迎.主要是因为它和E/R模型相比能提供更好的查询性能，特别是在进行多表之间的查询.它的优点之二就是更容易让用户理解。维度模型是由一个含有大量事实的表，在他的周围围绕着一些包含描述数据的维表。图2.2星型模型示意图8维度建模在数据仓库中的应用事实表是维度模型的基本表，它存放有大量业务性能度量值。事实表的度量值分三种类型：1,完全加和指标(Fully_Additive Fact)：事实表中的指标可以沿着任何维度进行相加。2.半加性指标(Semi_Additive Fact)：事实表中的指标只能沿着某些维度进行汇总。例如：账户余额、清单。3.非加性指标(Non_AdditiveFact)：这些指标不能沿着事实表的任何维度进行加和汇总，这样得出的值没有任何意义。例如：基本单位、比率、温度。事实表的特性：1.事实表倾向于具有更多的行和更少的列，通常占去整个数据库空间的90%或更多。2.事实表是由两个或两个以上的外关键字，外关键字用于连接到维度表的主关犍字。事实表本身也是由这些外关键字子集组成的主关键字。3.数据颗粒。数据粒度是指标的细节程度.通常根据判断事实表无论是细节层事实表还是汇总层的事实表，它对应的级别不同，因而数据颗粒也是不一样。4.稀疏的数据。假如在临近一个假日的日期没有接到订单或者没有订单处理，在这种情况下，事实表不会有相应的指标值，而且维度表属性的其他组合也可能会导致事实表中指标值为空值:维度表是事实表不可分割的伴侣。它的特性具有以下几点：1.维度表有许多列或者属性，所以维度表很宽，行相比事实表来说也少得多。2.维度表的属性通常是文本的和离散的。3.维度表时常描述业务中的层次关系。例如客户维度，包含客户所在的邮政局，上升到城市及州的单一的层次结构。这就方便从高层次的汇总信息到低层次细节信息进行上钻和下钻，方便用户进行分析。4.维度表一般是很不规范化的，通常占数据空间容量的10%左右。雪花模型：它是在星型模型的基础上进行过规范化的处理。当某个维度中的低基数字段被移动到独立的表中，并且用人工键与原始表进行链接时该维度模型就成为雪花模型。2.1.2 E/R模型和维度模型的比较E/R模型是完全区别于维度模型。E/R模型适应于OLTP系统，它主要是用来减少数据冗余，确保数据的一致性，并且能够快速的对数据进行查询。E/R模型数据被分成许多具体的实体，其中每一个实体都成为关系数据库中的一个表。它在联机处理中获得了巨大的成功。主要是因为它使得处理和更新又简单又快。但是在第二章数据仓库理论基础9这种简单的查询经过任意的数据抽取，然后再抽取上在抽取，导致了错综复杂像蜘蛛网那么多的相关联的表。从而各个部门对同一个汇总数据得出的结论也及不一致，缺乏可信性.E/R模型的优点：1.E/R模型减少数据的冗余，这样能节省更大的空间和加强表之间的完整性约束。2.E/R模型使得数据库在进行INSERT、UPDATE.DELETE操作相比非规范化模型执行的速度更快。3.E/R模型在设计数据库是能够很好的捕获实体之间的相互关系.但实践证明维度建模具有数据仓库方面的很多优点，但是这是E/R模型所缺少的。1.维度模型是可预测的标准框架。这是因为维度建模本身具有简明性和可理解性，并且为用户提供高性能的查询。2.维度模型为能够忍受不可预知的用户行为变化.这是因为每一个维度都是相等的，所有的维度都可以看做是对称相等的事实表入口点.3.维度模型具有非常好的可扩展性，以便容纳不可预知的新数据源和新的设计决策一4.维度模型具有很多标准的方法可以处理业务环境中常见的建模方法.例如，缓慢变化的维度。5.维度建模拥有数量不断增长的管理实用程序和软件。这些软件主要用于各种聚集的管理和使用过程.因此，维度建模是最适合为数据仓库进行建模，也是被公认为能够将数据传送到最终用户的唯一解决方案。2.3数据仓库的分析技术数据仓库技术仅仅解决了信息的存储问题，提高了数据的存储效率，但它并不能直接提供有价值的信息.数据仓库创建以后，企业的经理、主管和商业分析员就开始使用各种方法对数据仓库里面存储的数据进行查询。用户不再满足一般的报表工具所提供的查询结果，而是希望对这些海量数据进行一些复杂的查询，这些查询应该是多角度的、多视图模式、具有预测性目的等.完成这些查询仅依赖于数据仓库是不够的，而是需要数据分析技术，才能轻松自如的在数据的海洋里提取高质量的信息，真正为决策者服务。数据分析技术是指一种能够应用在数据仓库基础上，进行业务应用分析的数学方法。目前主要有OLAP、数据挖掘等内容。维度建模在数据仓库中的应用2.3.1 数据挖掘概述数据挖掘（Data Mining,简称DM）是一种知识发现的过程，能以一种出人意料的特殊方式帮助你理解数据的本质。.它从原始数据中挖掘出你从不知道其存在着的一些模式和倾向.它主要基于AL机器学习、统计学等技术，高度自动化地分析企业原有的数据，做出归纳性的推理，从中挖掘出潜在的模式、预测客户的行为，帮助企业的决策者调整市场策略，减少风险，做出正确的决策。相对于OLAP 来说，DM是一种挖掘型的分析工具。从商业角度看，数据挖掘是一种新的商业信息处理技术，通过对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。DM的技术基础是人工智能。人工智能是以自动机为手段，通过模拟人类宏观外显的思维行为，从而高效率的解决事实世界问题的科学和技术。很显然，DM利用的技术越多，得出的结果的精确性就越高。对于某一种技术不适合的问题，其他方法却很奏效。DM的分析方法主要取决于问题的类型以及数据的类型和规模,下面主要简单的介绍DM的四种分析方法倒咒1.关联方法。关联分析的目的就是为了挖掘出隐藏在数据间的相互关系，关联分析就是给定一组Item和一个记录的集合，通过关联算法能找出Item之间的相关性。例如，在超市中，你可能会发现被遗弃购买的产品之间可能存在着密切的联系。啤酒和尿布，脱脂乳和黑面包等等。关联规则表示了这样的密切联系，而算法能够系统地、有效地得到这些关联规则。2.决策树。这项技术主要应用于分类和预测。它之所以吸引人，主要是因为它的简单。沿树而行，你就能解析规则，你可以使用这些规则来找到某个类的记录。一个决策树表示一系列的问题。每个问题决定了继续下去的问题会是什么。好的问题会产生成为一个短系列。决策树的根部在顶端而叶子在底部。处于根部的位置的问题必须是一个能最好区别目标种类的问题。当一个的数据库记录进入树的根节点时，该记录将向下运动直到遇到某个叶子节点，而这个叶子就决定了这个记录的种类。3.神经网络。神经网络可以模仿人的头脑，通过向一个训练数据集学习和应用所学知识来分类和预测的模式。在数据是不定形的并且没有任何明显模式的情况下，这种方法很有效。人工神经网络的基本单元模仿了人脑的神经元。基本单元被称为节点，它的神经网络模型的两个主要结构之一，另一个结构是链接，相当于人脑中神经元的连接。4.聚类分析。它的输入集是一组未标定的记录，也就是说此时输入的记录还没有被进行任何分类。其目的是根据一定的规则，合理的划分记录集合，并用显第二章数据仓库理论基础11式或隐式的方法描述不同的类别.而所依据的这些规则是由聚类分析工具定义的。由于聚类分析可以采用不同的算法，所以对于相同的记录集合可能有不同的划分。在进行数据挖掘时，DM系统不是由多项技术的简单组合，而是，一个完整的整体，它还需要其他辅助技术的支持，才能完成数据采集、预处理、数据分析、结果表述，最终将分析结果呈现在用户面前。DM进行数据分析如图2.3所示，它主要通过3个步骤进行数据挖掘的：1.数据准备。它可以进一步细分为：数据集成，数据选择和预分析。1）集成。数据仓库要为数据挖掘提供数据，只有大量数据可用是，数据挖掘才能产生好的结果，几乎所有的算法都需要最低粒度上的数据，另一个要点就是数据质量数据挖掘是从数据中发现模式和关系。因此，它主要是将从操作型环境中提取并集成数据，解决予以二义性问题，消除脏数据等等，并建立统一的数据视图。数据挖掘不一定建立在数据仓库的基础上，但如果能和数据仓库协同工作,则必须大大地提高数据挖掘的工作效率这可以保证数据挖掘的广泛性和完整性，而且不会漏掉与主题相关的信息。2）数据选择和预分析。这一步主要是将负责缩小数据范围，提高数据挖掘的质量，数据挖掘是一种验证型工具，通常对数据进行细致，深入地观察和表述，以期待能从小找出有感兴趣的东西。2.挖掘。在数据准备好之后，根据数据挖掘的分析方法进行分析数据库中的数据。图2.3数据仓库中的数据挖掘3.表述。数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户，这时可以利用可视化工具.由于用户要求的不同，DM分析的数据的范围会有所不同。若分析人员对分析结果不满意，可递归的执行上述三个过程，直到满意为止。12维度建模在数据仓库中的应用23.2联机分析处理的概述近年来，用户需要一种工具专门是设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理，其中可以对数据沿着每个维度的不同多层结构进行下钻和概括数据，同时沿着任何多的维度数在任何聚集水平上对数据进行分析，并且以一种直观易懂的形式将查询结果提供给决策人员，以便他们准确地掌握企业的经营状况，了解市场需求，制订正确的方案，增加效益。1993年，EECodd将这类技术定义为OLAP技术。联机分析处理S（On-Line Analytical Processing）是一种软件技术，它使分析员、经理和主管人员能够通过快速的、一致的和交互式的访问来获取并理解各种可能的信息视图的数据，这些信息由原始数据转换而成，用来反映一个企业实际的维度。它的基本概念包含以下几个方面：1.变量。变量是数据的实际意义，即描述数据“是什么”。一般情况下,代表的是一个数值度量指标.一个数据本身没有意义，只有在特定的环境中才代表的是对某一事物的度量值。2.维。人们观察数据的角度。例如，时间维、产品维等。3.维的层次。人们观察数据某个特定角度还可以存在细节程度不同的多个描述方面。一个维往往具有多个层次，例如描述产品维时，可以从产品种类、产品属性、包装型号、生产年份等不同层次来描述。4.维成员。维的一个取值成为该维的一个维成员。如果一个维是多层次的，那么该维的成员是在不同位层次的取值的组合。5.多维数组。一个多维数组可以表示为（维1,维2,，维变量）6.数据单元（单元格）多维数组的取值称为数据单元。当多维数据的各个维上选择一个维成员，这些维成员的组合就唯一确定了一个变量的值。由此可得，多维分析是OLAP最强大的一个功能。假设我们从一个星型模型开始讨论其中包括三个维度：时间、产品、地域。这三个维度恰好可以在一个立方体上进行表示。所谓多维分析就是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作，以剖析数据，使最终用户能从多个角度、多侧面地观察数据库中的数据，从而深入地了解包含在数据中的信息、内涵。多维分析方式迎合了人的思维模式，因此减少了混淆并且降低了出现错误解释的可能性。但是如果维度超过三维时，就无法再用立方体来进行表示，而是用一种超立方体来表示数据结构，即一种新的MDSUW（多维域结构）,它通常是用直线来表示各个维度和指标，这可以转化到如何用行、列和页面这三个显示组来显示四维甚至更多的维的信息。第二章数据仓库理论基础这使的用户可以对数据仓库的数据进行下钻或概括操作，以及对立方体多角度的旋转、切片、切块等进行分析。OLAP是以数据库或数据仓库为基础的，其最终数据来源与OLTP一样均来自底层的数据库系统。但由于二者面对的用户不同，OLTP面对的是操作人员和低层管理人员，OLAP面对的是决策人员和高层管理人员,因而数据的特点和处理也明显不同。因此OLAP是建立在三层客户/服务器结构上，这种结构优点在于将应用逻辑、GUI、和DBMS严格区分开来，复杂的应用逻辑不是分布于网络上的众多PC 机，而是集中存放在应用服务器上，由服务器提供高效的数据存取，安排后台处理以及报表的预处理。从图2.4可以看出,OLAP实施的关键首先是如何组织来自于多个不同数据源或数据仓库中的数据；以及OLAP服务器和前端软件的沟通。OLAP服务器和前端软件的桥梁就是多维数据分析山皿.显然，OLAP服务器的构建基础是数据仓库或基层数据库，数据仓库既包括基层数据库的操作细节数据，又包括综合性数据。由于OLAP面向分析和管理决策人员的，决策人员大多关心的是综合性数据以便从更高层次、总的视角来了解数据。因此，03服务器的设计中在于如何组织数据仓库中的综合性数据，如何满足前端用户的多维数据分析需求。.从总体来看，OLAP实施基本上遵从三层结构，但在具体实现上还是有差异。主要表现在OLAP服务器端的数据组织方法。这就出现了两种新技术MOLAP和 ROLAP.一种是建立专用的多维数据库系统口】(MDDB)；另一种仍然利用现有的关系数据库技术来模拟多维数据。前端软件图2.4 OLAP的三层客户/服务器逻辑结构图233 DW、DM和OLAP三者关系企业数据仓库要么是作为一个集中的储存库为独立的数据集市提供数据，要么是统一化的数据集市在总线结构上的联合，它为数据分析提供了一个非常有用 14维度建模在数据仓库中的应用的数据源。它是将各种不同的源操作型系统的数据,经过统一的清洗、转换形成一致的数据，并将其加载到数据仓库储存库中，以方便各种分析工具对数据进行深入的解剖。DM是一种挖掘型工具，它能自动地发现隐藏在数据中的模式和关系。而数据仓库所提供的数据恰好是数据挖掘所需要的大量细节数据。DM是一种有效地从大量细节数据中发现潜在数据模式，做出预测性分析的分析工具。另外，DM的分析过程是自动的进行指示发现过程。OLAP是一种自上而下、不断深入的分析工具：用户提出问题或假设，OLAP 负责从上至下深入地提取出关于该问题的详细信息，并以可视化视图的方式呈现给用户.在这期间OLAP不一定需要数据仓库最底层的细节数据，而是根据实际情况从数据仓库中提取分析所需要的数据。综合上述，数据仓库是DM和OLAP的进行分析的基础。但从数据分析的深度的角度来看,OLAP位于较浅的层次,而DM所处的位置则较深。DM可以发现OLAP 所不能发现的更为复杂细致的信息。尽管DM和OLAP存在上面的差异，但作为数据仓库系统的工具层的组成部分，两者相辅相成。并且，随着OLAP的发展，它们之间的界限正在逐渐模糊，因为越来越多的OLAP厂商将DM的方法融入到他们的产品中。在整个决策分析系统中，OLAP和DM以及其他工具由于内在技术以及适当范围的不同，必须协调使用才能使这种优势发挥最佳的作用。2.4维度建模常用的方法1.渐变维度渐变维度阿就是一个维度的属性不是永久不变的而是随着时间在缓慢的变化着。维度设计人员必须富有成效的吸纳业务方面的代表来帮助确定用于变化处理的合适策略.在维度模型设计中必须提出捕获缓慢变化维度的处理策略。主要有三种方法：类型1：改写属性值用户仅仅需要用当前值取代维度行的旧属性值就可以完成对它的改写了。这样的处理使属性所反映的总是最新赋值。这种响应方法是维度属性变化的最简单方法，快速和方便是它的优势，但是这种处理会使得所有属性的变化历史都会丢失,只留下当前存在的属性值。例如表2.1销售员工Monica她的姓被错误的写成 Monnica,因此在修改的时候如表2.2那样只是用Monica取代错误的值就可以了。表2.1修改前员工信息表员工关键字LastnameFirstname工作所在地963256AgarwalMomricaNew York第二章数据仓库理论基础15表22修改后的员工信息表员工关键字LastnameFirstname工作所在地963256AgarwalMonicaNew York类型2:添加维度行类型2是用增加一个新的维度行来处理变化的维度属性.由于这种响应方法能自动的区分事实表的历史，但是，他能使维度表进行迅速的膨胀，增加存储空间.如表2.3所示，Monica在2009年1月15号以前工作在纽约但是2009年1月 15号被调往加利福尼亚按照类型2的修改方法没有直接用新的属性值修改而是添加一个新的维度行，这有助于用户可以追溯Monica的所有信息。表2.3员工信息表员工关键字LastnameFirstname工作所在地963256AgarwalMonicaNew York963256Agarwal MonicaCalifornia类型3：添加维度列虽然类型2相应方法可以区分历史，但不能将新的属性值同旧事实历史联系起来，反过来也是如此.虽然重新划分了区域范围，但是用户还希望和以前的进行比较，在这种情况下类型2不能提供这种需求，而类型3就能提供这种支援。如表2.4所示有个客户叫Susan Holcomb在未结婚以前他的姓是Holcomb,而在结婚后她的姓是Williams。在这种情况下，不能像类型2响应方法，而是增加New Lastname 列。表2.4客户信息表客户关键字FirstnameOld LastnameNew LastnameMarried963256SusanHolcombHolcombNO963256SusanHolcombWilliamsYES这种

展开阅读全文