基于维度方法的数据仓库建模与实现.pdf

资源描述

1、巾山大学硕士学位论文摘要模型是对现实的抽象和反映,它强调事物的本质特性,扬弃事物的次要因素,既反映了事物的原型，又不完全等于原型，它可以帮助人们更加清晰地了解客观世界。数据仓库建模在业务需求分析之后开始，是数据仓库正式开始的第一步,正确而完备的数据模型是用户业务需求的体现，是数据仓库项目成功与否最重要的技术因素。数据仓库技术发展到现在，形成了众多的数据仓库建模技术，其中的维度建模方法越来越被广泛接受。本文首先对数据仓库和维度建模方法进行概要介绍，论述常见的ERM建模方法与维度建模方法的关系，然后通过对一个实际的项目一广东移动经营分析系统进行维度建模并在DB2数据库中实现，来证实维度建

2、模方法的可行性和有效性。关键字：数据仓库维度建模ERM建模中山大学硕士学位论文Modeling and realizing of data warehouse based on dimension methodComputer software engineering ABSTRACTThe model is to the abstract and reflection of reality,it can help people to understand the objective world more clearly.The warehouse modeling of the data

3、begins after the business demand is analysed,It is the first step begun formally in data warehouse,The conect and complete data model is the embodiment of the customer service demand,The most important technological factor that it is the warehouse project of the data to succeed or not.The warehouse

4、technology of the data is developed till now,Have formed numerous data warehouse modeling technology,Dimensional modeling method among them is being accepted extensively.This article introduces data warehouse and dimensional modeling briefly in the first place,Describe relations of common ERM modeli

5、ng method and dimensional modeling method.Then,Dimensional modeling in Actual project Guangdong Mobile Communication Company analyticl system of managing and realizing in DB2 database that Verify the feasibility and validity of dimensional modeling method.Keywords:data warehouse dimensional modeling

6、 ERM modeling中山大学硕士学位论文第1章：综述1.1问题的背景计算机信息技术的迅速发展和广泛应用，使得企业管理进入一个崭新的时期，多年来，企业建立了各种在线事务系统，对R常业务处理提供了有效的支持。这些在线事务系统具有如下特点：1）各个信息系统都各自比较完整地管理着客户某一部分的信息，众多的客户数据、市场营销数据、帐务数据以不同的数据格式和访问方式分散在不同的系统中，形成众多的信息孤岛，而且在各个信息孤岛中存在着冗余和不一致。2）这些系统都是联机事务处理系统，实时处理在线事务，不能适应数据挖掘应用大规模、频繁的检索和查询操作。3）各系统大都是集中式系统，几年来数据急剧增

7、加，在这些剧增的数据背后隐藏着许多重要的信息，企业希望能够对其进行更高层次的分析,以便更好地利用这些数据，解决“数据庞大，信息缺乏”的问题。然而，面对当今竞争日趋激烈与瞬息万变的市场，各级管理人员迫切希望能够根据企业的现状和历史数据做出判断和决策。数据仓库就是针对上面的问题而产生的技术解决方案，它是基于大规模数据库的决策支持系统的核心。正因为数据仓库以数据库为基础，许多人就错误地认为“数据仓库只是数据库在企业某个地方的拷贝，聚集在一起就行了”，当然，他们采用的方法也会是传统数据库的建模方法，这样建造出来的数据仓库复杂而且效率低下，很快就会被放弃不用，所以，在国内，数据仓库建了不少，

8、真iE好好用起来的并不多，其中一个重要的技术原因就是模型建得不合理。一般来说，数据仓库项目都是大型项目，投入非常地惊人，项目失败会导致大量企业资金甚至国家财富流失。综上所述，本文在理解数据仓库特点的基础上，阐述一种改良的建模方法维度建模法，并将它应用到实际项目广东移动经营分析系统这一大型数据仓库项目中。中山大学硕士学位论文1.2 研究现状现在称之为“数据仓库”的这一技术，发源于80年代初W.HJnmon的研究，即在其“记录系统”、“本原数据（Atom沁Data）、“决策支持数据库”等专题中。Devlin和Murphy在1988年曾披露过IBM的一项内部研究计划，这个计划的目的是构造

9、一种“以关系数据库为基础的、公司数据的集成化仓储问这种仓储的使用者不是信息技术的专业人员，而是各级决策者，他们将使用“一组相容的工具”从仓库中提取有助于决策的信息，这组工具应当得到“业务数据字典”的有效支持，这个“业务数据字典”描述了决策者的可用信息。在九十年代，欧美已经有一些公司成功实施了数据仓库，例如零售商沃尔玛，也建立了比较完善的数据仓库技术和方法理论体系。国内的数据仓库应用在九十年代后期兴起，本世纪初达到一个小高峰，但真正成功实施的很少，原因在于没有很好理解数据仓库的特点，还是采用传统的开发方法和建模方法。伴随着数据仓库的发展，出现过多种建模方法，如：ERM建模、暂时数据

10、建模、面向模式数据建模、数据体系结构建模等，但应用结果均不如人意，它们不能很好地适应数据仓库和现代操作系统的特点，束缚于传统的建模思维。用这些方法建立起来的数据仓库复杂且难以扩展，这很难适应数据仓库的分析需求不时地变动的特点。近来，在传统的建模方法基础上出现一种改良的建模技术一维度建模法，虽然还不尽完善，但已经慢慢被接受。它追求简单、实用及易扩展性，也正是它的这些特性，使数据仓库的性能有了很好的改善131.3 技术思路现代操作系统和关系数据库系统都应用内存缓冲区技术来改善系统的性能，这是因为内存的读取速度相对于外存快，但内存的价格非常昂贵，所以一般计算机的内存缓冲区的容量都不会太大

11、。数据仓库由于累积了长时间的数据,尺寸比传统操作型数据库大得多，而且往往有那么几个特大的事实表。这样，在运行某些查询应用的时候，当内存缓冲区比中间结果集或结果集小得多时，会被数据库系统或者操作系统频繁交换出外存或者读入内存，从而导致性能急剧下降。数据仓库中的主要应用是分析查询，这种应用的特点是CPU不会是应中山大学硕士学位论文用性能的主要瓶颈，内存和外存才是关键资源。这样，在资源有限的前提下，解决问题的办法是怎样使得源表、中间结果集或者结果集减小，从而减少外存的I/O：在外存独立设备较多的情况下，还可以将1/0尽量分布到各个独立设备上，使I/O并行操作。针对事实表过大，可以采取水平分割

12、、垂直分割及使用代理关键字等技术来解决；对于维表过大，一般是将维表的常被引用的属性放在一起，其他的放在一起，分拆为两个或多个子维表；太多小维表或小参考表也会影响系统的性能，因为操作系统或数据库系统是按块来分配的阿，一个块上往往可以存放很多条记录，若这些单独的小表分布在不同的块上的话，可能导致1/0明显增加，处理办法是将这些小表集中到一个表中，它本身也不大，会占用很少的块，从而I/O减少。企业级数据仓库集成信息来自企业各个业务操作处理子系统的信息，很多时候某些子业务系统本身就是具有复杂关系的系统，可以想象，若按传统的ER 关系建模的话，整个模型会是多么的复杂，这种复杂会让开发者头疼，

13、也会让使用者却步。数据仓库的稳定性使得没有必要保证数据一定不冗余，可以让模型不按第3范式建模，根据需要允许部分数据冗余，如：将一些复杂关系如雪花模型降解为星型模型等。适度的冗余会让人很容易理解模型，处理简单了，性能也有一定的提高。但也要很好地掌握冗余的度，否则会导致很多重复工作，也会误导开发者和使用者，让他们无所适从。1.4 担当的角色和应用结果广东移动经营分析系统是一个庞大的数据仓库项目，分3期、5年规划，项目组共有26个成员，分为需求分析组、模型组、ETL组、前端展示组及系统集成组，本人主要负责系统集成组的工作，同时也是模型组的主要参与者。参考移动总公司的逻辑模型，根据广东移动的

14、实际需求，同时兼顾现有的各个数据源系统，按照维度建模要求的步骤建模。目前，这个项目的一期已经投入使用，效果比预想的要好，在不到一个月的时间内就装载完近1年的历史数据，最复杂的任务运行时间也不过十二分钟。中山大学硕土学位论文第2章：维度建模概要2.1 数据仓库概述传统的数据库技术是以单一的数据资源，即数据库为中心，进行事务处理、批处理、决策分析等各种数据处理工作，主要的划分为两大类：操作型处理和分析型处理（或信息型处理）。操作型处理也叫事务处理，是指对数据库联机的日常操作，通常是对一个或一组纪录的查询和修改，主要为企业的特定应用服务的，注重响应时间，数据的安全性和完整性：分析型处理则用

15、于管理人员的决策分析，经常要访问大量的历史数据。而传统数据库系统优于企业的日常事务处理工作，而难于实现对数据分析处理要求，已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。相对于传统数据库应用来说，数据仓库是一个面向主题的、集成的、不可更新的（稳定的）、随时间变化的用来支持管理人员决策的数据集合，它形成一个综合的，面向分析的环境。数据仓库中的数据面向主题，与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准，每一个主题对应一个宏观的分析领域，典型的主题领域如：顾客、产品、交易或活动等。数据仓库的集成特性是指在数据进入数据仓库之前，必须经过数据

16、加工和集成，这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处，还要将原始数据结构做一个从面向应用向面向主题的转变；数据仓库的稳定性是指数据仓库反映的是历史数据的内，而不是日常事务处理产生的数据，数据经加工和集成进入数据仓库后是极少或根本不修改的；数据仓库是不同时间的数据集合，它要求数据仓库中的数据保存时限能满足进行决策分析的需要，而且数据仓库中的数据都要标明该数据的历史时期。2.2 维度建模与ERM建模的关系传统数据库一般是面向应用的业务系统，常采用ERM建模方法的建模方法；而面向主题分析的数据仓库要适应分析决策系统的需要，在它的发展过程中，4中山大学硕上学位论文使用过多种

17、建模方法：ERM建模、维度建模、暂时数据建模、面向模式数据建模、数据体系结构建模等，但人们越来越倾向在信息集成中采用维度建模的方法。ERM建模方法可使用以下两个基本概念产生特定兴趣领域的数据模型：实体和实体关系囹。实体可定义为人、地点、事情，以及商业或组织的相关事件,例如“产品”，如图1所示。实体代表一类对象，它们是现实世界中可以按属性和特征进行观察和分类的一些事物。实体关系描述模型中各实体之间的结构性交互和关联显示了实体间的相关性。例如，图27中，箭头从“产品”指向“订单”。箭头每一端的数字定义了关系的基数，本例中为1对n（或1对多）。图2“销售ER模型另外信息集成中的ERM数据建

18、模通常采用3NF模型。因为这类模型最初是为最小化数据冗余而设计的，该模型在值发生改变时，可使数据库中的更新数量达到最小，这对降低维护复杂度是非常有价值的。维度建模是一种将数据模型概念化和形象化为一组可用一般商业概念描述的度量的技术囚。在总结和重新整理数据以及显示数据视图以支持数据分析时,该技术特别有用。维度建模主要处理数字数据，比如：值、计数、重量和出现次数。维度模型包含的基本概念有：事实、维度、度量。事实是相关数据项的集合，包含度量和环境数据。每个事实一般代表商业项、商业事物或可以在商业或商业过程分析中使用的事件。中山大学硕士学位论文维度是从特定角度描述事实数据的一组成员或单位。在

19、图表中，维度通常是用轴来表示的。在维度模型中，事实表中的每个数据点都与多维中每个维度的一个成员相关联。维度决定了事实的环境背景。度量是事实的数字属性，表示商业相对于维度的性能和行为。其实际成员称为变量。例如，度量为销售额、销售量、供应量等等。度量由维度的成员组合来决定，并定位到事实表中。维度建模的基本模型为如图2-2所示的星型模型。该模型通常有一个较大的中央表（事实表）和一组以放射状围绕在事实表周围的较小的表（维度表）。图2-2交易维度模型可以看出，以上两种方法有明显相似的地方：可以使用相同的符号，比如在ERM图中实体、关系、属性等。在维度建模也有，只不过在维度建模中称为：事实、

20、维度、度量等。但它们也有很多的不同之处：A）在ERM图中，各实体的关系是平等的；而在维度建模中，主要是星形模型，事实与维度的关系是不平等的。B）ERM一般来说都满足3NF,没有数据冗余或只有少量的数据冗余，因6中山大学便士学位论文此可以从源系统或通过应用程序非常快地进行更新。但在很大且复杂的系统中，ERM图中有可能出现类似如下图2-3的雪花模型，现在的关系数据库管理系统不能高效地查询规范化模型，它的复杂性淹没了数据库的优化设计从而导致性能上出现灾难性后果。而在维度模型中，因为追求简单性、可访问性，一般来说它不满足第3范式，甚至有时候要进行反规范化，这样它的模型中几乎不会出现雪花模型，它

21、的简单性也带来了查询性能方面的好处，但数据会出现冗余，-一致性也就会难以保障，不过这些在不可更新的数据仓库不会带来什么问题。综合上面所述，ERM建模适合少数据量、可更新的实时交易系统，而维度建模适合大数据量的、不可更新的分析系统。当然这并非是很严格的界线，比如在对数据仓库进行高级建模（逻辑模型）时，有时采用的就是ERM建模方法，在低层建模（物理模型）时，才采取反规范化手段，这样的高层模型有利于人们理解。2.3 维度建模的步骤1）选取要建模的业务处理过程7中山大学硕士学位论文业务处理过程是机构中进行的一般都由源数据收集系统提供支持的自然业务活动。典型的业务处理过程包括：订货、存取款、

22、运输、话单处理、开票等。2）定义业务处理的粒度粒度定义意味着对各个事实表行实际代表的内容给出明确的说明。典型的粒度定义包括：每个银行账号的月快照、每个电话的电话清单项内容、顾客购物券上扫描设备一次拾取的分列项内容等。一个合适的粒度对数据仓库非常重要，它决定了数据仓库能回答用户的问题的详细程度。3）选定用于每个事实表行的维度维度可以理解为如何描述从业务处理过程得到的数据，也就是理解成观察这些数据的角度。常见的维度例子包括：日期、产品、客户等。4）确定用于形成每个事实表行的数字型事实事实的确定可以通过回答“要对什么内容进行评测”这个问题来进行。常见的事实是：交易额、订货量、支出额等这些可加性

23、的数字数据。明显属于不同粒度的事实必须放在单独的事实表中。维度建模的输入是业务需求和源数据，在按照上述四步确定相关内容的时候，一定要同时考虑以上两者，偏向任何一方都会有可能导致失败。当开发团队设计出一整套在企业范围具有统一解释的标准化维度与事实后，企业数据仓库的数据体系结构的框架就建立起来了，也就可以去实现按照体系结构进行迭代开发的独立数据中心。这种方法下的数据仓库的基本组成如下图2-4所示：中山大学硕士学位论文图2T数据仓库的基本组成2.4 维度建模的常用技术A）数据仓库总线矩阵开发传统的操作型系统一般瀑布式的开发方法，它是由需求驱动的，其中的每一项活动都是确定的，并且只有一个活动

24、结束后，下一个活动才会被触发开始。而在数据仓库系统中，用户的需求是变化的，常用迭代式或者螺旋式的开发方法，它从数据源开始，同时考虑用户的需求，将数据集成，分布实施建设。想要一步建设好一个功能强大的，集中式的数据仓库几乎只能招致失败。在按照数据来源理清了机构的业务处理后，可以采用矩阵形式把它布局出来，下面对订单管理过程建立矩阵如下图2-5示日期产品顾客营销代表发货货主报价VVV订单JVV装运VV发票VJVVV图2-5总线矩阵9中山大学硕士学位论文矩阵的列代表企业范围内使用的共同维度，它还有助于优选出哪些维度因其突出作用而应该首先满足一致性的要求。一致的维度具有一致的维度关键字、一致

25、的属性列名字、一致的属性定义以及一致的属性值,一致性维度被所有事实表共享使用。B）代理关键字代理关键字是相对自然关键字或者操作型关键字来说的，因为在操作型系统中，关键字中可能包含技巧性的内容，但这些主观上的任何设想最后可能无效，而在填充维度时按需要分配的整型的代理关键字则不存在这个问题，但它会增加ETL的工作：需要将自然关键字或者操作型关键字映射到代理关键字。这些辛苦会带来长远的好处：一、能够对数据仓库环境的操作型变化进行缓冲。代理关键字允许数据仓库团队维持对环境的控制，而不会受到操作型系统自然关键字的生成、更新、删除、再生与重用等操作型规则的防碍。二、是支持处理维度表属性修改的一

26、项基本技术。有时，客户要求跟踪不可预见的维度属性变化，这种时候若只用自然关键字将不能满足其需求，使用代理关键字就是很好的解决办法。如图2*6所示:产品关键字产品编码类型描述服务品牌1233XYZ-91 1XInteltiKCY图2-6当服务品牌改变时，可以添加一个维度行。如下图2-7所示:产品关键字产品编码类型描述服务品牌1233XYZ-91 1XInteltiKCY1245XYZ-91 1XInteltiKJU图2-7三、可以获得性能上的优势。代理关键字是整数型，而操作型编码常常是以一个混合了字母与数字的大容量字符串形式而存在的，在常见数据库中，整数一般只占用4个字节，一般都会比 1

27、0中山大学硕士学位论文字符串占用的空间少得多。特别是在大型数据仓库中，若一个事实表可能有几十亿行，节省的空间会非常可观。四、在大型数据仓库里.，为了获得好的性能，一般都会对大型事实表进行物理分区，分区字段的选择也是一个头疼的问题，好的分区键要求值分布均匀，自然关键字或操作型关键字比较难以满足，而可控制的、连续的代理关键字是很好的选择，一般都会把日期维的代理关键字作为物理分区键。C）杂项维度合并小维度在遇到复杂的操作型数据源时，一不留神事实表中就可能出现二、三十个维度，其中好多维度只是在小范围取离散值的指示符或标志，这可能导致事实表在尺寸上很大，事实表外型上很象一直“娱蚣”，目前几

28、乎没有什么办法可以对这种有大量关键字的表建立有效的索弓I,这样也就会带来性能问题。应付这些指示符或标志的一个合适办法是：对典型的低基数指示符或标志进行分组，创建-一个抽象的维度，就可以将指示符或标志从事实表删除掉，并同时放到一个有用的维度框架中去。如果存在一些具有大量取值的很不相关的属性，那么将它们集中在一起形成单一杂项维度，就没有什么实际意义了，因为这个杂项维度表可能存在很多行，太大的维表会使查询效率低下。使用杂项维度要碰到一个相对棘手的问题：是预先为所有组合创建杂项维度行呢，还是只为在数据中加入实际遇到的那些组合创建杂项维度行呢？一般地说，当理论上的组合数目非常大，并且认为

29、不会全部遇到它们时，这时只在遇到一个新的指示符或标志的组合，就在数据抽取时刻创建一个杂项维度行。一般来说，一个事实表有5到15个维度是比较合理的，有太多维度时，可以合并出一个或者多个杂项维度。当形成的单个新维度比分开的维度的笛卡尔积明显地小时，就意味着合成是有好处的。D）微型维度分解大维度在超大型数据仓库中，经常会遇到数百万行的维度表，如：客户维等。对这种大型维表进行约束或者浏览操作需要花费很长的时间，而且 11中山大学硕士学位论文跟踪这样的维表变化也会非常困难，那样只会使得维表变得更大。然而，巨型维表中往往有多个属性会随时间变化而变化，这时候，我们可以采取将分析频率高或者变化频

30、率大的属性拆成独立的维度，也叫做微型维度。将那些比较恒定或者查询效率不高的属性遗留在原来的巨型维表中。例如：在巨型客户维中，诸如性别、年龄、职务、收入水平等属性另外组成一个微型客户维度，而且像年龄、收入水平这样不断变化的属性，应该转换成呈波段分布的范围，如；年龄段、收入范围等。这样，在每次建立事实表行时，都要包括与客户相关的两个外关键字：普通客户维度关键字与微型客户维度关键字。E）加速表或桥接表我们经常要对机构的组织结构体系进行建模，这些体系关系可能因为内部重组或其他原因而经常发生变化。组织结构体系一般是层数固定或者变化的层次结构，如下图2-8 示：图2-8 机构组织结构体系图处

31、理这种结构时，常见的处理方法是：在每个维度行上包括一个递归的指向父关键字的指针。这是一种简单乂容易理解的方式，但这种递归在标准SQL中进行有效的使用，在性能上会有重大的损失。另外一种办法就是：在事实表和结构体系维表间插入一个中间表（或者叫桥接表），桥接表为图2-8中从顶层实体到下方每个子实体的每条路径包含一个记录行，同时为从实体到本身的那条长度为0的路径中山大学硕士学位论文也包含一个记录行，这样，每个路径行含有父堆积实体的关键字及其子实体的关键字、父子实体之间的层次数目、用于标示下方不再有节点的子实体最底层标示以及最后的一个指示上方不再有父实体的最顶层标志等。处理后的模型如下图2

32、-9示：图2-9桥接表F）过渡关键字一一解决更新问题虽然数据仓库的一个明显特征是不可更新的，但并不是完全不可以更新，一般都会有部分更新的，在大型数据仓库中，这种低效率的更新会给数据仓库运行的时间窗带来很大的压力。解决这个问题的一个办法是将这些更新转化为新增，在目前流行大型数据库中，更新一条记录花费的代价是增加一条记录所花费的代价的几倍甚至十几倍。很多时候是更新事实表中的度量，新增的记录的关键字会和原来的记录的关键字会是一模一样的，可以在关键字组中引入一个整数型过渡属性，这样既可以记录更改的历史，还解决更新的问题。13中山大学硕士学位论文第3章：系统概况和需求分析3.1 广东移动（G

33、MCC）经营分析系统简介在多年的发展历程中，广东移动注重基础建设（包括扩大网络容量、提高网络质量），己经建立覆盖全省范围的生产网络，拥有广东最大的移动用户群体，己经成为国内实力强大的移动业务运营商。但另一方面，移动话音通信市场日趋饱和、与国内电信运营商竞争正酣：我国已经加入WTO,马上又要面对国外运营商的加入。GMCC为持续扩大企业的利润，须与时俱进，转变工作重心，以产品领先和提供更佳的客户服务吸引住客户。经营方式上需从内部计划管理向以客户和市场为中心的方式转变，改进管理方式，提高经营分析和科学决策水平，建设GMCC经营分析系统。根据集团公司的要求，广东移动本阶段建设实现的目标是以多

34、维分析为主,辅以数据挖掘技术，建立一个统一和集中的数据仓库平台，通过提取生产数据中价值信息，为企业经营分析提供科学有效的支撑，体现中国移动“业务与服务”的经营策略。本阶段的建设将重点对客户分群、市场竞争、业务收益、营销策划新业务和数据业务等主题进行分析，并利用数据挖掘技术对相关专题进行分析作为补充。以BOSS系统中的生产数据为主要数据源，辅以其他企业信息和外部数据源，建立统一的数据视图，形成面向经营分析的专业数据仓库，满足卜2年的业务需求.近期系统建设的目标主要是依据中国移动通信集团公司经营分析系统的业务规范和技术规范实现”三个具备、两个实现、一个统一”。“三个具备”是指经营分析

35、系统应具备高效的数据抽取，整合以BOSS系统为主的多种数据源，形成统一的经营分析数据视图；具备灵活的数据存储，按照主题组织数据，并能根据需要进行主题内部要素的扩充、主题的新增以及跨主题的重构；具备多样的数据访问，重点采用OLAP分析、预定义报表、即席查询，并辅以数据挖掘等多种方式，以满足不同人员的要求。“两个实现”是指实现较快的反应速度，实现较强的处理能力“较快的反应速度要求不仅能够快速适应各种新业务发展的需要，而且能够快速的展现分析结果。较强的处理能力是指系统能够进行 14中山大学硕士学位论文海量数据的处理，并能够从多角度进行分析，满足市场经营分析的需要。“一个统一”是指提供一个

36、“统一”的综合业务经营分析平台，将各种分析活动统一在该平台下完成。经营分析系统的建设是一个复杂的系统工程，按照“整体规划，分布实施”的的思想，整体经营分析系统将分成阶段进行建设。广东移动通信有限责任公司BOSS系统经营分析配套工程初步设计经营分析系统的建设是一个不断推进的过程。在完成近期目标的基础上，中远期建设将增加数据源、扩充数据主题、应用模型，使经营分析系统支持更加灵活多样的市场经营活动。经营分析系统是一个复杂系统，建设经营分析系统是循序渐进的过程，不可能通过一两次采购和集成而建成，必须遵循其规律和积累实际经验，采用“整体规划、分步实施”的策略，分阶段地建设。为实现经营分析系统

37、的目标，建议采用以下儿个建设阶段：第一阶段：2003年9月底，完成数据仓库环境的建设，完成至少一个集团公司要求的主题分析。为下一阶段的建设积累经验和奠定基础。因此，此阶段的重点是软硬件环境的建设。系统应有很好的扩展性，要利于不断发展的需求。第二阶段：2003年底，以省中心和区域BOSS系统数据为主要数据源，发展各方面的主题分析；完成当前分析系统提供的主要省公司预定义报表以及包含的多维分析功能。第三阶段：首先用半年到一年时间对系统进行完善，丰富分析数据的来源，发展各方面的主题分析，尤其是建立信用体系，同时完成经营分析系统与生产系统的闭环运作。然后用大致一、二年时间对数据仓库技术进行探

38、索和研究，逐步控制建模的工作，以发展客户流失管理和反欺诈管理。3.2 数据源系统状况及评估结果广东移动通信有限责任公司分为省公司和22个地市分公司，省公司和分公司是上下级关系，其中省公司设立以下部门：综合部、人力资源部、企业发展部、市场经营部、客户服务部、财务部、工程建设部、网络部、物资供应部、党群事务部、纪检审计部。中山大学硕士学位论文同时有分为几个中心：工程管理中心、网管维护中心、计费业务中心、信息技术中心、数据业务中心、后勤服务中心、鼎湖培训中心、物资管理中心。省一级的部门使用到该经营分析系统的部门主要有：综合部、企业发展部、市场经营部、客户服务部、财务部、网络部、计费业务中心、数

39、据业务中心。地市分公司也会设置相应的部门，地市分公司使用到该系统的部门包括：市场经营部、客户服务部、财务部、信息技术中心。广东移动通信有限责任公司共有22个地市公司：广州公司、深圳公司、佛山公司、东莞公司、汕头公司、中山公司、江门公司、珠海公司、韶关公司、河源公司、梅州公司、惠州公司、汕尾公司、阳江公司、湛江公司、茂名公司、肇庆公司、清远公司、潮州公司、揭阳公司、云浮公司、顺德公司。广东移动目前有用户约2000多万，其中签约用户940万左右，神州行用户 1100万左右，另有60万左右的动感地带用户。其中广州的用户数和数据量大概占全省总量的1/4略多，深圳大概占全省总量的1/4略少。东莞的用

40、户数和数据量仅次于广州和深圳，其他地市公司的用户数和数据量差别不太大。广东移动.正在建设新的全省BOSS系统。BOSS省中心系统在广州，22个地市公司分别组合成6个区域BOSS中心。全省共分6个区域BOSS点，分别是：广州区域节点（含广州、清远、韶关、肇庆、云浮）深圳区域节点（含深圳）汕头区域节点（含汕头、潮州、揭阳、汕尾）东莞区域节点（含东莞、惠州、梅州、河源）佛山区域节点（含佛山、顺德、中山、珠海）江门区域节点（含江门、湛江、阳江、茂名）新BOSS系统的逻辑架构图如下:16巾山大学硕士学位论文全国中心网站行中心系统计费/结算操作维护数据管理0A/MIS区域BOSS 系统区域BOSS

41、系统；区域BOSS i系统综合支付平台增值业务平台HLRHLR业务管理j经营分析II智能网i1交换机其它I:HLR图3-1其中包括所有的计费结算、业务管理、数据管理和操作维护都在省中心完成，另外有一大部分帐务都将在省中心的BOSS系统上完成。各区域BOSS完成营业和部分帐务工作。目前广东移动的计费结算系统是全省集中规划的。经营分析系统所要用到的数据源中，最大部分的清单和帐单都在省中心集中生成。客服和大客户系统目前都是各地市公司分散的，每个地市都有自己的客户服务系统和大客户系统。营业系统也是分散独立的。因此，客户资料、帐务资料和客服资料都分散存储在各地市公司。经营分析系统要取得这部

42、分数据，必须通过广东移动已建成的MDCN网来上传数据。新BOSS系统建设完成后，客户资料、帐务资料和客服资料将集中到6个区域BOSS中心。广东移动MDCN网（移动企业信息网）经过四期工程扩容后，实际上承载的中山大学硕士学位论文业务不仅包括OA、MISS,MASA等一些非关键性的业务，还承载了 BOSS系统和BOSS接入网互联、MDCN网接入BOSS系统等关键业务。MDCN网四期工程对MDCN网进行网络优化和带宽提升，通过对MDCN网省中心广州A、B节点的网络优化改造、升级,使得核心节点的网络层次的清晰、明确；优化广州A、广州B间的核心网的网络结构，实现广州A、广州B间的三角形网络连

43、接；通过对1 55M POS和4XE1实现11各地市的主要路由备份。广东移动现有MIS（财务）系统与2000年8月份建立，采用SUN公司的SUN Enterprise 6500作为数据库服务器，采用ORACLE数据库系统作为数据库系统软件，采用SUN Enterprise 4500作为前台的应用服务器，服务器之间通过千兆以太网相连。省公司的财务人员及其它相关人员通过局域网访问MIS系统，其它分公司的相关员工则通过MDCN网访问MIS系统。GMCC办公自动化系统（即OA系统）从1998年底开始建设，经过两期工程，目前已经建立了包括省公司和28个分公司（包括番禺、从化、花都、增城、鼎培分

44、公司）在内的OA系统。OA系统中配置WWW/FTP/DNS/DHCP服务器、E-mail服务器、办公自动化服务器和综合查询服务器。不同分公司的OA系统通过MDCN网进行连接，分公司内部通过局域网连接。移动网管系统（OSS系统）已经建立了省网管中心、广州、深圳、佛山、湛江和汕头共6套OSS系统。均采用SUN E4000系列服务器和SUN工作站的硬件配置，数据库采用SYBASE数据库系统软件。各网元（包括MSC、BSC、TR、HLR、GW MSC）均通过分组电路接入相应的OSS。其中，广州（包括番禹、增城）的网元接入广州OSS,深圳的网元接入深圳OSS,佛山、顺德和南海的网元接入佛山OS

45、S、湛江、阳江和茂名的网元接入湛江OSS,汕头、潮州、潮阳的网元接入汕头OSS,其它地区如中山、东莞、惠州、珠海、江门、揭阳、清远、韶关、肇庆、云浮、汕尾和河源的网元均通过分组电路接入省网管中心。广东移动决策支持系统（MASA）分布在省内22个市公司，通过省计费中心系统、各地市公司原有业务系统抽取数据，具有较强的统计报表能力，能够在一定程度上满足市公司的业务需求。目前其维护、应用工作由各地市公司负责。该系统的建设为此次经营分析系统的建设积累了丰富的工程经验。但从总体上看，MASA系统是基于分散的各地市的业务系统之上的系统，这些业务系统由 18中山大学硕士学位论文多个开发厂家，各个系统的

46、数据和接口复杂，不利于经营分析系统集中与整合。目前省计费中心和下面各地市公司的数据交换绝大部分是通过文件进行的。现有主要系统情况如下图3-2：系统名称描述主要数据BOSS省中心BOSS省中心需完成包括所有的计费结算、业务管理、数据管理和操作维护的工作，另外有一大部分帐务都将在省中心的BOSS系统上完成计费清单，帐单等资料BOSS区域节点各区域BOSS完成营业和部分帐务工作客户资料，各类业务资料，客户帐单等资料计费系统用于支撑广东移动的计费，帐务，结算等业务，新BOSS的省中心部分将含盖现有计费系统的所有功能计费清单，帐单等资料旧BOSS系统用于支撑各地市的营销和帐务

47、管理，新 BOSS的六个区域节点将含概现有BOSS系统的所有功能客户资料，各类业务资料，客户帐单等贸料惠讯系统同旧BOSS系统19中山大学硕士学位论文图3-2 现有主要系统MASA系统现有的基于各地市的分析系统，经营分析系统将含概现有MASA 系统的所有功能大客户管理系统用于支撑各地市公司客户服务部门日常工作的系统，同时又提供了部分分析功能来满足客服部门的需要。新 BOSS的六个区域节点将含盖现有大客户管理系统的所有功能大客户资料，大客户服务记录客服系统(I860)用于支撑各地市公司热线服务功能的系统客户投诉，咨询，查询信息主管信息系统(MIS)用于支撑省公司，各地市

48、公司财务部门财务管理的系统财务数据网管系统用于支撑省公司，各地市公司的网络部门对现有网络进行监控，维护，管理的系统本阶段数据源分析评估只着重针对省中心BOSS系统和区域BOSS系统进行详细分析和评估，而其他系统，如：客服系统、MIS系统、网管系统等，由于在本期的业务需求书范围里未列为重点，因此对这几个系统，本阶段只做大概的熟悉和了解。20中山大学硕十学位论文以下图3-3描述各个系统的数据评估情况:数据源系统系统概述评估情况省中心建设在省中心，连接各种网主要提供计费产品类数据，包括计费元和其他相关外部系统，实清/帐单和其他业务数据，这部分数据现广东省全省集中实时计主要以文

49、件形式存放，数据量较大，费结算、外部系统与区域中但是种类不多，数据集中，没有复杂心的数据交换、全省集中业的数据关系务管理、全省业务数据的集中管理等功能21中山大学硕士学位论文区域中心建设在各个市公司，利用广东移动MDCN网与省中心相连，实现包括营销管理、客户服务管理、收费/帐务管理以及对业务运营相关的业务管理。区域中心主要提供客户资料、业务异动资料、缴费数据，相对来讲数据量较小，但是数据关系复杂，种类繁多，数据分散。目前的区域BOSS系统有大概300多张数据库表，在进行分析评估后，确定的大概有150张库表数据可被经营分析系统利用。在分析过程中参照了一个区域 BOSS的模拟

50、割接库进行比较分析，分析其库表设计文档和实际数据库的一致性，实际数据库和设计文档在一定程度上存在着差异，在我们分析的区域BOSS系统150个库表当中，有 16个即10%的库表设计文档和实际数据库不相符，主要有以下两个方面的问题：1）设计文档中出现的数据库表在实际数据库当中不存在2）同一库表存在着数据字段个数、类型、名称上的不一致MIS系统建设在省中心，网络结构完全建立在MDCN网上，目前完成财务、部分采购、物流等功能，包括总帐、应收、应付、采购、库存、固定资产、项目会计、合同、财务分析等模块目前提供了总帐、应收两个模块的库表结构，文档为全英文书写，需要进一步深入了解

展开阅读全文