1、附件一 绍兴电信综合营销系统(IMS)方案建议 目 录 1 系统综述.6 2 系统总体设计.7 2.1 建设策略建议.7 2.1.1 集中解决目前急需问题.7 2.1.2 以客户为中心建立数据集市.7 2.1.3 简化数据来源.7 2.1.4 功能上应有取有舍.8 2.1.5 以数据集市为核心组织基础数据.8 2.2 系统建设原则.8 2.3 系统的业务架构.9 2.3.1 以针对性营销为核心的分析架构.9 2.3.2 以营销自动化为核心的处理架构.9 2.3.3 以多角色支持为核心的界面架构.10 2.4 系统的技术架构.10 2.4.1 数据获取层.11 2.4.2 数据存储层.11 2.
2、4.3 数据展现层.12 2.4.4 元数据.12 2.5 系统功能结构.13 3 数据获取层.14 3.1 数据源分析.14 3.1.1 系统接口分析.14 3.2 ETL 过程.16 3.2.1 数据抽取.17 3.2.2 数据转换.18 3.2.3 数据加载.19 3.2.4 数据审核.20 3.2.5 ETL过程管理.21 3.2.6 ETL具体实现.22 4 数据存储层.23 4.1 数据仓库信息模型设计原则.23 4.2 模型设计方法.23 4.3 数据仓库信息模型.25 4.4 数据集市构建方法.26 4.5 OLAP分析模型.27 4.5.1 OLAP分析模型建模方法.27 4
3、.5.2 OLAP分析技术实现方法.27 4.5.3 客户情况分析模型.29 4.5.4 业务发展分析模型.29 4.5.5 收益情况分析模型.30 4.5.6 市场竞争分析模型.31 5 数据展现层.32 5.1 综合查询.32 5.1.1 自定义查询功能.32 5.1.2 主题查询功能.32 5.1.3 即席查询功能.32 5.2 统计分析报表.33 5.2.1 统计报表数据来源.34 5.2.2 统计报表要素分类.34 5.3 预定义报表.35 5.3.1 省公司报表.36 5.3.2 本地网报表.37 5.4 关键指标展示报表.37 5.4.1 今日视点.37 5.4.2 每月聚焦.3
4、7 5.4.3 年度回眸.40 5.4.4 竞争前沿.42 5.5 营销渠道支撑.44 5.5.1 营销管理平台.44 5.5.2 片区经理/高级客户经理营销服务平台.44 5.5.3 社区经理/客户经理营销服务平台.45 5.5.4 系统管理平台.45 5.6 话务量针对性营销.45 5.6.1 客户信息查询.45 5.6.2 话务量营销支撑.46 5.6.3 信息反馈支撑.47 5.7 数据分析支撑(OLAP分析).47 5.7.1 客户情况分析.48 5.7.2 业务发展分析.51 5.7.3 收益情况分析.52 5.7.4 市场竞争分析.57 5.8 领导驾驶舱.58 5.8.1 仪表
5、显示.58 5.8.2 图表显示.59 6 元数据管理.60 6.1 ETL、数据仓库、数据集市、前端展现的元数据管理.60 6.2 管理对象.62 6.3 元数据互联.62 7 系统管理.63 7.1.1 用户管理.63 7.1.2 用户划分.63 7.1.3 工号维护.63 7.1.4 工号密码维护.63 7.2 预警管理.63 7.2.1 预警管理功能描述及标识.63 7.2.2 系统预警的对象.64 7.2.3 系统预警的功能.64 7.3 系统日志管理.65 7.3.1 功能描述.65 7.3.2 子模块功能描述.65 7.4 权限管理.65 7.5 系统备份.66 8 系统平台建议
6、方案.67 8.1 综合营销系统平台简介.67 8.2 本期系统平台建议.68 8.3 设备配置建议.69 8.3.1 存储系统配置.69 8.3.2 服务器系统配置.71 8.3.3 整体配置方案建议.72 1 系统综述 为适应日趋激烈的市场竞争环境,提升绍兴电信的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,尽快建立综合营销系统,以便可以进行“保、挖、抢”等针对性营销,并支持多层面的用户使用,为市场经营工作提供及时、准确、科学的决策依据。综合营销系统利用先进的计算机和网络技术对营销渠道进行支撑,同时对客户、帐务、计费、结算等业务数据进行多层次、多角度、多种方式的统计分析,
7、揭示客户、业务的内在规律和发展趋势,形成极具管理决策价值的战略信息,使决策者能始终把握大局,从容应对纷繁复杂、快速多变的电信竞争市场。建设综合营销系统 IMS 可以达到下列应用目标:协助企业进行“保、挖、抢”等针对性营销。及时提供真实可靠的企业经营信息,为经营管理人员科学地进行决策提供经营信息支持。帮助企业建立整体信息视图(one view),协调绍兴电信内部各部门之间的合作关系。2 系统总体设计 2.1 建设策略建议 本着急用先行,简单有效的原则,我们建议本期系统建设采取如下建设策略:2.1.1 集中解决目前急需问题 本期系统应该解决目前绍兴电信面临的最需要解决的问题:即对于全网经营情况的把
8、握和针对性营销的支撑。鉴于急用先行原则,我们建议本期综合营销系统的目标定位为以下几点:1.提供对全网市场经营情况的全方位视图;2.解决目前面对竞争的针对性营销的支撑需求;3.提供面向营销的各类分析数据。2.1.2 以客户为中心建立数据集市 目前企业最缺乏的分析功能,是基于各类客户和客户行为的统计分析,包括营销渠道支撑系统的建立,也体现着以客户为中心进行各种营销和服务的思想。因此,本期系统主要考虑以客户为中心建立的数据集市,其中的主要内容如下:1.客户基本信息:包括与经营分析相关的各种客户信息,如客户类别、所属区间、行业、收入、信用度、忠诚度等信息的分析结果;2.客户拥有的服务信息:即客户拥有服
9、务的相关信息,如号码,服务类别、服务特性、SLA 等信息的分析结果;3.客户消费行为信息:包括其消费详单、账单、缴费流水、客户的业务受理情况(包括新增、拆机等)等的分析结果;4.客户其他行为信息:如投诉、建议、资源、障碍申告等信息的分析结果;5.客户网间消费行为:如跨网的消费情况(从网间数据得到)等的分析结果。2.1.3 简化数据来源 综合营销系统的上线工作中,各类数据的收集整理占了很大比重。因此,本期系统,应该大大简化系统的数据来源,只对最主要的数据来源进行采集,对不太重要的数据源,可以先放到二期再进行处理。具体地,我们建议把系统的数据来源限定在:1.计费帐务系统:本期综合营销系统的数据采集
10、重点应该在计费帐务系统中,计费帐务系统提供主要的客户消费行为数据,在营销所需要的数据中,计费帐务系统可以提供 80的数据来源;2.九七系统:要从九七系统中采集客户基本信息和客户服务信息,以及客户的受理信息收集;3.网间结算数据:从中抽取各种客户网间消费行为的数据;4.其他系统:其他系统的信息收集主要考虑以收集客户行为信息为主。2.1.4 功能上应有取有舍 完整的综合营销系统可以包含很多功能,尤其有强大的数据采集和管理功能,但是,目前绍兴电信建设这种大而全的综合营销系统并未突出绍兴电信急需的功能。因此,我们建议绍兴电信本期系统在功能方面应有取有舍:一方面,在功能方面,应该对系统管理、数据采集、数
11、据管理等功能,尽可能地进行精简,只留下最小的功能集合,以突出营销分析的主题;另一方面,应该加入领导驾驶舱等功能,以使系统更能支持多角色使用,支撑针对性营销的实际需求。2.1.5 以数据集市为核心组织基础数据 在本地网级进行经营活动的各种监控和分析,可以主要是利用统计好的数据而不是清单进行处理。因此,建议本期系统将重点放在建设数据集市方面,系统主要保留统计好的历史数据在集市中,以便进行各种纵向分析和比较。而对于一些详单的查询要求,可以直接从计费系统中读取,以节省存储空间。2.2 系统建设原则 综合营销系统涉及到数据库、联机分析处理(OLAP)等多种学科与技术的交叉。在技术实现上涉及到多种系统平台
12、与工具的集成。因此,在系统的技术实现上应充分考虑多种技术和平台的无缝集成。因此,系统建设必须遵循以下要求:1、开放性:为保证系统的开放性,系统构建中要使用世界主流的硬件平台(主机、网络设备等)和软件平台,基于业界开放式标准,支持系统建设中涉及的各种网络协议、硬件接口、数据接口等,为未来的系统扩展奠定基础。同时,为了保证系统的开放性,在数据模型建立时,数据存储中应充分考虑对未来业务发展的最大支持(如:客户数据/用户数据的处理上考虑较为全面的采集,模型建立中使用独立的客户数据域,为 CRM系统使用客户/用户数据奠定基础),使相关系统能够顺利地访问和使用该系统数据。2、灵活性与可扩展性:全局数据存储
13、模型的设计采用面向企业整体信息的主题域方式,保证信息的完整性和信息主题的稳定性。将来新业务数据和分析需求出现,新(业务)数据的加入可以按照域归属的方式进行增加,在无主题域可依的情况下,采用建立新域的方式进行数据扩展。分析模型可以通过数据集市对主题域进行多次重构,系统能保证重构后的分析模型符合数据要求,这样也保证了对未来相关系统的数据支撑。3、安全可靠性:综合营销系统使用集中的管理模块和集中的数据处理,有利于对系统的整体管理和安全控制。这种安全机制不仅能定义数据的安全性,而且能定义应用级的安全性。系统的安全管理能够通过门户方式与其它应用集成为一体。4、实用性:结合不同部门、不同的业务需求,合理的
14、构建分析模型(按主题、地市、部门建立不同的 OLAP分析模型),以及合理地组织数据(特别是有效又合理的数据粒度、分析模型的数据总量控制),保证了查询效率与响应时间。对现有业务运营系统影响小,是系统的设计基本要求,采取恰当的数据抽取策略和控制机制(晚间自动抽取控制)来达到这一目标。系统对大多数使用人员提供通过浏览器访问方式,并且提供多种图表展现方式(如:柱状图、饼图、多维透视表等),只要会使用浏览器,就会使用本系统。通过门户与 OA 融合,向个性化的方向发展,提供短消息以及语音的访问方式,使人机接口、展现方式多样化,实用化,灵活方便。2.3 系统的业务架构 系统的体系结构应分为业务架构和技术架构
15、,以下说明系统的业务架构:2.3.1 以针对性营销为核心的分析架构 目前,电信市场的竞争已经非常剧烈,移动、联通等运营商通过准单向收费、VPN、大客户打包优惠等方式进行竞争,不但使中国电信在客户方面造成流失,而且也导致了话务量的大量分流。因此,目前的当务之急是要动员中国电信的营销力量,立即展开针对性营销。要开展好针对性营销,综合营销系统的支撑几乎是必不可少的先决条件。首先,要支撑针对性营销,本期综合营销系统必须要能够提供目前各类客户的各种消费情况的分析和波动情况分析,从中发现现有客户的各种异动情况,以及这些异动情况的特点和分布,以便尽早发现各种客户流失或者话务流失的先兆,采取措施尽可能地保住现
16、有客户及其话务量。另外,要完成此目标,系统还必须具备从各本地网的社区营销等系统中提取竞争对手信息的数据进行分析处理,以便针对竞争对手的动态开展有针对性的营销活动;其次,本期综合营销系统还应该能够通过各种过网数据分析和客户的消费分析,发现潜在用户的发展可能方向,并据此得出结论,进而指导营销方案的制订和推广,同时达到挖掘潜在话务量的目的。最后,本期综合营销系统应能整合各类与竞争对手的客户有关的信息源(包括网间数据,各类含竞争对手话务的清单数据等),进行综合统计和分析,尤其是发现竞争对手的有价值客户的基本特点和分布情况,以便有针对性地采取营销措施,对竞争对手的客户进行抢夺,力争化被动为主动,最终改变
17、中国电信的竞争态势。以上这些需求,宏智科技的综合营销系统都以专题分析的方式提供了较为完整和体系化的支持,用户能够在这些专题的导引下,方便地进行各种类别的针对性营销分析。2.3.2 以营销自动化为核心的处理架构 系统的处理架构应围绕着营销自动化的思路展开,完成发现和确认营销目标(比如要对零费用的所有用户等)分解营销任务分解考核指标实施营销反馈营销实施情况分析营销实施效果完成考核这样的一个全流程的管理,其目的是:1.社区经理/客户经理的工作难度(我原先的想法是强调社区经理的主观能动性,主动从数据中挖掘营销目标),降低对他们的要求;2.分工明确(社区经理/客户经理、营销分析人员、营销管理人员职责明确
18、);3.提高营销过程效率;4.实现营销过程闭环管理。同时,针对性营销的最终目的要落实到营销方案的制订和推行上,尤其是绍兴电信总部更是要负责制订出营销方案或营销策略的指导意见。因此,系统要能对营销方案进行全流程的监控,包括在营销方案推出前的预评估,营销方案进行中的跟踪以及营销方案定期的效果评估等。比如预评估指的是系统应能预先锁定营销方案针对的客户群、话务集合进行数据统计和分析,得出营销方案涉及的客户数量、涉及的话务量、涉及的金额等,从而方案的盈亏平衡点或者是营销方案的成本等,从而供决策层进行综合分析和评估。2.3.3 以多角色支持为核心的界面架构 综合营销系统将有不同层面的用户进行使用,不同层面
19、用户的要求是不同的,尤其是本系统作为本地网级的综合营销系统,这方面的特点尤其突出。宏智科技建议的三层界面架构如下:例如对于绍兴电信的高层领导来说,他们没有太多精力了解计算机技术,在数据利用的尺度上也比较宏观,因此系统就为他们专门设计了领导驾驶舱系统,以简单直观的图表方式提供数据的展现,使决策人员能一目了然地发现问题所在,并通过本系统层层深入地发现问题发生的原因,从而做出正确的反应和决策。对于绍兴市电信的中层干部来说,他们需要向下贯彻公司高层领导的战略意图,并指导本部门基层干部将其演变为具体的营销动作或者变为指导各营销渠道的营销策略,同时他们要对本部门所提出的各种营销建议进行决策或提交高层决策。
20、因此,系统界面以体现结果的各类预定义报表为主,但这些报表本身都可以做为分析的起始点进行深度挖掘和分析。使中层干部一开始可以将注意力集中在关心的业务、指标和营销方案实施的基本情况上,但同时也可以对自己关心的数据进行各种联机分析和处理。同时,系统应能够提供对于营销方案制订的全流程支持,使分析的结果能迅速落实为营销方案或营销策略的建议。另外,系统应提供灵活且易用的报表定义功能,使基层干部能够将分析的结果存为报表提供给各层领导做为决策依据和分析的起始点。对于绍兴市电信的基层人员来说,他们需要对自己负责的业务或者客户群进行细致的分析,发现趋势及问题所在,并提出初步的营销方案的建议或者采取具体的销售动作。
21、因此,系统应提供完善的清单功能和统计功能。同时,由于考核指标将是激励基层人员的重要手段,因此,应提供围绕考核指标提供各种统计和因素分析支持。2.4 系统的技术架构 综合营销系统采用本地网集中的模式,在本地网建立数据中心,再通过这些数据存储提取数据集市进行分析和呈现。综合营销系统从各业务系统、非业务系统中将相关业务数据进行抽取(录入)、清洗、加工、整理、加载到数据仓库中,在数据仓库中形成基础的分析数据的存储,然后根据业务及管理等实际的需要在数据仓库上建立适合各种应用的数据集市。数据仓库、数据集市中蕴含的信息可以通过报表、OLAP分析、即席查询等形式向综合营销系统使用人员展现。系统体系结构分为三层
22、,即数据获取层、数据存储层和数据展现层,如下图所示:下面分别对于软件体系结构中的数据获取层、数据存储层和数据展现层进行说明。2.4.1 数据获取层 数据获取层功能是将数据从数据源经过必要的抽取、清洗、转换等处理后加载到综合营销系统数据库中,即 ETL 过程。为保证数据的正确性,在 ETL 的每一环节都必须对数据进行审计。ETL 具有统一调度、监控和管理功能。处理过程支持校验点功能,当因某种原因使处理过程中断时,可以从最近校验点开始恢复处理过程。ETL 的日志记录了数据抽取、清洗、转换、加载的历史过程。为提高 ETL 工作效率,宏智科技开发的 ETL 工具内嵌的专用脚本语言、存储过程完成综合营销
23、系统复杂的 ETL 过程。2.4.2 数据存储层 数据存储层包括中央数据仓库和从属的数据集市。中央数据仓库是信息的逻辑和物理的存储。在综合营销系统的实施过程中,对于某些主题的业务分析问题,可能会按照主题采用数据集市的方式对数据进行进一步的组织。所以在数据仓库的基础之上根据分析需求创建相应的从属数据集市。2.4.2.1 中央数据仓库 中央数据仓库是按照绍兴电信整体的、全本地网一致的信息模型进行构建的,是综合营销系统的核心。由于经营信息需求的不断变化,数据仓库必须采用主题分域的方式和尽可能小的业务单元来进行数据的组织和存储,这样才能满足数据使用的灵活性和信息的完整性,即适应需求的变化,又可保证最少
24、量的数据冗余避免信息的不一致,节约系统投资,并以“元数据驱动、螺旋上升”的方法来指导系统建设。2.4.2.2 数据集市 中央数据仓库构建是对数据集市的数据支撑,几乎所有的业务分析都需要通过进一步组织数据集市来实现,以满足性能、灵活性的要求。数据集市的建设主要面向部门和重要的领导,根据其关心的主题、数据层次、数据粒度不同,构建相应的数据集市。数据集市的数据可直接来自于中央数据仓库,也可直接进行采集。为一些访问中央数据仓库十分频繁的关键业务部门建立从属数据集市,可以提高查询的反应速度。2.4.3 数据展现层 数据展现层的主要功能是通过对数据存储层的数据进行各种加工整理并进行分析预测等操作,然后将获
25、得的数据以文字、报表、曲线和各种图形的方式,简便、快捷地展现出来。主要包括综合查询、联机分析处理(OLAP)、报表输出、话务量营销和领导驾驶舱功能。用户经过身份安全、权限认证后访问数据和进行各种分析、查询操作,同时预留与信息门户(比如 OA 系统)的接口,实现各种功能的无缝连接,并提供集成化的认证、信息发布和管理环境,使综合营销系统使用人员无需关心具体的技术实现途径,即可实现对综合营销系统数据的访问和分析。同时门户站点还可根据不同分析和决策人员的需求,对所需的访问和分析内容进行方便、简捷的定制,以满足个性化信息服务的需求。2.4.4 元数据 元数据是描述数据的数据,用以了解我们有什么信息,信息
26、在什么地方,以及整个综合营销系统中如何利用信息的管理方式。元数据管理在综合营销系统开发建设中有很重要的作用。在综合营销系统建设过程中,根据绍兴电信的业务需求和业务发展,构造全局数据模型,然后以数据模型为指导,分阶段实施,逐步完成综合营销系统的建设,更重要的是,在实施的每个阶段、每一阶段内的每个步骤,都由元数据进行统一的管理和协调。因此,每个新的实施阶段都能和前些阶段通过统一的元数据实现良好的对接和数据共享,保证各建设阶段成果的连续性和有效性。2.5 系统功能结构 绍兴综合营销系统功能包含数据获取、静态报表、话务量营销支撑、数据分析(OLAP分析)支撑、专题分析、领导驾驶舱、系统管理。数据获取是
27、系统的数据接口和 ETL 功能;报表、话务量营销、OLAP分析、领导驾驶舱体现系统的业务功能;系统管理是系统的安全管理和系统维护功能。3 数据获取层 3.1 数据源分析 绍兴电信综合营销系统需要从以下数据源获取相关数据:1、业务支撑系统:初期主要从本地计费帐务系统、九七系统提取数据。2、网间结算数据:获取网间话单,市场竞争数据。3、市场调研、社会统计、竞争对手数据:从各种途径获取的社会统计数据、市场调研数据,提供人工录入功能。对于以上需通过人工录入的数据,系统提供相应的工具或接口,并能支持通过 Excel、HTML、XML、RTF、TXT 等格式文档加载的形式进行数据的批量录入功能。接口方式:
28、系统统一采用接口形式进行数据抽取,并建立接口区。设立数据接口区的目的在于对接口数据统一存储。接口数据源形式为文本文件。3.1.1 系统接口分析 1、综合营销系统从九七系统中提取客户基本资料信息,如客户名称、住址、联系方式、证件号码、客户类型、客户细分等。信息特征:信息量级:2-3E6(单位:记录数)周期增量:一般小于 10E4(单位:记录数)周期更新幅度:一般小于 10E4(单位:记录数)接口方式:九七系统在每个周期把本周期新增、变化或删除的客户基本资料信息传递至接口。周期可根据实际情况由两个系统协商确定。周期:1 次/天 2、综合营销系统从九七系统提取客户订购资料信息,即每个客户所使用的产品
29、(服务)信息。信息特征:信息量级:10E6(单位:记录数)周期增量:一般小于 10E4(单位:记录数)周期更新幅度:一般小于 10E4(单位:记录数)接口方式:九七系统在每个周期把本周期新增、变化或删除的客户产品(服务)信息传递至接口。周期可根据实际情况由两个系统协商确定。周期:1 次/天 3、综合营销系统从本地网计费帐务系统提取客户帐户资料信息,即客户使用各项产品(服务所)所发生费用的付款单位的资料信息。1)帐户基本信息 信息特征:信息量级:10E6(单位:记录数)周期增量:一般小于 10E4(单位:记录数)周期更新幅度:一般小于 10E4(单位:记录数)接口方式:计费帐务系统在每个周期把本
30、周期新增、变化或删除的帐户基本资料信息传递至接口。周期可根据实际情况由两个系统协商确定。周期:1 次/天 2)帐户缴费信息 信息特征:信息量级:10E6(单位:记录数)周期增量:10E5(单位:记录数)接口方式:计费帐务系统在每个周期把本周期新增的帐户缴费信息传递至接口。周期可根据实际情况由两个系统协商确定。周期:1 次/天 4、综合营销系统从各本地网计费帐务系统提取帐单资料。信息特征:信息量级:10E7(单位:记录数)周期增量:10E7(约为客户资料量级的 810 倍)(记录)建议接口方式:计费帐务系统按周期将周期内数据全部传递至接口。周期:1 次/月 5、综合营销系统从计费帐务系统提取销帐
31、资料。信息特征:信息量级:10E6(单位:记录数)周期增量:10E5(约为客户资料量级的 810 倍)(单位:记录数)接口方式:计费帐务系统按周期把周期内数据全部传递至接口。周期:1 次/天 6、综合营销系统从计费帐务系统提取欠费资料。信息特征:信息量级:10E6(单位:记录数)周期增量:10E5(约为客户资料量级的 810 倍)(单位:记录数)接口方式:计费帐务系统按周期将周期内数据全部传递至接口。周期:1 次/天 7、综合营销系统从各本地网计费帐务系统提取呆坏帐资料。信息特征:信息量级:10E5(单位:记录数)周期增量:10E5(单位:记录数)接口方式:计费帐务系统按周期将周期内数据全部传
32、递至接口。周期:1 次/月 8、综合营销系统从计费帐务系统提取长途话单资料。信息特征:信息量级:10E8(单位:记录数)周期增量:10E7(单位:记录数)接口方式:计费帐务系统每个周期都将周期内完整信息传递至接口。周期:1 次/天 9、综合营销系统从计费帐务系统提取本地网话单资料。信息特征:信息量级:10E9(单位:记录数)周期增量:10E8(单位:记录数)接口方式:计费帐务系统每个周期都将周期内完整信息传递至接口。周期:1 次/天 10、综合营销系统从计费帐务系统提取相关配置表信息资料,如帐目类型、话单类型信息、各种分类信息等。信息特征(针对每个配置表):信息量级:10E110E3(单位:记
33、录数)周期增量:10E010E2(单位:记录数)周期更新幅度:10E010E2(单位:记录数)接口方式:计费帐务系统每个周期都将完整信息传递至接口。周期:1 次/天 11、综合营销系统提取网间通话数据资料。信息特征:信息量级:10E8(单位:记录数)周期增量:10E7(单位:记录数)接口方式:各本地网计费帐务系统每个周期都将周期内完整信息传递至接口。周期:1 次/天 3.2 ETL 过程 数据抽取、转换和加载,是综合营销系统应用过程中,进行数据由数据源系统向数据仓库加载的主要方法。3.2.1 数据抽取 为了满足综合营销系统的分析、挖掘的需要,同时保证不能影响业务系统的性能,因此制定合适的抽取策
34、略、抽取方式、抽取时机和抽取周期非常关键。对于大数据量(如话单)的抽取,采取“数据分割、缩短抽取周期”的原则。接口策略 在获取各业务生产系统源数据时,根据各业务系统提供数据的方式可以分为主动数据获取和被动数据获取两种方式。主动数据获取要求综合营销系统专门为各业务生产系统提供数据存放区,并为各业务系统制定所要求的数据内容和格式,要求各业务系统将产生数据定期传送到本系统源数据存放区中。综合营销系统定期对源数据存放区(接口区)中的数据进行处理。被动数据采集要求各业务系统为综合营销系统开放数据库连接,同时要求业务系统为综合营销系统提供专业系统元数据。综合营销系统通过理解专业系统元数据,直接连接业务系统
35、定期从数据库中取数据,然后在系统内在对专业系统源数据进行处理,例如进行格式、编码转换等。采集周期可以根据具体情况,自行设计。这种方式要求业务系统对所提供的元数据进行版本和发布管理。考虑到被动获取比主动数据获取对综合营销系统性能要求高和对业务生产系统安全和性能影响大等问题,我们采用主动数据获取方式,要求各业务系统定期按要求传送数据到源数据存放区。各业务系统以文本数据文件的方式传送数据。抽取策略:不同特征的数据采用不同的抽取策略,保证减少对生产系统的影响,同时又能提高抽取数据的效率和及时率。具体策略如下:(1)小数据量的一些管理数据、配置表数据等,可以采用完全抽取方式进行抽取;(2)大数据量的如帐
36、单、话单数据,按抽取周期采用时间戳来做增量抽取;(3)如果实在没有时间戳,要进行完全抽取。抽取周期:抽取周期根据源数据的不同性质和实际的分析需求而有所不同,如话单数据可以每天抽取,出帐数据在每一帐务周期的最后一天抽取,而欠费、销帐等信息可以每周抽取。具体的数据抽取周期要依据实际情况和要求协商而定。抽取时机:本操作尽可能在相关业务系统空闲的时段执行。在数据抽取成功后,本抽取周期将不再执行数据抽取操作。3.2.2 数据转换 数据转换是指对抽取的源数据根据全局数据模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据和信息模型的一致性和完整性,并按要求装入数据库。根据实
37、际情况,数据转换可以在以下几个环节中具体实现:使用异步数据加载,以文件的方式处理;在数据加载过程中进行数据处理;进入数据库以后再进行数据处理。采用异步数据加载需要以文件方式处理时,必须充分考虑中间磁盘的存储量以及在整个流程中的协调性及文件处理的效率;采用在数据加载过程中进行数据转换时,必须考虑加载性能及效率;采用先将数据装载到数据库后再处理时,必须考虑数据库引擎的海量数据处理能力。执行时机:执行周期根据不同接口数据而有所不同。执行位置:从源数据存放区到加载入数据仓库之间,这里存在大量的数据操作,数据仓库到加载入数据集市之间,这里主要存在数据转换、汇总等操作,基本没有清洗操作。执行功能:集成、转
38、换、清洗、拆分、汇总等处理 集成:是将业务数据从一个或几个来源中取出,并逐字段地将数据影射到全局数据的新数据结构上。转换:将源数据按照全局数据模型结构进行数据处理,本处描述的转换是简单转换,广义的转换是包括集成、转换、清洗、拆分、汇总等处理。清洗:目的是为了保证前后一致地格式化和使用某一字段或相关的字段群。拆分:简单转换的一种形式,用于分解源数据中复合含义的数据。汇总:把业务环境中找到的细节数据压缩成全局数据环境中的较少数据块,有时进行聚集中的细节数据是为了避免数据仓库存入业务环境中的那样具体的数据,有时则是为了建立包括数据仓库的聚集副本。代码转换:如果是由数据抽取工具来完成数据的集成转换,则
39、用户自定义的代码转换功能成为系统必须的功能。因为业务系统数据与全局数据的信息因各系统的不同会有较大的差异。客户有能力和手段自己定义数据或代码转换的操作使系统有更大的灵活性。转换技术:多线程、多进程技术 由于数据清洗转换操作的数据量非常大,要求数据清洗转换程序以及所处的操作系统、主机要支持多线程、多进程的体系结构,以获得最大的数据处理能力。散列文件参照机制 在数据清洗的过程中,关键的耗时的工作是将输入的数据与系统中的固定数据进行对照,每一条记录都需对数据库进行查询耗费了大量的时间。在 ETL 过程中,数据集成模块需要提供对固定参照数据的散列查找机制以提供数据清洗的高效实现。专用数据库驱动接口或
40、API 接口编程 利用操作系统提供特点进行开发,例如数据上载内存等方式 采用专用工具进行数据转换 数据审核:根据数据转换审核方案,将转换以后数据进行汇总分类统计,与数据接口区提供的审核资料进行比较。转换策略:使用异步数据加载,以文件的方式处理;在数据加载过程中进行数据转换。3.2.3 数据加载 数据加载就是将转换后的数据加载到数据仓库中。数 据 加 载 采 用 数 据 加 载 工 具(例 如:Warehouse Manager、FastLoad/MultiLoad等),也可以采用 API 编程进行数据加载。数据加载策略包括加载周期和数据追加策略。数据的追加策略根据数据的抽取策略以及业务规则确定
41、,一般有以下三种类型:直接追加、全部覆盖、更新追加。直接追加:是指每次加载时直接将数据追加到目的表中。全部覆盖:对于抽取数据本身已包括了数据的当前和所有历史状况,采用全部覆盖方式。更新追加:对于需要连续记录业务的状态变化,用当前的最新状态同历史状态数据进行比对的情况采用更新追加的方式。作用区域:数据加载到数据仓库和数据加载到数据集市的两个区域。执行时机:数据转换成功以后即可以开展,并且要保证加载后业务数据的一致性和完整性。加载技术:数据加载采用数据加载工具加API 编程进行数据加载。加载策略:加载周期:在保证加载后业务数据的一致性和完整性的基础上,针对不同业务数据设置不同加载周期。数据追加策略
42、:根据业务规则和数据抽取策略,采用直接追加、全部覆盖、更新追加。3.2.4 数据审核 数据审核是指在每个数据加载周期中,保证数据仓库中数据同数据源中数据业务意义上的一致性及数据的准确性。审核方法如下:在每个环节处理完成后进行抽样审核(从数据源开始,到抽取出来的文本文件,到转换后的文本文件,到装载到数据仓库的数据,到数据集市中的 Cube 数据),一方面对总量进行审核,另一方面对数据正确性进行验证,分别对每一个维上的数据进行审核。对审核结果进行记录并报告,发现审核错误的数据发 Email 或 SMS通知系统管理员。数据审核程序与 ETL 模块统一处理,审核程序配合 ETL 程序自动执行。作用区域
43、:在数据抽取、转换、加载各个部分结束都需要进行数据审核。在一些关键处理过程结束以后,进行自动的数据审核,这样能够及早发现问题,节省数据抽取、转换、加载的时间。执行周期:由数据抽取、转换、加载过程结束以后触发,在一些关键处理过程结束后触发。审核策略:通过日志校验;通过业务规则校验,例如:记录数,本月收入合计,某区客户数量等进行源与目标数据的校验;通过操作系统级校验,例如:文件大小、奇偶校验(常用于接口文件传输)。3.2.5 ETL 过程管理 ETL 是一个复杂的过程,需要进行过程管理。ETL 的过程管理包括 ETL 的调度、ETL 程序管理、ETL 出错处理以及故障恢复。ETL 的调度 ETL
44、是一批定时运行的后台过程,需要通过一个合理的规划进行自动运行,只有在 ETL 过程出现异常时,进行人工干预或自动处理。本系统提供系统管理员的控制和管理界面。ETL 程序管理 ETL 过程包括许多程序,这些程序在运行期间对数据进行处理,将这些 ETL程序管理起来,可以保证 ETL 过程的正确及稳定。ETL 出错处理及故障恢复 在 ETL 过程中由于数据接口、网络、主机或数据质量等问题,造成 ETL 过程出现错误,每次数据的处理和装载需要将非法的数据或处理失败的数据输送到专门的出错数据处理区中,一些错误可以通过自动处理进行恢复,一些错误需要人工进行处理。还可以自动将错误信息通过短信、mail等方式
45、通知系统管理员或相关人员。3.2.6 ETL 具体实现 3.2.6.1 ETL 过程需要重视的几个方面 通过长期实践,宏智科技总结了以下几个是 ETL 过程中需要重视的方面:1.ETL 时间是有限的,ETL 的效率是系统的关键 由于各本地网业务支撑系统在白天都在执行关键的联机应用,所以 ETL 过程通常要在晚上执行,另外由于话单、账单等数据量极大,所以 ETL 的效率是最为重要的。除了在硬件上提供保证,要充分考虑开发的软件代码效率,更为重要的是要进行 ETL 的规划、设计和管理,尽可能考虑 ETL 各过程的并行操作,以充分利用系统资源。2.数据仓库对数据的正确性要求是很高的,ETL 要保证数据
46、的正确性 保证数据仓库的正确性,首先需要从全局数据模型入手,只有正确的模型才会有正确的数据存储。ETL 是从数据源根据指定规则将数据转换到数据仓库中的数据迁移过程,在此过程中,每一个步骤都是决定数据质量的关键,所以,要建立完善的过程来保证 ETL 的正确实施。我们采用以下方法来保证 ETL 的正确操作。严格的设计评审制度 建立数据审核制度 数据预警 通过与历史数据比较,检测 ETL 的输出数据是否存在较大差异,判断是否数据出现错误,由于数据预警操作消耗资源较大,而且检测对象一般是业务系统提供的接口数据,所以,宏智科技建议数据预警操作放置在审核接口数据部分。3.ETL 过程中出现的错误需要在合适
47、的时间内正确处理。ETL过程是非常复杂的过程,其中涉及到业务系统、业务规则、系统硬件环境、系统管理等各方面,ETL 过程出现错误是必然的。在设计、管理中尽可能做周全考虑的前提下,还要考虑 ETL 过程中出现错误后该如何处理的机制。ETL出现的错误可以分成多种,各种错误对数据仓库的数据造成的影响是不同的,需要解决的迫切程度也有所不同,根据宏智公司的经验,将 ETL 过程产生的错误分成 4 个级别:严重错误,需要立即解决;较严重错误,影响系统部分数据,需要当日解决;一般错误,影响系统较小部分数据,且其中没有重要数据,需要解决;警告,出现异常或错误,但不影响系统数据,需要管理员注意。4 数据存储层
48、4.1 数据仓库信息模型设计原则 综合营销系统信息模型的设计应该遵循中央数据仓库的稳定性和数据集市的灵活性;数据仓库面向信息主题、数据集市面向分析业务;数据集市的数据来自数据仓库的原则。综合营销系统的数据存储分成数据仓库和数据集市两个逻辑上独立的存储。数据从数据源经过数据抽取、转换后加载到数据仓库,根据不同主题的数据集市的要求,数据从数据仓库中根据转换规则将数据加载到指定数据集市。由于综合营销系统的业务需求容易变化,数据仓库中数据的存储必须采用信息主题分域的方式和尽可能小的业务单元(保存细节数据)来进行数据的组织和存储,这样才能满足数据的灵活性,适应需求的变化,又可保证最小数据冗余,避免数据的
49、不一致。数据仓库数据存储模型的设计采用面向企业整体信息的主题域方式,保证信息的完整性和信息主题的稳定性。将来新业务数据和分析需求出现,新(业务)数据的加入可以按照域归属的方式进行增加,在无主题域可依的情况下,采用建立新域的方式进行数据扩展。分析模型可以通过数据集市对主题域进行多次重构,系统能保证重构后的分析模型数据要求,这样也保证了对未来相关系统的数据支撑。4.2 模型设计方法 概念数据模型(CDM)概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统、收集信息而服务的一个概念性的工具。具体到计算机系统来说,概念模型是客观世界到机器世界的一个中间层次。人们首先将现实世界抽象为信息世
50、界,然后将信息世界转化为机器世界,信息世界中的这一信息结构,即是我们所说的概念模型。由于 E-R 图具有良好的可操作性,形式简单,易于理解,便于与用户交流,对客观世界的描述能力也较强,在数据库设计方面更得到了广泛的应用。因为目前的综合营销系统数据一般都建立在关系数据库的基础上,为了和原有数据库的概念模型相一致,采用 E-R 图作为综合营销系统的概念模型仍然是较为适合的。概念数据模型的设计是在较高的抽象层次上的设计,因此在建立概念模型时不必考虑具体技术条件的限制。进行概念数据模型设计要完成以下两个工作:1.界定系统边界 2.确定主要主题域及其内容 逻辑数据模型(FS-LDM)逻辑数据模型是系统体