1、招商银行数据仓库方案98资料内容仅供参考,如有不当或者侵权,请联系本人改正或者删除。 招商银行数据仓库方案建议书I目 录第一章 前言第二章 建议方案简介第三章 硬件产品介绍第四章 软件产品介绍第五章 项目计划附录一 成功案例附录二 IBM能够提供的服务附录三 项目进度计划安排参考附录四 产品报价第一章 前言作为一个发展中的银行, 总部位于中国南方著名经济特区深圳市的招商银行的成长令人瞩目。为了在五年内成为全国著名的银行, 进入世界大银行的排行榜, 招商银行的决策者们制订了一整套行之有效的计划, 而作为现代化管理的一部分, 与国际上先进的模式接轨, 计算机管理自然成为相当重要的一部分。招商银行与
2、世界信息产业的领导者, 美国国际商业机器公司, 简称 IBM 合作, 将其业务系统成功运行在AS/400 平台之上, 成功地迈出了计算机管理的第一步。可是她们并不满足于当前的状况, 发扬一向紧跟新科技的传统, 决定对当前的业务数据作进一步的处理, 将静态的数据转化为决策支持的依据。因此, 准备采用当前信息产业界极为先进的数据仓库技术, 完成招商银行的决策支持系统, 以进一步提高公司的实力和竞争力。而世界上最大的软件及咨询服务公司 IBM, 将以其在该行业雄厚的实力和数十年丰富的经验, 为招商银行提供一套完整的解决方案, 使招商银行的管理能力再上一个台阶。本方案以先进性和可扩展性为原则, 使招商
3、银行的数据仓库系统既能够保证在几年内技术和设备不落后, 使之站在世界计算机发展潮流之上, 又能够根据业务的高速发展, 很方便地升级, 以达到业务发展需求的性能。先进性方面, IBM 提供的硬件平台是具有最强劲处理能力的RS6000 SP 系列并行机, 它综合业界的最高端技术, 具备无与伦比的处理能力和可扩展性、 可靠性。例如战胜世界冠军、 国际象棋特级大师卡斯帕罗夫的”深蓝”就是这种机型, 其每秒数亿步的处理速度至今仍被人们称道; 软件平台是 IBM 提供最新推出的、 业界好评如潮的通用数据库产品 (Universal Database), 这是 IBM 的又一大师级力作; 还有荣获本年度世界
4、数据仓库产品大奖的数据采掘工具: Intelligent Miner; 在应用上, IBM有成熟的整套数据仓库解决方案, 和其它仅仅能提供某些方面产品的厂商有着本质的区别。可扩展性方面, 因为数据量越来越大, 用户越来越多, 为保证合理的响应速度, 对机器的性能提高就会有一个几乎线性增长的要求。硬件和软件的可扩展性就成为一个重要的考虑因素。IBM 的 RS6000 SP 主机正是具备这种特性, 从而成为硬件平台的首选; 通用数据库在小到手提机, 大到并行主机的任何平台上, 都能充分发挥硬件的性能。这样就确保了整个数据仓库系统的正常运作。也能够保证用户在今后升级时, 既能够保护现有投资, 也使应
5、用系统受到的影响降到最小, 做到无缝升级。背景 中国的银行业务正面临深刻的改革, 各种新生事物不断涌现, 如新的业务, 由于分工模糊而出现的很多非银行业的竞争者, 业务全球化的趋势, 由新旧竞争者造成的越来越大的压力, 快速发展的信息技术, 客户的需求和总体人口组成也在不断变化。全球范围内的金融服务企业间的关系变得更加紧密, 促使决策者重新研究金融市场, 资源分配, 组织结构和业务流程, 从而采取更有创意的企业行为和策略, 如企业兼并, 市场定位, 产品和服务推陈出新, 保持营销渠道畅通。 在银行业内, 越来越多的企业正在采用数仓库工具来创造新的商业机会: 深入分析客户群的组成、 发现特殊需求
6、、 设计新的产品、 在新业务推出前开展详细的建模和分析。分析客户减少的可能原因, 采取预防措施, 提高服务质量和整体竞争力。分析重要客户的来源, 保证整体效益。预防和制止信用卡诈骗活动。 正如 IBM 一向在计算机业的发展中扮演重要角色一样, IBM 早在1988年, 就发表了第一篇关于数据仓库的文章, 成为这一领域的先驱, 从那时起, 数据仓库的技术, 服务和解决方案就在来断地完善, 时至今日, IBM 公司的数据仓库系统已经安装了数百个, 在各个行业, 各种平台上运行。 1995年, IBM 重新评定了所有数据仓库资源, 成立一支核心队伍, 专门开发运用于各行业的数据仓库解决方案, 范围涉
7、及银行及金融业, 电讯业, 零售业, 保险及卫生业等。这个小组的任务是分析各行业的业务需求, 选择最好的软件和硬件产品, 为客户提供咨询服务。 在数据仓库市场上, IBM 始终致力于提供全面解决方案, 不但提供技术和咨询服务, 还为客户介绍专门的行业经验。我们的数据仓库系统运行在多种平台上, 保证一个开放系统供应商的地位, 是当前最完整的全方位的集成式数据仓库解决方案。 IDC 最近在加拿大市场上作了一次数据仓库的调查, 发现集成度是大家最关心的问题, 除了严格遵循开放标准, IBM 还发展了一些有实力的策略联盟伙伴, 如 Vality、 进展技术公司 ETI、 Cognos 以及Inform
8、ation Advantage 等。经过联合开发和集成调试, 达到联盟的主要目标: 更高级的集成度。 IBM 始终致力于确立在以网络为中心的计算技术方面的领导地位, 我们也坚信当前我们站在潮流的尖端, 公司内部建立起遍布全球100多个国家, 700多个城市的全球性的大型数据网络, 在专门的互联网部门, 在这一领域的技术成果不断推出, 都无可置疑地表明 IBM 是当之无愧的领导者。今天 IBM 更是提出了一套完整的解决方案。以下就数据仓库的概念和作用做一些简要的介绍。数据仓库的概念及作用 所谓数据仓库, 数据仓库之父 W.H.Inmon 曾对数据仓库作了这样的描述: ”数据仓库是九十年代信息技术
9、构架的新焦点, 它提供集成化的和历史化的数据; 它集成种类不同的应用系统; 数据仓库从发展和历史的角度来组织和存储数据, 以供信息化和分析化处理之用”。这里要强调的是必须将业务系统和数据仓库分开。两者功能不同, 要求迥异。虽然业务系统为数据仓库提供数据。但决不能将数据仓库建立在业务系统之上。一来两者所存的数据不同。业务系统是存储实时数据的地方; 数据仓库可能更关心的是整个历史数据。两者的数据传递不是简单的复制, 而是一个可能是比较复杂的转换和传递过程。二来, 这样做对业务系统的影响太大。不但会对数据的安全性造成一些不可预测的影响, 还会影响业务系统的性能。查询请求会使系统不堪重负, 响应速度降
10、低, 严重时甚至导致系统的崩溃, 使业务系统瘫痪。因此必须将两者分开。 数据仓库的作用主要在于经过对大量数据的分析, 得出需要的统计结果。还能够找出其潜在的关系, 从而作出正确的判断。例如, 如果银行要了解它的一个客户的情况, 以当前的情况来看, 需要查询储蓄库, 信用卡库, 借贷信息等。这些信息存储在不同的业务系统中, 不同的主机上, 显然要获得完整的客户资料需要作大量的工作, 消耗大量的时间。可是, 如果这个银行拥有数据仓库系统, 要完成这个工作只需要一个最简单的查询命令, 可能只需要几秒钟。因为数据仓库中已经有了所有的数据, 而且都已经重新组织。特别是如果你要查的是一些历史数据, 那么当
11、前的系统就根本无能为力了。因此, 建立一个数据仓库对公司的许多正确决策的作出有着举足轻重的影响。它能够以合理的代价取得有效的决策支持; 促进企业中业务处理过程的重组; 改进并强化对客户的服务; 强化企业的资产和负债管理; 促进市场分析; 帮助实现企业的规模优化。数据仓库的特点 由于差不多各个业务系统的各种数据都要放进数据仓库, 因此, 随着时间的增长数据仓库的数据量是特别大的。例如, 某单位一天有10G 数据, 例如移动通讯局的计费系统(如果有几本流水帐, 可能还会超过这个数字), 那么, 仅仅过了两年, 数据仓库中的数据量就有: 10*365*2=7300G, 相当于七个多 TB 的数据。那
12、么五年后, 十年后呢? 简直不能想象。由此可见, 数据仓库的特点: 数据量大且有几乎线性的增长性。数据仓库对计算机系统的要求 根据上述特点, 我们认为支持数据仓库的计算机系统首先必须得有一台不但性能卓著, 而且可扩展性也很好的主机。谈到可扩展性, 许多人会想到对称多处理器系统 (Symmetrical Multi-Processing) 系统, 其实 SMP 系统的 CPU 数增加到一定数目后, 对系统性能的提高已十分有限, 甚至会起反作用。因此, 主机的选用, 一定要有非常好的线性增长性。这里, 我们建议选用当前已经比较成熟的海量并行处理系统(Massive Parallel Process
13、ing), 简称为 MPP。另外, 数据库的选用也是十分关键的。一是要支持超大的数据量。可能在初始阶段, 数据量已经到了 TB 级。二是要有很强的稳定性。数据仓库是为决策支持系统提供准确的数据分析, 如果数据库不十分稳定, 那么, 后果不堪设想。另外, 数据库必须有可扩展性, 支持多平台, 高性能等等。整个网络环境的稳定和高速也应被列入计算机系统设计的考虑范畴。数据仓库系统的体系结构 一个完整的数据仓库系统, 应当由定义部分、 数据获取部分、 管理部分、 数据分发部分、 信息目录、 数据库管理系统、 数据存取与分析等部分组成。1.定义部分 数据仓库系统的定义部分完成数据仓库环境的定义和设置。这
14、里包括相应的定义工具供数据仓库的设计者和管理人员使用。她们使用这类工具进行: a.设计和定义数据仓库数据库; b.定义数据仓库的数据源; c.指定一组规则用来约束当数据从外部源点进入数据仓库时的系统行为。定义部分的工作结果是一批元数据, 这批数据将存放在信息目录中。2.数据获取部分 数据获取部分负责从外部数据源析取数据, 并在数据仓库内对所析取的数据实施后处理。为了实现数据仓库系统的主要目标-以最终用户最容易理解和使用的方式组织和存储数据, 进行后处理是必须的一步。后处理包括对所析取数据的提炼和变换。在定义部分所建立的规则用来约束实施后处理时的系统行为。数据提炼包括以下内容: 记录或记录内栏目
15、的重构, 删去不需要的运行信息, 字段值的解码和翻译, 补充缺漏的值以及检查数据的完整性和相容性。变换的内容如上所述。需补充的两点是变换还能够包括对原数据加上时间标记及对导出数据的计算, 在完成后处理后, 即可将处理的结果加载到相应的数据仓库数据库中, 这种加载可经过源数据库的加载工具实现, 如果源库是关系数据库, 一般可用 SQL 类的工具实现对日常数据清理和归整, 来自外部数据源的数据不会原封不动地进入数据仓库, 而是必须进行必要的变换以增强其可用性。最常见的数据变换有获取瞬像数据、 实施集运算( 求和、 求平均量等) 、 分组、 填写缺漏值、 预报趋势( 填入预测量) 、 数据结构与格式
16、的转换、 提取样本值、 编码值与可读值间的转化等等。3.管理部分 管理部分由一组系统服务工具构成, 这类工具及其所提供的服务可为数据仓库系统中其它部分所利用, 还能够用于管理数据仓库中的数据集, 数据集是对特定的一个或一级用户有用的一组数据, 这组数据是从数据获取部分得到的基本数据导出的。 管理部分提供的服务包括数据的维护、 数据的分发、 数据仓库的例行维护, 其中, 维护服务完成从基本仓库数据导出特定数据集的任务; 分发服务负责将集中的仓库数据分发到多个分设的数据仓库数据库服务器和其它供最终用户使用的决策支持系统上面; 例行维护服务包括了对数据仓库的常规安全性服务、 归档服务、 备份、 恢复
17、以及对基本仓库数据和数据集的监督服务。在当前, 例行维护服务多由基本操作系统和数据库系统软件来完成。4.信息目录 数据仓库所管理的数据, 不但有供最终用户( 企业管理人员、 各级决策者) 使用的, 还包括供数据仓库系统的开发者和维护者使用的数据。后一类信息是用来描述仓库数据库结构的, 称之为元数据。元数据的管理是数据仓库成功应用的关键。 数据仓库系统中的信息目录, 用来反映本系统中元数据的组织情况。经过信息目录, 可帮助用户了解在数据仓库中都存放着什么信息以及如何访问和使用这些信息。 一般来说, 一个完整的信息目录应当由几部分组成, 即技术目录、 业务目录和信息导航器。 数据仓库的设计者和管理
18、者所使用的数据, 其描述信息由技术目录保持和管理。这类信息有关于数据源和目标、 数据的提炼规则、 数据源与仓库数据库之间的变换规则和映射等的描述信息。技术目录中的信息, 是在数据仓库设计者在定义数据源和数据目标时, 以及向数据仓库拷贝数据而应用某些规则时产生的。如果外部系统拥有库管理工具、 DBMS 系统目录或者 CASE 工具, 也能够借用相应的工具从外部系统输入这类信息。 为了使数据仓库的设计者和管理者能有重构、 调整和优化数据仓库的依据, 技术目录还将保存和维护与上述目标相对应的信息, 这类信息包括: 数据仓库中数据的总量、 数据仓库的创立的更新日期、 仓库中数据的存取和使用方法等。 业
19、务目录包含的信息, 是将仓库中的数据以符合最终用户业务习惯的方式表示出来。这类信息包括: 同一仓库数据的业务习惯叫法与相应的数据仓库命名及别名对照、 仓库数据的来源、 导出规则和数据的当前值、 与数据拥有者的联络信息、 预定义的查询与报告的内容细节、 授权要求等。这类信息一般是由数据仓库的管理员生成, 有的也能够由外部系统( CASE 工具、 查询或报告生成工具等) 引入到数据仓库中来。 业务目录的使用和仓库数据的存取需要简单易用的工具来辅助, 信息导航器就是这样的工具, 其基本功能是: 对业务目录中的信息实施查询和搜索、 经查询而生成临时性的或永久性的仓库数据集、 向仓库管理员发送新的数据获
20、取请求的通讯、 向数据仓库系统的数据分发部件发送分发请求、 与系统的数据分发部件和数据存取与分析部件直接交互。5.数据库管理系统数据库管理系统是数据仓库的重要协同支持部分。整个系统都程度不同地依赖数据库软件的支持。其中最基本的支持是对仓库数据检索和维护。能够有效支持数据仓库系统的数据库软件, 必须具备两个能力: 伸缩能力和运行效率。由于数据仓库所维护的数据量一般都在 TB 之上, 因此上述要求的道理是再明白不过的了。在当前, 支持数据仓库系统的主要是 RDBMS, 因此效率问题更显得重要。 为了解决在加载、 存取和分析大批量仓库数据时存在的效率问题, IBM 推出了具有广泛并行处理能力的产品,
21、 这类产品充分利用大规模并行处理机的能力和开放系统的优势, 在伸缩性效率上均有实质性的改观。数据仓库系统需要数据库软件提供的基本支持包括并行查询、 并行建索引和并行常规维护( 加载、 备份和恢复等) 。6.数据存取与分析部分存取与分析部分属于仓库系统的前端。这里主要由桌面信息系统的各种工具组成。在 C/S 计算环境下, 这部分属于客户端。数据仓库的最终用户在这里提取信息、 分析数据集、 实施决策, 从而可望取得竞争优势。能够进入这一部分的软件工具, 主要是查询生成工具、 多维分析工具和数据提取工具等。第二章 建议方案简介关于招商银行如何实现数据仓库的建议 经过前一段时间的调查研究, IBM 特
22、向招商银行提出这份建议, 建议书的设计办求体现以下要点: 在招商银行现有的技术和经验的基础上开展建设, 保护贵行在这些方面的投资, 充分考虑到贵行在数据库技术如数据建模和数据库管理等方面的经验, 以及正在使用的 IBM 产品, 建议的新产品都是易于接受和使用的如 UNIX, DB2 UDB 系列产品等。 建议书编写的过程中, 咨询了多位有丰富银行业经验的专业顾问, 她们对于如何在银行业内实现数据仓库有多年的实践经验, 能够保证尽量降低方案的风险。 为将来的发展打下良好的基础, 由于银行金融企业业务的不断发展, 以及企业信息系统可采用的新技术不断涌现, 因此绝对有必要保证系统有充分的可扩展性,
23、能够采纳各种新技术, 如数据采掘工具, 互联网和多媒体等。采用开放的, 可重用的技术成份, 尽量增加系统的灵活性, 使投资得到最大程度的保护。经过采用成熟的技术使系统建设的风险降到最低。采用联接集成技术来降低总体运营成本, 在本建议书中最明显的例子就是采用数据复制技术, 在 AS/400 主机系统和数据仓库间传输数据。总体建议的要点: 基于大规模并行技术的开放, 可重用, 紧密集成的组件, 这个方案经过国际范围内多个专业顾问的审核, 如 Richard Finkelstien, IDC 及ColinWhite 等, 并得到她们的一致同意。为开发完整的业务系统而选定的一整套来自 IBM 及其伙伴
24、厂商的软件产品。与招商银行在数据分析发现方面建立数据发掘的合作关系, 使贵行成为中国银行界的领先企业, 经过准确的客户定位, 需求顾测等手段获得丰厚的利润。 IBM 将召集来自世界各地的数据仓库和数据发掘方面的专家, 她们有多年为银行客户服务的经验, 将为贵行提供与业务相关的顾问服务。 从技术及财务方面为客户考虑, 提供单一而灵活的价格条款, 以分期实现的方式, 使系统的建设对现行系统的影响减到最少, 在整个建设过程与客户共担风险。 本建议书的核心技术是 SP 系统, SP 系统的机器已在世界各地的大银行内普遍使用, 如中国银行和花旗银行。方案内的另一个核心技术DB2 UDB 的并行版本(EE
25、E) Enterprise-Extended Edition, 它是当前最快的并行数据库, 也是当前唯一一个符合标准的全并行数据库。其中还包括了从 AS/400 到 SP 的数据复制工具 DataPropagator。 方案中的其它软件产品有: 数据集市工具 VisualWarehouse, 数据采掘工具 Intelligent Miner, 以及 DataGuide、 ADSM 以及进展技术公司的 ETI 等。 在本方案中特定提出一个专门条款: 与招商银行的数据采掘合作。数据采掘是当前国际上各大企业普遍采用的一种用于增加和管理效益的手段, 它是一种比多维分析工具更先进的数据分析技术。采用了这
26、项技术的用户普遍反映良好, 认为能很好地帮助她们降低成本, 增加收入, 管理风险, 招揽客户和扩大市场。 IBM 研究中心根据数据仓库的使用经验, 总结出一组需求建模的算法, 由各地的专业顾问指导了数百个客户使用这些工具, 选出最适合总结业务流程的8个算法, 涉及的数据采掘技术包括聚集 (Clustering)、 分类 (Classificaiton)、 关联发现 (association discovery)、 序列模式发现(sequential pattern discovery)、 相似时间序列发现 (similar time sequence discovery)和预测 (predic
27、tion)。数据采掘系统的开发中使用了多种技术和产品, 如数据预备工具和可视化技术, 为客户实现满意的效果。经过这些系统的建设, 也证明了所用的工具和硬件 (RS/6000) 和数据库环境 (DB2 UDB) 有足够的可扩展能力, 能处理大型数据文件。 与当前市场上其它解决方案相比, IBM 的顾问组提供的服务明显高出一筹, 其它公司提供的算法只能适用于单一种特定的情况, IBM 的算法则能在各种企业中使用, 所提供的 API 能集成其它表示和决策支持工具, 全世界共有9个 IBM 的实验室, 50多个专业研究人员从事这方面的工作, 她们提出的方案能分析数以百万计的记录, 与关系型并行数据库集
28、成, 而不再受限于由内存容量决定的小型文件。 我们向贵行推荐 DB2 并行版本 EEE, 是因为我们有足够的数据采掘技术和经验, 使之能处理非常大量的数据, 发现从来不曾发现过的模式和关联。 在方案中, 我们将向贵行提供所有合适的工具和资源, 并希望组织一些研讨会, 共同探计如何更好地选择适用于中国银行业的产品和技术。 根据招商银行提供的资料, 我们认为整个企业用的数据仓库系统需要一台装有8个高节点的 SP 系统, 最初时需要 400GB 存储空间, 有必要时, 能够在其它省的分行安装数据仓库或数据集市, 具体方案视当地的业务量而定, 我们设计了相应的两个方案, 第一个方案是在总行配备一个8个
29、高节点的 SP 系统, 配备 650GB 存储设备; 第二个方案是在总行配备一个4个高节点的 SP 系统, 配备 325GB 存储设备。然后在各个分行各配备一个2个高节点的 SP 系统, 配备 162GB 存储设备。详细方案见附图。IBM 建议使用第一种方案。因为 1. 整个数据仓库系统在一个地方, 易于管理和维护; 2. 降低费用, 避免重复投资, 可共享资源; 3. 从业务上看, 数据仓库得出的结论更具有整体性。建议方案企业级的数据仓库与数据集市的比较 根据招商银行提出的业务需求, 我们建议采用一个分两期的方案来实现数据集市的概念, 第一步是建立一个全局的数据仓库, 它是建立数据集市的必由
30、之路, 数据仓库和数据集市不应该是两个完全分开的系统, 因为数据集市虽然向独立的业务领域提供高质量的信息, 但数据来源和基础是与数据仓库无法分开的, 否则就会出现数据完整性, 数据可管理性和元数据可管理性等问题, 全局集中的企业数据仓库为所有为特定业务领域服务的数据集市提供一个可靠的基础。 数据集市的定义逻辑成份较多, 而不注重于物理角度, 企业级的数据仓库指把企业业务信息经提炼整理后作长期的保存, 而数据集市保存的信息附属于某一特定的业务范围, 相对比较动态化, 因为数据集市相关的业务范围会随着时间和经营方针的改变而改变。 数据集市需要快速访问原始业务数据, 这些数据可能是从几个不同的时期收
31、集来的, 事先要经过业务规则的检验和净化处理。这样才能保证不同业务需求的数据集市都能快速访问到所需的数据。正是这个原因, 最成功的数据集市应用不是那些以应用为可心的业务系统, 而是由全局企业数据仓库中提炼出来的数据集市系统。企业数据仓库能够扮演过滤器的角色, 执行业务规则和检验数据。 本建议书在实现数据集市方面推荐一种相当灵活的体系结构, 数据集市的规模能够小到只有几个用户, 大到整个部门, 甚至整企业务系统, 为了适应这种需求, 推荐的方案能从核心的数据仓库中抽取所需的特定数据, 跟踪与建立数据集市有关的所有操作, 以便作审计控制, 并能在较长时间后重组数据。 数据集市的具体实现依赖于业务需
32、求和企业数据模型, 能够选择的方案有很多, 为确保安全性, 可管理性, 可靠性和可行性, 数据集市能够在 SP 平台上和企业的数据仓库共存, 这种配置使工作负载能够分布到多个节点上, 从而使数据集市的应用获得较好的性能效果, 对于远程节点和移动用户而言, 数据集市则能够从企业数据仓库平台转移到其它平台上, IBM 的DB2 UDB 数据库和数据复制产品降低了转移过程的复杂性和难度, 这些产品可运行在多种平台上, 如WindowsNT、 OS/2、 AIX、 Sun Solaris、 HP-UX 和 SCO UNIX 等, 使数据集市可灵活扩展。 对于小于 20 GB的数据集市, 还能够把数据下
33、载到多维数据和分析包中, 如 Arbor 公司的 Essbase 能够从数据仓库中切下部分数据, 专用于部门级的数据集市应用, Essbase 有一个多维数据库, 最终用户能够从不同的维上分析数据, 在较短的响应时间内分析数据和汇总信息。 本建议书的其余部分将专注于论述如何建立一个集中式的全局数据仓库, 评估具体的业务需求时会进一步解释数据集市的实现。方案所用技术概述 本方案涉及七项最重要的技术: 数据仓库的管理和基础结构, 数据获取, 数据存储, 决策支持工具, 数据采掘, 企业数据仓库目录, 咨询及顾问服务, 下面将分别介绍。每项技术都分类列出可能的选择, 我们在这个项目中的推荐方案以及原
34、因。 我们的解决方案不但覆盖了这七项技术, 还有针对性地根据招商银行的业务需求来使用这些技术, 保证紧密地集成系统, 完成所有业务需要的功能, 同时这些技术遵循开放标准, 每个组成部分的模块化结构使整个系统具有充分灵活性, 能够在必要的时候升级改进。管理及基础结构硬件技术 招商银行能够选用的硬件平台有 SMP, SMP 集群和 MPP。根据业务的规模, 银行业的动态性, 以及为将来的发展建立一个灵活的, 可扩展的, 有充分发展余地的基础的需求, 编写这份建议书的专家一致认为应该选择 MPP 平台, 其它评核的顾问如Richard Finkelstein、 Colin White 和 IDC 的
35、 ChrisWilliard 等都肯定这一选择, 根据 Gartner 集团的统计, 九成的 IT 经理为了更快, 更灵活, 更有效地执行分析工作, 都会选择 MPP 平台和并行数据库。 IBM 有两种 UNIX 环境下的 MPP 处理方案: SP 和大型主机上的 MVS 开放版本。我们推荐 SP 系统, 因为它稳固的结构, 成功的运行记录, 较好的性能价格比。 SP 在1994年推出, 时至今日, 全世界共有 多个系统在运行, 总节点数超过 0个, 现在在中国也安装了近100个系统。大型的银行企业, 一般会选用一个或多个 SP 平台来执行各种业务, 如市场分析, 客户管理, 利润分析, 服务
36、跟踪等。 SP 能够提供几乎不受限制的可扩展能力, 本项目建议的配置只及当前最强大的处理能力, 最大的内存和硬盘容量的不足百分之五, 有一些用户甚至在使用超过400个节点的 SP 系统。系统管理 长期稳定运行的业务系统有赖于稳定的体系结构, 而系统管理是整个数据仓库稳定性量度的重要指标。有超过一半的客户/服务器项目是失败的, 其中超过90%的系统是因为没有合适的系统管理结构。SP 平台上有一整套系统管理软件, 能管理系统的改变, 重新配置, 操作执行以及作性能和故障管理。Tivoli 系列系统管理工具进一步完善这组软件的功能, 它是一套可靠的跨平台的管理工具, 能实现完善的数据仓库管理功能,
37、使整个系统发挥最大的交用。本方案中采用的 Tivoli 产品是ADSM( ADSTAR分布式存储管理器) 。数据获取 数据获取过程由几步组成, 有数据抽取和传送, 数据提炼, 数据分发和装载。数据获取是一个不间断的过程, 要求自动化的处理能力, 可靠性和可管理性, 因此上节所说的系统管理能力也很重要。数据获取的核心是企业数据仓库目录的分发和管理。该功能由 DB2 UDB EEE 中的产品 Data Propagator 完成。数据存储 在 SP 硬件平台上, 可选的数据存储产品有 ORACLE、 INFORMIX 和 DB2 并行版本, 我们推荐 DB2 并行版本 UDB-EEE, 该产品在加
38、拿大实验室开发, 得到多数顾问的一致推荐, 因为 DB2 并行版本是当前市场上唯一完全符合标准的 MPP 数据, 经过广泛的安装和使用进一步证明了其能力。在 SP 平台上实现数据仓库选用 DB2 并行版本的占了超过50, 远远超过第二位的 ORACLE, 因为它当前唯一一个全并行的数据库。 最近作了一个关于 VLDB (超大型数据库)的调查中, DB2 成为最受欢迎的产品, 在五大数据库中无论是数据库的容量还是用户数都远远领先。例如一家叫 BellSygma 的公司, 正在使用 DB2/MVS 作市场分析, 随着 UNIX 平台上的数据仓库的不断发展, 她们在考虑转型时决定采用 DB2 并行版
39、本, 因为她们已经有 DB2 的使用经验, 而且 IBM 在 VLDB 上令人信服的技术和经验, 可信的运行记录等促使她们作出这种决定。时至今日, 她们已经开发出几个 VLDB 的数据仓库应用, 都有非常好的可扩展性和性能。 一向以来, DB2 因为其多样化的功能而受世界各大型企业的普遍欢迎, 美国最大的500家企业中有超过80采用了 DB2, 其中前100家全部采用了 DB2。DB2 并行版本象 SP 平台一样, 能帮助象招商银行这样的企业去应付各种类型的业务压力, 有足够的灵活性去增加, 删除, 重新开发和管理应用和数据, DB2 有独特的可重用特点, 能同时作数据仓库、 数据集市和内部网
40、应用的数据库服务器, 将来还能够把DB2/400 的应用向下优化到 DB2 上。 最新的 TPCD 测试表明, DB2 的性能是并行数据库中最好的, 这次测试模拟了一个实际的数据仓库环境, 从 TPC 量度上来看, 与招商银行当前的数据仓库规模比较接近, IBM 公司在1996年共投入了1200个人年开发 DB2 产品, 今后仍会保持这种力度以保证并行数据库领域的领先地位。决策分析支持工具 面向最终用户的工具种类繁多, 有 IBM的 Visualizer、 Data Inter Pretation; 其它公司的如 Cogons、 Information Advantage、 Business
41、Objects、 Brio-Query、 CrystalReports、 Microstrategy、 Prodea、 Arbor 的EssBase 等。汇集总体层次上的数据, 从多个角度去分析, 发现有价值的信息, 但每个工具的功能范围都比较单一而固定。 经过专家的讨论, 我们推荐 Arbor 的 EssBase, 作部门级数据集市方案中的多维数据库。我们也希望建立数据采掘的合作关系, 以便更好地发挥 IBM 最新的数据采掘和发现技术的作用。IBM 的数据采掘技术 数据仓库最重要的作用就是发掘信息, 更好地支持业务决策, 增加客户忠诚度, 提高市场占有率和利润, 信息发掘的应用有市场分析,
42、利润评估, 成本审核等。 现在的技术趋势是以信息发现为驱动, 提高上述应用的效率, IBM在这方面的研究和开发工作一直处于领先地位, 与几个重大的金融和零售业客户合作, 开发出一些有针对性的解决方案。在此基础上汇集成一个完整的数据采掘工具包, Intelligent Miner.已在1996年六月推出, 支持RS/6000 和 SP 平台上的 DB2, 该项技术在业界内堪称一绝。第一版的产品内含有八个独立的算法。 META 集团的 AaronZornes 曾高度评价这一技术”IBM 的数据采掘工具包和提供的相关的服务, 相信会对大型企业的数据仓库技术带来决定性的影响。” 这项技术是一项新技术,
43、 对招商银行而言很有好处, 采用这项技术能够使贵行与其它银行在技术上拉开差距, 这项技术必然会进一步发展, 同时也就保证了贵行在数据仓库上的投资能发挥更大的作用。企业数据仓库目录 数据仓库的元数据是数据仓库完整性、 自动化程度和可用性的基础, 元数据定义了数据仓库的处理过程, 记录下来并支配整个运行过程, 对业务型用户而言, 元数据是一种信息目录, 从中能够较容易地理解和使用数据仓库中的信息。 元数据的来源, 信息模型和存储技术有很多种, 一般相互之间是冲突的, 为了使各种工具能够顺利地互相交换元数据, 需要 Metadata Interchange Coalition 的帮助, 提供元数据的
44、标准化的交换。IBM, ETI, Infromation Advantage 和 Vality 等公司都支持这种标准, 我们与其它数据仓库厂商也正在共同合作, 以达成最终的标准。 IBM 的方法与 Coalition 的策略完全一致, 技术性的元数据和业务性的元数据的内容和使用方式都是比较独立的, 针对不同的用户, 应该有不同的元数据存储, 优化信息结构。IBM 推荐的方案中, 技术性的元数据能够用ETI, 业务性的元数据用 IBM 的 DataGuide, 这些相互独立的产品虽然来自不同的厂商, 但组合起来能发挥更大的作用, 因为它们是所在领域中最好的产品, 否则无论如何都要维护两套元数据目
45、录, 还要保证它们之间的同步。 ETI 和 DataGuide 的同步由 ETI 负责, 因为 ETI 有一种很特别的功能, 能象处理其它数据源一样处理 ETI 的元数据存储, ETI 最大的长处就是有选择的查询、 传送数据, 不受软件和硬件的影响, 能在任何格式的数据库或文件间传送大量的数据, 所有操作都是在元数据的控制下进行。ETI 的元数据存储能卸出, 然后卸入 DataGuide, 或与DataGuide 的数据合并, 整个处理过程可在图形界面中完成, 最后能生成相关的报告, ETI 还支持版本控制, 建立并维护详细的审计记录。 DataGuide 是 IBM 的信息目录工具, 集成工
46、作组级和企业级上的最终用户业务元数据, DataGuide 中的元数据按业务性质划分成多个业务组, 最终用户很容易浏览, 分析时如果要查找某一对象, 如报告、 电子表格、 数据库、 程序、 ETI 元数据存储或数据采掘工具等, DataGuide 都能把所需的数据连同信息抽调出来, DataGuide 的目录信息存储在 DB2 中, 与数据仓库中的业务数据放在相同的地方。咨询与顾问服务概述 招商银行已有开发大型项目的技术和经验。根据 IBM 在数百个数据仓库项目中的经验, 其中有几个与招商银行的情况相类似, 我们有信心帮助贵行利用已有的技术和经验, 把系统升级, 扩展数据仓库的范围和业务应用的
47、广度。 IBM 一向是经过增加商业价值来推动项目的进展, 保证用户花在数据仓库上的每一分钱都是物有所值的, 所采用的技术都是绝对有必要的, 与业务需求相适应的, 我们的方案进展是分期进行的, 保证整个项目按步就班, 达至最后完全成功。 IBM 是世界最大的顾问服务公司, 提供全面的顾问服务, 在招商银行项目中我们有三个突出的长处: IBM 充分认识到数据仓库的重要性, 专门建立一个技术中心, 由数百个专业人员组成, 设计、 实现并管理数据仓库项目中的所有部件。 IBM 已有多年为客户提供数据仓库咨询与顾问服务的历史, 附录中列出了 IBM 数据仓库顾问服务的方式。 IBM 有数据采掘方面领先的技术, 在过去十年中, 超过50个研究人员专注于超大型数据环境中的数据发掘的研究, 研究工作在遍布世界各地的9个实验室中进行, 前后共研制了42种数据发掘的算法, 所有这些成果, 再加上我们提供的专业顾问服务, 帮助客户设计方案, 实现和开展培训, 构成了数据采掘的强大力量。第三章 硬件产品介绍 在仔细研究招商银行总行当前的运行环境, 以及总行对数据仓库计划的需求后, IBM 提出 SP 解决方案。IBM 方案结合了在不同平台(IBM RS