1、中国建设银行数据治理实践的三高、四 落、八行为 前言:近些年,随着金融业在国内的迅猛开展, 银行业的规模与开展速度也是如火如荼,网上银 行的兴起也极大地便利了民众的消费、支付和理 财,许多传统的银行业务逐渐过渡为网上交易, 利用互联网平台,快速高效地处理交易,离不开 一个良好的数据治理方法。可以说,没有数据治 理,就没有数据架构;没有数据架构,就没有大 数据;没有大数据,就没有高效便捷的信息化时 代。“高标准、高质量、高平安”是数据治理的 三大目标。 中国建设银行数据治理的三高1、高标准 1、高标准 Volume, Variety, Velocity, Value 是大数据
2、的 “4V”特征,如何治理结构化、半结构化、非结构的海量数 据,让数据“活”起来,挖掘分析数据潜在的业务价值,让中、逻辑分布”技术架构的标准化流程管理平台的设计和部 署;完成全行IT服务台建设工作,即在数据中心建设总服 务台,总行开发中心和各分行建设自己的服务台,在对本地 故障进行相应和支持的同时,还可以实现总服务台、开发中 心服务台和分行服务台之间的互联互通。IT服务管理平台搭 建了具有可测量性的全行运行服务质量的数据架构,为未来 建立更有效完善的数据分析体系提供了扎实的技术平台和数据来源。 数据来源。 数据生命周期一一做管理 数据的生命周期包 括数据创立、数据使用、数据归档
3、数据销毁4个阶段。而 数据在生命周期内有效那么可以满足业务操作和管理分析的 需要;满足对历史数据查询相关政策和管理制度的要求;满 足审计管理要求;减少数据冗余,提高数据一致性;减少存 储、硬件、运维等方面基础设施投入;提升应用系统性能, 提高响应速度。因此,数据生命周期的管理必不可少:首先, 在数据创立阶段,要求利用数据模型保证数据完整;执行数 据标准保证数据准确;加入数据质量检查创立准确;保证数 据在合理的系统生成。其次,在数据使用阶段,要求利用元 数据监控数据使用;利用数据标准保证数据准确;利用数据 质量检查加工准确;确保数据在合理的系统使用;控制数据 的派生。然后,在数据归档阶段,要求
4、利用评估手段保证归 档时机;分数据类型归档数据。最后,在数据销毁阶段,要 求利用评估手段保证销毁时机;分数据类型销毁数据。2013年8月,建设银行新一代核心系统自主研发的云管理平台项 目上线,通过云管理平台的虚拟化管理、云服务定义、资源 池、自动化、服务编排、弹性伸缩等功能,实现IT基础设 施资源的全生命周期管理和服务的快速交付。在建设银行的 新一代数据中心的规划中,引入云计算理念,通过虚拟化、 资源池的方式统一管理和分配所有基础设施资源,实现IT资源从数据创立到数据销毁的全生命周期管理。 资源从数据创立到数据销毁的全生命周期管理。 元数据管 理一一做规格 元数据是数据仓库的灵魂
5、它不仅提供了数 据仓库中数据结构的逻辑层,也提供了数据仓库的构建和使 用规那么。为了使数据仓库中各个软件能够无缝地合作,必须 在元数据层进行有效的集成。所以,研究元数据的作用与意 义相当重要。元数据是关于数据的数据,即是对数据资源的 描述,按其描述对象的不同可以分3大类:技术元数据、业 务元数据和管理元数据。元数据管理中主要分为3个阶段: 基础建设阶段、基本整合阶段、整合扩展阶段,其中各自的 建设目标分别为建立元数据管理规范/组织、建立技术平 台、建立元数据管理/技术功能、导入技术元数据信息;优 化元数据管理规范/组织、建立技术关键技术元数据关联、建立元数据分析功能;完成各个元数据
6、关联建设、与其它信 息管理的功能整合。 数据平安一一做规范 对于信息化最广 泛、信息处理规模最大的银行业而言,除了信息系统的正常 运转外,最重要的也就是信息的平安,建设银行从企业级、 体系化视角开展了信息平安管理顶层设计,吸收借鉴 I0S2700K GB/T22080. COBIT等业界成熟标准提供的全局思 维和最正确实践,并将这些标准的理念、内容整合到实际管理 制度和流程中,实现两者有机融合,取得了良好成效。建设 银行出台了信息平安管理的纲领性《中国建设银行信息平安 管理方法》,同时,为保障《方法》各项信息平安管理要求 有效落地,配套制定了《中国建设银行信息平安管理方法实 施细那么》
7、以及《中国建设银行生产数据应用平安管理规定》、 《中国建设银行信息科技工作检查管理方法》、《中国建设 银行信息科技风险管理制度重检操作规范》等各专项领域安 全管理制度。 数据创造财富。这就需要“高标准”的数据治理,统一数据 标准是数据治理的核心内容,没有统一的数据标准、缺乏从 全行的角度构建统一的基础信息平台,因此相关系统的标准 口径、会计科目的不一致,形成了一个个信息孤岛,使得系 统中的信息无法有效共享,造成了银行信息资源利用的低效 率。建设银行在“高标准”的数据治理中,主要表达在对云 计算技术的理论研究和实际应用中。建设银行响应号召,积 极推进云计算等相关技术的研究与应用,努力探索大型
8、商业 银行云计算数据中心及运维体系建设的最正确实践方式,中国 建设银行股份在2011年启动的“新一代核心系 统”工程中开始实践。2013年开始实施效果逐步显现,体 现为基础设施标准统一、应用部署快速发布、参数标准统一 固化、监控处理敏捷有效、资源供给周期从“周”缩短到 “分钟”。建设银行将在“新一代核心系统”、“两地三中 心”数据中心建设中持续探索、深化云计算应用。云计算数 据中心资源提供的方式与以往有很大的不同,它以快速敏捷 的服务方式向用户提供,而传统的数据中心是面向应用的偏 向个性化的资源供给。首先,在技术实现方面,传统的数据 中心是分层次、分应用逐个技术叠加实现最终的资源提供, 不同
9、的层次是由不同的团队进行实施,此种情况下形成的技 术标准或规范很难在云计算数据中心中继续使用。其次,云 计算建立在大规模的资源池和自动化的基础之上,而资源池的形成和自动化的实现都需要标准化支撑。因此,云计算数 据中心的实施必须标准规范先行,才能到达事半功倍的效 果。建设银行在云计算实施过程中全面梳理了现有技术和规 范,将新的架构设计和服务要求融入标准规范之中,形成了 包含服务目录、计算资源、存储资源、网络资源、数据库资 源、机布线、命名规范、云服务开发等的相关技术标准或规 范,为云服务设计以及云管理平台有效地进行资源供给和资源管理奠定了基础。 源管理奠定了基础。 2、高质量 提升数
10、据质量是数据治理的 关键任务。高质量的数据不应仅满足于高准确性,而应转变 为一个包含丰富内涵、具有多种维度的综合性概念;而且, 随着统计的服务外延从数据服务向决策服务转变,数据质量 还需要满足用户的需求和期望。同时,结合全面质量管理理 论,如果将数据视为产品,那么数据质量不仅包含数据本身 的质量,还应包括数据产生和形成过程的质量。综上所述, 数据质量PWS是在数据收集、处理和加工、生成和应用等 数据产生和形成的整个过程中,影响数据满足用户需求的一 组特性。一般情况下,数据质量包括数据收集过程的准确性、 真实性、适用性等,数据加工和处理过程中的可比性、方法 健全性、可衔接性等,数据生成和应用过
11、程中的及时性、完 整性、可获得性等,及整个过程的本钱有效性等。为到达数 据治理“高质量”的目标,建设银行采用标准池化存储结构 技术来存储数据。NAS、SAN存储:SAN存储从应用(AP)层、数据库(DB)层混合部署转变为全数据库层部署,大面 积在应用层使用NAS存储替代SAN存储。打造“存储标准 化”:实行存储配置标准化、资源池化,屏蔽了不同产品带 来的差异化,减少了维护本钱,同时实现了存储资源快速、 灵活的供给。“边缘一核心一边缘"三层SAN存储网络:实现了楼宇内任意地点的存储网络接入。 现了楼宇内任意地点的存储网络接入。 3、高平安 维护数据 平安是数据治理中不可或缺的一局部
12、数据的平安性能否得 到保证以及当数据遭受一定的破坏后的灾备处理能力直接 关乎整个银行的生存开展。因此,数据高平安性是衡量银 行数据治理能力的重要参考指标之一。 为此,建设银行采用“多 层水闸式”防范体系。原平安架构的平安功能与应用系统集成实 现,嵌入到应用系统中,与应用系统紧密耦合,导致平安策 略与平安功能固化。“新一代平安架构”的应用系统只集成 通用、标准化的平安代理,所有平安功能通过平安代理为应 用系统提供,后台的平安服务可以统一调度、灵活组合,安 全服务的调整不会导致业务系统的改造。数据治理保障机制 是银行数据治理框架中的关键,科学的数据治理技术没有完 整的保障机制来进行制约、管理,是
13、很难做好数据治理的。 建设银行数据治理的落地保障由政策、组织、流程和技术这 局部组成。 中国建设银行数据治理的四落第一、订立严格的企业信息化政策 第一、订立严格的企业信息化政策 主要分为规章制度、 管控方法、考核机制三个局部。 为了更好地利用主机资源,建设银行提出“主机+开放”的 融合架构,确保“好钢用在刀刃上”。核心账务系统,部署 在主机平台上;查询系统,部署在分布式平台上。主机资源 用于核心账务系统,利用开放平台处理查询业务或者普通维 护性交易,采用削峰填谷的方法优化主机资源使用,确保账 务交易的资源。查询系统与账务系统别离,既分散了系统风 险,又提高了并发处理
14、能力。最近三年在实际业务量年均增长32%的情况下,主机MIPS资源零增长,取得了节省投资 的良好效果。 第二、组建专业的数据治理组织 具有专业 知识水平和创新能力的组织为数据治理提供了人员保障,没 有一个执行团队来将数据治理的方法、理论付诸于实践,那 么,所有的数据治理都将是纸上谈兵,毫无意义。建设银行 拥有专业的、有力的数据治理团队,才能结合建行自身的特 色和需求,对数据治理提出有效可行的解决方案和建设性意见;结合理论学习,自主开发云计算管理平台,并将其应用 到数据治理当中。 第三、基于顶层设计开展IT流程化 制定流程是为了确保目标能够顺利的开展,循序渐进的完 成,少走
15、弯路。建设银行数据中心在“新一代”核心系统、 “两地三中心”基础设施建设中,“新一代核心系统”旨在四、采用适当的专业支撑工具 四、采用适当的专业支撑工具 遵循科学的技术规范、有 重构一个商业驱动的企业级IT系统。企业级系统是从业务 的顶层设计开始,而非从局部需求发起,根据业务架构梳理 的114个业务组件以及流程建模、数据建模的成果,规划设 计出“7+1”层的IT架构和64个信息技术服务能力。 效可行的实施方法、基于可靠的支撑平台是做好数据治理技 术的三个关键要素。建设银行数据治理团队结合建设银行自身的特点和业务需求,自主开发了全面自动化的云管理平 台,先后实施了 IT基础设施
16、的服务器安装、版本部署、服 务启停、日常巡检、配置比对等一系列自动化工具,极大提 升了数据中心运营管理的自动化水平,形成全生命周期的自 动化管理模式,完美支持了应用工程以及相关IT框架、平 台、技术和平安组件的投产上线。创造了 5个工作日内交付上千台虚拟化服务器的行业纪录,在简化流程、提高效率的 同时,有效控制了操作风险。 中国建设银行数据治理的八大行为数据治理的核心领域是数据模型、数据质量、数据标准、主数(据)管理、数据 架构、数据生命周期、元数(据)管理和数据平安。 数据模型一一做建模 由于银行的部门分散,其中各个部门 沟通交流不善会对银行的业务实施造成重大影响,因此,银 行需要
17、企业级数据模型以统一全企业数据概念与定义,增进 业务人员与技术人员的相互理解与沟通,保证需求定义的准 确性。其主要流程为:首先,需要由业务人员提出业务需求, 并描述业务需求所需的数据内容;其次,通过业务人员及技 术人员合作,根据业务对象抽象出数据概念,定义其描述、 分类与关系;然后,技术人员根据数据概念描述、分类,抽 取出数据实体,并利用ER图描述其关系;最后,技术人员 针对数据库特性将数据实体物化为数据库表,支撑实际应 用。由于中国建设银行一级分行各自的数据平台的建设导致 建设银行目前内部系统不统一,其内部的系统主要有:核心 业务系统CCBS、信贷管理系统CMIS、个贷系统PLS、外汇资 金
18、系统OPICS等,他们之间的信息有重叠及不一致存在,无 法到达业务人员与技术人员相互理解与沟通的目的。因此, 如何应用这些数据,如何进行标准化处理,建立全行统一标 准化数据模型,是满足建设银行的企业管理、决策需要的重 要条件。目前,建行的概念数据模型为数据仓库及管理信息 系统规划工程的产出,在分析建行报表的基础上,利用建行 数据源分析工程的成果,建立建行核心逻辑数据模型初稿。 数据质量一一做清洗以及数据量的爆发式增长,银行的数据也大规模增长,然而, 其中无效数据同样也将大幅度增多,这就要求银行需要对数 据质量进行限制。中国建设银行依据《银行监管统计数据质 量管理良好标准(试行)》中的要求,实
19、施新资本协议实施 风险数据管控体系咨询工程以及全行IT战略规划—企业级数 据管控咨询工程,并下发《中国建设银行数据质量管理暂行 方法》,对数据质量即数据的及时性、完整性以及准确性进 行了限制,详细地通过事前防范、事中监控、事后管控3个时间段进行监督。 时间段进行监督。 数据标准一一做统一 由于系统之间缺乏 数据共享机制、共享数据缺乏业务解释和技术定义等原因导 致了数据难以充分有效利用和系统之间难于整合的问题,而 这些问题将极大的影响银行的业务效率及客户体验,为了解 决这些问题,中国建设银行通过通用数据标准的制定以满足 建设银行管理信息共享以及全行信息技术开发的迫切需要。 根据已确
20、定的建行企业核心逻辑数据模型,将模型中的数据 项抽取出来。然后根据预定的业务数据项筛选方法,筛选出 需要进行业务定义的业务数据项。然后,根据业务对所筛选 出的业务数据项进行分类,产生用于通用数据标准及公共代 码定义的数据标准项清单。而具体的通用数据标准的制定包 括定义工作目标、流程、及模版,其分类标准那么根据数据在 银行业务中的使用频度和业务需求,参考业界金融模型,通 过汇总分析,对通用数据进行分类,形成统一的数据标准在 数据层面的定义,并以数据项自然分类为基础,对数据进行 主数据(清理)一一做编码务实体的数据,比方客户,合作伙伴,员工,产品,物料单, 账户,以及位置信息等,它具有极高的价值
21、是企业内跨业 务重复使用的数据,存在于多个异构的应用系统中,是关键 数据,而不是全部数据;是操作性数据,动态参与业务流程, 而不是静态数据。在建设银行中主数据为全行共享,全行服 务的重要数据,与其他数据别离,作为单独的局部进行管理。 数据架构一一做共享 中国建设银行进行了基于x86分布式 架构的探索,对渠道类业务、查询类业务和大数据业务开始 向分布式架构演进。首先建行通过业务分析,对于能够从集 中式架构别离的,对数据一致要求不高的业务进行拆分。比 如原来的客户信息管理的业务功能是集中在大型机,通过业 务分析和组件化设计,定义了独立客户信息组件,那么要把它 从大型机上核心业务中别离出来
22、把它挪到分布式架构中。 建行的分布式架构探索还用在其客户渠道的分库分表上,实 施分库分表的高可用应用改造,沉着支持应对电子渠道持续 增长、数亿级的交易量和数据量。比方建行的客户渠道,网 银、手机银行是承当着大量交易,通过将一个公共数据库, 把它拓展为多个同构的公共库,使数据分布存放成为可能。 根据客户ID取模对数据库进行垂直拆分,这样有效减少了 高并发对数据库带来的访问的压力。通过这种应用改造,将 同一个客户的缓存、限额包括过程流水都放在同一个数据库 上,这样减少跨库的失误来保障客户体验。对银行核心账户 交易,建行并探索数据强一致性过渡到数据最终满足一致的 可能性。通过分阶段失误提交,异常错误检测和补偿这种机 制来逐步将银行帐务系统转移到分布式架构中。中国建设银 行2011年通过IT服务管理平台工程完成全行基于“物理集






