1、银行数据中心运维转型银行数据中心运维转型1一、银行数据中心运维的发展和演进21.1单一数据存储阶段21.2数据集成管理阶段21.3智慧运营阶段2二、城商行运维的痛点分析32.1运维制度不规范32. 2运维流程不合理32. 3运维技术水平低42. 4应急管理不高效42.4. 1风险防范意识不高4灾备体系不清晰4系统应急预案不完善5三、城商行运维转型的思考和对策53.1战略层面一一管理层关注53. 2战术层面一一做合规的事63. 3实操层面一一正确地做事63. 1运维人员62.3. 2运维流程6运维技术7四、小结7一、银行数据中心运维的发展和演进近年来,随着移动互联网、大数据、云计算、AI技术等金
2、融科技业态 逐步向传统金融领域渗透,银行业务系统越来越庞大,系统之间的关联越来 越复杂,金融科技的不断发展一方面为传统银行业的跨越升级插上了腾飞 的翅膀,另一方面也给数据中心运维带来了极大挑战。业务的高速增长始终 离不开运维的强有力支撑,银行数据中心经历了从部件级运维到一体化发 展的各个阶段,数据中心的内涵也从单一数据存储场所向智慧运营不断演 进。1.1单一数据存储阶段在单一数据存储阶段,数据中心的运维重点是服务器、存储和网络,主 要承担的功能是数据存储和管理,集中存储了银行的业务数据。处于此阶段 的数据中心功能比较单一,整体可用性低,业务连续性要求不高,仅仅便于 数据的集中存放和管理,面向单
3、套业务系统的存储和应用,运维管理粗放, 资源台帐不清,运维人员时刻处于“火线”边缘。1.2数据集成管理阶段数据集成管理阶段是数据中心运维管理的转型阶段,此时数据中心组 织专门的人员进行集中维护,注重运维效率,为业务系统提供有效支撑。有 些做得比较好的数据中心己经开始集成CMDB,自动化集成ITSM流程,通过 云服务实现自动化的服务交付,对系统维护上升到了管理的高度,从事中干 预、事后处理慢慢过渡到事前预防。业务连续性要求较高,IT系统的可用 性己经作为部门KPI列入年度考核,数据中心要求有较高的稳定性和可靠 性。1.3智慧运营阶段处于智慧运营阶段的数据中心,从注重运维效率转变为更加注重运维 质
4、量,业务与科技深度融合,业务系统对数据中心的运维要求己不仅仅是支 撑,而是提供安全、持续、稳定、有效的科技服务,此阶段的数据中心己经 演进成了金融服务提供中心,服务流程趋于规范化、标准化、统一化,并通 过信息技术实现自动化管理。数据中心集成、管理和维护了各种资源,从技 术运维转向了技术运营,实现基础设施和服务实时交付,保证计算资源价值 最大化。数据中心高可用性和业务连续性要求高,重要信息系统应用级灾备 覆盖率达到100%,且具备有效的异地数据级灾备,灾备接管时间为分钟级。二、城商行运维的痛点分析中小型城商行受制于资产规模、科技投入、科技人才匮乏等因素,在科 技人员配置和资金投入时一般都是重开发
5、轻运维,运维管理粗放,这就不可 避免地暴露了很多运维的问题和痛点。2. 1运维制度不规范中小型城商行处于运维发展的初级阶段,运维制度、操作流程、应急预 案、灾难恢复计划书等制度性文件制定之后就束之高阁,没有及时根据实际 情况进行修订更新,使得运维工作无章可循,运维操作做不到规范化、标准 化。运维制度不规范的数据中心,人人都有一套运维标准,同样的事情不同 人处理都存在差异,各岗位职责边界界定不清,岗位之间协同性差,做事互 相推诿,甚至怕担责任少做少错,紧急问题得不到有效处置,从而运维事故 频发,带来极大的安全隐患。2. 2运维流程不合理如果制度是“心脏”,那流程就是“血液”,它贯穿整个工作范畴,
6、引 导运维工作,界定具体的管理职责,运维流程的有效性和可操作性直接影响 了运维质量和运维效率。数据中心需要制定切合自身的、实用的流程,缺乏 有效流程管理的数据中心,故障响应时间慢,故障定界定位难,故障处理缺 乏统一有序步调,问题跟踪方式自成一派。缺乏流程指引就摆脱不了 “烟囱 式”运维,或“救火式”运维,每位运维人员都是无头苍蝇一般的“救火队 员”,增加了人为操作风险。如今大多数中小型城商行的数据中心都部署了各类运维支撑工具或平 台,比如ITSM、自动监控平台、堡垒机、口志管理平台、灾备切换平台等, 但大多数运维场景下,这些工具平台各自为政,没有串联形成体系,相互之 间缺乏有效的流程诳行编排和
7、管理,流程和工具的衔接存在断层,协同调用 依赖人工进行,增加了运维投入但却没有简化运维。2. 3运维技术水平低在实际操作层,技术是运维的骨骼,强硬的技术实力是运维体系的底座 支撑。近年来,中小型城商行业务迅猛发展,基础设施快速膨胀增加了运维 管理的复杂度,业务系统对IT基础设施提出了更高的运维服务要求。多设 备、多厂家、多产品导致运维复杂度攀升,为达到高效运维,就必须利用技 术手段为不同技术路线的系统环境提供统一的服务接口,整合事件处理、变 更管理、服务请求、配置管理等多项流程,将流程和操作一体化,同时还需 要熟悉多平台、多业务、多工具的复合型运维人才。但现实情况是,中小型城商行在运维投入上捉
8、襟见肘,大多数运维手段 还停留在人工阶段,自动化运维平台没有充分发挥应有的效能,还需过多的 人工干预;在人才聘用方面,低于行业平均水平的薪资无法留住高技能人才, 人员管理不规范、晋升通道不清晰、行业地位低,造成运维人员变动大,维 护人员技能较低。2. 4应急管理不高效银行业务具有较高的实时性和稳定性要求,一些面向客户、涉及账务处 理且时效性要求较高的业务处理类、渠道类和涉及客户风险等业务的管理 类信息系统己长期处于严格的监管之下,若这些重要系统发生非计划内中 断,高效的应急管理显得尤为重要。受限于自身原因,中小型城商行的应急 管理体系建设还不够全面,没有形成自上而下的合力,产生了许多突出的问
9、题。2.4. 1风险防范意识不高中小型城商行主要关注主营业务发展,普遍缺乏信息系统风险防范意 识,从上到下对信息系统的应急管理都不够重视,容易滋生信息系统重大安 全事件,严重威胁银行的正常生产经营,造成声誉风险。灾备体系不清晰应急管理的一个重要组成部分就是灾备管理,中小型城商行灾备建设 的主要目的,是为了进行灾备演练从而应对监管检查,缺乏对灾备体系的统 筹思考和总体架构设计,这将导致灾备系统架构不清晰,延展性差,灾备资 源只能在演练时使用,正常生产时间段得不到合理利用。系统应急预案不完善应急预案可用性不强,是中小型城商行的通病。大多数应急预案流于形 式,组织架构不清晰,职责分工不明确,可执行性
10、不强;有些应急预案只专 注与操作细节,缺乏总体规划和统筹安排;经过了数次真实环境下的应急演 练之后,没有及时总结经验教训,同步更新应急预案。三、城商行运维转型的思考和对策鉴于以上痛点分析,中小型城商行要实现运维转型,必须要从根本上打 破困局。首先从思想上统一认识,从管理层开始自上而下认可运维工作的重 要性;然后制定并及时维护相关规章制度和操作流程,规范运维操作人员行 为,降低操作风险;最后才是最近提得比较多的,利用技术手段建设集中整 合运维平台,实现运行、监控、变更、应急等流程一体化、自动化、智能化, 达到智慧运营的目的。具体的思考和对策如下:3.1战略层面一一管理层关注大部分中小型城商行均没
11、有配备专职CIO,信息科技部在银行高级管理 层眼里仅仅是一个巨大的“成本中心”,不会产生实际效益,科技的重要性 并没有渗透至管理层。随着银行业务的快速发展,信息科技风险以及由此带 来的衍生风险并不亚于系统性金融风险,监管部门对银行信息科技的监管 也日趋严格。若高级管理层可以从战略层面重视信息科技,将业务与科技深 度融合,关注科技体制健康有序发展,科技赋能业务,组建训练有素的科技 团队,就能有效规避各类生产运行风险,助力业务系统持续稳定运行。数据 中心是业务系统的总后方,科技部领导也应重视数据中心运维管理,为数据 中心运维提供动能和驱动力。除了要重视运维,管理层也应该为数据中心运维提供切实可行的
12、指导 思想,主要表现在以下五个方面:一是标准化,要求完善制度制定和修订, 一切工作按制度执行,有章可循,在操作上严格要求规范化、标准化。二是 自动化,进一步提高监控、配置、作业调度等工具使用,提升运维自动化水 平,降低人员操作失误率和风险。三是集约化,深入推进“大运行”,并统 筹考虑数据中心运维一体化管理工作。四是自主化,加强人员培养和岗位技 能考核,对关键系统、关键岗位逐步实现自主运维。五是精细化,在运维工 作的各个方面,不断量化,力求用数字说话,加大量化考核力度。3. 2战术层面一一做合规的事以战略规划为指导思想,战术层面需做到数据中心即应用,在转型过程 中逐步将数据中心运维流程合理合规化
13、,实行运维的“全生命周期”管理, 实现运维体系自身的价值。主要表现为:一是提质,数据中心制定服务化, 标准化的运维流程,主动性预测预防,最小化的应用中断,减少系统故障率, 提升业务系统的用户体验度。二是增收,构建应用差异化计费体系,体现运 维体系管道能力,加快商业变现增加收益。三是增效,通过自动化设计提升 运维效率、集约化设计提升数据中心整体资源利用率和复用率,增加CPU算 力负载和网络负载效率。四是降本,机器不是来取代人,而是将宝贵的人力 成本投入到高价值领域,通过自主化运维提升人员素质,加速人才转型,降 低综合成本。3. 3实操层面一一正确地做事运维过程中出现的问题中,人为操作问题和流程设
14、计问题各占40%,技 术问题占20%。因此,在实操层面,如何正确地做事,需要从运维人员、运 维流程和运维技术三方面进行讨论。3. 3.1运维人员运维人员包括行内运维人员和运维外包人员,人员组织架构是核心,并 且不断动态调整。从依赖厂商到自主可控,从标准化到脚本化,从半自动化 到自动化,不管如何调整,最终方向都是要培养自己的运维力量,做到自主 运维。具体需要做到分工明确、权责分明、及时响应。运维人员要有责任, 有担当,提高自身技术能力,不过分依赖外包,不惹事,也不怕事。3. 3.2运维流程首先,运维工作中的每一个步骤都要有流程、有审批、可监控、可追溯, 与工作相关的流程和规定,一定要经常地,反复
15、地修订、调整,牢记于心; 其次,充分利用流程,理清岗位职责的边界,完善标准化流程,对部门能提 供的变更能力做严格的梳理;最后,一定要严格遵守流程,流程正确+结果 正确才是正确,流程错误+结果正确仍然是错误,是态度问题;流程正确+结 果错误是可以原谅的,最多算能力问题。要建立流程来应对“没有流程”的 场景,并且严格遵守。3. 3.3运维技术运维技术就是运维工具,是各个厂家最热衷于讨论的主题,正如笔者前 面所提,运维技术稍逊于运维人员和运维流程,在运维管理中处于比较重要 的地位。良好的技术手段可以集成现有的分散流程,使得人员工作更加高效、 更易于培训和控制,还可以减少手工重复性操作的成本,提升对操
16、作的控制 性。各厂家五花八门的运维技术归结到一点,就是通过统一管理实现数据 中心工具(技术)、流程和制度间创新性融合,构建统一的运维管理技术平 台,完成设备选型、规划、上架、故障处置、变更、调优、回收全生命周期 管理,从人防到技防,从粗放式运维到精细化运维。四、小结综上所述,中小型城商行要实现运维转型,为各业务系统提供强有力的 基础支撑,首先要成立统一运维组织,制定统一运维组织架构和调度体系, 实现运维团队统一、有序;其次制定统一的运维制度和流程,确定运维操作 安全可控;再次是搭建统一运维管理技术平台,对接其他管理工具,实现数 据中心全生命周期管理;最后就能形成统一的对外服务水平,面向业务部门 交付合格的“科技服务产品”,保证科技服务质量,达到科技赋能业务发展 的最终目标。