资源描述
金税工程(三期)容灾方案建设思路
根据金税工程(三期)的项目建设要求,各信息系统的数据将逐步集中到省级处理平台,其核心应用也将逐步上收到省级处理平台和总局处理平台。目前,国家税务总局以及各省国、地税务部门现有业务严重依赖信息系统,其新业务的开展也离不开信息系统的支持,大量重要的税务数据通过信息系统的网络和主机应用进行传输和处理。一旦这些机房因为电力、水灾、火灾等因素而无法正常运作,如果没有异地灾备中心提供服务,则将会直接影响到业务系统的正常运行,其影响面也将直接波及到全省乃至全国。
作为金税工程(三期)的一个重要组成部分,灾备系统的建设本身是一个大的系统工程,它的建设必须要考虑业务需求、组织架构、流程分析、技术手段、外部环境等诸多因素。而且由于税务系统数据与应用的灾备需求的复杂性和难度,这就需要制定出一套完善的方案。在灾备项目设计、实施过程中各相关机构和人员严格遵循该方案执行,才能最大程度规避风险,保证灾备项目的成功实施。
一、灾难恢复等级划分
根据国务院信息化工作办公室于2005年4月下发的《重要信息系统灾难恢复指南》中的定义,灾难恢复等级可以划分为6个不同的等级,根据不同的灾难恢复需求确定灾难恢复等级,不同的灾难恢复等级,其解决方案可根据灾难恢复登记以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据金税工程(三期)各业务的系统及数据的重要性以及恢复策略,来设计选择灾难恢复方案和计划。根据《重要信息系统灾难恢复指南》的定义,灾难恢复级别的选择,主要决定以下七个要素:
² 数据备份系统
² 备用数据处理系统
² 备用网络系统
² 备用基础设施
² 技术支持
² 运营维护管理
² 灾难恢复预案
国信办在《重要信息系统灾难恢复指南》中定义的灾难恢复等级划分标准,具体内容如下:
A.1 第1级 基本支持
第一级灾难恢复应具有技术和管理支持如表A.1所示。
表 A. 1 第1级灾难恢复的技术和管理支持
要素
要求
A.1.1
数据备份系统
a) 完全数据备份至少每周一次;
b) 备份介质场外存放。
A.1.2
备用数据处理系统
—
A.1.3
备用网络系统
—
A.1.4
备用基础设施
a) 有符合介质存放条件的场地。
A.1.5
技术支持
—
A.1.6
运行维护支持
a) 有介质存取、验证和转储管理制度;
b) 按介质特性对备份数据进行定期的有效性验证。
A.1.7
灾难恢复预案
有相应的经过完整测试和演练的灾难恢复预案
A.2 第2级 备用场地支持
第二级灾难恢复应具有技术和管理支持如表A.2所示。
表 A. 2 第2级灾难恢复的技术和管理支持
要素
要求
A.2.1
数据备份系统
a) 完全数据备份至少每周一次;
b) 备份介质场外存放。
A.2.2
备用数据处理系统
a) 灾难发生时能在预定时间内调配所需的数据处理设备到场。
A.2.3
备用网络系统
a) 灾难发生时能在预定时间内调配所需的通信线路和网络设备到位。
A.2.4
备用基础设施
a) 有符合介质存放条件的场地;
b) 有满足信息系统和关键业务功能恢复运作要求的备用场地。
A.2.5
技术支持
—
A.2.6
运行维护支持
a) 有介质存取、验证和转储管理制度;
b) 按介质特性对备份数据进行定期的有效性验证;
c) 有备用场地管理制度;
d) 与相关厂商有符合灾难恢复时间要求的紧急供货协议;
e) 与相关运营商有符合灾难恢复时间要求的备用通信线路协议。
A.2.7
灾难恢复预案
a) 有相应的经过完整测试和演练的灾难恢复预案。
A.3 第3级 电子传输和部分设备支持
第三级灾难恢复应具有技术和管理支持如表A.3所示。
表 A. 3 第3级灾难恢复的技术和管理支持
要素
要求
A.3.1
数据备份系统
a) 完全数据备份至少每天一次;
b) 备份介质场外存放;
c) 每天多次利用通信网络将关键数据定时批量传送至备用场地。
A.3.2
备用数据处理系统
a) 配备灾难恢复所需的部分数据处理设备。
A.3.3
备用网络系统
a) 配备部分通信线路和相应的网络设备。
A.3.4
备用基础设施
a) 有符合介质存放条件的场地;
b) 有满足信息系统和关键业务功能恢复运作要求的场地。
A.3.5
技术支持
a) 在备用场地有专职的计算机机房运行管理人员。
A.3.6
运行维护支持
a) 按介质特性对备份数据进行定期的有效性验证;
b) 有介质存取、验证和转储管理制度;
c) 有备用计算机机房管理制度;
d) 有备用数据处理设备硬件维护管理制度;
e) 有电子传输数据备份系统运行管理制度。
A.3.7
灾难恢复预案
有相应的经过完整测试和演练的灾难恢复预案。
A.4 第4级 电子传输及完整设备支持
第四级灾难恢复应具有技术和管理支持如表A.4所示。
表 A. 4 第4级灾难恢复的技术和管理支持
要素
要求
A.4.1
数据备份系统
a) 完全数据备份至少每天一次;
b) 备份介质场外存放;
c) 每天多次利用通信网络将关键数据定时批量传送至备用场地。
A.4.2
备用数据处理系统
a) 配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态。
A.4.3
备用网络系统
a) 配备灾难恢复所需的通信线路;
b) 配备灾难恢复所需的网络设备,并处于就绪状态。
A.4.4
备用基础设施
a) 有符合介质存放条件的备用场地;
b) 有符合备用数据处理系统和备用网络设备运行要求的场地;
c) 有满足关键业务功能恢复运作要求的场地;
d) 以上场地应保持7 x 24运作。
A.4.5
技术支持
在备用场地有:
a) 7 x 24专职计算机机房管理人员;
b) 专职数据备份技术支持人员;
c) 专职硬件、网络技术支持人员。
A.4.6
运行维护支持
a) 有介质存取、验证和转储管理制度;
b) 按介质特性对备份数据进行定期的有效性验证;
c) 有备用计算机机房运行管理制度;
d) 有硬件和网络运行管理制度;
e) 有电子传输数据备份系统运行管理制度。
A.4.7
灾难恢复预案
有相应的经过完整测试和演练的灾难恢复预案。
A.5 第5级 实时数据传输及完整设备支持
第五级灾难恢复应具有技术和管理支持如表A.5所示。
表 A. 5 第5级灾难恢复的技术和管理支持
要素
要求
A.5.1
数据备份系统
a) 完全数据备份至少每天一次;
b) 备份介质场外存放;
c) 采用远程数据复制技术,并利用通信网络将关键数据实时复制到备份场地。
A.5.2
备用数据处理系统
a) 配备灾难恢复所需的全部数据处理设备,并处于就绪或运行状态。
A.5.3
备用网络系统
a) 配备灾难恢复所需的通信线路;
b) 配备灾难恢复所需的网络设备,并处于就绪状态;
c) 具备通信网络自动或集中切换能力。
A.5.4
备用基础设施
a) 有符合介质存放条件的备用场地;
b) 有符合备用数据处理系统和备用网络设备运行要求的场地;
c) 有满足关键业务功能恢复运作要求的场地;
a) 以上场地应保持7 x 24运作。
A.5.5
技术支持
在备用场地有:
a) 7 x 24专职计算机机房管理人员;
b) 7 x 24专职数据备份技术支持人员;
c) 7 x 24专职硬件、网络技术支持人员。
A.5.6
运行维护支持
a) 有介质存取、验证和转储管理制度;
b) 按介质特性对备份数据进行定期的有效性验证;
c) 有备用计算机机房运行管理制度;
d) 有硬件和网络运行管理制度;
e) 有实时数据备份系统运行管理制度。
A.5.7
灾难恢复预案
有相应的经过完整测试和演练的灾难恢复预案。
A.6 第6级 数据零丢失和远程集群支持
第六级灾难恢复应具有技术和管理支持如表A.6所示。
表 A. 6 第6级灾难恢复的技术和管理支持
要素
要求
A.6.1
数据备份系统
a) 完全数据备份至少每天一次;
b) 备份介质场外存放;
c) 远程实时备份,实现数据零丢失。
A.6.2
备用数据处理系统
a) 备用数据处理系统具备与生产数据处理系统一致的处理能力并完全兼容;
b) 应用软件是“集群的”,可实时无缝切换;
c) 具备远程集群系统的实时监控和自动切换能力。
A.6.3
备用网络系统
a) 配备与生产系统相同等级的通信线路和网络设备;
b) 备用网络处于运行状态;
c) 最终用户可通过网络同时接入主、备中心。
A.6.4
备用基础设施
a) 有符合介质存放条件的备用场地;
b) 有符合备用数据处理系统和备用网络设备运行要求的场地;
c) 有满足关键业务功能恢复运作要求的场地;
d) 以上场地应保持7 x 24运作。
A.6.5
技术支持
在备用场地有:
a) 7 x 24专职计算机机房管理人员;
b) 7 x 24专职数据备份技术支持人员;
c) 7 x 24专职硬件、网络技术支持人员;
d) 7 x 24专职操作系统、数据库和应用软件技术支持人员。
A.6.6
运行维护支持
a) 有介质存取、验证和转储管理制度;
b) 按介质特性对备份数据进行定期的有效性验证;
c) 有备用计算机机房运行管理制度;
d) 有硬件和网络运行管理制度;
e) 有实时数据备份系统运行管理制度;
f) 有操作系统、数据库和应用软件运行管理制度。
A.6.7
灾难恢复预案
有相应的经过完整测试和演练的灾难恢复预案。
A.7 灾难恢复等级评定原则
如要达到某个灾难恢复等级,应同时满足该等级中7个要素的要求。
A.8 容灾中心的等级
容灾中心的等级等于其可以支持的灾难恢复最高等级。
示例:可支持1至5级的灾难备份中心的级别为5级。
二、灾备项目建设流程
随着信息化技术的发展,灾备项目建设目标已经从对灾难的预防向保证业务连续性转变,如何能保证各项业务在灾难发生后连续运行成为灾备项目建设围绕的核心。参照业务连续性的十个最佳实践,一个完整的灾备项目建设应包括以下几个阶段
1、项目启动和管理
确定业务持续计划(BCP)实施过程的相关需求,包括获得管理支持、以及组织和管理项目使其符合时间和预算的限制要求。
2、风险评估和控制
确定可能造成机构及其设施中断的灾难、具有负面影响的事件和周边环境因素,以及事件可能造成的损失、防止或减少潜在损失影响的控制措施,提供成本效益分析以调整控制措施方面的投资,达到消减风险的目的。同时,由于风险会随着系统的发展而变化,所以风险管理过程也必须是动态的。
3、业务影响分析
确定由于中断和预期灾难可能对机构造成的影响,以及用来定量和定性分析这种影响的技术。确定关键功能、恢复优先顺序和相关性以便确定恢复时间。
4、制定业务连续性策略
确定和指导备用业务恢复运行策略的选择,以便在恢复时间目标范围内恢复业务和信息技术,并维持机构的关键功能。
5、 应急响应和运作
制定和实施用于事件响应以及对事件所引起状况进行稳定的规程,包括建立和管理紧急事件运作中心,该中心用于在紧急事件中发布命令。
6、设计、制定和实施业务连续性计划
设计、制定和实施业务连续性计划,以便在恢复时间目标范围内完成恢复。
7、知识培养和培训项目
准备建立对机构人员进行意识培养和技能培训的项目,以便业务连续性计划能够得到制定、实施、维护和执行。
8、维护和演练业务连续性计划
对预先计划和计划间的协调性进行演练、并评估和记录计划演练的结果。制定维持连续性能力和BCP 文档更新状态的方法,使其与机构的策略方向保持一致。通过与适当标准的比较来验证BCP 的效率,并使用简明的语言报告验证的结果。
9、公共关系和危机通信
制定、协调、评价和演练在危机情况下与媒体交流的计划;制定、协调、评价和演练与员工及其家庭、主要客户、关键供应商、业主/股东以及机构管理层进行沟通和在必要情况下提供心理辅导的计划,确保所有利益群体能够得到所需的信息。
10、与监管和公共当局的协调
建立适用的规程和策略,用于同监管部门和公共部门协调与沟通,以确保符合现行的法令和法规。
以上是一个通用型流程,在实际应用中,根据金税工程(三期)税务应用的需求和特点,结合金税工程(三期)业务连续性建设的实际需求,我们可以简化并适当改变上述标准流程。可以依据下列容灾规划步骤:
1. 灾难类型分析(风险分析)
2. 业务影响分析
3. 容灾策略制订
4. 容灾方案设计
5. 容灾设施资源及容灾IT系统建设
6. 业务连续性计划&灾难恢复计划制定与维护
7. 容灾系统运营管理维护
8. 演练及测试
每一个步骤的相关职责一般会落在“计划协调人”或“应急计划制订人”的身上,他们通常是相关部门领导。协调人在其他相关系统或业务处理部门的协助下制定应急策略;应急计划协调人通常管理应急计划的制定和执行。
其过程如下图所示,是一个周而复始的过程,随着内部环境的变化随时灵活变化:
图1:灾难备份项目实施过程
以下将针对这几个阶段作一些详细的介绍。
阶段一、灾难类型分析(风险分析)
风险分析 (Risk Analysis)是针对国家税务总局总局数据中心和各省国、地税局数据中心进行。
根据国际灾难备份行业规范,任何准备建设灾难备份系统的机构,首先应该对自身的工作现状、风险以及随之所遭受的业务影响有清醒认知,并应尽可能多地考虑到所有可能的风险情况,并同时兼顾两个方面--预防和控制。这就需要对机构的物理环境进行调查研究,并进行相应的风险分析 。
在本阶段,需要进行详细而量化的风险分析,通过识别可能发生的危险事件,分析危险的脆弱性,即危险事件发生的可能性,评估危险对总局以及各省国、地税局资产所造成的损失。
图2:风险分析流程图
上图展示了风险分析的流程。首先是识别确认潜在的危险,这些危险的来源可能是:
² 各种区域性的天然灾难,如洪水、地震、疫病等;
² 人为事故或蓄意破坏造成的严重灾难,如火灾、恐怖主义袭击等;
² 安全威胁、硬件、网络或通信故障;
² 灾难性的应用系统错误。
所有的危险都应纳入风险评估范围,并且应对各种危险的可能来源地进行较准确的定位。对于每一种危险的来源都应该认识到:
² 危险的类型;
² 危险的程度;
² 危险发生的可能性。
如果按照危险的破环类型或程度来分,它们对业务的影响可以分为:
² 经营场所及设备完全破环;
² 经营场所及设备部分破环;
² 经营场所及设备完好,但人员不能进入,比如疫病的隔离、恐怖威胁造成的人员疏散等。
风险分析的最后结果应该是一份有关风险效益分析的详细陈述报告,要有对危险的精确描述、哪些危险可能发生,以及需要采取的保障业务连续性和减少损失的措施。这份报告还应该描述清楚任何现有的前提或者限制因素。
阶段二、业务影响分析
业务影响分析 (Business Impact Analysis)是对金税工程(三期)关键性的业务功能、以及当这些功能一旦失去作用时可能造成的损失和影响的分析。包括:
业务功能影响分析
² 哪种业务功能对于金税工程(三期)的整体战略而言是生死攸关的
² 该功能在多长时间内失效不会造成影响和损失
² 金税工程(三期)的其他业务功能由于该功能的失效会受到何种影响--运营影响分析
² 该功能的失效可能造成的税收收入影响--财务影响分析
² 该功能是否会对社会关系造成影响—纳税人信心的损失,社会稳定的影响
² 什么是最大的/可承受的/可允许的失效
业务功能的恢复条件(即灾难恢复资源资源分析,又称Pro)
² 要使该功能连续,需要哪些资源和数据纪录
² 最少的资源需求是什么
² 哪些资源可能来自税务系统外部
² 它与金税工程(三期)其他功能的依赖关系以及依赖程度
² 金税工程(三期)的其他功能与该功能的依赖关系以及依赖程度
² 该功能与税务系统的外部业务/供应商/其他厂商的依赖关系以及依赖程度
² 在缺少试验环境的情况下进行恢复,需采取怎样的预防措施或检验手段
业务功能分类
² 关键功能--如果这类功能被中断或失效,就会彻底危及金税工程(三期)的业务并造成严重损失。
² 基础功能--这些功能一旦失效将会严重影响税务系统长期运营的能力。
² 必要功能—税务系统可以继续运营,但这些功能的失效会在很大程度上限制税收业务的效率。
² 有利功能--这些功能对税务系统是有利的;但它们的缺失不会影响税务系统的运营能力。
在本阶段,应该针对各种业务流程进行分析,通过走访各业务部门的相关人员,了解各种业务流程本身对税收业务的重要程度,同时根据定性和定量的分析方法,分析了解每一类业务的恢复需求:所需的恢复时间、最大允许的数据丢失量、运行所需的IT环境以及对其它应用程序或数据依赖程度等等。
具体体现在IT系统上,是三个指标:
² 数据恢复点目标(RECOVERY POINT OBJECTIVE):体现为该流程在灾难发生后,恢复运转时数据丢失的可容忍程度,即恢复到哪一个时间点;
² 恢复时间目标(RECOVERY TIME OBJECTIE):体现为该流程在灾难发生后,需要恢复的紧迫性也即多久能够得到恢复的问题;
² 网络恢复目标(NETWORK RECOVERY OBJECTIVE):即业务网点什么时候才能通过备份网络与数据中心重新恢复通信的指标;
这三个指标直接影响所使用的容灾策略及技术方案,并指导容灾系统的投入成本。可以用下图表示:
图3. 业务影响分析曲线
在该图中,横坐标为灾难持续时间,纵坐标为灾难损失,在某一程度以下属于可接受的程度,即横虚线所示。对于不同的业务流程,这三个指标可能相差非常之大,各个流程本身对这三个目标的优先程度也是不一样的,有的流程可能要求数据丢失的程度较小,但恢复时间可以较长,而另一些流程可能要求短时间内恢复,但数据的丢失程度可以放大一些。这种可接受决策应该由负责该流程的业务部门综合考虑后做出。
阶段三、容灾策略制订
在本阶段,结合以上各阶段的分析成果,以及在容灾上的投入能力,制订税务系统短期、长期范围内的容灾策略和目标,并有意识地将本身的人员组成和组织架构做出调整以适应策略要求。最重要的是制订出容灾实施步骤,优先解决最为重点的问题。如下图所示:
图4. 容灾策略制订
阶段四、容灾技术方案设计
容灾方案可供选择的范围很大,但所有的容灾方案都必须考虑的因素包括恢复时间、实施与维护容灾策略所需的投入等。容灾恢复时间的需求越短,所需的实施成本就越大,实施难度也就越高。恢复时间与投入的比值可以用以下这张曲线图加以说明:
图5. 容灾方案选择
图中的各种层次方案可以分别满足不同的数据恢复目标和恢复时间目标,需要根据业务影响分析的结果,针对每一种业务流程,综合选择能够满足容灾目标的方案。
阶段五、容灾设施资源及容灾IT系统建设
容灾中心的设施资源及容灾IT系统建设也是保证金税工程(三期)容灾系统正常运转的重要环节。容灾设施资源及容灾IT系统建设的基础性和重要性可以通过下图来表示:
图6:容灾备份体系建设阶段
在本阶段,需要对金税工程(三期)容灾中心的设施资源进行详细的规划和设计,容灾中心的建筑工程、中心环境(外部与内部)、机房结构、物理安全、交通流向组织、电力供应与保障等环节都要按照容灾的实际需求进行科学的分析,最终达到金税工程(三期)容灾的实际要求。
在容灾设施资源建设过程中,我们要充分考虑到:
² 容灾中心基础设施建设
² 容灾中心IT恢复场地建设
² 容灾中心IT恢复资源建设
² 业务恢复场地建设
² 业务恢复资源建设。
阶段六、业务连续性计划及灾难恢复计划制定与维护
有了信息系统的恢复方案,只能够保证在灾难环境下,信息系统的恢复能够保证业务影响分析的目标,但是业务的连续性并不只是信息系统的恢复,还包括办公场地、办公设备、紧急流程、指挥架构、人员调度等等多方面、各部门的综合考虑。只有业务流程执行过程的每一个环节都达到容灾目标的要求,才能够认为业务影响分析的目标得到了满足。
制定业务连续性计划和灾难恢复计划的具体内容可以通过下图来表示:
图7:灾难恢复规划(DRP) vs 业务连续性规划(BCP)
一般来说,应该设立一个由领导挂帅,各业务部门和信息部门联合组成的一个容灾组织工作体系,具体包括:指挥领导小组、容灾工作小组、业务恢复小组、IT恢复小组、运营管理团队、后勤及人力资源保障等等。
图8. 容灾组织架构图
由领导小组指挥,业务恢复团队和业务恢复团队分别执行应急响应计划、灾难恢复计划、业务恢复计划,运营管理团队负责容灾系统的运营管理和日常维护、问题收集和解决、系统变更和测试演练等工作,后勤保障和人力资源保障提供支持,从而达到容灾设计的目标。
阶段七、容灾系统运行管理维护
在本阶段,容灾系统运行管理维护主要分为日常运行阶段、应急和恢复阶段及接替生产运营服务阶段
图9:容灾系统运营管理阶段划分
参照国际IT服务管理最佳实践ITIL的标准(具体内容见下图),金税工程(三期)容灾系统的运行管理应满足三大要求:
² 高度响应要求。
高响应要求是金税工程(三期)容灾系统运营管理的重中之重,也是对金税工程(三期)容灾系统灾难恢复系统运营管理队伍的最直接考验,其关注的是提供支持的及时性与工作导向。当宣告灾难恢复后,只有高响应度的容灾系统,才能够按既定的操作流程在第一时间为发生灾难的国地税数据中心进行应急与切换工作,并根据发生灾难的国地税数据中心的特殊要求提出合理的解决方案并接替生产运营,尽最大可能减轻灾难事件造成的影响。
² 高度可靠性要求
高度可靠性要求是金税工程(三期)容灾系统的基本保障,从管理手段和操作流程上保证响应度与可用性的落地。具体体现在对现有人员、资源与技术在执行层面上的标准化、制度化、规范化,才能在不可预测的灾难事件发生时,容灾灾备系统能够真正意义地起到灾难恢复、业务连续的保障作用。
² 高度可用性要求
高度可用性要求是运营管理体系的基础,从容灾中心资源、业务正常处理流程与人员的支持上为应急响应、系统切换与接替生产运行的服务工作奠定基础。
图10: 容灾系统运营管理体系
阶段八、演练、测试
任何制订的计划,都必须经过不断的测试和修正,才能满足信息系统不断发展的需求。同时,通过测试过程,也能够使内部各部门及人员熟悉自己在业务连续性计划中所扮演的角色,做到胸有成竹,才能够在灾难真正发生的时刻有条不紊地开展恢复的过程。
测试的过程可以分为“纸上谈兵”和实地演习两种方式,根据需要及对业务影响的不同分别采用。
需要注意的是,无论平时的测试如何完善,也没有办法预测可能发生的灾难情况。关键人员的损失或者关键文档的丢失,都有可能对灾难恢复计划的执行造成巨大影响。因此,在灾难演练过程中要注意到人员的交叉备份情况,除了每个人自己所担负的责任外,尽量做到关键步骤有后备人选作为应变。
三、 容灾项目各阶段主要工作内容
容灾项目建设是一个系统工程,包含一系列的工作及计划的制订,包括业务连续性计划、业务恢复计划BRP,应急响应计划、灾难恢复计划(DRP)等内容。
相比于其它机构和领域,信息系统更容易受到各种灾难的伤害而导致中断,特别是在许多情况下,关键资源可能属于不可控范围(如电力系统中断和通讯系统中断),于是有效的灾难恢复计划、履行计划和对计划进行有效地测试对于削减系统风险与各种服务的不可用性就显得非常重要了。为了保证业务连续性计划和灾难恢复计划的成功执行,容灾体系的管理者应该做到以下几点:
1. 理解灾难恢复计划和业务连续性计划的全部过程及其在整个运行连续性计划和业务连续性计划过程中的地位。
2. 制定或复查其应急策略及计划过程并运用计划周期要素,包括预备计划、业务影响分析和容灾恢复策略等。
3. 制定和复查其灾难恢复计划策略,重点在于计划的维护、培训以及对应急计划的演练。
灾难恢复计划描述
灾难恢复预案 (Disaster Recovery Plan),是指当灾难发生时,迅速采取措施,确保关键业务系统能够持续进行,尽量减少企业的业务损失的计划或框架。灾难恢复测试和演练将以灾难恢复预案为基础进行。
灾难恢复预案需具有清晰的结构和详细的行动步骤,包括所需行动的检查表、角色的解释和资源的定义等。不同职责的人员都有其说明各自的行动步骤的灾难恢复预案文档,所有的灾难恢复预案的统一执行,将保证金税工程(三期)税收业务运行恢复正常,帮助各税务部门达到其业务连续运作的目标。
灾难恢复计划阶段描述
分析评估
评估金税工程(三期)容灾系统的恢复目标、实现方案、系统架构、行动计划和操作流程等资料,建立相应的预案模板,确定哪些是目前金税工程(三期)所缺少的流程,哪些流程文档需要整合。
制订灾难恢复预案概述
根据对金税工程(三期)容灾系统的分析,确定灾难恢复预案的框架,并开始准备灾难恢复预案的概述部分内容。概述是对灾难恢复预案的目标、范围、前提假设及组织职责等策略性的说明。包括:
² 目的:说明制定计划的目的。还应该说明划分几个阶段时,每个阶段所要实现的目标是什么。
² 指标和范围: 定义灾难恢复的目标,如恢复时间目标(RTO)和恢复点目标(RPO),以及其他性能指标等。说明预案的作用范围,解决哪些问题,不解决哪些问题。说明有哪些部门和运营业务需要实施灾难恢复预案。
² 必备条件/前提条件和限制因素:形成一份灾难恢复预案的前提条件需要在此说明。在某些情况下,还须说明灾难会后规划成功的必备条件。
² 组织和职责:灾难恢复团队的组织/负责人选、下属哪些分支团队、团队的作用和责任等,都必须在此说明。
制定灾难应急响应计划
² 制订金税工程(三期)灾难应急响应计划。
灾难应急响应计划的内容包括对预警及通知流程、应急处理流程、损失评估、灾难宣告以及联络通讯清单等等。
n 预警及通知流程:任何人员在发现紧急事件时,应立即执行灾难预警及通知流程,对事件进行通告,为减少损失赢得时间。通知流程中应包含通讯联络清单。
n 应急处理流程:在接到灾难预警和通知后,执行相关应急处理流程对各种紧急事件的进行响应处理。在实施过程中应将国税总局和各省国地税局原有紧急事件响应流程与转换为灾难恢复预案的规程。
n 损害评估:确定在灾难发生后,由损害评估人员确定事态的严重程度。由灾难恢复责任人召集相应的专业人员对灾难事件进行慎重评估,确认灾难事件对信息系统造成的影响程度,确定下一步将要采取的行动。
n 灾难宣告:应预先制定灾难恢复预案启动的条件。当损害评估的结果达到一项或多项启动条件时,将正式发出灾难宣告,宣布启动灾难恢复预案,并根据宣告流程通知各有关部门。
n 联络清单:列出灾难恢复相关人员和组织的联络表。联络方式包括固定电话、移动电话、对讲机、电子邮件和住址等。
² 人员疏散计划
制定灾难恢复预案
² 灾难恢复
一旦决定灾难切换,则进入灾难恢复流程。灾难恢复预案的内容是对灾难恢复的程序进行说明和描述。
在原有操作文档的基础上整理灾难恢复流程和操作手册。按照灾难恢复的目标要求和业务恢复先后顺序,明确相应的团队/责任人以及具体任务,在灾难备份中心恢复支持关键业务功能的数据、数据处理系统和网络系统。
灾难恢复预案的大部分文档是采用操作手册方式,由一系列简单明确的指令构成,恢复团队完全可以按照这些指令进行恢复操作。计划中需要描述时间、地点、人员、设备和每一步的详细操作步骤,同时还包括特定情况发生时各团队之间进行协调的指令。
² 重续运行
重续运行是指灾难备份中心的系统替代生产系统,支持关键业务功能的提供。这一阶段包含生产系统运行管理所涉及的主要工作,包含重续运行的所有操作流程和规章制度。对于灾难恢复预案团队中的各个小组需要指定各自应该采取的行动及每个小组要完成指定的任务。
有关业务重续运行的决策过程、需要采取什么行动,以及重续运行哪些业务到何种程度等等,也需要在此加以说明。
² 制订灾后回退计划
灾后回退计划包括对生产系统的重建,中止灾难备份系统的运行,将系统回退到原生产系统。回退计划将确定回退的策略,以及相关团队/负责人的角色责任和大的阶段计划。由于重建工作视灾难情况会有很大区别,因此回退计划中不涉及具体的操作流程。
² 灾难恢复预案维护管理
对于金税工程(三期)灾难恢复预案,制订其维护管理流程,包括如何对计划文档进行保存与分发;以及制订测试演练、维护变更的要求以保持灾难恢复预案的持续有效等。
² 保存与分发
经过审核和批准的灾难恢复预案,应设定专人负责保存与分发;具有多份拷贝在不同的地点保存,如生产中心和备份中心;在每次更新修订后所有拷贝统一更新。
² 维护和变更管理
为了保证灾难恢复预案的有效性,需要建立周期性进行维护变更管理流程,包括:
建立灾难恢复预案的定期演练和评审和修订制度。
结合备份中心变更管理制度,确保业务流程的变化、信息系统的变更、人员的变更都应在灾难恢复预案中及时反映;
容灾项目各阶段工作内容及工作成果
在金税工程(三期)容灾项目建设过程中,不同的阶段所涉及的具体内容和结果如下表所示:
阶段描述
工作成果
描述
风险分析阶段
《风险分析报告》
对国家税务总局和各省国地税局数据中心风险分析的概要,结论以及建议。报告还包括每一次调查及会见的记录和搜集资料的汇总。
风险分析报告主要内容包括:
§ 确定数据中心可能面对的危险
§ 评估各种危险发生的可能性
§ 评估危险真正发生时所造成的损失
§ 分析数据中心的风险
§ 评估对风险采用控制措施
§ 对可采用的风险控制措施提出建议
业务影响分析阶段
《业务影响分析报告概述》
对金税工程(三期)的业务影响分析的概要,结论以及建议。报告还包括每一次调查及会见的记录和搜集资料的汇总。
《业务影响分析报告》
业务影响分析报告主要内容包括:
§ 业务功能可接受的中断时间分析
§ 确定关键的业务功能,确定各个业务功能的依赖关系
§ 确定各个业务系统的恢复时间目标
§ 业务功能恢复优先顺序以及恢复要求
§ IT应用系统恢复优先顺序以及恢复要求
§ 灾难恢复资源分析
灾难恢复需求和灾难恢复方案的建议
容灾策略制订阶段
《容灾策略报告》
根据前期风险分析和业务影响分析的结果,制定金税工程(三期)容灾策略,包括各业务系统的IT恢复时间、业务恢复时间、以及各业务系统短期、中期、长期恢复目标策略。
容灾技术方案设计阶段
《容灾技术方案书》
根据容灾策略,结合前期风险分析和业务影响分析的结果,制定金税工程(三期)支持各业务系统的IT系统的容灾方案,描述方案指标,包括:RTO、RPO、NRO等等,并根据该指标制定:
《数据容灾技术方案书》
《处理能力容灾技术方案书》
《网络容灾技术方案书》
容灾设施资源及容灾IT系统建设阶段
《容灾中心建设报告》
在《容灾中心建设报告》中,主要包括建筑工程、中心外部与内部环境、机房结构、物理安全、交通流向组织、电力供应与保障等内容,该报告具体又分为以下几个部分:
《容灾中心基础设施建设报告》
《容灾中心IT恢复场地建设报告》
《容灾中心IT恢复资源建设报告》
《容灾中心业务恢复场地建设报告》
《容灾中心业务恢复资源建设报告》
灾难恢复计划制定
《灾难恢复预案概要说明》
制订灾难恢复预案概要说明,包括:
目的、范围及恢复目标参数
灾难恢复前提假设、必备条件
灾难恢复组织架构及职责分工
《应急响应计划》
制订应急响应计划:
灾难预警及通知流程
应急响应流程、损害评估
灾难宣告流程
联络与通讯清单、人员疏散计划
《灾难恢复计划》
建立灾难恢复计划文档,主要包括:
§ 信息系统灾难恢复规程
§ 信息系统灾难恢复操作手册
主机系统切换操作手册
外围设备切换操作手册
网络系统切换操作手册
应用系统恢复操作手册等
§ 业务系统灾难恢复流程
各业务系统灾难恢复操作手册
税收网点业务恢复操作手册
§ 业务追补流程
§ 资源清单—IT系统基准配置(以下配置清单含生产系统和备份系统两套)
主机系统配置、磁盘系统配置
网络系统配置、外围系统配置
§ 服务商服务级别协议和备忘录
《重续运行计划》
§ 业务系统日常操作规程
§ 应用操作规程
§ 通信网络监控操作规程
§ 设备系统维护操作手册
磁盘系统维护操作手册
主机系统维护操作手册
通信网络维护操作手册
§ 业务系统生产运行故障处理手册
《灾后回退计划》
建立灾后回退计划文档:
§ 重建计划
§ 回退计划
《灾难恢复预案的维护管理》
建立灾难恢复预案的维护管理流程:
§ 灾难恢复预案的保存和分发办法
灾难恢复预案维护管理制度
容灾系统运行管理维护
《容灾中心运行管理制度》
建立金税工程(三期)容灾中心运行管理制度,主要包括:
《日常操作管理制度》
《中心安全管理制度》
《问题管理手册》
《变更管理手册》
《配置管理手册》等等
演练与测试阶段
逻辑验证
§ 提供桌面测试报告模板
§ 子系统验证报告模板
演练准备
建立一套完整的演练文档模版,进行演练准备工作,包括:
§ 演练策略方针
§ 演练实施方案
§ 演练的工作计划模板
§ 演练记录模板
演练准备
§ 参与演练前工作会议
§ 演练参与人员提供培训
演练实施
进行的灾难恢复演练,包括:
§ 演练环境检查审核工作
§ 演练实施过程现场审核
演练审核评估
对演练进行审核和评估,包括:
§ 对演练结果的评估和总结报告
§ 对灾难恢复预案文档的审核修订
§ 对运营管理流程等文档的审核修订
展开阅读全文