1、 银行分行机房基础设施应急预案银行分行机房基础设施应急预案r 文档属性属性内容u 用户名称:u 银行u 文档标题:u 银行分行机房基础设施应急预案er1.0u 文档编号:uu 版本日期:u 2017-3u 制度版本:u er1.0u 适用范围:u 银行分行租用的黑龙江移动的IDC机房u 作者:u 银行分行信息技术部r 文档审批审批人职务审批时间审批意见发文编号uuuuuuuuuur 修订内容版本修正章节日期修正人变更记录u Ver1.0u 全文u 2017.3u 武恒uuuuuuuuuuu目 录第1章.总则11.1.目的11.2.编制依据11.3.适用范围1第2章.应急组织架构22.1.应急组
2、织架构图22.2.组织人员及职责2第3章.机房基础设施突发情况分级及常见场景描述53.1.机房基础设施突发情况定义53.2.机房基础设施突发情况分级53.3.机房基础设施突发情况升级63.4.机房基础设施突发情况常见场景描述6第4章.机房现场处置流程114.1.机房现场处置与恢复操作流程图114.2.机房现场处置流程描述124.3.机房现场紧急处置措施124.4.后勤保障134.5.公共关系管理应急预案14第5章.预案的管理145.1.放置和分发145.2.评估和修订145.3.演练和培训15第6章.附件16附件1银行分行租赁移动IDC机房情况介绍16附件2银行分行联合移动IDC机房应急组织人
3、员及职责16附件3银行分行IDC机房场景描述及应急措施1616第1章. 总则1.1. 目的为规范银行分行IDC机房基础设施突发情况应急响应及处置的管理,提高应对机房基础设施突发情况的综合管理水平和应急处置能力,确保银行分行IDC机房基础设施应急工作安全、及时、高效、有序地进行,保证银行分行IDC机房的业务安全稳定运行,特由银行分行组织牵头,联合中国移动股份有限公司分公司(以下简称“移动”)制定本应急预案。1.2. 编制依据本应急预案依据以下文件编制:1、中国移动通信电源、空调维护管理规定(2015版)1.3. 适用范围1、银行分行承租移动机房的基础设施服务。2、银行分行信息技术部相关人员。3、
4、移动在“3人员职责分工”中确定的所有相关人员。第2章. 应急组织架构2.1. 应急组织架构图2.2. 组织人员及职责2.2.1. 应急领导小组应急领导小组由银行分行与移动相关领导组成。其工作职责为:(一)负责机房基础设施重大突发应急情况的总体协调与控制;(二)对突发情况导致的业务影响做出判断,对应急执行小组工作授权;2.2.2. 应急执行小组应急执行小组由银行分行机房相关管理团队、移动政企客户部经理、IDC管理人员、IDC等相关人员组成。其工作职责为:(一)组织协调相关人员工作,监督所管辖职责范围内应急工作的具体处理情况;(二)对机房基础设施突发情况导致的业务影响进行分析和评估;(三)向应急领
5、导小组报告应急处置进展情况和事态发展情况2.2.3. 应急一线人员应急一线人员由银行分行信息技术部运行部设备与环境管理组人员、移动IDC管理人员、移动IDC等相关人员组成。其工作职责为:(一)第一时间采取合理应急措施;(二)协助应急执行小组组织相关人员,传递应急信息;(三)负责执行具体应急方案;(四)向应急执行小组汇报应急现场情况;2.2.4. 应急二线人员应急二线人员由银行分行信息技术部系统岗、网络岗等相关人员组成。其工作职责为:(一)通过技术手段支持和配合应急一线的工作;(二)协调组织本组相关人员做好所负责系统的应急工作;2.2.5. 协助组织协助组织由移动值班室、值班等相关专业组人员组成
6、。其工作职责为:(一)负责通知相关协助组织人员就位,发送短信通知,启动电话会议等;2.2.6. 移动相关人员职责说明工作职责为:(一)移动应急领导小组负责全面协调配合我行工作,并授权移动应急执行小组、应急一线人员启动相关应急手段;(二)移动IDC人员:负责机房人员、设备进出管控,机房巡检,与动力部门、中控、物业等相关部门沟通协调,配合应急一线人员工作;(三)移动政企客户部:负责我行与移动方相关事项的沟通与协调工作,全面配合我行工作,负责通知移动方相关领导;(四)移动IDC动力运维人员:负责机房空调系统运维、负责高低压变配电系统、UPS系统、柴油发电机组系统等电力设施监督运维、负责消防设施等楼体
7、基础设施运维。其中,各机房内配电精密配电柜的整体维护及精密配电柜中输入开关运维由IDC工程运维人员负责。第3章. 机房基础设施突发情况分级及常见场景描述3.1. 机房基础设施突发情况定义机房基础设施突发情况是指机房正常运行时突然发生与机房基础设施设备与环境相关,影响或可能影响银行分行信息系统安全稳定运行的情况,主要包括供电系统异常情况、制冷系统异常情况、火灾情况、水浸情况、机房空气质量异常情况、安防情况等。3.2. 机房基础设施突发情况分级机房基础设施突发情况分级的目的是为了使机房值班人员能够依据此分级对突发情况的重要性、影响程度进行事前判断,从而按照不同级别进行机房现场快速处置并通知相应人员
8、参与应急。应急发起后,统一按照银行分行重要信息系统突发事件应急预案-总案进行事件评级和总体组织协调工作。参照典型的突发情况,依据其影响范围及风险等因素,可分为四个级别:一般突发情况、较大突发情况、重大突发情况、特大突发情况;五级生产事件四级生产事件三级生产事件二级生产事件1、 基础设施环境异常,基础设施末端单个设备异常,但对IT设备、对外业务、重要数据均没有造成影响。1、 基础设施环境异常,基础设施末端单个设备异常。且影响了IT设备正常运行,未影响重要数据安全、对外业务的稳定运行,但存在安全隐患。1、 基础设施环境异常,基础设施末端多台设备状态异常;2、 基础设施环境异常影响了IT设备正常运行
9、,影响了数据安全及对外业务的稳定性。1、 基础设施环境异常,基础设施出现系统级故障;2、 基础设施环境异常影响IT设备正常运行,影响了数据安全及对外业务的稳定性。3.3. 机房基础设施突发情况升级机房基础设施突发情况发生后,依据影响范围的变化,按照上述定义进行级别升级。3.4. 机房基础设施突发情况常见场景描述根据机房运维管理经验,将机房突发情况常见场景定义为几大类,主要包括供电系统异常情况、制冷系统异常情况、火灾情况、水浸情况、机房空气质量异常情况、安防情况等。其中配电室及柴油发电机相关应急预案参照中国移动集团分公司讯通应急预案(附件4)等相关制度,我行进行督办。3.4.1. 供电系统异常情
10、况序号适用场景分级处置要求场景一:市电闪断(未影响机房)五级生产事件场景二:配电柜出现报警五级生产事件场景三:单个机柜内设备部分电源断电五级生产事件场景四:配电柜对应机柜某路空开跳闸四级生产事件场景五:单个机柜内部分设备全部电源断电四级生产事件场景六:配电柜某路总空开跳闸四级生产事件场景七:双路市电断电,中断时间达15分钟以上三级生产事件3.4.2. 制冷系统异常情况序号适用场景分级处置要求1场景八:机房空调出现设备报警(机房环境正常)五级生产事件2场景九:场景九:机房空调系统损坏造成机房内局部温度过高(设备未产生高温报警)。五级生产事件3场景十:机房精密空调漏水报警五级生产事件4场景十一:机
11、房空调损坏造成多机柜内设备因高温报警五级生产事件5场景十二:机房空调大面积损坏造成机房整体温度升高导致设备大面积高温报警四级生产事件6场景十四:机房空调大面积损坏造成机房整体温度升高导致设备因高温大面积宕机二级生产事件3.4.3. 火灾情况序号适用场景分级处置要求7场景十五:值班员听到警铃报警(误报)。五级生产事件8场景十六:机房设备有明火但未出现火警报警四级生产事件9场景十七:机房发生火灾且已经触发自动灭火系统二级生产事件3.4.4. 水浸情况序号适用场景分级处置要求10场景十八:机房出现漏水点四级生产事件3.4.5. 机房空气质量异常情况序号适用场景分级处置要求11场景二十:机房内出现大量
12、烟雾。四级生产事件3.4.6. 安防情况序号适用场景分级处置要求12场景二十一:有携带违禁物品想进入机房且不听劝阻的五级生产事件13场景二十二:机房区域有人违规操作且不听劝阻四级生产事件14场景二十三:机房楼宇遭到恐怖袭击恐怖情况二级生产事件具体场景描述如下场景一:市电闪断,如:发现办公区供电闪断。场景二:配电柜出现报警,如:发现配电柜出现报警。场景三:单个机柜内设备部分电源缺失,如:单个机房机柜内双电源或多电源设备处于单电源工作、或机柜内出现部分单电设备断电时。场景四:因新增设备造成配电柜对应该机柜某路空开跳闸,如:协助设备负责人新增设备时造成某路空开跳闸时。场景五:单个机柜内部分设备全部电
13、源断电,如:单个机房机柜内双电源或多电源设备全部断电时。场景六:配电柜某路总空开跳闸,如:不同机柜内双电源或多电源设备处于单电源工作、或不同机柜内出现部分设备断电时;通过查看断电的电源编号均出自同一个精密配电柜,并确认该精密配电柜空开出现跳闸。场景七:双路市电断电,如:发现机房双路供电断电,中断时间达5分钟以上时。场景八:机房空调出现设备报警(机房环境正常),如:发现机房空调出现设备报警。场景九:机房空调系统损坏造成机房内局部温度过高(设备未产生高温报警),如:发现机房空调回风温度超过28或机房冷通道局部环境温度超过26(机房环境温度正常范围定义在2026),且仍有上升趋势。场景十:机房精密空
14、调漏水报警,如:值班员接到动力监控人员的空调漏水报警通知,或值班员发现空调出现漏水报警时。场景十一:机房空调损坏造成多机柜内设备因高温报警,如:值班员接到设备负责人报修为设备高温报警;或接到物业监控人员的高温报警通知;或值班员发现机房环境出现设备高温报警,机房精密空调停机不运行时场景十二:机房空调损坏造成多机柜内设备过热宕机,如:值班员接到设备负责人报修为设备过热宕机;或接到动力监控人员的高温报警通知;或值班员发现机房环境出现设备高温造成设备过热宕机,机房精密空调停机不运行时。场景十三:机房空调大面积故障造成机房整体温度升高导致设备大面积高温报警,如:遇到极端炎热天气,导致机房多台空调压缩机异
15、常停止制冷,机房整体温度增高导致设备大面积高温报警。场景十四:机房空调大面积损坏造成机房整体温度升高导致设备因高温大面积宕机,如:遇到极端炎热天气,导致机房多台空调压缩机异常停止制冷,机房整体温度增高导致设备大面积宕机。场景十五:值班员听到警铃报警(误报)。如:值班员听到警铃报警,确认无火情发生。场景十六:机房设备有明火但未出现火警报警,如:值班员发现机房内或机柜内出现明火,或设备负责人发现机柜内出现明火。场景十七:机房发生火灾且已经触发自动灭火系统,如:值班员发现机房发生火灾,且自动灭火系统已经触发。场景十八:机房墙体、房顶漏水应急处置。,如:值班员发现机房墙体、房顶出现漏水现象时。场景十九
16、:机房内出现异味,如:值班员发现机房内或机柜内出现异味,或设备负责人发现机柜内出现异味。场景二十:机房内出现大量烟雾,如:值班员发现机房内出现大量烟雾,但无明显刺鼻异味。场景二十一:有携带违禁物品想进入机房且不听劝阻的,如:值班员发现有人携带水、食物、打火机等物品要进入机房,劝阻无效的。场景二十二:机房区域有人违规操作且不听劝阻,如:值班员发现机房区域有人违规插拔电源或其他操作且不听劝阻时。场景二十三:机房楼宇遭到恐怖袭击恐怖情况,如:值班员发现或被通知机房楼宇遭到恐怖袭击恐怖。第4章. 机房现场处置流程4.1. 机房现场处置与恢复操作流程图4.2. 机房现场处置流程描述(一)接到突发情况报告
17、或发现突发情况,对情况进行核实并初步评估影响,若是一般突发情况通知移动相关人员组织维修,持续关注机房环境状况并汇报相应应急执行小组人员。超出一般突发情况立即通知应急领导小组和应急执行小组成员。应急执行小组成员按突发情况级别启用应急处理方案并上报应急领导小组要求授权。(二)在处理机房基础设施突发情况中,应急执行小组成员判断机房基础设施故障超出当前处理情况级别,要对突发情况进行重新评估定级,启动相应突发情况预案,并上报应急领导小组要求授权。(三)按照现场处置流程进行处置工作。处置成功, 恢复机房环境基础设施设备正常并上报处置结果,配合机房相关部门恢复各系统业务。如果处置不成功,再次进行评估,上报评
18、估结果及再次处置方案,经批准后实施。(四)处置结束。4.3. 机房现场紧急处置措施1、应急领导小组直接授权应急一线相关人员现场操作,减小损失。2、应急领导小组、应急执行小组迅速到达现场。了解故障情况努力减小损失。3、应急执行小组在确定引起故障的原因后,向应急领导小组进行汇报。4、应急执行小组根据故障情况,确认故障发生的时间、影响的范围,向应急领导小组进行汇报。5、应急执行小组组织专业人员对设施故障进行紧急处理。6、在专业人员排除故障后,应急执行小组及时将最终结果向应急领导小组进行汇报。4.4. 后勤保障4.4.1. 核心生产机房应急后勤保障当接到银行分行启动应急后勤保障通知后,移动会根据人员到
19、场情况向提供相关后勤保障工作,具体内部详见“图表 核心生产机房启用分级保障”图表 核心生产机房启用分级保障保障等级保障内容场地人员停车位保障一级保障(二级生产事件)能够同时容纳10人的紧急会议室政企客户部领导、银行信息技术部负责人、IDC负责人到场准备10个停车位IDC、运维人员各加派至少1名人员应急保障二级保障(三级生产事件)能够同时容纳10人的紧急会议室政企客户部领导、银行信息技术部负责人、IDC负责人到场准备5个停车位IDC、运维人员各加派至少1名人员应急保障三级保障(四级生产事件)暂不准备会议室银行信息技术部负责人、IDC负责人到场暂不准备停车位暂不加派人员4.4.2. 核心生产机房应
20、急演练后勤保障在开展应急演练期间,移动分公司向提供包括人员车辆出入管理、提供饮用水和衣物存放等生活保障管理以及增派保安和服务人员等后勤保障。4.5. 公共关系管理应急预案1、对于已曝光的紧急情况,让行长办公室尽快了解情况经过,迅速协商备答口径和应对策略。2、对于已经发生但尚未被媒体曝光的负面情况,在注意做好保密工作的同时,让行办公室尽快了解情况经过,协商备答口径和应对策略。3、对于应急预案没有覆盖的突发情况,应立即报告主管领导进行应急决策。第5章. 预案的管理5.1. 放置和分发银行分行机房基础设施突发情况应急响应及处置预案(、移动联合版)包含潜在的敏感基础设施信息和个人信息,预案的分发应该根
21、据需要进行登记和控制。本预案的原件由银行分行信息技术管理部负责存放管理,其他相关机构存放预案的副本,其中移动各机构的副本由移动政企客户部统一分发。5.2. 评估和修订为实现本预案的动态优化和科学规范管理,银行分行与移动共同对本预案每年进行不少于一次针对预案内容的完整性、实用性和可操作性的评估及修订。除上述定期的评估修订工作外,有下列情形之一的,也将及时修订应急预案:(一)有关法律、行政法规、规章、标准、上位预案中的有关规定发生变化的;(二)应急指挥机构及其职责发生重大调整的;(三)面临的风险发生重大变化的;(四)重要应急资源发生重大变化的;(五)预案中的其他重要信息发生变化的;(六)在突发情况
22、实际应对和应急演练中发现问题需要做出重大调整的;(七)银行分行信息技术部运行部认为应当修订的其他情况。 对于应急预案的更新应该执行严格的版本控制,详细记录每次预案修订的时间及内容,并及时分发给相关的机构及人员,并对过期的预案进行存档,确保各机构及人员获得的预案版本的一致性。5.3. 演练和培训银行分行核心生产机房每年至少进行一次所有场景的桌面应急演练,一次部分场景的现场实操模拟演练。应急演练由银行分行发起,移动政企客户部负责组织实施、协调内部各相关机构共同参与。根据每次演练的具体目标,可从以下两种方式中选择一种方式,或以一种方式为主开展应急演练工作:(一)桌面演练:针对事故情景,利用图纸、流程
23、图、计算机等辅助手段,依据应急预案进行交互式讨论或模拟应急状态下应急行动的演练活动。(二)现场演练:选择(或模拟)生产中的设备、设施、装置或场所,设定事故情景,依据应急预案而模拟开展的演练活动。应急预案的演练原则上不能打断机房基础设施的正常运行。应急演练组织后应当组织演练评估,评估的主要内容包括:演练的执行情况,预案的合理性与可操作性,指挥协调和应急联动情况,应急人员的处置情况,演练所用设备装备的实用性,对完善预案、应急准备 、应急机制、应急措施等方面的意见和建议等。银行分行核心生产机房每年至少举办一次应急预案的培训,拥有预案中规定职责的新雇员(、移动)应该在被雇佣后接受短期培训。和应急响应预案相关的人员所接受的培训最终应该是的他们能够无需实际文档的协助就能够执行相应的恢复规程。