资源描述
数据中心机房应急预案
目 录
一、基础标准 3
二、应急事件等级定义 3
三、组织机构及职责 4
3.1 应急领导小组组织机构 4
3.2 应急领导小组职责 4
3.3应急小组组员职责 5
四、应急响应机制 6
4.1基础处理步骤 6
4.2机房应急开关机具体方法 7
4.3服务器及存放设备故障处理 7
五、应急方案 8
5.1网络故障事件应急预案 8
5.2服务器故障应急预案 8
5.3灾难性事件应急预案 10
5.4其它突发事件应急预案 10
六、后期处理 10
七、应急保障 11
一、基础标准
(1)居安思危,预防为主。实施突发事件统一管理、统一指挥、各级负责标准;
(2)统一领导,分级负责,全方面计划、立即发觉、快速反应、方法果断标准,并根据事件等级快速上报相关领导和责任人。
(3)制度规范,加强管理。严格根据事件处理步骤规范操作,使突发应急工作规范事件化、制度化。
(4)快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功效齐全、协调有序、运转高效应急管理机制。
(5)主动汇报标准:当突发事件发生后,要立即汇报应急预案实施情况。
二、应急事件等级定义
依据网络和信息安全突发公共事件可控性、严重程度和影响范围,通常分为四级:I级(尤其重大)、II级(重大)、III级(较大)、IV级(通常)。国家相关法律法规有明确要求,按国家相关要求实施。
(1)I级(尤其重大):关键网络和信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门控制能力,对国家安全、社会秩序、经济建设和公共利益造成尤其严重损害突发公共事件。
(2)II级(重大):关键网络和信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地域协同处理突发公共事件。
(3)III级(较大):某一区域关键网络和信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地域协同处理突发公共事件。
(4)IV级(通常):关键网络和信息安全系统受到一定程度损坏,对公民、法人和其它组织权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益突发公共事件。
三、组织机构及职责
3.1 应急领导小组组织机构
3.2 应急领导小组职责
1、应急总指挥职责
(1)确保在任何时间,立即协调应急行动全部包含岗位人员;
(2)提供必需紧急响应设备;
(3)在紧急情况下全方面负责紧急行动;
(4)在必需时向外界求救,比如:119、110、120等。
2、应急副总指挥职责
(1)在总指挥领导下具体开展工作,当总指挥不在时推行总指挥职责;
(2)依据取得应急信息下达命令。
3、各相关设备责任人职责
(1)负责立即搜集信息向应急总指挥汇报事故情况;
(2)负责现场临时设备抢救和对事态控制;
(3)听从上级指挥人员指挥。
3.3应急小组组员职责
(1)值班人员平时应做好应急事件监控、预警工作,当应急事件发生后,快速生产事件上报相关领导,并进行先期处理,如有必需通知二、三线工程师。
(2)二线、三线工程师在接到应急信息后,应主动配合值班人员进行先期处理,快速赶往故障现场提供技术援助。
(3)对于在应急故障处理期间发生新问题、新情况,应认真登记,立即上报。对于超出《应急预案》界定应急事件,应立即汇报应急领导小组,争取尽早提出补救方法进行恢复。
四、应急响应机制
4.1基础处理步骤
(1)值班人员平时应做好应急事件监控工作,对于突发事件应认真分析、正确判定故障发生数据域,负责跟踪该事件直至其结束。对于不在运维中心故障,应在第一时间内通知责任人去现场处理,亲密关注事件步骤及进展情况,并做好登记工作上报领导。
(2)正常情况下,要求值班人员在30分钟内进行事件确定。假如属于通常事件则根据事件步骤进行分配处理,不然应快速开启《应急预案》,并严格根据《应急预案》所要求步骤快速实施应急处理,立即汇报上级领导,掌握实时处理情况。
(3)在处理过程中,如需其它部门去现场支援处理,应立即向上级领导部门汇报,协调沟通,立即联络技术工程师或厂家技术支持赶赴现场援助处理。
4.2机房应急开关机具体方法
机房各设备关闭次序以下:
4.3服务器及存放设备故障处理
排错步骤
五、应急方案
5.1网络故障事件应急预案
1.发生网络故障事件后,系统使用人员应立即汇报应急小组。
2. 应急小组立即查清网络故障位置和原因,并给予处理。
3.不能确定故障处理时间或处理故障期限并属较大(III级)及其以上,应急小组应汇报所领导。
4. 网络系统故障突发事件分级:
故障等级
故 障 现 象
1级
网络完全拥塞或设备宕机
网络或设备处理能力严重受影响,对最终用户业务运作有严重影响
网络或设备故障对关键用户(企业经理级或关键部门)造成严重影响
2级
网络或设备性能严重下降,对最终用户业务运作产生关键影响
部分区域网络故障
通常网络节点发生故障
大部分用户网络通讯质量下降
3级
网络或设备性能受损,但最终用户大部分业务仍可正常工作
报警犯错和操作命令反常
4级
其它通常故障,不影响系统整体运行,不影响大部分用户使用
5.2服务器故障应急预案
1.服务器故障后,应急小组确定故障设备及故障原因,并通知相关厂商。
2.依据服务器修复和恢复系统所需时间,由所领导决定是否启用备份设备。
3.如启用备份设备,在服务器故障排除后,应急小组在确保不影响正常业务工作前提下,利用网络空闲时期替换备用设备。如不启用备份设备,应急小组应主动配合相关厂商处理服务器故障事件。
5.3空调设备故障处理
若空调损坏,应第一时间通知厂家上门进行维修,并立即汇报信息部相关领导请示,取得授权后按机房设备关闭次序关闭各类设备。
5.4消防设备故障处理
一旦机房发生火灾,应遵照下列标准:首先确保人员安全;其次保护关键设备、数据安全;三是保护通常设备安全;
人员疏散程序是:机房工作人员立即按响火警警报,并经过119电话向公安消防请求支援,全部些人员戴上防毒面具,全部不参与灭火人员根据预先确定线路,快速从机房中撤出;
人员灭火程序是:首先切断全部电源,开启自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。
5.5 电源设备故障处理
在紧急情况发生时,应按以下步骤进行关机:
(1)确定全部负载均已安全关机。
(2)关闭UPS负载电源。
(3)将UPS系统启用开关切换到off 状态。
(4)将DC电池连接断路器切换到off位置。
(5)将全部电池拉出到红色电池断开线以外。
(6)断开PDU上断路器。
(7)将PDU后面总输入断路器切换到断开位置。
(8)将每个上行主电路断路器切换到断开位置。
5.3灾难性事件应急预案
1.一旦发生灾难性事件,应急小组每一位组员全部应有责任在第一时间进入机房抢救服务器及存放设备。
2.应急小组对服务器及存放设备损坏程序进行评定。如服务器损坏或存放设备损坏无法使用,立即联络相关厂商,进入维保服务程序。
3.依据服务器或存放设备修复和恢复系统所需时间,由所领导小组决定是否启用备份设备。
5.4其它突发事件应急预案
应急小组立即派出技术人员进入现场,制订对应方法,依据实际情况灵活处理,并按要求汇报所领导小组。
六、后期处理
1. 故障排除后,应急小组向各部室发出故障解除、系统恢复正常运行通知。
2. 系统恢复运行后,相关操作人员立即通知参保单位和个人办理社会保险业务事项,并对故障发生前所进行过业务操作进行检验,查对业务数据是否正确或有没有丢失,不正确或有丢失应立即更正或补录,确保数据正确和完整。对在故障期间采取手工受理事项,应立即在系统中补充完善。
3. 所领导组织相关人员及相关技术教授组成事件调查组,对事件发生原因、性质、影响、后果、责任及应急处理能力、恢复重建等问题进行全方面调查评定,总结经验教训,完善信息系统应急处理预案,整改信息系统存在隐患。
七、应急保障
1. 预留一定数量网络硬件设备和服务器,用于预防或应对信息系统突发事件。
2. 选择熟悉信息系统软硬件专业企业作为信息系统应急处理社会应急支援单位,提供技术支持和服务。信息系统服务器和存放设备要和专业厂商签定维保协议,明确备用设备供给时间。
3. 强化信息安全宣传教育,提升信息安全防御意识。每十二个月最少组织开展一次全局范围内信息网络安全教育,提升全局职员信息安全防范意识和能力。
展开阅读全文