1、计算机机房应急预案XXXX单位名称20XX年XX月编 制 人 员编 制 审 核XXX XXXX前 言多年来,常常会听到某地机房发生因某种原因造成灾难性事件;因为处理不立即或人为原因操作不妥,造成严重后果,造成了巨大经济损失。为了避免类似事情发生,项目组每十二个月对应急预案进行修订,优化使用步骤及操作步骤,保障在突发情况下立即、有效处理各类应急情况。本应急预案编制依据单位网络系统运行管理要求而编写。依据单位领导提出新改善提议,应急预案版本修订相比之前有了较大改动,项目组结合机房实际情况,针对所包含故障及其处理方法分别进行说明并细化了每一个处理步骤,增加了非工作时间机房出现突发事件处理步骤及紧急联
2、络人相关信息,确保维护人员能够直观、立即、有效地处理突发情况,在维护人员不能第一时间抵达现场,其它人员也能和有效帮助处理突发情况。项目组每十二个月组织两次机房应急演练,模拟机房设备故障,维护人员参考应急预案能够熟练操作并进行突发事件处理,验证应急预案对于机房有效性和可用性。 目 次1概述11.1目标11.2应急预案存放11.3编制依据11.4技术资料12 适用范围及开启条件13 应急组织和职责24应急响应步骤34.1 应急事件响应34.2 应急事件升级35应急实施步骤45.1 影响程度评定45.2 宣告开启应急45.3 应急恢复55.4 事后处理55.5 应急注意事项56应急恢复步骤66.1强
3、电系统故障66.2 UPS故障96.3 网络系统故障106.4 机房漏水126.5 空调故障146.6 机房火灾17附表一 交换机信息22附表二 自主运维办公交换机信息22附表三 交换机常见命令23附表四 机房应急预案联络人信息表23附表五 机房服务器联络人信息表237 预案附录24附录一 机房示意图24附录二 配电柜操作说明书24附录三 UPS操作说明24附录四 空调操作手册24附录五 设备监控软件使用说明书241 概述1.1 目标为了提升单位计算机机房、网络突发事件应急处理能力,最大程度地预防和降低突发事件及其造成损害,保障设备正常运行,制订本预案。本预案参考单位领导要求,对机房空调、电力
4、、消防、漏水和网络系统五种突发情况制订具体应急工作步骤。1.2 应急预案存放1)电子版本本应急预案电子版存放于单位共享服务器及全部项目组成职员作电脑中。2)纸质版本本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。1.3 编制依据本应急预案编制依据单位安全管理要求编写。1.4 技术资料序号资料名称存放地点获取方法1UPS使用手册机房缓冲区桌面进入机房获取2机房专用空调操作维护指南机房缓冲区桌面进入机房获取3消防使用手册机房缓冲区桌面进入机房获取2 适用范围及开启条件1) 地域范围:本预案适适用于本单位机房及网络运行中发生故障时使用。2) 人员范围:本预案在实施中包含人员包含机房、网络运维
5、人员,相关主管领导,大楼安保人员和机房内各应用系统责任人等。3) 开启条件机房、网络运行中出现通常性突发事件和重大突发事件。通常性突发事件:是指机房、网络突发故障,将影响机房提供正常服务及网络服务能力且估计修复时间大于30分钟,此时应立即开启应急预案,关键包含:1) 市电中止和UPS故障引发电力供给中止。2) 机房空调冷凝水或上下水管道漏水。3) 机房温度超出30。4) 网络故障影响用户范围超出20%,估计修复时间在2小时以内。 重大突发事件:是指通常性突发事件在特定时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务能力,而且修复时间大于2小时,此时除了立即开启应急预案外还应升
6、级为重大事件,其中包含但不限定于以下分类:1) 机房出现火灾。 2) 市电中止和UPS故障引发电力供给中止。3) 机房温度超出40。 4) 网络故障造成全网中止,估计修复时间超出2小时。 3 应急组织和职责计算机机房应急组名单以下:表1 应急小组名单部门/岗位职责姓名联络方法单位领导重大应急决议指挥部门主任应急决议指挥应急小组组长负责评定应急事件并协调处理应急预案操作岗开启应急预案并实施4应急响应步骤4.1 应急事件响应1、发生突发事件时,经过电话或当面通知应急小组组长汇报情况。2、必需时第一时间开启应急预案。3、应急小组组长依据实际情况开启应急预案,参考应急恢复步骤组织协调相关人员进行应急处
7、理。4、电话通知机房内生产业务系统管理员做对应应急方法。5、应急小组组长依据情况判定是否需要将事件升级为重大事件。6、事件处理完成后,应急小组组长将事件处理具体经过形成书面汇报,上报部门主任和单位领导。4.2 应急事件升级在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:1、立即通知部门主任。2、通知机房内生产业务系统管理员事件升级为严重,参考应急恢复步骤做对应应急方法。3、依据应急决议领导决议指令处理故障。4、事件处理完成后,应急小组组长将事件处理具体经过形成书面汇报,上报部门主任和单位领导。5应急实施步骤5.1 影响程度评定表2 影响程度评定表序号故障类型影响程度及范围通常性突
8、发事件重大突发事件1市电中止和UPS故障引发电力供给中止。影响程度大,修复时间大于30分钟,小于2小时电力供给中止,影响范围为机房内全部设备及系统。影响程度为重大,修复时间2小时以上电力供给中止,影响范围为机房内全部设备及系统。2机房漏水影响程度通常,机房出现小摊积水,修复时间大于30分钟,小于2小时机房漏水,影响范围为机房内全部设备及系统。影响程度重大,机房出现大面积漏水,或漏水修复时间2小时以上机房漏水,影响范围为机房内全部设备及系统。3机房温度过高影响程度大,机房温度超出30度,修复时间大于30分钟,小于2小时,影响范围为机房内全部设备及系统。影响程度重大,机房温度超出40度,修复时间2
9、小时以上空调故障,影响范围为机房内全部设备及系统。4网络系统故障影响程度大,修复时间大于30分钟,小于2小时网络系统故障,影响范围为生产业务系统及影响用户范围超出20%。影响程度重大,修复时间2小时以上网络系统故障,影响范围为生产业务系统及影响用户范围超出20%。5机房火灾-影响程度重大,影响范围为机房内全部设备、系统及用户。5.2 宣告开启应急应急小组组长宣告开启应急预案,并通知应急预案操作岗全部组员参与预案实施。重大事件时要向部门主任、单位领导汇报。5.3 应急恢复突发事件发生后,应急组长依据不一样开启条件实施应急预案进行应急恢复。表3 应急恢复步骤序号开启条件恢复步骤操作人员备注1市电中
10、止见步骤6.1应急小组组长、应急预案操作人员2UPS故障见步骤6.2应急小组组长、应急预案操作人员3网络系统故障见步骤6.3应急小组组长、应急预案操作人员4机房漏水见步骤6.4应急小组组长、应急预案操作人员5空调故障见步骤6.5应急小组组长、应急预案操作人员6机房火灾见步骤6.6应急小组组长、应急预案操作人员5.4 事后处理事后仔细分析事件发生原因,查找引发事件发生根本原因,努力争取杜绝类似问题再次发生;总结每次应急处理经验和不足,立即进行总结统计,作为知识贮备,进行共享;重大事件处理完成时,要向部门主任、单位领导立即汇报整个事件处理过程,并提出预防方法提议。5.5 应急注意事项为了在突发事件
11、发生时,能够立即顺畅地实施预案,应确保以下几点:n 平时多做应急演练,对应急小组组织和预案实施力进行检验和加强。n 熟读应急预案,责任分工明确,应急步骤掌握熟练。n 加强技术能力和业务能力。n 通讯保持通畅,应急小组人员要保持二十四小时手机开机。n 处理应急突发事件时要认真做好应急处理统计,有利于进行问题回溯。6应急恢复步骤6.1强电系统故障6.1.1 市电中止1) 当发生市电中止或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检验UPS工作状态。非工作时间发生电力中止时,电话联络保安人员进入机房确定是否停电,同时联络周围紧急联络人帮助处理,并直接跳到第三步。紧急联络人
12、姓名联络电话备注(住所)2) 检验UPS负载量及电池能够支持时间:步骤:双击UPS控制面板“ESC”按键,点击“”键,找到相关信息,查看电池负载;在“电池参数显示”处,查看备用时间确定UPS供电剩下时间。(具体详情可参考附录三:UPS操作说明进行操作。图1 UPS控制面板3) 立即拨打物业电话,问询断电原因及断电估计恢复时间,同时通知应急小组组长。(如电话无人接听,立即拨打物业人员手机问询具体情况,物业人员具体联络方法可参考附表三:联络人信息表进行查询)4) 当发生单路供电中止时,应立即通知物业切换至另一路供电,观察UPS状态是否供电正常,等候第一路供电恢复切回。5) 如物业通知无法切换电路且
13、30分钟内无法恢复供电,应立即根据附表五:机房服务器联络人信息表清单次序通知各生产业务系统管理员进行系统备份并关闭系统。同时维护项目组关闭机房内负责全部设备。6) 向部门主任及单位领导汇报目前情况。7) 确定全部服务器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、C3机柜输出开关,关闭网络设备。8) 当机房温度超出40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按次序直接拉下在配电柜01后面全部机柜输出开关,关闭机房内全部设备。图2 配电柜019) 待市电恢复供电后,打开网络机柜对应输出开关,开启网络设备。10) 按附表五中清单分批次对系统服务器加电,通知相关人员
14、进行测试,并要求相关人员电话回复系统测试结果。11) 如UPS故障造成电力供给中止,手动重启UPS,查看UPS故障是否解除并恢复正常。(在UPS显示器上点击“开机”,查看UPS是否正常开启)12) 如UPS故障依旧,立即通知各生产业务系统切换备份系统。13) 向部门主任和单位领导汇报目前情况,并联络厂商对UPS进行检修。 14) 待全部系统恢复正常后,提交处理汇报,上报部门主任和单位领导。6.1.2 市电中止步骤图图3 强电系统故障处理步骤图6.2 UPS故障6.2.1 UPS电池漏液、冒烟1) 发生机房电池漏液、冒烟或监控组人员发觉机房电池柜冒烟,立即到机房查看电池状态。(电池柜在储藏室内部
15、)图4 机房电池柜2) 如发觉是电池漏液、冒烟造成,应根据下列处理方法操作。并亲密观察UPS工作状态。3) 关闭电池供电时,先将机房手提式干冰灭火器放置电池柜周围。4) 打开两组电池柜,手动关闭电池开关。开关在电池柜下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。图5 电池柜开关位置5) 如电池出现火情,使用事先准备手提式干冰灭火器进行灭火。6) 确定无火情后,查看UPS状态,供电情况,立即联络厂商工程师进行检修。注意:关闭电池开关不会影响机房正常供电。7) 向部门主任做口头汇报,电话上报单位领导。8) 事件处理完成后,将事故处理汇报,单位领导。6.2.1 电池火情无法控制造成机
16、房火灾1) 处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。2) 打开电池柜,手动关闭电池开关。3) 立即根据机房火灾处理步骤进行操作。(详情见步骤6.6机房火灾进行操作)4) 火灾处理完成后,消除火灾报警,恢复市电,查看UPS运行状态, 如无法恢复市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。步骤:打开机房配电柜2,手动用力推上机房电力闸恢复市电供给。图6 机房电力总开关5) 立即联络UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。(具体联络方法可参考附表三:联络人信息表进行查询)6) 统计火灾造成损失,提交相关更换UPS电池申请。7) 事件处理完成后,将事故
17、处理汇报,上报部门主任和单位领导。6.2.3 UPS故障处理步骤图7 UPS故障处理步骤图6.3 网络系统故障局部楼层网络中止1.假如是局部楼层断网,首先判定是否是交换机故障;2.远程PING交换机管理地址(各楼层管理地址详见附表1)看是否能够正常PING通3.假如能够PING通,证实交换机本身没有故障,网线没有故障。交由网络管理员处理。4.假如不能PING通,说明交换机根本断或交换机宕机,应去弱电机房找到该楼层交换机上联端口和电源灯状态是否正常,假如上联端口不亮(光纤口),证实根本有问题,更换根本测试。5. 假如看到交换机电源灯不亮,证实交换机掉电,检验电源和电源线。6. 假如以上经过检验交
18、换机和线路后故障现象仍然存在,由此判定可能交换机存在异常,按交换机故障进行处理。交换机故障1. 当确定是交换机出现故障时,应首先从库房中找备用交换机进行更换;2. 若原有故障交换机有配置,应立即联络网络管理员对更换交换机进行配置(网管应有全部交换机配置备份)3. 配置完成后,测试是否正常;全网中止1.首先测试网络连通性,查看是否能够PING通网关地址,假如能够PING通说明从PC到关键交换机之间链路正常,如PING不通应检验接入交换机是否有故障、是否掉电或交换机根本是否不通;假如确实不通,根据局部楼层网络中止中第4条、第5条处理。2.经过访问邮件、外网网站,判定是局域网问题还是广域网问题,假如
19、局域网正常;无法访问互联网说明广域网中止,向运行商进行报修。3.PING 关键交换机到关键路由器互联IP地址连通性,假如能够PING通,说明路由器以下网络连通性正常;4.用tracert命令tracert办公网网段任意地址假如tracert结果能够从出去,但不能抵达外部网络,说明有可能是关键路由器上联链路中止,向运行商进行报修。 5.若能够访问办公地址,无法访问互联网网站如:baidu、搜狐,需要检验代理服务器是否正常,PING是否能够连通,向运行商进行报修。其它网络中止故障1.当办公网部分用户无法获取IP地址,不能上网时候,尝试用能上网主机,进行IP测试。2.用PING命令去DHCP服务器是
20、否能够PING通,并通知网络管理员登陆DHCP服务器进行检验服务是否正常,假如是DHCP服务器故障,应立即切换备用DHCP3.假如从网管员处确定DHCP服务器没有故障,应PING关键交换机这个IP地址看是否有延时长、丢包现象,假如有应该能够初步判定院内有ARP广播风暴形成环路或大面积病毒爆发;再次交由网络管理员处理。 6.4 机房漏水1依据机房环境监控检测漏水示意图,查找漏水位置,判定漏水严重性。2. 在非工作时间,经过电话第一时间通知值班室保安,关闭上水总开关。3机房漏水并触发告警分为以下3种情况:1) 上水管漏水:使用地吸打开空调前地板,查看上水管漏水位置(1层饮水间经过走廊从机房6号空调
21、地板下进入机房)。图8 空调上水管道2) 发觉漏水位置,应立即关闭在一楼饮水间顶棚上水总开关,将水迹擦干。3) 立即联络机房工程,处理水管漏水故障。(具体联络方法可参考附表三:联络人信息表进行查询)4) 空调冷凝漏水:分别检验3台空调地板下水管道是否漏水,空调下水开关是否打开。(开关逆时针旋转为打开,顺时针旋转为关闭)图9 机房1、2号空调下水管道及开关图10 机房3号空调下水管道及开关5) 以下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。6) 首先关闭机房内空调及空调下水管阀门(下水阀门1-4)7) 分别打开上水阀门1和上水阀门4,进行机房下水反冲。图11 机房上下水管道及阀门示意图8
22、) 空调反冲过程中,亲密关注机房温度,确保温度不影响机房内设备运行。9) 反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。10) 如故障依旧,联络厂商进行检修。11) 空调压缩罐瓶体结霜:打开空调前面板,查看压缩罐上是否结霜。(拆卸面板工具在机房缓冲区工具箱里)图12 机房1、2号空调压缩罐位置 图13 机房3号空调压缩罐位置12) 关闭空调,将压缩罐上霜及滴下水迹擦干。13) 尝试重新开启空调,观察空调运行状态。14) 如故障依旧,立即联络厂商进行处理。4. 事件处理完成后,将事故处理汇报,上报部门主任和单位领导。6.4.3机房漏水处理步骤图图14 机房漏水处理步骤图6.5 空
23、调故障6.5.1 高压报警1) 收到空调高压告警后,立即进入机房查看空调运行状态。2) 尝试将报警空调进行复位,进行开启恢复。步骤:1、2号空调点击空调控制面板“报警复位”按键,3号空调点击面板上“消音”按键。3) 若故障依旧,将高压报警空调关闭。步骤:在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理开关关闭。图15 空调控制面板图16 空调物理开关4) 检验室外风机过滤网及空调过滤网是否尘土较多。(室外机在机房后面,院食堂正对面;空调过滤网在空调正上方)图17 空调室外机图18 空调室过滤网5) 若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联络厂商更换。(具体联络
24、方法可参考附表三:联络人信息表进行查询)6) 冲洗室外机,应打开上水阀门2(室内)和阀门6(室外),开始冲洗。冲洗完成后,关闭阀门2和阀门6。图19 室内上水开关图20 室外上水开关图21 冲洗室外机7) 重新开启空调,按住空调减压阀释放压力。(减压阀位置在压缩罐上一个红色按钮)图22 空调压缩机减压阀8) 若仍然存在高压告警现象,应联络空调厂商进行处理。(具体联络方法可参考附表四:联络人信息表进行查询)9) 高压故障处理完成后,将事故处理汇报,上报部门主任和单位领导。6.5.2 低压报警1) 收到空调低压告警短信后,立即进入机房查看空调运行状态。2) 查看控制器面板,确定空调发生低压报警。(
25、见图29)3) 尝试将报警空调告警进行复位,进行开启恢复;复位报警空调方法见高压报警处理第一步。4) 若故障依旧,关闭低压故障空调;关闭空调方法见高压报警处理第二步。5) 立即通知空调厂商对空调进行检修。6) 低压故障处理完成后,将事故处理汇报,上报部门主任和单位领导。6.5.3空调故障处理步骤图图23 空调故障处理步骤图6.6 机房火灾机房采取自动报警装置,含有感烟和感温功效探测器,并采取自动灭火装置,当机房内发生火灾时按以下步骤进行处理。如非工作时间内机房发生火灾时,在维护人员无法快速赶到时,由保卫处保安根据应急步骤进行火灾处理并立即联络周围相关同事帮助处理。紧急联络人姓名联络电话备注(住
26、所)1) 查找火源位置。图24 机房防护区指示灯2) 在配电柜01后关闭着火点位置输出开关,切断着火点供电。图25 配电柜013) 依据火情情况,使用机房内手提式干冰灭火器进行灭火。(机房各进出门周围安放两个干冰灭火器;机房物品间处安放两个干冰灭火器)。图26 干冰灭火器灭火器使用方法(详情见灭火器瓶体):1、 拉出保险销2、 站在上风处,喷口对准火焰基部3、 按下压把即可喷射灭火图27 干冰灭火器使用方法4) 机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)和烟感同时报警时,会自动开启。5) 若在气体灭火没有自动喷洒前发觉火势较大无法控制时,确保机房内人员撤离,可手动开启气体机房灭火装
27、置进行灭火。直接按下控制器上红色按钮,机房内七氟丙烷灭火装置将在延迟30秒后进行全淹没式喷射,如按下在控制器下方红色按钮,灭火装置将立即喷射。图28 紧急气体灭火按键6) 灭火处理后,确定机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;图29 排风扇控制器7) 火灾处理完成后,统计火灾损失,立即向部门责任人做口头汇报,电话上报单位领导。8) 事件处理完成后,将事故处理汇报,上报部门主任和单位领导。6.6.3火灾系统步骤图图30 火灾系统处理步骤图附表一 交换机信息编号位置设备名称网络层次管理IPSNMPSNMP version只读团体名附表二 自主运维办公交换机信息序号设备名称及端口数
28、设备管理IP地址 DHCP地址池物理位置强插号附表三 交换机常见命令说明命令阀值查看交换机CPUDisplay cpu60%为CPU过高,靠近90%说明CPU已经满载,说明流量过大造成交换机背板带宽过大查看交换机上联口Display int 上联端口看是否有大量error信息检测连通性Ping x.x.x.x看是否有连通或延时过大路由追踪Tracert x.x.x.x检验是否路径已经抵达查看交换机实时日志Display log除接口up down信息以外异常信息附表四 机房应急预案联络人信息表部门名称联络人电话备注附表五 机房服务器联络人信息表机柜使用单位机柜位置规格及型号用途联络人电话如机房发生事故,在第一时间查看附表四中人员信息表,逐层进行汇报。依据各应急预案模块中严重程度,通知附表五、附表六中对应业务系统管理员。 7 预案附录附录一 机房示意图附录二 配电柜操作说明书附录三 UPS操作说明附录四 空调操作手册附录五 设备监控软件使用说明书