1、计算机机房应急预案XXXX单位名称2XX年X月编 制 人 员编 制 审 核XXX XXX前 言近年来,经常会听到某地机房发生因某种原因导致灾难性得事件;由于处理不及时或人为因素操作不当,导致严重后果,造成了巨大得经济损失。为了避免类似事情发生,项目组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、有效处理各类应急情况。本应急预案编制依据单位网络系统运行管理规定而编写。根据单位领导提出新得改进建议,应急预案得版本修订相比之前有了较大得改动,项目组结合机房得实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一个处理步骤,增加了非工作时间机房出现突发事件得处理步骤及紧急
2、联系人相关信息,确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现场,其她人员也能以及有效协助处理突发情况。项目组每年组织两次得机房应急演练,模拟机房设备故障,维护人员参照应急预案能够熟练操作并进行突发事件得处理,验证应急预案对于机房得有效性与可用性。目 次概述1、目得11、2应急预案存放11。3编制依据。技术资料12 适用范围及启动条件13 应急组织与职责24应急响应流程34。1 应急事件响应34、2 应急事件升级35应急执行流程45.1 影响程度得评估、2宣告启动应急45.3 应急恢复55、 事后处理55、5 应急注意事项56应急恢复步骤66。1强电系统故障6、U
3、P故障96.3 网络系统故障106、 机房漏水26.5 空调故障16。6 机房火灾17附表一 交换机信息2附表二 自主运维办公交换机信息2附表三 交换机常用命令23附表四 机房应急预案联系人信息表23附表五 机房服务器联系人信息表7 预案附录24附录一 机房示意图24附录二 配电柜操作说明书4附录三 UP操作说明2附录四 空调操作手册2附录五 设备监控软件使用说明书41 概述1.1 目得为了提高单位计算机机房、网络突发事件得应急处理能力,最大程度地预防与减少突发事件及其造成得损害,保障设备正常运行,制定本预案。本预案参照单位领导得要求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具
4、体得应急工作流程、1.2 应急预案存放)电子版本本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中、2)纸质版本本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。1.3 编制依据本应急预案编制依据单位安全管理规定编写。1.4 技术资料序号资料名称存放地点获取方式1UPS使用手册机房缓冲区桌面进入机房获取2机房专用空调操作维护指南机房缓冲区桌面进入机房获取3消防使用手册机房缓冲区桌面进入机房获取 适用范围及启动条件1) 地域范围:本预案适用于本单位机房及网络运行中发生故障时使用。2) 人员范围:本预案在执行中涉及得人员包括机房、网络运维人员,相关主管领导,大楼安保人员以及机房内
5、各应用系统负责人等。3) 启动条件机房、网络运行中出现得一般性突发事件与重大突发事件。一般性突发事件:就是指机房、网络突发故障,将影响机房提供正常服务及网络服务得能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:1) 市电中断与P故障引起得电力供应中断。2) 机房空调冷凝水或上下水管道漏水、3) 机房温度超过3。4) 网络故障影响用户范围超过0%,预计修复时间在小时以内、重大突发事件:就是指一般性突发事件在特定得时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务得能力,并且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分
6、类:1) 机房出现火灾。2) 市电中断与UPS故障引起得电力供应中断、3) 机房温度超过40。4) 网络故障造成全网中断,预计修复时间超过2小时。 3 应急组织与职责计算机机房应急组名单如下:表1 应急小组名单部门岗位职责姓名联系方式单位领导重大应急决策指挥部门主任应急决策指挥应急小组组长负责评估应急事件并协调处理应急预案操作岗启动应急预案并实施4应急响应流程4。1 应急事件响应1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。2、必要时第一时间启动应急预案。3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。、电话通知机房内生产业务系统管理员做相
7、应得应急措施。、应急小组组长根据情况判定就是否需要将事件升级为重大事件、6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任与单位领导、4。 应急事件升级在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:1、立即通知部门主任。2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应得应急措施。、根据应急决策领导得决策指令处理故障。4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任与单位领导。5应急执行流程5、1 影响程度得评估表2 影响程度评估表序号故障类型影响程度及范围一般性突发事件重大突发事件1市电中断与UP故障引
8、起得电力供应中断。影响程度大,修复时间大于30分钟,小于小时得电力供应中断,影响范围为机房内所有设备及系统。影响程度为重大,修复时间2小时以上得电力供应中断,影响范围为机房内所有设备及系统。2机房漏水影响程度一般,机房出现小摊积水,修复时间大于30分钟,小于2小时得机房漏水,影响范围为机房内所有设备及系统。影响程度重大,机房出现大面积漏水,或者漏水修复时间2小时以上得机房漏水,影响范围为机房内所有设备及系统。3机房温度过高影响程度大,机房温度超过30度,修复时间大于0分钟,小于2小时得,影响范围为机房内所有设备及系统。影响程度重大,机房温度超过0度,修复时间2小时以上得空调故障,影响范围为机房
9、内所有设备及系统、网络系统故障影响程度大,修复时间大于0分钟,小于2小时得网络系统故障,影响范围为生产业务系统及影响用户范围超过20。影响程度重大,修复时间小时以上得网络系统故障,影响范围为生产业务系统及影响用户范围超过20。5机房火灾影响程度重大,影响范围为机房内所有设备、系统及用户、5.宣告启动应急应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案得执行、重大事件时要向部门主任、单位领导汇报。5.3 应急恢复突发事件发生后,应急组长根据不同得启动条件执行应急预案进行应急恢复、表3 应急恢复步骤序号启动条件恢复步骤操作人员备注市电中断见步骤、1应急小组组长、应急预案操作人员2
10、US故障见步骤6。2应急小组组长、应急预案操作人员3网络系统故障见步骤、3应急小组组长、应急预案操作人员4机房漏水见步骤6。应急小组组长、应急预案操作人员5空调故障见步骤6.应急小组组长、应急预案操作人员6机房火灾见步骤6。6应急小组组长、应急预案操作人员5。4事后处理事后仔细分析事件发生得原因,查找引起事件发生得根本原因,力争杜绝类似问题得再次发生;总结每次应急处理得经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件得处理过程,并提出预防措施建议。5。 应急注意事项为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:n
11、平时多做应急演练,对应急小组得组织与预案执行力进行检验与加强。n 熟读应急预案,责任分工明确,应急流程掌握熟练、n 加强技术能力与业务能力、n 通讯保持畅通,应急小组得人员要保持24小时手机开机。n 处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯、6应急恢复步骤6。1强电系统故障6、1、1 市电中断1) 当发生市电中断或同时收到PS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。非工作时间发生电力中断时,电话联系保安人员进入机房确认就是否停电,同时联系附近得紧急联系人协助处理,并直接跳到第三步。紧急联系人姓名联系电话备注(住所)2) 检查P得负载量及电
12、池能够支持得时间:步骤:双击UP控制面板“ESC”按键,点击“”键,找到相关信息,查瞧电池负载;在“电池参数显示”处,查瞧备用时间确认UPS供电剩余时间。(具体详情可参照附录三:US操作说明进行操作。图1 UPS控制面板3) 立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附表三:联系人信息表进行查询)4) 当发生单路供电中断时,应立即通知物业切换至另一路供电,观察P状态就是否供电正常,等待第一路供电恢复切回。5) 如物业通知无法切换电路且0分钟内无法恢复供电,应立即按照附表五:机房服务器联系
13、人信息表得清单顺序通知各生产业务系统管理员进行系统备份并关闭系统、同时维护项目组关闭机房内负责得所有设备。6) 向部门主任及单位领导汇报当前情况。7) 确认所有服务器关闭后,直接手动拉下配电柜01后面A4、A5、A、B、B5、C3机柜输出开关,关闭网络设备。8) 当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。图2 配电柜09) 待市电恢复供电后,打开网络机柜对应得输出开关,启动网络设备。10) 按附表五中得清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果、11)
14、 如UPS故障造成得电力供应中断,手动重启PS,查瞧PS故障就是否解除并恢复正常、(在UPS显示屏上点击“开机”,查瞧UPS就是否正常启动)12) 如PS故障依旧,立即通知各生产业务系统切换备份系统、13) 向部门主任与单位领导汇报当前情况,并联系厂商对UPS进行检修。 14) 待所有系统恢复正常后,提交处理报告,上报部门主任与单位领导。6。1、2市电中断流程图图3 强电系统故障处理流程图6、2 UP故障6.2。1P电池漏液、冒烟1) 发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查瞧电池状态。(电池柜位于储藏室内部)图4 机房电池柜2) 如发现就是电池漏液、冒烟导致,应按照
15、下列处理方法操作。并密切观察UPS工作状态。3) 关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。4) 打开两组电池柜,手动关闭电池开关。开关位于电池柜得下方,此时应用力向左拨动电池开关,直至开关显示“FF”状态。图5 电池柜得开关位置5) 如电池出现火情,使用事先准备得手提式干冰灭火器进行灭火。6) 确认无火情后,查瞧UPS状态,供电情况,立即联系厂商工程师进行检修、注意:关闭电池开关不会影响机房得正常供电。7) 向部门主任做口头汇报,电话上报单位领导、8) 事件处理完毕后,将事故处理报告,单位领导、6。2、1 电池火情无法控制导致机房火灾1) 处理电池漏液、冒烟过程中,无法使用手提
16、灭火器控制火情、2) 打开电池柜,手动关闭电池开关。3) 立即按照机房火灾处理步骤进行操作。(详情见步骤。6机房火灾进行操作)4) 火灾处理完毕后,消除火灾报警,恢复市电,查瞧UPS运行状态, 如无法恢复市电,立即通知物业切换备用电路,观察UP状态就是否正常供电。步骤:打开机房配电柜2,手动用力推上机房电力闸恢复市电供应。图6 机房电力总开关5) 立即联系US厂商进行处理并向部门主任做口头汇报,电话上报单位领导。(详细联系方式可参照附表三:联系人信息表进行查询)6) 统计火灾造成损失,提交相关更换S电池得申请。7) 事件处理完毕后,将事故处理报告,上报部门主任与单位领导。6.。3UPS故障处理
17、流程图7 UP故障处理流程图6. 网络系统故障局部楼层网络中断1。如果就是局部楼层断网,首先判断就是否就是交换机故障;2、远程ING交换机管理地址(各楼层管理地址详见附表1)瞧就是否可以正常PING通3、如果可以IG通,证明交换机本身没有故障,网线没有故障。交由网络管理员处理、4、如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层交换机上联端口与电源灯状态就是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。 如果瞧到交换机电源灯不亮,证明交换机掉电,检查电源与电源线。6、如果以上通过检查交换机与线路后故障现象仍然存在,由此判断可能交换机存在异常,按交换机
18、故障进行处理。交换机故障1. 当确认就是交换机出现故障时,应首先从库房中找备用交换机进行更换;2. 若原有故障交换机有配置,应立即联系网络管理员对更换得交换机进行配置(网管应有所有交换机得配置备份)3. 配置完成后,测试就是否正常;全网中断1.首先测试网络得连通性,查瞧就是否可以PING通网关地址,如果可以IN通说明从P到核心交换机之间得链路正常,如PNG不通应检查接入交换机就是否有故障、就是否掉电或者交换机主线就是否不通;如果确实不通,按照局部楼层网络中断中得第4条、第5条处理。2。通过访问邮件、外网网站,判断就是局域网问题还就是广域网问题,如果局域网正常;无法访问互联网说明广域网中断,向运
19、营商进行报修、3、PING 核心交换机到核心路由器得互联IP地址得连通性,如果可以ING通,说明路由器以下网络连通性正常;、用rcert命令trace办公网网段得任意地址如果ter结果可以从出去,但不能到达外部网络,说明有可能就是核心路由器上联链路中断,向运营商进行报修。.若可以访问办公地址,无法访问互联网网站如:百度、搜狐,需要检查代理服务器就是否正常,PING就是否可以连通,向运营商进行报修。其她网络中断故障.当办公网部分用户无法获取地址,不能上网得时候,尝试用能上网得主机,进行P测试。、用PING命令去DHCP服务器就是否可以NG通,并通知网络管理员登陆HC服务器进行检查服务就是否正常,
20、如果就是DP服务器故障,应立即切换备用DHP、如果从网管员处确定DCP服务器没有故障,应PING核心交换机得这个P地址瞧就是否有延时长、丢包得现象,如果有应该可以初步判断院内有AR广播风暴形成环路或者大面积病毒爆发;再次交由网络管理员处理、6。4机房漏水1.根据机房环境监控检测得漏水示意图,查找漏水位置,判断漏水严重性。、 在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。3、机房漏水并触发告警分为以下3种情况:1) 上水管漏水:使用地吸打开空调前地板,查瞧上水管漏水位置(1层饮水间通过走廊从机房6号空调地板下进入机房)。图8 空调上水管道2) 发现漏水位置,应立即关闭位于一楼饮水
21、间顶棚得上水总开关,将水迹擦干。3) 立即联系机房工程有限公司,处理水管漏水故障、(详细联系方式可参照附表三:联系人信息表进行查询)4) 空调冷凝漏水:分别检查3台空调地板得下水管道就是否漏水,空调下水开关就是否打开。(开关逆时针旋转为打开,顺时针旋转为关闭)图9 机房1、2号空调下水管道及开关图10 机房3号空调下水管道及开关5) 如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。6) 首先关闭机房内空调及空调下水管阀门(下水阀门1-4)7) 分别打开上水阀门与上水阀门4,进行机房下水反冲、图11 机房上下水管道及阀门示意图8) 空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备
22、得运行。9) 反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。10) 如故障依旧,联系厂商进行检修。11) 空调压缩罐瓶体结霜:打开空调前面板,查瞧压缩罐上就是否结霜。(拆卸面板工具在机房缓冲区得工具箱里)图12 机房1、2号空调压缩罐位置图13 机房号空调压缩罐位置12) 关闭空调,将压缩罐上得霜及滴下得水迹擦干。13) 尝试重新开启空调,观察空调运行状态。14) 如故障依旧,立即联系厂商进行处理、4、事件处理完毕后,将事故处理报告,上报部门主任与单位领导、.4。3机房漏水处理流程图图14 机房漏水处理流程图6。 空调故障.。1 高压报警1) 收到空调高压告警后,立即进入机房查
23、瞧空调运行状态。2) 尝试将报警空调进行复位,进行启动恢复。步骤:、号空调点击空调控制面板得“报警复位”按键,号空调点击面板上得“消音”按键。3) 若故障依旧,将高压报警空调关闭。步骤:在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理开关关闭。图15 空调控制面板图16 空调物理开关4) 检查室外风机过滤网及空调过滤网就是否尘土较多。(室外机在机房后面,院食堂正对面;空调过滤网在空调正上方)图17 空调室外机图18 空调室过滤网5) 若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联系厂商更换。(详细联系方式可参照附表三:联系人信息表进行查询)6) 冲洗室外机,应打开上
24、水阀门2(室内)与阀门6(室外),开始冲洗。冲洗完毕后,关闭阀门2与阀门6。图19 室内上水开关图20 室外上水开关图21 冲洗室外机7) 重新启动空调,按住空调减压阀释放压力。(减压阀得位置在压缩罐上一个红色按钮)图22 空调压缩机减压阀8) 若仍然存在高压告警得现象,应联系空调厂商进行处理。(详细联系方式可参照附表四:联系人信息表进行查询)9) 高压故障处理完毕后,将事故处理报告,上报部门主任与单位领导。6.5.2低压报警1) 收到空调低压告警得短信后,立即进入机房查瞧空调运行状态。2) 查瞧控制器面板,确认空调发生低压报警。(见图)3) 尝试将报警空调得告警进行复位,进行启动恢复;复位报
25、警空调方法见高压报警处理第一步。4) 若故障依旧,关闭低压故障得空调;关闭空调方法见高压报警处理第二步。5) 立即通知空调厂商对空调进行检修、6) 低压故障处理完毕后,将事故处理报告,上报部门主任与单位领导。6。5.3空调故障处理流程图图23 空调故障处理流程图6。6 机房火灾机房采用自动报警装置,具有感烟与感温功能探测器,并采用自动灭火装置,当机房内发生火灾时按以下流程进行处理。如非工作时间内机房发生火灾时,在维护人员无法迅速赶到时,由保卫处保安按照应急步骤进行火灾处理并及时联系附近得相关同事协助处理、紧急联系人姓名联系电话备注(住所)1) 查找火源位置。图24 机房防护区指示灯2) 在配电
26、柜01后关闭着火点位置得输出开关,切断着火点供电。图25 配电柜3) 根据火情情况,使用机房内手提式干冰灭火器进行灭火。(机房各进出门附近安放两个干冰灭火器;机房物品间处安放两个干冰灭火器)。图26 干冰灭火器灭火器使用方法(详情见灭火器瓶体):1、 拉出保险销2、 站在上风处,喷口对准火焰基部3、 按下压把即可喷射灭火图27 干冰灭火器使用方法4) 机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)与烟感同时报警时,会自动启动。5) 若在气体灭火没有自动喷洒前发现火势较大无法控制时,确保机房内人员撤离,可手动启动气体机房灭火装置进行灭火。直接按下控制器上得红色按钮,机房内七氟丙烷灭火装置
27、将在延迟30秒后进行全淹没式喷射,如按下位于控制器下方得红色按钮,灭火装置将立即喷射。图28 紧急气体灭火按键6) 灭火处理后,确认机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;图29 排风扇控制器7) 火灾处理完毕后,统计火灾损失,立即向部门负责人做口头汇报,电话上报单位领导。8) 事件处理完毕后,将事故处理报告,上报部门主任与单位领导。6、。火灾系统流程图图30 火灾系统处理流程图附表一交换机信息编号位置设备名称网络层次管理IPNMPNMP verson只读团体名附表二 自主运维办公交换机信息序号设备名称及端口数设备管理IP地址 DHCP地址池物理位置强插号附表三 交换机常用命令
28、说明命令阀值查瞧交换机CUDsplcpu60为P过高,接近90%说明CU已经满载,说明流量过大导致交换机背板带宽过大查瞧交换机上联口Dislay i 上联端口瞧就是否有大量得error信息检测连通性Ping x、.x。x瞧就是否有连通或者延时过大路由追踪Tracrtx.x、x检查就是否路径已经到达查瞧交换机实时日志ilaog除接口p dw信息以外得异常信息附表四 机房应急预案联系人信息表部门名称联系人电话备注附表五机房服务器联系人信息表机柜使用单位机柜位置规格及型号用途联系人电话如机房发生事故,在第一时间查瞧附表四中得人员信息表,逐级进行汇报。根据各应急预案模块中得严重程度,通知附表五、附表六中得相应业务系统管理员。7 预案附录附录一 机房示意图附录二 配电柜操作说明书附录三UP操作说明附录四 空调操作手册附录五设备监控软件使用说明书
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100