资源描述
机房应急手册
V1.1
一、前言
1.1 目
随着集团信息化建设不断进一步,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件解决能力将是电脑部当前面临一项重要任务。
为应对机房也许发生突发事件,将正在发生或已发生事故损害限度减轻到最低,保证员工安全,特制定本应急处置预案。
1.2 机房突发事件分类
1) 自然灾害:指地震、火灾等因自然因素引起网络与信息系统损坏。
2) 事故劫难:指电力中断、网络损坏、软件、硬件设备故障等引起网络与信息系统损坏。
3) 人为破坏:指人为破坏网络线路、通信设施,黑客袭击、病毒袭击、恐怖袭击等引起网络与信息系统损坏。
1.3 应急解决人员组织机构
1.4 应急机构人员岗位职责
1、应急总指挥职责
1) 保证在任何时间,及时协调应急行动所有涉及岗位人员;
2) 提供必要紧急响应设备;
3) 在紧急状况下全面负责紧急行动;
4) 在必要时向外界求救,例如:119、110、120等。
2、应急小组组长职责
1) 在总指挥领导下详细开展工作,当总指挥不在时履行总指挥职责;
2) 依照获得应急信息下达命令。
3、各有关设备负责人职责
1) 负责尽快收集信息向应急总指挥报告事故状况;
2) 负责现场暂时设备急救和对事态控制;
3) 听从上级指挥人员指挥。
1.4 信息与网络安全突发事件解决原则
1. 防止为主。立足安全防护,加强预警,重点保护基本信息网络和关系信息安全、稳定重要信息系统,从防止、监控、应急解决、应急保障等环节,在管理、技术、人员等方面采用各种办法充分发挥各方面作用,共同构筑信息与网络安全保障体系。
2. 迅速反映。突发事件发生时,按照迅速反映机制,及时获取充分而精确信息,跟踪研判,坚决决策,迅速处置,最大限度地减少危害和影响。
3. 分级负责。按照“谁主管,谁负责”原则,建立和完善安全责任制及联动工作机制。依照各负责人职能,各司其职,加强各负责人协调与配合,共同履行应急处置工作管理职责。
4. 以人为本。把保障人员以及公共利益安全作为首要任务。
5. 常备不懈。加强技术储备,规范应急处置办法与操作流程,定期进行预案演习,保证应急预案切实有效,实现网络与信息安全突发公共事件应急处置科学化、程序化与规范化。
1.5 机房应急开关机详细办法
机房各设备关闭顺序如下:
二、应急预案
2.1服务器及存储设备故障解决
2.1.1排错流程
2.1.2 应急处置详细办法
l 服务器设备损坏应急处置办法
A、核心应用系统所在服务器设备损坏后,应及时查明因素,使用备份服务器替代损坏设备,并及时恢复应用系统正常使用;
B、及时与设备提供商联系,祈求派维修人员前来维修。
l 服务器软件损坏紧急处置办法
A、迅速查找因素,尝试重启系统。使用备份进行恢复。必要时联系开发商;
B、当发现服务器感染有病毒后,应及时将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒解决,同步使用病毒检测软件对其她机器进行病毒扫描和清除工作。经技术人员确认的确无法查杀该病毒后,应作好有关记录,并迅速联系关于产品商研究解决;
C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下环节:
先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服 务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务 器。
2.1.3 服务器突发状况记录文档
日期
故障发生时间
服务器名称
IP
现象
解决状况
故障恢复时间
解决工程师
备注
2.2 网络设备故障解决
2.2.1 网络设备排错流程
网络设备排错流程
下面流程图是网络维护人员所应采用排错模型,当发生网络故障时应按照此流程迅速进行定位、排除故障。
2.2.2 网络系统故障突发事件分级
故障级别
故 障 现 象
1级
网络完全拥塞或设备宕机
网络或设备解决能力严重受影响,对最后客户业务运作有严重影响
网络或设备故障对重要客户(公司经理级或重要部门)导致严重影响
2级
网络或设备性能严重下降,对最后客户业务运作产生重要影响
某些区域网络故障
普通网络节点发生故障
大某些客户网络通讯质量下降
3级
网络或设备性能受损,但最后客户大某些业务仍可正常工作
报警出错和操作命令反常
4级
其他普通故障,不影响系统整体运营,不影响大某些客户使用
2.2.3 应急办法
l 黑客袭击时紧急处置办法
A、当发现网页内容被篡改、Internet接入路由器有未知顾客登录或通过其她方式发既有黑客正在进行袭击时,应及时向信息部有关人员通报状况;
B、在信息部人员授权下,及时备份当时log日记并采用端口限制方式阻断外部入侵,观测被袭击服务器等设备状态,同步向信息部领导报告状况;
C、协调有关应用部门,与信息部关于技术人员一同负责被破坏系统恢复与重建工作;
D、协助信息部人员协同关于部门共同追查非法信息来源;
E、状况严重,依照突发事件级别应及时向关于上级部门报告。
l 病毒安全紧急处置办法
A、当发现计算机感染有病毒后,应及时将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采用show mac-address sh arp定位或IP查询将病毒机器所在网络设备端口shutdown;
B、告知维护人员对该设备硬盘进行数据备份;
C、启用杀病毒软件对该机进行杀毒解决,同步进行病毒检测软件对其她机器进行病毒扫描和清除工作;
D、如发现杀病毒软件无法清除该病毒,应及时告知顾客并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并批准格式化硬盘后,作好有关记录,并格式化硬盘;
E、机器恢复后重新启动网络设备相应端口;
F、以为状况极为严重,依照突发事件级别应及时向关于上级部门报告。
l 广域网线路中断紧急处置办法
A、链路浮现问题后,网络负责人切换至备用线路,应及时应急小组组长报告,沟通地方节点技术人员共同迅速判断故障,查明故障因素;
B、如属我方管辖范畴,由双方技术人员及时配合予以恢复。如遇无法恢复状况,及时进行备件更换或向关于厂商祈求增援;
C、如属运营商管辖范畴,及时与运营商维护部门申报故障,祈求修复;
D、依照突发事件级别应及时向关于上级部门报告。
l 局域网中断紧急处置办法
A、局域网中断后,网络维护人员应及时判断故障节点,查明故障因素,并向信息部领导报告;
B、如属线路故障,更换新线路或重新安装线路;或从近来飞线至故障设备;
C、如属路由器、互换机等网络设备(光模块)故障,应及时查找与否有有关备件可以替代,或与设备提供商联系更换设备,并调试畅通;
D、如属路由器、互换机配备文献破坏,应迅速按照备份配备文献重新配备,并调试畅通;如遇无法解决技术问题,及时向关于厂商祈求增援;
E、状况严重,依照突发事件级别应及时向关于上级部门报告。
2.2.4 网络突发事件记录文档
日期
故障发生时间
线路
设备IP
端口
现象
解决状况
故障恢复时间
解决工程师
备注
2.3空调设备故障解决
2.3.1 机房空调故障应急解决环节
当机房空调故障,会使机房温度升高,危害设备正常运营。因此发生此类故障后,要积极维修,如果一时无法修复,必要采用应急办法,保障机房环境符合规定。
1) 一方面如果有备用空调,启动备用空调;如果没有备用空调,要把邻近空调温度设定值调低1-2度即可。
2) 判断机房空调故障,详细记录空调状况,然后给空调维护供应商打电话,明确空调故障状况,让维护人员齐备工具维修。
2.4 消防设备故障解决
2.4.1 解决应对准则
1) 一旦机房发生火灾,应遵循下列原则:一方面保证人员安全;另一方面保护核心设备、数据安全;三是保护普通设备安全;
2) 人员疏散程序是:机房工作人员及时按响火警警报,并通过119电话向公安消防祈求增援,所有人员戴上防毒面具,所有不参加灭火人员按照预先拟定线路,迅速从机房中撤出;
3) 人员灭火程序是:一方面切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。
4) 119火警程序:发现火灾拨打火警电话119报警时要讲清详细地址、起火部位、着火物质、火势大小、报警人姓名电话、并派人到路口迎候消防车。
2.4.2 已发生火灾事故因素进行认真分析
1)事故因素不查清不放过;
2)事故责任者得不到解决不放过;
3)整治办法不贯彻不放过;
4)教训不吸取不放过,防止火灾事故再次发生。
2.5 电源故障解决
2.5.1 供电系统(停电)故障解决
1、准备工作
1) 停电后第一时间电话征询供电公司询问停电因素及停电时长。
2) 电话告知应急小组组长停电状况,如果在值班过程中停电需同事共同解决由组长协调告知,在停电期间要保持通信畅通有问题及时联系。
3) 准备扳手、六棱起、数字万用表、“+”字“—”字螺丝刀各两把(大 、小)等惯用电工工具,准备好高压绝缘手套、绝缘鞋、专用扳手。以及油机房钥匙.
4) 以上3点工作尽量在最短时间内结束,然后针对故障因素作出相应解决。
2、解决故障
1) 一方面确认供电已切换至UPS,询问确认停电时长。
2) 依照停电时长,依次关闭(按照1.5)关闭服务器。
3、供电恢复
1) 如当前是UPS供电,则切换至电源供电;如已经断电,则依次按照1.5倒序,启动流程启动
2.5.2 UPS故障解决
1、预警、报警解决
1) 寻常机房巡视过程中发现配电柜其中一路UPS电源失电,应及时向应急解决小组组长报告,并在应急小组组长指挥下采用相应办法控制并消除故障。
2) 机房环境动力监控系统报每一机柜或一组机柜PDU失电时,机房管理员(网络管理员)应迅速到达机房进行检查与否是配电柜空气开关跳闸还是UPS电源失电故障,若为UPS电源失电故障,应及时向应急解决小组组长报告,在应急小组组长指挥下采用相应办法控制并消除故障。
3) 信息顾客报网络可某应用中断,有关专职人员应会同机房管理员检查确认与否是UPS电源失电引起,若是,及时向应急解决小组组长报告,在应急小组组长指挥下采用相应办法控制并消除故障。
2、 现场处置
1) 当检查确认配电柜其中UPS电源失电,联系UPS管理部门,理解UPS运营状况。
2) 将失电UPS电源分离,检查及监视设备运营状况。
3) 当检查确认UPS电源均电时,各专职人员应迅速将属管辖设备电源切除,以防止突然来电损坏设备。
4) 及时告知UPS供应商或运维上,派遣技术人员上门维护。
三、联系人名单
3.1维护小构成员
3.1.1现场服务人员联系方式
职务
姓名
手机
邮件
3.1.2 厂家协助服务人员联系方式
姓名
公司
电话
职责
网络设备代理商
服务器及小型机等设备代理商
机房弱电有关事项
机房强电有关事项
机房空调
UPS设备
发电机设备
物业工程部
消防设施
展开阅读全文