1、故障管理和故障处理步骤要求(暂行稿)工程运维中心 二八年八月目 录第一章 目标3 第二章 工程运维中心在95013业务维护管理中职责3 第三章 95013业务故障分类3第四章 故障处理标准: 4 第五章 故障处理时限要求。4 第六章 故障管理和故障汇报制度4 第七章 故障通报制度5 第八章 故障处理及汇报步骤图5第九章 工程运维中心内部处理步骤6 第十章 外部支持步骤(研发、建设和其它厂家)6 第十一章 工程运维中心各部门及企业相关部门责任7 第十二章 故障跟踪管理7 附件一:95013业务重大/严重故障分析汇报9第一章 目标工程运维中心负担95013业务网络和平台日常维护工作,为规范故障管理
2、 和故障处理工作步骤,使网络和平台故障能够得到正确立即地处理,确保 95013业务安全稳定运行,特制订本要求。第二章 工程运维中心在95013业务维护管理中职责a)工程运维中心网管中心值班工程师和各分企业运维人员负担95013业务日常运行监控和维护工作。b)工程运维中心运维组负责95013平台故障处理;各地分企业运维人员负责现场支持,并负责协调当地运行商运维支持。c)建立故障通报制度,如发生重大故障,应根据故障等级和故障上报步骤逐层向上汇报。d)定时召开网络质量分析会,遇有重大故障,应立即召开故障分析会。负责全企业运维人员技术业务培训,提升运维人员技术维护水平和工作能力。第三章 95013业务
3、故障分类95013业务系统和网络故障分为重大故障、严重故障和通常故障。1. 重大故障:全部业务中止 2. 严重故障包含:一个以上业务全部中止60分钟一省以上业务全部中止60分钟用户注册、业务受理全部中止4个小时 3. 通常故障:除重大故障、严重故障以外其它故障。第四章故障处理标准:先抢通,后修复;先关键,后边缘;先本端,后对端;先网内,后网外, 分故障等级进行处理。第五章故障处理时限要求。1. 重大故障,故障处理时限2小时。2. 严重故障,故障处理时限4小时。3. 通常故障,故障处理时限二十四小时。第六章故障管理和故障汇报制度a) 发生故障时,各级运维人员应根据故障等级和时间,逐层上报。 当严
4、重故障时间1小时,运维组人员应汇报给工程运维中心。 当严重故障时间2小时,上报给企业主管副总。 当严重故障时间4小时,上报给企业总裁。当网络和平台出现重大故障时,各级运维人员应在第一时间逐层上报。 b) 对于95013业务系统各级故障,若在要求故障处理时限内未能恢复,故障等级自动上升一级,故障处理人员应按新故障等级进行处理。 c) 重大故障发生或其它故障升级为重大故障后,假如超出故障处理时限1小时仍未能处理,需升级到工程运维中心协调处理;假如工程运维中心2小时内仍无法处理,需由工程运维中心升级上报到企业管理层。 d) 重大故障处理结束1个工作日内,工程运维中心运维组应填写故障汇报并上报工程运维
5、中心。e) 重大故障处理结束后2个工作日内,提交95013业务重大/严重故障分析汇报。第七章故障通报制度1. 客服通报:当出现故障时,工程运维中心应立即通知客服,通报故障影响范围、故障处理可能需要时间,方便客服对用户解释。故障处理业务恢复正常后,应立即通知客服部门。故障处理完以后,应向客服部门通报故障原因, 和采取方法。2. 市场部和业务部门通报:工程运维中心依据故障具体情况,向市场部或 其它业务部门通报。第八章故障处理及汇报步骤图总部运维组 研发技术支持 外部支持网管监控软件客服投诉运维报修发现明确故障现象故障判定、定级上报和处理依据情况通知建设部门或设备厂家是否有能力处理?研发技术人员Y是
6、否有能力处理?共同处理故障Y上报时限处理完成要求时限内处理完成YY归档事件处理管理平台总部客服平台各级领导市场管理第九章工程运维中心内部处理步骤1. 故障输入包含网管监控发觉故障、客服收到用户投诉、各地运维上报、市场业务部门投诉和其它路径通知。2. 运维组制订专门人员,受理来自于其它部门故障申告。 3. 非值班人员发觉故障后,请第一时间通知网管值班人员进行统计(录入事件管理平台)并可要求值班人员配合故障处理及测试;故障恢复后请通知运维值班人员故障原因及处理方法,值班人员进行观察,确定故障确已恢复。4. 网管值班人员在发觉故障或接到故障通知后,需首先明确故障现象和影响范围,确定故障等级。值班人员
7、在有能力处理故障情况下应首先自行处 理。在故障上报时限内处理完成故障应统计到值班日志里. (事件管理平台)。5. 当值班人员不能处理故障,且故障等级为通常故障,值班人员应统计到值班日志并把故障情况录入事件处理系统平台。转由总部运维组工程师处理。 6. 当故障等级在重大故障和严重故障,且值班人员不能处理或不能在上报时 间内处理故障,需在上报时间内电话通知技术支持人员,并统计在值班日志和事件处理系统平台里。7. 运维组人员如在上报时限内处理了故障,需在事件处理系统平台里关闭故障,并通知值班人员,值班人员把情况统计到值班日志(事件管理平台)。 8. 如运维组支持人员不能在上报时限里处理问题,须在上报
8、时限内通知工程 运维中心责任人,并依据情况通知研发、建设部门或设备厂家相关人员,请求帮助。第十章外部支持步骤(研发、建设和其它厂家)1. 业务发展中心研发接口。业务发展中心协调员是研发故障处理接口人, 当运维人员处理故障需要研发支持时,应该通知研发设计部门协调专员。 为提升效率,当碰到重大故障时,运维人员能够直接找相关研发人员寻求支持。2. 对于重大故障,全部外部支持全部需要立即响应,主动配合,不得推诿。 3. 故障处理人在故障处理完后需在事件处理系统平台里关闭故障,并通知值 班人员,值班人员把情况统计到值班日志(事件管理平台)。第十一章 工程运维中心各部门及企业相关部门责任1. 工程运维中心
9、网管值班工程师负责网络日常监控,对于网管系统能够监 控故障,网管中心必需在要求故障发觉时限内发觉故障。运维组直接收理客服和其它路径汇报故障。网管中心值班工程师必需在要求时间对故障 进行响应和上报。2. 运维组运维工程师负责处理网管值班工程师上报故障,必需在要求时间对故障进行响应和上报。运维工程师碰到本身不能处理故障时,在上报时限内通知外部支持,可能是研发、建设、第三方设备厂家或运行商机房值班工程师。3. 各地分公运维工程师负责当地平台日常监控和维护,帮助工程运维中心网管值班工程师或运维组运维工程师处理故障,提供现场技术支持。4. 业务发展中心技术支持人员负责处理自行开发设备故障,在必需时也需要
10、配合第三方设备厂家定位问题。业务中心技术支持人员必需在要求时间对故障进行响应。5. 任何部门全部必需在要求时间对故障响应,不得推诿。对于重大故障不立即响应,造成故障不能立即恢复,上报企业领导,依据情节严重做对应处罚。 通常故障不能按要求时间响应,上报工程运维中心。第十二章故障跟踪管理1. 值班日志值班日志用于统计特定时间内全部关键网络事件,故障是其中最关键内容之一。网管值班人员需要在值班日志里具体统计故障及故障处理情况,方便接班人员能清楚情况,并方便以后査询。全部故障全部需要录入值班日志。 2. 事件处理管理平台事件处理管理平台关键用于故障跟踪。故障责任人要立即处理故障, 假如不能处理,则应该
11、立即把故障转给更适宜人员。严重等级为重大故障和 严重故障故障录入时需要抄送给工程运维中心责任人。当故障不能立即处理 且会造成用户使用不正常时,需要抄送给客服部门、和市场管理部。标准上全部故障全部应录入事件处理管理平台,以下故障不需要录入事件处理管理平台:立即处理,而且原因清楚故障,反复出现,不需要再搜集数据故障补充:本管理要求自公布之日起实施。本管理要求解释权归总部工程运维中心。附件一:95013业务重大7严重故障分析汇报故障编号故障地点提交时间提交者电话故障等级故障发觉时间故 障 描 述故障处理过程研发故障处理人员运维故障处理人员继续跟踪问题故障处理结果故障处理时间说明:故障编号:定义GZBJ各地节点汉语拼音第一个字母)xxxx年xx月XX日如:GZBJ1201