资源描述
1 概述
随着PTN产品在全球的广泛应用,用户对产品的稳定运营规定也越来越高,相应对我们的维护工程师技能提出更高的规定。
《ZXCTN产品故障排查指导手册》是面向有一定PTN维护基础的中兴售后工程师, 通过对该手册的学习和应用,提高售后工程师的实际故障解决能力,争取使售后工程师水平在较短时间内有明显提高。
本文分为故障解决流程、故障解决的常见方法、故障解决的常用命令和工具、故障反馈的方式和信息说明,以及常见故障排查和典型案例几个部分进行描述。
2 故障解决流程
2.1 故障解决总流程
图 21 故障解决总流程图
2.2 紧急故障解决流程
紧急故障解决流程如Error! Reference source not found.所示。
图22 ZXCTN产品紧急故障解决流程图
流程说明:
1. 尽快恢复业务
出现紧急故障,承载的业务中断,假如有备用路由,请把业务割接到备用路由上。
2. PTN故障分类说明
除业务类故障外,尚有其他OAM类故障,监控类故障等,可以根据其他的故障解决流程进行解决。
3. 设备告警、配置等情况检查
PTN产品配置比较复杂,现场若出现配置问题时,需要仔细排查网管、设备侧配置及运营状态是否正常,然后再转入设备类故障解决。
2.3 故障解决原则
在解决设备故障时,设备维护人员应当遵循一“查看”、二“询问”、三“思考”、四“动手”的基本原则。
1. 查看
维护人员到达现场后,一方面应仔细查看设备的故障现象,涉及:设备的故障点、告警因素、严重限度、危害限度。只有全面了解设备的故障现象,才干透过现象看本质。
2. 询问
观测完故障现象后,应询问现场操作人员,有没有直接因素导致此故障,比如:修改数据,删除文献,更换电路板,停电,雷击。
3. 思考
根据现场查看的故障现象和询问的结果,结合自己的知识进行分析,进行故障定位,判断故障点和故障因素。
4. 动手
在通过前面三个环节找出故障点后,维护人员可以采用适当的操作来排除故障,如:修改配置数据、更换板件。
2.4 故障定位的基本思绪
2.4.1 故障因素
1. 工程问题
工程问题是指由于工程施工不规范、工程质量差等因素导致的设备故障。此类问题有的在工程施工期间就能暴露出来,有的也许在设备运营一段时间或某些外因作用下,才暴露出来,为设备的稳定运营埋下隐患。
产品的工程施工规范是根据产品的自身特点并在一些经验教训的基础上总结出来的规范性说明文献,因此,严格按工程规范施工安装,认真细致的按规范规定进行单点和全网的调试和测试,是防止此类问题出现的有效手段。
2. 外部因素
外部因素是指除传输设备以外导致设备故障的环境、设备因素,涉及:
(1) 供电电源故障,如设备掉电,供电电压过低。
(2) 光纤故障,如光纤性能劣化、损耗过高,光纤损断,光纤插头接触不良。
(3) 电缆故障,如中继电缆脱落、损断,电缆插头接触不良。
(4) 设备接地不良。
(5) 设备周边环境劣化。
3. 操作不妥
操作不妥是指,由于维护人员对设备的了解不够进一步,做犯错误的判断和操作,从而导致设备故障。
在设备维护工作中,最容易出现操作不妥导致的故障。特别在改网、升级、扩容时,出现新老设备混用、新老版本混用,由于维护人员不是非常清楚新老设备或版本之间的差别,经常引发故障。
4. 设备对接问题
ZXCTN设备可以接入多种业务信号,如E1/STM-1/FE/GE等。
导致设备对接问题的因素也许有:
(1) 光纤连接错位,在维护过程中最常见的因素是光接口插错。
(2) 对接设备自身存在问题,如光模块问题、线卡故障等。
(3) 对接设备端口配置问题,如协商模式不统一、光模块速率不统一等。
5. 设备因素
设备因素指由于传输设备自身的因素引发故障,重要涉及设备损坏和板件配合不良。其中的设备损坏是指在设备运营较长时间后,因板件老化出现的自然损坏,其特点是:设备已使用较长时间,在故障之前设备基本正常,故障只是在个别点、个别板件出现,或在一些外因作用下出现。
2.4.2 故障定位的原则
由于传输设备自身的应用特点——站点之间的距离较远,因此在进行故障定位时,最关键的一步就是将故障点准拟定位到单站。在将故障点准确的定位到单站后,就可以集中精力来排除该站的故障。
故障定位的一般原则:
1. 排除外部的也许因素,如光纤断、互换故障或电源问题等,再考虑传输设备的问题。
2. 尽也许准拟定位产生问题的站点,再将故障定位到单板。
3. 在分析告警时,应先分析高级别告警,再分析低档别告警。
3 故障解决常用方法
3.1 观测分析法
当系统发生故障时,在设备和网管上将出现相应的告警信息,通过观测设备单板上的指示灯运营情况,可以及时发现故障。有关指示灯的运营状态请参见单板指示灯的相关说明。故障发生时,网管上会记录非常丰富的告警事件和性能数据信息,通过度析这些信息,并结合PTN设备告警原理机制,初步判断故障类型和故障点的位置。
通过网管采集告警信息和性能信息时,必须保证网络中各网元的当前运营时间设立和网管的时间一致。假如时间设立上有偏差,会导致对网元告警、性能信息采集的错误和不及时。
3.2 仪表测试法
假如无法定位误码是由PTN系统内部产生还是外部其他问题引起,可以通过远端用尾纤自环,本端用仪表测试的办法来拟定。
仪表测试法一般用于排除传输设备外部问题。可以采用如下一些仪表进行辅助查询。
1. 光功率计
先使用网管查询设备光功率大小,一般网管查询的光功率性能和实际功率性能大约有1~2db的误差,若查询后处在临界状态,可以使用光功率计精确测量该点光功率,以此确认光模块类型、光衰、光放是否合适。
2. ATM数据分析仪/SDH分析仪/数据网络分析仪
根据现场业务种类拟定使用何种仪表进行检查测试。
3.3 拔插法
发现某种单板故障时,可以通过插拔单板和外部接口插头的方法,排除因接触不良或解决机异常的故障。
注意
拔插单板时应严格按规范操作,以免由于操作不规范导致板件损坏等其他问题。
3.4 替换法
替换法是指使用一个工作正常的物件替换一个被怀疑工作不正常的物件,从而达成定位故障、排除故障的目的。这里的物件,可以是一段尾纤、一块单板或一个设备。替换法合用于以下情况:
1. 排除传输外部设备的问题,如光纤、接入设备、供电设备等。
2. 故障定位到单站后,排除单站内单板的问题。
3. 解决电源、接地问题。
替换法操作简朴,对维护人员规定不高,是比较实用的方法,缺陷是规定有可用备件。
3.5 配置数据分析法
更改配置法是通过更改设备配置来定位故障的方法,合用于故障定位到单个站点后,排除由于配置错误导致的故障,可以更改的配置涉及时隙配置、板位配置、单板参数配置。
注意
更改设备配置之前,应备份原有配置,同时具体记录所进行的操作,以便于故障定位和数据恢复。
比如,在升级扩容改造中,假如怀疑新的配置数据有误,可以重新下发原有配置数据,来定位是否是配置数据的问题。
由于更改配置法操作起来比较复杂,对维护人员的规定较高,因此仅用于在没有备板情况下临时恢复业务一般情况不推荐使用。
3.6 经验解决法
在一些特殊的情况下(如由于瞬间供电异常、低压或外部强烈的电磁干扰),设备某些单板的异常工作状态(如业务中断、MCC通信中断等),也许随着相应的告警,也也许没有任何告警,检查各单板的配置数据也许也是完全正常的。此时,经验证明,通过复位单板、重新下发配置数据或将业务倒换到备用通道等手段,可有效地及时排除故障、恢复业务。
经验解决法不利于故障因素的彻底查清,除非情况紧急,否则应尽量避免使用。当维护人员碰到难以解决的故障时,应通过对的渠道请求技术支援,尽也许地将故障定位出来,以消除隐患。
4 故障解决常用工具
4.1 Telnet命令登录检查
在PTN设备中可以在服务器上通过telnet命令登录到设备侧,在特权模式或者诊断模式下进行设备问题的查询。
1. 登录PTN设备
telnet IP地址;
用户名和密码zte/ecc(也可以使用用户名who/密码who进登录进入到查询模式下,然后输入enable/zxr10登录到特权模式进行查看)。
2. 进入诊断模式
在特权模式下,输入diag/zxr10
5 故障反馈方式和信息说明
5.1 故障反馈方式
1. 可以拨打800热线电话申报故障;
2. 以邮件的方式给故障接口人反馈故障;
3. 在技术支持网站登记故障单;
5.2 信息说明
现场的故障解决人员在碰到需要远程支持人员或研发人员帮助分析故障时,应当按照故障信息采集模板的规定提供故障的具体情况。
展开阅读全文