资源描述
OptiX 155622H设备Power-fail告警处理专题
拟 制:
曹竹桃
日 期:
2007-9-8
审 核:
费海
日 期:
2007-9-17
审 核:
尹显胜
日 期:
2007-9-17
批 准:
王淑玲
日 期:
2007-9-17
华 为 技 术 有 限 公 司
版权所有 侵权必究
修 订 记 录
日 期
修订版本
描 述
作 者
2007-09-08
V1.0
初稿完成
曹竹桃
目 录
关键词:
OptiX 155622H
摘 要:
OptiX 155622H设备Power Fail告警处理专题
缩略语清单:
无。
参考资料清单
无。
OptiX 155622H设备Power-fail告警处理专题
1 背景知识
1.1 机盒电源模块
OptiX 155/622H机盒内主要有三块单板跟供电相关:POI,MB1和MB2。其中POI是电源滤波板,MB1和MB2扣在一起作为电源母板。POI单板仅仅是滤波作用,MB1单板主要提供的是接口,MB2单板则主要提供设备所需的电压转换模块。在OptiX 155/622H设备中,外部电源接入以后首先经过POI滤波。整个系统的核心电源(包括+12V、-12V、+5V、-5V)都是由电源背板MB2统一产生,通过背板MB1送给各个业务处理板及SCB主控板,其中+5V主要提供给各个单板CPU使用,-5V给公务电话铃流供电,而12V是主要给38M晶振的锁相环和公务译码芯片供电。-5V是由-12V稳压产生,如果没有-5V,公务电话话音会有明显异常。供电原理示意如图1-1所示:
图 1-1 电源模块供电原理图
1.2 主控板电源模块
OptiX 155/622H设备除了机盒上的电源模块外,主控SCB板上也存在部分电源模块:5V充电电池模块。5V充电电池模块对系统非常重要,在系统掉电时保存系统的配置和时钟,如果损坏,会导致设备掉电后DRDB数据库数据无法保存。
1.3 Power-fail告警定义
OptiX 155/622H设备主控板SCB板对-12V,+12V,+5V,-5V都有检测电路,可以检测有无。由于主机对这个告警的上报缺省是关闭的,所以不会主动上报。在网管上可以将此开关打开,这样当模块无输出的时候就会有告警了,告警名称为POWER_FAIL。
POWER_FAIL告警参数含义如下表:
告警参数
告警含义
0x1
+5V告警
0x2
-5V告警
0x3
+12V告警
0x4
-12V告警
0x5
电池没电告警
0x7
+5V告警备用通道
2 Power-fail告警处理思路
2.1 不同告警参数处理思路
+12V和-12V是由一个电源模块产生,如果电源模块损坏,一般会同时产生这2个告警。+12、-12V电源送到主控板中的一个重要作用,就是给38M时钟锁相环的运算放大器提供电源(运放是+-12V供电,见供电原理示意图1-1)。当12V电源中任何一个失效后,此时38M锁相环无法正常跟踪其它时钟源,导致本设备与对方设备之间时钟无法同步。由于系统38M时钟是本网元中各个线路板的工作时钟,当本设备的38M时钟无法与本线路板光纤输入业务的频率保持同步时,就会使业务产生指针调整。而当这个频率不同步引起的频率差大于4.6ppm时,甚至会引起LOF等严重告警,此时整个业务都会中断。12V电源还有一个作用就是给公务的编解码芯片供电,因此12V供电故障可能导致公务异常。因此,如果出现该告警,可能会伴有本站和相邻站的大量指针调整和时钟源锁相倒换等告警,需要更换OptiX 155/622H设备机盒。
-5V由于是由-12V稳压产生,因此,-12V告警一般会导致-5V告警,如果只有-5V告警,则稳压器损坏的可能性较大,同样需要更换OptiX 155/622H设备机盒。如果没有-5V,公务电话话音会有明显异常。
+5V主要提供给各个单板CPU使用,如果没有+5V,单板CPU无法工作,也无法上报告警,因此+5V电源采用双备份,同时也提供了对+5V主备两路的分别监控。当出现主备任一路告警时,均需要更换机盒来解决。
充电电池告警表明电池能量不足,如果是单板放了很长时间或初次上电,可以先观察一段时间(如1天),看该告警是否消失,如果不消失,再采取措施更换。充电电池对系统非常重要,在系统掉电时保存系统的配置和时钟,如果损坏,会导致设备掉电后DRDB数据库数据无法保存。因此,如果发现需要尽快更换主控SCB板,同时必须将配置数据备份到FLASH中。
2.2 Power-fail告警处理步骤
第一步、采集告警信息
1、T2000网管“网元管理器”中,将告警属性中的“power_fail”项设置为“不屏蔽”,并应用。
2、同步网元告警,查看power_fail告警参数
第二步、根据T2000上查询的告警参数确认告警原因及处理方法
告警参数
告警含义
处理方法
0x1
+5V告警
更换机盒
0x2
-5V告警
更换机盒
0x3
+12V告警
更换机盒
0x4
-12V告警
更换机盒
0x5
电池没电告警
更换主控板
0x7
+5V告警备用通道
更换机盒
第三步、现场处理,更换实施
1、若更换机盒,则设备需要下电更换;
2、若更换主控板,则按照155/622H设备更换主控板方法进行更换;
3、更换完毕后,需要在T2000上确认Power_fail告警是否不屏蔽,以防止新更换单板有相同的问题存在。
3 典型案例
3.1 案例一、SBS155H机框电源板失效导致主控板上告“powerfail”异常告警
【现象描述】
某局扩容工程中要在622MSP环上的一个站点通过SL1光板带出一个SBS155H设备,在做该SBS155H设备的单站调测过程中,发现17板位主控板上告三个“powerfail”告警,但做业务通断测试等项目都正常,且无其他异常告警。
BIOS版本为 2.14.01.BD 主控版本为 4.02.04.13
【告警信息】
4222 17 POWERFAIL major start 2001-12-4 10:28:40 None 0x02ffff01
4223 17 POWERFAIL major start 2001-12-4 10:28:40 None 0x03ffff01
4223 17 POWERFAIL major start 2001-12-4 10:28:40 None 0x04ffff01
【原因分析】
该告警反映的是对单板上供电电压的检测结果,SBS155/622A(H)的电源是有来自SS42MMB单板上的电源模块提供,共有+5V,+12V和-12V三种,另外,在SS42SCB单板上通过三端稳压器7905从-12V电源稳压出-5V,在SS42SCB板上还有一个充电电池,为SRAM和时钟芯片提供掉电保护.
主机软件对其中的+12V,-12V,-5V和电池电压进行检测,如果发现某个电压不正常,及会产生POWERFAIL告警
【处理过程】
1、 开始以为是误告,在网管上删除后用命令行和网管查询,告警还是存在;
2、 测量输入电压,正常且稳定,无异常;
3、 更换SCB板,告警依旧;
4、 更换SBS155H机框,告警消失,一切正常。
【结论和建议】
如果发现主控板上告“powerfail”告警,很可能与电源模块有关,不要认为是主控板的问题。
3.2 案例二、155/622H机盒问题导致的SYNBAD告警
【现象描述】
A-B-C三个155/622H设备给成一个无保护链。时钟的跟踪也为A-B-C。但是B站点上报synbad告警,全网性能也下降。A为外接时钟。
【告警信息】
Synbad
【原因分析】
机盒问题,导致提供给晶振的电压过低造成
【处理过程】
1、确定是A站的问题还是B站的问题。改时钟跟踪,C站自振。B站跟踪C站,synbad不消失;
2、用ptp:12,86/87命令查询,结果B站时钟劣化严重;
3、确认是主控板上晶振问题还是由机盒导致问题。由于POWER_FAIL告警默认是不上报的,用alm-set-monevent,将powerfail告警设置为监视。发现powerfail上报上来。参数有2,3,4确认为机盒问题;
4、换机盒问题解决。
3.3 案例三、155622H电源模块故障导致指针调整、公务失效
【现象描述】
三个155622H设备组成点对点的无保护链,#1――#2――#3。其中#1设置为自由振荡,#2,#3设置为通过线路跟踪#1。故障发生时,#3网元支路板跟#1有业务的通道出现大量的TU指针调整,业务受到影响。#1到#2的业务没有问题。怀疑是时钟板故障,更换#3的SCB,故障依旧,最后通过更换了#3的机盒解决了问题。
【告警信息】
TU指针调整
【原因分析】
机盒问题,12V电源还有一个作用就是跟公务的编解码芯片供电,因此12V供电故障可能导致公务异常。
【处理过程】
1、将机盒加上SCB上电并接上公务话机测试,发现摘机以后没有拨号音,跟12V电源模块失效的推测现象比较吻合。
2、测试12V电源模块的输出,发现正常的模块输出时,此电源模块输出的电压为+12V/-12V,而返回的故障板件实际输出为+3V/-15.9V,显然已经不符合使用要求。
3、问题定位清楚以后,更换电源模块即可解决问题,在现场维护过程中,可以直接更换机盒。
【结论和建议】
由于38M晶振的锁相环和公务编解码芯片同样都由12V供电,所以检测故障的时候不妨试一下公务电话有没有异常,如果又有指针调整,同时公务也没有拨号音,则基本可以肯定是MB2的电源模块问题
4 总结
OptiX 155/622H设备power-fail告警与机盒及SCB主控板的电源模块问题息息相关。该告警主机侧默认为不上报,当网元出现时钟劣化、指针大量调整时,需要监视该告警,以确认设备电源模块问题引起。
展开阅读全文