1、扩展ECC不通的一个解决方法 关于新建子架间可以互通ECC,而不能与原有子架通ECC的问题 ----引用A站督导邮件: “在本次扩容工程中A站遇到一个很奇怪的问题,以本人知识水平无法得 出解释。虽然现在已经正常,但做为一个工程现场的督导,我想有责任有义务对该问题进行 描述与反馈。以便今后的工作中遇到类似的问题,也有一个实际的案例可以参考。希望各位同仁及同行“前辈”指教。 本次工程A站新增两个320G波分子架(以下简称新设备),分别对应两个不同方向。原有6个子架(以下简称老设备),2个方向各3个,分属不同机柜。通过以太网口走ECC自动路由与网管通信。
2、 新设备的网线分别插在两个方向老设备下的HUB上。 对设备进行加电后,分别对新设备两个子架按照要求进行相关设置,包括初始化网元、设置IP、子网掩码、网关,及用命令:cm-set-lanautoecc:open;打开ECC自动路由功能, 然后复位。 但发现新设备和老设备之间ECC始终不通。但两个新设备之间能通ECC。之后检查相关设置,无误。 老设备6个子架IP分别为:132.37.6.98 到 132.37.6.103 ID对应为:24,25,97,26,27,98
3、子网掩码均为:255.255.255.224 网关均为 :132.37.6.97 新设备2个子架IP分别为:132.37.6.106 和 132.37.6.107 ID对应为:106,107 子网掩码均为:255.255.255.224 网关均为 :132.37.6.97 以上数据显示所有网元均属同一网段。拔掉新设备网线,用电脑PIN G132.37.6.106 和 132.37.6.107。均不通,说明该IP在网络上没有冲突
4、
查询主机版本:
老设备均为:
OptiX 1600G BIOS 8.07.01 Jan 15 2003 09:40:04
NeSoft(D) 5.08.01.31
5、 NeSoft(D) 5.08.01.31
6、旧子架间无法互通ECC的情况。费了老大的劲也没能搞定,直到10月13日的早上突然一通百通了?! 同样的问题在B站再次出现,在现场处理的过程中,发现B站的故障情况与A站的完全一致,折腾了两个小时没有任何结果。于是将A站点站点(共8个子架)的相关设置、告警、性能等通通查了一遍,终于发现了一个问题:10月13日,虽然A站督导肯定无人对网元进行了任何操作,但上午8点23分左右,一个旧子架的主机因人为误操作或本身异常发生了一次复位,如下: #24:lognew:1,"nesoft" @@@@@@@@@@@@@@@@@ Message from 0x00090018 (9.0.24 589848
7、) @@@@@@@@@@@@@@@@@@ #24:szhw[A1-1 ][][2004-10-25 0:38:0]> :errlog ResetLog:: total reset times = 9 No.0: 1990-1-1 5:50:8 No.1: 1990-1-1 6:4:55 No.2: 1990-1-1 6:13:34 No.3: 1990-1-1 10:42:26
8、 No.4: 1990-1-1 12:39:15 No.5: 2004-2-5 17:4:39 No.6: 1990-1-1 0:0:16 No.7: 2004-9-27 17:17:38 No.8: 2004-10-13 8:23:41 # 1990-1-1 5:50:8 fatal task errorcode=ffffffff, Line 717 in vos_err.cpp # 1990-1-1 6:4:33 fatal task errorcod
9、e=ffffffff, Line 3368 in mml_cmdline.cpp # 1990-1-1 6:13:12 fatal task errorcode=ffffffff, Line 3368 in mml_cmdline.cpp # 1990-1-1 10:42:4 fatal task errorcode=70008, Line 2619 in cm_net.cpp # 1990-1-1 12:38:53 fatal task errorcode=70008, Line 2619 in cm_net.cpp
10、 # 2004-2-5 17:4:17 fatal task errorcode=ffffffff, Line 3368 in mml_cmdline.cpp # 1990-1-1 0:0:16 fatal task errorcode=ffffffff, Line 717 in vos_err.cpp # 2004-9-27 17:17:16 fatal task errorcode=70001, Line 389 in qx_pronedata.cp # 2004-10-13 8:23:19 fa
11、tal task errorcode=70001, Line 389 in qx_pronedata.cp #24:szhw [A1-1 ][][2004-10-25 0:38:3]> #25:lognew:1,"nesoft" @@@@@@@@@@@@@@@@@ Message from 0x00090019 (9.0.25 589849) @@@@@@@@@@@@@@@@@@ 10月13日上午,也就是现场督导反馈说“第三天早上到机房,打开电脑,对设备进行查询时
12、发现ECC通了。问题消失。查询相关设置”的时间。 由此提醒我,旧子架的那次主机复位可能是解决问题的关键。查询B站的任意一个旧子架的自动扩展ECC情况,发现是OPEN状态的。 我于是下发了这样两条命令: :cm-set-lanautoecc:open //打开自动扩展ECC :reset; //主机复位 复位完成后再次查询,不出所料,新老子架间的扩展ECC通了。 无意中总结发现了解决这个问题的一个方法,但这个问题存在偶发性,这次工程,涉及站点众多,目前出现该问题的也就是A站与B站。按照常理分析,旧子架运行状态稳定,扩展ECC应该就没有问题,主机复位到底在这其中扮演了一个什么样的角色,是软/硬件的小BUG还是其他什么原因呢? 《最终分析结论》: 因为自动扩展ECC建立的前提是搜索到其它的网元的IP,然后由IP较小的主动连接IP较大的。由于5.8.1.31版本一个网元最多只能找到四个网元,6个网元运行稳定以后,如果新接入网元的IP较大的话,老子架就没有能力再和新子架建立连接了,所以就通不了。 将老的子架复位后,网元搜索会重新进行,所有网元之间的通讯可以重新组织,所以新老网元之间可以建立通信。如果新接入网元的IP比老子架网元的IP小的话,不需要复位老子架,就应该可以通的。
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818