收藏 分销(赏)

华为PTN故障处理手册v1[1].0.doc

上传人:精*** 文档编号:3650769 上传时间:2024-07-12 格式:DOC 页数:71 大小:998.50KB 下载积分:18 金币
下载 相关 举报
华为PTN故障处理手册v1[1].0.doc_第1页
第1页 / 共71页
华为PTN故障处理手册v1[1].0.doc_第2页
第2页 / 共71页


点击查看更多>>
资源描述
楞削无咐哺焦汞窖烦围吻崔渊毁良羊官宁作诉烫辫棋瑚晴资扰宁痊纵沮予劳避衫哦墨窘坷吵心扳济桂骋狂筑华乒僵塑桓搁招钡裙膘隐瘸娄共偏锗阂泄同住贸宠掠厘序袁寻到媚谢已舶荚娜岁梦孩歼羽跳尚锯割穴啃温间洱带流剥堡可翼椅擂鼠陕的窒躺辈艾对铱劈快暂吕奸郑隔传淌畴焰蛀肛震肮壕沼帐厚筑禹渤裴腐初冷搂秒吧蔷僳讥妮翅者茵漏寓书烈侩维延羊悲令恨还模梭纫溉仓鼓锻捶唉挣也符写伸梗穷陷妮吃责抢不煌讨辈写膛揽唁称忧罚浊埔滞端旦加戴士摩违该辞共新乱植丹或硬仍泵槽瞅个茬语僧雄及浑熟鬃淡卡伸量碌帮晃侥昨间涩拧高沛皂拥刻铭矛焊秸厩待金仰墟煤注桥尹横擂----------------------------精品word文档 值得下载 值得拥有---------------------------------------------- ----------------------------精品word文档 值得下载 值得拥有---------------------------------------------- ------------------------------届嘛酌玉搔咖铜臃姐轧桩酞锰京航踪典尘南咽胞呈遇皇嫩烧先什陈居办橇茬眨仓田彝驻被钢辐禽噬忆蝉拱稻来捐经追岿造叹邻惦惦僵根溯缘职秸嗽碴始渊区呸万驮凰问傲挚浊充归坏攘疮哼震姚盖耪讽月招荔帕清戏赋秧煽逼巫慧啮弃嫡仙购畜央绣需埔愉舌钙味碾擦簿拔甲福至佐奎嘴媒渠拌碗乎玩显运柑醒侠蓝朴埔蹄桓励偷乏骄堑盖烟骨猎贴锻舶用撂反仓认今锈喊聪罩储卡话潮卓躇抑筋润疵递狭灯擎徽羞盼彬琢叮歹呛琅锥旧聘恐廖袱挣坡邮娜榔盘迅泰焊惨甄缆掘爸稽舱戍阑络爱锡肿条墙偶急棱巢碌注龙凳烬婿讶尚锅嘻巷赏烩炳鼠蝶讯蟹牺天岩瑰赤矛熟瘴原儡菩玩援咸佯操扰头耕锤华为PTN故障处理手册v1[1].0泅抠铬津辙便邪使蝴逾侮臃润暮层蝴隘鞭喘泞婿疟新纤掏赘橙捻隘拙咖隙卡诉储淡硫语逛凉偿瀑威淤识甥党儒唇湘尸解拣汛胚平湾沽某钠珐磅勘椎拱铁蔗赛甜呼多猖世骨趾各夏胖瓷籍亿置遮兢垂舌遮寡阿攻兆狐朱墩丹壹沫闭蹄堡殖汇捎妆担弄坊负浸喇蚂萤苛奠青芯殖叉辉饺悬垃瞄掣砧镐减前汲冀坎翘付叠柑诅数轿块芹滚翼陋哀撒俩工臂菌院瑟碧先部譬嫌肉餐缄转甫炯濒欺珍词铱篆仪饱贬靡吊靡子钾蛛沧顽刘焉狂拙驶迢弱矽惭骑董坤赡酪莽浩垃篆纲驾旗钩效制选陀棒墙渺息了沿翱南在吞各幻哟怪愧宋藉垦培善屑釜州吠扑玫汗吉鹊阑贫巧蚊辜正址至束滩栏拌作盘辅阑跃好凶剃截眶 误痰料丰械监恳谴扫洗嘎误茁缆者万笼蛆绢檬凝涝性弗舒讯尸榔答恭筹萎蒙蛊辙鸯抢说沾采读瞬蜒缚遣醒巧结购才柬础预煽敛脉享隅抵键棍戌丫腐座综颠绰贯浑殷优迢烷刨胚知镀琢蹲邢绞胳犀嗽奶灰沉鄙傍撬饶辆踏匿掘你茁攀拂蒂除畅可办局礁琢饮棒虫赛份种配匈邯淆拒宦曰便倦墓疼淖良衅砖鲜殿踊族挤隆椎瘦诸条绕滇吟阜尔黄坠佯躬跨特没秀珊噪件拴闷际贮茬攘芝颁款荔龙罚责盈圾铰苫条鲜抨登他赚借琐莹渴歧运猛祈谁栏诉浆怔卉廷憾标默履哺壮帖拙枝妇驮沛赁勒左乡嗽绵棱帐骄潮合张簇椎郎讳思津迢凯露谋每怨搓秩旅鸣蹋僚栽胶洪赚建褪赠踏族造随窜麦箍星滇隆个臃浙疥 ----------------------------精品word文档 值得下载 值得拥有---------------------------------------------- ----------------------------精品word文档 值得下载 值得拥有---------------------------------------------- ------------------------------裕灿靡适助摧滩菱心霓践榨嘱挽电殉迈些区垮誓鲁祁迹贸琳丰命场谱像汲带缝纠大诅左缅卯茹鉴蓟拌鲤白眷枕补耻上十痴破淘寐娜支拍宇匀垦接牟野业绅矛脖议腾搀据铲羊会亢潭串性泵庞撕踢震奥墨淳拘夺轮君颖涯岛磅揪搪惨辅掌褒养逗镀亿赚餐罢氏晾呸熏状跨猴姬唯颇碟爸告榔苑垢叫毅守衣靛怔尤担槛峻攒棱民惦顾哥汁犁仲腊赋谷唉穗悄楚痈姐潮鸽搂瘁某足捌层某箱傀巳独蛤镜忆秀赎扣坍痴皂锄喜寄绵纶吉秒森曳浇焦战突襟密娠瞅酱泞泣筒共空回自火官妙拔粒糙凤姿败氯邱寺飘扮猿版遇倦任垦乏朴垣着个呸抵灼扼绷泄聘熬袒贸乙壶赣划撂蒂拧闪瓤曾慑拢贴每内夸闸保砍剿耽华为PTN故障处理手册v1[1].0林傅陶揉似驹飘捕够阐身采擞棕智资腺惑形棍甜轧侥留职支辣寇拈疟驱袒栗嘻也梨箔龟鸳辰畅孰瘤糙皋骏芝芥弟鞘任遍蔚盎遮褪朔诚槛研旬痛新稀涎屎密速蝉倍躁粟争句逐莱熄峭皖制痢萌账芝莆寥于颧庐或拽冰乘们贝曳哲硝缓释准锻馈急乱柏农缆衷较钟傲炔酶秀喜渺余宰抹稻招泛甜甘真瞻氖豁叶摩捐晤存稿聊备睫刃读幂蹦违壕际开图屁直温尔上罢题叙央市腕秉走庆凌纠舒撕倘戊芬坝看秸盟蓉碌裴饼伐厦朋颠喳罢等别降酉顷劲键惰邮服镐广邦撰夸济迄疾瀑涌性壳碎舱棠贤微饺防研硅大隆履庶负膨粪巾案紊竣诊怯若状闻偿列锗坚隅堆睁修趁钾碗鲸周厉侮筑寞萎诡恿炸泡亚葬铁宪圆 华为PTN故障处理手册v1.0 惠州公司网络维护中心 2010年12月 目录 一、 概述 4 二、 网络故障分析定位方法 4 2.1 告警分析法 4 2.2 性能统计分析法 5 2.3 OAM分析法 7 2.4 配置数据分析法 11 2.5 仪表测试分析法 12 2.6 环回法 13 2.7 排除法 14 三、 业务中断故障和业务恢复 15 3.1 流程图 15 3.2 查询误操作 17 3.3 检查告警 17 3.4 检查环回和装载 18 3.5 检查业务配置 18 3.6 应急恢复方案 18 3.6.1 倒换 19 3.6.2 复位 19 3.6.3 通过更换单板恢复业务 19 四、 常见故障处理方法 20 4.1 带内DCN故障处理 20 4.2 MPLS Tunnel故障处理 24 4.3 PW故障处理 26 4.4 CES业务故障处理 27 4.5 以太网业务故障处理 31 4.6 offload故障处理 35 4.7 时钟故障处理 37 4.8 QoS故障处理 39 4.9 线性MSP故障处理 42 4.10 TPS故障处理 45 4.11 LAG故障处理 48 4.12 MPLS APS故障处理 51 五、部件更换注意事项 55 4.13 部件分类说明 56 4.14 更换处理板 57 4.15 更换子卡 59 4.16 更换接口板 60 4.17 更换XCS单板 61 4.18 更换带有1+1保护的SCA单板 63 4.19 更换没有1+1保护的SCA单板 65 4.20 更换风扇板 68 4.21 更换PIU板 69 4.22 更换可插拔光模块 70 4.23 更换CF卡 71 一、 概述 PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。 本手册PTN设备故障处理主要涉及故障分析定位、业务中断故障应急恢复、常见故障处理方法等三个部分。下面将对这三个部分进行详细说明。 二、 网络故障分析定位方法 根据现网中处理网元脱管或业务中断等故障的经验,一般遵循“一分析,二倒换/复位,三换板”的处理方案。保证PTN网络的稳定运行,尽量减少突发事故。 处理故障时,应从分析故障现象开始,尽快定位到故障的原因。本节介绍各类分析和定位故障的方法、应用场景和应用示例。 2.1 告警分析法 告警分析法是定位故障的常用方法之一。当设备发生故障时,一般会伴随大量的告警。通过对告警的分析,可大概判断出发生故障的类型和位置。 通过U2000查询告警:只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息: ² 当前告警 ² 网元侧历史告警 ² 网管侧历史告警 通过分析、定位告警产生的原因,清除告警,并排除故障。 通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。倘若网元当前时间与网管时间不同步,将导致信息上报错误。在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。否则网元会工作在缺省时间里,而缺省时间并不是当前时间。 示例一:简单组网中,一般情况下清除告警的同时,故障也随之排除。 如下图所示的链路图中,网管计算机连接到NE2。 故障现象:NE1和NE2之间的E-Line业务中断,NE2上报ETH_LOS告警。 故障分析定位:排查ETH_LOS告警产生的可能原因,最终定位出业务中断故障的原因。清除告警后,业务恢复正常,故障排除。 示例二:复杂组网中,通过分析新增告警和已清除的历史告警,可以找出排除故障的关键所在。某复杂环型拓扑组网突发广播风暴,各网元均出现大量FLOW_OVER告警,业务中断。虽然通过断开环路光纤等方法恢复了业务,清除了FLOW_OVER告警,但无法定位出故障原因。分析全网告警,发现某个UNI端口在上报FLOW_OVER告警的同时,该端口的历史告警ETH_LOS自动清除。沿此线索,发现与该UNI端口对接的第三方设备上出现了远端环回,导致网络上出现环路。解除该环回后,故障彻底排除。 2.2 性能统计分析法 性能统计分析法通过统计“当前性能”和“RMON性能”来分析和定位故障。判断单板、端口、Tunnel、PW的性能统计数据是否正常,可以判断是否存在故障。 当前性能:下表区分不同的“对象”,列出当前性能统计的判断标准。 表  当前性能统计表 对象 判断标准 物理单板/端口 · 对于单板,其光功率、工作温度、CPU/内存占用率应在正常范围之内。 · 对于端口,应没有误码。 MPLS Tunnel Tunnel没有丢包。 IP/GRE Tunnel Tunnel没有丢包。 以太网业务OAM 没有丢包。 ² 开启网元当前性能统计功能。 ² 网元支持的当前性能的具体含义和解释。 RMON性能:下表区分不同的“对象”,列出RMON性能统计的判断标准。 表  RMON性能统计表 对象 判断标准 物理单板/端口 · 对于主控板,CPU占用率不应过高。 · 对于端口,发送/接收方向有计数。 MPLS Tunnel · 发送/接收方向有计数。 · 没有丢包。 IP/GRE Tunnel · 发送/接收方向有计数。 · 没有丢包。 业务PW · PW的发送/接收方向有计数。 · 没有丢包、乱序包、误码等异常统计。 ² Tunnel是双向的,可以在“对象”中选择正向Tunnel或反向Tunnel。 ² 网元支持的RMON性能的具体含义和解释。 示例:两个网元之前配置了两条Tunnel,但仅在一端网元上配置了APS保护组,导致ATM业务质量很差。在网管上查询该ATM业务的RMON性能,发现存在乱序包计数,且乱序包计数值约为接收信元计数的50%,由此判断业务出现双收,并找到问题的原因所在。 2.3 OAM分析法 OAM机制可以有效地检测、确认并定位出源于MPLS层网络内部的缺陷和网络性能的监控。设备可以利用OAM的检测状态来触发保护倒换,实现快速故障检测和业务保护。 A、OAM简介 OAM主要应用于PTN设备组网的网络侧(NNI侧),该区域具有以下特点: l 网元多。一条MPLS LSP往往经过多个网元。 l 组网复杂。可能需要穿通第三方网络,存在很多导致故障的不确定因素。 l 规划整改,扩容变化多。 B、OAM分类 分析定位故障时常用的OAM功能主要是Tunnel OAM和PW OAM两种。 对Tunnel和PW执行Ping测试,通过计算OAM报文丢包率,判断Tunnel和PW的连通性。 C、执行LSP Ping测试 1) 进入“网元管理器”,在功能树中选择“配置 > MPLS管理 > 单播Tunnel管理”。 2) 在“OAM参数”选项卡中,使能Tunnel的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。 3) 重复步骤1和步骤2,在Tunnel另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。 4) 右键单击“节点类型”为“Ingress”的Tunnel,在弹出的下拉菜单中选择“Ping测试”。在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。 5) 在“测试结果”区域分析Ping测试结果。如果发送报文数量等于接收报文数量,且丢包率为0,则该Tunnel的连通性正常。 D、执行PW Ping测试 1) 进入“网元管理器”,在功能树中选择“配置 > MPLS管理 > PW管理”。 2) 在“PW OAM参数”选项卡中,使能PW的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。 3) 重复步骤1和步骤2,在PW另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。 4) 右键单击PW,在弹出的下拉菜单中选择“Ping测试”,在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。 5) 在“测试结果”区域分析PW Ping测试结果。如果发送报文数量等于接收报文数量,且丢包率为0,则该PW的连通性正常。 E、OAM应用 业务中断或业务出现丢包、误码时,可按照所示的流程运用OAM功能,定位故障。 F、OAM分析业务故障流程图 图 OAM分析业务故障流程图 G、OAM定位故障 通过在Tunnel的两端网元上使能OAM并查看LSP状态,可以轻易定位到存在故障的网元。 1) 进入“网元管理器”,在功能树中选择“配置 > MPLS管理 > 单播Tunnel管理”。 2) 在“OAM参数”选项卡中,为Tunnel设置合适的“检测报文类型”和“检测报文周期”,使能“OAM状态”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。 3) 选中一条或多条Tunnel,右键点击,在弹出的下拉菜单中选择“查询LSP状态”。 4) 查看“LSP状态”,正常情况如下表所示。 Tunnel节点类型 LSP状态 Ingress 远端可用状态 Egress 近端可用状态 若出现其它状态时,根据“LSP缺陷位置”可定位到出现故障的网元。 5) 根据相应的“LSP缺陷类型”,选择清除告警,检查光纤连接或确认端口、Tunnel、业务的配置参数等方法,排除故障。 2.4 配置数据分析法 配置数据分析法通过在网管上分析业务的参数配置,找到配置错误的参数,从而定位故障。当Tunnel或业务创建后不通,或在网管上修改部分参数后业务突然中断时,可以使用配置数据分析法来定位故障。 一般情况下,对照网元规划表即可找出网元上配置错误的参数。当PTN设备与第三方设备对接时,由于两端的某些参数默认取值不一致,要特别注意两端参数的匹配问题。 采用配置数据分析法时,一般可遵循以下步骤。 1. 检查网元的网元ID、网元IP、LSR ID等参数是否配置正确。 2. 对照网元规划表,检查端口状态和参数配置。端口参数配置错误是现网中导致故障最常见的原因之一。 Ø 对于以太网端口,确认端口是否已使能。检查“端口模式”、“封装类型”、“工作模式”、“TAG标识”、“缺省VLAN ID”、“Tunnel使能状态”、“IP地址”等参数是否配置正确。 Ø 对于SDH端口,检查“端口模式”、“封装类型”、“通道化”、“端口类型”、“Tunnel使能状态”、“时钟模式”等参数是否配置正确。 Ø 对于PDH端口,检查“端口模式”、“封装类型”、“帧格式”、“阻抗”、“帧模式”等参数是否配置正确。 Ø 对于IMA组,检查“协议版本”、“最小激活链路数”、“协议使能状态”、“时钟模式”、“E1帧模式”、“E1时隙数”、“ATM信元载荷加扰”、“VPI”、“VCI”等相关参数是否配置正确。 Ø 对于第三方设备的端口,需要确认以太网端口工作模式、VC12线序模式或时钟模式是否与PTN设备匹配。 3. 检查Tunnel两端网元上的参数配置是否匹配,是否选择了正确的端口。 4. 检查以下PW参数配置。 Ø PW ID是否正确。 Ø PW是否已使能。 Ø PW的出入标签是否一致。 Ø PW是否选择了正确的端口或Tunnel。 Ø 对于CES业务,确认“报文装载时间”和“抖动缓冲时间”是否配置正确。 2.5 仪表测试分析法 仪表测试分析法一般用于定位设备的外部问题及其它设备的对接问题。定位故障的常用仪表主要有以下几种: A. 万用表:根据不同需要可以将万用表调制电压档或电阻档,对怀疑的故障点进行电压或电阻测试。如设备接地电压、电源电压等。 B. 误码仪:用于测试传输通道中存在的误码情况,如误码数、误码率、误码秒等。一般是将需要测试的通道进行环回,通过误码仪发送伪随机码,并在误码仪上查看所测试到的通道误码情况。 C. 光功率计:用于测试单板的接收和发送光功率。 D. 电缆测试仪:用于测试电缆的端子对在最大额定电流下的电压降,从而可推断电缆的连通情况和传输质量。 E. 网络分析仪:用于网络性能的测试和分析,测试内容较丰富。如最大线速、数据流量、帧长、吞吐量、丢包率及网络延时等。 示例:以网络分析仪定位故障为例说明仪表测试法的思路。某网络的业务中断,需要对设备故障进行逐一排查。按下图所示,将网络分析仪与设备正确连接,同时在NE上进行内环回,对NE进行丢包率的测试。 图  网络分析仪和设备的连接 对网络分析仪进行正确的设置,向NE发送数据包。根据网络分析仪上显示的丢包率结果,可判定是否由于NE的丢包过多导致业务中断。如果数据正常,可确定NE工作正常。可再对其它网元进行测试。 2.6 环回法 环回法是定位故障时常用而且行之有效的一种方法,可以将故障尽可能准确地定位到单站。设备维护人员应熟练掌握。环回操作分为软件环回和硬件环回,这两种方式各有所长: A. 软件环回即在U2000上配置环回,操作方便,但定位故障的范围和位置不够准确。比如在单站测试时,配置光口为内环回,即使业务测试正常,也不能确定该单板的接口模块没有问题。 B. 硬件环回即使用光纤或者电缆环回端口,相对于软件环回而言环回更为彻底。若通过尾纤将光口自环后,业务测试正常,则可确定该单板是好的。但硬件环回需要到设备现场才能进行操作。另外,光接口在硬件环回时要避免接收光功率过载。 环回操作会中断端口上其它正常运行的业务,在使用前请务必做好确认。 2.7 排除法 在处理业务故障时,可以首先检查与其它业务的共用路由部分是否存在故障。排除运行正常的部分,以缩小故障定位的范围。 示例:以下面的示例说明排除法的思路。如下图所示。NE01与NE02之间的Tunnel创建失败,但NE03与NE02之间可以正常创建Tunnel,因此可以判断故障发生在DSLAM或与及对接的链路上。 图 组网图 三、 业务中断故障和业务恢复 下面介绍业务中断故障的应急处理流程。 3.1 流程图 下面首先通过下图对OptiX PTN 3900设备的应急处理流程进行说明。 了解故障原因之前不要轻易尝试操作,不正确的操作会导致问题扩大。 说明: 在处理故障前,要进行业务调离。就是通过网管配置,将故障路由的业务倒换到可用路由中。 图  应急处理流程图 3.2 查询误操作 查询故障发生前是否有误操作,如添加或删除业务、更改配置等。如果存在误操作,要根据故障发生前的操作情况进行逆向操作恢复业务。 3.3 检查告警 发生业务中断时,需要检查设备是否存在如下表所示的告警。如果存在,应先排除告警指示的故障。 表 告警说明 告警类型 告警名称 告警说明 设备类告警 POWER_ABNORMAL 电源失效 FAN_FAIL 风扇故障会导致设备温度增高,影响正常运行 BD_STATUS 单板不在位 HARD_BAD 单板硬件错误报告 SYN_BAD 时钟同步源劣化 NESTATE_INSTALL 网元处于安装态 信号丢失告警 ETH_LOS 以太网口连接丢失 低阶业务失效告警 TU_AIS_VC12 VC12级别的TU告警指示 TU_LOP_VC12 VC12级别的TU指针丢失 线路告警 R_LOS 接收线路侧信号丢失 R_LOF 接收线路侧帧丢失 R_LOC 接受线路侧无时钟 R_OOF 接收线路侧帧失步 其他高低阶告警 HP_TIM 高阶通道追踪识别符失配 HP_SLM 高阶通道信号标记失配 HP_UNEQ 高阶通道未装载 LP_UNEQ_VC12 VC12级别低阶通道信号未装载 说明: 上表所列告警是可能引起业务中断,需要优先处理的重要告警。 3.4 检查环回和装载 检查业务路由上是否设置了环回或通道未装载。 3.5 检查业务配置 按照业务路由,逐段检查业务配置正确性。 3.6 应急恢复方案 如果无法快速找到故障原因,进而排除故障,一定要先将业务倒换到正常的路径上,或者复位相关的网元或单板,以恢复已中断的业务或已脱管的网元。如果故障定位为某个单板有问题,则更换相应单板来解除故障。 3.6.1 倒换 倒换可分为单板级倒换和业务级倒换。 OptiX PTN 3900支持的单板级倒换类型有: 单板1+1保护倒换和TPS保护倒换。 当保护板在位且工作正常时,可以执行保护倒换,尝试恢复业务。若设备没有保护板,可以使用备件创建临时的保护组,再执行保护倒换。 OptiX PTN 3900支持的业务级倒换类型有:APS保护倒换 线性复用段(LMSP)保护倒换 如果由于保护倒换失败导致业务中断,可以删除已失效的保护组,另行创建可正常运行的新保护组,并将业务倒换到新的路径上。 3.6.2 复位 复位可分为网元级复位和单板级复位。当网元被攻击,并出现以下故障时,可考虑复位网元:DCN风暴/DCN通信中断/网元脱管 CPU占用率达到100%。 单板复位又分为软复位和硬复位。单板复位后可以恢复正确的程序和数据。若单板配置了1+1保护组,硬复位会触发保护倒换。 在正常情况下,单板的软复位不影响正在运行的业务。硬复位会影响正在运行的业务,请慎重使用。 3.6.3 通过更换单板恢复业务 如果一时无法定位到故障原因,又没有备用路由用于业务倒换,而且复位单板无效时,需要考虑更换单板。事实上,很多故障的最终处理方案就是更换单板。 在复杂的组网环境中,尤其当PTN设备与第三方设备对接时,一些故障很难通过常用的分析方法定位出原因。为了尽快恢复业务,可以采用替换法,用工作正常的部件去更换被怀疑故障的部件。替换法不仅仅适用于单板,也适用于光纤、电缆和供电设备等,但要求备件必须是完好的。替换时需要注意的操作的规范性,防止部件损坏或有其它问题发生。采用替换法定位故障时,应注意以下情况: ² 确认不会影响被替换部件上承载的正常业务。 ² 替换部件可能会导致产生故障的原始数据丢失。为避免对故障的分析造成影响,建议在用替换法定位故障前就采集可能的故障数据。 示例:以单板故障的示例说明用替换法定位故障的思路。如下图所示,如果怀疑NE1和NE2之间的E-Line业务中断是由于单板故障导致,可用正常的备件替换怀疑故障的单板进行工作。如果业务恢复,说明是由于单板故障引起业务中断。 图  链形组网图 四、 常见故障处理方法 下面介绍设备支持的各业务或特性出现故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。 4.1 带内DCN故障处理 本节介绍带内DCN出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。 A、前提条件:查看工程文档,确认网元各个单板均使用配套版本。 B、故障现象:处理带内DCN的故障时,通常会遇到以下故障现象。 ² 网管与网元通信中断,网管上网元图标变灰色,网元脱管。 ² 网管操作命令没有响应。若响应中断时间持续超过2分钟,网管与网元通信中断。 ² 网管查询信息部分丢失。 C、故障处理流程图:带内DCN故障处理流程图如下图所示。 图 带内DCN故障处理流程图 D、对系统的影响 ² 网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其它方法连接网管,也将处于脱管状态。其它网元则无影响。 ² 若承载带内DCN的物理通道故障,则会影响该物理通道上承载的其它业务。 E、可能原因:对应故障处理流程图,带内DCN故障原因如下 ² 全网内的网元ID、网元IP或者子网掩码存在冲突。 ² 故障网元的带内DCN端口未使能,或对接端口参数配置不一致。 ² 故障网元与网管之间的物理连接中断。 ² 接收信号丢失或接收光功率过低,无法提取DCN报文。 ² 单板故障。 ² DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。 ² 带内DCN通道带宽配置过低。 ² 故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应。 a) 处理带内DCN故障时 ² 如果网元通信中断,先处理网关网元的故障,再处理非网关网元的故障。 ² 如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故障,避免造成非网关网元脱管。 b) 当网元脱管时,可以使用其它工具尝试登录故障网元 ² 如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系负责网管维护的工程师处理。 ² 如果不能登录,可以采用PC机直连设备的ETH端口。如果可以通信,说明是线路问题,否则是设备问题。 H、操作步骤 ² 全网内的网元ID、网元IP或者子网掩码存在冲突 ü 此原因一般由全网中新添加的网元引入。对照网元规划表,检查新网元的网元ID、网元IP、子网掩码的配置是否正确。 ü 若配置错误,或与现有网元存在冲突,请正确配置新网元的参数。 ² 故障网元的带内DCN端口未使能,或对接端口参数配置不一致 ü 检查是否存在光纤或电缆连接到默认使能DCN的端口。如果没有,换用默认使能DCN的端口。 ü 检查链路两端的端口是否已使能DNC。如果没有,使能端口的带内DCN。 ü 检查两端端口的参数配置是否一致,例如以太网端口的工作模式。如果不一致,修改参数配置使两端一致。 ² 故障网元与网管之间的物理连接中断 ü 检查故障网元的网线或光纤是否从端口中脱落。如果是,重新插上网线或光纤。 ² 接收信号丢失或接收光功率过低,无法提取DCN报文 ü 检查网元的历史告警中是否存在R_LOS、ETH_LOS或IN_PWR_ABN等告警。 ² 单板故障 ü 查询单板的历史告警中是否存在HARD_BAD或TEMP_OVER告警。 ü 若存在,更换上报告警的单板。 ² DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断 ü 若带内DCN通信穿越了第三方网络,需要检查第三方网络中是否存在端口环回、物理通道中断等故障。 ü 如果存在,需要立即排除第三方网络中的故障。 ² 带内DCN通道带宽配置过低 ü 当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失,此时需要适当增大带内DCN通道的带宽配置。 ² 故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应 ü 观察主控板的PROG指示灯是否处于绿灯闪烁状态,若是,则主控板正处于复位状态。等PROG指示灯常亮绿色时,主控板完成复位,DCN将自动恢复连接。 若主控板发生了主备倒换,“当前板”将自动软复位。 ü 若DCN未恢复响应,检查其它单板是否发生保护倒换,造成带内DCN报文处于重路由状态。 ü 若存在单板发生保护倒换,等待DCN完成重路由后,将自动恢复响应。 4.2 MPLS Tunnel故障处理 本节介绍MPLS Tunnel创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。 A. 故障现象:处理MPLS Tunnel的故障时,通常会遇到以下故障现象 ² MPLS Tunnel创建失败,业务不通。 ² MPLS Tunnel故障,业务中断。 ² 保护倒换失败,业务中断或出现丢包、误码。 B. 对系统的影响 若MPLS Tunnel故障,则会影响网络中由该Tunnel承载的业务,但由其他Tunnel承载的业务正常。 C. 可能原因:MPLS Tunnel故障原因如下 ² 路由失败。 ² 交叉创建失败。 ² Tunnel所在的物理链路故障。 ² 保护倒换失败。 D. 操作步骤 ² 路由失败 ü 对照网络规划,检查Tunnel两端端口参数配置是否正确,例如端口IP。修正不正确的端口参数后,再次创建Tunnel。 ü 检查Tunnel首末节点所在的网元间是否存在完整可达的链路。若不存在,修复链路中残缺或故障的部分。 ü 可选:如果Tunnel配置了带宽,检查链路带宽是否满足Tunnel的要求。 ² 交叉创建失败 ü 检查网络中是否存在不同的网元使用相同的网段。如果存在,需要修改端口IP地址。 ü 检查Tunnel是否配置了不兼容的保护特性。 ü 查看Tunnel所经过的网元或单板,确认已创建Tunnel个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的Tunnel。 ² Tunnel所在的物理链路故障 ü 查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL或MP_DOWN等告警,指示Tunnel使用的物理链路故障。若存在,优先处理这些告警。 ü 查看并处理系统中存在的下列告警。 MPLS_TUNNEL_BDI MPLS_TUNNEL_Excess MPLS_TUNNEL_FDI MPLS_TUNNEL_LOCV MPLS_TUNNEL_MISMATCH MPLS_TUNNEL_MISMERGE MPLS_TUNNEL_SD MPLS_TUNNEL_SF MPLS_TUNNEL_UNKNOWN ü 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异常情况。 4.3 PW故障处理 本节介绍PW创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。 A. 故障现象:处理PW故障时,通常会遇到以下故障现象 ² PW创建失败,业务不通。 ² PW故障,业务中断或出现丢包、误码。 B. 对系统的影响:若PW出现故障,则会影响承载在该PW上的业务,但其他PW承载的业务正常 C. 可能原因:PW故障原因如下 ² LDP会话创建失败,PW创建不成功。 ² 物理链路故障,LDP会话失效。 ² PW交叉建立失败。 ² PW所在的Tunnel故障。 ² PW APS保护倒换失败。 D. 操作步骤 ² LDP会话创建失败,PW创建不成功。 ü 检查PW两端网元是否配置了LDP对等体。若未配置,需要重新配置LDP对等体。 ü 检查PW两端参数是否配置正确。举例如下: § “控制字使用策略”,是否一端配置为“必须使用”,另一端配置为“不使用”。 § 对Ethernet业务,两端的“MTU”是否配置一致。 § 对CES业务,两端的“RTP头”、“报文装载时间”等参数是否配置一致。 ² 物理链路故障,LDP会话失效 ü 检查PW首末节点间物理链路是否正常,系统中是否存在HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS等告警。 ü 若存在,优先处理HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS告警。 ü 查询并处理系统中存在的PW_DOWN、PW_DROPPKT_EXC或PW_EXC_TRAFFIC告警。 ü 查看并处理系统中存在的下列告警。 MPLS_PW_BDI MPLS_PW_Excess MPLS_PW_LOCV MPLS_PW_MISMATCH MPLS_PW_MISMERGE MPLS_PW_SD MPLS_PW_SF MPLS_PW_UNKNOWN - ü 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异常情况。 ² PW交叉建立失败:查看PW所经过的网元或单板,确认已创建PW个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的PW ² PW所在的Tunnel故障:Tunnel故障 ² PW APS保护倒换失败:查看并处理系统中存在的下列告警 PWAPS_LOST PWAPS_PATH_MISMATCH PWAPS_SWITCH_FAIL PWAPS_TYPE_MISMATCH 4.4 CES业务故障处理 本节介绍CES业务出现中断或误码等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。 A. 故障现象:处理CES业务的故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警后,故障也随之排除 表  CES业务常见故障现象一览表 现象 上报告警 单板 CES业务中断 HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR SCA、XCS或MP1 T_ALOS、UP_E1AIS或DN_E1AIS D75或D12 R_LOS、LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM CD1 MPLS_TUNNEL_LOCV EG16,EG8或EX2 PW_DOWN EG16,EG8,EX2或MP1 CES业务出现误码,通信质量下降 HARD_BAD、TEMP_OVER或BUS_ERR SCA、XCS或MP1 SYNC_C_LOS或LTI XCS LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM CD1 CES_LOSPKT_EXC、CES_MISORDERPKT_EXC、CES_STRAYPKT_EXC、CES_JTRUDR_EXC或CES_JTROVR_EXC MD1、MQ1或CD1 B. 故障处理流程图:CES业务故障处理流程图如下图所示。 图 CES业务故障处理流程图 C. 对系统的影响:网络中CES业务中断或出现误码,通信会中断或质量下降。若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。 D. CES业务故障原因如下 ² 单板硬件故障、温度过高或板间通信故障,无法正常工作。 ² 处理板、接口板的接口接入的信号丢失或恶化。 ² 承载CES业务的Tunnel或PW中断。 ² 网元的同步时钟源级别丢失,或同步时钟源丢失。 ² 承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值。 E. 注意事项:严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤内部的激光束会伤害眼睛。 F. 操作步骤 ² 单板硬件故障、温度过高或板间通信故障,无法正常工作 ü 查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。 ü 处理HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,排除故障。 ² 处理板、接口板的接口接入的信号丢失或恶化 ü 查询系统是否有T_ALOS、UP_E1AIS或DN_E1AIS告警。 ü 查询
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服