资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,杭州华三通信技术有限公司,ISSUE 1.0,日期:,2013.5.26,武汉办事处 胡振,杭州华三通信技术有限公司 版权所有,未经授权不得使用与传播,H3C,二层网络问题维护经验,了解,二层,网络故障诊断的一般方法,掌握,日常二层网络问题,维护方法,课程目标,学习完本课程,您应该能够了解:,环路问题的排查,查找故障源,STP,震荡问题,MSTP,线路感知问题,目录,环路问题排查,以太网二层环路问题不是什么新鲜事,但是到如今仍然是我们网络重大故障的主要原因之一。,对网络运行危害是致命性的,影响范围大。,网络规模较大时,二层环路问题牵扯面多,如硬件,CPU,、三层协议、,VRRP,、端口广播等,给故障排查带来困难;,环路问题排查,二层环路故障表现出的现象,登录设备缓慢,,CPU,占用率高。一般超过,60%,,甚至,100%.,业务中断或时断时续,无法找到规律。,此时需要登录设备查看告警信息,打开,terminal moniter,环路问题排查,设备的告警信息,解读,%Mar 19 23:20:43:829 2013 HBDL-CSWS12518-A VRRP/4/MasterChange:,IPv4 Vlan-interface1|Virtual Router 2:Master-Backup reason:VRRP packet received,%Mar 19 23:36:28:242 2013 HBDL-CSWS12518-A VRRP/4/MasterChange:,IPv4 Vlan-interface1950|Virtual Router 1:Backup-Master reason:Timer expired,设备,VRRP,主备反复告警切换,说明,VRRP,主备之间的,CPU,响应心跳出现问题,环路问题排查,设备的告警信息,解读,%Mar 19 23:20:43:832 2013 HBDL-CSWS12518-A ARP/3/ROUTECONFLICT:Slot=13;Route conflict found,IP:10.228.0.250,VrfIndex:0,%Mar 19 23:20:43:832 2013 HBDL-CSWS12518-A ARP/3/ROUTECONFLICT:Slot=2;Route conflict found,IP:10.228.0.250,VrfIndex:0,大量,ARP,冲突告警信息,说明存在大量,重复的,ARP,广播。,环路问题排查,设备的告警信息,解读,%320622#Mar 19 21:03:11:747 2013 HBDL-CSWS12518-A OSPF/4/IF_BAD_RX:OSPF TrapID1.3.6.1.2.1.14.16.2.8:Non-virtual Interface 10.229.252.126 index 0 Router 10.228.249.2 received error packet from 10.229.252.126 PacketType 1.,%320623#Mar 19 21:03:11:747 2013 HBDL-CSWS12518-A OSPF/4/IF_BAD_RX:OSPF TrapID1.3.6.1.2.1.14.16.2.8:Non-virtual Interface 10.229.252.126 index 0 Router 10.228.249.2 received error packet from 10.229.252.126 PacketType 1.,大量,OSPF ID,冲突告警信息,说明存在大量相同,router id,的报文,在二层环路中,OSPF TYPE1,组播报文也会形成广播风暴。可进一步查看,,Display ospf errors,分析,router id error,环路问题排查,设备的告警信息,解读,%May 14 08:54:14 2004 Quidway SYSM/5/IP MOVE:Rcv src IP 10.56.96.9 packet from port 24 but its nexthop arp 10.56.96.9 with 0002-55fa-96be resided in port 22,大量,ARP,迁移信息,转发数据包的是,port24,,但接收到,ARP,广播报文的却是,PORT22,。说明存在二层广播环路。,找到故障源,同时出现,VRRP,主备频繁切换、,OSPF ID,大量冲突、,ARP,冲突、,ARP,迁移这些告警信息时,基本确认网络中存在二层环路。,注:,在没有启用,VRRP,、,OSPF,时,只会有,ARP,的告警,这时还需要注意是否是病毒攻击造成的。,病毒扫描攻击,找到故障源,%320622#Mar 19 21:03:11:747 2013 HBDL-CSWS12518-A OSPF/4/IF_BAD_RX:OSPF TrapID1.3.6.1.2.1.14.16.2.8:Non-virtual Interface 10.229.252.126 index 0 Router 10.228.249.2 received error packet from 10.229.252.126 PacketType 1.,Ospf id 冲突中,找到收到错误报文的源为10.229.252.126,,检查该三层接口所属,VLAN,是否有环路。,%May 14 08:54:14 2004 Quidway SYSM/5/IP MOVE:Rcv src IP 10.56.96.9 packet from port 24 but its nexthop arp 10.56.96.9 with 0002-55fa-96be resided in port 22,ARP,迁移,找到报错的报文源为,10.56.96.9,,,检查该三层接口所属,VLAN,是否有环路。,找到故障源,%Mar 19 23:20:43:832 2013 HBDL-CSWS12518-A ARP/3/ROUTECONFLICT:Slot=2;Route conflict found,IP:10.228.0.250,VrfIndex:0,ARP,冲突,找到报错报文源,10.228.0.250,,,检查该三层接口所属,VLAN,是否有环路。,VRRP,频繁迁移是因为,VRRP,主备心跳丢失,往往只是问题表象,,不能作为问题排查的实际依据。,任何,vlan,的环路往往都会导致其它所有,vlan,的,VRRP,主备切换。因为二层广播风暴影响的是整个设备的,CPU,响应。,找到故障源,确定了造成故障的,VLAN,以后,把该,vlan,从核心网中隔离出去,看效果。,检查该,vlan,内是否存在二层环路连接,开启,STP,楼层交换机双链路上行、,HUB,问题,服务器、,PC,双网卡,双网卡,PC,服务器,网卡,1-TRUNK,网卡,2-TRUNK,找到故障源,当网络骨干,TRUNK,线路出现环路时,会同时出现多个,vlan,都有环路。此时,可先暂时断开骨干,TRUNK,链路。检查配置,开启,STP,,注意开启,/,关闭,STP,会导网络致暂时中断。,在紧急情况下,如设备已无法登陆、无法操作可以采取拔线处理。找到骨干设备上环路物理链路源头。快速恢复业务。,STP,震荡问题,在已经启用了,MSTP/RSTP/STP,的网络中,时常会出现,STP,震荡问题。故障表现是:网络时断时续,业务不可用。,首先检查核心主备根桥,STP,状态,Display stp root,是否出现抢根现象,注:这里说的主根是指针,对,MSTP,单个实例说的,,如存在多个实例会有多个主根。,主根,备根,STP,震荡问题,检查核心主备根桥,STP,端口转发状态,Display stp brief,主根桥上的所有端口都是指定,Designated,端口,且都为,Forwarding,状态。命令重复操作几次,看状态是否频繁变化。,主根,备根,STP,震荡问题,检查其它桥,STP,端口转发状态,Display stp brief,非主根桥的端口状态,都有,ROOT,端口,且指向根桥的方向,,Discarding,端口正常应为末节端冗余链路。如端口,Forwarding,、,Discarding,、,ROOT,、,Designated,状态频繁,变化说明存在拓扑结构,频繁变化或者,TC/TCN,报文频繁发送。,Root,方向,Root,方向,主根,备根,STP,震荡问题,抢根的处理,Display stp root,查出伪根桥,ID,通过,display stp brief,,顺着,ROOT,指向找到伪根桥位置,隔离。,配置根保护。,Priority:0,Mac:00-00-00-00-00-01,主根,以太网接口视图下配置:,Stp root-protection,STP,震荡问题,抢根的处理,两个正常的启用,STP,个网络互连,也会造成抢根,导致网络,STP,震荡。比如此处网络一和网络二互连就会产生抢根,,STP,震荡。应该为三层,或者把端口,stp disable,阻断两个大二层网络之间的,BPDU,报文透传。,主根,备根,网络一,主根,备根,网络二,stp disable,STP,震荡问题,TOP,频繁变化和,TC/TCN,报文频繁发送的处理,检查有无物理连接不稳定的链路,频繁,UP/DOWN,特别是核心网设备链路。,配置边缘端口,配置,TC/TCN/BPDU,攻击报文保护,STP,震荡问题,检查单个端口下的环路影响,Layer2 network,STP,功能关闭,端口环回。,以太网接口视图下配置:,Stp loop-detection,STP,震荡问题,检查单个端口下的环路影响,OSPF,组播报文被二层环路大量广播,影响三层设备的,CPU,响应,导致三层路由设备,OSPF,状态异常。,OSPF,STP,功能关闭,端口环回。,以太网接口视图下配置:,Stp loop-detection,经验,加强网络接入的准入控制,特别是,PC,服务器、双网卡的,,虚拟机、,正式接入网络前必须验证后网卡设置、杀毒;,尽量把非核心业务三层网关下移,不要把全部的三层接口都放在,核心,上,这样即使出了问题,不会直接影响核心网。网络以三层方式延伸。,设备互联注意二层环路,尽量用三层路由互联,并且采用不同,vlan,;或者设备全局开启,STP,协议,在三层互联接口处把,STP disable,掉。,两个大二层网络之间互联,端口关闭,STP,。,MSTP,链路感知问题,MSTP,网络改造后,普遍存在链路故障感知问题,例如,:,当,RTC,上行链路故障,此时,RTA,并不能感知,如配置静态路由,无法自动切换到备份链路,业务不可达。,MSTP,RTA,主线路,备线路,MSTP,RTD,RTC,RTB,MSTP,链路感知问题,NQA,或者,BFD,探测方式来解决。,例如,:,STATIC+NQA,,,STATIC+BFD,RTA,检测到对端,RTC,中断时,主动抑制掉关联的静态路由,使该路由失效,实现自动切换。,MSTP,RTA,主线路,备线路,MSTP,RTD,RTC,RTB,RTA-GigabitEthernet1/1/1 bfd min-echo-receive-interval 10,RTA-GigabitEthernet1/1/1 bfd detect-multiplier 5,RTA bfd echo-source-ip 1.1.1.1,RTA ip route-static 22.0.0.0 24 12.0.0.2 bfd echo-packet preference 1,问题:通过网管如何监控,MSTP,网络链路状态?,MSTP,链路感知问题,网管监控链路依靠,ICMP,报文检测设备的接口,IP,是否可达,当,MSTP,局端发生故障时,设备接口,UP,,,IP,仍有效。设备接口,IP,地址往往能够通过动态路由经备份线路绕行,导致网管监测该地址有效状态,UP,,但该链路实际已经不可用。导致网管,TOP,图不能反映真实网络状态。,解决方法:在,RTD,接口配置,ACL,,禁止网管服务器,IP,经此接口访问,RTC,;反之在,RTC,接口配置,ACL,,禁止网管服务器,IP,经此接口访问,RTD,。,MSTP,RTA,主线路,备线路,MSTP,RTD,RTC,RTB,网管服务器,
展开阅读全文