1、TroubleShooting故障诊断与处理责任编辑赵志远伪IP冲突引起服务器网络“奇异”丢包解决之道江苏省无锡市滨湖区教育研究发展中心王小平编者按:针对服务器虚拟化出现的与传统的服务器网络不同的“奇异”故障问题,探讨服务器集群虚拟化环境下物理主机丢包问题的排查与解决。随着服务器硬件性能的不断提升,相当一10.10.50.1部分单位从集约化与提高设备资源利用率的角10.10.50.2度出发,将传统物理服务器集群进行虚拟化部10.10.50.3网络存储署。一方面,可统筹协调各服务器硬件资源,实现资源的最大化利用;另一方面,也使应用系统的部署与管理更加便捷与高效,业务应用运行更加稳定。服务器虚拟化
2、在带来方便的同时,也对服务器管理员提出了新的挑战。有时出现的“奇异”问题是在传统的服务器网络环境下未曾遇到的。本文探讨服务器集群虚拟化环境下物理主机“奇异”丢包问题的排查与解决。故障描述单位的5台物理服务器通过VMwareESXI6.0服务器虚拟化软件集群,整体共享服务器资源。服务器集群和网络结构如图1 所示。笔者近期通过VMwarevSphere Client客户端查看事件日志,发现集群ESXI主机(IP地址为1 0.1 0.50.3)有报警信息,出现无规律的主机无响应故障,无法正常互联网防火墙10.10.50.4千兆交换机10.10.50.5服务器汇菜服务器集群图1 服务器集群和网络结构连
3、接,但在1 min左右的时间内又自动恢复。笔者通过管理主机Ping10.10.50.3,发现出现无规律的网络丢包现象,无法正常Ping通,因此初步判定是由于网络连通故障,导致该ESXI主机的主机无响应”故障。VMwareESXI服务器集群中任意一台服务器出现故障,都可以自动、无缝切换到集群中的其他服务器,不会影响业务正常运行。当上述物理服务器出现网络丢包故障时,业务自动切换到了集群中的其他服务器上,没有影响业务正常运行。因此,笔者当时没有及时察觉到网络数据丢包的问题。但如果不能及时解决该物理服务器无法正常响应的问题,那么此台服务器资源将无法在集群中正常使用,从管理机 2023.8投稿信箱责任编
4、辑赵志远Trouble Shooting故障诊断与处理switch-A#show arpARP Unicast Items:18,Valid:17,Matched:17,Verifying:0,Incomplete:0,Failed:1,None:Address20.10.50.3switch-A#show arpARP Unicast Items:19,Valid:18,Matched:18,Verifying:0,Incomplete:0,Failed:1,None:Address20.10.50.3而降低服务器集群的性能。问题分析与解决综上所述,由于Ping目标服务器1 0.1 0.50
5、.3 出现无规律丢包现象,但又不完全中断,导致ESXI主机无响应。笔者首先怀疑是网络连接的问题,并展开以下排查。第1 步,根据Ping检测反馈信息,检查是否为网线、网卡或交换机端口的物理故障。检查网线水晶头是否松动,网线是否损伤。重新插紧网线水晶头,并重新更换网线后,故障依旧。将问题主机与服务器网络断开,用笔记本电脑直接连接服务器网络接口,能正常Ping通,且无丢包现象。依此判定问题不在服务器侧,应该在交换机侧。笔者考虑有可能是交换机端口故障,在为服务器(1 0.1 0.50.3)重新更换一个能够正常工作的交换机端口后,问题依旧。这时考虑问题可能出在软件层面,例如是否为IP地址冲突。第2 步,
6、根据ARP信息检查IP地址配置情况。通过远程SSH登录交换机,并通过showarp命令(不同品牌的交换机命令有所不同)查看交换机的ARP信息,交换机中有该服务器(1 0.1 0.50.3)的ARP信息。通过多次输入shoWarp”命令查看交换机的ARP表,笔者意外发现IPHardware Addrb8-2a-72-ee-b4-b6V1an58Hardware Addrb8-2a-72-e-b4-b6 V1an5e图2 IP地址1 0.1 0.50.3 对应的交换机端口发生变化InterfaceInterfacePortCEthernet1/20DynamicPortEthernet:1/35地
7、址1 0.1 0.50.3 对应的交换机端口会发生变化,如图2 所示,两次显示IP地址1 0.1 0.50.3 分别对应着交换机的2 0 端口和3 5端口。同一个IP地址对应着不同的交换机端口。据此推断,可能在这两个端口上连接着配置相同IP地址的主机,即IP地址冲突。笔者咨询厂商的工程师,工程师也给出同样的结论。交换机的2 0 端口连接的是故障ESXI主机(1 0.1 0.50.3.)交换机的3 5端口连接的是另外一台记录日志的服务器。检查连接交换机3 5端口的日志服务器的IP地址设置。笔者怀疑是误操作修改了IP地址,进而造成IP冲突。登录该日志服务器,检查网络配置,一切正常,IP地址既没有冲
8、突,也没有被更换。由此,IP冲突引起的原因被排除。但笔者意外发现,连接在交换机3 5端口上的日志服务器的IP并非1 0.1 0.50.3,交换机上却显示1 0.1 0.50.3有时会对应3 5端口。拔掉交换机3 5端口的网线,断开3 5端口的主机连接,Ping10.10.50.3.发现一切正常,网络数据没有丢包现象,ESXI主机(1 0.1 0.50.3)“主机无响应”故障恢复。而再次接上网线,故障再次出现。这说明该故障是由连接在交换机3 5端口的这台主机引起。IP地址工作在网络层,MAC地址工作在数据链路层。MAC地址相对固定,是网络设备制造商生产时烧录在网卡中的,一般用户无法随意修改,它在
9、F1agF1agDynamic1193Age-time(sec)1194Age-time(sec)投稿信箱 2023.8157Trouble Shooting故障诊断与处理/责任编辑赵志远网络中具有唯一性,且一个MAC地址对应一台物理设备。从图2 中的信息对比可以发现,MAC地址b8-2a-72-e0-b4-b6同时对应着2 0 端口和3 5端口,即一台设备的网络接口同时连接在了两个端口上。对此,笔者考虑从MAC地址入手排查。第3 步,排查MAC地址信息。登录交换机,查看MAC地址表。多次输入showmac-address-table命令(不同品牌的交换机命令会有所不同),发现的确同一个MAC
10、地址b8-2a-72-e0-b4-b6有时对应着交换机的20端口,有时对应着交换机的3 5端口,如图3 所示。难道是MAC地址冲突?ESXI主机与日志服务器是同品牌同型号的服务器,来自同一厂商,MAC地址(硬件地址)不可能出现如此低级问题。笔者分别登录两台主机,查看MAC地址信息,日志服务器的MAC地址是b8-2a-72-e0-b4-b6,故障ESXI主机(1 0.1 0.50.3)的MAC地址是b8-2a-72-85-d7-99,完全不同。似乎MAC地址冲突也可以排除了。但一个重要信息显示,在断开3 5端口网线时,交换机ARP信息显示对应2 0 端口的MAC地址是b8-2a-72-e0-b4
11、-b6,说明的确有MAC地址为b8-2a-72-e0-b4-b6的主机连接在交换机的2 0 端口,而该主机MAC地址并非b8-2a-72-e0-b4-b6。笔者想到IP为1 0.1 0.50.3 的主机是服务器虚拟化集群部署中的一台ESXI主机,且用到了虚拟技术,有可能是在虚拟网络交换机上产生的MAC地址冲突。通过VMwarevSphereClient访问服务器虚拟化集群,打开vCenterServer,查看ESXI主机(1 0.1 0.50.3)的网络配置。笔者发现,虚拟交换机的Management Network管理端口的MAC 地址为switch-A#show mac-address-t
12、ableRead mac address table.Vlan Mac Address100-03-0f-68-48-a45800-03-0f-68-48-a45090-0c-29-1d-37-b15008-15-5d-19-13-005868-2a-72-ee-b4-b6switch-A#show mac-address-tableRead mac address table.vian Mac Address10-03-0f-60-48-a45880-03-0f-60-48-a45880-8c-29-1d-37-b15880-15-5d-19-13-0058b8-2a-72-e8-b4-b6
13、图3 显示同一个MAC地址对应交换机的不同端口b8-2a-72-e0-b4-b6。重新添加虚拟交换机的管理端口并生成MAC地址,删除原先冲突的端口,然后重新Ping10.10.50.3,显示一切正常,没有出现网络数据丢包的现象,主机无响应的故障也随之消除。【注意】一定要先添加虚拟交换机的管理端口,再删除冲突端口,以免无法连接管理ESXI主机。结语上述网络数据丢包问题表面看起来像是IP地址冲突导致,但实质是MAC地址冲突引起的,ESXI主机虚拟交换机生成的管理端口的MAC地址冲突引起的网络数据“奇异”丢包现象。物理网卡中的MAC地址由厂商统一协调分配,是全球唯一的,一般不可能出现MAC地址冲突,
14、因此不会出现在物理服务器部署上(除非人为修改物理网卡的MAC地址)。但在进行服务器虚拟化集群时,这种问题有可能会出现。因此,在设置虚拟网络接口时,应重点关注一下生成的MAC地址是否在本地网络中存在冲突,如果存在冲突,则需重新生成MAC地址。NTypeCreatorPortsSTATICSystemCPUSTATICSystemCPUDYNAMIC Hardware Ethernet1/10DYNAMIC Hardware Ethernet1/38DYNAMICHardwareEthernet1/2TypeCreatorPortsSTATICSystemCPUSTATIC SystemCPUDYNAMIC Hardware Ethernet1/1eDYNAMIC Hardware Ethernet1/38DYNAMICHardiareEthernet1/ 2023.8投稿信箱