1、计算机网络故障诊断与维护9.1网络故障诊断概述1网络故障诊断的目的确定网络的故障点,恢复网络的正常运行。发现网络规划和配置中的瑕疵,改善和优化网络的性能。观察网络的运行状况,及时预测网络通信质量。2网络故障产生的原因(1)物理层问题,由于物理设备相互连接失败或者硬件及线路本身引起的问题。(2)数据链路层问题,包括网络设备接口的配置等问题。(3)网络层问题,由于网络协议配置或操作引起的错误。(4)传输层问题,由于性能或通信拥塞引起超时等问题。(5)应用层问题,包括操作系统、网络应用程序自身中的软件错误。3故障排除的方法OSI的层次结构为管理员分析和排查故障提供了非常好的组织方式。由于各层相对独立
2、,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。通常有两种逐层排查的方式,一种是从低层开始排查,适用于物理网络不够成熟稳定的情况,如组建新的网络、重新调整网络线缆、增加新的网络设备;另一种是从高层开始排查,适用于物理网络相对成熟稳定的情况,如硬件设备没有变动。无论哪种方式,最终都能达到目标,只是解决问题的效率有所差别而已。4.一般网络故障排除的步骤(1)确定故障的具体现象,分析造成这种故障现象原因的类型。例如,主机不响应客户请求服务,可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等。然后根据故障的性质和影响范围进行故障定位。(2)收集需要的用于帮助隔离可能故
3、障原因的信息。从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。(3)根据收集到的情况考虑可能的故障原因,排除某些故障原因。例如,根据某些资料可以排除硬件故障,把注意力放在软件原因上。(4)根据最后的可能故障原因,建立一个诊断计划。开始仅用一个最可能的故障原因进行诊断活动,这样可以容易恢复到故障的原始状态。如果一次同时考虑多个故障原因,试图返回故障原始状态就困难多了。(5)执行诊断计划,认真做好每一步测试和观察,每改变一个参数都要确认其结果。分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。(6)记录解决方案,确定预防措施。在问题解决以后,作
4、为合格的管理员还需要将问题解决过程中的相关记录整合成文献,以备后用。同时,还要制定同样问题再次产生的预防措施,以主动的方式进行网络管理活动。9.2网络故障的分类1按网络故障的性质划分(1)物理故障:是指设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。(2)逻辑故障:逻辑故障中的一种常见情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。2按网络故障的对象划分(1)线路故障:线路故障最常见的情况就是线路不通,(2)路由器故障:事实上,线路故障中很多情况都涉及到路由器,因此也可以把一些线路故障归结为路由器故障。(3)主机故障:主机故障常见的现象就是主机的配置不当。9.3网络
5、故障的分层检查物理层故障 数据链路层的功能是在相邻两结点间无差错地传送数据帧,为网络层提供服务。数据链路层互连的设备是网桥,网桥在网络互连中起到数据接收、地址过滤与数据转发的作用,它用来实现多个网络系统之间的数据交换。用网桥实现数据链路层互连时,允许互联网络的数据链路层与物理层协议是相同的,也可以使不同的。网络物理层的故障主要是指网络设备的连接性能故障,包括网卡、交换机、集线器、路由器等。其常见的物理故障如下:电气性能故障:主要指网络设备的端口提供的电平不正常(过高、过低),电压极性不正常。传输模式故障:网络设备的数据传输有半双工、全双工、自适应多种模式。在数据传输过程中,可能发生模式人为设置
6、错误,相互不匹配;或两端不能自动地建立正确的传输协商机制等。数据链路层故障网络层故障 在网络的运行中,经常会遇到因设备设置导致的网络错误,一般这些情况的排除没有适当的工具是很难完成的。这些常见的网络问题归结成以下几类:错误:指可以导致网络的设备不能正常运行的网络问题。例如:IP地址冲突、子网掩码错误、IP地址是子网地址、IP地址是子网广播地址、关键设备没有响应、DHCP服务器提供了正在使用的IP地址、丢失DHCP给出的地址。警告:对网络的正常运行没有影响,但可能属于设备设置错误的网络问题。例如:缺省路由器没有响应、IP子网的唯一设备、IPX网络唯一设备、网络中唯一使用IPX类型的设备、Prox
7、y ARP响应本地IP。传输层故障传输层的主要功能有:提供建立、维护和拆除传输层连接;选择网络层提供合适的服务;提供端到端的错误恢复和流量控制;向会话层提供独立于网络层的传送服务和可靠的透明数据传送。传输层故障的检查主要包括以下几个方面:o差错检查,如数据包的重发等。o通信拥塞或上层协议在网络层协议上的捆绑方面。应用层故障 应用层是开放系统互连(OSI)环境与本地系统的操作系统和应用系统直接接口的一个层次。在功能上,应用层为本地系统的应用进程访问OSI环境提供手段,也是唯一直接给应用进程提供各种应用服务的层次。根据分层原则,应用层向应用进程提供的服务是OSI的所有层直接或间接提供服务的总和。应
8、用层故障检查主要包括以下几个方面:操作系统的系统资源的运行状况应用程序对系统资源的占用和调度管理方面的问题,如安全管理、用户管理等。9.4网络故障诊断的工具软件工具1.IP连接测试-ping2.路由追踪-tracert3.路径测试-pathping4.IP路由表-Route5.网络诊断工具-netsh diagnostic6.显示IP地址信息-ipconfig7.网卡地址及协议列表工具-getmac8.网络协议统计工具-netstat硬件工具1物理线缆测试仪图9-9物理线缆测试仪图9-10TPT-8020A测试仪2网络测试仪图9-11安捷伦J6800A网络测试仪图9-12无线网络测试仪3协议分
9、析仪图9-13 Optiview Integrated Network Analyzer9.5常见的网络故障及解决方法工作站故障 1IP地址冲突使用TCP/IP协议的每台计算机必须有自己独立的IP地址,有了IP地址才能与网络上的其他主机间进行通信。一般情况下,IP地址配置不正确,主要表现为IP地址冲突。如下几种情况可以造成IP地址冲突。(1)用户对TCP/IP并不了解,不知道IP地址、子网掩码、默认网关等参数如何设置,有时用户不是从管理员处得到上述参数的信息,或者是用户无意修改了这些信息。(2)管理员或用户根据管理员提供的上述参数进行设置时,由于失误造成参数输错。(3)维修调试时,维修人员使用
10、临时IP地址所致。(4)故意窃用他人的IP地址。2子网掩码设置不正确子网掩码是一个32位地址,是与IP地址结合使用的一种技术。它的主要作用有两个,一是用于屏蔽IP地址的一部分以区别网络标识和主机标识,并说明该IP地址是在局域网上,还是在远程网上。二是用于将一个大的IP网络划分为若干小的子网络。在同一网段中的计算机应该具有相同的子网掩码。如果子网掩码不同,就算是位于同一个网段的计算机也不可能通。所以,如果同一网段的计算机之间不能通信,除了IP地址正确以外,子网掩码也必须相同。3没有安装网络协议网络协议是网络上所有设备之间通信规则的集合,它规定了通信时信息必须采用的格式和这些格式的意义。不同的计算
11、机之间必须使用相同的网络协议才能进行通信。在网络的各层中存在着许多协议,接收方和发送方同层的协议必须一致,否则一方将无法识别另一方发出的信息。网络协议使网络上各种设备能够相互交换信息。常见的协议有:TCP/IP协议、IPX/SPX协议、NetBEUI协议等。用户如果访问INTERNET,则必须在网络协议中添加TCP/IP协议。TCP/IP规范了网络上的所有通信设备,尤其是一个主机与另一个主机之间的数据往来格式以及传送方式。TCP/IP是INTERNET的基础协议,也是一种数据打包和寻址的标准方法。4网关没有设置或设置不正确 网关是一个网络通向其他网络的IP地址,要实现这两个网络之间的通信,必须
12、通过网关。如果网络A中的主机发现数据包的目的主机不在本地网络中,就把数据包转发给它自己的网关,再由网关转发给网络B的网关,网络B的网关再转发给网络B的某个主机。所以,只有设置好网关的IP地址,TCP/IP协议才能实现不同网络之间的相互通信。5DNS地址设置不正确 DNS设置不正确,就不能对IP地址进行解析,也就无法使用域名进行网络访问,而只有使用IP地址进行网络访问。如果在访问网站时,在浏览器中输入IP地址可以访问某一网站,却无法通过域名进行访问,在这种情况下,首先检查是否设置了DNS地址,或确认地址是否正确?如果DNS地址无问题,则可能是网站的DNS服务器出了问题。服务器故障 1服务器常见的
13、故障及排除方法(1)服务被中止(2)流量问题(3)系统资源不足(4)服务器软件故障(5)管理方面的问题 2服务器故障排除的基本原则1)尽量恢复系统缺省配置(1)硬件配置:去除第三方厂商备件和非标配备件。(2)资源配置:清除CMOS,恢复资源初始配置。(3)BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序。(4)TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2)从基本到复杂 (1)系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。(2)硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为
14、止。(3)软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。3)交换对比(1)在最大可能相同的条件下,交换操作简单效果明显的部件。(2)交换NOS载体,即交换软件环境。(3)交换硬件,即交换硬件环境。(4)交换整机,即交换整体环境。3服务器故障排除需要收集的信息(1)服务器信息:机器型号(P/N:)、机器序列号(S/N:)、BIOS版本、是否增加其它设备、硬盘如何配置(是否做阵列,阵列级别)、安装什么操作系统及版本。(2)故障信息:在POST时,屏幕显示的异常信息、服务器本身指示灯的状态、报警声和BEEP CODES、NOS的事件记录文件、Events Log 文件。(3)确
15、定故障类型和故障现象:开机无显示、上电自检阶段故障、安装阶段故障和现象、操作系统加载失败、系统运行阶段故障。交换机故障 1硬件类故障 硬件故障主要指交换机电源、背板、模块、端口等部件的故障,可以分为以下几类:(1)电源故障(3)模块故障(4)背板故障(5)线缆故障 从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以在建设机房时,必须先做好防雷接地及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作提供良好的环境。2交换机的软件故障 交换机的软件故障是指系统及其配置上的故障,它可以分为以下几类:(1)系统错误:交换机系统是硬件和软件的结合体。在交换机
16、内部有一个可刷新的只读存储器,它保存的是这台交换机所必需的软件系统。由于设计的原因,可以会存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。对于此类问题,需要养成经常浏览设备厂商网站的习惯,如果有新的系统推出或者新的补丁,请及时更新。(2)配置不当:由于对交换机的性能等技术指标不熟悉可能会导致配置错误的出现。比如VLAN划分不当导致网络不通,端口被错误地关闭,交换机和网卡的模式配置不匹配等原因。这类故障有时很难发现,如果不能确保配置的正确性,最好先恢复出厂的默认配置,然后再一步一步地配置。在配置之前先阅读说明书是好的习惯之一。每台交换机都有详细的安装手册、用户手册,深入到每
17、类模块都有详细的讲解。如果还有不清楚之处就需要向供应商的工程师咨询后再做具体配置。路由器故障 1硬故障 常见的硬故障通常表现在硬件上,一般有这么几种:(1)系统不能正常加电:表现为当打开路由器的电源开关时,路由器前面板的电源灯不亮,风扇不转。这时要重点检查电源系统,看供电插座是否有电,电压是否在规定的范围内?如果供电正常,应该检查电源线是否完好,接触是否牢靠,必要时可以换一根,如果还不行,可判定问题应该出在路由器的电源上。先检查路由器电源的保险是否完好,若烧了应该更换,若还不行只好送修。(2)部件损坏:这类情况在硬件故障中是比较常见的一类,这里的部件往往是接口卡。表现为当把有问题部件插到路由器
18、中时,系统其他部分都工作正常,但无法正确识别有问题的部件,这时往往是因为部件本身有问题。还有一种情况,就是部件可以被正确识别,但做完正确配置后,接口就是不能正常工作,这往往是因为存在物理故障。要确认以上这两种情况,最好用相同型号的好的部件替换怀疑有问题的部件,就可以确认问题是否存在了。(3)系统软件损坏:这种故障似乎应该归入软件故障,但由于这种情况往往是路由器本身存在的问题,且与硬件紧密相关,所以不妨把它归类于此。以Cisco的路由器为例,如果路由器开机后总是进入rmon状态,这往往说明系统软件IOS存在问题,不妨将IOS重新写一遍。(4)其他:这里所要提到的是这样一些情况,有时在对系统软件进
19、行升级时,发现系统无论怎样也不能完成升级。这时不妨检查一下所要升级的软件的大小是否超过了路由器的NVRAM的容量。如果超过了,则无论如何也无法完成升级,这时应该先扩充NVRAM的容量,再升级系统软件。2软故障(1)功能无法实现:有些时候,用户要作某些特定的配置(如NAT),反复检查后,确 认配置正确,可相应的功能就是实现不了。这时先不要怀疑设备有问题,最好先找一找系统软件的版本号,并查找相关的说明,看一看所使用的软件的版本是否支持这个功能。因为路由器的系统软件往往有许多版本,每个版本支持不同的功能。如果当前的软件版本不支持这个功能,那就应该找到相应的软件,先进行升级。(2)网络规划存在问题:有
20、些时候,配置似乎没有问题,可路由器就是不能正常工作,或者工作状态不稳定,总出现一些莫名其妙的问题。这时先不要急着反复调试,不妨回过头来看看用户的网络规划,看看是不是有问题。例如是不是有重复使用的网段,网络掩码的计算是否正确等等。(3)配置问题:这种问题是最常见的,就是配置的确存在问题,例如线路两端路由器的参数不匹配或参数错误等等。这种情况只要认真细致地查找,总可以解决。3.路由器故障的排除1)串口故障排除(1)串口运行、线路协议运行,这是完全的工作条件。(2)串口运行、线路协议关闭(3)串口和线路协议都关闭(4)串口可管理功能关闭和线路协议关闭2)以太接口故障排除 以太接口的典型故障疑问是:带
21、宽的过分运用;碰撞冲突次数频繁;运用不兼容的帧类型。3)异步通信口故障排除 互连网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。主要的问题是,在通过异步链路传输基于LAN通信量时,将丢失的信息包的量降至最少。异步通信口故障一般的外部因素是:拨号链路性能低,电话网交换机的连接质量问题,调制解调器的配置。9.6本章小结 本章介绍了网络故障的诊断与网络维护的相关知识。主要掌握网络故障产生的原因,故障诊断的原理,以及故障排除的步骤等内容。首先介绍了网络故障诊断的目的、故障产生的原因、排除的方法和步骤,然后介绍了网络故障的分类,以及故障分层检查的原理。接着介绍了网络故障诊断的常用软、硬件工具。最后介绍了常见网络故障及排除方法。分层检查指导故障分别定位于物理层、数据链路层、网络层、传输层和应用层,分段诊断也是常用的方法之一,即把故障定位于某一网段的设备上。资料整理仅供参考,用药方面谨遵医嘱