1、服务器故障排除方法
相比pc而言,服务器出故障的机率是小多了,但是它出故障造成的损失可也大多了。作为服务器维修人员需要了解一些服务器故障恢复的基本知识,知道在维修时可以做些什么来最快速的解决问题也可以减少故障停机时间。这里不是一本服务器故障解决的完全手册,但如果能够认真的按照下面的步骤维修维护,它也许可以解决大多数问题,但当你做完所有的这一切仍不管用时,不用惭愧,去找维修专家吧,可以放心的是,这些维修步骤不会出现大的损害,最坏的情形是“it does not work at all”。本文主要分二部分,第一部分讲的是服务器故障排除的基本原则性问题。第二部分讲述了一些服务器硬件故障排除的实例。
2、
第一部分 服务器故障排除的基本原则性问题
一、服务器开机无显示应怎么办
1.检查供电环境,零-火;零-地电压?
2.检查电源指示灯,如果亮,正常吗?
3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?
4. 是否更换过显示器,更换另一台显示器。
5. 去掉增加内存
6. 去掉增加的cpu
7.去掉增加的第三方i/o卡
8. 检查内存和cpu 插的是否牢靠
9. clear cmos
10. 更换主要备件,如系统板,内存和cpu
二、服务器故障排错的基本原则是什么
1. 尽量恢复系统缺省配置
a:硬件配置:去除第三方厂商备件和非标配备件;
b:资源配
3、置:清除cmos,恢复资源初始配置;
c: bios,f/w,驱动程序:升级最新的bios,f/w和相关驱动程序;
d: tpl:扩展的第三方的i/o卡属于该机型的硬件兼容列表(tpl)吗?
2. 从基本到复杂
a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
3. 交换对比
a:在最大可能相同的条件下,交换操作简单效果明显的部件;
b: 交换nos载体,既交换软件环
4、境;
c:交换硬件,既交换硬件环境;
d:交换整机,既交换整体环境;
三、服务器故障排除需要收集哪些信息?
服务器信息:
1.机器型号
2.机器序列号(s/n: 如:nc00075534)
3.bios 版本
4.是否增加其它设备,如网卡,scsi 卡,内存,cpu
5.硬盘如何配置,是否做阵列, 阵列级别
6.安装什么操作系统及版本(winnt 4, netware, sco, others)
· 故障信息
1.在post时,屏幕显示的异常信息
2.服务器本身指示灯的状态?
3. 报警声和beep codes
4. nos
5、的事件记录文件?
5. events log 文件
· 确定故障类型和故障现象:
1. 开机无显示;
2.上电自检阶段故障;
3. 安装阶段故障和现象;
4. 操作系统加载失败;
5. 系统运行阶段故障;
第二部分 服务器硬件故障处理几例
硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。下面以一台万全4500为例说明。有一台万全4500,配有256m内存,使用一个piii xeon 500带2m高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条cpu电压为0伏的信息,系统指示灯三灯不停在
6、闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块(vrm)出错或cpu出错或cpu与cpu板块接触不良,但也可能是cpu板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为cpu板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报cpu电压错的情况也有5%左右。我们立刻把cpu调换在另一cpu插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是cpu板块坏。这时,取出cpu仔细擦拭金手指,以及cpu板块中与cpu接触的地方后,开机依然无显示。相对处理器坏的情况来说处理器电压模块(vrm)出现故障的情况比较大。于是立即在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示cpu电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台万全4500中取下一个cpu安装后,开机正常。