1、IBM PC服务器故障诊流程 IBM PC服务器故障诊断流程 一、状态确定: 状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析。故障定位侧重于判断坏在哪里; 二、故障定位: 故障定位的时候,我们用到的手段非常多,下面,利用POST的
2、过程; 1、 POST阶段复习: 广义的POST过程是指从按下电源开关到开始引导系统,共分为三个过程: 电源供电阶段à核心部件初始化阶段à狭义POST阶段 2、 电源供电阶段: 从按下电源开关的瞬间开始,设备就开始工作了; 电源是动力的源泉,供电系统的良好是设备正常运转的基础; 如果问题出现在电源这边,那么之后的一切都进行不下去了; 电源问题: 供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检; 故障表象: 机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。 诊断方法及过程: 供电系统是一条完整的链路,不是单指电源模块; 市电
3、及插座à电源线à电源模块à电源分配板à主板; 首先,要确认市电供电是否正常;包括使用的插座或者PDU(power distribution unit)模块; 其次,查看电源线是否接好,电源线本身是否OK; 诊断方法: 替换法+最小化法+指示灯法+排除法; 替换法:拿确认完好的备件去替换故障设备上的相应备件; 最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定及维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBM X346(8840)为例,下面为IBM X346(8840)能够启动的最低配置: 指示灯法:一般在电源模块上
4、都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和DC(直流电)。 3、 核心部件初始化阶段: 核心部件初始化问题: 电源OK之后,在真正的POST开始之前,其实要有一个准备过程,即核心部件的初始化过程; 如下: 电源→CPU →BIOS →CMOS →内存(前64k) →I/O总线控制器→显卡系统 这些部件都是POST要开始的必须条件,POST实际上是由他们来完成的,所以在他们初始化成功之前,POST不会开始; 注:核心部件的初始化,只是为了满足POST,他们初始化成功,并不代表他们所有功能都OK;所以,在他们初始化之后,还会有一个对他们自己的POST过程;所以在整个
5、POST过程中,CPU之类的核心部件会被检查两次,一次初始化,一次才是真正的POST; IBM: (1).机器电源风扇转,电源灯常亮,但机器无显示。 (2).机器无显示,机器前面板!指示灯和光路诊断板上的LED指示灯亮黄灯或者红灯; (3).机器无显示,但有明显的B-B-CODE报警声。 诊断方法及过程 IBM: (1).确认机器显示器是否连接正常,并正常工作。 (2).确认机器前面板上的LED指示灯是否正常, 确认光路诊断板上的指示灯是否正常; 确认主板上的LED指示灯是否正常; Eg:IBM X346(8840)为例: 前面板指示灯: 查询手册:Har
6、dware Maintenance Manual and Troubleshooting GuideàChapter 1. General informationàFront view 硬盘: ①硬盘驱动器活动指示灯(绿色) 该灯闪烁表示硬盘有数据读写操作; ②硬盘驱动器状态指示灯(绿色) 该指示灯点亮,则表示驱动器发生故障。如果服务器中安装了可选的IBM ServeRAID 控制器且该指示灯在缓慢闪烁(每秒闪烁一次),就表示正在重建(rebuild)驱动器。当指示灯快速闪烁(每秒闪烁三次)时,表明控制器正在识别该驱动器。 黄灯点来那个就说明该驱动器发生了故障,频率
7、较高的闪烁表明服务器正在识别该驱动器,频率较低的闪烁说明服务器正在重建驱动器。 操作信息面板: 操作员信息面板的含义: 系统错误指示灯 如果该指示灯点亮,则表示发生了系统错误。系统错误指示灯还位于服务器背面。系统板上光通路诊断面板上的指示灯也点亮,以帮助隔离错误。该指示灯由BMC 控制。 释放滑锁 按下操作员信息面板右侧的释放滑锁来将操作员信息面板滑出并查看光通路指示灯和按钮。 电源指示灯 如果此绿色指示灯点亮并不闪烁,则表示服务器打开。如果该指示灯在闪烁,则表示服务器关闭,但是仍连接到交流电源。当此指示灯熄灭时,表明已切断交流电源或者电源或指示灯本身出现了
8、故障。服务器后部也有电源指示灯。 注:如果此指示灯熄灭,并不表示服务器没电。此指示灯可能已烧毁。要切断服务器的所有电源,必须从电源插座拔出电源线。 电源控制按钮 按下该按钮可手动打开和关闭服务器。电源控制按钮护罩及服务器一起提供。您可以安装此磁盘形状的护罩以防止意外关闭服务器。 硬盘驱动器活动指示灯 如果此绿色指示灯点亮,则表示某个硬盘驱动器正在使用。 注:在两个位置显示了SCSI 驱动器的硬盘驱动器活动:硬盘驱动器本身和操作员信息面板上的硬盘驱动器活动指示灯。SATA 驱动器没有硬盘驱动器活动指示灯。SATA 驱动器指示硬盘驱动器活动的唯一位置是在操作员信息面板上 位置指示灯
9、 如果服务器位于其它服务器中间,此中间(蓝色)指示灯可以帮助您从视觉上区分出该服务器。可以使用IBM Director 来远程点亮该指示灯。该指示灯由BMC 控制。 信息指示灯 如果此淡黄色指示灯点亮,则表示发生了一般事件。请检查光通路诊断面板 光路诊断板指示灯: 查询手册:Hardware Maintenance Manual and Troubleshooting Guideà Chapter 3. Diagnosticsà Light Path Diagnostics 光通诊断板的含义: 光路诊断板点亮,系统错误LED点亮或者系统信息LED点亮
10、 含义 操作 OVERSPEC 点亮表示没有足够的电量为系统供电,NONRED和LOG也会点亮 1.如果只安装一个了一个电源,请安装另外一个可选电源;2.更换故障的电源 PS 点亮表示一个电源故障或被卸下;冗余电源中一个电源的DC灯熄灭 1.保证电源冗余;2.更换故障电源 LINK 保留 CPU 点亮微处理器发生故障;闪烁表示发生了无效的CPU配置 确保正确安装处理器;发生了配置错误保证所安装的CPU的各个参数都一致 VRM 点亮表示微处理器稳压模块发生故障;闪烁表示进行了无效的配置 更换故障的VRM,如果问题仍存在请更换主板;保证正确安装VRM LOG
11、点亮表示BMC日志或者系统错误日志中,两个之一已满或者全部几乎已满 系统错误日志为75%已满;如果可以保存并清除日志;检查日志可以找到潜在的错误 MEM 点亮内存故障;闪烁表示进行无效的内存配置 更换系统板上点亮LED的故障内存;保证DIMM的正确安装 NMI 点亮表示出现机器检查错误 检查系统错误日志和BMC日志 PCI 点亮PIC适配器出现故障;PCI-X板上相应的LED也会点亮 检查BMC日志或者系统错误日志;更换故障的PCI适配器 SP 点亮服务处理器发生故障 从服务器上卸下交流电源;然后将服务器重新连接到交流电源并重新启动服务器;如果故障仍存在请更换系统板
12、 DASD 点亮出现硬盘驱动器错误;出现错误的硬盘驱动器上的错误指示灯也会点亮 检查驱动器上的指示灯并更换指示的驱动器 RAID 点亮RAID控制器出现故障 检查BMC日志系统错误日志;更换故障的RAID卡 NONRED 点亮表示服务器正在使用非冗余的电源;LOG灯也有可能点亮 更换故障电源; TEMP 点亮表示温度超出系统阙值 确定风扇是否发生故障;保证机房内温度在正常范围内 FAN 点亮风扇发生故障或者转速过慢;故障的风扇在系统板上的指示灯也会点亮 更换故障的风扇 PCI BRD 点亮表示PCI-X板出现故障 重新安装PCI-X板组合件 CPU BR
13、D 点亮表示微处理器托盘出现故障 重新安装微处理器托盘 I/O BRD I/O板出现故障 重新安装;更换故障I/O板 注意:不是所有设备的光路诊断板都可以从前面板上拉出来查看的,一些老设备是将光路诊断板设计在机箱内的,需要开盖查看; 主板指示灯: 查询手册:Hardware Maintenance Manual and Troubleshooting Guideà Chapter 4. Customer replaceable units à System-board LED locations (3). 确认机器报警声信息。 查询手册
14、Hardware Maintenance Manual and Troubleshooting Guideà Chapter 6. Symptom-to-FRU indexà Beep symptoms (4). 最小化测试 4、 狭义POST阶段: 在显示器开始有显示之后,进入我们所谓的狭义POST阶段,在这个阶段,我们开始告别两眼一抹黑的困境; 首先,CPU的基本功能初始化完成,他可以执行POST代码对部件进行全面的自检,并且,显卡POST功能的通过,我们又有了可供CPU反馈POST结果的平台,报错码、诊断工具纷呈出台; 所以,在这个阶段,最核心的思想就是:掌握好设备的报错码分
15、析手段和诊断工具的使用; IBM: (1).指示灯法: 和核心部件阶段的方法一样; (2).报错码: Hardware Maintenance Manual and Troubleshooting Guideà Chapter 6. Symptom-to-FRU indexà Error symptoms和POST error codes; (3).F2诊断程序,自检阶段根据提示F2 for DIAGNOSTICS,可以根据提示选择Quick test,测试硬件设备,查看测试日志; ①开启服务器并观察屏幕。 注意:为了运行检测程序,必
16、须使用所设置过的最高级别的密码启动。就是说,如果设置了管理员密码和开机加电密码,则用户要运行检测程序就必须输入管理员密码,而不是开机加电的密码。 ②当看到F2的检测程序信息出现时,按F2进入。 ③如果设置了密码,输入正确的密码然后按回车。 ④在屏幕最顶端的菜单中选择"Extended"或"Basic"来执行两种检测模式。 ⑤当检测程序菜单界面出现的时候,从中选择你想运行的检测项目,然后按照屏幕上的提示操作。 a、用户可以在运行检测程序的时候按F1获得帮助信息,并且用户还可以在帮助窗口内按F1来获得在线的文档帮助,从中用户可以选择不同类别的信 息。要从帮助信息中退出,按ESC。 b
17、如果服务器在检测过程中停止并且用户不能继续执行检测程序,重新启动服务器并且尝试再次运行检测程序,如果检测这个设备依旧出现服务器停止的问题,更换这个部件。 c、键盘和鼠标(点击设备)的检测假定有一个键盘和鼠标已经连接到服务器上。 d、如果用户在没有连接键盘或鼠标的情况下运行检测程序,那么将无法使用"Next Cat"和"Prev Cat"按键来操作在不同类别的检测项目之间进行切换。所有其它的功能选项均提供鼠标可点击的按钮,并且也支持使用功能键。 e、用户可以使用常规的键盘检测项目来检测USB的键盘,而常规的鼠标检测也可用来检测USB鼠标。当没有USB设备连接的时候,用户还可以使用USB接
18、口的检测只检测端口。 f、用户可以通过选择顶端的"Hardware Info"选项来查看服务器的配置信息(如系统的配置、内存容量、中断请求(IRQ)的使用、直接内存存取(DMA)的使用及设备驱动等等)。 如果检测程序没有检测出任何硬件错误,但是在系统正常运行过程中依旧出现问题,那么有可能是软件错误导致的。如果用户怀疑是软件问题,可以查看通过软件补丁生成的信息。 查看检测日志:当检测完成后,用户可以用过选择屏幕顶端的"Utility"项目,然后选择"View Test Log"来查看检测日志。用户也可以将检测日志生成一个文件并保存到软盘或硬盘上。 测试结果: 我
19、们常常关注的是Failed和Warning这两项。 (4).F1 for Setup,自检阶段根据提示F1 for SetupàEvent/Error log查看分析和清除系统错误日志,以及进入高级设置Advanced Setup清除BMC日志; 5、 操作系统无法启动: 系统无法启动,IBM服务器如果外加的阵列卡IBM ServeRAID 当中的RAID信息丢失,系统会找不到引导盘,从而进入不了操作系统,这种情况的表象是在RAID卡BIOS阶段有报错,在进入操作系统会出现画面:一个图形界面,最下面是标注了F1至F12的一堆方块,其中,F1上面有一个向下的箭头在闪动;这个是没有找到启动设
20、备的告警;提示你按下F1继续;按下F1之后,发现设备告警:没有找到启动设备,因为IBM外加阵列卡的服务器的RAID信息在硬盘和阵列卡上都有保存,可以借助RAID卡BIOS,将RAID信息从硬盘拷贝到RAID。具体做法是,当设备自检到RAID卡时,根据提示,进入“Mini-Configuration(RAID卡BIOS)”,选择Advanced Functionsà Copy the Configuration from Drives to Controller,将配置从硬盘拷贝到控制器à提示按Y,按Yà提示processing,表示正在拷贝à出现0000H,表示成功,之后操作系统会提示重新启动
21、重新启动之后,成功进入操作系统。 对于非设备硬件的问题,而是丢了一些系统内核文件导致,需要的是修复操作系统,比如重新安装操作系统。 6、 操作系统中的在线诊断工具: 在操作系统运行的时候,各个厂商也提供了自己的在线诊断工具: IBM: (1).DSA: DSA软件不仅可以收集信息,也可以判断故障; (2).ServeRAID Manager: 专门用来管理阵列信息; (3).director: 如果有集中监控和管理平台,可以使用这个软件判断故障; 7、 故障解决方法: IBM: Eg: Hardware Maintenance Manual and Troubleshooting Guide - IBM eServer xSeries 346 .pdfà Chapter 4. Customer replaceable units和Chapter 5. Field replaceable units 15 / 15 15 / 15






