1、IBM X系列服务器操作手册Ver. 1.0蓝色快车 武汉二站肖涵2008/7/6目录规范及流程篇3服务器技术篇3一、X系列服务器简介3二、IBM阵列卡41、分类42、配置RAID(以ServeRAID 8i为例)6三、收集日志91、DSA日志92.RAID日志123、BMC日志18四、故障排除241.故障排除步骤及技巧242、DASD故障26五、必备工具27规范及流程篇服务器工作流程请查看IBM X Server 工程师服务工作手册,目前最新版本为ver1.4,该手册会不定期更新,请及时通过服务站邮箱收取并学习。服务器技术篇一、X系列服务器简介众所周知,IBM的服务器产品线非常丰富齐全,从入
2、门级到大型机,一应俱全。打开IBM的官方网站,IBM给我们带来的第一印象就是拥有如此多的专业产品可供选择。总体来看,IBM服务器家族目前共有4条产品线:基于Intel架构的服务器x系列(xSeries,近日IBM已经升级推出基于AMD皓龙处理器的5款新品)、中型企业级服务器i系列(iSeries)、UNIX服务器p系列(pSeries)和大型主机z系列(zSeries)。这四大系列基本都包括了从入门级到企业级的各种档次的服务器产品,在结构上也全面包括了塔式、机架式、刀片和机柜式。IBMeServerxSeries系列服务器是IBM服务器品牌之一。eServerxSeries服务器得名于IBM工
3、业标准服务器经典的“X-架构”,是eServer家族中支持开放工业标准的代表,它是由原来的Netfinity系列发展而来的。下面我们将用一组数据为标题,来简要描述IBMx系列的发展历程: 1)9年历史IBM在1998年提出X系列服务器设想,到现在已经有9年历史。而使x系列真正意义上进入到应用领域,还是到了2001年之后。相比较IBM大型机的诞生时间,x系列所关注的目标是面向中小企业,因此要比面向金融行业的大型机稍晚一些。2)2亿美元从x1系列到x3共经历了5载历程,耗资近2亿美元。正是IBM看到中小企业蕴含着无限商机,因此不惜重金打造x系列。3)3代架构IBMx系列共经历了3次架构变革。早在2
4、001年,IBM大型机事业部就历时三年、耗资2000多万美元开发出“SUMMIT”芯片组。第一代X-架构的诞生,使得IBM芯片组为INTEL处理器赋予更强能力,工业标准服务器开始进入企业关键应用领域;以HURRICANE芯片组为核心的X3架构同样历时三年,耗资高达1亿美元。据分析数据显示,X3架构相比X2,其系统性能约有38%的提升。4)4地研发IBM在全球斥资成立4座xSeries研发中心。最近的一次是在2004年7月,IBM成立了“xSeries台湾研发中心”,研发中心初期人员达到80人,该中心定位为MissionLab,赋予其“end-to-end开发”使命,亦即从市场需求汇集、规格订定
5、、乃至于产品的最终出货等所有流程。目前已经研发出包括x206、x306及x226等3款服务器,相关投资金额业已累积达数千万美元。另外3座研发中心位于美国的Raleigh、Austin与Kirkland。5)数年发布梳理IBM历年的新品发布轨迹,我们发现IBM对于1、2路服务器新品推出的力度在逐年加大,无论从推出频率还是新品数量来看,都使IBMx系列产品线日趋成熟,造就了今日非比寻常的产品线。2002年,IBM公司推出x232系列服务器的升级产品x235,针对用户不断增长的商业需要而设计;同年8月,IBM推出x200的升级产品面向小型企业的Pentium4单路服务器x205,具有热插拔硬盘功能,
6、更加易于使用及安装。2003年2月,IBM宣布推出当时全球最快的4路机架优化式服务器x365和最薄的4路刀片服务器BladeCenterHS40;同年8月率先推出了基于AMD处理器的面向高性能运算的系统。2004年,IBM再次推出x205换代产品x206塔式服务器和新一代机架优化式服务器x306;同年9月,IBM在中国市场推出了8款基于英特尔新至强(Nocona)64位扩展技术处理器的服务器新产品。这是IBMeServerx系列品牌诞生以来规模最大的一次产品线更新,此次发布的新产品包括x206、x226、x236、x306、x336、x346以及IBMeServerBladeCenter刀片服
7、务器。2005年,IBMx系列服务器在技术上不断创新,推出了X3架构系列产品,为基于下一代64位Intel至强处理器7000序列的x系列服务器,即入门级服务器x100、x206m、x306m产品系列。2006年5月,IBM正式发布了4款基于Intel全新Dempsey芯片的双核服务器。8月份,IBM宣布扩展其基于AMDOpteron处理器的服务器产品线,推出5款新品BladeCenterLS41、BladeCenterLS21、Systemx3755、Systemx3655和Systemx3455。6)一朝更名2006年5月,IBM宣布IBMeServerxSeries改名为IBMSystem
8、x,后面的型号也全面更新,如原来的高性能服务器x260更名为x3800、x366更名为x3850、x460更名为x3950,其中x3代表这些系统是基于X3架构,倒数第三个数字代表功能,数字越大功能越强;倒数第二个数字代表塔式(0)还是机架式(5);最后一个数字代表采用Intel(0)或AMD(5)的处理器。综观IBMeServer的Z、I、P与X这4个系列服务器产品线,x系列相对起步较晚,但xSeries成长率最近几年尤为显著。二、IBM阵列卡1、分类目前IBM的阵列卡从控制的硬盘来说可以分成三大类:1.控制SCSI硬盘的SCSIRAID控制器:ServeRaid、ServeRaidII、Se
9、rveRaid3L、ServeRaid3H、ServeRaid4L、ServeRaid4Lx、ServeRaid4M、ServeRaid4Mx、ServeRaid4H、ServeRaid5i、ServeRaid6M、ServeRaid6i/6i+、ServeRaid7e、ServeRaid7k;2.控制SATA硬盘的SATARAID控制器:ServeRaid7e、ServeRaid7t;3.控制SAS硬盘以及热插拔SATA硬盘的SASRAID控制器:ServeRaid8e、ServeRaid8i、ServeRaid8k、ServeRaid8k-l;按照是集成的阵列卡或者是选件来分:1.主板集成
10、阵列卡:ServerRaid7e,ServerRaid8e2.选件阵列卡:ServerRaid7k、ServerRaid7t、ServerRaid8i、ServerRaid8k,ServerRaid8k-l下面会详细介绍几款新的Raid卡:ServeRaid7e:集成的SCSIRAID控制器,可以支持Raid1、0和Raid10支持的机型有:xSeries206、226、236、306、346ServeRaid7t(part71P8648):选件的SATARaid卡,支持SATA硬盘,可以最多连接4块SATA硬盘作阵列;Cache:128MB支持阵列级别:Raid0、1、5、10;支持机型:x
11、Series206、206m、226、306、306m、336、326、326mServeRaid7k(part71P8642):选件SCSIRaid卡,支持SCSI硬盘;Cache:128MB支持的阵列级别:Raid0、1、5、1E、5EE、00、10、1E0、50;支持的机型:xSeries236、346ServeRaid8e:集成的SASRAID控制器,支持SAS/SATAHot-Swap的硬盘,可以支持Raid0和1;支持的机型:xSeries206m、306mServerRaid8i(part13N2227和part39R8729):选件SASRAID控制器,支持SAS/SATA硬盘
12、;Cache:256MB支持阵列级别:Raid0、1、5、5EE、6、00、10、1E0、50、60支持的机型:xSeries206m、306m、260、366、460Systemx3800、3850、3950/3950EServeRaid8k-l(part25r8025):选件SASRAID控制器,支持SAS/SATA硬盘;Cache:32MB支持阵列级别:Raid0、1、10支持机型:Systemx3400、3550、3650ServeRaid8k(part25r8064):选件SASRAID控制器,支持SAS/SATA硬盘;Cache:256MB支持阵列级别:Raid0、1、1E、10、
13、5、6支持机型:Systemx3400、3500、3550、36502、配置RAID(以ServeRAID 8i为例)1、 使用ServeRaid Manager配置启动服务器,插入IBM ServeRAID Support CD (或者包括ServeRAID Manager 程序的CD)到光驱中,如果ServeRAID Manager 程序发现未配置的控制器和ready的硬盘,程序会自动启动配置向导如下图:配置向导提供了两个配置选项:定制(Custom)和快速(Express)。快速配置会自动配置阵列卡,也可以通过Express手动配置。如果要使用RAID 1E,RAID 5EE,RAID
14、6,或RAID x0,必需使用定制配置。使用定制配置(Custom configuration): 1)在ServeRAID Manager树,点击要设置的ServeRAID控制器(controller)2)在工具栏,点击Create3)点击Custom configuration.4)点击Next 打开创建逻辑驱动器窗口。5)选择一个阵列级别,可以从上面的列表中选择或者通过展开高级设置菜单,从中选择。注意:如果要创建RAID卷,必须先创建独立的驱动器,然后再运行配置向导创建RAID卷。冗余的逻辑驱动器同步必须完成。在同步前,可以被创建RAID卷。6)点击下一步打开配置逻辑驱动器窗口。7) 选
15、择逻辑驱动器中需要加入的物理驱动器,并且修改高级属性。注意:A一些操作系统有逻辑驱动器大小的限制。保存配置前,核实逻辑驱动器容量适合要安装的操作系统。B一个逻辑驱动器不能超过2048 GB;最大容量是nMB, 这里n 是逻辑驱动器中的物理驱动器个数。C典型的,启动时系统BIOS第一个检测到的阵列卡上面定义的第一个逻辑驱动器是启动驱动器。8) 点击Next。配置摘要窗口打开:9) 浏览配置摘要窗口显示的信息。要改变配置,点击Back10) 点击Apply;然后,当提问是否应用新的配置时,点击Yes 。配置信息则保存到阵列卡和物理硬盘。11) 如果不要改变设置,从ServeRAID Manager
16、 程序退出,从光驱中移除CD。12) 重启服务器。2、 使用ARC配置ARC是内嵌的BIOS的程序,您可以通过它配置ServeRAID-8k-l/8k/8i SAS 控制器.其包括:Array Configuration Utility (ACU) - 创建,配置,管理逻辑驱动器.也可以对驱动器进行初始化及重新扫描.Serial Select - 改变设备及控制器的设置Disk Utilities格式化或校验媒体设备开机自检过程中有Ctrl+A提示:按下组合键Ctrl+A进入配置程序。具体使用方法见三、收集日志在服务器维修中,CAG会要求收集各方面的日志来判断机器故障,需要收集的日志一般有DS
17、A、RAID、BMC1、DSA日志(1)概述 “IBM 动态系统分析”(IBM Dynamic System Analysis)收集并分析系统信息,从而为诊断系统问题提供辅助。 DSA 收集以下方面的系统信息: 系统配置 已安装的应用程序和最新的修订包 设备驱动程序和系统服务 网络接口和设置 性能数据和有关正在运行的进程的详细信息 包括 PCI 信息在内的硬件清单 重要的产品数据和固件信息 SCSI 设备检测数据 ServeRAID 配置 应用程序、系统、安全性、ServeRAID 以及服务处理器系统事件日志 此外,DSA 会创建一份合并的日志,使用户能从系统的不同日志来源中确定问题的前因后果
18、。DSA 也会将系统上的设备驱动程序和固件与 UpdateXpress CD 上的版本进行比较,以生成一份差异汇总报告。 版本介绍:DSA有三个版本,一个版本是Windows Portable Edition(可移植版), 一个版本是Windows Installable Edition(安装版),第三个版是Bootable(启动版)“DSA 可移植版”在受支持的系统上通过命令提示符运行,无需修改任何系统文件或系统设置。它在目标系统的临时空间中运行,并会在执行完成后删除所有的临时文件。可移植版的设计和打包方式决定了它只需临时使用系统资源,就能够在对资源使用敏感的客户环境中收集系统信息。 “DS
19、A 可安装版”会在系统上永久安装 DSA。这个版本使用与“可移植版”相似的命令提示符界面。利用“DSA 可安装版”,您还可以使用 UpdateXpress 比较分析功能。 “DSA 启动版”当机器无系统时,可以用该启动版启动来收集DSA信息。优点: 使数据收集自动化并对基本数据进行组织和分析有助于减少问题确定时间,从而减少了宕机时间 使数据收集以及向 IBM Service 提供系统信息的过程自动化 根据 UpdateXpress 输入提供集成的分析,以便能快速识别低版本的固件和驱动程序 (2)使用方法目前DSA Windows最新的版本为v2.10版,下载地址:Portable Editio
20、n:Installable Edition:Bootable Edition(最新v2.02版):A、 Portable Edition直接在windows系统下运行ibm_utl_dsa_211p_windows_i386.exe默认保存在C:IBM_Support机器型号_20080325-140608下,运行index.html即可看到DSA的内容。B、 Installable Edition运行程序,它会自动安装到系统中,在开始菜单中运行das即可C、Bootable Edition在以上地址下载iso镜像文件,刻成光盘后启动机器,启动后包含如下提示: view - View DSA
21、results. copy - Copy DSA results to removable media. ftp - FTP DSA results to . exit - Quit program. help - Display this help message. Command detail: o view - Displays the collected data on the local console in a text viewer. Note: To exit viewer, type :x then press enter. o copy - This command pre
22、sents the available removable media devices, eg. USB Key, for storing the DSA collected data. o ftp - Transfers the collected compressed XML data file to IBM Service. o exit - Exits the DSA Bootable Edition menu, ejects the Bootable Edition media, and reboots the machine.执行view可以查看机器DSA信息,执行copy,同时在
23、机器上插入一个usb存储设备,即可将DSA保存下来。2.RAID日志RAID日志主要通过ServeRAIDManager来收集ServeRAID Manager可以通过ServeRAID Support CD启动机器来运行,也可以通过ServeRAID Application CD安装到Windows系统中来运行。进入ServeRAID Manager在左边的localhost(local system)处点击右键,选择save printable configuration(保存raid配置信息),默认保存文件名为raidcfg.log。对于Xserise机型,配有软驱,此文件就默认存入A盘
24、(所以要准备好软盘或者双启动U盘);对于System X机器,标配无软驱,所以插入任何usb存储设备都可将此文件保存。如选择save support archive,保存是raid运行日志,如果有任何errors,都可以通过此文件判断出。该文件会自动保存为一个zip文件,打开该zip文件后,其中有个controller log.txt文件对于7系列以前的卡(包括7系列),controller log.txt文件如下:说明: 上表反应了SCSI总线上每个SCSI设备的运行异常情况统计:Parity:该项对应的是数据在SCSI总线传输时奇偶校验错误数,如果计数大于10则反应了SCSI线缆的错误;S
25、oft:该项对应的是数据在读写过程中的软错误,如果计数大于10则反应了盘体本身的错误;如果计数小于10,可以认为是在受的干扰或电流冲击下的个别现象,可以忽略不计;Hard:该项对应的是数据在读写过程中的硬错误,如果计数大于10则反应了阵列卡本身的错误;PFA:该项对应的是预失效分析的报错,如果是YES则需要更换相对应的硬盘;MISC:该项对应的是其他方面的报错,如果计数大于10则反应了阵列卡的Device Driver或Firwmare/BIOS等方面造成的错误,需要相应的软件升级;如果为8系列的卡,此文件内容如下:Parity errors:反映了SCSI线缆的错误;Link errors:
26、反映了硬盘背板错误;HW errors:反映了阵列卡错误;Medium errors:反映了硬盘自身的故障;校验磁盘此外,有些硬盘故障为隐形,所以需要通过校验硬盘来检测出问题,此时找到该磁盘,点右键,选择Identify physical drive系统会自动校验该磁盘,硬盘绿灯会闪烁,直到校验完毕后才会熄灭。当硬盘有故障时,此硬盘会亮黄灯,并出现感叹号,右键选择“Properties”,在status页面的PFA error状态为YES,表示硬盘自身有故障,需要更换硬盘。3、BMC日志BMC(Baseboard management controller)保存了系统板及附属设备的运行状况,通
27、过该日志可以查看到部件运行状况。A、更新 BMC firmware更新到最新的BMC firmware可以避免出现问题。注意:更新BMC的firmware不会改变user设置。步骤如下:1、从2. BMC firmware更新多是启动软盘的形式,(一个EXE文件),也可以是一个ISO image,可刻成CD。3. 插入更新盘,启动服务器。4. BMC firmware更新自动执行。5. 更新BMC firmware后,可以用更新盘来配置BMC。6. 配置BMC后,取走更新盘,重启服务器。B、配置BMC方法一: 用 BMC_CFG 配置 BMC (部分服务器由于BMC软盘里没有BMC_CFG文件
28、,所以用lancfg)1用firmware更新盘中的bmc_cfg.exe配置工具。Bmc_cfg主要是一个排错工具,也可以用来查看和修改BMC配置。存在于更新盘中,不能作为独立的工具使用可配置如下设置,以实现BMC的通信:IP Address,Subnet mask,Default gateway,Alert notification和alert destination settings。建议ip:10.1.1.97 Subnet mask:255.0.0.0建议更改默认的user ID和password(账号USERID 密码PASSWORD)。要运行bmc_cfg:1. 如果刚更新完BM
29、C的firmware,退出更新工具,回到DOS提示符。如果没有,则用更新盘启动服务器,当问是否更新时,选No。2. 在DOS提示符,运行bmc_cfg。如下图开始可以用lancfg(LAN Configuration)工具来配置BMC。一旦设置好网络后,就可以用IBM Director来配置user ID,password,和alert-forwarding特性。方法二: 用 lancfg 配置 BMC可以用lancfg工具,来做所有的配置。此工具在用于升级BMC firmware的软盘或者CD中。注意:只能从升级BMC firmware的软盘或者CD中运行lancfg.exe,不要在Wind
30、ows的DOS窗口中运行。1. 在BMC firmware升级成功后,显示一个提示符,运行lancfg。2. 按F10和方向键,选择窗口顶部的菜单。3. 选择LanCfg,则屏幕显示如下图2-24. 按Tab编辑,并选OK。 Host IP address Subnet mask Router IP address建议ip:10.1.1.97 Subnet mask:255.0.0.0建议更改默认的user ID和password(账号USERID 密码PASSWORD)。注意: Host MAC Address不能更改。方法三:在 BIOS 中配置 BMCBIOS中可以配置如下设置:IP a
31、ddress,Subnet mask,Default gateway。如果想修改默认的user ID和password,则要用bmc_cfg或者IBM Director。按如下步骤用Bios配置BMC:1. 服务器启动时按F1,进入Configuration and Setup utility。2. 选Advanced Setup。3. 选Baseboard Management Controller (BMC) Settings,如下图4. 选BMC Network Configuration,如下图。5. 输入IP address,subnet mask,和gateway addresse
32、s,再选Save Network Settings in BMC。建议ip:10.1.1.97 Subnet mask:255.0.0.0建议更改默认的user ID和password(账号USERID 密码PASSWORD)。注:一些故障机器可能已无法开机,同时也从未配置过BMC ip,此时可以使用169.254.0.2,255.255.0.0连接。C、收集BMC日志方法一:用SmBridge收取用反线将笔记本与服务器上BMC控制口(第一个网口,只要服务器有交流输入不必开机)连接SmBridge (1.0.3.8)Download site:在命令行界面下,进入SmBridge软件安装后所在
33、的目录,执行smbridge -ip 10.1.1.97 -u USERID -p PASSW0RD sel get bmclog.txt方法二:用SvcCon收取Svccon download site用反线将笔记本与服务器上BMC控制口(第一个网口,只要服务器有交流输入不必开机)连接在笔记本上运行SvcCon点logon登陆后,点Dump SEL抓日志,或者点Clear SEL清日志方法三: F2收取启动Server F2里可以用软盘收取BMC日志,Hardware Info - BMC Log将导出的bmc log按要求发给CAG。注意,并不是所有X系列服务器都有BMC功能,具体请查阅S
34、erve HMM。另外,X3650T机型,收取BMC不能使用上述方法,此机器需要按以下方法收集BMC。X3650T抓取SEL log指导首先找出随机附带的Documentation and Resource CD(必须而可以找客户索取)放入机器的光驱内,启动机器,确认机器的第一启动是光驱。开机后机器自动引导光盘进入下面界面,点击continue选择Run SEL ViewerUtility,然后点击continue。点击File在子菜单中选择Save Aside在弹出的窗口中输入要保存的文件名。然后按TAB键将光标切换到A盘,按回车保存(在机器没有接任何外置USB设备时A盘默认为62M闪存盘)
35、。正在保存日志。大约5秒后弹出的窗口自动关闭,保存日志完成。清除SEL Log ,点击选项卡中的SEL,在弹出的子菜单中选中Clear SEL。在弹出的确认窗口中选中OK。日志清理完毕,退出重启机器.四、故障排除1.故障排除步骤及技巧1.1 准确描述问题 信息获得 途径:使用者、代理商、了解情况的人、 目的:获得第一手资料 有效沟通方式 有效倾听 做记录,不要打岔等 有效发问, Questioning is a key skill 思路清晰,针对不同类型用户问不同类型问题 可以通过规范表格,收集有效信息 故障情况 客户通过什么信息认为有问题 从正常状况到故障状况,做了什么操作,软件和硬件的变化
36、 有没有规律(了解什么时间发生,发生什么问题, 发生后做过什么操作) 分析信息 有效组织信息 确定问题 给客户描述问题 目的:确认双方对问题理解的准确性、一致性1.2 收集信息 故障设备信息 了解产品类别 POST beep code,POST error code Check Point显示代码 故障状态下屏幕信息 LPD,及系统其它部件故障灯状态 收集各种可获得的日志 软件和硬件的信息(DSA)1.3 分析问题 分析问题过程中,确定问题是否属于支持范围之内 明确我们能做到什么,做不到的可以给用户什么建议 如果不属于服务范围,要恰到好处”Say No” 具体分析问题 确认服务器的用电环境(输
37、入电压200V-240V,零点电压0-3.3V) 确认硬件配置合法性 确认NOS兼容性 分析日志 维修记录 查阅Retain和GCG Tips DB,是否属于已知问题 硬件维护手册是否有相关帮助信息 PMR是否已经有相关问题的报告 查阅第三方Knowledge Base,是否属于已知问题1.4 现场操作步骤 步骤 收集当前故障状态下日志,如果有报错信息一定记录下来(无论是拷屏还是手工记录),留下第一手资料,而且希望在现场告诉用户,让用户将来也做到这点,帮我们收集第一手资料。 询问故障发生前后所做过的操作。 如果需要,先检查硬件连接,重新装配连接,确认故障有什么变化。 升级所有微码、驱动(请一定
38、阅读微码或者驱动说明文件中重要章节,确认用正确步骤升级有关微码和驱动),观察故障变化情况。如问题解决,再次收集信息。 最小化配置(参阅HMM有关最小化配置章节)。 如果最小化配置情况下系统正常,遵循每次添加一个部件,启动系统确认正常再添加一个备件的原则。 如果最小化配置情况下,依旧故障,记录故障情况,尽量按照一次更换一个备件的原则定位故障部件。 如果问题解决,再次收集信息。 如果问题没有解决,一定要在离开现场之前收集完整的日志信息及时将情况反馈给CAG。 收集信息后,清空日志。 将一些信息收集工具留给客户,告诉用户怎么使用,从单个Case来说,工程师多付出一点,但是从大局来看,将来我们可以直接
39、从用户手里获得有关日志,加快工程是修复故障机的速度。 升级所有微码、驱动 最小化配置(电源,系统启动) 测试 保留1个cpu,最小启动内存(有些机器用1根内存,有些机型必须2根成对使用),阵列卡,必须拔掉外围所有部件(包括鼠标、键盘、显示器,特别是一些非IBM部件),必要是不安装开关,使用主板强制开关跳线开机。 注意事项: 升级微码过程中不要断电,重新启动操作。 作系统硬件操作的时候一定要拔掉电源线等连接线,防静电等等。 操作有可能导致数据丢失,提醒备份数据。1.5 确认后关闭 确认操作的有效性 问题是否解决?是否需要观察? 如果问题没有解决,一定要在离开现场之前收集完整的日志信息,及时将情况
40、反馈给CAG。2、DASD故障服务器维修过程中DASD (Direct Access Storage Device硬盘子系统,其包括:硬盘,硬盘背板,SCSI线,Raid卡,主板) 故障居多,当DASD出现故障时,客户总有许多问题会要求提供Root Cause。2.1 DASD的故障原因DASD出现问题时,客户总是希望知道故障原因,建议从以下几点给予客户解释 1)环境问题(电流的冲击,温度过高,灰尘静电堆积状况) 2)微码和版本问题(Raid卡、硬盘等的微码,Raid卡的驱动)注:Raid卡的微码和Raid卡的驱动需要在同一Level 3)硬件问题现场工程师是没有权利定性此故障原因为硬件问题的
41、,只有对备件送去ITPC做FA测试后,才能确定备件是否存在硬件问题。如果碰到数据丢失的情况,请谨慎地回答客户的提问,一定要让CAG帮助分析和确认故障的Root Cause。2.2硬盘的状态 硬盘正常状态:绿灯闪烁,琥珀灯不亮 硬盘异常状态:硬盘掉线琥珀灯长亮硬盘Hung琥珀灯长亮 硬盘Rebuild状态:绿灯近似长亮的闪烁,琥珀灯有规律的闪烁 硬盘两个指示灯都不亮(硬盘为Hotspare或Ready状态)2.3 更换硬盘 更换单块掉线硬盘操作流程:1.建议客户异地备份数据2.备份阵列信息(客户同意重启服务器)3.抓取Raid日志并分析(是否有坏条带,是否有PFA等)4.更换掉线的硬盘5.确认硬
42、盘Rebuild成功 更换多块掉线硬盘操作流程:1.建议客户异地备份数据(若客户的阵列已掉线并数据无法被访问,建议客户找数据恢复公司。除非客户承诺IBM对其数据免责,否则不予操作。)2.备份阵列信息Ipssend backup 1 a (1代表Raid Controller 1,a代表备份的阵列文件名)3.抓取Raid日志并分析(是否有坏条带,是否有PFA等)4.按照Raid日志所描述的硬盘掉线的逆顺序强行online(即最后一块掉线的硬盘第一个被强行online)。不要去Rebuild最先掉线的那块硬盘,将其移除。5.确认是否能够进入操作系统,如果可以进系统的话,一定让客户备份数据。6.更换
43、最先掉线的那块硬盘7.确认硬盘Rebuild成功 几种DASD故障处理办法五、必备工具工具类1笔记本2正反网线各一根3一字螺丝刀,十字螺丝刀,T10内孔6角螺丝刀,平口尖嘴钳4静电手套,万用表5双启动U盘笔记本资源必须要有的程序1 smbridge(抓取BMC日志)2 svccon(抓取BMC日志)3 winimg(解压缩.img镜像)4 DSA微码和文档1 X服务器和system服务器、Intellistation、Blade Center、FastT/DS300&400、Tape Library的HMM/PDSG/User Guide2 X服务器和system服务器、Intellistation、Blade Center、FastT/DS300&400、Tape Library的微码和驱动程序(建议保留前一版微码版本)3 Broadcom网卡微码和驱动4 OS相关补丁CD类1 ServeRAID Application CD v9.00 (support ServeRAID-8i、ServeRAID