IBM服务器维护手册.doc_咨信网zixin.com.cn

资源描述

第一类、机房环境及物理检查一、机房内环境要求 1. 温度与湿度：最佳工作温度：20-25摄氏度极限工作温度：10-40摄氏度湿度: 8-80%(在23摄氏度条件下) 如果不是工作在最佳温度，请注意改善机房环境 2. 同时机房要保证清洁. 机房应保持清洁，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。二、电源要求电压: 要求电压稳定, 尖峰电压会损坏设备电压范围: 220V +/- 10%, 即200-240V, 50-60Hz 电源功率: 视机器类型和系统配置而定电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V. 电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入. 三、硬件检查 ]检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。服务器状态检查： 1. 当服务器处于启动和正常工作状态时，其前面板上的液晶显示屏上应无信息显示。 2. 当液晶显示器上出现带数字和字母的信息时，说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因，情况严重的，则要立即通知IBM技术专家进行问题排查。 7133状态检查：磁阵前面板上有7133机柜的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）。 1. 当机柜的状态灯出现橙黄色时，说明有硬件告警，此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。 2. 当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时或SSA环路出现问题时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁第二类、系统日常维护流程 2.1系统启动系统启动正常顺序如下：首先对外设（磁盘阵列、磁带库等）加电。待所有外设加电自检完成后，主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机. 启动主机HACMP，启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况，在HACMP未完全启动前不要进行下一步。检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。检查各项应用是否工作正常。 2.2系统关闭停止HACMP ( smitty clstop)。查看HACMP的状态，检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。关闭主机 (shutdown –F)。重启系统可以使用：shutdown -Fr 如有必要的话，按磁盘阵列前方的白色按钮关闭磁盘阵列。 2.3查看系统的错误记录在系统运行时，一些系统错误会记录在errlog 中，其中有些错误还会在终端上显示。检查错误日志可用以下命令： #errpt|more 查看系统所有的记录 IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR 2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER 9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中 IDENTIFIER 为错误编号，当需要检查详细信息时常会用到。 TIME STAMP 为时间标签，它记录的是出错时间，其格式:月月日日时时分分年年 T 为Type , 它记录的是错误类型 P ：为永久错误，需引起注意 T ：为临时错误。 C 为Class, 它记录的是错误种类，如 H : Hardware S : Software O : Errloger command messages U : undetermined RESOURCE_NAME 为错误来源 DESCRIPTION 为错误描述 #errpt -aj <IDENTIFIER> 查看系统详细记录内容其中IDENTIFIER为错误编号，如 #errpt -aj 0426104399 #errpt -dH 查看系统所有的硬件出错记录 2.4系统与数据备份有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时，特别是文件系统被严重损坏或硬盘损坏时，常需要使用系统备份来恢复系统。在以下情况下应做系统备份： 1、新装机。在硬件及系统软件安装完成后，应做系统备份。 2、软件改动。系统软件或应用软件有改动时，应做系统备份。 3、定期备份。对系统进行定期备份，最好每两或三个月做一次备份备份注意事项：进行系统备份无须停止业务，业务可以继续进行。建议客户进行定期的系统备份（使用命令smitty mksysb）。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。 smitty mksysb只备份rootvg中mount起来的文件系统，其它文件系统或数据并没有做备份，所以数据备份需要另外完成（建议客户使用TAR格式）在条件允许的情况下，最好有一盘以上备份带，以防止磁带损坏。系统备份过程中有时候会提示有些/tmp目录下的文件无法备份，显示如下： Creating list of files to back up... Backing up 34025 files.............................. 1694 of 34025 files (4%).............................. 2733 of 34025 files (8%).........backup: 0511-449 An error occurred accessing ./ tmp/sh34736.1: A file or directory in the path name does not exist. backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director y in the path name does not exist. backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director y in the path name does not exist. ..................... 15458 of 34025 files (45%).............................. 31920 of 34025 files (93%)........... 0512-003 mksysb may not have been able to archive some files. The messages displayed on the Standard Error contained additional information. 这是正常现象，备份成功。 2.5系统恢复当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统，在与客户进行蹉商后，可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境，然后可将当日的数据备份再倒回系统内。至此，系统可恢复正常运行。此后，客户应当与IBM工程师再进行整个事件的全面分析与回顾，以期找到故障发生的原因，并采取相应措施以杜绝类似事件再次发生。 2.6 DUMP 当系统运行出现软件故障导致系统down机时，机器的液晶显示器会出现 888 102 xxx 0c0 (xxx可能为700或其它)，AIX常会将当时系统的运行情况记录下来，这就是DUMP。当DUMP产生后，请将磁带放入磁带机，用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时，请用# errpt -a >/tmp/err.log 将errorlog 记在/tmp/err.log中，并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。 2.7日常检查服务器状态的项目及其相关命令 1 运行lsdev 命令配以各种参数，所列各种设备状态都应为Available。# lsdev –C –H –S a 列出系统中可用设备。 #lsdev –Cc processor 列出系统中的所有CPU。 #lsdev –Cc memory 列出系统中的所有内存。 #lsdev –Cc disk 列出系统中的所有硬盘。 #lsdev -Cc adapter | grep ent 列出系统中的所有网卡 #lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。 #lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。 2 lspv命令 #lspv 显示系统中可用的PV。 #lspv hdiskn 显示hdiskn的具体信息。 #lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。对SSA硬盘的检测：在对主机进行工作之前可以先把磁盘阵列上电，等主机完全启动后，登录到主机上，运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘，并且状态应为Available.。 3 lsattr命令 # lsattr –E –l mem0 列出系统中内存mem0的大小，本项目中内存有4GB。 4 lsvg命令 #lsvg 列出系统中所有的vg。 #lsvg rootvg 列出rootvg的详细信息。 #lsvg –o 列出激活的vg 5 oslevel命令 #oslevel 显示操作系统版本信息。 6 netstat命令 #netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。 7 # diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为 “No trouble found ”显示各部分工作正常。 8 使用#diag命令（选择：Task Selection-> SSA Service Aids）对SSA硬盘链路连接的校验，可以通过SSA 工具里的Link Verification 来检测。如有必要，可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试，由1% 至100%，检测结果显示主机内置硬盘的所有扇区均读写正常。 9 lsps –a 查看PAGING SPACE的使用情况，如果使用率超过70%，就需要采取措施。 10 lsvg –o | lsvg –il | grep –i stale 查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施 11 有否发给root用户的错误报告(mail)。 12 检查双机状态：lssrc –g cluster 检查ha三个工作进程是否激活，/usr/sbin/cluster/clstat –a检查双机状态是否up，并检查hacmp.out日志，看是否有异常信息。 13 用vmstat, topas，sar 命令检查系统性能，检查cpu\memoyr\IO ，是否存在性能瓶颈。 14 检查能否顺利进入CDE界面，如果不能进入的话，要检查/etc/hosts表中有否错误的项目。 15 用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了 16 用sysdumpdev –l 查看系统的DUMP设置是否正常。 17 用instfix –ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上，5.1操作系统补丁要打到5以上 18 使用df –kP查看磁盘空间占用率，请确保以下文件系统的占用率高于80%立即上报： 2.8性能监控与调优通过命令vmstat 1 来观察. kthr memory page faults cpu ----- ----------- ------------------------ ------------ ----------- r b avm fre re pi po fr sr cy in sy cs us sy id wa 命令解析：vmstat 命令的输出可以反映系统整体运行状况，包括cpu、内存、虚拟页面、系统进程和系统调用情况。检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值. 检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值. 通过命令 sar –mu –P ALL 来观察。命令解析： sar可以用来收集反映系统运行状况，在这里主要是查看CPU的运行状况，CPU是否负载均衡,是否存在分配不均的情况。通过命令ps gv | more来观察。 PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/ini 命令解析：ps可以用来查看进程的当前状态。在这里通过参数的配搭，可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中，%CPU表示进程所占用的CPU资源情况，%MEM表示进程所占用的内存情况。主要检查是否有标示为<defunc>的僵尸进程耗用系统资源，以及informix 数据库的oninit进程的系统消耗情况。在机器上用dd命令进行磁盘阵列的写操作校验，与此同时用iostat 1 –d hdiskX观察磁盘。 Disks: % tm_act Kbps tps Kb_read Kb_wrtn 命令解析: iostat可以用来查看系统的 I/O的输入输出情况，在这里主要查看阵列上的硬盘的每秒读写量，同时估算磁盘阵列读写速度HHhHhh 。通过命令netstat –a 进行查看。 Active Internet connections (including servers) Proto Recv-Q Send-Q Local Address Foreign Address (state 命令解析: netstat可以用来查看系统的网络情况，在这里主要是查看网络客户端连接的情况和开销，检查参数为state，如有死连接，state状态为fin_wait, 这样耗用系统网络资源，从而导致网络性能下降构成瓶颈。 2.9 安全工作守则 a.系统定期进行系统备份，系统盘建议镜像。 b.当有系统变更或进行操作系统补丁安装的时候，必须作一次系统备份。 c.在7133和shark发现有硬盘故障的时候，请提醒客户注意当天的数据备份。在更换硬盘的时候，请确认当天数据备份已经完成。 d.在更换敏感的电子元件，时候一定要防静电。 e.在插拔外围设备的时候，请把外围设备下电。 f.在进行主机微码升级时候，请留意微码的完整性。 g.在进行文件删除的时候，请留意当前路径是否正确。 h.在进行文件解压缩的时候，请留意参数和路径。 2.10 维护电话在日常维护中碰到问题和疑难，可以致电： IBM 免费技术支持保修热线： 800-810-6677 010-64981188-5100 客户技术咨询热线： 800-810-1818 IBM广州分公司联系电话： 020-87553828 [ 本帖最后由 mfkqwyc86 于 2010-11-4 12:32 编辑 ] __________________ ################################################################################################ 君子务本，本立而道生。---mfkqwyc86,飞鹰工作室 ITPUT个人空间： ----------------------------------------------------------- 01.【Oracle RAC】Linux + Oracle 11g R2 RAC 安装配置详细过程 02.【Oracle RAC】Oracle RAC更改VIP IP地址_2节点的实验 03.【Oracle RAC】Oracle RAC删除一个节点_3节点的实验 04.【Oracle RAC】Oracle RAC增加一个节点_3节点的实验 05.【Oracle RAC+DG】Oracle RAC+ASM+DataGuard配置实验记录 06.【Oracle RAC】Oracle RAC CRS、OCR、Voting破坏重建 07.【Oracle 表分区管理】Oracle Partition表分区与分区索引几种方式的实验操作 08.【IBM DB2表空间管理】db2表空间管理—实例讲解之精华 09.【IBM DB2补丁升级】从v9.5.0.1升级到DB2 v9.5.0.6 10.【中间件资料下载汇总】WebSphere,MQ,Portal,WebLogic资料下载汇总【PDF格式-共51类】只看该作者 mfkqwyc86 飞鹰工作室精华贴数 1 个人空间 400 技术积分 826 (3079) 社区积分 28 (9086) 注册日期 2007-4-28 论坛徽章:1 #2 使用道具发表于 2010-11-4 12:22 跟贴说明: 大家看了以下日常维护及故障处理汇总方法后,请大家在贴后跟上自己遇到过的错误问题,及解决方法!! 第三类、故障定位、故障排除根据我们在实际商用系统中碰到问题，我们总结出了以下几种常见故障及其定位方式和解决方法。 3.1硬件故障硬件故障有很多种，对系统产生的影响也不一样，这里按其故障对系统的影响程度分：致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类：其损坏对系统产生致命影响（将使机器宕机或无法启动）的硬件包括：主板、CPU、I/O柜（包含本地盘、光驱、PCI插槽等的柜子）或CEC柜（包含CPU/MEMORY等的柜子）、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注：I/O柜和CEC柜一般在比较高端的小型机才有，如M80，低端的是合一的。这些设备的损坏等将使系统无法完成自检、引导和启动，液晶显示屏上都将有错误信息，可根据液晶显示屏上的错误码对照Service Guide查的错误原因，如果是工作状态下出现这些硬件损坏，则系统将被挂起或宕机。其损坏对仅对系统产生功能影响（机器不会宕机并能正常启动）的硬件包括：网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能，如网络功能、显示功能、访问磁阵的功能等，对于本地硬盘有坏块的情况，则要看坏块中是否包含了重要的系统文件，如果不是重要系统文件，则系统功能不受影响，但也建议立即更换该硬盘。故障定位和排除：以上硬件故障信息都可以使用：液晶屏上的错误码或： errpt –dH 查看到根据错误码确定是什么硬件出了故障，对商用系统来讲，由于是双机系统，如果损坏机器是主机可以将此服务器切换成备机，然后修复故障机器，恢复系统。 3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障，据不完全统计，其故障覆盖到总故障的70%以上，具体来讲，可能引起磁阵故障的环节包括：磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。 7133磁阵的问题是最复杂的，一般有物理损坏的原因也有环境原因，这是主因，如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验，不管是什么硬件故障导致7133故障，系统都会产生告警，如果能及时发现问题并采取措施，一般都能防止故障的发生。故障定位： 7133硬件故障也可以使用： errpt –dH 查看到伴随的错误码有： B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE FE9E9357 0401082304 P H ssa0 DISK OPERATION ERROR FE9E9357 1205000803 P H pdisk3 DISK OPERATION ERROR 03913B94 1122031103 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED 613E5F38 1121125103 P H LVDD I/O ERROR DETECTED BY LVM 625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK 26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD 所有的错误码都预示着7133有异常，红色部分则表示肯定出现了硬件故障，需要立即进行检查并采取措施，否则磁阵将很快不能访问。对于蓝色部分： 625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK 表示ssa出现了开环，出现开环不仅影响IO性能，也增加了风险，即如果另一个环路也出现问题，将不能访问磁阵。开环一般有两种情况：1)如果625E6B9A报错比较频繁，如每天几次，则表示系统很有可能出了硬件故障，虽然不会导致访问磁阵失败，但需要立即查出原因并解决。查错方法可以参考下面的描述。2)如果 625E6B9A错误偶尔报一次，则要具体情况具体对待，有可能是读写忙出现的误报，也按下面方法进行排查，如果没有查出具体的原因，则可以继续观察。 26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD 该错误一般是在:SSA卡带write cache并打开FastWrite，而ssa卡上用于write cache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响IO写性能，并且由于在FastWrite打开的情况下，主备机需要同步ssa卡上的write cache，所以甚至会影响到主备机同步。具体解决方法可参考下文。故障排除：对于红色部分错误的问题排除，一般可以使用diag命令进行进一步诊断： #diag -> Task Selection -> SSA Service Aids -> Link Verification 检查环路中是否出现了？？？的盘符或状态不是good的硬盘或使用： #smitty ssaraid -> List All Defined SSA RAID Arrays 查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了这时候不建议再进行单独硬盘的Certify，而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。 625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK 的排查方法： 1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子，相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.) 2、看看Loop状态:diag--->Task Selection-->SSA Service Aids-->Link Verification.正常Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good，则说明已经存在硬盘或链路故障，这种情况则要立即采取行动，做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下： diag--->Task Selection-->SSA Service Aids-->Certify Disk 选择认为存在故障的硬盘进行检查 3、如果7133存在硬件故障时，可从状态灯上观察到：当单块硬盘出现故障或未被使用时，其面板上的硬盘状态灯会不亮阵列的状态灯黄灯会亮或接SSA线的端口的指示灯也会熄灭如果通过以上三种方法都未发现问题，而系统仍报Open Serial Link错误，建议继续跟踪。 26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD 的处理方法：背景介绍： IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池，该电池用于在突然停电的情况下保护ssa卡上的fast write cache中的信息不丢失，这块电池的安全寿命一般是22000小时，差不多两年半的时间，也就是说，当fast write模式启动的情况下，一般两年半以后需要更换这块电池。问题表现：对ssa卡上的电池保护是通过卡上的一个计数器实现的，每运行一小时该计数器会增加一，当该计数接近或超过22000时，系统会有26CA120B硬件报警： 26CA120B 0206120904 P H ssa1 CACHE STORAGE CARD 可以用如下命令检查ssa卡上的状态：(-a 后带上卡的逻辑设备名，这里假设是ssa0) ssa_fw_status -a ssa0 -p (检查电池已经工作的时间，小时为单位) ssa_fw_status -a ssa0 -l (检查电池安全工作寿命，小时为单位) ssa_fw_status -a ssa0 -c (检查ssa卡上的fast write功能是否被激活) 处理步骤：（按优选方式列出，从中选择一种即可） 1)更换电池选择系统闲时，更换主备机ssa卡电池，可以采用：停备机－》更换备机ssa卡电池－》起备机（双机服务）－》主备倒换－》停原主机－》更换原主机ssa卡电池－》起原主机（双机服务） 2)如果系统出现26CA120B电池告警，使用ssa_fw_status -a ssa0 -c 检查主用ssa卡(一般是ssa0)的Fast Write是否处于inactive（未被激活）状态，如果是，则以root执行如下命令： ssa_format -l ssa0 -b errclear 0 /usr/lib/errstop /usr/lib/errdemon 可以暂缓更换电池时间，等有电池后再更换，但这段时间对磁阵读写性能会有所影响。 3)如果短期内不能更换电池，同时主机主用卡的Fast Write仍然处于Active状态，建议手工屏蔽fast write功能 1）先停止双机 2）在1号机修改hdisk该属性： smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no] 3）在1号机激活卷组 varyonvg zxinvg 4）在1号机去激活卷组 varyoffvg zxinvg 5）在2号机上执行 smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no] 检查fast write是否已经改为no (只要1号机做了2好机就不用再修改了) 6）在2号机上执行 rmdev -dl hdisk2 cfgmgr -v 7）在2号机上执行 lspv (查看hdisk2是否已找到) 8）然后执行 varyonvg zxinvg varyoffvg zxinvg 9）重新启动双机 B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE 而不伴随其他红色标出错误的情况，则通过以下方式排查：可能是hdisk中将‘enable user of hot spare’打开了，而实际并没有配置hot spare盘，可以通过如下方式解决：检查RAID的状态： #smitty ssaraid list all defined SSA RAID arrays : all are in status good (ssa0 ) 检查是否配置了hot spare: list/identify SSA Physical disks-->List hot spares : none 修改每个ssa卡所配置的hdisk的属性： : set "enable use

展开阅读全文