1、1IBM 小型机小型机日常管理与故障处理日常管理与故障处理2内容提要内容提要系统健康检查HMC的使用ASMI 的使用常用操作故障的处理IBM 服务热线3系统健康检查系统健康检查4系统健康检查系统健康检查巡检用户:xunjian(普通权限)。至/tmp/xunjian/目录下执行common_check.sh脚本。查看输出的日志:more pxxx20160920.log,进行系统的状态查看。5系统健康检查系统健康检查检查文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。#df-k#df-k(查看查看AIX
2、AIX的基本文件系统的基本文件系统)Filesystem 1024-blocks Free%Used Iused%Iused Mounted onFilesystem 1024-blocks Free%Used Iused%Iused Mounted on/dev/hd4 24576 1452 95%2599 22%/dev/hd4 24576 1452 95%2599 22%/dev/hd2 614400 28068 96%22967 15%/usr/dev/hd2 614400 28068 96%22967 15%/usr/dev/hd9var 8192 4540 45%649 32%/v
3、ar/dev/hd9var 8192 4540 45%649 32%/var/dev/hd3 167936 157968 6%89 1%/tmp/dev/hd3 167936 157968 6%89 1%/tmp/dev/hd1 16384 5332 68%1402 35%/home/dev/hd1 16384 5332 68%1402 35%/home6系统健康检查系统健康检查查看卷组信息lsvg-l vg_name有没有stale状态的逻辑卷。用syncvg 命令修复。#smitty syncvgLV NAME TYPE LPs PPs PVs LV STATE MOUNT POINTLV
4、 NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/hd5 boot 1 2 2 closed/syncd syncd N/A N/Ahd6 paging 48 96 2 open/hd6 paging 48 96 2 open/syncdsyncd N/A N/Apaging00 paging 32 64 2 open/paging00 paging 32 64 2 open/syncdsyncd N/A N/Ahd8 jfslog 1 2 2 open/hd8 jfslog 1 2 2 open/syncdsyn
5、cd N/A N/Ahd4 jfs 1 2 2 open/hd4 jfs 1 2 2 open/stale stale /hd2 jfs 32 64 2 open/hd2 jfs 32 64 2 open/syncdsyncd /usr /usrhd9var jfs 5 10 2 open/hd9var jfs 5 10 2 open/syncdsyncd /var /varhd3 jfs 4 8 2 open/hd3 jfs 4 8 2 open/syncdsyncd /tmp /tmphd1 jfs 1 2 2 open/hd1 jfs 1 2 2 open/syncdsyncd /hom
6、e /home7系统健康检查系统健康检查网络检查netstat-i 查看网卡状态Ierrs/Ipkts 和 Oerrs/Opkts是否1%ping host_name/IP Address查看是否通和是否有丢包。路由表#netstat-rn查看路由表是否正确,ping 各路由器是否通。核 对 主 机 名#hostname8系统健康检查系统健康检查#ifconfig-aen0:en0:flags=4e080863UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,6flags=4e0808634BIT,PSEGinet 172.40
7、10.31 netmask 0 xffff0000 broadcast 172.40.255.255inet 172.40.10.31 netmask 0 xffff0000 broadcast 172.40.255.255lo0:lo0:flags=e08084bUP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIflags=e08084bTinet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.255.255inet 127.0.0.1 netmask 0 xff0000
8、00 broadcast 127.255.255.255inet6:1/0inet6:1/09系统健康检查系统健康检查#lsattr#lsattr El inet0El inet0authm 65536 Authentication Methods Trueauthm 65536 Authentication Methods Truehostname qtsms Host Name Truehostname qtsms Host Name Truegateway Gateway Truegateway Gateway Trueroute netroute net,0,172.40.10.1,0
9、172.40.10.1 Route True Route Truebootup_option no Serial Optical Network Interface Truebootup_option no Serial Optical Network Interface Truerout6 FDDI Network Interface Truerout6 FDDI Network Interface Trueroute属性是否有相应的路由信息。格式为:属性是否有相应的路由信息。格式为:net,0,172.16.23.81如果没有缺省路由如果没有缺省路由,执行命令:执行命令:#chdev l
10、 inet0 a route=0,172.16.23.81其中其中172.16.23.81为网关为网关如果缺省路由不正确,则先删除路由如果缺省路由不正确,则先删除路由,再增加缺省路由再增加缺省路由:#chdev l inet0 a delroute=net,0,133.16.23.81#chdev l inet0 a route=0,172.16.23.8110系统健康检查系统健康检查系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使
11、用(普通用户权限也可使用)11系统健康检查系统健康检查12系统健康检查系统健康检查13系统健康检查系统健康检查14HMC的使用的使用15Hardware Management Console进行P系列小型机的硬件管理、维护,以及逻辑分区的划分等必须配置HMC对其进行管理如果需要划分逻辑分区,则必须配置HMCHMC通过TCP/IP与需要管理的主机进行连接HMC 使用使用16HMC 使用使用 操作界面操作界面17HMC 使用使用 操作界面操作界面18HMC 使用使用 操作界面操作界面19HMC 使用使用 操作界面操作界面20HMC 使用使用 操作界面操作界面21HMC 使用使用 操作界面操作界面2
12、2HMC 使用使用 操作界面操作界面点击关闭事件23HMC 使用使用 操作界面操作界面点击机器前面板黄灯24ASMI的使用的使用25ASMI的使用的使用Advanced System Management Interface 硬件故障信息硬件设备信息硬件状态信息CUoD可以在任何时候访问(机器在Power Off状态,或者Operating 状态)26ASMI的使用的使用 连接方式连接方式HMC GUI使用硬件管理终端访问网页模式使用PC或笔记本,用网线连接到负责HMC和FSP通信的交换机、或者HUB上通过浏览器,输入FSP的IP地址即可访问ASMI串口模式使用串口线链接到串口,可访问字符界面
13、ASMI27ASMI的使用的使用 连接方式连接方式28ASMI的使用的使用 访问界面(访问界面(Web)29ASMI的使用的使用 访问界面(访问界面(Web)30常用操作常用操作31常用操作常用操作-HACMP的操作的操作HACMP的操作启动:smitty clstart停止:smitty clstop启动/停止过程可以查看/tmp/hacmp.out文件:#tail f/tmp/hacmp.out 检查检查Cluster是否运行正常是否运行正常Cluster进程是否运行:#lssrc g cluster,至少两个进程,且为active。IP地址是否获取:#netstat i,看boot IP
14、是否变为service ip。VG是否varyon:#lsvg o文件系统是否mount:#mount应用进程是否启动:#ps ef|grep app_name32常用操作常用操作-HACMP的操作的操作HACMP相关日志/usr/adm/cluster.log;以事件为单位的纪录/tmp/hacmp.out;详细记录/usr/sbin/cluster/history/cluster.mmddmmdd;历史纪录历史纪录33常用操作常用操作-HACMP的操作的操作使用clstat-o 命令查看hacmp的状态34常用操作常用操作-HACMP的资源切换的资源切换smitty hacmp-Syste
15、m Management(C-SPOC)-Resource Group and Applications-Move Resource Groups to Another Node35常用操作常用操作-HACMP的资源切换的资源切换36Administration GuideConcepts and Facilities GuideHACMP Troubleshooting GuidePlanning and Installation Guide 以上文档可以在随机所带的光盘上找到常用操作常用操作-HACMP参考文档参考文档37故障处理故障处理38故障处理故障处理-故障的定义故障的定义弄清楚系统
16、发生了什么问题系统现在能做什么?不能做什么?故障什么时候发生的?有没有做平时不同的操作?故障有没有规律?定时还是不定时?发生的频率有多高?是一台机器出现故障还是多台机器故障?故障现象是否相同?最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如 HACMP配置)等。39故障处理故障处理-故障信息的收集故障信息的收集收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(
17、普通用户权限也可使用)40故障处理故障处理-故障信息的收集故障信息的收集 HMC Service focal point记录了连接在此台HMC上的所有P系列主机的硬件报错信息。选择“Service focal point“,选择“Manage Serviceable Events“。可以根据主机、机柜序列号进行查询#mail系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root41故障处理故障处理-故障信息的收集故障信息的收集其他用于收集系统信息的命令lsdev-C 系统设备信息#lsdev-Cc diskhdisk0 Available 00-
18、06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息42故障处理故障处理-故障信息的收集故障信息的收集43故障处理故障处理-故障信息的收集故障信息的收集44故障处理故障处理-故障信息的收集故障信息的收集45故障处理故障处理-收集系统信息收集系统信息#snap-a-c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt46IBM 服务热线服务热线座机拨打:800-810-1818报机器系列号,客户名称24小时在线支持人员非24小时硬件配件需要调配理论上不超4个小时到场解决故障47Q&A thans a lot






