1、 HP-UX日常检验日常维护检验项目,关键由以下:机房环境 、硬件、 操作系统、备份和应用 硬件1. 硬件关键从面板指示灯和服务器中各个扩展卡指示灯来查看:面板指示灯:在大多数服务器中,全部有一个液晶面板或多个指示灯,用来显示服务器运行状态。在系统出现故障时,液晶面板上会出现WARNING或FAULT提醒;WARNING 或FAULT指示灯会亮。(1). 服务器中各个扩展卡指示灯 在服务器中存在多个扩展卡,比如SCSI卡、以太网卡等。这些卡上全部有一个或多个指示灯,从这些指示灯能够了解这些卡工作情况。 SCSI卡: 在正常情况下,自检灯(self test)应该是暗; 终止电源指示灯(Term
2、inator PWR)应该是亮。 以太网卡: 在正常情况下,自检灯(self test)应该是暗; 连接灯(Link)是亮。(2). 外设状态大部分外设也全部有自己状态指示。下面是比较常见多个:RAID磁盘阵列 : 该磁盘阵列有一个液晶面板。假如出现故障,在面板上会出现 WARNING提醒信息。 磁带库 : 磁带库通常也有一个液晶面板。假如出现故障,在面板上会出现报错提醒信息。 2. MP(管理处理器)是基于单元服务器独立支持系统,能够连接到服务器组合系统。同时,还能够实施服务器硬件管理或监视任务。关键功效包含:(1). 从MP上检验硬件PSps:显示具体电源和硬件配置状态(2). 从MP上检
3、验硬件LS ls:显示Lan连接控制台 (3). 从MP上检验硬件SYSREVSysrev:显示组合系统中全部固件实体版本操作系统在这一部分,经过部分实用、简单命令,检验系统运行情况。在系统出现问题时,常常会在控制台上显示部分犯错信息,应该定时检验这些信息,这往往是最便捷方法。 系统日志 syslog.log,ccerrlog,eventlog, dmesg 系统运行状态 cmviewcl、bdf、ioscan、vgdisplay、top、sar、swapinfo、netstat (1). 系统日志-syslog.log 系统日志:syslog是系统重起到目前日志,重起后将自动保留为OLDsy
4、slog.log应检验内容:有没有SCSI Reset告警(开启前后SCSI reset信息可忽略)有没有EMS告警。如: 09:43:05 bj_rz3 EMS 2286: - EMS Event Notification - Value: SERIOUS (4) for Resource: /system/events/core_hw/core_hw (Threshold: = 3) Execute the following command to obtain event details: /opt/resmon/bin/resdata -R -r /system/events/core
5、_hw/core_hw -n -a 通常Value为Majorwarning、Serious或Critical报警全部应关注。有没有“PV Powerfail、”IO error报错如有重起操作,提议保留目前syslog日志(2). 系统日志-dmesg 驻留在内存中系统最近一段时间日志信息:$Revision: vmunix: vw: -proj selectors: CUPI80_BL_1108 -c Vw for CUPI80_BL_1108 build - cupi80_bl_1108 CUPI80_BL_1108 Wed Nov 8 19:24:56 PST $ Memory Inf
6、ormation: physical page size = 4096 bytes, logical page size = 4096 bytes Physical: 4177920 Kbytes, lockable: 3859368 Kbytes, available: 3859944 Kbytes Using 3162 buffers containing 24576 Kbytes of memory. 常见异常信息: SCSI Reset Detected LPMC I-Cache error File System Full 发觉后应立即察看syslog.log中对应条目(3). 系统
7、运行状态cmviewcl 观察双机状态,实施cmviewcl v,确定STATUS和STATE为up 和running,同时包自动切换(AUTO_RUN)属性为enableCLUSTER STATUS hpcluster up NODE STATUS STATE GMS_STATE bjscp1a up running halted Network_Parameters: INTERFACE STATUS PATH NAME PRIMARY up 0/5/0/0 lan1 PRIMARY up 0/0/0/0 lan0 STANDBY up 1/12/0/0 lan2 PACKAGE STAT
8、US STATE AUTO_RUN NODE scppkg up running enabled bjscp1a 厖 NODE STATUS STATE GMS_STATE bjscp1b up running halted Network_Parameters: INTERFACE STATUS PATH NAME PRIMARY up 0/5/0/0 lan1 STANDBY up 1/12/0/0 lan2 PRIMARY up 0/0/0/0 lan0 (4). 系统运行状态bdf检验文件系统使用率Filesystem kbytes used avail %used Mounted o
9、n/dev/vg00/lvol3 204800 48168 155424 24% /dev/vg00/lvol1 295024 38856 226664 15% /stand/dev/vg00/lvol8 4706304 1523976 3157592 33% /var /dev/vg00/lvol7 1163264 708304 451464 61% /usr /dev/vg00/lvol4 204800 96408 107568 47% /tmp /dev/vg00/lvol6 1048576 766024 280360 73% /opt/dev/vg00/lvol5 1048576 44
10、56 1036024 0% /home应检验有没有使用率大于90%文件系统(5). 系统运行状态-文件系统维护发觉文件系统已满,应立即删除无用文件或扩大文件系统。可定时清理日志 :# /var/adm/syslog/syslog.log(系统日志)# /etc/rc.log(运行日志)# /var/adm/wtmp(登录成功日志)可清理(#wtmp)# /var/adm/btmp(登录失败日志)可清理(#btmp)core 文件清理(#find / -name core -exec rm 大文件(#find / -name -size +10000)注:以上文件确定无用后rm 删除 /var/
11、adm/crash:内核卸入卸出目录。 内核瓦解时映像文件会自动保留到这个目录下。该目录下文件提议应该由hp工程师删除.(6). 系统运行状态-ioscan fn 检察IO设备是否正常:Class I H/W Path Driver S/W State H/W Type Description=root 0 root CLAIMED BUS_NEXUS ioa 0 0 sba CLAIMED BUS_NEXUS System Bus Adapter (803)ba 0 0/0 lba CLAIMED BUS_NEXUS Local PCI Bus Adapter (782)lan 0 0/0/
12、0/0 btlan3 CLAIMED INTERFACE HP PCI 10/100Base-TX Core /dev/diag/lan0 /dev/ether0 ext_bus 0 0/0/1/0 c720 CLAIMED INTERFACE SCSI C895 Ultra Wide Single-Endedtarget 0 0/0/1/0.1 tgt CLAIMED DEVICE disk 0 0/0/1/0.1.0 sdisk NO_HW DEVICE HP DVD-ROM 305 /dev/dsk/c0t1d0 /dev/rdsk/c0t1d0应检验有没有状态为NO_HW设备 (7).
13、 系统运行状态vgdisplay显示卷组状态,关键检验vg00,实施vgdisplay v vg00- Volume groups -VG Name /dev/vg00VG Write Access read/write VG Status available Max LV 255 厖 - Logical volumes - LV Name /dev/vg00/lvol1 LV Status available/syncd LV Size (Mbytes) 100 Current LE 25 Allocated PE 50 Used PV 2 厖 - Physical volumes - PV
14、 Name /dev/dsk/c4t0d0 PV Name /dev/dsk/c6t0d0Alternate Link PV Status available Total PE 12992 Free PE 0 Autoswitch Off 检验各项status值为available/sync,不是stale(8). 系统运行状态top观察CPU和内存使用情况CPU LOAD USER NICE SYS IDLE BLOCK SWAIT INTR SSYS 0 0.28 20.2% 0.0% 2.6% 77.2% 0.0% 0.0% 0.0% 0.0% 1 0.17 14.6% 0.0% 3.4
15、% 82.0% 0.0% 0.0% 0.0% 0.0% 2 0.33 18.6% 0.0% 3.0% 78.4% 0.0% 0.0% 0.0% 0.0% 3 0.20 13.0% 0.0% 4.2% 82.8% 0.0% 0.0% 0.0% 0.0% 4 0.11 14.4% 0.0% 2.0% 83.6% 0.0% 0.0% 0.0% 0.0% 5 0.44 19.8% 0.0% 4.2% 76.0% 0.0% 0.0% 0.0% 0.0% 6 0.28 13.2% 0.0% 11.2% 75.6% 0.0% 0.0% 0.0% 0.0% 7 0.17 14.8% 0.0% 1.8% 83.
16、4% 0.0% 0.0% 0.0% 0.0% - - - - - - - - - -avg 0.25 0.0% 0.0% 0.0% 100.0% 0.0% 0.0% 0.0% 0.0% Memory: 1106604K (999800K) real, 1527608K (1362680K) virtual, 1987924K free Page# 1/6CPU TTY PID USERNAME PRI NI SIZE RES STATE TIME %WCPU %CPU COMMAND2 ? 18777 informix 156 20 7404K 5052K sleep 9233:02 30.4
17、9 30.43 oninit 6 ? 19002 tellin 154 20 29248K 22572K sleep 5256:03 17.05 17.02 manager0 ? 18779 informix 156 20 7404K 4784K sleep 1681:27 9.62 9.60 oninit 关键检验有没有占用CPU过大进程,并检验free memory是否足够(9).系统运行状态-sar u 观察CPU使用情况: sar u M 3 1010:02:18 cpu %usr %sys %wio %idle10:02:21 0 37 2 1 60 1 18 5 1 75 2 15
18、 10 2 72 3 9 4 2 85 4 21 3 1 75 5 23 2 4 70 6 10 4 3 83 7 15 5 1 79 system 19 5 2 75检验%idle是否足够(通常大于25%) (10). 系统运行状态-sar v观察文件线程资源使用情况:sar v 3 10HP-UX bjscp1a B.11.00 U 9000/800 07/07/0310:02:48 text-sz ov proc-sz ov inod-sz ov file-sz ov 10:02:51 N/A N/A 189/664 0 2119/7360 0 1127/1 010:02:54 N/A
19、N/A 188/664 0 2102/7360 0 1121/1 010:02:57 N/A N/A 187/664 0 2067/7360 0 1114/1 010:03:00 N/A N/A 187/664 0 2037/7360 0 1108/1 010:03:03 N/A N/A 187/664 0 2033/7360 0 1108/1 010:03:06 N/A N/A 187/664 0 2036/7360 0 1108/1 010:03:09 N/A N/A 187/664 0 2033/7360 0 1108/1 010:03:12 N/A N/A 188/664 0 2032
20、/7360 0 1113/1 010:03:15 N/A N/A 187/664 0 2032/7360 0 1108/1 010:03:18 N/A N/A 187/664 0 2032/7360 0 1108/1 0关键检验有没有立即达成上限值(11).系统运行状态-sar d 观察IO使用情况:sar d 3 10HP-UX bjscp1a B.11.00 U 9000/800 07/07/0310:03:18 device %busy avque r+w/s blks/s avwait avserv 10:03:21 c1t6d0 4.33 0.50 7 49 5.97 5.57 c2
21、t6d0 3.67 0.50 6 43 5.86 4.78 c4t0d0 1.00 0.50 10 51 5.11 2.94 c4t0d1 1.67 0.50 11 53 4.49 3.27 c4t0d2 1.67 0.50 10 52 5.16 2.63 c4t0d3 1.67 0.50 16 75 5.01 2.97关键检验有没有%busy过大设备(12). 系统运行状态Swapinfo 观察交换区使用情况:Mb Mb Mb PCT START/ MbTYPE AVAIL USED FREE USED LIMIT RESERVE PRI NAMEdev 3072 0 3072 0% 0 -
22、 1 /dev/vg00/lvol2dev 3000 0 3000 0% 0 - 0 /dev/vg00/lv_swap reserve - 2161 -2161total 6072 2161 3911 36% - 0 - 通常swap区使用率为0,如有0以上数值,需进行深入检验(13). 系统运行状态-netstat in 观察网络连接情况,检验有没有网络连接中止,实施netstat -in Name Mtu Network Address Ipkts Opkts lan1* 1500 192.9.200.0 192.9.200.1 0 0lan0 1500 15.79.48.0 15.79.48.170 745893 334436lo0 4136 127.0.0.0 127.0.0.1 26540 26540如在网卡后带*号则表示网络不通备份日常工作包含: (1). 是否根据计划完成了备份 (2). 备份过程是否完整应用 在支持服务中,操作系统工作正常,但用户应用因为某种原因致使操作系统无法正常工作例子并不罕见。系统管理员应该养成定时检验应用习惯依据具体情况,系统管理员可能需要检验: 应用日志文件; 组成应用关键进程实施情况,比如ORACLEDBWR、LGWR等。