资源描述
HP-UX日常检验
日常维护检验项目,关键由以下:
机房环境 、硬件、 操作系统、备份和应用
硬件
1. 硬件关键从面板指示灯和服务器中各个扩展卡指示灯来查看:
面板指示灯:在大多数服务器中,全部有一个液晶面板或多个指示灯,用来显示服务器运行状态。在系统出现故障时,液晶面板上会出现WARNING或FAULT提醒;WARNING 或FAULT指示灯会亮。
(1). 服务器中各个扩展卡指示灯
在服务器中存在多个扩展卡,比如SCSI卡、以太网卡等。这些卡上全部有一个或多个指示灯,从这些指示灯能够了解这些卡工作情况。
SCSI卡:
在正常情况下,自检灯(self test)应该是暗; 终止电源指示灯(Terminator PWR)应该是亮。
以太网卡:
在正常情况下,自检灯(self test)应该是暗; 连接灯(Link)是亮。
(2). 外设状态
大部分外设也全部有自己状态指示。下面是比较常见多个:
RAID磁盘阵列 :
该磁盘阵列有一个液晶面板。假如出现故障,在面板上会出现 WARNING提醒信息。
磁带库 :
磁带库通常也有一个液晶面板。假如出现故障,在面板上会出现报错提醒信息。
2. MP(管理处理器)是基于单元服务器独立支持系统,能够连接到服务器组合系统。同时,还能够实施服务器硬件管理或监视任务。关键功效包含:
(1). 从MP上检验硬件—PS
ps:显示具体电源和硬件配置状态
(2). 从MP上检验硬件—LS
ls:显示Lan连接控制台
(3). 从MP上检验硬件—SYSREV
Sysrev:显示组合系统中全部固件实体版本
操作系统
在这一部分,经过部分实用、简单命令,检验系统运行情况。
在系统出现问题时,常常会在控制台上显示部分犯错信息,应该定时检验这些信息,这往往是最便捷方法。
• 系统日志
syslog.log,ccerrlog,eventlog, dmesg
• 系统运行状态
cmviewcl、bdf、ioscan、vgdisplay、top、sar、swapinfo、netstat
(1). 系统日志--syslog.log
系统日志:
syslog是系统重起到目前日志,重起后将自动保留为OLDsyslog.log
应检验内容:
• 有没有SCSI Reset告警(开启前后SCSI reset信息可忽略)
• 有没有EMS告警。如:
09:43:05 bj_rz3 EMS [2286]: ------ EMS Event Notification ------ Value: "SERIOUS (4)" for Resource: "/system/events/core_hw/core_hw" (Threshold: >= " 3") Execute the following command to obtain event details: /opt/resmon/bin/resdata -R -r /system/events/core_hw/core_hw -n -a
• 通常Value为Majorwarning、Serious或Critical报警全部应关注。
• 有没有“PV Powerfail 、”IO error 报错
如有重起操作,提议保留目前syslog日志
(2). 系统日志---dmesg
驻留在内存中系统最近一段时间日志信息:
$Revision: vmunix: vw: -proj selectors: CUPI80_BL_1108 -c 'Vw for CUPI80_BL_1108 build' -- cupi80_bl_1108 'CUPI80_BL_1108' Wed Nov 8 19:24:56 PST $
Memory Information:
physical page size = 4096 bytes, logical page size = 4096 bytes
Physical: 4177920 Kbytes, lockable: 3859368 Kbytes, available: 3859944 Kbytes
Using 3162 buffers containing 24576 Kbytes of memory.
常见异常信息:
SCSI Reset Detected
LPMC I-Cache error
File System Full
发觉后应立即察看syslog.log中对应条目
(3). 系统运行状态—cmviewcl
观察双机状态,实施cmviewcl –v,确定STATUS和STATE为up 和running,同时包自动切换(AUTO_RUN)属性为enable
CLUSTER STATUS
hpcluster up
NODE STATUS STATE GMS_STATE
bjscp1a up running halted
Network_Parameters:
INTERFACE STATUS PATH NAME
PRIMARY up 0/5/0/0 lan1
PRIMARY up 0/0/0/0 lan0
STANDBY up 1/12/0/0 lan2
PACKAGE STATUS STATE AUTO_RUN NODE
scppkg up running enabled bjscp1a
厖
NODE STATUS STATE GMS_STATE
bjscp1b up running halted
Network_Parameters:
INTERFACE STATUS PATH NAME
PRIMARY up 0/5/0/0 lan1
STANDBY up 1/12/0/0 lan2
PRIMARY up 0/0/0/0 lan0
(4). 系统运行状态—bdf
检验文件系统使用率
Filesystem kbytes used avail %used Mounted on
/dev/vg00/lvol3 204800 48168 155424 24% /
/dev/vg00/lvol1 295024 38856 226664 15% /stand
/dev/vg00/lvol8 4706304 1523976 3157592 33% /var
/dev/vg00/lvol7 1163264 708304 451464 61% /usr
/dev/vg00/lvol4 204800 96408 107568 47% /tmp
/dev/vg00/lvol6 1048576 766024 280360 73% /opt
/dev/vg00/lvol5 1048576 4456 1036024 0% /home
应检验有没有使用率大于90%文件系统
(5). 系统运行状态--文件系统维护
发觉文件系统已满,应立即删除无用文件或扩大文件系统。可定时清理日志 :
# /var/adm/syslog/syslog.log(系统日志)
# /etc/rc.log(运行日志)
# /var/adm/wtmp(登录成功日志)可清理(#>wtmp)
# /var/adm/btmp(登录失败日志)可清理(#>btmp)
core 文件清理(#find / -name core -exec rm {} \ 大文件(#find / -name -size +10000)
注:以上文件确定无用后rm 删除
/var/adm/crash:内核卸入卸出目录。
内核瓦解时映像文件会自动保留到这个目录下。该目录下文件提议应该由hp工程师删除.
(6). 系统运行状态--ioscan –fn
检察IO设备是否正常:
Class I H/W Path Driver S/W State H/W Type Description
======================================================================================
root 0 root CLAIMED BUS_NEXUS
ioa 0 0 sba CLAIMED BUS_NEXUS System Bus Adapter (803)
ba 0 0/0 lba CLAIMED BUS_NEXUS Local PCI Bus Adapter (782)
lan 0 0/0/0/0 btlan3 CLAIMED INTERFACE HP PCI 10/100Base-TX Core
/dev/diag/lan0 /dev/ether0
ext_bus 0 0/0/1/0 c720 CLAIMED INTERFACE SCSI C895 Ultra Wide Single-Ended
target 0 0/0/1/0.1 tgt CLAIMED DEVICE
disk 0 0/0/1/0.1.0 sdisk NO_HW DEVICE HP DVD-ROM 305
/dev/dsk/c0t1d0 /dev/rdsk/c0t1d0
应检验有没有状态为NO_HW设备
(7). 系统运行状态—vgdisplay
显示卷组状态,关键检验vg00,实施vgdisplay –v vg00
--- Volume groups ---
VG Name /dev/vg00
VG Write Access read/write
VG Status available
Max LV 255
厖
-- Logical volumes ---
LV Name /dev/vg00/lvol1
LV Status available/syncd
LV Size (Mbytes) 100
Current LE 25
Allocated PE 50
Used PV 2
厖
--- Physical volumes ---
PV Name /dev/dsk/c4t0d0
PV Name /dev/dsk/c6t0d0 Alternate Link
PV Status available
Total PE 12992
Free PE 0
Autoswitch Off
检验各项status值为available/sync,不是stale
(8). 系统运行状态—top
观察CPU和内存使用情况
CPU LOAD USER NICE SYS IDLE BLOCK SWAIT INTR SSYS
0 0.28 20.2% 0.0% 2.6% 77.2% 0.0% 0.0% 0.0% 0.0%
1 0.17 14.6% 0.0% 3.4% 82.0% 0.0% 0.0% 0.0% 0.0%
2 0.33 18.6% 0.0% 3.0% 78.4% 0.0% 0.0% 0.0% 0.0%
3 0.20 13.0% 0.0% 4.2% 82.8% 0.0% 0.0% 0.0% 0.0%
4 0.11 14.4% 0.0% 2.0% 83.6% 0.0% 0.0% 0.0% 0.0%
5 0.44 19.8% 0.0% 4.2% 76.0% 0.0% 0.0% 0.0% 0.0%
6 0.28 13.2% 0.0% 11.2% 75.6% 0.0% 0.0% 0.0% 0.0%
7 0.17 14.8% 0.0% 1.8% 83.4% 0.0% 0.0% 0.0% 0.0%
--- ---- ----- ----- ----- ----- ----- ----- ----- -----
avg 0.25 0.0% 0.0% 0.0% 100.0% 0.0% 0.0% 0.0% 0.0%
Memory: 1106604K (999800K) real, 1527608K (1362680K) virtual, 1987924K free Page# 1/6
CPU TTY PID USERNAME PRI NI SIZE RES STATE TIME %WCPU %CPU COMMAND
2 ? 18777 informix 156 20 7404K 5052K sleep 9233:02 30.49 30.43 oninit
6 ? 19002 tellin 154 20 29248K 22572K sleep 5256:03 17.05 17.02 manager
0 ? 18779 informix 156 20 7404K 4784K sleep 1681:27 9.62 9.60 oninit
关键检验有没有占用CPU过大进程,并检验free memory是否足够
(9).系统运行状态--sar –u
观察CPU使用情况: sar –u –M 3 10
10:02:18 cpu %usr %sys %wio %idle
10:02:21 0 37 2 1 60
1 18 5 1 75
2 15 10 2 72
3 9 4 2 85
4 21 3 1 75
5 23 2 4 70
6 10 4 3 83
7 15 5 1 79
system 19 5 2 75
检验%idle是否足够(通常大于25%)
(10). 系统运行状态--sar –v
观察文件线程资源使用情况:sar –v 3 10
HP-UX bjscp1a B.11.00 U 9000/800 07/07/03
10:02:48 text-sz ov proc-sz ov inod-sz ov file-sz ov
10:02:51 N/A N/A 189/664 0 2119/7360 0 1127/1 0
10:02:54 N/A N/A 188/664 0 2102/7360 0 1121/1 0
10:02:57 N/A N/A 187/664 0 2067/7360 0 1114/1 0
10:03:00 N/A N/A 187/664 0 2037/7360 0 1108/1 0
10:03:03 N/A N/A 187/664 0 2033/7360 0 1108/1 0
10:03:06 N/A N/A 187/664 0 2036/7360 0 1108/1 0
10:03:09 N/A N/A 187/664 0 2033/7360 0 1108/1 0
10:03:12 N/A N/A 188/664 0 2032/7360 0 1113/1 0
10:03:15 N/A N/A 187/664 0 2032/7360 0 1108/1 0
10:03:18 N/A N/A 187/664 0 2032/7360 0 1108/1 0
关键检验有没有立即达成上限值
(11).系统运行状态--sar –d
观察IO使用情况:sar –d 3 10
HP-UX bjscp1a B.11.00 U 9000/800 07/07/03
10:03:18 device %busy avque r+w/s blks/s avwait avserv
10:03:21 c1t6d0 4.33 0.50 7 49 5.97 5.57
c2t6d0 3.67 0.50 6 43 5.86 4.78
c4t0d0 1.00 0.50 10 51 5.11 2.94
c4t0d1 1.67 0.50 11 53 4.49 3.27
c4t0d2 1.67 0.50 10 52 5.16 2.63
c4t0d3 1.67 0.50 16 75 5.01 2.97
关键检验有没有%busy过大设备
(12). 系统运行状态—Swapinfo
观察交换区使用情况:
Mb Mb Mb PCT START/ Mb
TYPE AVAIL USED FREE USED LIMIT RESERVE PRI NAME
dev 3072 0 3072 0% 0 - 1 /dev/vg00/lvol2
dev 3000 0 3000 0% 0 - 0 /dev/vg00/lv_swap
reserve - 2161 -2161
total 6072 2161 3911 36% - 0 -
通常swap区使用率为0,如有0以上数值,需进行深入检验
(13). 系统运行状态--netstat –in
观察网络连接情况,检验有没有网络连接中止,实施netstat -in
Name Mtu Network Address Ipkts Opkts
lan1* 1500 192.9.200.0 192.9.200.1 0 0
lan0 1500 15.79.48.0 15.79.48.170 745893 334436
lo0 4136 127.0.0.0 127.0.0.1 26540 26540
如在网卡后带*号则表示网络不通
备份
日常工作包含:
(1). 是否根据计划完成了备份
(2). 备份过程是否完整
应用
在支持服务中,操作系统工作正常,但用户应用因为某种原因致使操作系统无法正常工作例子并不罕见。系统管理员应该养成定时检验应用习惯依据具体情况,系统管理员可能需要检验:
应用日志文件;
组成应用关键进程实施情况,比如ORACLEDBWR、LGWR等。
展开阅读全文