收藏 分销(赏)

hpux日常维护手册.doc

上传人:a199****6536 文档编号:9873196 上传时间:2025-04-11 格式:DOC 页数:18 大小:71.54KB 下载积分:8 金币
下载 相关 举报
hpux日常维护手册.doc_第1页
第1页 / 共18页
hpux日常维护手册.doc_第2页
第2页 / 共18页


点击查看更多>>
资源描述
hpux日常维护手册 18 2020年4月19日 文档仅供参考 HP-UX日常检查 日常维护检查项目,主要由以下: 机房环境 、硬件、 操作系统、备份以及应用 硬件 1. 硬件主要从面板指示灯和服务器中各个扩展卡的指示灯来查看: 面板指示灯:在大多数的服务器中,都有一个液晶面板或多个指示灯,用来显示服务器的运行状态。在系统出现故障时,液晶面板上会出现WARNING或FAULT的提示;WARNING 或FAULT的指示灯会亮。 (1). 服务器中的各个扩展卡的指示灯 在服务器中存在多种扩展卡,例如SCSI卡、以太网卡等。这些卡上都有一个或多个指示灯,从这些指示灯能够了解这些卡的工作情况。 SCSI卡: 在正常情况下,自检灯(self test)应该是暗的; 终结电源指示灯(Terminator PWR)应该是亮的。 以太网卡: 在正常情况下,自检灯(self test)应该是暗的; 连接灯(Link)是亮的。 (2). 外设的状态 大部分外设也都有自己的状态指示。下面是比较常见的几种: RAID磁盘阵列 : 该磁盘阵列有一个液晶面板。如果出现故障,在面板上会出现 WARNING提示信息。 磁带库 : 磁带库一般也有一个液晶面板。如果出现故障,在面板上会出现报错提示信息。 2. MP(管理处理器)是基于单元服务器的独立支持系统,能够连接到服务器组合系统。同时,还能够执行服务器硬件的管理或监视任务。主要功能包括: (1). 从MP上检查硬件—PS ps:显示详细的电源和硬件配置状态 (2). 从MP上检查硬件—LS ls:显示Lan连接的控制台 (3). 从MP上检查硬件—SYSREV Sysrev:显示组合系统中所有固件实体的版本 操作系统 在这一部分,经过一些实用、简单的命令,检查系统的运行情况。 在系统出现问题时,常常会在控制台上显示一些出错信息,应该定期检查这些信息,这往往是最便捷的方式。 • 系统日志 syslog.log,ccerrlog,eventlog, dmesg • 系统运行状态 cmviewcl、bdf、ioscan、vgdisplay、top、sar、swapinfo、netstat (1). 系统日志--syslog.log 系统日志: syslog是系统重起到当前的日志,重起后将自动保存为OLDsyslog.log 应检查的内容: • 有无SCSI Reset告警(启动前后的SCSI reset信息可忽略) • 有无EMS告警。如: 09:43:05 bj_rz3 EMS [2286]: ------ EMS Event Notification ------ Value: "SERIOUS (4)" for Resource: "/system/events/core_hw/core_hw" (Threshold: >= " 3") Execute the following command to obtain event details: /opt/resmon/bin/resdata -R -r /system/events/core_hw/core_hw -n -a • 凡是Value为Majorwarning、Serious或Critical的报警都应关注。 • 有无“PV Powerfail、”IO error报错 如有重起操作,建议保存当前的syslog日志 (2). 系统日志---dmesg 驻留在内存中的系统最近一段时间的日志信息: $Revision: vmunix: vw: -proj selectors: CUPI80_BL _1108 -c 'Vw for CUPI80_BL _1108 build' -- cupi80_bl _1108 'CUPI80_BL _1108' Wed Nov 8 19:24:56 PST $ Memory Information: physical page size = 4096 bytes, logical page size = 4096 bytes Physical: 4177920 Kbytes, lockable: 3859368 Kbytes, available: 3859944 Kbytes Using 3162 buffers containing 24576 Kbytes of memory. 常见的异常信息: SCSI Reset Detected LPMC I-Cache error File System Full 发现后应及时察看syslog.log中的相应条目 (3). 系统运行状态—cmviewcl 观察双机状态,执行cmviewcl –v,确认STATUS和STATE为up 和running,同时包自动切换(AUTO_RUN)属性为enable CLUSTER STATUS hpcluster up NODE STATUS STATE GMS_STATE bjscp1a up running halted Network_Parameters: INTERFACE STATUS PATH NAME PRIMARY up 0/5/0/0 lan1 PRIMARY up 0/0/0/0 lan0 STANDBY up 1/12/0/0 lan2 PACKAGE STATUS STATE AUTO_RUN NODE scppkg up running enabled bjscp1a 厖 NODE STATUS STATE GMS_STATE bjscp1b up running halted Network_Parameters: INTERFACE STATUS PATH NAME PRIMARY up 0/5/0/0 lan1 STANDBY up 1/12/0/0 lan2 PRIMARY up 0/0/0/0 lan0 (4). 系统运行状态—bdf 检查文件系统的使用率 Filesystem kbytes used avail %used Mounted on /dev/vg00/lvol3 204800 48168 155424 24% / /dev/vg00/lvol1 295024 38856 226664 15% /stand /dev/vg00/lvol8 4706304 1523976 3157592 33% /var /dev/vg00/lvol7 1163264 708304 451464 61% /usr /dev/vg00/lvol4 204800 96408 107568 47% /tmp /dev/vg00/lvol6 1048576 766024 280360 73% /opt /dev/vg00/lvol5 1048576 4456 1036024 0% /home 应检查有无使用率大于90%的文件系统 (5). 系统运行状态--文件系统维护 发现文件系统已满,应及时删除无用文件或扩大文件系统。可定期清理日志 : # /var/adm/syslog/syslog.log(系统日志) # /etc/rc.log(运行日志) # /var/adm/wtmp(登录成功日志)可清理(#>wtmp) # /var/adm/btmp(登录失败日志)可清理(#>btmp) core 文件的清理(#find / -name core -exec rm {} \ 大文件(#find / -name -size +10000) 注:以上文件确认无用后rm 删除 /var/adm/crash:内核的卸入卸出目录。 内核崩溃时映像文件会自动保存到这个目录下。该目录下的文件建议应该由hp的工程师删除. (6). 系统运行状态--ioscan –fn 检察IO设备是否正常: Class I H/W Path Driver S/W State H/W Type Description ====================================================================================== root 0 root CLAIMED BUS_NEXUS ioa 0 0 sba CLAIMED BUS_NEXUS System Bus Adapter (803) ba 0 0/0 lba CLAIMED BUS_NEXUS Local PCI Bus Adapter (782) lan 0 0/0/0/0 btlan3 CLAIMED INTERFACE HP PCI 10/100Base-TX Core /dev/diag/lan0 /dev/ether0 ext_bus 0 0/0/1/0 c720 CLAIMED INTERFACE SCSI C895 Ultra Wide Single-Ended target 0 0/0/1/0.1 tgt CLAIMED DEVICE disk 0 0/0/1/0.1.0 sdisk NO_HW DEVICE HP DVD-ROM 305 /dev/dsk/c0t1d0 /dev/rdsk/c0t1d0 应检查有无状态为NO_HW的设备 (7). 系统运行状态—vgdisplay 显示卷组状态,重点检查vg00,执行vgdisplay –v vg00 --- Volume groups --- VG Name /dev/vg00 VG Write Access read/write VG Status available Max LV 255 厖 -- Logical volumes --- LV Name /dev/vg00/lvol1 LV Status available/syncd LV Size (Mbytes) 100 Current LE 25 Allocated PE 50 Used PV 2 厖 --- Physical volumes --- PV Name /dev/dsk/c4t0d0 PV Name /dev/dsk/c6t0d0 Alternate Link PV Status available Total PE 12992 Free PE 0 Autoswitch Off 检查各项status值为available/sync,不是stale (8). 系统运行状态—top 观察CPU和内存使用情况 CPU LOAD USER NICE SYS IDLE BLOCK SWAIT INTR SSYS 0 0.28 20.2% 0.0% 2.6% 77.2% 0.0% 0.0% 0.0% 0.0% 1 0.17 14.6% 0.0% 3.4% 82.0% 0.0% 0.0% 0.0% 0.0% 2 0.33 18.6% 0.0% 3.0% 78.4% 0.0% 0.0% 0.0% 0.0% 3 0.20 13.0% 0.0% 4.2% 82.8% 0.0% 0.0% 0.0% 0.0% 4 0.11 14.4% 0.0% 2.0% 83.6% 0.0% 0.0% 0.0% 0.0% 5 0.44 19.8% 0.0% 4.2% 76.0% 0.0% 0.0% 0.0% 0.0% 6 0.28 13.2% 0.0% 11.2% 75.6% 0.0% 0.0% 0.0% 0.0% 7 0.17 14.8% 0.0% 1.8% 83.4% 0.0% 0.0% 0.0% 0.0% --- ---- ----- ----- ----- ----- ----- ----- ----- ----- avg 0.25 0.0% 0.0% 0.0% 100.0% 0.0% 0.0% 0.0% 0.0% Memory: 1106604K (999800K) real, 1527608K (1362680K) virtual, 1987924K free Page# 1/6 CPU TTY PID USERNAME PRI NI SIZE RES STATE TIME %WCPU %CPU COMMAND 2 ? 18777 informix 156 20 7404K 5052K sleep 9233:02 30.49 30.43 oninit 6 ? 19002 tellin 154 20 29248K 22572K sleep 5256:03 17.05 17.02 manager 0 ? 18779 informix 156 20 7404K 4784K sleep 1681:27 9.62 9.60 oninit 重点检查有无占用CPU过大的进程,并检查free memory是否足够 (9).系统运行状态--sar –u 观察CPU使用情况: sar –u –M 3 10 10:02:18 cpu %usr %sys %wio %idle 10:02:21 0 37 2 1 60 1 18 5 1 75 2 15 10 2 72 3 9 4 2 85 4 21 3 1 75 5 23 2 4 70 6 10 4 3 83 7 15 5 1 79 system 19 5 2 75 检查%idle是否足够(一般不小于25%) (10). 系统运行状态--sar –v 观察文件线程资源使用情况:sar –v 3 10 HP-UX bjscp1a B.11.00 U 9000/800 07/07/03 10:02:48 text-sz ov proc-sz ov inod-sz ov file-sz ov 10:02:51 N/A N/A 189/664 0 2119/7360 0 1127/1 0 10:02:54 N/A N/A 188/664 0 2102/7360 0 1121/1 0 10:02:57 N/A N/A 187/664 0 2067/7360 0 1114/1 0 10:03:00 N/A N/A 187/664 0 2037/7360 0 1108/1 0 10:03:03 N/A N/A 187/664 0 2033/7360 0 1108/1 0 10:03:06 N/A N/A 187/664 0 2036/7360 0 1108/1 0 10:03:09 N/A N/A 187/664 0 2033/7360 0 1108/1 0 10:03:12 N/A N/A 188/664 0 2032/7360 0 1113/1 0 10:03:15 N/A N/A 187/664 0 2032/7360 0 1108/1 0 10:03:18 N/A N/A 187/664 0 2032/7360 0 1108/1 0 重点检查有无即将达到上限的值 (11).系统运行状态--sar –d 观察IO使用情况:sar –d 3 10 HP-UX bjscp1a B.11.00 U 9000/800 07/07/03 10:03:18 device %busy avque r+w/s blks/s avwait avserv 10:03:21 c1t6d0 4.33 0.50 7 49 5.97 5.57 c2t6d0 3.67 0.50 6 43 5.86 4.78 c4t0d0 1.00 0.50 10 51 5.11 2.94 c4t0d1 1.67 0.50 11 53 4.49 3.27 c4t0d2 1.67 0.50 10 52 5.16 2.63 c4t0d3 1.67 0.50 16 75 5.01 2.97 重点检查有无%busy过大的设备 (12). 系统运行状态—Swapinfo 观察交换区使用情况: Mb Mb Mb PCT START/ Mb TYPE AVAIL USED FREE USED LIMIT RESERVE PRI NAME dev 3072 0 3072 0% 0 - 1 /dev/vg00/lvol2 dev 3000 0 3000 0% 0 - 0 /dev/vg00/lv_swap reserve - 2161 -2161 total 6072 2161 3911 36% - 0 - 一般swap区的使用率为0,如有0以上数值,需进行进一步检查 (13). 系统运行状态--netstat –in 观察网络连接情况,检查有无网络连接中断,执行netstat -in Name Mtu Network Address Ipkts Opkts lan1* 1500 192.9.200.0 192.9.200.1 0 0 lan0 1500 15.79.48.0 15.79.48.170 745893 334436 lo0 4136 127.0.0.0 127.0.0.1 26540 26540 如在网卡后带*号则表示网络不通 备份 日常工作包括: (1). 是否按照计划完成了备份 (2). 备份的过程是否完整 应用 在支持服务中,操作系统工作正常,但用户应用由于某种原因致使操作系统无法正常工作的例子并不罕见。系统管理员应该养成定期检查应用的习惯根据具体情况,系统管理员可能需要检查: 应用的日志文件; 组成应用的主要进程的执行情况,例如ORACLE的DBWR、LGWR等。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服