资源描述
HP-UX 9000 系统日常维护指南
一故障诊断(Trouble-Shooting)
二系统备份与恢复常用命令
三系统备份 / 恢复方法及策略
四系统日志文件的管理
五MC/ServiceGuard 常 用 命 令
一 故障诊断(Trouble-Shooting)
计算机故障种类很多,为了使您了解简单的常见故障处理,我们将分硬件、软件 及双机热切换三部分举例说明。
1. 硬件故障诊断
在此介绍根据液晶显示方面的信息,了解硬件故障诊断方面的情况。
1.1、电缆连接
注意计算机及各外设之间连线接触良好,不要无故拔插电缆;如果发生
计算机不能识 别某个设备,有可能是电缆的接触问题。
1.2、硬件状态指示灯
如果发现系统工作不正常,可以观察硬件状态指示灯的情况。开机后系统将自动完成自测试,诊断及引导启动代码。检测顺序大致为:高速缓存,中央处理器,总线,内存,I/O设备。当检测到相关的硬件时,对应的显示灯会亮。硬盘,软盘,磁带机及光盘驱动器自检时,能从前面板上看到相应的灯亮一下,表明系统已经识别到上述设备。相反,如果某驱动器的自检灯没亮,很可能是该设备有问题。另外,主机背后的SCSI接口卡及网络接口卡上的自检指示灯亮为正常状态。否则,可能该接口卡有问题。发现这种问题,请马上与HP联系,考虑更换备件。
1.3、错误代码
每次开机后,系统都会自动进行硬件自检及初始化,假如系统出现硬件故障,一般都不能正常启动,并在液晶显示屏及控制台上相应的显示出错误代码及出错信息。若屏幕上出现ERROR且液晶显示上出现FLT,表明有故障发生,应根据上述提示确定故障点。绝大部分硬件错误都能在自检时暴露出来,在液晶显示及控制台的左下角都有四位错误代码,格式:FLT xxxx.分析这四位代码可以进一步检测出故障的话情况。如下表列出了K系列计算机的错误代码,相应的故障原因及解决方案。
HP9000 K 系列
故障代码 故障原因 解决方法
1XXX CPU 或 快速缓存问题 1。更换CPU卡X号;2。更换系统卡;
2XYY 快速缓存问题 1。更换CPU卡X号;2。更换系统卡;
3XYY 处理器相关的话问题 1 更换系统卡X号
4XYY 自检故障 1。更换CPU卡X号;
5XYZ 总线传输故障 更换,Y标明的PCA卡或 更换系统卡
7XXX 内存故障 更换内存
2.软件故障诊断
由于软件故障情况错综复杂,无法在此一一赘述,这里例举几个常用命令来查看系统状态。
2.1 # ioscan -fn
列出各I/O卡及设备的所有相关信息:如逻辑单元号,硬件地址及设备文件名等。
2.2 # ps -ef
列出正在运行的所有进程的各种信息:如进程号及进程名等。
2.3、 # netstat -rn
列出网卡状态及路由信息等。
2.4、 # lanscan
列出网卡状态及网络配置信息。
2.5、 # bdf
列出已加载的逻辑卷及其大小信息。
2. 6、 # mount
列出已加载的逻辑卷及其加载位置。
2.7、 # uname -a
列出系统ID 号,OS版本及用户权限等信息。
2.8、 # hostname
列出系统网络名称。
2.9、 # pvdisplay -v /dev/dsk/c*t*d*
显示磁盘各种信息,如磁盘大小,包含的逻辑卷,设备名称
等。
2.10、 # vgdisplay -v /dev/vg00
显示逻辑卷组信息,如包含哪些物理盘及逻辑卷等。
2.11、 # lvdisplay -v /dev/vg00/lvol1
显示逻辑卷各种信息,如包含哪些盘,是否有镜像等。
3.网 络 故 障
3.1、如需修改网络地址、主机名等,一定要用 set_parms 命令
set_parms hostname
set_parms ip_address
3.2、查看网卡状态: lanscan
Hardware station Crd Hardware Net-Interface
Path Address In# state nameunit state
8/20/5/1 0x0800097843FB 0 up lan0 up
3.3、确认网络地址:
ifconfig lan0
3.4、启动网卡:
ifconfig lan0 up
3.5、网络不通的诊断过程:
lanscan 查看网卡是否启动 (up)
ping 自己网卡地址 (ip 地址)
ping 其它机器地址,如不通,在其机器上用lanscan 命
令得知 station address
linkloop station address 来确认网线及集成器是否有问题。
在同一网中, subnetmask 应一致。
3.6、配置网关
手动加网关:
/usr/sbin/route add default 20.08.28.98 1
把网关自动加入系统中
vi /etc/rc.config.d / netconf
:
ROUTE_DESTINATION [0]=default
ROUTE_GATEWAY [0]=20.08.28.98
ROUTE_COUNT [0]=1
:
/sbin/init.d/net 将执行:
/usr/sbin/route add default 20.08.28.98 1
命令 netstat -rn 查看路由表
另外也可用 set_parms addl_netwrk 来设缺省路由。
二 系统备份与恢复常用命令
磁带机设备文件命名简介
Some example device names and their meaning:
/dev/rmt/c1t3d0BEST BEST = "highest density possible"
/dev/rmt/c1t3d0sQIC150nb QIC-150 format, no rewind on close, Berkeley
/dev/rmt/c1t3d0D8MM8500C (Names can be quite descriptive)
/dev/rmt/0m (For compatibility with the past)
The components of "/dev/rmt/c1t0d0BESTnb" mean:
dev = device file
rmt = raw magnetic tape
c1 = the device is connected to interface card instance 1
t0 = the target device address is set to 0
d0 = the tape transport resides at unit address 0,
BEST = the tape will be written using the best available density/format
(meaning "pack as much onto this tape as is possible")
n = the tape will not be rewound on close
b = the device will have Berkeley-style behavior
fbackup & frecover
1.系统备份命令: fbackup
1) fbackup的常用方式一:
[1] 进入单用户:
# init –s or shutdown 0
[2] 系统全备份
# fbackup –f /dev/rmt/0m -0iv / -I /tmp/sysbk.index
-f : 设备文件名 ( such as DDS tape driver)
-i : 要包含的目录
-e: 不包含的目录
- I: 备份内容检索目录
- v: 备份内容详细列表
- 0 : 零级备份
# fbackup –f /dev/rmt/0m -i / -e /home
备份除了目录 /home的所有目录
[3] 说明:该命令方式对系统当前”mounted “ 的文件系统进行备份备份级别说明备份级别有0~9 个级别,如果当前系统采用零级备份,当下一次采用5 级备份时,系统仅将会对有变化的文件进行备份
2) fbackup的常用方式二:
〖1〗# mkdir -p /tmp/fbackupfiles/index
# mkdir -p /tmp/fbackupfiles/log
〖2〗# touch /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’`
〖3〗进入单用户
# shutdown –y 0
〖4〗对系统进行全备份
# fbackup –0vi / -f /dev/rmt/0m \
-I /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’`
〖4〗说明:通过该方式可以知到系统备份需要的时间
3)fbackup的常用方式三:
〖1〗进入单用户
# shutdown –y 0
〖2〗对系统进行全备份
# fbackup –0uv / -f /dev/rmt/0m \
-g /tmp/fbackupfiles/mygraph \
-I /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’`
〖3〗说明:文件 mygraph: 包含需要备份的目录,格式如下:
i /users/data
i /home/app
e /oracle/sql
参数 u :
当备份系统成功时,系统将更新 /var/adm/fbackupfiles/dates.
4) fbackup的常用方式四:
备份远程系统
[1] 登录在本地系统时
# remsh backup_sysname ” fbackup –f DDS_sysname: /dev/rmt/0m -0vi / ”
[2] 登录在远程系统时
# fbackup –f backup_sysname: /dev/rmt/0m –0vi /
5) fbackup的常用方式五:
压缩方式备份( 不建议使用、影响系统性能)
[1] 压缩方式备份
# fbackup –0vi /dir -f - | compress | dd of=/dev/rmt/0m obs=10k
“-” : 指向标准输出
[2] 查看备份内容
# dd if=/dev/rmt/0m ibs=10k | uncompress | frecover –I - -f -
2. 系统恢复命令: frecover
恢复磁带机上所有内容:
1) 进入单用户:
# init –s or shutdown 0
2) 恢复数据
# frecover –rf /dev/rmt/0m
恢复磁带上的所有数据
-f: 设备文件名
-r: 恢复磁带上的所有数据
-I: 将磁带上文件索引存到指定的文件中
# frecover –I /tmp/index.txt -f /dev/rmt/0m
恢复某一目录:
# frecover -xi /directory
# frecover –x -i /dir1 -i /dir2
# frecover -xoi /dir
-o: 覆盖/dir下已有的、相同名称的文件
# frecover -xvXi /dir
-X: 按磁带上目录恢复数据
# cd /tmp/local; frecover –xvYi /dir
-Y: 按磁带上文件名恢复数据
例如:
# cd /tmp/local
# frecover –xvF -i /home/filename
[恢复结果] /tmp/local/filename 不是 /home/filename
3) 从远程磁带机上恢复数据到本地:
# frecover –xi /dir –f remote_name : /dev/rmt/0m
4) 从本地磁带机上恢复数据到远地系统:
# remsh remote_name ”frecover –xi /dir -f local_name:
/dev/rmt/0m”
3.tar 命令
1) 对系统全备份
# tar cvf /dev/rmt/0m /
2) 备份某目录
# tar cvf /dev/rmt/0m /tmp
3) 改变文件的备份路径
# tar cvf /dev/rmt/0m -C /tmp .
[Note] : 路径 /tmp 在磁带上的备份路径变为 ./
# cd /tmp
# tar cvf /dev/rmt/0m ./*
4) 恢复数据
# tar xvf /dev/rmt/0m (磁带上所有数据)
# tar xvf /dev/rmt/0m /tmp ( 恢复目录 /tmp )
5) 查看磁带上的数据
# tar tvf /dev/rmt/0m
4. SAM
备份数据
# sam
----> Select “ Backup and Recovery “
---- >Select “ Interactive Backup and Recovery “
---- >Select “ Backup Device “
---- > Select “ Backup Files Interactively “ ( From [ Action ] menus )
----- > Select Backup Scope
----- > Select Local File Systems Only ( no NFS )
----- > Select “ OK “
5.检查备份的数据
1) 检查文件 /var/sam/log/br_log
Full backup started on host1: Wed oct 16 15: 10: 09 EAT 1998
( Scheduled Backup )
{ fbackup –0 –u –v –g /etc/sam/br/graphDCAa04366 –I /var/sam/log/br_indext.full
-c /etc/sam/br/fbackup_config –d /var/adm/fbackupfiles/dates –f /dev/rmt/c1td0d0
BEST } 2>&1
Full backup completed on host1: Wed Oct 16 16:44:01 EAT 1998
Exit code=0
Notes: if Exit code=2, there is problem on backup procedure.
2) 查看磁带上有那些文件
# frecover –rNsv –f /dev/rmt/0m
6.Copyutil
如何启动 “ Copyutil “
1) 从CD boot , 进入ISL
BOOT_ADMIN>boot scsi.n.m ( path of CDROM drive----such as scsi.4.0)
2) ISL>ode copyutil
Type help for command information
3) ISL_CMD>copyutil
please wait while scan device bussess…
TY Indx Path Product ID Bus Size Rev
D 0 16/5.6.0 SEAGATEST31230N disk drive SCSI 1.0 GB HPM4
D 1 16/5.5.0 SEAGATEST31230N disk drive SCSI 1.0 GB HPM4
T 2 16/5.0.0 HPC1504[X]/HPC1521B DDS tape SCSI n/a 1009
备份系统硬盘上的所有数据
COPYUTIL>backup
Enter the disk index ([q]/?): 0
Enter the Tape index ([q]/?): 2
Use data compression? (y/[n])? Y
When backup finished, system will show: DONE!
COPYUTIL> exit
恢复数据到指定的系统硬盘上
COPYUTIL> restore
Enter the Tape index ([q]/?): 2
Enter the disk index ([q]/?): 0
Use data compression? (y/[n])? Y
After system display: Restored Successful, that means restore is finished!
COPYUTIL> exit
注意:
当用copyutil备份Root Disk到相应的磁带时,该磁带可以作为bootable 磁带使用
7. make_recovery
1)安装 “Ignite-UX application”
[1] 从 “ HP-UX Application CD-ROM “ 上安装
# swinstall
“Mark” [A. 1.53 HP-UX Installation Utility( Ignite-ux for 10.20)]
“Analysis”
“Install”
[2] 从 WebSite 下载并安装:
Select : “ Network & System administration ”
Download: “ ignite-ux_10.20.tar”(10.20 为 OS 版本)
[3] 从硬盘上安装:
# cd /tmp
# tar xvf /dev/rmt/0m ./ignite-ux_10.20.tar
# swinstall –s /tmp/ignite-ux_10.20.tar
[4] 从磁带上安装:
# dd if=/tmp/ignite-ux_10.20.tar of=/dev/rmt/0m bk=2
# swinstall –s /dev/rmt/0m
2) make_recovery:
/opt/ignite/bin make_recovery [ -AprvC] [-d destination] [-b boot_destination]
-A : 指定要备份整个Root disk / Volume Group
-p : 预览备份过程,并不创建 Bootable DDS Tape
确认 /var/opt/ignite/recovery/mkrec.append 文件
b. 创建 /var/opt/ignite/recovery/arch.include 文件
-r : 使用 –p 选项后,可以用该选项创建 Bootable DDS Tape
该选项可以识别 /var/opt/ignite/recovery/arch.include 文件
-v : 用于显示备份过程的提示信息
-d : 指定DDS 的设备文件名 ( default: /dev/rmt/0mn )
-b : 指定系统备份过程中,用到的临时文件 ( default: /var/tmp/uxinstlf.recovery )
该文件大小为 32M, 对系统进行make_recovery 时,要注意 /var 文件系统
的大小,当 /var 文件系统大小不足时,可用如下命令对系统进行备份:
# make_recovery –A -C -b /tmp/uxinstlf.recovery
-C : 创建反映系统当前状态的文件: /var/opt/ignite/recovery/makrec.last
如果该文件存在,那么可以用 check_recovery 命令
注意:
用make_recovery备份的磁带是bootable 磁带,用它可以安装OS。
3)备份系统Root Disk
[1] 创建 “ 最小”OS 的 bootable DDS tape (default 设备文件: /dev/rmt/0mn )
# make_recovery
[2] 创建 “ 最小”OS 的 bootable DDS tape (设备文件: /dev/rmt/c0t1d1BESTn )
# make_recovery –d /dev/rmt/c0t1d1BESTn
[3] 先预览,再创建 bootable DDS tape
# make_recovery -p
# vi /var/opt/ignite/recovery/arch.include
# make_recovery -r
[4] 复制 整个 Root Disk
# make_recovery -A
[5] 复制 整个 Root Disk, 且生成反映系统当前状态的文件:
( /var/opt/ignite/recovery/makrec.last )
# make_recovery -C -A
4)实例分析 :
系统文件系统:
Filesystem kbytes used avail %used Mounted on
/dev/vg01/osdepot 2621440 2530838 84872 97% /osdepot
/dev/vg01/lvol1 480341 58696 373610 14% /var
/dev/vg01/lvol7 378965 297521 43547 87% /usr
/dev/vg01/lvol6 588643 245540 284238 46% /opt
/dev/vg00/lvol3 107669 38577 58325 40% /
/dev/vg00/lvol1 67733 12409 48550 20% /stand
/dev/vg00/lvol4 30597 19 27518 0% /tmp
/dev/vg00/lvol5 19861 1416 16458 8% /home
[1]分析:
[a] make_recovery:
vg00: /stand, /sbin, /dev, /etc, /tmp, /home
vg01: parts of /opt and /var (see Core-OS list)
/usr/bin, /usr/lib
/usr/obam, /usr/sam,
/usr/share, /usr/ccs,
/usr/conf, /usr/lbin,
/usr/contrib, /usr/local,
/usr/newconfig
[b] make_recovery -A:
vg00: 备份Root Volume Group 上的所有数据
vg01: 备份non-Root volume Group 上的所有数据
只有当/usr 位于non-root volume group时,
该 non-root volume group 上的所有数据也将
被备份到磁带上
5)复磁带上的所有数据,
非交互式恢复系统
[1] 在磁带机中,插入系统恢复带
[2] Boot 系统
[3] 中断Boot 流程,进入 Boot_admin> 提示下
[4] Boot_admin> bo 8/16.0.0
8/16.0.0: 磁带机的 hardware path
[5] 选取 “ non-interactive ”
[6] 等待系统恢复完毕
交互式恢复系统
[1] 在磁带机中,插入系统恢复带
[2] Boot 系统
[3] 中断Boot 流程,进入 Boot_admin> 提示下
[4] Boot_admin> bo 8/16.0.0
8/16.0.0: 磁带机的 hardware path
[5] 不选取 “ non-interactive ”
[6] 选取
a. [ Install HP-UX ]
b. [ ] Advanced Installation
c. 配置或改变如下选项:
disks, file systems,
hostname, IP ddress,
timezone, root password,
DNS server, and gateway
[7] 选取 [install continue… ],直到系统恢复完毕
三. 系统备份 / 恢复方法及策略
1. 系统备份的策略
1)HP-UX Core-OS:
这部分内容主要包括一些HP-UX用到的文件系统,如/, /opt, /var,/tmp, /usr, /home, /stand 通常这些文件系统
位于vg00中。
备份的方法:
fbackup :
# fbackup –0vi / -f /dev/rmt/0m \
-I /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’
详见 ( fbackup的常用方式二)
make_recovery :
# make_recovery –C -A -b /tmp/oslif.rec
详见 ( make_recovery)
2)系统配置文件
对于系统一些关键性的文件或信息需要单独进行备份这样有利于对系统进行恢复。这些文件或信息包括:
系统Swap 信息
#swapinfo –t
系统文件系统信息
#bdf
系统的 I / O 信息
# ioscan –fnCdisk
/etc/fstab
系统逻辑卷配置文件
/etc/lvmconf/vg00.conf 、vg01.conf、vg02.conf
这些逻辑卷配置文件可以用命令:
vgcfgbackup / vgcfgrestore 生成和恢复
利用HP的Tools 收集和备份系统的配置信息
这些Tools 包括:LVMcollect.10
collect.sh
capture.sh
collect.conf
备份的方法:
tar
# tar cvf /dev/rmt/0m ./vg00.conf ./vg01.conf
fbackup
# fbackup –f /dev/rmt/0m –i /etc/lvmconf/vg01.conf
3)系统其它逻辑卷 ( 如:vg01 、vg02)
备份的方法:
(1) fbackup :
# fbackup –0uv / -f /dev/rmt/0m \
-g /tmp/fbackupfiles/mygraph \
-I /tmp/fbackupfiles/index/full.`date ‘+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’`
(2) tar
# tar cvf /dev/rmt/0m /oracle/app /home/oracle
2. 系统恢复的策略
1)用fbackup / tar 对系统进行备份时
Install Core-OS
恢复vg00 / vg01 / vg02 的备份内容
# frecover –o –r –f /dev/rmt/0m
2)用make_recovery 对系统进行备份时
用磁带boot system, 恢复vg00
详见 make_recovery 的恢复方法
3)恢复其它逻辑卷
# frecover -o –r -f /dev/rmt/0m
四. 系统日志文件的管理
1.系统启动与关机过程
1. 1系统启动过程
PDC:Processor Dependent Code
ISL:Initial System Loader
注意
指示灯状态
屏幕提示
1.2 系统启动阶段的操作
1.3 开机与关机次序
关机步骤
#shutdown -y -h 0
....................
OK to turn off power or reset
1)关主机电源,K机开关为钥匙;
2)关磁盘电源
3)关机柜电源;
4)关其它外设如主控台、打印机等
开机步骤
1)开机柜电源
2)开外设如主控台、打印机等
3)开磁盘电源
4)开主机电源
注意 确认指示灯及屏幕提示
2. 系统及网络状态的监测
2.1 系统及网络状态的监测
面板指示灯
硬件在系统中的配置
文件系统
日志文件
2.2 面板指示灯的监测
液晶显示屏
指示灯
前面板:
磁带机驱动器、
光盘驱动器状态灯。
电源指示灯、
软(硬)驱动器指示灯。
后面板:
F/W SCSI接口卡终结器(TERM POWER----F/W DIFF SCSI)指示灯
调制解调器:
网络接口卡:
液晶显示屏及前面板指示灯
液晶显示屏
如果系统启动时或运行中down机时,
液晶显示停在某一非正常运行状态,
如FLT XXXX,或INIT XXXX,则表明可能有硬件错误
(CONSOLE上出现ERROR)
前面板显示器
一般情况下,黄色指示灯不停闪烁,无法终止时
表明可能有硬件故障。此时应尽快联系HP硬件工程
师帮助诊断 并维修。
后面板指示灯
SCSI接口卡自检灯(Self-Test LED)
当硬件自检时灯闪烁,自检完成(超过5秒钟)后灯灭。表示工作正常。当自检完成后灯仍亮则说明该卡有故障.
SCSI接口卡终结器(TERM POWER----F/W DIFF SCSI)指示灯
ON:表示F/W SCSI卡配置的终结器工作正常
OFF:表示F/W SCSI卡配置的终结器保险丝损坏
网络接口卡
K系列(K210、K410) Transmit灯: 信号发出时发光
Link Beat灯: 接收信号时发光
D系列(D350) Link Beat灯:
ON:表示网络通信正常
OFF: 网络通信可能有故障
调制解调器
内置调制解调器:
Transmit灯: 有信号发出时发光
Receive灯: 接收信号时发光
HP服务支持MODEM:
TR: 传输状态 CD: 载波检测
OH: 在线连接 RD: 读入信号
AA: 自动应答 SD: 发出信号
3. 在系统中查找设备配置
dmesg
内存
CPU
外设(I/O接口卡,磁盘设备etc.)
root,swap,dump设备分配信息
注:dmesg是从Kernel缓冲区里读出的数据
ioscan -fn(扫描实际硬件)
ioscan -kf(扫描Kernel I/O system)
内存
CPU
外设(I/O接口卡,磁盘设备etc.)
4. 检查文件系统使用情况
#bdf
Filesystem kbytes used avail %used Mounted on
/dev/vg00/lvol1 67733 35561 25398 58% /
/dev/vg01/lvol1 20480 11675 8247 59% /home
各列的含义:
Filesystem:文件系统名
kbytes:字节数,以k为单位
used:已使用空间
avail:尚可使用空间
%used: 已使用空间占本文件系统全部空间比率。
Mounted on: 安装目录
应考虑做必要的文件清理工作:
%used达到90%以上时
avail显示字节数较小时(如小与数K)
5. 日志文件的监测
文件名 文件内容 监测方法
/etc/rc.log /etc/rc 运行记录 用读取文本文件的方法,
/var/adm/syslog/syslog.log 一般系统日志 注意提示信息及对应的
/var/adm/sw/*.log 软件安装日志 日期,分析发生的相关
/var/adm/wtmp 用户登录信息 詟因
/var/adm/btmp 用户登录失败信息
/var/sam/log/samlog SAM 日志
/var/spool/mqueue/syslog sendmail日志
typescript 终端屏幕硬拷贝
/etc/shutdownlog 关机(shutdown)信息
/usr/adm/diag/LOGxxx 用工具查看
/var/adm/nettl.LOG* 网络日志 由HP工程师负责
/var/adm/crash core dump文件
6. 日志文件文件清理
/var/adm/wtmp 所有的注册信息
/var/adm/btmp 所有的注册不成功的信息
展开阅读全文