资源描述
设备健康检验计划
XX集团股份
目 录
序言 3
1. 服务概况 3
1.1 用户名称 3
1.2 服务时间 3
1.3 服务设备 3
1.4 服务内容 3
2. 服务前期准备工作 4
2.1XXX巡检服务前期准备工作: 4
2.2 用户方前期准备工作: 4
2.3 双方待讨论和协商问题: 4
3. 服务具体计划 5
4. 应急计划 5
5.备件计划 6
6. 文档信息 6
附录 7
SUN系统巡检汇报及相关命令说明 7
ORACLE数据库巡检汇报及相关命令说明 7
系统配置信息 7
ORACLE 数据库系统维护检验汇报 12
序言
感谢尊敬广东XXX用户选择了XXX服务,XXX企业秉承用户至上宗旨,坚持以技术为先导,严格根据项目步骤和规范管理服务项目,竭诚为用户提供一流优质服务。
本文档关键内容是对用户信息系统进行系统健康检验(简称:巡检)计划安排。包含服务概况、服务前期准备工作、服务具体计划、应急计划等等。
1. 服务概况
1.1 用户名称
广东XXX
1.2 服务时间
待定
1.3 服务设备
见设备清单
1.4 服务内容
系统健康检测维护服务目标在于了解被巡检系统截至到现在系统性能状态和存在隐患和运行风险;
检验系统运行情况、系统配置和连接方法、系统设置情况、系统使用环境及系统日志文件,进行系统自检和检测,分析已经发觉和潜在问题,提议必需方法,提升系统可用性和可靠性。内容包含以下:
ü 检验设备使用环境是否符合要求和发生显著变更,包含湿度、电压、湿度、摆设位置等
ü 检验电源,信号线连接是否牢靠;检验、清洁、调整系统硬件,并为需要设备更换元件;检验系统硬件和系统环境配置及网络环境配置;针对用户系统现实状况,提出提议和意见。
ü 查阅相关系统信息,检验有没有犯错信息,如发觉犯错信息,设法了解问题原因,并后续给出问题可能原因和处理提议。
ü 进行系统分析和检测,立即掌握系统运行和安全情况,发觉系统潜在问题,排除故障隐患和安全 漏洞。
ü 在完成系统健康检测后,XXX服务工程师将会同XXX技术教授团体一起分析系统情况,并内向用户提交巡检分析汇报和相关改善方法提议。
2. 服务前期准备工作
2.1XXX巡检服务前期准备工作:
1. 负责提交巡检方案,取得用户认可
2. 负责准备巡检汇报模板2份,巡检汇报模板请见附录。(注:一机一份,巡检完成后,现场提交用户)
3. 提供服务工程师在约定时间按时抵达现场
2.2 用户方前期准备工作:
1. 负责环境、场地、电源、网线、终端设备等准备工作。
2. 负责提供系统主机Root登陆口令(清单)。
3. 负责提供系统设备IP地址(清单)。
4. 负责下电设备加电准备工作
5. 负责确定下电设备加电后连网情况
2.3 双方待讨论和协商问题:
1. Root口令以何种方法提供?
通常可采取两种方法,一是每台设备由用户来输入Root口令,另外一个方法是由用户事先临时修改Root口令,提供给服务工程师,巡检完成后再由用户改回。
2. 下电设备加电后,是否仍然含有连网条件?
假如下电设备加电后不连接网络,则需要采取串口直接连接主机方法来进行巡检,可能会影响巡检整体速度。
3. 确定巡检主机次序?
系统健康检测不会影响在线设备运行。
提议巡检次序为,首先用一台终端依次检测全部连网设备,包含加电后能连网设备,其次检测全部加电后无法连网设备。
3. 服务具体计划
任务名称
XXX责任人
用户方配合人员
计划连续时间
步骤1.现场环境勘察和用户交流
1
服务工程师了解现场机房环境情况
服务工程师
约40分钟
2
服务工程师在开始实施巡检时,向用户了解自前一次维护服务以来所发觉异常和问题,并采取必需方法
服务工程师
3
在对系统采取任何行动之前,确保已经采取必需数据信息保护方法,如系统备份或数据转存等;
服务工程师
步骤2 .巡检服务
4
服务工程师搜集和所服务系统相关系统变更、微码公布、软件升级、软件PATCH公布和系统问题信息和资料
服务工程师
约一到二个工作日
5
依次根据巡检内容对系统设备进行逐项巡检,并填写巡检汇报
服务工程师
6
巡检过程中假如发觉任何系统问题,双方将协调处理
服务销售
7
巡检过程中假如发觉任何突发事件,请参考本文档5。
服务销售
步骤3.服务收尾工作
8
提交现场巡检汇报,用户签字
服务工程师
大约1个小时
9
请用户填写服务满意度评价表
10
双方交流
服务工程师
11
五个工作日内提交巡检分析汇报
服务工程师
--
4. 应急计划
此次巡检服务中设备为在线系统,理论上讲,巡检只是对系统状态进行查看,本身不会对系统产生影响,只是在极少数情况下,系统本身已经有故障隐患,因为巡检触发,可能会影响系统运行,必需经过事先充足准备,识别可能风险,并进行规避和控制。经过以下方法来尽可能降低风险:
ü 服务工程师在开始实施巡检时,应首先向用户了解自前一次维护服务以来所发觉异常和问题,并采取必需方法
ü 在对系统采取任何行动之前,应确保已经采取必需数据信息保护方法,如系统备份或数据转存等;
ü 服务工程师在巡检过程中统计操作步骤,一旦发生突发问题,也有据可查,方便问题定位。
ü 服务工程师在巡检过程中假如发觉设备有重大问题,必需立即进行处理事件,由现场巡检工程师向此次用户通报,由用户同XXX服务销售进行协商进行处理。
5.备件计划
针对此次健康检验服务,我方关键提供对SUN系统和ORACLE数据库检验服务为主,假如在检验过程中,发觉有备件坏,我们会第一时间跟用户通报,并从XXX广州备件库调对应备件进行更换;
假如备件更换处于协议覆盖范围,我们将不收取备件费用,假如协议未覆盖,我们将收取备件物料成本费;
为此次检验服务准备备件清单包含但不限于:
型号
描述
数量
Sun V480 整机
带cpu,内存,硬盘
1
X6805A
73.4GB,10000 RPM硬盘
4
ST3310
带控制器,无硬盘
1
XTA-SC1NC-73G10K
73GB,3310阵列硬盘
4
XTA-SC1NC-146G10K
73GB,3310阵列硬盘
4
6. 文档信息
本文档由XXX负责起草
附录
SUN系统巡检汇报及相关命令说明
ORACLE数据库巡检汇报及相关命令说明
系统配置信息
SUN系统巡检汇报
日期: 年 月 日 汇报编号:
用户名称
检验地点
主机型号
IP 地址
主机SN
Host ID
配
置
部件
型号/数量
部件
型号/数量
CPU
主板
内存
CPU/内存板
硬盘
I/O板
显卡
存放阵列
电源
磁带驱动器
SCSI型号
外扩网卡型号
其它卡型号
系统盘Raid情况
管理软件名称
版本
RAID类型
硬
件
检验项目
结果
不正常请注明原因
检验项目
结果
不正常请注明原因
显示器
□正常 □不正常
光驱
□正常 □不正常
键盘
□正常 □不正常
软驱
□正常 □不正常
鼠标
□正常 □不正常
线缆
□正常 □不正常
磁带机
□正常 □不正常
板卡
□正常 □不正常
系
统
检验项目
内容
结果
不正常请注明原因
系统指示灯状态
Front Panel LEDS
□正常 □不正常
Power Supply LEDS
□正常 □不正常
Disk LEDS
□正常 □不正常
System Controller Board LEDS(CPU/Memory、I/O etc.)
□正常 □不正常
系统messages信息
cd /var/adm
grep WARN messages*
grep error messages*
grep panic messages*
/var/adm/messages
□正常 □不正常
/var/adm/messages.0
□正常 □不正常
/var/adm/messages.1
□正常 □不正常
/var/adm/messages.2
□正常 □不正常
/var/adm/messages.3
□正常 □不正常
硬件运行状态
/usr/platform/sun4u/sbin/prtdiag -v
□正常 □不正常
文件系统利用率
df –k
df –o i
/ 利用率 %
□正常 □不正常
/usr 利用率 %
□正常 □不正常
/var 利用率 %
□正常 □不正常
其它分区
□正常 □不正常
Ionde利用率(是否有空闲)
□正常 □不正常
Swap分区
swap –s
used k available k
□正常 □不正常
CPU负载
sar 1 10
% idle
□正常 □不正常
内存剩下量
vmstat 1
KBytes
□正常 □不正常
I/O资源
iostat –En
□正常 □不正常
网络接口流量
netstat –i 1
□正常 □不正常
网口和IP状态
ifconfig -a
□正常 □不正常
网络传输率
ping 网关(1分钟)
average ms
□正常 □不正常
NTP状态
ntpq -p
□正常 □不正常
远程登录设置
/etc/inetd.conf
ftp
□开启 □关闭
telnet
□开启 □关闭
进程总数
ps –ef|wc -l
个进程
关键Patch版本
uname –a
冗余软件
Disk Suite状态(没有不填)
metastat
输出结果是否正常
□正常 □不正常
metadb
Metadb建立在 有 个备份
Volume Manager状态(没有不填)
vxdisk list
输出结果是否正常
□正常 □不正常
vxdg list
有 磁盘组
Vxprint -ht
输出结果是否正常
□正常 □不正常
高可用性软件
SunCluster状态
版本
scstat
输出结果是否正常
□正常 □不正常
备注
存放
ST3310阵列
外观及指示灯
是否正常
□正常 □不正常
show-config
输出结果是否正常
□正常 □不正常
固件版本
SUN主机巡检相关命令及说明
检验项目
使用命令及相关目录
内容及其说明
外观检验
无
检验机器指示灯情况、看有没有故障指示
主机总体情况
/usr/platform/sun4u/sbin/prtdiag -v
经过该命令,能够查看到CPU数量、主频、CACHE大小,内存、板卡、风扇转速、环境温度等情况
查看文件系统挂接情况
df -k
能够查看到文件系统挂接、使用量等情况,假如某个文件系统使用大于85%,则要提请注意,大于90%则要对其进行清理,删除废文件,假如根文件系统使用量达成100%,会造成系统瓦解
检验系统日志文件
grep panic /var/adm/messages* grep error /var/adm/messages* grep WARN /var/adm/messages*
检验系统日志文件,看有没有panic、error、WARN等和错误相关关键字,其中,panic关键字通常出现在操作系统因软件或硬件故障瓦解时候,error则是系统因软件或硬件产生了错误,WARN则相对关注等级较低,属于警告,这2种情况,全部要依据系统日志提醒,深入检验系统情况
检验CPU使用情况
sar 1 10
检验CPUIDEL值,越大越好,这里给出命令是指间隔1秒,检验10次
交换分区使用情况
swap -s
查看交换区(即虚拟内存)使用情况
内存使用情况
vmstat 1
检验内存使用情况,尤其检验其中剩下内存量,如内存剩下过少,则要检验进程及应用情况,如无异常,则意味着系统需要更多物理内存
硬盘数量及容量
format
经过该命令,能够查看到硬盘容量大小、数量等情况,
硬盘及其它存放设备情况
iostat -E
这个命令能够看到硬盘运行情况,包含:厂商、序列号,有没有运行错误等
网络情况
netstat -i 1
查看网络包吞吐情况和冲突、包错误率等情况
网络IP设置
ifconfig -a
查看系统中IP地址设置
查看操作系统关键版本
uname -a
该命令除了能查看到操作系统关键版本外,还能够查看到主机硬件型号
主机厂商ID号
hostid
能够查看到厂商为主机设置唯一ID
统计系统目前进程数量
ps -ef |wc -l
能够查看到系统目前进程数量
远程登录设置
grep ftp /etc/inetd.conf grep telnet /etc/inetd.conf
能够查看系统远程登录是否打开
网络流通情况
ping
ping网络中另一设备,通常是缺省网关,以检验网络流通延时情况
检验SUN CLUSTER管理双机系统状态
scstat
该命令能够显示SUN CLUSTER双机系统和配置、状态相关信息
经过Web方法管理SUN CLUSTER双机系统
经过浏览其,输入主机IP地址,端口号为3000,能够经过Web方法管理SUN CLUSTER双机系统
存放及冗余软件相关检验及其命令
检验项目
使用命令及相关目录
内容及其说明
外观检验
无
检验机器指示灯情况、看有没有故障指示
ST3x10阵列检验
无
经过串行口连接到阵列串口,利用其设置界菜单检验,具体参数为:波特率38400,数据位8,停止位1,奇偶校验无,流控无
ST3x10阵列检验(经过sccli工具检验)
show-config
连接了ST3x10阵列主机,假如安装了sccli工具,经过输入sccli命令,选择了控制器后,在其界面下输入命令
用Varitas Volume Manager管理硬盘检验其管理下硬盘状态
vxdisk list
检验Varitas Volume Manager管理下硬盘状态
用Varitas Volume Manager管理硬盘检验其管理下磁盘组状态
vxprint -ht
检验Varitas Volume Manager管理下磁盘组状态, 包含其划分子磁盘、所做卷等状态
用SDS管理软件管理磁盘及其虚拟设备状态
metastat
对于用Solstice DiskSuite(SDS,新版本改为Solaris Volume Manager,简称SVM)管理磁盘,在操作系统下,输入该命令,检验其管理磁盘和虚拟磁盘(md)状态
用SDS管理软件管理磁盘,检验起状态数据库状态
metadb
对于用Solstice DiskSuite(SDS,新版本改为Solaris Volume Manager,简称SVM)管理磁盘,在操作系统下,输入该命令,检验其管理数据库(用户保留SDS设置等)状态
ORACLE 数据库系统维护检验汇报
汇报编号:
用户基础信息
用户名称:
联络人:
电话/传真:
地址:
应用系统名称:
巡检时间:
主机厂商/型号:
操作系统/版本:
CPU数/硬件内存:
数据库服务器运行方法:
Oracle产品/版本:
系统运行情况检测
序号
检测内容
检测指令
检测结果
提议
1
检验alert日志,是否有ora错误提醒
Alert文件
2
数据库名
SQL>show parameter db_name
3
实例名
SQL>show parameter instance_name
4
数据库版本
SQL>select * from v$version;
5
是否归档模式
SQL>archive log list
6
安装组件
SQL>select * from v$option;
7
初始化参数
SQL>show parameters
8
SGA区
SQL>show sga
9
用户检验
SQL>select username,account_status,default_tablespace,temporary_tablespace,created from dba_users
10
用户权限检验
SQL>select * from dba_role_privs;
11
是否存在失效对象
SQL>select owner, object_name,object_type from dba_objects where status = ‘INVALID’
12
检验控制文件
SQL>select * from v$controlfile
13
检验联机日志
SQL>select * from v$logfile;
14
检验数据文件
SQL>select * from v$datafile;
15
查看现有回滚段及其状态
SQL> SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;
16
是否有异常等候事例
SQL>select event,sum(decode(wait_Time,0,0,1)) "Prev",sum(decode(wait_Time,0,1,0)) "Curr",count(*) “Tot” from v$session_Wait group by event order by 4;
17
检测连接数情况
SQL>SELECT status,count(*) "count" FROM v$session GROUP BY status;
select sid,serial#,username,program,machine,status from v$session;
18
检验表空间使用情况
19
备份策略讨论和实施
20
listener可用性检验
lsnrctl status
listener.log
21
CRS进程检验
ps –df |grep d.bin
结论:
1、 alert文件:
有没有错误?
2、 表空间使用情况:
set linesize 300
SELECT upper(f.tablespace_name) "tablespace_name",
d.Tot_grootte_Mb "tablespace(M)",
d.Tot_grootte_Mb - f.total_bytes "used(M)",
round((d.Tot_grootte_Mb - f.total_bytes) / d.Tot_grootte_Mb * 100,2) "use%",
f.total_bytes "free_space(M)",
round(f.total_bytes / d.Tot_grootte_Mb * 100,2) "free%"
FROM
(SELECT tablespace_name,
round(SUM(bytes)/(1024*1024),2) total_bytes,
round(MAX(bytes)/(1024*1024),2) max_bytes
FROM sys.dba_free_space
GROUP BY tablespace_name) f,
(SELECT dd.tablespace_name, round(SUM(dd.bytes)/(1024*1024),2) Tot_grootte_Mb
FROM sys.dba_data_files dd
GROUP BY dd.tablespace_name) d
WHERE d.tablespace_name = f.tablespace_name
ORDER BY 4 DESC
/
3、 Shared Pool Size 命中率:
select round((sum(gets)-sum(reloads))/sum(gets)*100,1) "libiary cache hit ratio %"
from v$librarycache where namespace
in ('SQL AREA','TABLE/PROCEDURE','BODY','TRIGGER');
4、 数据字典命中率:
select round((1-sum(getmisses)/sum(gets))*100,1) "data dictionary hit ratio %"
from v$rowcache;
5、 锁竞争:
select substr(ln.name,1,25) Name,
l.gets, l.misses,
100*(l.misses/l.gets) "% Ratio (STAY UNDER 1%)"
from v$latch l, v$latchname ln
where ln.name in ('cache buffers lru chain')
and ln.latch# = l.latch#;
6、 排序命中率:
select a.value "Sort(Disk)", b.value "Sort(Memory)",
round(100*(a.value/decode((a.value+b.value), 0,1,(a.value+b.value))),2) "% Ratio (STAY UNDER 5%)"
from v$sysstat a, v$sysstat b
where a.name = 'sorts (disk)'
and b.name = 'sorts (memory)';
7、 数据缓冲区命中率:
select round((1-(phy.value/(cur.value+con.value)))*100,1)||'%' ratio
from v$sysstat phy,v$sysstat cur,v$sysstat con
where phy.name='physical reads' and cur.name='db block gets' and con.name='consistent gets';
8、 v$session_wait:
select sid,seq#,event,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like 'SQL%' and event not like 'rdbms%';
9、 回滚段争用情况:
select name, waits, gets, waits/gets "Ratio"
from v$rollstat a, v$rollname b
where a.usn = b.usn;
10、 无效对象情况:
col OBJECT_NAME for a36
SELECT object_name, object_type,status FROM dba_objects WHERE status like 'INVALID';
用户署名: 工程师署名: 日期:
检验项目
使用命令及相关目录
内容及其说明
alert文件
alert XXX
在sqlplus命令行状态下,检验日志文件,其中XXX是只alert文件名
数据库名
SQL>show parameter db_name
显示数据库名
实例名
SQL>show parameter instance_name
显示数据库实例名
版本
SQL>select * from v$version;
显示数据库版本
归档设置
SQL>archive log list
显示归档设置,情况
安装组件
SQL>select * from v$option;
显示已安装组件
初始化参数
SQL>show parameters
显示初始化参数
SGA
SQL>show sga
显示SGA设置,状态
用户
SQL>select username,account_status,default_tablespace,temporary_tablespace,created from dba_users
用户检验
权限
SQL>select * from dba_role_privs;
检验用户权限设置
失效对象
SQL>select owner, object_name,object_type from dba_objects where status = ‘INVALID’
检验是否有失效对象
控制文件
SQL>select * from v$controlfile
检验控制文件
连机日志
SQL>select * from v$logfile;
检验数据库连接日志
数据文件
SQL>select * from v$datafile;
检验数据文件
回滚段
SQL> SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;
查看现有回滚段及其状态
Session
select SESSIONS_CURRENT , SESSIONS_HIGHWATER from v$license;
系统Session使用状态
字符集
select userenv('language') from dual;
字符集
共享池命中率
select round((sum(gets)-sum(reloads))/sum(gets)*100,1) "libiary cache hit ratio %" from v$librarycache where namespace in ('SQL AREA','TABLE/PROCEDURE','BODY','TRIGGER');
数据字典命中率
select round((1-sum(getmisses)/sum(gets))*100,1) "data dictionary hit ratio %" from v$rowcache;
数据缓冲区命中率
select round((1-(phy.value/(cur.value+con.value)))*100,1)||'%' ratio from v$sysstat phy,v$sysstat cur,v$sysstat con where phy.name='physical reads' and cur.name='db block gets' and con.name='consistent gets';
锁
SELECT lpad(' ',DECODE(request,0,0,1))||sid sess, id1, id2, lmode, request, type FROM V$LOCK WHERE id1 IN (SELECT id1 FROM V$LOCK WHERE lmode = 0) ORDER BY id1,request;
waits
select sid,seq#,event,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like 'SQL%' and event not like 'rdbms%';
播出部数据库系统配置信息
硬件配置
机器名
DBM01
DBS02
厂商及型号
SUN v480
SUN v480
操作系统
Sun OS
Sun OS
操作系统版本
Solaris 9
Solaris 9
内存
4 GB
4 GB
CPU数量
2
2
磁盘容量
当地
盘阵
73GB
219GB
73GB
219GB
是否使用了裸设备 (Yes/ No)
是
是
RAID方法
RAID 5+1
RAID 5+1
Oracle实例数
1
1
[RAC] 节点数
2
2
[RAC] 每节点CPU
2
2
数据库配置
实例名
GDTV1
GDTV2
服务器名
DBSERVER1
DBSERVER2
用途(oltp,dss,batch)
OLTP
OLTP
RDBMS 版本
9.2.0.1
9.2.0.1
SQL*Net版本
9.2.0.1
9.2.0.1
存放设备
STOREDGE 3310
DB_BLOCK Size
8192
数据文件个数
控制文件个数
3
日志文件大小
100M
100M
日志组数目
2
2
每组日志文件组员数量
1
1
日志文件产生频率
>10 min
>10 min
归档方法
no
no
展开阅读全文