收藏 分销(赏)

系统健康检查服务方案样本.doc

上传人:快乐****生活 文档编号:4586811 上传时间:2024-09-30 格式:DOC 页数:22 大小:245KB 下载积分:10 金币
下载 相关 举报
系统健康检查服务方案样本.doc_第1页
第1页 / 共22页
系统健康检查服务方案样本.doc_第2页
第2页 / 共22页


点击查看更多>>
资源描述
资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 设备健康检查计划 XX集团股份有限公司 目 录 前言 3 1. 服务概况 3 1.1 客户名称 3 1.2 服务时间 3 1.3 服务设备 3 1.4 服务内容 3 2. 服务前期准备工作 4 2.1XXX巡检服务的前期准备工作: 4 2.2 客户方的前期准备工作: 4 2.3 双方待讨论和协商的问题: 4 3. 服务具体计划 5 4. 应急计划 5 5.备件计划 6 6. 文档信息 6 附录 7 SUN系统巡检报告及相关命令说明 7 ORACLE数据库巡检报告及相关命令说明 7 系统配置信息 7 ORACLE 数据库系统维护检查报告 12 前言 感谢尊敬的广东XXX用户选择了XXX的服务, XXX公司秉承用户至上宗旨, 坚持以技术为先导, 严格按照项目流程和规范管理服务项目,竭诚为用户提供一流优质的服务。 本文档的主要内容是对客户信息系统进行系统健康检查( 简称: 巡检) 的计划安排。包括服务概况、 服务前期准备工作、 服务具体计划、 应急计划等等。 1. 服务概况 1.1 客户名称 广东XXX 1.2 服务时间 待定 1.3 服务设备 见设备清单 1.4 服务内容 系统健康检测维护服务的目的在于了解被巡检系统截至到当前系统的性能状态和存在的隐患和运行风险; 检查系统的运行状况、 系统配置和连接方式、 系统设置的情况、 系统使用环境的及系统的日志文件, 进行系统的自检和检测, 分析已经发现的和潜在的问题, 建议必要的措施, 提高系统的可用性和可靠性。内容包括如下: ü 检查设备使用环境是否符合要求和发生显著变更, 包括湿度、 电压、 湿度、 摆设位置等 ü 检查电源, 信号线的连接是否牢固; 检查、 清洁、 调节系统硬件, 并为需要的设备更换元件; 检查系统的硬件和系统环境配置及网络环境配置; 针对客户系统现状, 提出建议和意见。 ü 查阅有关系统信息, 检查有无出错信息, 如发现出错信息, 设法了解问题原因, 并后续给出问题的可能原因和解决建议。 ü 进行系统分析和检测, 及时掌握系统的运行和安全状况, 发现系统潜在问题, 排除故障隐患和安全 漏洞。 ü 在完成系统健康检测后, XXX服务工程师将会同XXX技术专家团队一起分析系统状况, 并内向客户提交巡检分析报告和有关改进措施建议。 2. 服务前期准备工作 2.1XXX巡检服务的前期准备工作: 1. 负责提交巡检方案, 获得客户认可 2. 负责准备巡检报告模板2份, 巡检报告模板请见附录。( 注: 一机一份, 巡检完毕后, 现场提交用户) 3. 提供服务的工程师在约定时间准时到达现场 2.2 客户方的前期准备工作: 1. 负责环境、 场地、 电源、 网线、 终端设备等准备工作。 2. 负责提供系统主机Root登陆口令( 清单) 。 3. 负责提供系统设备IP地址( 清单) 。 4. 负责下电设备的加电准备工作 5. 负责确定下电设备加电后的连网情况 2.3 双方待讨论和协商的问题: 1. Root口令以何种方式提供? 一般可采取两种方式, 一是每台设备由客户来输入Root口令, 另外一种方式是由客户事先临时修改Root口令, 提供给服务工程师, 巡检完毕后再由客户改回。 2. 下电设备加电后, 是否依然具备连网条件? 如果下电设备加电后不连接网络, 则需要采取串口直接连接主机的方式来进行巡检, 可能会影响巡检整体速度。 3. 确定巡检主机顺序? 系统健康检测不会影响在线设备的运行。 建议巡检顺序为, 首先用一台终端依次检测所有连网设备, 包括加电后能连网的设备, 其次检测所有加电后无法连网的设备。 3. 服务具体计划 任务名称 XXX责任人 客户方配合人员 计划持续时间 步骤1.现场环境勘察以及用户交流 1 服务工程师了解现场机房环境状况 服务工程师 约40分钟 2 服务工程师在开始实施巡检时, 向客户了解自前一次维护服务以来所发现的异常和问题, 并采取必要的措施 服务工程师 3 在对系统采取任何行动之前, 确保已经采取必要的数据信息保护措施, 如系统的备份或数据转存等; 服务工程师 步骤2 .巡检服务 4 服务工程师收集与所服务的系统有关的系统变更、 微码发布、 软件升级、 软件PATCH发布和系统问题的信息和资料 服务工程师 约一到二个工作日 5 依次按照巡检内容对系统设备进行逐项巡检, 并填写巡检报告 服务工程师 6 巡检过程中如果发现任何系统问题, 双方将协调处理 服务销售 7 巡检过程中如果发现任何突发事件, 请参考本文档5。 服务销售 步骤3.服务收尾工作 8 提交现场巡检报告, 客户签字 服务工程师 大约1个小时 9 请客户填写服务满意度评价表 10 双方交流 服务工程师 11 五个工作日内提交巡检分析报告 服务工程师 -- 4. 应急计划 本次巡检服务中的设备为在线系统, 理论上讲, 巡检只是对系统状态进行查看, 本身不会对系统产生影响, 只是在极少数情况下, 系统本身已经有故障隐患, 因为巡检触发, 可能会影响系统的运行, 必须经过事先充分准备,识别可能的风险,并进行规避和控制。经过以下方法来尽可能减少风险: ü 服务工程师在开始实施巡检时, 应首先向客户了解自前一次维护服务以来所发现的异常和问题, 并采取必要的措施 ü 在对系统采取任何行动之前, 应确保已经采取必要的数据信息保护措施, 如系统的备份或数据转存等; ü 服务工程师在巡检过程中记录操作步骤, 一旦发生突发问题, 也有据可查, 方便问题的定位。 ü 服务工程师在巡检过程中如果发现设备有重大问题, 必须尽快进行处理的事件, 由现场巡检工程师向本次用户通报, 由用户同XXX服务销售进行协商进行处理。 5.备件计划 针对本次健康检查服务, 我方主要提供对SUN系统以及ORACLE数据库的检查服务为主, 如果在检查过程中, 发现有备件坏, 我们会第一时间跟用户通报, 并从XXX广州备件库调相应备件进行更换; 如果备件更换处于合同覆盖范围, 我们将不收取备件费用, 如果合同未覆盖, 我们将收取备件物料成本费; 为此次检查服务准备的备件清单包含但不限于: 型号 描述 数量 Sun V480 整机 带cpu,内存,硬盘 1 X6805A 73.4GB,10000 RPM硬盘 4 ST3310 带控制器,无硬盘 1 XTA-SC1NC-73G10K 73GB,3310阵列硬盘 4 XTA-SC1NC-146G10K 73GB,3310阵列硬盘 4 6. 文档信息 本文档由XXX负责起草 附录 SUN系统巡检报告及相关命令说明 ORACLE数据库巡检报告及相关命令说明 系统配置信息 SUN系统巡检报告 日期: 年 月 日 报告编号: 客户名称 检查地点 主机型号 IP 地址 主机SN Host ID 配 置 部件 型号/数量 部件 型号/数量 CPU 主板 内存 CPU/内存板 硬盘 I/O板 显卡 存储阵列 电源 磁带驱动器 SCSI型号 外扩网卡型号 其它卡型号 系统盘Raid情况 管理软件名称 版本 RAID类型 硬 件 检查项目 结果 不正常请注明原因 检查项目 结果 不正常请注明原因 显示器 □正常 □不正常 光驱 □正常 □不正常 键盘 □正常 □不正常 软驱 □正常 □不正常 鼠标 □正常 □不正常 线缆 □正常 □不正常 磁带机 □正常 □不正常 板卡 □正常 □不正常 系 统 检查项目 内容 结果 不正常请注明原因 系统指示灯状态 Front Panel LEDS □正常 □不正常 Power Supply LEDS □正常 □不正常 Disk LEDS □正常 □不正常 System Controller Board LEDS(CPU/Memory、 I/O etc.) □正常 □不正常 系统messages信息 cd /var/adm grep WARN messages* grep error messages* grep panic messages* /var/adm/messages □正常 □不正常 /var/adm/messages.0 □正常 □不正常 /var/adm/messages.1 □正常 □不正常 /var/adm/messages.2 □正常 □不正常 /var/adm/messages.3 □正常 □不正常 硬件运行状态 /usr/platform/sun4u/sbin/prtdiag -v □正常 □不正常 文件系统利用率 df –k df –o i / 利用率 % □正常 □不正常 /usr 利用率 % □正常 □不正常 /var 利用率 % □正常 □不正常 其它分区 □正常 □不正常 Ionde利用率( 是否有空闲) □正常 □不正常 Swap分区 swap –s used k available k □正常 □不正常 CPU负载 sar 1 10 % idle □正常 □不正常 内存剩余量 vmstat 1 KBytes □正常 □不正常 I/O资源 iostat –En □正常 □不正常 网络接口流量 netstat –i 1 □正常 □不正常 网口以及IP状态 ifconfig -a □正常 □不正常 网络传输率 ping 网关(1分钟) average ms □正常 □不正常 NTP状态 ntpq -p □正常 □不正常 远程登录设置 /etc/inetd.conf ftp □开启 □关闭 telnet □开启 □关闭 进程总数 ps –ef|wc -l 个进程 核心Patch版本 uname –a 冗余软件 Disk Suite状态(没有的不填) metastat 输出结果是否正常 □正常 □不正常 metadb Metadb建立在 有 个备份 Volume Manager状态( 没有的不填) vxdisk list 输出结果是否正常 □正常 □不正常 vxdg list 有 磁盘组 Vxprint -ht 输出结果是否正常 □正常 □不正常 高可用性软件 SunCluster状态 版本 scstat 输出结果是否正常 □正常 □不正常 备注 存储 ST3310阵列 外观及指示灯 是否正常 □正常 □不正常 show-config 输出结果是否正常 □正常 □不正常 固件版本 SUN主机巡检相关命令及说明 检查项目 使用的命令及相关目录 内容及其说明 外观检查 无 检查机器的指示灯情况、 看有无故障指示 主机的总体情况 /usr/platform/sun4u/sbin/prtdiag -v 经过该命令, 能够查看到CPU的数量、 主频、 CACHE大小, 内存、 板卡、 风扇转速、 环境温度等情况 查看文件系统挂接情况 df -k 能够查看到文件系统的挂接、 使用量等情况, 如果某个文件系统使用大于85%, 则要提请注意, 大于90%则要对其进行清理, 删除废文件, 如果根文件系统使用量达到100%, 会造成系统崩溃 检查系统日志文件 grep panic /var/adm/messages* grep error /var/adm/messages* grep WARN /var/adm/messages* 检查系统的日志文件, 看有无panic、 error、 WARN等和错误有关的关键字, 其中, panic关键字一般出现在操作系统因软件或硬件故障崩溃的时候, error则是系统因软件或硬件产生了错误, WARN则相对关注级别较低, 属于警告, 这2种情况, 都要根据系统的日志提示, 进一步检查系统情况 检查CPU使用情况 sar 1 10 检查CPU的IDEL值, 越大越好, 这里给出的命令是指间隔1秒, 检查10次 交换分区使用情况 swap -s 查看交换区( 即虚拟内存) 的使用情况 内存使用情况 vmstat 1 检查内存的使用情况, 特别检查其中的剩余内存量, 如内存剩余过少, 则要检查进程及应用的情况, 如无异常, 则意味着系统需要更多的物理内存 硬盘数量及容量 format 经过该命令, 能够查看到硬盘的容量大小、 数量等情况, 硬盘及其它存储设备的情况 iostat -E 这个命令能够看到硬盘的运行情况, 包括: 厂商、 序列号, 有无运行错误等 网络情况 netstat -i 1 查看网络的包吞吐情况以及冲突、 包错误率等情况 网络的IP设置 ifconfig -a 查看系统中的IP地址设置 查看操作系统的核心版本 uname -a 该命令除了能查看到操作系统的核心版本外, 还能够查看到主机的硬件型号 主机的厂商ID号 hostid 能够查看到厂商为主机设置的唯一ID 统计系统当前进程数量 ps -ef |wc -l 能够查看到系统当前进程数量 远程登录设置 grep ftp /etc/inetd.conf grep telnet /etc/inetd.conf 能够查看系统的远程登录是否打开 网络流通情况 ping ping网络中的另一设备, 一般是缺省网关, 以检查网络的流通延时情况 检查SUN CLUSTER管理的双机系统状态 scstat 该命令能够显示SUN CLUSTER双机系统的和配置、 状态有关的信息 经过Web方式管理SUN CLUSTER双机系统 经过浏览其, 输入主机的IP地址, 端口号为3000, 能够经过Web的方式管理SUN CLUSTER双机系统 存储及冗余软件相关检查及其命令 检查项目 使用的命令及相关目录 内容及其说明 外观检查 无 检查机器的指示灯情况、 看有无故障指示 ST3x10阵列检查 无 经过串行口连接到阵列的串口, 利用其设置界菜单检查, 具体的参数为: 波特率38400, 数据位8, 停止位1, 奇偶校验无, 流控无 ST3x10阵列检查( 经过sccli工具检查) show-config 连接了ST3x10阵列的主机, 如果安装了sccli工具, 经过输入sccli命令, 选择了控制器后, 在其界面下输入的命令 用Varitas Volume Manager管理的硬盘检查其管理下硬盘的状态 vxdisk list 检查Varitas Volume Manager管理下硬盘的状态 用Varitas Volume Manager管理的硬盘检查其管理下磁盘组的状态 vxprint -ht 检查Varitas Volume Manager管理下磁盘组的状态, 包括其划分的子磁盘的、 所做的卷等的状态 用SDS管理软件管理的磁盘及其虚拟设备状态 metastat 对于用Solstice DiskSuite( SDS, 新的版本改为Solaris Volume Manager, 简称SVM) 管理的磁盘, 在操作系统下, 输入该命令, 检查其管理的磁盘以及虚拟磁盘( md) 的状态 用SDS管理软件管理的磁盘, 检查起状态数据库的状态 metadb 对于用Solstice DiskSuite( SDS, 新的版本改为Solaris Volume Manager, 简称SVM) 管理的磁盘, 在操作系统下, 输入该命令, 检查其管理数据库( 用户保存SDS的设置等) 的状态 ORACLE 数据库系统维护检查报告 报告编号: 用户基本信息 用户名称: 联系人: 电话/传真: 地址: 应用系统名称: 巡检时间: 主机厂商/型号: 操作系统/版本:   CPU数/硬件内存: 数据库服务器运行方式: Oracle产品/版本: 系统运行状况检测 序号 检测内容 检测指令 检测结果 建议 1 检查alert日志, 是否有ora错误提示 Alert文件 2 数据库名 SQL>show parameter db_name 3 实例名 SQL>show parameter instance_name 4 数据库版本 SQL>select * from v$version; 5 是否归档模式 SQL>archive log list 6 安装组件 SQL>select * from v$option; 7 初始化参数 SQL>show parameters 8 SGA区 SQL>show sga 9 用户检查 SQL>select username,account_status,default_tablespace,temporary_tablespace,created from dba_users 10 用户权限检查 SQL>select * from dba_role_privs; 11 是否存在失效对象 SQL>select owner, object_name,object_type from dba_objects where status = ‘INVALID’ 12 检查控制文件 SQL>select * from v$controlfile 13 检查联机日志 SQL>select * from v$logfile; 14 检查数据文件 SQL>select * from v$datafile; 15 查看现有回滚段及其状态 SQL> SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS; 16 是否有异常等待事例 SQL>select event,sum(decode(wait_Time,0,0,1)) "Prev",sum(decode(wait_Time,0,1,0)) "Curr",count(*) ”Tot” from v$session_Wait group by event order by 4; 17 检测连接数情况 SQL>SELECT status,count(*) "count" FROM v$session GROUP BY status; select sid,serial#,username,program,machine,status from v$session; 18 检查表空间使用情况 19 备份策略的讨论与实施 20 listener可用性检查 lsnrctl status listener.log 21 CRS进程检查 ps –df |grep d.bin 结论: 1、 alert文件: 有无错误? 2、 表空间使用情况: set linesize 300 SELECT upper(f.tablespace_name) "tablespace_name", d.Tot_grootte_Mb "tablespace(M)", d.Tot_grootte_Mb - f.total_bytes "used(M)", round((d.Tot_grootte_Mb - f.total_bytes) / d.Tot_grootte_Mb * 100,2) "use%", f.total_bytes "free_space(M)", round(f.total_bytes / d.Tot_grootte_Mb * 100,2) "free%" FROM (SELECT tablespace_name, round(SUM(bytes)/(1024*1024),2) total_bytes, round(MAX(bytes)/(1024*1024),2) max_bytes FROM sys.dba_free_space GROUP BY tablespace_name) f, (SELECT dd.tablespace_name, round(SUM(dd.bytes)/(1024*1024),2) Tot_grootte_Mb FROM sys.dba_data_files dd GROUP BY dd.tablespace_name) d WHERE d.tablespace_name = f.tablespace_name ORDER BY 4 DESC / 3、 Shared Pool Size 命中率: select round((sum(gets)-sum(reloads))/sum(gets)*100,1) "libiary cache hit ratio %" from v$librarycache where namespace in ('SQL AREA','TABLE/PROCEDURE','BODY','TRIGGER'); 4、 数据字典命中率: select round((1-sum(getmisses)/sum(gets))*100,1) "data dictionary hit ratio %" from v$rowcache; 5、 锁竞争: select substr(ln.name,1,25) Name, l.gets, l.misses, 100*(l.misses/l.gets) "% Ratio (STAY UNDER 1%)" from v$latch l, v$latchname ln where ln.name in ('cache buffers lru chain') and ln.latch# = l.latch#; 6、 排序命中率: select a.value "Sort(Disk)", b.value "Sort(Memory)", round(100*(a.value/decode((a.value+b.value), 0,1,(a.value+b.value))),2) "% Ratio (STAY UNDER 5%)" from v$sysstat a, v$sysstat b where a.name = 'sorts (disk)' and b.name = 'sorts (memory)'; 7、 数据缓冲区命中率: select round((1-(phy.value/(cur.value+con.value)))*100,1)||'%' ratio from v$sysstat phy,v$sysstat cur,v$sysstat con where phy.name='physical reads' and cur.name='db block gets' and con.name='consistent gets'; 8、 v$session_wait: select sid,seq#,event,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like 'SQL%' and event not like 'rdbms%'; 9、 回滚段的争用情况: select name, waits, gets, waits/gets "Ratio" from v$rollstat a, v$rollname b where a.usn = b.usn; 10、 无效对象情况: col OBJECT_NAME for a36 SELECT object_name, object_type,status FROM dba_objects WHERE status like 'INVALID'; 客户签名: 工程师签名: 日期: 检查项目 使用的命令及相关目录 内容及其说明 alert文件 alert XXX 在sqlplus命令行状态下, 检查日志文件, 其中XXX是只alert文件名 数据库名 SQL>show parameter db_name 显示数据库名 实例名 SQL>show parameter instance_name 显示数据库实例名 版本 SQL>select * from v$version; 显示数据库版本 归档设置 SQL>archive log list 显示归档设置, 状况 安装组件 SQL>select * from v$option; 显示已安装的组件 初始化参数 SQL>show parameters 显示初始化参数 SGA SQL>show sga 显示SGA的设置, 状态 用户 SQL>select username,account_status,default_tablespace,temporary_tablespace,created from dba_users 用户检查 权限 SQL>select * from dba_role_privs; 检查用户的权限设置 失效对象 SQL>select owner, object_name,object_type from dba_objects where status = ‘INVALID’ 检查是否有失效对象 控制文件 SQL>select * from v$controlfile 检查控制文件 连机日志 SQL>select * from v$logfile; 检查数据库的连接日志 数据文件 SQL>select * from v$datafile; 检查数据文件 回滚段 SQL> SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS; 查看现有回滚段及其状态 Session select SESSIONS_CURRENT , SESSIONS_HIGHWATER from v$license; 系统Session使用状态 字符集 select userenv('language') from dual; 字符集 共享池命中率 select round((sum(gets)-sum(reloads))/sum(gets)*100,1) "libiary cache hit ratio %" from v$librarycache where namespace in ('SQL AREA','TABLE/PROCEDURE','BODY','TRIGGER');   数据字典命中率 select round((1-sum(getmisses)/sum(gets))*100,1) "data dictionary hit ratio %" from v$rowcache;   数据缓冲区命中率 select round((1-(phy.value/(cur.value+con.value)))*100,1)||'%' ratio from v$sysstat phy,v$sysstat cur,v$sysstat con where phy.name='physical reads' and cur.name='db block gets' and con.name='consistent gets';   锁 SELECT lpad(' ',DECODE(request,0,0,1))||sid sess, id1, id2, lmode, request, type FROM V$LOCK WHERE id1 IN (SELECT id1 FROM V$LOCK WHERE lmode = 0) ORDER BY id1,request;   waits select sid,seq#,event,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like 'SQL%' and event not like 'rdbms%';   播出部数据库系统配置信息 硬件配置 机器名 DBM01 DBS02 厂商及型号 SUN v480 SUN v480 操作系统 Sun OS Sun OS 操作系统版本 Solaris 9 Solaris 9 内存 4 GB 4 GB CPU数量 2 2 磁盘容量 本地 盘阵 73GB 219GB 73GB 219GB 是否使用了裸设备 (Yes/ No) 是 是 RAID方式 RAID 5+1 RAID 5+1 Oracle实例数 1 1 [RAC] 节点数 2 2 [RAC] 每节点CPU 2 2 数据库配置 实例名 GDTV1 GDTV2 服务器名 DBSERVER1 DBSERVER2 用途( oltp,dss, batch) OLTP OLTP RDBMS 版本 9.2.0.1 9.2.0.1 SQL*Net版本 9.2.0.1 9.2.0.1 存储设备 STOREDGE 3310 DB_BLOCK Size 8192 数据文件个数 控制文件个数 3 日志文件大小 100M 100M 日志组数目 2 2 每组日志文件成员数量 1 1 日志文件产生频率 >10 min >10 min 归档方式 no no
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服