收藏 分销(赏)

系统健康检查服务专项方案.doc

上传人:a199****6536 文档编号:3027712 上传时间:2024-06-13 格式:DOC 页数:19 大小:241.04KB
下载 相关 举报
系统健康检查服务专项方案.doc_第1页
第1页 / 共19页
系统健康检查服务专项方案.doc_第2页
第2页 / 共19页
系统健康检查服务专项方案.doc_第3页
第3页 / 共19页
系统健康检查服务专项方案.doc_第4页
第4页 / 共19页
系统健康检查服务专项方案.doc_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、设备健康检验计划XX集团股份 目 录序言31. 服务概况31.1 用户名称31.2 服务时间31.3 服务设备31.4 服务内容32. 服务前期准备工作42.1XXX巡检服务前期准备工作:42.2 用户方前期准备工作:42.3 双方待讨论和协商问题:43. 服务具体计划54. 应急计划55备件计划66. 文档信息6附录7SUN系统巡检汇报及相关命令说明7ORACLE数据库巡检汇报及相关命令说明7系统配置信息7ORACLE 数据库系统维护检验汇报12序言感谢尊敬广东XXX用户选择了XXX服务,XXX企业秉承用户至上宗旨,坚持以技术为先导,严格根据项目步骤和规范管理服务项目,竭诚为用户提供一流优质

2、服务。本文档关键内容是对用户信息系统进行系统健康检验(简称:巡检)计划安排。包含服务概况、服务前期准备工作、服务具体计划、应急计划等等。1. 服务概况1.1 用户名称广东XXX1.2 服务时间待定1.3 服务设备见设备清单1.4 服务内容系统健康检测维护服务目标在于了解被巡检系统截至到现在系统性能状态和存在隐患和运行风险;检验系统运行情况、系统配置和连接方法、系统设置情况、系统使用环境及系统日志文件,进行系统自检和检测,分析已经发觉和潜在问题,提议必需方法,提升系统可用性和可靠性。内容包含以下: 检验设备使用环境是否符合要求和发生显著变更,包含湿度、电压、湿度、摆设位置等 检验电源,信号线连接

3、是否牢靠;检验、清洁、调整系统硬件,并为需要设备更换元件;检验系统硬件和系统环境配置及网络环境配置;针对用户系统现实状况,提出提议和意见。 查阅相关系统信息,检验有没有犯错信息,如发觉犯错信息,设法了解问题原因,并后续给出问题可能原因和处理提议。 进行系统分析和检测,立即掌握系统运行和安全情况,发觉系统潜在问题,排除故障隐患和安全漏洞。 在完成系统健康检测后,XXX服务工程师将会同XXX技术教授团体一起分析系统情况,并内向用户提交巡检分析汇报和相关改善方法提议。 2. 服务前期准备工作2.1XXX巡检服务前期准备工作:1 负责提交巡检方案,取得用户认可2 负责准备巡检汇报模板2份,巡检汇报模板

4、请见附录。(注:一机一份,巡检完成后,现场提交用户)3 提供服务工程师在约定时间按时抵达现场2.2 用户方前期准备工作:1 负责环境、场地、电源、网线、终端设备等准备工作。2 负责提供系统主机Root登陆口令(清单)。3 负责提供系统设备IP地址(清单)。4 负责下电设备加电准备工作5 负责确定下电设备加电后连网情况2.3 双方待讨论和协商问题:1 Root口令以何种方法提供?通常可采取两种方法,一是每台设备由用户来输入Root口令,另外一个方法是由用户事先临时修改Root口令,提供给服务工程师,巡检完成后再由用户改回。2 下电设备加电后,是否仍然含有连网条件?假如下电设备加电后不连接网络,则

5、需要采取串口直接连接主机方法来进行巡检,可能会影响巡检整体速度。3 确定巡检主机次序?系统健康检测不会影响在线设备运行。提议巡检次序为,首先用一台终端依次检测全部连网设备,包含加电后能连网设备,其次检测全部加电后无法连网设备。3. 服务具体计划任务名称XXX责任人用户方配合人员计划连续时间步骤1.现场环境勘察和用户交流1服务工程师了解现场机房环境情况服务工程师约40分钟2服务工程师在开始实施巡检时,向用户了解自前一次维护服务以来所发觉异常和问题,并采取必需方法服务工程师3在对系统采取任何行动之前,确保已经采取必需数据信息保护方法,如系统备份或数据转存等;服务工程师步骤2 .巡检服务4服务工程师

6、搜集和所服务系统相关系统变更、微码公布、软件升级、软件PATCH公布和系统问题信息和资料服务工程师约一到二个工作日5依次根据巡检内容对系统设备进行逐项巡检,并填写巡检汇报服务工程师6巡检过程中假如发觉任何系统问题,双方将协调处理服务销售7巡检过程中假如发觉任何突发事件,请参考本文档5。服务销售步骤3.服务收尾工作8提交现场巡检汇报,用户签字服务工程师大约1个小时9请用户填写服务满意度评价表10双方交流服务工程师11五个工作日内提交巡检分析汇报服务工程师-4. 应急计划此次巡检服务中设备为在线系统,理论上讲,巡检只是对系统状态进行查看,本身不会对系统产生影响,只是在极少数情况下,系统本身已经有故

7、障隐患,因为巡检触发,可能会影响系统运行,必需经过事先充足准备,识别可能风险,并进行规避和控制。经过以下方法来尽可能降低风险: 服务工程师在开始实施巡检时,应首先向用户了解自前一次维护服务以来所发觉异常和问题,并采取必需方法 在对系统采取任何行动之前,应确保已经采取必需数据信息保护方法,如系统备份或数据转存等; 服务工程师在巡检过程中统计操作步骤,一旦发生突发问题,也有据可查,方便问题定位。 服务工程师在巡检过程中假如发觉设备有重大问题,必需立即进行处理事件,由现场巡检工程师向此次用户通报,由用户同XXX服务销售进行协商进行处理。5备件计划针对此次健康检验服务,我方关键提供对SUN系统和ORA

8、CLE数据库检验服务为主,假如在检验过程中,发觉有备件坏,我们会第一时间跟用户通报,并从XXX广州备件库调对应备件进行更换;假如备件更换处于协议覆盖范围,我们将不收取备件费用,假如协议未覆盖,我们将收取备件物料成本费;为此次检验服务准备备件清单包含但不限于:型号描述数量Sun V480 整机带cpu,内存,硬盘1X6805A73.4GB,10000 RPM硬盘4ST3310带控制器,无硬盘1XTA-SC1NC-73G10K73GB,3310阵列硬盘4XTA-SC1NC-146G10K73GB,3310阵列硬盘46. 文档信息 本文档由XXX负责起草 附录 SUN系统巡检汇报及相关命令说明ORA

9、CLE数据库巡检汇报及相关命令说明系统配置信息 SUN系统巡检汇报日期:年 月 日汇报编号: 用户名称检验地点主机型号IP 地址主机SNHost ID配置部件型号/数量部件型号/数量CPU主板内存CPU/内存板硬盘I/O板显卡存放阵列电源磁带驱动器SCSI型号外扩网卡型号其它卡型号系统盘Raid情况管理软件名称版本RAID类型硬件检验项目结果不正常请注明原因检验项目结果不正常请注明原因显示器正常 不正常光驱正常 不正常键盘正常 不正常软驱正常 不正常鼠标正常 不正常线缆正常 不正常磁带机正常 不正常板卡正常 不正常系统检验项目内容结果不正常请注明原因系统指示灯状态Front Panel LED

10、S正常 不正常Power Supply LEDS正常 不正常Disk LEDS正常 不正常System Controller Board LEDS(CPU/Memory、I/O etc.)正常 不正常系统messages信息cd /var/admgrep WARN messages*grep error messages*grep panic messages*/var/adm/messages正常 不正常/var/adm/messages.0正常 不正常/var/adm/messages.1正常 不正常/var/adm/messages.2正常 不正常/var/adm/messages.3正

11、常 不正常硬件运行状态/usr/platform/sun4u/sbin/prtdiag -v正常 不正常文件系统利用率df kdf o i/ 利用率 %正常 不正常/usr 利用率 %正常 不正常/var 利用率 %正常 不正常其它分区正常 不正常Ionde利用率(是否有空闲)正常 不正常Swap分区swap sused k available k正常 不正常CPU负载sar 1 10 % idle正常 不正常内存剩下量vmstat 1 KBytes正常 不正常I/O资源iostat En正常 不正常网络接口流量netstat i 1正常 不正常网口和IP状态ifconfig -a正常 不正常

12、网络传输率ping 网关(1分钟)average ms正常 不正常NTP状态ntpq -p正常 不正常远程登录设置/etc/inetd.confftp开启 关闭telnet开启 关闭进程总数ps ef|wc -l 个进程关键Patch版本uname a冗余软件Disk Suite状态(没有不填)metastat输出结果是否正常正常 不正常metadbMetadb建立在 有 个备份 Volume Manager状态(没有不填)vxdisk list输出结果是否正常正常 不正常vxdg list有 磁盘组 Vxprint -ht输出结果是否正常正常 不正常高可用性软件SunCluster状态版本s

13、cstat 输出结果是否正常正常 不正常备注存放ST3310阵列外观及指示灯是否正常正常 不正常show-config输出结果是否正常正常 不正常固件版本SUN主机巡检相关命令及说明检验项目使用命令及相关目录内容及其说明外观检验无检验机器指示灯情况、看有没有故障指示主机总体情况/usr/platform/sun4u/sbin/prtdiag -v经过该命令,能够查看到CPU数量、主频、CACHE大小,内存、板卡、风扇转速、环境温度等情况查看文件系统挂接情况df -k能够查看到文件系统挂接、使用量等情况,假如某个文件系统使用大于85%,则要提请注意,大于90%则要对其进行清理,删除废文件,假如根

14、文件系统使用量达成100%,会造成系统瓦解检验系统日志文件grep panic /var/adm/messages* grep error /var/adm/messages* grep WARN /var/adm/messages*检验系统日志文件,看有没有panic、error、WARN等和错误相关关键字,其中,panic关键字通常出现在操作系统因软件或硬件故障瓦解时候,error则是系统因软件或硬件产生了错误,WARN则相对关注等级较低,属于警告,这2种情况,全部要依据系统日志提醒,深入检验系统情况检验CPU使用情况sar 1 10检验CPUIDEL值,越大越好,这里给出命令是指间隔1秒

15、,检验10次交换分区使用情况swap -s查看交换区(即虚拟内存)使用情况内存使用情况vmstat 1检验内存使用情况,尤其检验其中剩下内存量,如内存剩下过少,则要检验进程及应用情况,如无异常,则意味着系统需要更多物理内存硬盘数量及容量format经过该命令,能够查看到硬盘容量大小、数量等情况,硬盘及其它存放设备情况iostat -E这个命令能够看到硬盘运行情况,包含:厂商、序列号,有没有运行错误等网络情况netstat -i 1查看网络包吞吐情况和冲突、包错误率等情况网络IP设置ifconfig -a查看系统中IP地址设置查看操作系统关键版本uname -a该命令除了能查看到操作系统关键版本

16、外,还能够查看到主机硬件型号主机厂商ID号hostid能够查看到厂商为主机设置唯一ID统计系统目前进程数量ps -ef |wc -l能够查看到系统目前进程数量远程登录设置grep ftp /etc/inetd.conf grep telnet /etc/inetd.conf能够查看系统远程登录是否打开网络流通情况pingping网络中另一设备,通常是缺省网关,以检验网络流通延时情况检验SUN CLUSTER管理双机系统状态scstat该命令能够显示SUN CLUSTER双机系统和配置、状态相关信息经过Web方法管理SUN CLUSTER双机系统经过浏览其,输入主机IP地址,端口号为3000,能

17、够经过Web方法管理SUN CLUSTER双机系统存放及冗余软件相关检验及其命令检验项目使用命令及相关目录内容及其说明外观检验无检验机器指示灯情况、看有没有故障指示ST3x10阵列检验无经过串行口连接到阵列串口,利用其设置界菜单检验,具体参数为:波特率38400,数据位8,停止位1,奇偶校验无,流控无ST3x10阵列检验(经过sccli工具检验)show-config连接了ST3x10阵列主机,假如安装了sccli工具,经过输入sccli命令,选择了控制器后,在其界面下输入命令用Varitas Volume Manager管理硬盘检验其管理下硬盘状态vxdisk list检验Varitas V

18、olume Manager管理下硬盘状态用Varitas Volume Manager管理硬盘检验其管理下磁盘组状态vxprint -ht检验Varitas Volume Manager管理下磁盘组状态, 包含其划分子磁盘、所做卷等状态用SDS管理软件管理磁盘及其虚拟设备状态metastat对于用Solstice DiskSuite(SDS,新版本改为Solaris Volume Manager,简称SVM)管理磁盘,在操作系统下,输入该命令,检验其管理磁盘和虚拟磁盘(md)状态用SDS管理软件管理磁盘,检验起状态数据库状态metadb对于用Solstice DiskSuite(SDS,新版本

19、改为Solaris Volume Manager,简称SVM)管理磁盘,在操作系统下,输入该命令,检验其管理数据库(用户保留SDS设置等)状态ORACLE 数据库系统维护检验汇报汇报编号: 用户基础信息用户名称:联络人:电话/传真:地址:应用系统名称: 巡检时间: 主机厂商/型号: 操作系统/版本:CPU数/硬件内存:数据库服务器运行方法:Oracle产品/版本:系统运行情况检测序号检测内容检测指令检测结果提议1检验alert日志,是否有ora错误提醒Alert文件2数据库名SQLshow parameter db_name3实例名SQLshow parameter instance_name

20、4数据库版本SQLselect * from v$version;5是否归档模式SQLarchive log list6安装组件SQLselect * from v$option;7初始化参数SQLshow parameters8SGA区SQLshow sga9用户检验SQLselect username,account_status,default_tablespace,temporary_tablespace,created from dba_users10用户权限检验SQLselect * from dba_role_privs;11是否存在失效对象SQLselect owner, ob

21、ject_name,object_type from dba_objects where status = INVALID12检验控制文件SQLselect * from v$controlfile13检验联机日志SQLselect * from v$logfile; 14检验数据文件SQLselect * from v$datafile;15查看现有回滚段及其状态SQL SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;16是否有异常等候事例SQLselect

22、event,sum(decode(wait_Time,0,0,1) Prev,sum(decode(wait_Time,0,1,0) Curr,count(*) “Tot” from v$session_Wait group by event order by 4;17检测连接数情况SQLSELECT status,count(*) count FROM v$session GROUP BY status;select sid,serial#,username,program,machine,status from v$session;18检验表空间使用情况19备份策略讨论和实施20liste

23、ner可用性检验lsnrctl statuslistener.log21CRS进程检验ps df |grep d.bin结论:1、 alert文件:有没有错误?2、 表空间使用情况:set linesize 300SELECT upper(f.tablespace_name) tablespace_name, d.Tot_grootte_Mb tablespace(M), d.Tot_grootte_Mb - f.total_bytes used(M), round(d.Tot_grootte_Mb - f.total_bytes) / d.Tot_grootte_Mb * 100,2) us

24、e%, f.total_bytes free_space(M), round(f.total_bytes / d.Tot_grootte_Mb * 100,2) free% FROM (SELECT tablespace_name, round(SUM(bytes)/(1024*1024),2) total_bytes, round(MAX(bytes)/(1024*1024),2) max_bytes FROM sys.dba_free_space GROUP BY tablespace_name) f, (SELECT dd.tablespace_name, round(SUM(dd.by

25、tes)/(1024*1024),2) Tot_grootte_Mb FROM sys.dba_data_files dd GROUP BY dd.tablespace_name) dWHERE d.tablespace_name = f.tablespace_name ORDER BY 4 DESC/3、 Shared Pool Size 命中率:select round(sum(gets)-sum(reloads)/sum(gets)*100,1) libiary cache hit ratio %from v$librarycache where namespacein (SQL ARE

26、A,TABLE/PROCEDURE,BODY,TRIGGER);4、 数据字典命中率:select round(1-sum(getmisses)/sum(gets)*100,1) data dictionary hit ratio %from v$rowcache;5、 锁竞争:select substr(ln.name,1,25) Name, l.gets, l.misses, 100*(l.misses/l.gets) % Ratio (STAY UNDER 1%) from v$latch l, v$latchname ln where ln.name in (cache buffers

27、 lru chain) and ln.latch# = l.latch#;6、 排序命中率:select a.value Sort(Disk), b.value Sort(Memory),round(100*(a.value/decode(a.value+b.value), 0,1,(a.value+b.value),2) % Ratio (STAY UNDER 5%) from v$sysstat a, v$sysstat bwhere a.name = sorts (disk)and b.name = sorts (memory);7、 数据缓冲区命中率:select round(1-(p

28、hy.value/(cur.value+con.value)*100,1)|% ratio from v$sysstat phy,v$sysstat cur,v$sysstat conwhere phy.name=physical reads and cur.name=db block gets and con.name=consistent gets;8、 v$session_wait:select sid,seq#,event,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like SQL% and event

29、not like rdbms%;9、 回滚段争用情况:select name, waits, gets, waits/gets Ratiofrom v$rollstat a, v$rollname bwhere a.usn = b.usn;10、 无效对象情况:col OBJECT_NAME for a36SELECT object_name, object_type,status FROM dba_objects WHERE status like INVALID;用户署名: 工程师署名: 日期: 检验项目使用命令及相关目录内容及其说明alert文件alert XXX在sqlplus命令行状

30、态下,检验日志文件,其中XXX是只alert文件名数据库名SQLshow parameter db_name显示数据库名实例名SQLshow parameter instance_name显示数据库实例名版本SQLselect * from v$version;显示数据库版本归档设置SQLarchive log list显示归档设置,情况安装组件SQLselect * from v$option;显示已安装组件初始化参数SQLshow parameters显示初始化参数SGASQLshow sga显示SGA设置,状态用户SQLselect username,account_status,def

31、ault_tablespace,temporary_tablespace,created from dba_users用户检验权限SQLselect * from dba_role_privs;检验用户权限设置失效对象SQLselect owner, object_name,object_type from dba_objects where status = INVALID检验是否有失效对象控制文件SQLselect * from v$controlfile检验控制文件连机日志SQLselect * from v$logfile;检验数据库连接日志数据文件SQLselect * from v

32、$datafile;检验数据文件回滚段SQL SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;查看现有回滚段及其状态Sessionselect SESSIONS_CURRENT , SESSIONS_HIGHWATER from v$license;系统Session使用状态字符集select userenv(language) from dual; 字符集共享池命中率select round(sum(gets)-sum(reloads)/sum(gets)*1

33、00,1) libiary cache hit ratio % from v$librarycache where namespace in (SQL AREA,TABLE/PROCEDURE,BODY,TRIGGER);数据字典命中率select round(1-sum(getmisses)/sum(gets)*100,1) data dictionary hit ratio % from v$rowcache;数据缓冲区命中率select round(1-(phy.value/(cur.value+con.value)*100,1)|% ratio from v$sysstat phy,v

34、$sysstat cur,v$sysstat con where phy.name=physical reads and cur.name=db block gets and con.name=consistent gets;锁SELECT lpad( ,DECODE(request,0,0,1)|sid sess, id1, id2, lmode, request, type FROM V$LOCK WHERE id1 IN (SELECT id1 FROM V$LOCK WHERE lmode = 0) ORDER BY id1,request;waitsselect sid,seq#,e

35、vent,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like SQL% and event not like rdbms%;播出部数据库系统配置信息 硬件配置机器名DBM01DBS02厂商及型号SUN v480SUN v480操作系统Sun OSSun OS操作系统版本Solaris 9Solaris 9内存 4 GB4 GBCPU数量22磁盘容量 当地盘阵73GB 219GB 73GB 219GB 是否使用了裸设备 (Yes/ No)是是RAID方法RAID 5+1RAID 5+1Oracle实例数11RAC 节点数22RAC 每节点CPU22 数据库配置实例名GDTV1GDTV2服务器名DBSERVER1DBSERVER2用途(oltp,dss,batch)OLTPOLTPRDBMS 版本9.2.0.19.2.0.1SQL*Net版本9.2.0.19.2.0.1存放设备STOREDGE 3310 DB_BLOCK Size8192数据文件个数控制文件个数3日志文件大小100M100M日志组数目22每组日志文件组员数量11日志文件产生频率10 min10 min归档方法nono

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服