1、服务器及网络系统维护方案软件系统-11-51 保障维护目标信息化建设管理中心机房是各分企业综合信息网络枢纽,包含多个关键业务系统,同时各个业务网点也运行着多个IT设备,保障这些系统及相关硬件设备正常运行并对外提供服务是方案关键内容。信息化建设管理中心机房(以下简称中心机房)中包含各个收费系统,关键网络设备等多个关键业务系统,系统稳定性、高效性、可靠性很关键。同时各个分支机构(以下简称分支机构)均包含大量网络设备或服务器等IT设备。以上设备原价值超出3000万元,中心机房收费系统等系统中有效数据总和近1TB,价值无法估量。伴随集团业务发展和信息技术不停进步,中心机房和各分支机构对信息系统和IT设
2、备稳定要求越来越高。集团IT设备中,大部分设备使用年限均超出了设备原厂保修期,基于集团现在信息设备维护技术力量和人员配置,远远不能满足这种需求,这种缺乏专业维护所致系统宕机及数据丢失隐患将会严重影响集团在全市业务工作开展。维持中心网络设备正常运转,为集团愈加好为广大北京市民进行服务提供高效、稳定、可靠信息平台和技术保障,有利于提升集团工作质量、工作效率及良好社会服务形象,从而愈加好为广大市民服务。2 保障维护内容2.1 服务器及存放硬件维护在现场进行维护软件工程师,依据设备不一样情况采取合适维护服务方法,关键包含:1) 对系统错误进行统计、分析,并实施故障诊疗 2) 通知相关责任人携带备件立即
3、进行现场维修、更换 3) 对系统板卡、设备微代码升级 4) 采取系统检测诊疗(Diagnostic Online/Offline) 5) 对设备实施定时预防性维护 6) 提供设备维护、维修统计和汇报 7) 教导掌握系统基础操作,并给技术支持 8) 为用户提供技术培训、进行经验传授 为了愈加好保障集团系统硬件稳定运行,我们将在设备保修基础上再为以下关键服务器设备购置IBM原厂保修服务,经过双重设备保修,保障集团关键服务器设备硬件故障得到最快速最有效保障。设备型号设备类型用途备注P561小型机银企互联络统数据库服务器ORACLE RACP561小型机银企互联络统数据库服务器ORACLE RAC2.
4、2 操作系统及软件维护操作系统类型软件维护内容关键包含:一、系统运行情况检验1) 了解系统运行情况2) 处理用户系统软件问题3) 系统运行情况分析4) 用户同意前提下安装修正性软件(补丁)。对于特定系统安全性修正性软件和IBM紧急要求系统修正性软件可能会被随时安装5) 提供和系统软件相关技术支持及咨询二、远程技术支持服务将经过电话和/或其它远程方法帮助集团处理或解答以下和系统相关日常运行、安装和使用等问题:1) 系统软件故障处理2) 系统软件使用问题解答3) 远程安装单个PTF或FixPack4) 远程在线诊疗三、现场技术支持 对于经过上述远程技术支持服务方法未能处理或解答问题,将安排工程师提
5、供现场支持。四、提供修正性软件(PTF或Servicepack)依据实际情况,为用户无偿提供修正性软件(PTF或Servicepack)。五、系统性能监测应集团要求,能够利用性能监测软件,每个月或每三个月为用户提供性能分析汇报。汇报内容包含:1) Executive Summary2) Management Summary3) Response Time4) Response Time, Local Terminal5) Response Time, PC6) Transaction Volumes7) Transaction Analysis8) Jobs9) Print Outs10) P
6、rocessor Utilization11) Processor Utilization, Trend12) Memory13) Disk Space Usage14) Disk Arms Utilization15) Communication Lines16) Additional Facts六、系统小版本(Release)升级在集团取得正当系统升级软件后,软件将无偿帮助其进行系统小版本(Release)升级 。七、其它服务内容1) 提供系统软件操作方面 二十四小时电话答疑 2) 提供系统维护、调整及安全性设置等方面技术支持 3) 对系统软件错误进行统计、分析,为操作系统做故障诊疗 4)
7、 实施系统增强和修补程序(ServicePacks & MaintenanceLevel)分发、安装和测试 5) 教导掌握系统软件基础操作,并给技术支持 6) 对系统软件运行实施定时预防性维护和检验 7) 提供系统优化和性能调整 8) 提供设备维护、维修统计和汇报2.3 数据库系统软件维护数据库类型软件维护内容关键包含:一、系统运行情况检验1) 了解系统运行情况2) 处理用户系统软件问题3) 系统运行情况分析4) 用户同意前提下安装数据库补丁。对于特定数据库补丁和紧急修正性补丁可能会被随时安装5) 提供和数据库软件相关技术支持及咨询二、远程技术支持服务将经过电话和/或其它远程方法帮助集团处理或
8、解答以下和系统相关日常运行、安装和使用等问题:1) 数据库软件故障处理2) 数据库软件使用问题解答3) 远程在线诊疗三、现场技术支持 对于经过上述远程技术支持服务方法未能处理或解答问题,将安排工程师提供现场支持。四、提供数据库补丁依据实际情况,为用户无偿提供数据库补丁。五、系统性能监测应集团要求,能够利用性能监测软件,每个月或每三个月为用户提供数据库性能分析汇报。汇报内容包含:1) Executive Summary2) Management Summary3) Response Time4) Response Time, Local Terminal5) Response Time, PC6
9、) Transaction Volumes7) Transaction Analysis8) Jobs9) Print Outs10) Processor Utilization11) Processor Utilization, Trend12) Memory13) Table Space Usage14) TOP SQLs六、数据库小版本(Release)升级在集团取得正当系统升级软件后,软件将无偿帮助其进行数据库小版本(Release)升级。七、其它服务内容1) 制订并实施数据库系统维护计划;2) 数据库系统维护;3) 数据库系统性能调优;4) 数据库平台维护等;5) 数据灾难恢复;6)
10、 数据库系统升级;7) 定时和不定时撰写数据库运行维护汇报等。2.4 网络设备维护网络设备维护内容关键包含:一、设备运行情况检验1) 了解设备运行情况2) 处理网络设备使用问题3) 设备系统运行情况分析4) 用户同意前提下升级网络操作系统或固件版本。对于特定IOS或firmware补丁和紧急修正性补丁可能会被随时安装5) 提供和网络设备相关技术支持及咨询二、远程技术支持服务将经过电话和/或其它远程方法帮助集团处理或解答以下和系统相关日常运行、安装和使用等问题:1) 网络设备故障处理2) 网络设备使用问题解答3) 远程在线诊疗三、现场技术支持 对于经过上述远程技术支持服务方法未能处理或解答问题,
11、将安排工程师提供现场支持。四、提供网络系统补丁依据实际情况,为用户无偿提供网络系统补丁或固件升级。五、网络系统性能监测应集团要求,能够利用性能监测软件,每个月或每三个月为用户提供数据库性能分析汇报。汇报内容包含:1) Executive Summary2) Management Summary3) Service Customer Report4) Business Unit Report5) Service Level Report6) Communications Transport Report7) Transaction Analysis8) Processor Utilization
12、9) Processor Utilization, Trend10) Memory六、网络系统版本(Release)升级在集团取得正当网络系统升级软件后,软件将无偿帮助其进行版本(Release)升级。七、其它服务内容1) 维护计划制订;2) 网络设备安全性维护;3) 网络故障处理;4) 网络性能监测;5) 网络线路维护;6) 网络设备系统升级;7) 定时和不定时撰写网络系统运行汇报等。2.5 系统巡检服务软件依据用户要求,每七天对集团全部维护服务对象,包含服务器、存放设备、网络设备和系统等各项软硬件进行巡检工作以保障系统稳定运行,提前发觉问题和故障。2.5.1 服务器及存放硬件巡检内容1外部
13、环境检验机房环境:温度是否符合要求(1040): 符合要求 不符合 湿度是否符合要求(8%80%): 符合要求 不符合 电源参数:相 电 压: 符合要求 不符合 线 电 压: 符合要求 不符合 零地电压: 符合要求 不符合 2系统硬件运行情况控制面板是否正常: 正常 不正常 钥匙是否妥善保留: 是 否 电源情况: 正常 不正常 风扇转动情况: 正常 不正常 是否有备份电池寿命报警: 是 否 检验设备故障灯是否有亮: 有 无 有否异常情况(如硬盘、风扇异常声音,电缆破损): 有 无备注: 3检验磁盘阵列(如:DS4700)情况,并填写下表:序列号 硬盘数量 硬盘容量 硬盘微码 有没有Hot Sp
14、are 何种数据保护 Fast-Write Cache 是否打开2.5.2 操作系统巡检内容r Windows巡检内容1操作系统环境操作系统版本: 补丁(Service Packs)版本: 系统软件包情况: 安装病毒软件型号和版本: 运行应用软件型号和版本: 2系统运行状态CPU使用率是否连续大于70%: 是 否 硬盘使用率 是否大于80%: 是 否 系统日志有没有需要修复错误: 是 否 有否合符要求系统备份: 是 否 最近一次系统备份时间: 检验各网卡状态、IP 地址、路由表等: 正常 不正常检验通信状态: 正常 不正常 病毒库是否最新: 是 否 应用服务是否正常: 是 否 Administ
15、rator密码是否妥善保管: 是 否 是否连接磁盘阵列: 是 否 磁盘阵列空间使用情况: r AIX巡检内容1操作系统环境操作系统版本: 补丁(Service Packs和Maintenance Level)版本: 系统软件包情况: 2系统运行状态有否硬件故障: 有 无 (硬件故障检测命令:# errpt -d H -T PERM)有否软件故障: 有 无 (软件故障检测命令:# errpt -d S -T PERM)有否发给root 错误汇报: 有 无 (检验命令:#mail)CPU使用率是否连续大于70%: 是 否 (检验命令:#sar 1 10)硬盘使用率 是否大于80%: 是 否 是否大
16、数据读写全部集中在一些硬盘上: 是 否 (检验命令:#iostat 1)是否有“stale”状态逻辑卷: 是 否 (检验命令:#lsvg l )交换分区使用率是否超出70%: 是 否 (检验命令:#lsps s)有否合符要求系统备份: 是 否 最近一次系统备份时间: 磁带机是否需要清洗: 需要 不需要(“usr/lpp/diagnostics/bin/utape cd rmt0 n”查看磁带机使用时数)检验各网卡状态、IP 地址、路由表等: 正常 不正常检验通信状态: 正常 不正常 (测试命令:#ping ip address)3检测诊疗机器shutdown 后以慢开启方法作自检,开启后运行d
17、iag 系统诊疗程序。系统板、CPU、内存、I/O 板: 正常 不正常网卡、SCSI 卡、SSA 卡: 正常 不正常系统其它扩展卡: 正常 不正常硬盘、磁盘阵列: 正常 不正常磁带机、磁带库: 正常 不正常诊疗步骤:1)#diag2)Enter 3)选择Diagnostic Routines 4)选择System Verification 5)选择All Resources 6)按F7 输出判定: 结果应为No trouble was found。r AS400巡检内容1系统统计信息Problem Log中是否有必需处理硬件故障统计 是 否 PAL中是否有必需处理硬件故障统计 是 否 SAL中
18、是否有必需处理硬件故障统计 是 否 是否有其它异常信息 是 否 是否需要安装和硬件相关PTF 是 否 2操作系统环境操作系统版本: PTF版本:HIPER CUM DB2 是否提议安装新PTF: 是 否 特许程序情况: 正常 不正常 3系统处理能力表现CPU使用率是否连续大于70% 是 否 硬盘使用率 是否大于80% 是 否 系统临时空间占用是否连续增加 是 否 系统中总作业数 是否过多 是 否 全部活动作业是否正常 是 否 系统作业是否有异常Joblog 是 否 Spool file数量 ,提议清理? 是 否 处理器性能是否被搜集? 是 否 4系统备份和数据保护是否有硬盘数据保护,如:RAI
19、D/Mirror RAID Mirror 无保护 是否有十二个月内,系统最终一次改变后全备份 是 否 是否有十二个月内,系统最终一次改变后SAVSYS 是 否 是否天天备份用户数据 是 否 是否备份系统配置 是 否 备份磁带是否异地保留 是 否 是否有双机备份,状态是否正常 是 否 OS/400 QSECOFR密码是否妥善保管 是 否 SST/DST QSECOFR密码是否妥善保管 是 否 2.5.3 数据库巡检内容r DB2巡检内容1日常维护内容检验管理服务器是否开启: 是 否 检验DB2实例是否开启: 是 否 表空间状态是否正常: 正常 不正常 表和索引状态是否正常: 正常 不正常 磁盘空
20、间是否正常: 正常 不正常 存放管理软件是否正常: 正常 不正常 数据库备份是否正常: 正常 不正常 归档日志是否正常: 正常 不正常 缓冲池命中率是否正常: 大于95% 低于95% 目前运行最频繁SQL命中率: 大于95% 低于95% 是否有死锁情况: 是 否 表是否需要重组: 是 否 2月巡检内容数据库补丁等级: DB2日志是否正常,有没有Critical错误: 是 否 备份和日志是否保留完好: 是 否 数据库性能抓取: 正常 不正常 r Oracle巡检内容1日常维护内容检验管理服务器是否开启: 是 否 检验Oracle实例是否开启: 是 否 检验Oracle Rac服务进程是否正常:
21、是 否 表空间状态是否正常: 正常 不正常 表和索引状态是否正常: 正常 不正常 磁盘空间是否正常: 正常 不正常 存放管理软件是否正常: 正常 不正常 数据库备份是否正常: 正常 不正常 归档日志是否正常: 正常 不正常 缓冲池命中率是否正常: 大于95% 低于95% 目前运行最频繁SQL命中率: 大于95% 低于95% 是否有死锁情况: 是 否 表是否需要重组: 是 否 2月巡检内容数据库补丁等级: Oracle日志是否正常,有没有Critical错误: 是 否 备份和日志是否保留完好: 是 否 数据库性能抓取: 正常 不正常 2.5.4 网络设备巡检内容r 交换机巡检内容1硬件设备检验项
22、引擎状态指示灯是否正常: 是 否 模块状态指示灯是否正常: 是 否 端口状态指示灯是否正常: 是 否 CPU利用率是否正常: 正常 不正常 内存利用率是否正常: 正常 不正常 Buffer分配是否正常: 正常 不正常 Crash分析是否正常: 正常 不正常 有没有显著异常Log: 正常 不正常 冗余引擎是否正常: 正常 不正常 冗余电源是否正常: 正常 不正常 2交换机链路层检验项Spantree配置是否正常: 正常 不正常 管理VLAN配置是否正常: 正常 不正常 Trunk配置是否正确: 正常 不正常 VTP配置类型: 交换机管理端口配置: 交换机管理界面是否正常访问: 是 否 配置信息备
23、份和日志是否保留完好: 是 否 r 防火墙巡检内容1硬件设备检验项引擎状态指示灯是否正常: 是 否 模块状态指示灯是否正常: 是 否 端口状态指示灯是否正常: 是 否 CPU利用率是否正常: 正常 不正常 内存利用率是否正常: 正常 不正常 Buffer分配是否正常: 正常 不正常 Crash分析是否正常: 正常 不正常 有没有显著异常Log: 正常 不正常 冗余引擎是否正常: 正常 不正常 冗余电源是否正常: 正常 不正常 2防火墙检验项NAT和静态路由配置是否正常: 正常 不正常 访问规则配置是否正确: 正常 不正常 防火墙管理端口配置: 防火墙管理界面是否正常访问: 是 否 配置信息备份
24、和日志是否保留完好: 是 否 3 巡检汇报3.1 硬件环境巡检汇报机房地点用户名称机柜数量服务器数量外部环境:温度是否符合要求 符合要求 不符合湿度是否符合要求 符合要求 不符合电源参数:检测项目结果参考值相 电 压 符合要求 不符合线 电 压 符合要求 不符合零地电压 符合要求 不符合硬件运行情况:控制面板是否正常 正常 不正常钥匙是否妥善保留 正常 不正常服务器电源情况 正常 不正常风扇转动情况 正常 不正常是否有备份电池寿命报警 正常 不正常检验设备故障灯是否有亮 正常 不正常有否异常情况 正常 不正常如硬盘、风扇异常声音,电缆破损3.2 服务器巡检汇报r AIX小型机巡检汇报主机名业务
25、范围主机型号序列号硬件配置:CPU、内存硬盘RAID方法RAID0RAID1RAID5OS版本系统环境检验表检测项目结果参考值硬件故障 有 无软件故障 有 无root 错误汇报 有 无故障内容:超额使用文件系统 有 无交换分区使用率 70%CPU空闲 20% 20%系统硬盘空间使用率 80%系统参数设置 正常 不正常系统日期 正确 错误磁带机、磁带库 正常 不正常网络状态 正常 不正常补丁等级 正常 不正常返回结果:r PC服务器巡检汇报主机名业务范围主机型号序列号CPU、内存硬盘电源冗余有 没有系统环境检验表检测项目结果检测项目结果电源供电正常 不正常网络正常 不正常CPU占用占用_,是/否
26、75%病毒库更新正常 不正常内存占用占用_,是/否80%系统帐号正常 不正常磁盘占用操作系统盘占用_,总共使用_。应用服务正常 不正常系统设备正常 不正常系统日志正常 不正常r AS400巡检汇报主机名业务范围主机型号序列号硬件配置:CPU、内存硬盘外观检验控制面板显示 正常(无) 不正常电源指示灯 正常(黄,不闪烁) 不正常I/O卡指示灯 正常(绿) 不正常电缆连接 正常 不正常错误日志故障近期有没有故障统计: 有 无系统检验MAIL故障近期有没有故障统计: 有 无CPU空闲20% 60%40% 60%错页率是否正常 正常 不正常硬盘空间整体: GB 空闲: GB硬盘失败数量无硬盘失败 有硬
27、盘失败 :数量RAID状态 无RAID 正常 不正常硬盘I/O使用率 80%内置磁带机状态是否正常 无磁带机 正常 不正常内置光驱状态是否正常 无光驱 正常 不正常网卡是否正常 正常 不正常TCPIP状态是否正常 正常 不正常消息队列中有没有报警性消息 有 无系统作业是否有异常Joblog 有 无Spool file数量是否有十二个月内,系统最终一次改变后全备份 有 无是否有十二个月内,系统最终一次改变后SAVSYS 有 无是否天天备份用户数据 有 无是否备份系统配置 有 无备份磁带是否异地保留 有 无是否有双机备份,状态是否正常 有 无密码是否妥善保管 有 无3.3 数据库巡检汇报主机名业务
28、范围主机型号序列号数据库配置:DB版本补丁等级备份方法备份软件版本数据库环境检验表检测项目结果参考值管理服务器是否开启 是 否实例是否开启 是 否Oracle Rac服务进程是否正常 是 否表空间状态是否正常 正常 不正常表和索引状态是否正常 正常 不正常存放管理软件是否正常 正常 不正常数据硬盘空间使用率 正常 不正常数据库备份是否正常 正常 不正常归档日志是否正常 正常 不正常缓冲池命中率是否正常 正常 不正常返回结果:是否有死锁情况 是 否表是否需要重组 是 否日志是否正常,有没有Critical错误 是 否故障内容:备份和日志是否保留完好 是 否数据库性能 正常 不正常3.4 网络设备
29、巡检汇报r 交换机巡检汇报设备名业务范围设备型号序列号硬件配置:吞吐量级软件版本冗余方法模块配置网络设备硬件环境检验表检测项目结果参考值引擎状态指示灯是否正常 是 否模块状态指示灯是否正常 是 否端口状态指示灯是否正常 是 否CPU利用率是否正常 正常 不正常内存利用率是否正常 正常 不正常Buffer分配是否正常 正常 不正常Crash分析是否正常 正常 不正常有没有显著异常Log 正常 不正常故障内容:冗余引擎是否正常 正常 不正常冗余电源是否正常 正常 不正常交换机链路层检验表:检测项目结果参考值Spantree配置是否正常 正常 不正常返回结果:管理VLAN配置是否正常 正常 不正常返
30、回结果:Trunk配置是否正确 正常 不正常返回结果:管理界面是否正常访问 正常 不正常配置信息备份和日志是否保留完好 是 否r 防火墙巡检汇报设备名业务范围设备型号序列号硬件配置:吞吐量级软件版本冗余方法模块配置网络设备硬件环境检验表检测项目结果参考值引擎状态指示灯是否正常 是 否模块状态指示灯是否正常 是 否端口状态指示灯是否正常 是 否CPU利用率是否正常 正常 不正常内存利用率是否正常 正常 不正常Buffer分配是否正常 正常 不正常Crash分析是否正常 正常 不正常有没有显著异常Log 正常 不正常故障内容:冗余引擎是否正常 正常 不正常冗余电源是否正常 正常 不正常交换机链路层检验表:检测项目结果参考值NAT和静态路由配置是否正常 正常 不正常返回结果:访问规则配置是否正确 是 否返回结果:管理界面是否正常访问 正常 不正常配置信息备份和日志是否保留完