资源描述
4.4.1. 售后服务方案描述及相关承诺
1. 总述
1.1 项目名称
XXXXX网络设备项目。
1.2 项目背景描述
伴随互联网应用快速增加,和下一代互联网加速推进,短信、网游、语音和视频宽带业务日益火爆,电子商务再度兴起,IDC市场快速升温,IDC业务收入快速增加,IDC业务用户群也快速增大。为了抢占潜在用户资源,大力推广IDC业务,这么就需要建设一个侧重中、高端用户,兼顾低端用户需求IDC机房系统。
1.3 服务期限及范围
为XXX关键网络设备(含2台防火墙,2台交换机,2台路由器),其检修和维护。我企业将按质按量完成XXX关键网络设备维护修理维护服务。
1.4 实施目标
为XXX关键网络设备提供优质维护修理服务,并对2台防火墙,2台交换机,2台路由器统提供卓越技术支持和运行维护服务。确保2台防火墙,2台交换机,2台路由器运行稳定。
1) 我方经过严格修理维护服务,确保相关此次所包含相关软硬件高效稳定运行。
2) 我方含有应急处理能力并制订了完善应急预案,降低计划内和计划外停机时间,最终能够保障电力业务关键系统每七天7天×二十四小时不间断稳定运行。
3) 我方定时对现有软硬件平台系统运转情况进行巡检、跟踪和分析,科学地估计和掌握软硬件平台系统性能状态,提出科学合理扩容和升级提议。
4) 我方在维护中熟悉各主机上承载应用系统,结合IT系统和业务应用具体实际情况,查漏补缺,提出整改提议,配合应用厂商不停优化系统整体性能,提升系统运行整体效率。
1.5 术语定义
1) 业主方:xxxxx团。
2) 故障等级定义以下:
l P1级故障:重大故障,系统瘫痪,无法运行,业务丢失。
l P2级故障:系统部分设备故障,影响和限制了部分业务运行。
l P3级故障:通常性技术故障,发觉系统和设备技术问题,但系统和业务仍可正常运行。
l P4级故障:在系统功效配置、运维管理方面需要信息或支援,对用户业务几乎无影响。
2. 总体实施方案
2.1 服务步骤
xxx将依据XXX关键网络设备(含2台防火墙,2台交换机,2台路由器)服务内容制订了相关服务步骤,以下步骤适适用于本项目标含防火墙,交换机,路由器步骤。
2.1.1 高级故障诊疗及检修步骤
1) 针对系统、设备发生一级、二级故障进行响应,分别在要求时间内进行维修、恢复服务。其中紧急重大故障要求15分钟内抵达现场处理。
2) 我方提供服务相当于原厂技术服务水平。并提供电话或现场技术咨询和技术支持服务。
l 服务步骤图
l 服务步骤说明
序号
步骤名称
责任人
说明
1
服务台响应
服务台
Ø 服务台人员接收来自用户上报故障和各类服务请求。在验证用户基础信息后,服务台人员在服务管理平台上登记一条故障信息并进行跟踪和处理,并创建故障事件单。
Ø 服务台人员判定故障是否重大事件,如重大事件将立即通知现场支持人员到现场。如不是重大故障,将依据故障等级及故障类型,安排工程师进行故障处理
Ø 假如是一条反复事件,则新建该事件统计后,更新原有事件为“主事件”,并建立反复事件和原有事件关联关系。
Ø 假如是一条复发事件,则创建一个新事件单,复制原始事件单内容,并说明这是复发事件。
2
故障现场对应
现场支持人员
Ø 依据服务台所描述基础故障情况,现场支持人员将在15分钟内抵达故障现场,为用户处理故障
3
远程调查和诊疗
服务台支持人员
Ø 服务台人员依据事件分类表确定事件分类,依据事件影响度和紧急度,为事件分配优先级。
Ø 分析故障原因,在知识库中查询是否有处理方案,制订初步故障处理方案。
Ø 如故障是因为设备硬件引发或远程无法处理时,将通知现场维护人员,到现场处理处理故障。
Ø 进行调查诊疗,尝试处理,必需时联络第三方供给商帮助处理。
4
现场调查诊疗
现场支持人员
Ø 现场支持人员在现场判定故障情况,依据故障具体情况,制订处理方案。
Ø 判定故障是否需要更换部件,如需更换备件,我方将联络仓管调出设备配件,并负责设备安装和卸载。
5
更换设备或部件
现场支持人员
Ø 更换完设备后再对故障进行检测,如故障未被处理,将继续对故障进行分析,根本处理故障问题。
6
处理和恢复
服务台、现场支持人员
Ø 根据制订好处理方案对故障进行处理。
Ø 判定实施处理方案是否可行,并制订变更方法。
Ø 实施成功后,具体统计处理方案或变通方法。
7
事件关闭
服务台支持人员
Ø 将故障处理情况提交至知识管理。
Ø 关闭事件。并对故障统计进行归档,再制订用户回访计划。
8
用户回访
服务台支持人员
Ø 向用户确定故障是否已得四处理。
Ø 确定用户是否汇报其它问题。
Ø 用户反馈故障处理情况,并对此次服务进行评价。
2.1.2 设备调优步骤
1) 针对长久出现资源瓶颈设备进行分析,提出处理方案或优化方案。
2) 对系统进行定时评定,给出评定优化方案。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
设备性能检测
服务器、存放支持工程师
Ø 利用有效工具对设备进行检测。
Ø 对设备进行健康检验,标识存在资源瓶颈设备。
2
统计资源瓶颈设备数量
服务器、存放支持工程师
Ø 依据标识资源设备进行设备统计
Ø 对资源瓶颈设备进行故障原因分析,判定资源瓶颈问题是由何种原因所引发。
Ø 分配问题到各个专业工程师设计处理方案。
3
硬件问题分析
服务器、存放支持工程师
Ø 分析设备硬件上资源瓶颈问题,列出引发此故障原因
4
系统问题分析
操作系统支持工程师
Ø 分析操作系统上资源瓶颈问题,列出引发此故障原因
5
平台问题分析
应用平台支持工程师
Ø 分析应用平台上资源瓶颈问题,列出引发此故障原因
6
数据库问题分析
数据库支持工程师
Ø 分析数据库上资源瓶颈问题,列出引发此故障原因
7
设计服务器、存放处理方案
服务器、存放支持工程师
Ø 对列出服务器、存放硬件问题逐条给出处理意见和优化方案。
8
设计系统处理方案
操作系统支持工程师
Ø 对列出操作系统问题逐条给出处理意见和优化方案。
9
设计平台处理方案
应用平台支持工程师
Ø 对列出应用平台问题逐条给出处理意见和优化方案。
10
设计数据库处理方案
数据库支持工程师
Ø 对列出数据库问题逐条给出处理意见和优化方案。
11
整合方案
我方项目责任人
Ø 整合各技术支持工程师给出处理方案。
Ø 对处理方案内容进行审核,确保处理意见安全和有效。
Ø 制订实施计划,并将方案提交给业务部门。
12
业务部门审批
设备责任人
Ø 业务部门责任人对整合方案进行审批。
Ø 按实施计划通知每个人设备责任人。
13
优化实施
各技术支持工程师
Ø 工程师根据最终实施计划和方案对设备进行调优工作。
2.1.3 备件保修和更换步骤
1) 当设备出现故障时,我方应立即进行检验、维修或更换故障部件。
2) 假如硬件设备故障,确保在2小时内提供不低于故障设备规格型号档次备用设备替换使用,直至故障设备修复为止,以最大程度确保业务系统不间断地正常运行。
3) 若需要更换部件,其更换部件必需是原厂部件,和原有部件含有相同质量和性能。
l 服务步骤图
l 服务步骤说明
序号
步骤名称
责任人
说明
1
故障设备检验
现场支持人员
Ø 现场检验,判定故障引发原因和故障位置
Ø 判定故障是否能现场处理,比如经过配置等方法处理故障,即现场处理。
2
现场维修
现场支持人员
Ø 对故障进行处理,经过技术手段等处理故障问题。
3
提供备件
现场支持人员
Ø 故障因为设备硬件引发,难以现场立即处理,我方提供相同设备型号和功效配件给用户使用。
4
现场安装和卸载
设备维修人员
Ø 现场卸载故障设备。
Ø 安装我方提供备件设备。
5
故障设备维修
设备维修人员
Ø 判定设备是否已经过保。并制订维修计划。
Ø 设备未过保,通知设备提供商对故障设备进行修复。
Ø 设备已过保,我方提供或采购对应备件和部件,对设备进行维修。
6
设备提供厂商维修
设备提供厂商
Ø 设备提供厂商对故障设备进行修复
7
提供所需备件或部件进行维修
设备维修人员
Ø 我方安排专业对技术人员更换或维修故障设备。
Ø 将拆卸故障部件进行封存,交还给设备提供商。
8
故障设备复查
现场支持人员
Ø 设备维修成功后,我方现场支持人员到现场对修复好设备进行复位。
Ø 检验设备运行情况,如设备还存在故障问题,我方将继续对故障进行处理和处理。
2.1.4 特保服务步骤
1) 根据企业要求,对于特殊时期必需保障设备运行,我方依据要求驻场值守和服务,完成特殊时期保障任务。
2) 需估计每十二个月安排约有2个月特保时间。
l 服务步骤图
l 服务步骤说明
序号
步骤名称
责任人
说明
1
制订特殊时期值班计划
现场支持人员
Ø 现场值班人员制订值班服务计划
Ø 值班计划包含人员联络方法和相关设备系统责任人联络方法
2
业务部门审批
设备责任人
Ø 业务部审批值班服务计划
Ø 如服务计划未能满足用户需求,将退回现场值班人员重新设定值班计划。
3
值班
现场支持人员
Ø 按计划是时间地点到现场进行值班工作。
Ø 统计值班所需相关表格
Ø 遇上重大事件立即通知设备责任人员
4
提交设备巡检汇报
设备维修人员
Ø 汇报设备出现安全隐患。
Ø 提交当日值班统计和相关资料。
2.1.5 系统补丁通知及推荐步骤
1) 预防式补丁服务:我方在已知服务器、存放软、硬件缺点可能造成潜在问题情况下,将经过配置管理或巡检等方法对用户服务器进行增补软件分析并提出版本升级提议,并由用户进行相关业务、用户影响分析后确定进行。
2) 响应式补丁服务:当设备出现故障后,我方对故障进行分析并确定是软件缺点所造成故障,我方将提供针对该软件缺点软件补丁程序,并由用户进行相关业务、用户影响分析后确定进行。
l 服务步骤图
l 服务步骤说明
序号
步骤名称
责任人
说明
1
制订补丁通知及推荐计划
现场支持人员
Ø 制订补丁通知及推荐计划。
Ø 判定是否有因为补丁问题造成故障。如没有因为补丁造成故障,将实施和预防式补丁服务,如因为补丁发生故障,将实施响应式补丁服务。
2
预防式补丁服务
服务台支持人员
Ø 预防方法补丁服务以预防、排查隐患为主,对现有设备安全、性能隐患制订补丁更新计划。
3
响应式补丁服务
现场支持人员
Ø 对用户所发觉故障进行处理,而且向用户提供可处理此故障补丁程序
4
设备故障数据统计和分析
服务台支持人员
Ø 在预防式补丁服务中,对以往出现故障设备进行统计,总结普遍故障现象
5
配置管理和巡检常发故障设备
现场支持人员
Ø 在预防式补丁服务中,经过配置管理和巡检方法,检验系统运行情况,定位常发故障设备位置,查明故障发生原因,制订相关补丁更新计划。
6
增补软件分析
各技术支持工程师
Ø 结合故障数据统计结果和巡检所发觉故障情况,对增补软件进行评定和分析。得出适合增补软件列表。
7
制订版本升级提议
各技术支持工程师
Ø 依据分析结果制订版本升级提议和实施计划
8
业务部门审批
设备责任人
Ø 业务部门对实施计划内容进行审核,如发觉补丁版本升级不符合要求,将返回重新制订补丁升级计划。
9
处理和分析故障
现场支持人员
Ø 在响应式补丁服务中,对故障进行处理,在发觉能够经过更新补丁来消除隐患时,我方将制订补丁更新计划,寻求相关软件补丁。
10
提供软件补丁程序
各技术支持工程师
Ø 对寻求相关软件补丁进行测试,经过测试后,我方将测试汇报和软件补丁程序提交给用户。
11
补丁更新实施
现场支持人员
Ø 经过审批经过后,我方安装实施计划方案和内容,对相关设备进行补丁更新工作。
2.1.6 季度巡检步骤
1) 每三个月提供一次健康巡检,对设备硬件、系统运行情况进行检验,排除隐含错误或安全隐患,并提交健康巡检汇报。
2) 巡检具体时间由双方协商确定。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
制订季度健康巡检计划
现场支持人员
Ø 依据要求制订监控巡检计划和方案,内容包含巡检方法、操作步骤等。
2
业务部门审批
现场支持人员
Ø 业务部审批巡检计划
Ø 如服务巡检计划未能满足用户需求,将退回重新设定巡检计划。
3
提供健康巡检汇报
现场支持人员
Ø 实施设备健康巡检。
Ø 统计巡检中发觉设备问题
Ø 提交健康巡检汇报,汇报设备存在安全隐患。
4
排除隐含错误
和安全隐患
设备维修人员
Ø 对汇报中存在安全隐患进行处理。
Ø 问题处理后将对系统进行再次检测,检验问题处理情况。
2.1.7 培训服务步骤
1) 我方定时进行运行维护技术培训,并定时和业主方技术人员进行技术交流。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
咨询业务部门
需求
咨询受理人员
Ø 问询用户培训需要。了解用户对培训要求。
Ø 判定用户是否对新或难度高技术开展技术交流。
Ø 搜集业务部门提出培训要求。按培训要求内容、等级进行分类,组织相关人员开展培训准备工作。
2
制订培训计划
和培训内容
咨询受理人员
Ø 依据培训内容、培训深度制订培训计划,并提交业务部门进行审批工作。
3
业务部门审批
设备责任人
Ø 业务部门对培训内容进行审核工作,对培训内容存在异议或不满意地方,将返回修改培训计划或培训方案。
4
安排培训议程
和材料
各技术支持工程师
Ø 相关技术人员对培训方案内容准备培训资料,并安排培训所需场地和准备相关设备或软件。
2.1.8 系统计划(非建设项目)步骤
1) 依据硬件、应用软件环境完成数据库初步计划、安装配置工作。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
硬件、应用环境分析
现场支持人员
Ø 对运行环境进行硬件、软件运行分析,检验运行环境是否符运行要求。
Ø 统计硬件、应用环境基础参数。
2
制订实施方案
技术支持工程师
Ø 依据运行环境评定和硬件、应用环境基础参数,制订实施方案和初步计划。
Ø 提交业务部门对方案进行审批
3
业务部门审批
设备责任人
Ø 业务部门审批实施方案。
Ø 如实施方案和计划未能满足用户需求,将退回修改实施方案。
4
实施安装配置
技术支持工程师
Ø 依据实施方案到现场进行安装、配置工作。
2.1.9 备份恢复测试步骤
1) 依据业务关键性及数据安全等级要求,定时对备份数据进行恢复测试,保障备份数据完整、有效、可用。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
数据时效性检验
技术支持工程师
Ø 技术支持工程师检验备份数据,病句业务关键性及安全等级,判定数据使用期,如数据已过保留期,我方将对系统业务数据进行备份
2
备份系统业务数据
现场支持人员
Ø 对系统数据进行全备份,以确保数据完整。
3
数据恢复测试
技术支持工程师
Ø 对备份数据进行恢复测试,并对相关功效进行操作,检验数据正确性。
Ø 如备份数据存在异常,我方将到现场排除故障原因,分析系统故障还是备份失误造成,如不是备份失误,我方将通知相关业务部门进行故障处理。
4
备份版本控制
技术支持工程师
Ø 备份数据测试成功后,我方对备份数据尽可能保留最近5个版本存档。
Ø 对备份数据进行版本控制,按系统、安全等级、关键性、备份时间对备份数据进行存档。
2.1.10 教授现场技术支持步骤
1) 包含数据库紧抢救援服务。
2) 如出现故障,造成数据库不能正常工作,服务方须立即安排资深工程师到现场先回复应用,并确保连续跟进直到问题完全处理。
3) 假如不能处理问题,服务方需自行请教授或其它高级技术人员对系统情况进行分析,直至处理问题。
4) 服务方在接到现场系统维护请求后1小时内响应,对宕机或紧急恢复等严重问题,要求立即响应并在15分钟内抵达现场。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
现场情况调查
技术支持工程师
Ø 进行紧抢救援服务,安排资深工程师到现场进行调查响应。立即提出故障处理方案。
2
故障应急处理
现场支持人员
Ø 我方依据故障等级、安全性对故障采取应急处理情况。
Ø 因为设备硬件造成故障,我方立即开启热备件。立即恢复系统正常运行。
Ø 因为软件或设置造成故障,我方对设置进行初始化操作,确保系统正常运行
3
开启热备件
技术支持工程师
Ø 依据提前准备好设备热备件,我方对设备进行更换和切换操作。恢复设备运行。
4
故障设备修复
设备维修人员
Ø 在现场对故障设备进行通常修复处理,如不能处理,我方将故障设备提取回维修中心进行维修。
5
更换备件
现场支持人员
Ø 故障设备修复成功后,我方把完成修复设备安装回原位置。并把正式服务切换回正式环境。
6
恢复初始化设置
技术支持工程师
Ø 对数据库运行环境进行初始化配置操作。恢复系统运行环境。
7
日志文件检验
技术支持工程师
Ø 检验数据库日志,找出数据库中存在故障问题。
8
软件配置修复
技术支持工程师
Ø 依据存在故障问题对数据库配置进行修改和故障处理。
9
修复检验
现场支持人员
Ø 故障修复后对故障进行检验,排查存在安全隐患。
2.1.11 技术支持服务步骤
1) 提供电话或现场技术咨询和技术支持服务。
l 服务步骤
l 服务步骤说明
序号
步骤名称
责任人
说明
1
服务台响应咨询
技术支持工程师
Ø 服务台响应用户咨询请求,对用户做出快速请求响应。
Ø 了解用户需要,提供有效技术支持和咨询服务。
2
现场技术支持
现场支持人员
Ø 我方派出工程师到现场对用户疑问进行解答。
Ø 为用户现场处理用户故障问题。
3
用户回访
技术支持工程师
Ø 现场技术支持完成后,我方电话回访用户对服务满意度,并咨询是否需要更还现场支持服务或变更服务
4
电话技术支持
设备维修人员
Ø 如用户需要电话直接支持,我方将采取电话方法立即响应用户请求,并尽可能完成用户需求和远程处理用户故障。
2.2 服务管理
2.2.1 实施规范管理
我方根据业主方管理制度、修理维护规范、操作指导等相关规则制度开展修理维护服务。
为保障修理维护服务规范化顺利实施,同时修理维护服务各个步骤清楚可追述,我方任何操作必需严格根据业主方相关步骤进行操作,尽可能降低对业主方正常业务干扰,每步操作须有明确结果反馈统计,严禁任何不按步骤处理任何操作,一经发觉将严厉处理。
2.2.2 人职员作规范
我方对运维人员进行明确分工及职责定义,避免运维人员无序混乱工作,职责分工需符合运行单位运维工作要求。
2.2.3 项目风险和责任
我方谨慎和用心推行协议责任,并对其职员过失负担责任。因为我方实施人员服务不立即(没有根据协议约定时间要求)或服务操作不妥,造成大量在线数据遭受不可恢复性损失,我方应负责恢复数据,并负担全部费用。因为我方原因服务不到位,我方应向业主方作出书面解释,并提出整改方法。造成损失,我方负担全部责任。
2.2.4 人员稳定性
鉴于信息系统及设备关键性和安全保密性,我方确保服务期内修理维护团体人员稳定,避免人员流动对业主方业务系统及设备造成安全隐患,特殊情况下人员变动需经业主方同意后方可变动,严禁未经业主方同意人员直接变动。
2.2.5 人员质量控制
我方所派出服务人员,应能熟练胜任相关维护工作。业主方拥有向所提供实施人员进行面试权力。如我方人员业务能力如不符要求,业主方有权要求我方更换人员。服务人员资质要求以下:
a) 大学专科或以上学历,有3年以上类似产品维护经验。
b) 含有对应产品认证证书。
2.2.6 项目进度控制
我方技术服务团体每七天向业主方项目管理部门提交维护工作周报,并抄送我方项目管理部门。为了愈加好让业主方了解项目标进度和现在情况,我方将向业主方进行以下工作:
l 每个月提交工作月报,维护工作月报内容必需包含以下内容:关键已完成工作内容、未完成工作内容、故障处理汇报、维护提议及工作计划安排。
l 技术服务团体每个月度对相关工作进行总结提炼,提交运行维护工作月报。
l 技术服务团体每三个月对相关工作进行总结提炼,提交运行维护工作季报。
l 技术服务团体每十二个月对整年工作进行总结,并对下十二个月度工作进行计划,提交运行维护工作年报,帮助系统管理员完成系统年度维护总结。
除上述文档整理工作外,我方负担业主方相关维护文档修编配合工作。
2.2.7 项目安全控制
提供现场服务时,我方将确保其现场人员遵守业主方相关安全要求,前提是我方收到业主方提供相关安全要求。我方有为业主方保密义务,未经业主方许可,我方服务人员不得对业主方业务经营数据进行增删、修改、复制、传送、统计;我方不得向任何第三方泄露业主方业务数据内容或在公开场所引用业主方数据。
2.2.8 质量控制
为保障服务质量及服务适应性,在服务期内,我方需依据服务内容发生改变进行适应性改善,并在修理维护过程中依据业主方要求进行服务改善。
2.2.9 项目质量确保
服务质量要达成可衡量必需制订严格服务SLA,我方在服务期开始时须和业主方协商制订切实可行服务SLA,并严格遵守SLA进行修理维护服务。其服务标准以下:
一、紧急情况
当服务器宕机,数据库无法读写等一级紧急事件时,我方在1小时内响应,2小时内帮助处理该情况。并在因外部原因无法立即处理时(比如服务器所在机房受到黑客攻击,服务器硬盘读写失败等事件),向用户汇报情况并提供具体处理时间。并提供一套完善应急处理方案,帮助用户立即处理突发事件,最大程度挽救因服务无法使用造成损失。
二、关键情况
系统服务上线过程后,有时会出现在验收过程中没有觉察bug,这个时候,我方主动帮助用户处理该bug,具体响应时间依据bug造成影响程度而定。依据SLA服务标准,bug等级亦可进行深入划分并制订对应处理方案。这里不给予赘述。
三、标准情况
在系统布署阶段,因工作人员协作步骤不一致性,有可能出故障问题和兼容性问题。和因为临时需求变更和新增,全部会对系统服务产生新维护需求。我方根据需求难易性和工作量制订对应响应标准,确保用户满意度。
四、次要情况
包含服务小调整,如数据库、中间件配置更替等,通常在二十四小时内响应,双方商议时间内进行处理即可。我方以SLA服务体系为出发点,为IT服务提供完善、标准、科学处理方案,尽可能不影响用户满意度。
2.2.10 制订整年支持服务计划
我方用户经理应主动地和业主方共同协商、制订整年支持服务计划。服务计划包含以下关键内容:
a) 业务/IT系统概况,业务系统对服务需求
b) 服务协议工作内容,设备清单和响应服务等级
c) 我方工作团体和职责
d) 支持服务步骤
e) 运维服务活动计划,包含:增值服务实施、服务总结汇报、回顾会议、巡检、技术交流等
f) 服务计划双方确实定
2.2.11 项目总结会议
我方用户经理最少每三个月会安排和业主方一起召开系统运行和服务情况定时总结回顾会议,内容包含但不限于:
a) 总结前一段时间服务实施情况
b) 回顾升级问题/关键问题处理过程
c) 听取运行单位对服务反馈意见和服务需求
d) 同业主方运维经理们讨论服务改善方法
e) 讨论、修订服务计划。
2.3 维护内容
我方将依据xxx服务器、存放设备、虚拟化服务器、A认证系统服务内容简明介绍常见故障所采取维护处理措施,在实际应用中,我方会依据实际情况进行对应修改和优化。
2.3.1 服务器故障诊疗
计算机故障类型和故障诊疗手段有很多,对于服务器(IBM服务器为例)故障采取以下2种诊疗方法:
2.3.1.1 硬件故障诊疗
诊疗并排除由硬件引发故障,先从外观上检验硬件情况,检验设备故障灯是否有亮。多种设备上全部有故障指示灯,通常为橙色并有~标识。对于高端服务器,应检验UEPO开关上系统故障指示灯是否亮,检验部件故障灯,如I/O drawer、PCI卡,硬盘等。
全部安装部件(如CPU book)所对应绿色LED应长亮。任何故障指示灯(橙色)全部应不亮,设备发生故障时通常伴有犯错代码,必需把全部故障代码统计下来。除此以外还应注意有否其它异常情况(如硬盘、风扇异常声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。
检验服务器网卡状态、IP地址是否正常。网卡设置应和交换机端口设置匹配。检验网卡通信是否正常,如是否丢包,速度是否正常等。而且检验路由表是否正常、/etc/hosts文件或DNS设置是否正常等。
2.3.1.2 软件故障诊疗
诊疗并排除由软件(操作系统和应用软件等)引发故障能够先查看系统日志相关软件报错统计,同时登录软件检验目前应用使用状态、软件应用进程等进行多方面诊疗。
2.3.2 检测服务器、存放设备运行情况
对于一个系统而言资源总是有一定程度,而任务总是要消耗系统资源。关键是要找出哪些资源不能满足应用程序运行需求。这里存在一个性能瓶颈问题。不一样应用程序可能会有不一样资源要求,可能会产生不一样瓶颈。系统资源中CPU、内存、磁盘或是网络全部有可能成为瓶颈。系统性能调优需要找出这些资源成为瓶颈原因,是资源不足,是系统设置不合理,还是应用程序问题。
查找性能瓶颈次序很关键,正确次序是:CPU > 内存 > I/O > 网络,以下图所表示:
CPU 瓶颈=
否
是
采取对策
内存瓶颈
否
是
采取对策
I/O瓶颈
否
采取对策
是
采取对策
网络瓶颈
是
否
继续测试
采取对策
2.3.2.1 查看CPU瓶颈
经过查看目前服务器CPU使用情况判定CPU使用情况,通常情况下CPU使用率不应该长久超出80%,如出现CPU使用率长久处于甚至超出80%情况,则初步可判定CPU资源不足,出现瓶颈。
2.3.2.2 检测内存问题
部分厂商服务器在内存使用上模式默认最大化使用,所以内存使用率不能作为是否存在内存瓶颈依据。假如达成内存瓶颈,此时检验系统内存交换区使用,会发觉使用率较高。
因为有大量内存页面写入内存交换区,这会造成wa(I/O等候)值上升,但此时并非I/O瓶颈引发。
当内存交换区使用率超出70%时需要增加交换区大小。但增加内存交换区大小并不会提升系统性能。相反,内存交换区使用越多,系统性能下降越多。当内存不足时,正确方法是增加物理内存数量或优化应用程序。
2.3.2.3 查看系统I/O情况
磁盘数据流量很大程度上和应用程序I/O方法相关。一些应用程序I/O SIZE可能很低,而且产生大量随机读写操作,从而使硬盘读写效率大大降低,造成CPUI/O等候增加。
有时I/O问题是I/O带宽不足引发。当全部连接在一块I/O卡上硬盘流量总和达成I/O卡带宽70%以上时,应考虑增加更多I/O卡。
数据分布也是很关键原因。通常把数据分布到更多硬盘上更有利于提升I/O性能。
2.3.2.4 查看网络情况:
对于网络问题能够经过检验服务器端口情况、网线速率、端口模式,甚至经过服务器和服务器、服务器和测试设备之间进行链路测试、传输速率测试检测服务器网络上问题,必需时需要网络工程师检验交换机层面健康情况加以分析判定。
假如全部没有发觉系统有资源上瓶颈,则很可能是应用程序问题,需要应用程序开发商进行深入分析。
2.3.3 服务器备件检修
服务器备件保修关键以更换设备为主,并对造成备件故障原因作出分析,最终经过分析故障结果。对全部故障进行排查,不能单单只是更换备件这么简单,服务器备件一旦发生故障不一定是其本身问题,极大情况下是外部环境所造成。所以,服务器备件检修需要考虑其使用环境,从根本上处理故障问题,预防其它备件损坏。
2.3.3.1 服务器备件硬件故障维修
对于通常设备硬件故障,我方采取以下方法采取维修处理:
序号
故障类型
维修方法
操作方法
1
内存条损坏
直接更换
现场更换
2
主板元器件损坏
直接更换
现场更换
3
阵列损坏
优异行数据恢复,再更换硬盘
数据恢复需离开现场。
备件现场更换
4
电源损坏
直接更换
现场更换
5
指示灯损坏
先检测健康状态,再更换指示灯
现场更换
6
CPU风扇损坏
直接更换
现场更换
7
数据线损坏
直接更换
现场更换
8
CPU损坏
直接更换
现场更换
9
光驱损坏
直接更换
现场更换
10
电源线损坏
直接更换
现场更换
11
相关数据接口损坏
直接更换主板
现场更换
2.3.3.2 服务器软件故障维修
对于服务器软件方面故障,我方采取以下方法采取维修处理:
序号
故障类型
维修方法
操作方法
1
系统瓦解
重装操作系统
现场操作
2
中木马病毒
安装杀毒软件杀毒
远程操作
3
驱动不匹配
安装正确驱动
远程操作
4
软件不兼容
安装兼容软件
远程操作
2.3.3.3 服务器备件修复和后续保养
如以下原因造成备件故障,我方在处理完备件维修后,再对备件周围环境进行保养处理工作。具体可参考以下多个方面:
l 服务器备件受潮短路。
备件受潮湿原因造成故障,我方对服务器周围环境进行除湿处理。关键以空调除湿或吸湿海绵为主。
l 服务器备件受过热短路。
备件受过热短路原因造成故障,我方对服务器周围环境进行降温处理。关键以空调降温或更换服务器散热风扇。
l 服务器备件积尘造成短路。
备件积尘短路原因造成故障,我方对服务器周围环境进行除尘处理。关键以吸尘机或毛刷工具为主。
l 服务器备件是否电源电压不稳定造成短路。
备件电源电压不稳短路原因造成故障,我方对服务器周围环境进行电压检测,看是否有漏电情况,并更换电源。
2.3.4 特保服务
我方根据企业要求,对于特殊时期必需保障设备运行,并依据业主方要求驻场值守和服务,完成特殊时期保障任务。而且每十二个月安排约有2个月特保时间。
2.3.4.1 特保服务常规服务内容
l 我方值班人员要认真检验设备运行情况,包含电源、服务器指示灯及一切隐患。确保服务器设备一切安全。
l 做好安全监控工作。预防多种事故和事件发生。
l 检验软件日志文件是否完整。
l 检验设备电压及温度。
l 值班人员做好值班统计,并记载关键事情。
l 有重大问题立即向上级设备管理人员汇报。
2.3.4.2 特保服务工作责任
l 我方值班人员值班期间,不能脱岗,认真值班。全天二十四小时确保有些人在值班监控设备运行。
l 做好交接班等相关工作。
l 值班人员要做好安全防范工作,遇设备周围环境改变,应立即做出对应处理;
l 确保值班人员人员及相关技术工程师电话通畅。
l 坚守值班岗位,不擅离职守。时刻提升警惕,做好值班期间工作。
l 值班严格根据操作手册实施,不违反值班制度和操作章程。
l 值班人员在特殊假日放假值班期间为设备运行及安全工作第一责任人。
2.3.4.3 特保服务确保
l 值班人员提升自觉性和主动性,确保设备安全、稳定运行。
l 在值班期间坚守工作岗位,不得无故让她人替岗,严禁饮酒。
l 值班期间确保电话通畅,碰到重大事情,必需汇报上级领导并做好临时处理方法,主动处理。
l 认真做好值班统计,对设备异常及安全防火情况等,必需认真检验。
l 值班职员在值班时间内,坚守岗位,不迟到、早退和缺岗。
2.3.5 系统补丁通知及推荐
我方将对以下补丁采取相关补丁更新通知和补丁更新操作服务。并对需更新补丁进行测试工作。以下系统补丁服务相关内容。
2.3.5.1 补丁搜集和整理
我方对以下补丁经过不一样路径进行补丁资源搜集,补丁出处要求是官方补丁,如补丁不是官方提供,将对非官方补丁进行测试。
序号
故障类型
搜集方法
搜集路径
1
服务器硬件BIOS补丁
服务器厂商提供
由官方通知
2
存放设备补丁
服务器厂商提供
由官方通知
3
Windows操作系统补丁
微软官方网站
微软最新公告
4
Linux操作系统
官网或论坛
论坛公告
5
Aix操作系统补丁
IBM官方网站
IBM官方网站公告
6
Unix操作系统补丁
官网或论坛
论坛公告
7
Oracle软件补丁
官网或论坛
论坛公告
8
Weblogic软件补丁
官方网站
官网公告
9
Tomcat软件补丁
官网或论坛
现场更换
10
其它软件补丁
官网或论坛
现场更换
11
…
…
…
2.3.5.2 补丁更新测试
补丁更新之前,有必需对其进行完整测试,确保其适合于目前运转设备或系统,不然有可能带来无须要麻烦。不过对补丁进行测试是一项繁琐工作,我方使用测试技巧和脚本,快速有效地测试补丁。
为针对如此多产品和不一样版本补丁,我方使用一套自动化补丁测试过程,建立一套完整系统环境,模拟设备或系统运行状态,确保补丁更新测试可行性。
2.3.5.3 补丁更新操作
在布署补丁之前,我方确保已进行补丁测试,以确保它们不会破坏系统现有功效。在补丁测试前对系统或相关资源进行备份处理,确保补丁更新万无一失,而且我方有专业教授支持,在补丁更新出现故障时,确保能快速有效进行系统恢复。
2.3.6 月度巡检
为了愈加好地落实现巡检工作,我方制订了月度巡检工作,并对月度检验做出书面汇报。深入保障了设备正常运行和预防了设备发生故障事故风险。同时,经过月度巡检能尽早发觉安全隐患。具体方法以下:
2.3.6.1 月度巡检检验
月度巡检检验关键包含设备周围环境、周围设备、通讯及网络设备、服务器设备检验,其检验内容以下:
l 设备周围环境检验
检验设备周围温度是否正常、痕迹是否存在异常、有否异响、温度是否正常、清洁是否符合要求、是否存在异味等。
l 设备周围设备检验
检验UPS电源是否正常、空调是否正常、电池组是否存在异常、消防是否符合标准和要求等。
l 通讯及网络设备检验
防火墙及流量控制方面,网络通讯状态是否正常、网络流量是否过多等。而网络口检验关键包含数据指示灯有否异常、网络通讯状态是否正常、端口及网线状态是否正常等。
l 服务器设备检验
服务器硬件故障灯是否正常、如发生故障将统计具体故障现象和处理方法,补丁是否已经更新、防病毒软件病毒库是否已经升级、文件系统是否出现错误,日志文件设置及运行是否正常,磁盘卷组是否存在失效状态。
2.3.6.2 巡检数据整理
经过季度巡检后,我方将把巡检统计进行同一整理,把巡检中发觉故障或异常情况进行统计和分析,形成季度巡检统计。并将总体巡检统计提交给设备管理员或业务部门。
2.3.6.3 提供健康巡检汇报
经过对季度巡检发觉故障数据进行分析,结合现在业主方已用资源和工具,提供完整健康巡检汇报和可行故障处理方案。处理方案内容需要业主方进行审核。并对存在问题我方能提供专业技术支持解答。
2.3.7 培训服务
为了确保设备能在运行中良好工作和人员运维水平,提供有针对性专业技能培训。使其能够熟练掌握
展开阅读全文