资源描述
4.4.1. 售后服务方案描述及相关承诺
1. 总述
1.1 项目名称
XXXXX网络设备项目.
1.2 项目背景描述
随着互联网应用的快速增长,以及下一代互联网的加速推进,短信、网游、语音以及视频宽带业务的日益火爆,电子商务的再度兴起,IDC市场迅速升温,IDC业务收入迅速增长,IDC业务的客户群也迅速增大。为了抢占潜在客户资源,大力推广IDC业务,这样就需要建设一个侧重中、高端客户,兼顾低端客户需求的IDC机房系统。
1.3 服务期限及范围
为XXX核心网络设备(含2台防火墙,2台交换机,2台路由器),其检修和维护。我公司将按质按量完成XXX核心网络设备维护修理维护服务.
1.4 实施目标
为XXX核心网络设备提供优质的维护修理服务,并对2台防火墙,2台交换机,2台路由器统提供卓越的技术支持与运行维护服务。保证2台防火墙,2台交换机,2台路由器运行稳定.
1) 我方通过严格的修理维护服务,保证相关本次所涉及的相关软硬件的高效稳定运行。
2) 我方具备应急处理能力并制定了完善的应急预案,减少计划内和计划外的停机时间,最终能够保障电力业务核心系统每周7天×24小时不间断稳定运行。
3) 我方定期对现有软硬件平台系统运转状况进行巡检、跟踪和分析,科学地预测和掌握软硬件平台系统的性能状态,提出科学合理的扩容和升级建议。
4) 我方在维护中熟悉各主机上承载应用系统,结合IT系统和业务应用的具体实际情况,查漏补缺,提出整改建议,配合应用厂商不断优化系统整体性能,提高系统运行整体效率。
1.5 术语定义
1) 业主方:xxxxx团有限公司.
2) 故障级别定义如下:
l P1级故障:重大故障,系统瘫痪,无法运行,业务丢失。
l P2级故障:系统部分设备故障,影响和限制了部分业务运营.
l P3级故障:一般性技术故障,发现系统和设备的技术问题,但系统和业务仍可正常运行。
l P4级故障:在系统功能配置、运维管理方面需要信息或支援,对用户的业务几乎无影响。
47
2. 总体实施方案
2.1 服务流程
xxx有限公司将根据XXX核心网络设备(含2台防火墙,2台交换机,2台路由器)服务内容制定了相关的服务流程,以下流程适用于本项目的含防火墙,交换机,路由器流程.
2.1.1 高级故障诊断及检修流程
1) 针对系统、设备发生的一级、二级故障进行响应,分别在规定时间内进行维修、恢复服务。其中紧急重大故障要求15分钟内到达现场处理。
2) 我方提供服务相当于原厂技术服务水平。并提供电话或现场技术咨询和技术支持服务。
l 服务流程图
l 服务流程说明
序号
步骤名称
责任人
说明
1
服务台响应
服务台
Ø 服务台人员接受来自用户上报的故障以及各类服务请求。在验证用户基本信息后,服务台人员在服务管理平台上登记一条故障信息并进行跟踪和处理,并创建故障事件单。
Ø 服务台人员判断故障是否重大事件,如重大事件将立刻通知现场支持人员到现场。如不是重大故障,将根据故障级别及故障类型,安排工程师进行故障处理
Ø 如果是一条重复事件,则新建该事件记录后,更新原有事件为“主事件",并建立重复事件与原有事件的关联关系。
Ø 如果是一条复发事件,则创建一个新的事件单,复制原始事件单的内容,并说明这是复发的事件.
2
故障现场相应
现场支持人员
Ø 根据服务台所描述的基本故障情况,现场支持人员将在15分钟内到达故障现场,为用户处理故障
3
远程调查与诊断
服务台支持人员
Ø 服务台人员根据事件分类表确认事件的分类,根据事件的影响度和紧急度,为事件分配优先级。
Ø 分析故障原因,在知识库中查询是否有解决方案,制定初步的故障处理方案.
Ø 如故障是由于设备硬件引起或远程无法处理时,将通知现场维护人员,到现场处理处理故障.
Ø 进行调查诊断,尝试解决,必要时联系第三方供应商协助处理。
4
现场调查诊断
现场支持人员
Ø 现场支持人员在现场判断故障情况,根据故障的具体情况,制定解决方案。
Ø 判断故障是否需要更换部件,如需更换备件,我方将联系仓管调出设备配件,并负责设备的安装和卸载。
5
更换设备或部件
现场支持人员
Ø 更换完设备后再对故障进行检测,如故障未被处理,将继续对故障进行分析,彻底解决故障问题。
6
解决与恢复
服务台、现场支持人员
Ø 按照制定好的解决方案对故障进行处理。
Ø 判断实施解决方案是否可行,并制定变更方法。
Ø 实施成功后,详细记录解决方案或变通方法。
7
事件关闭
服务台支持人员
Ø 将故障处理情况提交至知识管理。
Ø 关闭事件。并对故障记录进行归档,再制定用户回访计划。
8
用户回访
服务台支持人员
Ø 向用户确认故障是否已得到解决。
Ø 确认用户是否报告其他问题。
Ø 用户反馈故障处理情况,并对本次服务进行评价。
2.1.2 设备调优流程
1) 针对长期出现资源瓶颈的设备进行分析,提出解决方案或优化方案。
2) 对系统进行定期评估,给出评估优化方案.
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
设备性能检测
服务器、存储支持工程师
Ø 利用有效的工具对设备进行检测.
Ø 对设备进行健康检查,标记存在资源瓶颈的设备。
2
统计资源瓶颈的设备数量
服务器、存储支持工程师
Ø 根据标记的资源设备进行设备统计
Ø 对资源瓶颈的设备进行故障原因分析,判断资源瓶颈的问题是由何种原因所引起。
Ø 分派问题到各个专业工程师设计解决方案。
3
硬件问题分析
服务器、存储支持工程师
Ø 分析设备硬件上的资源瓶颈问题,列出引起此故障的原因
4
系统问题分析
操作系统支持工程师
Ø 分析操作系统上的资源瓶颈问题,列出引起此故障的原因
5
平台问题分析
应用平台支持工程师
Ø 分析应用平台上的资源瓶颈问题,列出引起此故障的原因
6
数据库问题分析
数据库支持工程师
Ø 分析数据库上的资源瓶颈问题,列出引起此故障的原因
7
设计服务器、存储解决方案
服务器、存储支持工程师
Ø 对列出服务器、存储硬件问题逐条给出处理意见与优化方案.
8
设计系统解决方案
操作系统支持工程师
Ø 对列出操作系统问题逐条给出处理意见与优化方案。
9
设计平台解决方案
应用平台支持工程师
Ø 对列出应用平台问题逐条给出处理意见与优化方案。
10
设计数据库解决方案
数据库支持工程师
Ø 对列出数据库问题逐条给出处理意见与优化方案。
11
整合方案
我方项目负责人
Ø 整合各技术支持工程师给出的解决方案。
Ø 对解决方案的内容进行审核,确保处理意见的安全和有效。
Ø 制定实施计划,并将方案提交给业务部门。
12
业务部门审批
设备负责人
Ø 业务部门负责人对整合的方案进行审批。
Ø 按实施计划通知每个人设备负责人。
13
优化实施
各技术支持工程师
Ø 工程师按照最终的实施计划和方案对设备进行调优工作。
2.1.3 备件保修和更换流程
1) 当设备出现故障时,我方应及时进行检查、维修或更换故障部件。
2) 如果硬件设备故障,保证在2小时内提供不低于故障设备规格型号档次的备用设备替代使用,直至故障设备修复为止,以最大限度保证业务系统不间断地正常运行。
3) 若需要更换部件,其更换的部件必须是原厂的部件,与原有部件具备同等的质量和性能.
l 服务流程图
l 服务流程说明
序号
步骤名称
责任人
说明
1
故障设备检查
现场支持人员
Ø 现场检查,判断故障引起的原因和故障位置
Ø 判断故障是否能现场处理,例如通过配置等方法解决故障,即现场处理。
2
现场维修
现场支持人员
Ø 对故障进行处理,通过技术手段等解决故障问题。
3
提供备件
现场支持人员
Ø 故障由于设备的硬件引起,难以现场立刻处理,我方提供同等设备型号和功能的配件给用户使用.
4
现场安装与卸载
设备维修人员
Ø 现场卸载故障的设备.
Ø 安装我方提供的备件设备。
5
故障设备维修
设备维修人员
Ø 判断设备是否已经过保。并制定维修计划.
Ø 设备未过保,通知设备的提供商对故障设备进行修复。
Ø 设备已过保,我方提供或采购相应的备件和部件,对设备进行维修.
6
设备提供厂商维修
设备提供厂商
Ø 设备提供厂商对故障设备进行修复
7
提供所需的备件或部件进行维修
设备维修人员
Ø 我方安排专业对技术人员更换或维修故障设备。
Ø 将拆卸的故障部件进行封存,交还给设备提供商。
8
故障设备复查
现场支持人员
Ø 设备维修成功后,我方现场支持人员到现场对修复好的设备进行复位。
Ø 检查设备的运行情况,如设备还存在故障问题,我方将继续对故障进行处理与解决。
2.1.4 特保服务流程
1) 按照公司要求,对于特殊时期必须保障设备运行的,我方根据要求驻场值守和服务,完成特殊时期保障任务。
2) 需预计每年安排约有2个月的特保时间。
l 服务流程图
l 服务流程说明
序号
步骤名称
责任人
说明
1
制定特殊时期值班计划
现场支持人员
Ø 现场值班人员制定值班服务计划
Ø 值班计划包含人员的联系方式与相关设备系统的负责人的联系方式
2
业务部门审批
设备负责人
Ø 业务部审批值班服务计划
Ø 如服务计划未能满足用户的需求,将退回现场值班的人员重新设定值班计划。
3
值班
现场支持人员
Ø 按计划是时间地点到现场进行值班工作。
Ø 记录值班所需的相关表格
Ø 遇上重大事件及时通知设备负责人员
4
提交设备巡检报告
设备维修人员
Ø 汇报设备出现的安全隐患.
Ø 提交当天的值班记录和相关资料.
2.1.5 系统补丁通知及推荐流程
1) 预防式补丁服务:我方在已知服务器、存储软、硬件缺陷可能导致潜在问题的情况下,将通过配置管理或巡检等方式对用户服务器进行增补软件分析并提出版本升级建议,并由用户进行相关业务、客户影响分析后确认进行。
2) 响应式补丁服务:当设备出现故障后,我方对故障进行分析并确认是软件缺陷所导致的故障,我方将提供针对该软件缺陷的软件补丁程序,并由用户进行相关业务、客户影响分析后确认进行。
l 服务流程图
l 服务流程说明
序号
步骤名称
责任人
说明
1
制定补丁通知及推荐计划
现场支持人员
Ø 制定补丁通知及推荐计划。
Ø 判断是否有由于补丁问题造成的故障。如没有由于补丁造成的故障,将实行与预防式补丁服务,如由于补丁发生故障,将实施响应式补丁服务.
2
预防式补丁服务
服务台支持人员
Ø 预防方式的补丁服务以预防、排查隐患为主,对现有设备的安全、性能隐患制定补丁更新计划。
3
响应式补丁服务
现场支持人员
Ø 对用户所发现的故障进行处理,并且向用户提供可处理此故障的补丁程序
4
设备故障数据统计与分析
服务台支持人员
Ø 在预防式补丁服务中,对以往出现故障的设备进行统计,总结普遍的故障现象
5
配置管理与巡检常发故障设备
现场支持人员
Ø 在预防式补丁服务中,通过配置管理与巡检的方式,检查系统运行情况,定位常发故障设备的位置,查明故障发生的原因,制定相关补丁的更新计划。
6
增补软件分析
各技术支持工程师
Ø 结合故障数据统计结果与巡检所发现的故障情况,对增补软件进行评估与分析。得出适合增补的软件列表。
7
制定版本升级建议
各技术支持工程师
Ø 根据分析结果制定版本升级建议与实施计划
8
业务部门审批
设备负责人
Ø 业务部门对实施计划的内容进行审核,如发现补丁版本升级不符合要求,将返回重新制定补丁升级计划。
9
处理和分析故障
现场支持人员
Ø 在响应式补丁服务中,对故障进行的处理,在发现可以通过更新补丁来消除隐患时,我方将制定补丁更新计划,寻找相关的软件补丁。
10
提供软件补丁程序
各技术支持工程师
Ø 对寻找相关的软件补丁进行测试,通过测试后,我方将测试报告与软件补丁程序提交给用户。
11
补丁更新实施
现场支持人员
Ø 经过审批通过后,我方安装实施计划的方案与内容,对相关设备进行补丁更新工作。
2.1.6 季度巡检流程
1) 每季度提供一次健康巡检,对设备硬件、系统运行状况进行检查,排除隐含错误或安全隐患,并提交健康巡检报告。
2) 巡检的具体时间由双方协商确定.
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
制定季度健康巡检计划
现场支持人员
Ø 根据要求制定监控巡检计划与方案,内容包括巡检方式、操作步骤等。
2
业务部门审批
现场支持人员
Ø 业务部审批巡检计划
Ø 如服务巡检计划未能满足用户的需求,将退回重新设定巡检计划.
3
提供健康巡检报告
现场支持人员
Ø 实施设备的健康巡检。
Ø 记录巡检中发现的设备问题
Ø 提交健康巡检报告,汇报设备存在的安全隐患。
4
排除隐含错误
与安全隐患
设备维修人员
Ø 对报告中存在安全隐患进行处理。
Ø 问题处理后将对系统进行再次检测,检查问题处理情况.
2.1.7 培训服务流程
1) 我方定期进行运行维护技术培训,并定期与业主方技术人员进行技术交流。
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
咨询业务部门
需求
咨询受理人员
Ø 询问用户的培训需要。了解用户对培训的要求。
Ø 判断用户是否对新或难度高的技术开展技术交流。
Ø 收集业务部门提出的培训要求.按培训要求的内容、等级进行分类,组织相关人员开展培训准备工作。
2
制定培训计划
与培训内容
咨询受理人员
Ø 根据培训内容、培训的深度制定培训计划,并提交业务部门进行审批工作.
3
业务部门审批
设备负责人
Ø 业务部门对培训内容进行审核工作,对培训内容存在异议或不满意的地方,将返回修改培训计划或培训方案。
4
安排培训议程
与材料
各技术支持工程师
Ø 相关技术人员对培训方案的内容准备培训资料,并安排培训所需场地与准备相关的设备或软件。
2.1.8 系统规划(非建设项目)流程
1) 根据硬件、应用软件环境完成数据库的初步规划、安装配置工作.
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
硬件、应用环境分析
现场支持人员
Ø 对运行环境进行硬件、软件的运行分析,检查运行环境是否符运行要求。
Ø 记录硬件、应用环境的基础参数。
2
制定实施方案
技术支持工程师
Ø 根据运行环境评估与硬件、应用环境的基础参数,制定实施方案和初步规划。
Ø 提交业务部门对方案进行审批
3
业务部门审批
设备负责人
Ø 业务部门审批实施方案。
Ø 如实施方案和规划未能满足用户的需求,将退回修改实施方案。
4
实施安装配置
技术支持工程师
Ø 根据实施方案到现场进行安装、配置工作。
2.1.9 备份恢复测试流程
1) 根据业务重要性及数据安全等级要求,定期对备份数据进行恢复测试,保障备份数据完整、有效、可用.
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
数据时效性检查
技术支持工程师
Ø 技术支持工程师检查备份数据,病句业务重要性及安全级别,判断数据的有效期,如数据已过保存期,我方将对系统业务数据进行备份
2
备份系统业务数据
现场支持人员
Ø 对系统的数据进行全备份,以保证数据的完整。
3
数据恢复测试
技术支持工程师
Ø 对备份的数据进行恢复测试,并对相关功能进行操作,检查数据的准确性。
Ø 如备份数据存在异常,我方将到现场排除故障原因,分析系统故障还是备份失误导致,如不是备份失误,我方将通知相关业务部门进行故障处理。
4
备份版本控制
技术支持工程师
Ø 备份数据测试成功后,我方对备份数据尽可能保存最近5个版本的存档.
Ø 对备份数据进行版本控制,按系统、安全级别、重要性、备份时间对备份数据进行存档。
2.1.10 专家现场技术支持流程
1) 包括数据库紧急救援服务。
2) 如出现故障,导致数据库不能正常工作,服务方须尽快安排资深工程师到现场先回复应用,并保证持续跟进直到问题完全解决。
3) 如果不能解决问题,服务方需自行请专家或其他高级技术人员对系统情况进行分析,直至解决问题。
4) 服务方在接到现场系统维护请求后1小时内响应,对宕机或紧急恢复等严重问题,要求立即响应并在15分钟内到达现场.
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
现场情况调查
技术支持工程师
Ø 进行紧急救援服务,安排资深工程师到现场进行调查响应。尽快提出故障处理方案。
2
故障应急处理
现场支持人员
Ø 我方根据故障的级别、安全性对故障采取应急的处理情况。
Ø 由于设备硬件造成的故障,我方立即启动热备件.及时恢复系统的正常运行。
Ø 由于软件或设置造成的故障,我方对设置进行初始化操作,保证系统的正常运行
3
启动热备件
技术支持工程师
Ø 根据提前准备好的设备热备件,我方对设备进行更换和切换操作。恢复设备的运行.
4
故障设备修复
设备维修人员
Ø 在现场对故障设备进行一般的修复处理,如不能处理,我方将故障设备提取回维修中心进行维修。
5
更换备件
现场支持人员
Ø 故障设备修复成功后,我方把完成修复的设备安装回原位置.并把正式服务切换回正式环境。
6
恢复初始化设置
技术支持工程师
Ø 对数据库的运行环境进行初始化配置操作。恢复系统的运行环境。
7
日志文件检查
技术支持工程师
Ø 检查数据库的日志,找出数据库中存在的故障问题.
8
软件配置修复
技术支持工程师
Ø 根据存在的故障问题对数据库的配置进行修改和故障处理。
9
修复检查
现场支持人员
Ø 故障修复后对故障进行检查,排查存在的安全隐患.
2.1.11 技术支持服务流程
1) 提供电话或现场技术咨询和技术支持服务。
l 服务流程
l 服务流程说明
序号
步骤名称
责任人
说明
1
服务台响应咨询
技术支持工程师
Ø 服务台响应用户的咨询请求,对用户做出快速的请求响应。
Ø 了解用户的需要,提供有效的技术支持与咨询服务。
2
现场技术支持
现场支持人员
Ø 我方派出工程师到现场对用户的疑问进行解答。
Ø 为用户现场处理用户的故障问题。
3
用户回访
技术支持工程师
Ø 现场技术支持完成后,我方电话回访用户对服务的满意度,并咨询是否需要更还现场支持服务或变更服务
4
电话技术支持
设备维修人员
Ø 如用户需要电话直接支持,我方将采用电话的方式立即响应用户的请求,并尽可能完成用户的需求和远程处理用户的故障。
2.2 服务管理
2.2.1 实施规范管理
我方按照业主方的管理制度、修理维护规范、操作指导等相关规则制度开展修理维护服务.
为保障修理维护服务规范化的顺利执行,同时修理维护服务各个环节清晰可追述,我方任何操作必须严格按照业主方相关流程进行操作,尽量减少对业主方正常业务的干扰,每步操作须有明确的成果反馈记录,禁止任何不按流程处理的任何操作,一经发现将严肃处理。
2.2.2 人员工作规范
我方对运维人员进行明确分工及职责定义,避免运维人员无序混乱工作,职责分工需符合运行单位运维工作要求。
2.2.3 项目风险与责任
我方谨慎和用心履行合同责任,并对其员工的过失承担责任。由于我方实施人员服务不及时(没有按照合同约定时间规定)或服务操作不当,造成大量在线数据遭受不可恢复性损失,我方应负责恢复数据,并承担所有费用。由于我方原因服务不到位,我方应向业主方作出书面解释,并提出整改措施。造成损失的,我方承担全部责任。
2.2.4 人员稳定性
鉴于信息系统及设备重要性以及安全保密性,我方保证服务期内修理维护团队人员稳定,避免人员流动对业主方业务系统及设备造成安全隐患,特殊情况下人员变动需经业主方同意后方可变动,禁止未经业主方同意人员直接变动。
2.2.5 人员质量控制
我方所派出的服务人员,应能熟练胜任相关维护工作。业主方拥有向所提供的实施人员进行面试的权力。如我方人员业务能力如不符要求,业主方有权要求我方更换人员。服务人员资质要求如下:
a) 大学专科或以上学历,有3年以上类似产品维护经验。
b) 具有相应产品认证证书.
2.2.6 项目进度控制
我方技术服务团队每周向业主方项目管理部门提交维护工作周报,并抄送我方项目管理部门。为了更好的让业主方了解项目的进度和目前的情况,我方将向业主方进行以下工作:
l 每月提交工作月报,维护工作月报的内容必须包括以下内容:主要的已完成工作内容、未完成工作内容、故障处理报告、维护建议及工作计划安排.
l 技术服务团队每月度对相关工作进行总结提炼,提交运行维护工作月报。
l 技术服务团队每季度对相关工作进行总结提炼,提交运行维护工作季报。
l 技术服务团队每年对全年工作进行总结,并对下一年度工作进行规划,提交运行维护工作年报,协助系统管理员完成系统年度维护总结。
除上述文档整理工作外,我方承担业主方相关维护文档的修编配合工作。
2.2.7 项目安全控制
提供现场服务时,我方将确保其现场人员遵守业主方有关安全规定,前提是我方收到业主方提供的有关安全规定。我方有为业主方保密的义务,未经业主方许可,我方服务人员不得对业主方的业务经营数据进行增删、修改、复制、传送、记录;我方不得向任何第三方泄露业主方业务数据内容或在公开场合引用业主方数据。
2.2.8 质量控制
为保障服务质量及服务适应性,在服务期内,我方需根据服务内容发生的变化进行适应性的改进,并在修理维护过程中根据业主方的要求进行服务改进。
2.2.9 项目质量保证
服务质量要达到可衡量必须制定严格的服务SLA,我方在服务期开始时须与业主方协商制定切实可行的服务SLA,并严格遵守SLA进行修理维护服务。其服务标准如下:
一、紧急情况
当服务器宕机,数据库无法读写等一级紧急事件时,我方在1小时内响应,2小时内协助解决该情况。并在因外部原因无法立即解决时(例如服务器所在机房受到黑客攻击,服务器硬盘读写失败等事件),向客户报告情况并提供具体解决的时间。并提供一套完善的应急解决方案,帮助客户及时解决突发事件,最大程度的挽救因服务无法使用导致的损失.
二、重要情况
系统服务上线过程后,有时会出现在验收过程中没有察觉的bug,这个时候,我方积极协助客户解决该bug,具体的响应时间根据bug造成的影响程度而定。根据SLA服务标准,bug的等级亦可进行进一步的划分并制定相应的解决方案。这里不予以赘述。
三、标准情况
在系统部署阶段,因工作人员协作环节的不一致性,有可能出故障问题和兼容性问题.以及由于临时需求的变更和新增,都会对系统服务产生新的维护需求。我方按照需求的难易性和工作量制定相应的响应标准,保证客户满意度。
四、次要情况
包括服务的小调整,如数据库、中间件的配置更替等,通常在24小时内响应,双方商议的时间内进行解决即可。我方以SLA服务体系为出发点,为IT服务提供完善、标准、科学的解决方案,尽可能不影响客户满意度.
2.2.10 制定全年的支持服务计划
我方客户经理应主动地和业主方共同协商、制定全年的支持服务计划.服务计划包括以下主要内容:
a) 业务/IT系统概况,业务系统对服务的需求
b) 服务合同的工作内容,设备清单和响应服务级别
c) 我方的工作团队和职责
d) 支持服务的流程
e) 运维服务活动的计划,包括:增值服务实施、服务总结报告、回顾会议、巡检、技术交流等
f) 服务计划双方的确认
2.2.11 项目总结会议
我方客户经理至少每季度会安排与业主方一起召开系统运行和服务情况定期总结回顾会议,内容包括但不限于:
a) 总结前一段时间服务实施的情况
b) 回顾升级问题/重要问题的处理过程
c) 听取运行单位对服务的反馈意见和服务需求
d) 同业主方运维经理们讨论服务改进措施
e) 讨论、修订服务计划。
2.3 维护内容
我方将根据xxx有限公司服务器、存储设备、虚拟化服务器、A认证系统服务内容简要的介绍常见故障所采用的维护解决办法,在实际的应用中,我方会根据实际情况进行相应的修改与优化。
2.3.1 服务器故障诊断
计算机故障类型以及故障的诊断手段有很多,对于服务器(IBM服务器为例)故障采取以下2种诊断方式:
2.3.1.1 硬件故障诊断
诊断并排除由硬件引起的故障,先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有~标记.对于高端服务器,应检查UEPO开关上的系统故障指示灯是否亮,检查部件故障灯,如I/O drawer、PCI卡,硬盘等.
所有安装的部件(如CPU book)所对应的绿色LED应长亮.任何故障指示灯(橙色)都应不亮,设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来.除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。
检查服务器网卡状态、IP地址是否正常。网卡的设置应与交换机端口的设置匹配。检查网卡通信是否正常,如是否丢包,速度是否正常等。并且检查路由表是否正常、/etc/hosts文件或DNS设置是否正常等。
2.3.1.2 软件故障诊断
诊断并排除由软件(操作系统和应用软件等)引起的故障可以先查看系统日志相关软件报错的记录,同时登录软件检查当前应用使用状态、软件应用进程等进行多方面的诊断。
2.3.2 检测服务器、存储设备运行情况
对于一个系统而言资源总是有一定限度的,而任务总是要消耗系统资源的。关键是要找出哪些资源不能满足应用程序运行的需求.这里存在一个性能瓶颈的问题。不同的应用程序可能会有不同的资源要求,可能会产生不同的瓶颈。系统资源中的CPU、内存、磁盘或是网络都有可能成为瓶颈。系统性能调优需要找出这些资源成为瓶颈的原因,是资源的不足,是系统设置不合理,还是应用程序的问题。
查找性能瓶颈的顺序非常重要,正确的顺序是:CPU 〉 内存 〉 I/O > 网络,如下图所示:
CPU 瓶颈=
否
是
采取对策
内存瓶颈
否
是
采取对策
I/O瓶颈
否
采取对策
是
采取对策
网络瓶颈
是
否
继续测试
采取对策
2.3.2.1 查看CPU瓶颈
通过查看当前服务器CPU使用情况判断CPU的使用情况,一般情况下CPU使用率不应该长期超过80%,如出现CPU使用率长期处于甚至超过80%的情况,则初步可判断CPU资源不足,出现瓶颈。
2.3.2.2 检测内存问题
部分厂商服务器在内存使用上模式默认最大化使用,因此内存的使用率不能作为是否存在内存瓶颈的依据。如果达到内存瓶颈,此时检查系统内存交换区的使用,会发现使用率较高.
由于有大量的内存页面写入内存交换区,这会导致wa(I/O等待)值上升,但此时并非I/O瓶颈引起。
当内存交换区使用率超过70%时需要增加交换区的大小。但增加内存交换区的大小并不会提高系统的性能。相反,内存交换区使用越多,系统性能下降越多。当内存不足时,正确的方法是增加物理内存的数量或优化应用程序。
2.3.2.3 查看系统的I/O情况
磁盘的数据流量很大程度上与应用程序的I/O方式相关。某些应用程序的I/O SIZE可能非常低,而且产生大量的随机读写操作,从而使硬盘的读写效率大大降低,导致CPU的I/O等待增加。
有时I/O问题是I/O带宽不足引起的.当所有连接在一块I/O卡上的硬盘的流量总和达到I/O卡带宽的70%以上时,应考虑增加更多的I/O卡。
数据的分布也是很重要的因素。通常把数据分布到更多的硬盘上更有利于提高I/O性能。
2.3.2.4 查看网络的情况:
对于网络问题可以通过检查服务器端口情况、网线速率、端口模式,甚至通过服务器与服务器、服务器与测试设备之间进行链路测试、传输速率测试检测服务器网络上的问题,必要时需要网络工程师检查交换机层面的健康情况加以分析判断.
如果都没有发现系统有资源上的瓶颈,则很可能是应用程序的问题,需要应用程序开发商进行进一步的分析.
2.3.3 服务器备件检修
服务器备件保修主要以更换设备为主,并对造成备件故障的原因作出分析,最后通过分析的故障结果.对所有故障进行排查,不能单单只是更换备件这么简单,服务器备件一旦发生故障不一定是其本身问题,极大情况下是外部环境所造成。因此,服务器备件检修需要考虑其使用环境,从根本上解决故障问题,防止其它备件的损坏。
2.3.3.1 服务器备件硬件故障维修
对于一般的设备硬件的故障,我方采用以下方式采取维修处理:
序号
故障类型
维修方式
操作方式
1
内存条损坏
直接更换
现场更换
2
主板元器件损坏
直接更换
现场更换
3
阵列损坏
先进行数据恢复,再更换硬盘
数据恢复需离开现场.
备件现场更换
4
电源损坏
直接更换
现场更换
5
指示灯损坏
先检测健康状态,再更换指示灯
现场更换
6
CPU风扇损坏
直接更换
现场更换
7
数据线损坏
直接更换
现场更换
8
CPU损坏
直接更换
现场更换
9
光驱损坏
直接更换
现场更换
10
电源线损坏
直接更换
现场更换
11
相关数据接口损坏
直接更换主板
现场更换
2.3.3.2 服务器软件故障维修
对于服务器的软件方面故障,我方采用以下方式采取维修处理:
序号
故障类型
维修方式
操作方式
1
系统崩溃
重装操作系统
现场操作
2
中木马病毒
安装杀毒软件杀毒
远程操作
3
驱动不匹配
安装正确的驱动
远程操作
4
软件不兼容
安装兼容软件
远程操作
2.3.3.3 服务器备件修复与后续保养
如以下因素导致备件的故障,我方在处理完备件的维修后,再对备件周边的环境进行保养处理工作.具体可参考以下几个方面:
l 服务器备件受潮短路。
备件受潮湿因素导致的故障,我方对服务器周边的环境进行除湿处理.主要以空调除湿或吸湿海绵为主。
l 服务器备件受过热短路.
备件受过热短路因素导致的故障,我方对服务器周边的环境进行降温处理。主要以空调降温或更换服务器散热风扇。
l 服务器备件积尘导致短路。
备件积尘短路因素导致的故障,我方对服务器周边的环境进行除尘处理。主要以吸尘机或毛刷工具为主。
l 服务器备件是否电源电压不稳定造成短路。
备件电源电压不稳短路因素导致的故障,我方对服务器周边的环境进行电压检测,看是否有漏电的情况,并更换电源。
2.3.4 特保服务
我方按照公司要求,对于特殊时期必须保障设备运行,并根据业主方要求驻场值守和服务,完成特殊时期保障任务.并且每年安排约有2个月的特保时间.
2.3.4.1 特保服务常规服务内容
l 我方值班人员要认真检查设备的运行情况,包括电源、服务器指示灯及一切隐患.确保服务器设备的一切安全。
l 做好安全监控工作。预防各种事故和事件的发生.
l 检查软件的日志文件是否完整。
l 检查设备的电压及温度.
l 值班人员做好值班记录,并记载重要事情。
l 有重大问题及时向上级设备管理人员报告。
2.3.4.2 特保服务工作责任
l 我方值班人员值班期间,不能脱岗,认真值班。全天24小时确保有人在值班监控设备的运行。
l 做好交接班等有关工作。
l 值班人员要做好安全防范工作,遇设备周围环境的变化,应及时做出相应处理;
l 保证值班人员人员及相关技术工程师的电话畅通。
l 坚守值班岗位,不擅离职守.时刻提高警惕,做好值班期间的工作。
l 值班严格按照操作手册执行,不违反值班制度和操作章程。
l 值班人员在特殊假日放假值班期间为设备运行及安全工作的第一责任人。
2.3.4.3 特保服务保证
l 值班人员提高自觉性与主动性,确保设备安全、稳定运行。
l 在值班期间坚守工作岗位,不得无故让他人替岗,严禁饮酒。
l 值班期间保证电话畅通,遇到重大事情,必须报告上级领导并做好临时处理措施,积极处置.
l 认真做好值班记录,对设备异常及安全防火情况等,必须认真检查。
l 值班员工在值班时间内,坚守岗位,不迟到、早退和缺岗。
2.3.5 系统补丁通知及推荐
我方将对以下补丁采取相关的补丁更新通知与补丁更新操作的服务。并对需更新的补丁进行测试工作.以下系统补丁服务的相关内容。
2.3.5.1 补丁收集与整理
我方对以下补丁通过不同的途径进行补丁资源的收集,补丁的出处要求是官方的补丁,如补丁不是官方提供,将对非官方补丁进行测试。
序号
故障类型
收集方式
收集途径
1
服务器硬件BIOS补丁
服务器厂商提供
由官方通知
2
存储设备补丁
服务器厂商提供
由官方通知
3
Windows操作系统补丁
微软官方网站
微软最新公告
4
Linux操作系统
官网或论坛
论坛公告
5
Aix操作系统补丁
IBM官方网站
IBM官方网站公告
6
Unix操作系统补丁
官网或论坛
论坛公告
7
Oracle软件补丁
官网或论坛
论坛公告
8
Weblogic软件补丁
官方网站
官网公告
9
Tomcat软件补丁
官网或论坛
现场更换
10
其他软件补丁
官网或论坛
现场更换
11
…
…
…
2.3.5.2 补丁更新测试
补丁更新之前,有必要对其进行完整的测试,确保其适合于当前运转的设备或系统,否则有可能带来不必要的麻烦。但是对补丁进行测试是一项繁琐的工作,我方使用测试技巧和脚本,快速有效地测试补丁。
为针对如此多的产品以及不同版本的补丁,我方使用一套自动化补丁测试过程,建立一套完整的系统环境,模拟设备或系统的运行状态,确保补丁更新测试的可行性。
2.3.5.3 补丁更新操作
在部署补丁之前,我方确保已进行补丁测试,以确保它们不会破坏系统现有的功能。在补丁测试前对系统或相关资源进行备份处理,确保补丁更新万无一失,并且我方有专业的专家支持,在补丁更新出现故障时,保证能快速有效进行系统恢复。
2.3.6 月度巡检
为了更好地落实现巡检工作,我方制定了月度巡检工作,并对月度检查做出书面报告。进一步保障了设备正常运行和预防了设备发生故障事故的风险.同时,通过月度巡检能尽早的发现安全隐患。具体措施如下:
2.3.6.1 月度巡检检查
月度巡检检查主要包括设备周边环境、周边设备、通讯及网络设备、服务器设备的检查,其检查内容如下:
l 设备周边环境检查
检查设备周边的温度是否正常、痕迹是否存在异常、有否异响、温度是否正常、清洁是否符合要求、是否存在异味等.
l 设备周边设备检查
检查UPS电源是否正常、空调是否正常、电池组是否存在异常、消防是否符合标准和要求等。
l 通讯及网络设备检查
防火墙及流量控制方面,网络通讯状态是否正常、网络流量是否过多等。而网络口检查主要包括数据指示灯有否异常、网络通讯状态是否正常、端口及网线状态是否正常等。
l 服务器设备的检查
服务器硬件故障灯是否正常、如发生故障将记录详细的故障现象与解决方法,补丁是否已经更新、防病毒软件的病毒库是否已经升级、文件系统是否出现错误,日志文件的设置及运行是否正常,磁盘卷组是否存在失效状态。
2.3.6.2 巡检数据整理
经过
展开阅读全文