1、运维服务部门管理流程精品文档运维服务部管理流程说明收集于网络,如有侵权请联系管理员删除 目录1引言41.1编写目的41.2编写说明42维护理念42.1维护宗旨42.2维护范围42.3响应服务速度53维护保证53.1提供统一接口53.2提供标准化的服务质量53.3服务支持手段64维护类型64.1主动式服务64.1.1维护质量审计64.1.2客户满意度调查64.2被动式服务74.2.1电话及邮件应答服务74.2.2远端服务74.2.3现场服务74.3人性化服务75维护制度85.1值班制和专人维护制85.2服务监督机制85.3客户回访制度85.4故障定义及报告制度85.4.1.1故障级别85.4.1
2、.2支持响应时间95.5节假日服务保障制度96维护管理流程106.1运维组周例会106.1.1说明106.1.2提交文档106.2运维人员周报106.2.1说明106.2.2提交文档106.3规范使用116.4维护审计116.4.1维护过程审计116.4.2软件管理审计126.4.3硬件管理审计126.4.4文档审计127客服流程137.1定期类维护147.1.1每日147.1.1.1工作内容147.1.1.2提交文档157.1.2每周157.1.2.1工作内容157.1.2.2提交文档167.1.3每月177.1.3.1工作内容177.1.3.2提交文档187.1.3.3注意事项187.2不
3、定期类维护187.2.1需求变更197.2.1.1工作流程197.2.1.2提交文档207.2.2割接上线227.2.2.1工作流程227.2.2.2提交文档247.2.3程序优化247.2.3.1工作流程257.2.3.2提交文档257.3故障类维护267.3.1故障处理流程267.3.1.1工作流程277.3.1.2提交文档297.3.1.3故障响应297.3.2HA切换流程297.3.2.1工作流程307.3.2.2提交文档308维护性能指标308.1系统主机部分308.2应用系统部分311 引言1.1 编写目的本文档将指导各地运维组有效、高质的实施服务。包括:维护理念、维护类型、维护制
4、度等。在维护工作未开展之前,需各个运维主管认真阅读本文档,并对运维人员进行必要的培训,使运维人员熟悉维护的流程及相关制度。在维护过程中,运维主管要严格按照此文档的流程组织维护工作,以提高、增强维护质量。在项目维护过程中,运维主管或运维人员若发现流程有缺陷或需要补充的,请及时反馈至公司,确保流程能够及时得到更新,以达到规范性、可操作性。1.2 编写说明本文档的阅读对象包括:l 公司领导l 运维主管l 项目组运维人员2 维护理念2.1 维护宗旨与客户紧密配合,尽公司所能,为客户提供快捷、优质的服务,让客户省心,让客户放心。2.2 维护范围为客户提供热线、现场服务及业务覆盖范围内的服务实施。2.3
5、响应服务速度在用户工作期间提供服务电话或邮件、现场支持,在系统出现严重故障时提供24小时支持。3 维护保证3.1 提供统一接口驻点维护作为公司服务的对外窗口,为客户提供服务,确保所有客户在工作期间,在任何时候、任何地方、出于任何原因,都可以方便地与维护项目组进行联系,获得满意的服务。3.2 提供标准化的服务质量客户的每次要求,都将在维护记录库建立,并一直被监控,直到问题得到圆满的解决。客户不需要重复同一个问题,也不用担心自己的问题有如石沉大海。每一类问题的处理将建立标准的时限要求,如果超出规定时限,公司会对相关人员做出处理。公司会对维护项目组整个维护工作进行监控和定期考核。 3.3 服务支持手
6、段4 维护类型4.1 主动式服务4.1.1 维护质量审计建议公司额外组建QA组,定期开展质量审计工作,对在用系统进行全面检查并现场分析问题,发现问题及其隐患,及时予以解决。4.1.2 客户满意度调查通过电话、信函、现场、传真、e-mail等方式向客户发放调查问卷,了解客户对公司所开发系统的技术支持情况、系统运行情况等各方面的满意度评价,并对调查结果进行统计分析,对于存在的问题及时寻求处理解决办法,以逐步提高客户满意度。4.2 被动式服务4.2.1 电话及邮件应答服务当客户出现问题或故障后需要寻求帮助,首先可以通过电话或邮件请求支持帮助和指导,及时解决问题或排除故障。4.2.2 远端服务当客户应
7、答服务无法排除故障时,在最终客户授权的前提下,可根据客户方提供的问题现象和故障描述,通过接入客户在用系统来指导客户方技术人员或直接处理系统故障。在登录访问系统前,客户需给出必要的口令。4.2.3 现场服务在维护工作中,电话应答服务及远端服务是解决问题、处理故障的第一步,因为在时效上电话应答及远程服务将明显高于现场服务。但当电话应答服务及远程服务无法解决客户提出的服务请求时,我们将指定运维人员在尽可能短的时间内在现场进行服务,以求问题的最终解决。4.3 人性化服务每个人都喜欢与众不同的东西,这是人的本性。人性化服务就是要尊重以人为本的服务理念,尊重客户个性,尊重客户的习惯,尊重客户的喜好。人性化
8、服务就是要求提供的服务能被客户所接受和喜爱,超出客户的期望值。当与无法满足客户的期望值时,需要进行分析原因并采取纠正措施,给客户一个满意的回复。5 维护制度5.1 值班制和专人维护制运维组人员将设立值班表,每日值班人员将负责系统的日常检查及日常维护。运维人员在接到客户服务请求或问题投诉,无论是否属于自己工作职责范围,都会做出反应,并将问题详细记录下来,及时解决,争取不让客户打第二次电话。5.2 服务监督机制为保证各维护项目组的维护质量,对此工作设定关键绩效指标,每月进行考核,集中进行奖优罚劣,确保维护流程得到有效地执行,从而提高维护质量。5.3 客户回访制度 通过双方建立起良好的关系,增进与客
9、户之间的沟通交流,收集、整理完整准确的客户资料信息,建立起客户档案库,是开展客户关系管理的重要前提,以逐步形成一套完整的客户信息平台。确定客户类型,并针对不同类型的客户,制定相应的回访频次及回访方式。通过电话、现场等方式回访客户,收集在用系统的问题及需求,了解客户对我公司维护工作的意见和建议,以逐步改善我们的软件质量和维护水平。5.4 故障定义及报告制度根据系统维护经验,对系统故障做了明确的故障级别定义并确定相应的故障确诊时限,并采取上报制度,保证给予客户最有效的解决方案。5.4.1.1 故障级别根据故障性质的严重性及对客户造成的影响程度,把故障分为三级:一级故障指非常严重的故障,如系统崩溃,
10、主机瘫痪等,对最终客户有直接影响,系统已不能正常工作。二级故障指次严重的故障,如系统设备不稳定,但在客户的合理使用下可以正常工作;又如系统部分性能存在问题,但不影响系统主要功能操作;以及系统运行效率极低访问速度非常慢等情况。三级故障除以上故障以外的所有故障。包括如:由于某种原因导致应用程序或硬件设备损坏,系统部分功能不能使用,等暂时不影响系统正常运行的情况。5.4.1.2 支持响应时间针对故障的不同级别,响应方式及时间也做进一步的明确:一级故障:在运维组无法解决故障时,公司立即召开技术协调会分析故障原因,如确认远程不能解决故障,立即派工程师以最快的速度,不超过24小时赶到客户现场解决故障。二级
11、故障:在运维组无法解决故障时,公司立即召开技术协调会分析故障原因,采取以下三种措施解决故障:1、 通过电话指导运维组自己解决故障。2、 公司技术小组远程解决故障。3、 工程师到客户现场解决故障。三级故障:通过电话指导运维组自己解决。如客户解决不了的,必须提交书面报告由我方派技术人员到用户现场解决。具体故障上报制度可另出规则。5.5 节假日服务保障制度节假日主要是指国家法定假日,包括元旦、春节、五一、国庆。在节假日期间,系统运行过程中出现问题时能够及时得到技术人员的支持,使在用系统得以正常运行,为客户提供放心周到的服务。6 维护管理流程6.1 运维组周例会6.1.1 说明运维主管组织项目组运维人
12、员在每周一下午14:00召开周例会,讨论处理上周遗留问题及本周需要解决的问题。6.1.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1会议纪要项目名称_会议纪要_年月日每次项目组的会议记录,包括:周例会、小组讨论会每周一下班前/公司维护经理6.2 运维人员周报6.2.1 说明项目运维人员应于每周日晚提交项目Time Sheet给运维主管,总结本周工作。运维主管也应于每周日晚提交项目Time Sheet给维护经理,总结本周维护组工作情况。6.2.2 提交文档序号文档名称文档说明1问题日志提交至运维部门经理,记录本周存在问题2工时记录提交至运维部门经理,记录本周工作情况6.3 规范使用1
13、、 文档规范所有文档都遵循模板,文档中非标题部分全部采用正文格式。2、 会议纪要每次运维组的讨论,需要指定人员进行会议记录,一般在例会后分发给相关人员,最晚不要超过当天。3、 备份项目涉及的代码程序、文档、会议纪要等资料需要由各运维主管统一保管。6.4 维护审计为帮助各运维组在维护工作上能够提高工作质量,将由QA人员不定期对各运维组进行检查及审计。6.4.1 维护过程审计l 运维组审计1、 维护组的大小是否适应系统的规模和要求。2、 维护组中人员的职责分工是否明确。3、 维护组是否有一套科学的内部管理机制和协调工作机制。l 系统总体审计1、 维护过程是否按维护规范进行。2、 运维人员的交替是否
14、按照维护规范进行。3、 是否能把握住系统运行状况达到性能管理及资源的有效利用。4、 是否记录事故及故障内容,并向用户负责人及公司维护经理报告。5、 是否找出事故及故障的原因,并采取措施防止再次发生。6.4.2 软件管理审计l 系统需求变更审计1、 有关系统的任意修改,是否按维护规范进行修改。2、 系统的修改是否按割接计划进行,是否在得到用户负责人的同意后实施。3、 在需求修改前是否对修改内容与影响范围进行了调查与分析,明确了解需求变更后将造成的影响。l 割接上线审计1、 修改程序的测试是否按测试计划进行。2、 修改的程序是否进行了与新开发的程序同等程度的测试。3、 修改程序的测试是否由用户参加
15、。4、 修改程序的测试结果是否得到开发、运行、维护及用户负责人的认可。5、 修改的程序的测试结果是否记录下来,并进行保管。6、 割接前是否向用户提交割接计划,割接后是否向用户反馈割接报告。l 割接上线后系统的运行审计1、 是否对修改前的程序及数据做好了备份。2、 运行负责人是否验证其系统不受影响。3、 运行中若出现问题是否及时恢复到修改前程序,是否对数据进行备份。6.4.3 硬件管理审计1、 是否有硬件的故障对策。2、 是否对硬件的利用状况进行记录,并定期进行分析。6.4.4 文档审计l 文档编制的审计要点1、 是否遵守文档编制规范。2、 文档的种类、目的、制作方法等是否明确。l 文档管理的审
16、计要点1、 是否制定和遵守文档管理规则。2、 文档更新是否得到相关人员认可。3、 在系统需求更新时,文档内容是否进行更新,并留下更新记录。4、 文档的拷贝及废除是否有对不正当行为的防范及机密保护的对策。7 客服流程为了保障系统的正常、可靠运行,必须有一整套客服流程来保障系统维护的操作。根据维护操作对于系统的影响,我将客户服务分为三类:第一类是定期维护,其主要操作是监测系统的运行状况、对客户的支持等,但不影响和干涉系统的正常运行,只执行“读”操作;第二类是不定期维护,其主要操作是系统有新的需求需要修改并割接到正式系统中,或因用户量、文档量增多时对程序的优化。属于“写”操作。由于该操作将影响系统的
17、运行,需要谨慎对待;第三类是故障类处理,对系统出现的故障及时予以排除。流程图如下:图表1 软件维护流程7.1 定期类维护定期类维护按以下阶段进行分类:每日、每周、每月。下面的文档提到的日报,周报,月报模板我可根据运维具体内天制定图表2 定期类维护7.1.1 每日7.1.1.1 工作内容l 系统及应用的每日检查每天的值班人员早晨到达办公室后,首先要做所有系统的日常检查。日常检查包括:硬件检查及软件检查。硬件方面主要是检查系统各项指标是否正常,软件方面主要是检查系统是否能够正常登陆,相关模块是否能够正常进入。并填写系统日报。l 客户支持接听电话、邮件支持或现场解决用户提出的问题,主要工作有: 当用
18、户发生变化时,及时调整系统内部参数设置,保障系统数据的即时性; 当客户流程发生变化时,及时调整配置文件,保证系统正确流转。 协助用户解决在使用当中遇到的问题; 发生灾难性事故时,迅速完成系统的恢复; 数据的备份及恢复;l 维护记录客户问题解决后将所解决的问题及时记入维护记录库中。7.1.1.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1系统日报项目名称_系统日报系统每日运行情况每天下班前/维护主管维护主管每周合周报一并提交7.1.2 每周7.1.2.1 工作内容l 系统全面检查在本周结束时,要对系统做阶段检查。并填写系统周报。检查包括:1、系统使用情况 CPU和Memo的平均空闲、
19、利用率 磁盘使用 系统备份2、应用系统的使用情况 *:具体的软件系统具体再说,因我现在不了解具体各的服务内容。 新增哪些应用和需求,割接上线后使用情况 存在问题及解决方案、已解决问题l 对于用户要求的响应时间 系统运行中出现的错误应立即修改; 需求的变更和增加,需运维人员对其工作量进行评估后答复用户。答复的时间不得晚于三天。 *其他,根据个地软硬件的服务内容定。l 对于应用系统在本周中存在的问题,修改时间有如下约定: 系统中出现的简单错误,由运维人员自行解决,记入维护记录库中。 对于较小程度的修改在星期一、星期二、星期三晚上进行。 对于较大程度的修改在周五晚上及周末进行。 属于比较重大的问题,
20、例如系统宕机、系统发生错误等,由运维主管安排相关人员尽快处理。 故障发生后,必须查明原因,要及时将故障处理报告上报用户负责人及公司维护经理。从中吸取经验教训,采取有效措施防止再次发生。l 更换管理员ID密码运维人员必须每周将管理员ID文件的密码更换,以防管理员身份被他人盗用。l 管理员Admin口令使用记录为防止admin的ID文件流失,被多人使用,必须在使用Admin口令后对此进行记录。7.1.2.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1系统周报项目名称_系统周报系统每周运行情况每周日之前/公司维护经理及用户负责人2Admin口令使用记录项目名称_ Admin口令使用记录管
21、理员Admin口令使用情况7.1.3 每月7.1.3.1 工作内容l 系统全面检查在每月未要对系统做全面检查。并填写系统月报。汇总当月系统的状况,提前预见、发现可能出现的问题,并针对系统情况、问题提出合理化建议。检查包括:1、系统使用情况: CPU和Memo的平均空闲、利用率 磁盘使用 系统备份2、应用系统使用情况:(月统计) 电话受理 客户端的IE升级和配置 人员组织调整 各应用数据库状态 存在问题及解决方案、已解决问题 等,具体了解了各地服务内容可增减l 统计维护记录将本地的维护记录库,传送给公司维护经理,以便公司掌握各运维组的系统日常运行过程中出现问题的频率及类型,从而为优化和完善系统提
22、供信息,维护经理将提交公司研发中心加以改进,并将改进方法通知各运维主管,使系统越来越完善。l 发布公告将本月系统中人员调整、新增功能、问题解决办法以公告的形式在系统中向用户公布,增强客户对系统的信任度。l 月度总结由运维人员填写月度工作状况总结表提交给运维主管,运维主管也需要填写,最后由运维主管以项目组的方式提交给公司维护经理。l 维护值班表提交用户负责人下月维护值班表,和用户说明每天的值班人员。7.1.3.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1系统月报项目名称_系统月报系统每月运行情况每月月未/公司维护经理及用户负责人2统计维护记录项目名称_维护记录_月份以excel方式
23、将本月的维护记录进行统计3月度工作状况总结表姓名_月度工作情况总结表运维人员每月工作状况总结4维护值班表项目名称_月份_维护值班表下月运维人员值班表记录7.1.3.3 注意事项 日常维护中如在工作时间若发现系统故障,非客户要求下决不能进行更改。非工作时间发生故障,应立即解决。 若故障影响到系统使用,在经得用户负责人同意的情况下,进行故障处理。 若故障不会对系统使用造成大的影响,故障的解决时间为当日的非工作时间。 若当日的非工作时间不能解决故障。安排在当周的休息日进行解决。 如发现办公系统的服务器进行了HA切换,则应在用户下班后再切换回正确的服务器。决不能在用户上班时进行切换,以防对用户的工作造
24、成影响。7.2 不定期类维护不定期类维护包括:需求变更流程、割接上线流程及程序优化流程。图表3 不定期类维护7.2.1 需求变更7.2.1.1 工作流程需求变更过程主要是依据用户或项目人员提出的需求变更请求与用户进行协调,以确认需求更改的可行性、合理性、工作量和影响范围。图表4 需求变更流程图7.2.1.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1需求变更申请单需求变更申请单此文档由用户提供,用户在提出需求变更时需提供此单给运维人员1需求变更分析项目名称_需求变更分析 运维主管根据需求变更的内容分析其对项目各个方面的影响需求变更分析后/公司维护经理2需求变更记录单项目名称_需求变
25、更记录单记录需求变更需求变更修改完毕/公司维护经理7.2.2 割接上线7.2.2.1 工作流程图表5 割接上线流程7.2.2.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1测试用例及报告项目名称_测试用例及报告_年月日在开发服务器上的对新开发功能的测试描述新增功能测试后/用户负责人2割接计划项目名称_割接计划_年月日在生产系统上进行割接工作之前制定的割接计划割接上线前/用户负责人及公司维护经理3割接申请割接申请_年月日申请在生产系统上进行割接工作割接上线前/用户负责人4割接报告项目名称_割接报告_年月日在生产系统上割接成功后向用户负责人提供的报告割接上线后/用户负责人及公司维护经理
26、5割接失败报告项目名称_割接失败报告_年月日在生产系统上割接失败后向用户负责人提供的报告7.2.3 程序优化由于应用系统在使用过程中会不断的有需求变更和需求增加,这些增加和变更的程序迫于时间压力上线后可能会存在一些问题,为系统的稳定运行造成一些隐患。所以要定期对运行的程序进行优化,并形成相应的版本。定期检查各个应用数据库的大小,使用百分比。优化首先应当在测试服务器上进行,当确定运行没有问题后,以报告形式报用户负责人批准,在用户下班后在生产系统中进行割接。7.2.3.1 工作流程图表6 程序优化流程7.2.3.2 提交文档序号文档名称命名规则文档说明提交时间/接受人1系统运行报告项目名称_系统运
27、行报告_年月日在开发服务器上的对新开发功能的测试描述程序优化后/用户负责人及公司维护经理2优化方法可作为维护经验共享7.3 故障类维护故障类维护包括:图表8 故障类维护7.3.1 故障处理流程在系统上线后,客户将开始正式使用系统,故障将直接影响到客户的满意度,因此对于故障的发现、报告、处理、反馈,将直接影响到客户对我们公司的评价,故障定义有如下几种:1. 宕机:是指在用户工作时间内系统服务中止,无论是系统自动停止服务还是我方因其他原因中断服务;2. 切换:HA切换是指系统发生故障后由原应用所在服务器切换到另一台互为HA切换的服务器上。7.3.1.1 工作流程图表9 故障上报流程图7.3.1.2
28、 提交文档序号文档名称命名规则文档说明提交时间/接受人1故障处理单项目名称_故障处理单_年月日在生产系统发生故障时填写,描述故障原因、现象、解决方法等。系统发生故障15分钟内/公司维护经理及总经理2日志信息项目名称_日志_年月日系统发生故障时所产生的日志信息3故障报告项目名称_故障报告_年月日描述故障原因、现象、解决方法等。系统故障解决后/用户负责人7.3.1.3 故障响应系统发生应用系统软件故障响应时间为1小时,在2小时内保证恢复正常工作。7.3.2 HA切换流程系统发生故障并HA切换后,需要按照下列流程将系统切换恢复正常状态。7.3.2.1 工作流程图表10 HA切换流程图7.3.2.2
29、提交文档序号文档名称命名规则文档说明提交时间/接受人1HA切换记录项目名称_ HA切换记录_年月日系统HA切换的记录HA切换后/公司维护经理8 维护性能指标8.1 系统主机部分1) Linux 每个文件系统的数据目录已用空间/这个文件系统的物理空间 80%;2) 主机的CPU已使用能力/CPU总能力 70%。3) 主机系统为SOLORIS的应用程序已用内存空间/内存物理空间 70%。主机系统为AIX的应用程序已用内存空间需要从二方面去查看,一是内存空闲,一是Paging使用率,若内存空闲小同时Paging使用率 50%时,则内存不足。当各个设备的CPU利用率和内存利用率满足上述要求时,我们认为设备工作正常。若超过上限值,设备的性能将会下降,应及时处理。8.2 应用系统部分 * 这个也根据具体系统再定
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100