1、YYYYYYY运维服务工作总结目 录1概述42运维项目背景43运维目的44运维人员配备55运维工作总结65.11-8月份65.1.1XXXX系统测试与布置75.1.2协助XXXX机房搬迁75.1.3二线专家支撑75.1.4XXXX系统优化85.29-12月份85.2.1系统运维支撑95.2.1.1系统巡检方式95.2.1.1.1远程方式95.2.1.1.2现场方式105.2.1.2系统维护巡检内容105.2.1.2.1远程方式巡检内容105.2.1.2.2现场方式巡检内容105.2.1.3系统运营分析115.2.1.3.1系统CPU分析115.2.1.3.2系统内存分析115.2.1.3.3系
2、统硬盘空间分析115.2.1.3.4系统进程运营分析115.2.1.3.5系统故障分析125.2.1.4现网作业工作125.2.2业务协维135.2.2.1系统业务管理135.2.2.2运营支撑内容135.2.2.3ZS业务客户服务与支持135.2.2.4运营数据分析145.2.3专家服务145.2.3.1运维体系建立145.2.3.2输出文档145.2.3.3运维、系统二线支撑155.2.3.4运营优化155.2.3.5XXXX应用接入155.2.3.6运维风险评估155.2.4系统定制开发156规范运维流程167总结与来年展望161 概述对于XXXX来说是具备历史意义一年,XXXX成功上线
3、到接入第一种业务系统:集团采购门户系统,揭开了XXXXXXXX认证一种新篇章,XXXX公司作为XXXX运维服务方,在历史一年即将过去,通过对XXXX运维工作进行年度总结,从中发现工作中局限性,在后来工作中逐渐改进。2 运维项目背景3 运维目的XXXX公司为XXXX系统提供运营维护服务涉及,XXXX软件系统、系统有关主机设备、操作系统、数据库和存储设备运营维护服务,保证XXXX系统整体正常运营,减少整体管理成本,提高XXXX系统整体服务水平。同步依照寻常维护数据和记录,提供XXXX系统整体建设规划和建议,更好为XXXX发展提供有力支持。同步XXXX公司为XXXX系统提供业务协维服务,涉及业务系统
4、接入前期业务支撑、业务系统接入后期业务支撑,为业务系统提供专业业务指引、开发指引,以便各业务系统迅速接入XXXX系统。XXXX系统构成重要可分为两类:硬件设备和软件系统。硬件设备涉及网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。XXXX公司通过运营维护服务有效管理来提高XXXX系统服务效率,结合顾客既有环境、组织构造、IT资源和管理流程特点,从流程、人员和技术三方面来规划顾客网络信息系统构造。将顾客运营目的、业务需求与IT服务相协调一致。XXXX公司提供服务目的是,对顾客既有XXXX系统基本资源进行监控和管理
5、,及时掌握网络信息系统资源现状和配备信息,反映XXXX系统资源可用性状况和健康状况,创立一种可知可控IT环境,从而保证XXXX系统各类业务应用系统可靠、高效、持续、安全运营。4 运维人员配备XXXX运维团队驻点工程师业务协维工程师二线专家XXXX运维人员梯队构造人因素是决定运维服务好坏最重要因素,合理人力配备可以提高运维质量和效率,保障运维工作顺利开展,XXXX公司通过人力资源整合与配备,形成了驻点工程师、业务协维、二线专家人员梯队构造,更好地适应XXXX运维工作开展。驻点工程师担着XXXX运维工作积极发起者角色,通过积极对XXXX系统,从硬件、软件各方面进行巡检,保证XXXX正常运营。 业务
6、协维工程师站在业务角度,解决XXXX顾客业务问题,协助XXXX公司运营人员。二线支持为顾客提供专业技术更强技术支持服务,进一步研究疑难事件和问题,并在需要提供现场服务状况下及时到现场为顾客排忧解难。通过三方面人员间明确分工和紧密配合,形成了较为合理运维人力配备。XXXX公司人员配备如下:工作角色姓名合同规定实际发生状况工作量(人月)服务周期工作量(人月)服务周期5 运维工作总结5.1 1-8月份1月份到8月份,XXXX处在系统测试与布置阶段,XXXX公司提供服务为系统进行全面测试、布置、业务协维、协助XXXX机房搬迁等内容,共计提供215人天运维服务工作,其中XXXX上线测试投入4人共56人天
7、;系统布置上线共投入3人共 48人天;XXXX机房搬迁投入1人共8人天;二线支撑投入1人共83人天;XXXX系统优化投入1人共20人天。 运维工作量按月分布图工作类型1月2月3月4月5月6月7月8月共计所占比例系统测试 (人天)000001823155616.2%系统布置 (人天)0000008404816.2%XXXX机房搬迁(人天)00000080816.2%XXXX优化(人天)015000032209.3%二线支撑(人天)4573101219238321%总计(人天):4207310306180215100%5.1.1 XXXX系统测试与布置XXXX按照XXXX基地实际业务需求定制开发,
8、开发项目组内部测试通过后,需提交到运维人员内部及XXXX内部进行测实验证,运维人员内部由XXXX公司业务协维工程师和驻点工程师3人共同完毕,涉及XXXX基本业务功能,如ZS申请、ZS审核、ZS下载、ZS批量申请等,共完毕测试用例138起。依照XXXX需求文档及测试用例严格执行,业务功能基本符合规定后,XXXX公司工程师正式布置上线XXXX系统。 5.1.2 协助XXXX机房搬迁XXXX在7月份进行机房搬迁,XXXX工程师协助XXXX局方完毕服务器搬迁,涉及服务器网络调试、XXXX系统应用布置等。5.1.3 二线专家支撑1-8月份二线支撑服务重要涉及如下工作:l 对XXXX开发人员及测试人员提供
9、专业知识指引。l 制定XXXX系统现网作业方案(版本升级方案、新版本产品阐明;patch升级 方案,打完patch后产品阐明;系统调节方案;相应升级回退方案)l 解答XXXX等局方人员技术难点。某些工作明细:工作类型工作任务工作描述其她业务OFFLINEXXXX、OCSP数据库连接一段时间后超时分析日记发现oracle连接在建立8小时后会自动断开,故需要使用连接池来避开这个问题。对OFFLINEXXXX、OCSP与数据库连接方式进行改造,改为连接池方式,解决了问题。远程支持XXXX tomXXXXt启动异常日记显示TomXXXXt启动时,连接JBoss EJB服务异常,检查JBoss EJB状
10、态,发现EJB对外暴露ip地址是192.168.8.2,而XXXXwebjndi配备指定为127.0.0.1,故找不到EJB服务。指引运维人员启动XXXX JBoss时不加-b参数,解决了问题。其她业务局方但愿XXXX能支持此前采购BJXXXXkey,有关改造工作调研沟通得知此批KEY厂商为飞天,与飞天技术人员沟通,提出改造需求,由她们评估改造可行度,将成果反馈给局方。其她业务XXXX控件对多厂家key支持与需要支持厂家技术人员联系,给她们阐明需要定制需求,并跟进进度。5.1.4 XXXX系统优化针对XXXX布置上线进行全面测试后浮现BUG进行修复:优化类型内容描述修复BUG对OFFLINEX
11、XXX、OCSP增长数据库连接池,解决这两个模块应用与数据库连接一段时间后超时问题。修复BUG由于审计页面存在各种元素id为log,导致OCSP审计页面显示异常,修复此问题。修复BUG除RA外,其她分系统审计功能有问题,点“审计”页面弹出窗口提示“该密钥集未被定义”。由于审计功能记录日记时,指定操作员ZS容器为ipass-key,由于容器不对,初始化时出错。修复此问题。修复BUG数量记录导出excel乱码,由于产生excel文献内容时没有指定字符编码,修复此问题。修复BUGXXXX公司ZS管理查询成果只有一条ZS时,不能做吊销。由于页面JS有错,修复此问题。5.2 9-12月份9-12月份,X
12、XXX平衡运营同步,成功接入集团采购门户系统与XXXX基地4A系统,为这两个系统提供最高档别安全保障。按XXXX公司规定,XXXX公司配备4位运维人员,涉及两位驻点工程师与两位业务协维工程师,到XXXX基地现场办公,可以及时响应XXXX局方规定。XXXX公司为XXXX提供全面运维服务,涉及硬件巡检、软件巡检、XXXX系统巡检、业务协维、二线专家支撑等,共计445人天,其中硬件巡检46人天,软件巡检46天,XXXX系统巡检90天,故障解决2天,业务协维174天,二线专家支撑87天,其中10人天为晚上加班。运维工作量按月分布图工作类型9月10月11月12月共计所占比例硬件巡检与监控(人天)1112
13、11124610%系统软件巡检与监控(人天)111211124610%XXXX系统巡检与监控(人天)222322239020%XXXX系统故障解决(人天)110020%二线支撑(人天)222022238729.4%业务协维(人天)4440444617421%总计(人天):111108110116445100%5.2.1 系统运维支撑 5.2.1.1 系统巡检方式5.2.1.1.1 远程方式 因XXXX系统机房某些办公设备还没准备好,因此只能通过远程连接服务器方式,对各个服务区及服务器进行巡检,巡检内容如下:区域服务器地址5.2.1.1.2 现场方式现场巡检方式是驻点工程师通过到达XXXX机房内
14、部,通过观测各服务器硬件批示灯、电扇运营等,检查服务器系统运营状态,巡检服务器数量如下:设备名字数量(单位:台)Linux服务器8Unix服务器6磁带库服务器1互换机17加密机7防火墙105.2.1.2 系统维护巡检内容5.2.1.2.1 远程方式巡检内容l 检查服务器CPU使用状况l 检查服务器硬盘使用状况(针对home目录)l 检查服务器内存使用状况l 检查系统进程运营状况l 通过查看日记,检查系统运营状况5.2.1.2.2 现场方式巡检内容l 各服务器批示灯l 各服务器电扇运营状态l 互换机批示灯状态l 检查机房实时温度与否达标l 检查机房设备温度与否过热l 检查机房卫生与否符合规定l
15、有无暂时接线搭线未清理5.2.1.3 系统运营分析5.2.1.3.1 系统CPU分析各服务器CPU运营均都处在正常指标(CPU使用率=85%)范畴内,详细如下:5.2.1.3.2 系统内存分析各服务内存使用正常,没有发生内存占满或内存溢出等故障,保证了各服务进行运营:5.2.1.3.3 系统硬盘空间分析 各服务器空间以小幅度速率增长,健康状况良好:5.2.1.3.4 系统进程运营分析服务器应用进程处在正常状态,详细如下:区域服务器地址系统名字进程检查状况5.2.1.3.5 系统故障分析XXXX系统9-12月浮现故障状况如下,在故障发生第一时间,运维人员收到监控系统邮件告知,并在收到邮件告知第一
16、时间进行解决,并把故障因素通报XXXX公司有关负责人,在完毕后进行记录、整顿,输出相应故障报告等:故障浮现时间故障服务器故障起因故障影响与否修复-9-24 11:30192.168.8.2网络问题由于8.1和8.2服务器做是负载均衡8.2浮现暂时连接不上,不影响业务正常运营已修复(机器网络不通,重启后恢复正常。-10-25 192.168.6.6数据库服务器硬件问题 当前未对外提供服务,本次故障未导致对外服务影响。已修复5.2.1.4 现网作业工作任务简介任务描述执行人备注制作模板生成个人,公司,服务器模板,有效期为3年 签发操作员ZS签发LA操作员ZS模板备份系统既有模板进行备份系统升级系统
17、920版本布置上线,并进行功能测试防火墙操作核查防火墙配备系统升级XXXX V001R001B004版本上线升级核算数据去后台数据库核算数据系统布置安装布置XXXX业务监控系统系统备份去机房配合粟钫对防火墙进行配备、对ocsp数据库进行排错定位、对备份服务器配备硬件支持现场协助惠普工程师解决数据库服务器问题,最后硬件故障解决, p数据库恢复正常IDS加电检查检查绿盟IDS入侵检测设备加电状况渗入测试配合华为对XXXX系统进行入侵检测和渗入测试软件验收XXXX软件验收KMC、XXXX某些应急演习配合XXXX局方进行XXXX系统应当演习 5.2.2 业务协维5.2.2.1 系统业务管理 l 创立Z
18、S模板:因项目需求创立项目合用ZS模板,并做好模板备份工作。l 创立受理点:为项目创立新受理点,配备人员等。l 创立应用类型:为集团采购部项目创立单独应用类型,便于项目ZS量记录及数据分析。l 操作员权限分派:一方面满足项目需求,另一方面依照安全规范分派。l 系统升级上线业务功能测试,保证系统业务功能可用性与完整性。l XXXX系统内部全面测试:完毕内部系统测试,为XXXX系统软件功能验收测试做好充分准备。l 系统监控系统功能布置前测试及功能演示等工作。l 参加XXXX系统定制开发需求评审并提出修改意见,与开发人员配合讨论确认方案,保障开发前需求评审及方案制定工作顺利完毕。l 配合南基4A系统
19、接入联调测试。5.2.2.2 运营支撑内容l 受理集团上线。l 等。l 平台有关人员对XXXX问题。5.2.2.3 ZS业务客户服务与支持受理集团ZS业务客服征询与故障投诉申报;ZS业务流程征询、ZS使用问题技术支持。1) 指引、FAQ等寻常文档输出:ll XXXX业务系统接入指引l CMXXXX Open API需求规格阐明书2) 系统业务测试:系统920版本布置前测试,及功能演示,上线后功能验证等工作。3) 系统业务测试:系统1129版本布置前测试,及功能演示,上线后功能验证等工作。5.2.2.4 运营数据分析此图为XXXXZS发放分析XXXX发行月度记录分析记录指标8月9月10月11月1
20、2月共计指标分析阐明:l5.2.3 专家服务5.2.3.1 运维体系建立制定规范制度:规范ZS发行、客户服务等工作流程行为,基于经验、结合CMXXXX业务特性,制定了CMXXXX数字ZS发行规范、CMXXXX数字ZS客户服务规范等文档。为建立健全运维、运营体系提供了坚实基本。5.2.3.2 输出文档l XXXXCMXXXX应急响应筹划l CMXXXX系统运维规范l CMXXXX行规范l CMXXXX客户服务规范5.2.3.3 运维、系统二线支撑l 机房网络现场调试l 网管监控方案及讨论l 定制开发需求评审l 布置方案审核l 现网作业密码管理l XXXX 来年发展规划5.2.3.4 运营优化依照
21、项目支撑状况,提出寻常运营优化建议:l 规范ZS申请流程l 规范ZS使用流程l 规范UKEY使用流程5.2.3.5 XXXX应用接入。5.2.3.6 运维风险评估渗入测试:为了保障XXXX系统安全性,应XXXX基地规定,地XXXX进行渗入测试,从外网到内网全方位、漏洞渗入等,获得了良好效果。5.2.4 系统定制开发依照应用项目特性、运营人员提出优化需求,进行需求分析、评审,输出解决开发,协调资源进行定制开发工作,把控定制开发质量。1) XXXX支持二级审核开发及上线改造XXXX,使其支持二级审核。相应用类型配备其下ZS审核级别。如果是一级审核,。2) 系统监控功能需求分析及评审对CMXXXX系
22、统业务进行监控,当系统异常时通过邮件方式告知系统维护人员。系统暂时不考虑对系统权限管理控制。3) 系统定制开发功能测试环境搭建。布置XXXX定制开发到测试环境,完毕测试组内测试,进而运营人员针对业务功能进行测试并已完毕测试。当前XXXX11月版本已布置上线,验证工作也已基本结束。6 规范运维流程随着运维工作逐渐开展,在与XXXX公司工作配合过程中,通过引入XXXX公司服务运营管理平台(somp),规范了运维工作流程,涉及事件管理流程等。所谓事件,是指系统运营过程中突然浮现导致服务中断或服务质量下降突发现象。事件管理流程通过对事件有关环节进行规范,从事件记录开始,通过度类和初步支持、调查与诊断、
23、解决和恢复,直到与客户确认后事件关闭,流程中各个环节先后相连,流转有序,并规定每一环节解决最长时限。通过事件记录员、事件分析员以及事件经理等角色明确,责任到人。从而达到在发生事件后,能在最短时间内解决并恢复客户中断服务,提高客户满意度。XXXX公司通过开发XXXX业务流程监控系统,定期对XXXX业务流程进行监控拨测,在XXXX发生故障第一时间通过邮件或短信方式告知运维工程师,运维工程师第一时间进行故障解决并上报XXXX有关负责人,并在故障出理完毕后,输出故障报告给XXXX公司,使得对每次故障做到跟踪、归纳总结作用。7 总结与来年展望随着脚步慢慢走远,XXXX公司在XXXX公司大力支持下,XXX
24、X运维工作已经步入正轨,按XXXX公司和XXXX规定完毕了对XXXX维护工作,保障了XXXX平稳运营,通过回顾总结今年工作,也发现运维工作中存在局限性地方,XXXX公司力求在后来工作中改进。只是XXXX运维工作一种起点,随着更多XXXX外部与内部业务系统接入,XXXX也面临着越来越大负载,同步运维工作也面临新挑战,无论是对XXXX系统能力保障、业务人员协维能力,都将给XXXX公司和XXXX公司提出更高规定,需要运维人员能力提高到另一种高度,XXXX公司在面对挑战面前,非常有信心,在XXXX公司指引和支持下,对既有运维人员进行技术能力、业务能力等多方面提高,依照业务发展规定,增长各方面资源投入,来年会更加出众完毕XXXX运维工作,把运维工作更加规范化、专业化,更上新台阶。