收藏 分销(赏)

IT基础设施运维管理标准规范.docx

上传人:a199****6536 文档编号:2772661 上传时间:2024-06-05 格式:DOCX 页数:12 大小:222.59KB
下载 相关 举报
IT基础设施运维管理标准规范.docx_第1页
第1页 / 共12页
IT基础设施运维管理标准规范.docx_第2页
第2页 / 共12页
IT基础设施运维管理标准规范.docx_第3页
第3页 / 共12页
IT基础设施运维管理标准规范.docx_第4页
第4页 / 共12页
IT基础设施运维管理标准规范.docx_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、IT基础设施运维管理规范文件编号: 版本号: 一、 总则为了规范本部门运维管理工作,使得相关工作含有连续改善性及相互协作性,能够支撑企业系统健康可靠运行,由此制订本规范。本规范适适用于信息管理中心技术保障部全部岗位人员。二、 部门职能(1) 负责信息化基础设施技术保障,包含网络、电话、机房、服务器系统、数据安全等技术支持; (2) 负责全部服务器系统技术运维工作(3) 负责关键数据库性能调优及技术运维工作(4) 负责多种网络设施、线路技术运维保障工作(5) 负责其它设施运维保障工作,如机房设施、一卡通、考勤机等智能化设施。(6) 负责信息化安全建设和实施;三、 岗位职责(1) 经理:负责信息化

2、基础设施技术保障,包含,电脑终端、网络、电话、机房、服务器系统、数据安全等技术支持;负责信息化安全建设和实施;负责本部门组织管理,包含,修订组织职责、架构编制、岗位职级、分工授权等;负责本部业务制度步骤规范制订和监督实施; 负责本部团体建设,包含,新职员入职、职员培训、绩效考评、职员心政、团体活动等;负责本部门工作管理,包含,预算编制和管控、计划管理、汇报管理、会议管理等;(2) 系统工程师:负责全部服务器系统技术运维工作负责关键数据库性能调优及技术运维工作(3) 网络工程师:负责多种网络设施、线路技术运维保障工作负责其它设施运维保障工作,如机房设施、一卡通、考勤机等智能化设施(4) 安全工程

3、师:负责信息化安全建设和实施;(5) 其它说明事项:系统工程师、DBA、网络工程师、安全工程师,以下统称运维工程师;权限控制:除负责基础设施网络工程师,其它工程师不得拥有进入数据中心机房权限。网络工程师不得拥有系统工程师管理权限。各岗位周期性工作清单见附一。四、 管理对象IT基础设施管理对象包含网络、电话、机房、服务器、系统、信息安全等,具体内容以下:(1) 网络:XXXX运行中心、JJJJ工业园、WWWW工业园、数据中心、北京办事处网络建设和维护。(2) 电话:XXXX运行中心、JJJJ工业园、WWWW工业园电话网络建设和维护。(3) 机房:数据中心机房建设和日常维护。(4) 服务器:服务器

4、软硬件采购、建设和日常维护。(5) 系统:操作系统、数据库、应用系统、虚拟化日常维护。(6) 信息安全:信息安全建设和维护。五、 运维规范内部运维(1) 运维工程师,负责岗位职责内对应IT设施维护手册制订和完善、并根据本运维规范实施维护管理工作和巡检工作。(2) 运维工程师应该依据运维过程搜集统计信息,每个月整理出当月月度运维汇报提报部门经理,汇报中要关键关注IT设施问题和改善分析,并提出改善方法和提议。(3) 部门经理,负责保障运维管理体系有效实施,包含本运维管理规范制订和完善,督导维护工程师完善各设施维护手册。(4) 部门经理在月度工作会议上就当月各个运维工作汇报和团体沟通共识出整改方法,

5、并形成新工作计划,推进落实实施。参考运维手册:网络维护手册系统维护手册巡检管理(1) 巡检对象:机房、数据备份、网络、服务器、系统运行状态。 (2) 巡检周期:每日、每七天、每个月,详见附一周期性工作清单。(3) 每位运维工程师依据各自维护设施,按时对检核内容进行检验。每日:当日下班前要把当日检验情况填报检核表。(4) 部门经理将不定时检验巡检完成情况。(5) 巡检期间,假如发觉设备或系统异常,应立即上报部门经理并展开调查,确定故障应立即进入故障处理步骤。监控告警(1) 使用*作为统一监控中心,提供在线监控、流量分析、故障告警;(2) 设定告警阀值:磁盘阀值95%,非数据库系统内存阀值70%,

6、CPU阀值70%。(3) 告警:达成阀值或系统中止时,平台经过短信通知到运维工程师,运维工程师收到告警后,应该立即检验系统健康情况,并在应急预案要求时间内恢复正常;故障处理(1) 依据企业应急预案要求,在要求时限内进行故障恢复;(2) 预案安全等级:(具体系统安全要求,见应急预案)安全等级很关键关键通常RTO不间断1小时以内二十四小时以内RPO不间断1小时以内二十四小时以内(3) 故障发生时,运维工程师在无法锁定问题根源时,应该立即开启应急机制,在要求时间内先恢复业务使用,并在非工作时间进行具体故障排查;(4) 经过排查仍然无法处理时,应立即向部门经理汇报,并寻求外部资源直至问题处理;运维审计

7、(1) 三权分立:角色分为审计员、设备管理员、运维人员,审计员仅能进行审计工作,对设备管理员和运维人员行为进行审计,不能创建运维账号,没有系统权限和账号,无法进行运维工作。设备管理员保管系统账号及权限分配,但不能创建运维账号,也无法进行运维工作。运维人员只能进行运维工作,没有系统账号及设备管理权限;(2) 内部运维工程师使用AD账号登录堡垒机,进行日常运维工作;(3) 外协人员经过临时创建运维账号登录堡垒机,进行相关工作;(4) 任何人员全部严禁私自更改系统密码、端口等配置;(5) 审计统计保留十二个月,审计人员不定时进行抽检;跨部门协作各运维工程师做为信息服务部二线支持,收到服务部门工单请求

8、时应立即对请求进行反馈或处理。在半小时内反馈、在4小时内处理完成视为立即。具体步骤参见信息服务部IT设施服务管理制度。六、 运维步骤 IT基础设施运维作业过程中,出现问题需要用到步骤:事件管理、问题管理、变更管理,伴随运维活动不停深入和连续改善,其它步骤可能会逐步独立并规范。 事件管理事件管理步骤关键目标是立即恢复IT服务,并降低其对业务不利影响,尽可能确保最好IT服务质量和可用性。(1) 事件步骤:(2) 事件表单处理人事件分类网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全标题事件编号系统自动生成事件描述事件描述:错误代码:假如有请填写处理方案事件开始时间事件结束时间事件原因分析口

9、 人为过失 口 设备故障 口外部原因_(3) 步骤说明任何引发服务中止和服务质量下降现象,统称事件。处理人:表示事件受理人,并负责整个事件处理,直到事件结束。受理人负责事件步骤提议,经理负责审核事件状态及表单信息完整性。事件结束自动转入问题管理。问题管理问题管理步骤关键目标是预防问题和事故再次发生,而且在事故再次发生时,能够找到有效处理方法。问题管理步骤包含诊疗事件根本原因和确定问题处理方案所需要活动,问题管理还将维护相关问题、应急方案和处理方案信息。 (1) 问题步骤(2) 问题表单提议人问题分类网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全标题问题编号系统自动生成影响范围口 影响

10、较大 口 影响较小关键影响用户:问题描述问题描述:影响范围:受影响用户及系统 处理方案计划开始日期计划结束日期用户通知通知受影响用户(3) 步骤说明全部问题全部应该被完整正确统计下来,并确保相关信息应尽可能具体。明确问题管理问题信息起源,问题可能起源于一些事件深入调查,也可能起源于主动巡检和事件报表分析。问题提议人首先识别问题,分析可能造成危害,提出处理方案,计划好问题处理时间,并通知受影响用户。经理负责评定方案合理性。影响较大:包含全企业使用、门店使用,用户范围较广系统或关键业务系统,需总监审核。影响较小:局部用户使用、非关键业务系统。变更管理变更管理实现全部IT基础设施和应用系统变更,变更

11、管理应统计并对全部要求变更进行分类,应评定变更请求风险、影响和业务收益。其关键目标是以对服务最小干扰实现有益变更。 (1) 变更步骤(2) 变更表单提议人变更分类网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全标题变更编号系统自动生成影响范围口 影响较大 口 影响较小关键影响用户:变更描述变更描述:影响范围:受影响用户及系统 变更方案变更方案:方案测试:假如有变更后测试方案:变更失败回滚方案:计划开始日期计划结束日期用户通知通知受影响用户(3) 步骤说明全部包含运维生产环境改变,全部必需走变更步骤。变更提议人,负责提议变更,提交变更方案,并负责变更实施。经理负责评定变更方案可行性。变更

12、委员会:变更提议部门经理及各部门指定对接人员组成,变更提议部门经理主持变更会议,评定变更对各部门业务影响,各部门委员负责协调相关资源和用户,和安排变更后测试工作。七、 IT运维服务质量指标IT运维服务质量指标体系是用来衡量整个运维服务工作质量标准规范,指标标准以下:运维服务体系质量指标衡量指标指标说明指标公式用户投诉次数IT故障服务投诉投诉一次扣20分,扣完为止。本项总分100分,权重20%。事故在应急预案目前恢复时间范围之内恢复,属于正常事故,企业应急预案范围外系统,按通常安全等级考评。超出4小时不能恢复,定义为一次重大事故;1-4小时之间定义为中等事故;1小时以内定义为通常事故。考评期内无

13、事故100分,重大事故一次扣100分,中等事故一次扣50分,通常事故一次扣20分,扣完为止。本项总分100分,权重20%。安全1)企业网络被黑客攻击造成中止;2)被非授权终端设备登入企业内网;3)企业内部发生已知病毒大范围感染(5台以上电脑同时爆发病毒);一次扣10分,扣完为止。本项总分100分,权重20%。附一:周期性工作清单周期工作内容角色范围或行为日机房环境巡检网络工程师配电、室内环境、设备状态设备健康巡检网络工程师网络设备、信息安全设备、服务器、系统备份状态检验系统工程师业务系统数据库每日备份计划完成情况OA单据处理ALL各日常运维单据周周例会ALL组织每七天例会备份状态检验系统工程师

14、业务系统数据库每七天备份计划完成情况运维周报ALL各自动负责系统周运维汇报月月运维汇报ALL每个月第一周, 各系统工程师提交上月运维汇报运行商付费及对账网络工程师3G卡,联通带宽付费跟踪网络设备备份网络工程师每个月第一周备份全部设备配置流量统计网络工程师每个月5号前,提交各中心流量统计季机房UPS放电检测网络工程师每三个月第30天第一周放电备份数据有效性检验系统工程师业务系统备份数据有效性检验AD单点登录整理系统工程师AD用户绑定对应计算机名六个月备份数据恢复测试系统工程师抽检,对系统备份数据进行恢复空调检测网络工程师每六个月检验一下整机运行情况,尤其是外机漏洞扫描评定安全工程师基线核查、系统漏洞扫描、WEB漏洞扫描和修复工作年恢复演练ALL关键系统每十二个月演练一次预算和总结ALL从项目、日常运维、维保等方面制订本部门下十二个月预算其它订货会支持安排ALL网络保障及安全审核绩效考评ALL依据人力要求

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 行业标准/行业规范

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服