资源描述
数据中心运维流程规定制度要求规范
1 一般规定
数据中心宜依据GB/T 24405信息技术服务管理标准,建立数据中心服务支持流程,包括服务请求管理、事件管理、变更、问题管理。
2服务台
2.1数据中心应建立服务台,以记录、分解、跟踪来自故障的事件、服务请求、投诉建议及其他事项。
2.2服务台宜建立和提供多种沟通渠道,包括电子邮件、热线电话、移动应用等,提供7x24小时服务响应和支持。
2.3服务台应设置专门服务座席,由专人负责服务请求、事件等的集中受理和跟踪。
2.4数据中心应建立服务台相关管理制度,明确服务台工作职责、工作内容、监督考核等方面要求。
3 服务请求管理
3.1数据中心应及时响应并记录来自内外部的各类服务请求,包括:
1. 应接受来自用户的服务请求,并记录相关信息。
2. 应对服务请求进行确认,根据客户合约和SLA要求,判断是否需履行此服务请求。
3. 应根据服务请求类型,分派服务请求至数据中心、服务团队。
3.2应根据要求履行服务请求,包括履行服务请求应包括:
1. 应有明确的服务请求分类分级定义、处理时限和升级规则。
2. 应履行服务请求,执行相应的响应、处理、升级等活动。
3. 应监督、监控服务请求处理进展,并根据需要协调解决。
3.3应对服务请求进行回顾并关闭。包括:
1. 应明确服务请求关闭规则,服务请求履行完毕应与用户书面确认。
2. 应定期回顾、更新服务请求列表并告知用户。
3. 宜对服务请求的完成情况进行满意度调查。
4. 应设计服务请求管理绩效指标,用于考量服务请求执行过程的符合度和有效性,如服务请求按时解决率、及时响应率等。
4事件管理
1所有事件均应被记录,包括接收的事件和主动发现的事件。
应对事件进行分类分级,包括:
2.1应明确事件的分类分级的定义
2.2应按事件的影响度和处理优先级,确定事件等级。
2.3应定义各等级事件的响应时间、恢复时间、解决时间目标。
2.4应建立重大事件子流程。
应快速解决影响数据中心服务的事件。包括:
3.1应对事件进行分析,尽快处理解决,并记录事件的解决方法。
3.2事件涉及人员应该能够访问、匹配并关联相关信息,包括相关服务请求、已知错误、问题解决方案和配置管理数据库(CMDB)。
3.3应监督、监控事件处理进展,并根据需要协调解决。
4应定义和执行事件升级子流程,包括:
1. 应明确定义事件升级规则,包括技术升级和管理升级处理规则
2. 符合事件升级规则的事件,应根据事件升级规则进行升级和转移委派等以确保事件的及时解决。
5事件解决后,对事件处理过程进行回顾并关闭事件。包括:
1. 应有明确的事件关闭规则。
2. 应在关闭事件时对事件的记录进行更新,确认事件的最终分类和分级,受影响的服务,以及导致事件发生的配置项等。
3. 应设计事件管理绩效指标,用于考量过程的合规性和有效性,例如事件及时响应率、按时解决率等。
5问题管理
应明确问题触发条件,并识别问题。包括:
应明确问题来源和触发条件。
应识别问题并记录。
应对问题进行分类分级。包括:
应明确问题分类分级的定义。
应按问题的属性划分问题分类和优先级。
应检查问题产生异常的根本原因。包括:
应分析问题现象和关联事件,定位产生异常的根本原因。
应根据需要转移委派后线支持人员处理。
应制定问题解决方案并实施。包括:
5.1针对问题的根本原因,提出并实施根本解决方案,并记录解决过程。
5.2暂时无法根本解决的问题,应采用规避措施作为临时解决方案。
5.3应监督、监控问题处理进展,并根据需要协调解决。
应对问题进行回顾和关闭。包括:
5.5. 1应有明确的问题关闭规则。
应回顾问题的解决过程与结果。
应设计问题管理绩效指标,用于考量过程的合规性和有效性等。
6变更管理
应明确变更管理范围,制定变更策略。包括:
应制定变更策略,包括但不限于变更范围、变更的分类分级标准;实施前变更应被测试;实施过程中应及时与相关方进行沟通。
新服务或服务重大变化的落实应参照变更管理执行。
宜定义数据中心标准变更类型,以简化数据中心变更审批和实施过程。
对紧急和重大变更的授权和实施,建立独立的策略和子过程。
应接收、记录并评估变更。包括:
所有变更都被记录。
应接收变更申请,并检查变更申请的完整性,评估变更的影响、风险和需要的资源。
6.3应制定变更方案。变更方案内容应包括变更原因、变更实施方案、实施计划、回退方案或补救措施等。
6.4所有变更均应经过评审和授权后,方能执行。高等级变更宜组织正式的变更评审会议,由基础设施运维、客户服务、运营管理等相关部门进行共同评审后,做出变更评审结论。
应监督变更执行进展,协调变更实施。包括:
6.5. 1应全程推进、协调变更的实施。
应对变更实施结果进行回顾及验证。
应更新设备管理信息,并根据需要更新操作手册以及必要培训。
应对变更实施过程进行回顾与关闭。包括:
6.6. 1应有明确的变更关闭规则。
应回顾变更实施的过程和结果。
设计变更管理绩效指标,用于考量过程的合规性和有效性等。
7风险管理
7.1 一般规定
数据中心应建立风险管理过程,控制数据中心建设和运行风险。风险管理的实施方法可依据GB/T24353《风险管理原则与实施指南》。
7.2数据中心的风险管理的内容和过程,包括风险背景建立、风险评估、风险处置、批准监督、监管审查、沟通咨询六个方面,其中监管审查、沟通咨询贯穿于风险背景建立、风险评估、风险处理、批准监督步骤过程中。
7.3数据中心基础设施运维工作风险管理应涉及人员的角色和责任宜结合信息安全风险管理相关体系进行分类定义,并建立管理机制。
7.4数据中心应依据基础设施运维工作范围,确定风险管理对象、范围、实施风险管理的准备、相关信息的调查和分析背景的建立。
7.5数据中心运维团队宜站关注内外部环境变化,并评估变化可能带来的风险,包括:
7. 5. 1数据中心业务和客户的变化,组织架构和人员的变化,技术上的改变等;
7. 5. 2相关法律法规的变更。
7.6数据中心风险管理应制定风险评估计划、评估方案、评估方法和工具,并定期回顾和完善。
7.7数据中心应定期识别和记录影响数据中心安全运行的各类风险。可从以下来源识别数据中心安全风险:
已发生的安全事件和故障;
数据中心人员日常运维中主动发现的隐患;
监管方、客户方和第三方在审计中发现的问题和隐患;
在内部检查中发现的风险隐患。
7.8数据中心风险识别过程除技术风险外,还应涵盖以下类型的风险:
客户与合约:合约及SLA执行上的风险等;
供应商管理:设备供应商、维保服务商、运营商、物业等方面可能影响安全运行的风险等;
团队管理:组织架构、岗位设置、人员能力方面的风险等;
制度流程:制度流程缺失、不健全等方面的风险等。
7.9数据中心应在风险评估之前,应从风险发生的后果、可能性、度量方法、等级等方面制定评价风险重要程度的标准,并持续不断地检查和完善。
7.10数据中心风险管理工作应针对已识别的风险进行定性和定量分析,根据风险发生可能性和影响确定风险等级,综合评价风险状况,并形成风险评估报告。7.11数据中心风险管理工作应对评估出的风险,选择相应的风险处置措施,确定风险处置计划,包括风险处置措施、负责人、计划完成时间等。
7.12数据中心风险管理工作应对风险处置计划实施情况进行定期跟踪,对风险处置措施实施后的残余风险进行评估,确保风险可控可接受。
7.13数据中心风险管理应对背景建立、风险评估、处置的结果进行批准监督,建立批准监督流程和机制,并形成管理制度。通过批准申请、批准处理和持续监督三个批准监督过程,对风险管理活动做决策和监管。
7.14数据中心风险管理应对批准的有效期、风险背景的变化情况进行持续监督,并形成监督记录。
7.15数据中心风险识别、评估及处置过程应形成制度记录文档。
7.16数据中心宜对风险管理的背景建立、风险评估、风险处置和批准监督全过程进行监控和审查,并输出相应的过程审查记录。监控审查内容宜包括:风险管理过程有效性及成本有效性;
风险管理结果的有效性和符合性;
7.17数据中心风险管理的审查工作应对高等级的风险每年审查一次,其他等级风险二年至少审查一次。审查方式可以为现场或非现场的内部审查、外部审查和第三方检验检测机构审查。
7.18数据中心应建立风险管理的沟通咨询机制,保障风险管理中的背景建立、风险评估、风险处置、批准监督活动过程顺利有效,相关行动人员的协调统一,以及有效的知识技能培训咨询。
7.19数据中心沟通咨询过程应按照制度输出相应的沟通咨询度记录,并及时向内外部相关人员报告。
8能效管理
8.1、一般规定
1数据中心能效管理是在保证业务连续可用的基础上,应用工业自动化、数据采集分析等多个技术对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。
2数据中心机房应按照设计相关要求做好维护管理工作。
3针对维护管理中出现的问题,应及时评估分析并优化改进。
4采用能源利用效率(PUE/WUE)作为机房整体能效的衡量指标。
5应制定热源安全管理制度,明确控制机房内部和外部产生热量的工作细则,在保障机房设备工作温度的情况下,达到节能降耗的目的。
6数据中心应支持对内部各种设备的能耗进行综合管理。
8.2、能效管理体系
1通过采集和监控各类用能系统(电气、暖通、电梯、给排水等)整体的实际运行状态,找出关键耗能点和异常耗能点,进行控制和管理。
2能效管理体系须包含三个子系统:即能耗的采集、分析评估与优化。
8.3、能效采集
1数据的收集宜采用自动化的监控系统和工具,借助智能电量仪、智能传感器等,并经监控系统进行统一数据上传和存储,减少人为因素影响。
2数据中心能源损耗数据应按照各物理机房模块、子系统、设备分别进行计量统计和可视化展示,包括IT设备运行功耗、电力线路损耗、制冷系统能耗等。
3应计算并可视化展示实时、日、月、季、年的能效数据(PUE),宜计算并可视化展示水效(WUE)。
4宜对保证数据中心连续运行的电力、制冷等关键系统的安全运行范围、系统最大承载能力、最佳效率区间等进行统计。
8.4、能效分析评估
1能够提供多种能耗分析如同比、环比、排名等方式,可实现对区域能耗、具体能耗类型、设备类型能耗等进行分析,并可生成设备能耗与系统能效分析报告。
2应能计算发现低利用率设备、低能效设备与异常能耗设备,形成节能操作工单或实现节能自动控制。
3需建立合理的评估机制,在机房实施相关节能方案后,应能对比机房节能方案实施前、后能耗数据,找出存在的主要问题并提出改进建议。
8.5、能效优化
1数据中心能效优化,应从机房、供电、散热、机房布局、设备选型等多个方面考虑降低能耗。
2应当建立完整的绿色能效管理制度,为数据中心绿色能效发展提供体制机制保障。
3宜应用模拟测试等优化方法,分析和测试相关变更可能对电源容量和冷却能力配置规划产生的影响。
展开阅读全文