资源描述
机房监控管理规定
10
2020年4月19日
文档仅供参考
目录
阅读对象 2
修改记录 3
1 总则 5
1.1 目的 5
1.2 适用范围 5
1.3 管理对像 5
2 职责 5
1.1 机房基础设施监控人员职责: 5
1.2 网络监控人员职责: 5
1.3 主机监控人员职责 6
1.4 业务系统及相关应用监控人员职责: 6
3 监控目的 6
4 监控范围 7
5 监控策略 8
5.1 机房环境监控策略 8
5.2 网络监控策略 9
5.3 主机监控策略 10
5.4 系统及应用监控策略 10
6 故障的处置 11
相关记录 11
1 总则
1.1 目的
为有效保障xxx运行安全,及早发现事故隐患并处理,规范信息系统监控管理,特制定本管理规定。
1.2 适用范围
本管理规定适用于xxx相关的对硬件设备、应用程序,还包括机房环境、网络线路等的日常监控管理。
1.3 管理对像
监控点是指xxx有可能出现故障的隐患点包括硬件、软件、以及支持系统运行的基础环境。
2 职责
1.1 机房基础设施监控人员职责:
1) 负责机房基础设施的监控工作,包括温湿度、空调、市电输入、UPS、消防设施、监控视频等,并每日填写【机房环境监控日报】;
2) 确定监控策略并按照策略执行日常监控;
3) 经过监控数据分析潜在问题;
4) 发现并及时上报安全事件和问题,并进行及时处理;
1.2 网络监控人员职责
1) 负责网络监控工作,包括:通讯线路、网络情况和网络设备,并每日填写【网络监控日报】;
2) 确定监控策略并按照策略执行日常监控;
3) 经过监控数据分析潜在问题;
4) 发现并及时上报安全事件和问题,并进行及时处理;
1.3 主机监控人员职责
1) 负责主机、服务器的监控工作,包括:监控CPU情况、内存情况、硬盘情况、磁盘柜以及各板卡间的I/O吞吐情况进行监控,并每日填写【主机监控日报】;
2) 确定监控策略并按照策略执行日常监控;
3) 经过监控数据分析潜在问题;
4) 发现并及时上报安全事件和问题,并进行及时处理;
1.4 业务系统及相关应用监控人员职责:
1) 负责xxx及其相关应用的监控工作,包括:业务系统运行状态、相关应用运行情况,并每日填写【系统及应用监控日报】;
2) 确定监控策略并按照策略执行日常监控;
3) 经过监控数据分析潜在问题;
4) 发现并及时上报安全事件和问题,并进行及时处理;
3 监控目的
对于业务系统监控的监控对象,监控工作主要完成:
1) 故障报警:针对监控系统、日常巡检、批作业、应用检查等渠道的报警事件,按照日常监控工作流程中的判定方法及标准进行监控事件的分级与处理,保证对于相关的各类业务系统故障的及时发现与报告,为故障的处理奠定扎实的基础;
2) 潜在问题分析:对于所有监控渠道的各类信息,在日常监控工作流程中判定为关注问题的监控事件,必须进行持续的跟踪与研究,如果确认是非故障类事件,则经过相关流程调整监控系统的配置与判断方法,如果是故障类事件,则经过相关的变更管理流程进行彻底解决;
3) 性能管理:在进行业务系统监控的过程中,将按照特定规则,实时采集系统硬件、软件及交易等数据,由相关人员进行性能数据的分析,应做到:
a) 分析并发现系统潜在的故障类问题;
b) 对系统的承载能力能充分的了解,为业务扩展等需求提供科学的依据;
c) 整理并保存各类关键数据,为信息科技部的其它工作提供数据基础。
4) 可用性检查:按照业务系统的特定要求,利用相关的工具及手段,定期对业务系统的服务状态进行检查,及时发现业务系统的非正常状态,并经过故障管理流程进行控制解决;
5) 知识积累:在业务系统监控的过程中,如发现各类系统配置及设计缺陷问题,应按照日常监控工作流程进行知识库的登记与整理,为业务系统投产前评估工作提供技术参考标准。
4 监控范围
监控方式采用自动监控和人工监控两种。主要监控各种基础设施、硬件设备、软件系统的状态点是否处于正常运行状态、其性能和容量是否满足要求。
所涉及到的监控范围如下:
1) 机房环境监控:包括机房温湿度、空调、市电输入、UPS、消防设施、监控视频等。
2) 网络监控:包括通信线路、网络设备的运行状况、网络流量、用户行为等进行监测和报警。
3) 主机监控:包括CPU利用率、内存使用率、硬盘使用率,各硬件之间的I/O吞吐情况、用户行为等。
4) 系统及相关应用监控:包括前端运行程序,后台服务程序或进程、数据库系统以及中间件程序及用户行为等。
5 监控策略
1
2
3
4
5
5.1 机房环境监控策略
1) 根据机房环境的监控要求,对机房的温度湿度和空调运行状态进行有效监控,对机房温湿度、空调运行情况的监控作出如下要求:
a) 监控频次:每日9次。
b) 监控要求:要求监控超出规定范围时能够经过报警声和短信相结合的方式进行预警,具体监控范围包括机房空调制冷量、送风量、空调异常故障、空调断电自启动情况等。如不能自动报警需要有人员24小时值守。
2) 根据机房环境的监控要求,对机房的市电输入情况进行有效监控,要求对机房采用专用设备进行监控,具体要求如下:
a) 监控频次:每日2次
b) 监控要求:应对市电输入交流电压监测(按三相考虑)、负载分配交流电流监测(按三相考虑)、直流电压输出配电监测。
3) 机房的UPS后备电源系统,作为重要的硬件设备,应当对其进行重点监控,对其监控的要求如下:
a) 监控频次:每日4次。
b) 监控要求:要求监控超出规定范围时能够经过报警声和短信相结合的方式进行预警,具体监控范围包括市电输入端电压电流变化情况、UPS负载情况、UPS输出电压电流变化情况、UPS电池供电情况、UPS旁路工作状态以及UPS的异常故障及报警状态等。
c) 如无自动监控条件可采用人工巡查方式实现空调系统监控。
4) 根据机房环境的监控要求,对机房的消防系统进行有效监控,要求对机房钢瓶间、烟感探测进行监控,具体要求如下:
a) 监控频次:每日1次。
b) 监控要求:七氟丙烷监控系统各项指标正常;烟感探测设备工作正常。并能够经过报警声及短信方式进行预警。
5) 根据机房环境的监控要求,对机房的视频监控系统进行有效管理,具体要求如下:
a) 监控频次:每日4次。
b) 监控要求:检查视频监控系统运转是否正常;检查机房各关键位置视频监控探头硬件是否有损坏,是否能够正常显示。
机房环境监控的具体内容参见【机房环境监控日报】。
5.2 网络监控策略
1) 通讯线路、网络情况和网络设备作为信息系统关键的支持部分,信息技术人员应当对其进行重点监控。监控应当包括如下内容:
a) 关键网络及安全设备的设备运行日志;
b) 关键网络及安全设备的性能监控和阀值预警;
c) 关键广域网通信线路主备线路的通断;
d) 局域网关键上行链路通断状态的监控;
e) 关键通信线路实时网络流量的监控和阀值预警;
f) 网络安全设备的网络异常行为监控;
g) 对核心广域网和局域网关键通信链路的流量进行连续采样、记录、阀值预警和趋势分析;
h) 对关键网络及安全设备的性能数据进行连续采样、记录、阀值预警和趋势分析。
2) 对网络及安全设备的性能监控,应当包括机房关键防火墙设备、核心路由器设备、核心交换机设备的CPU利用率监控,各设备的CPU利用率监控阀值应当小于80%。
3) 对广域网通信线路的监控应当包括对外部广域网、内部广域网、互联网连接质量、流量、中断情况的监控。
4) 对局域网的监控应当包括对各链路通断状态、各端口运行情况、网络异常行为的监控。
以上监控内容应当对其采用技术手段进行监控,并在发现异常时能够及时经过报警声或短信、电话等方式及时报警。
5.3 主机监控策略
1) 根据主机硬件的监控要求,按照业务优先级别,对支持业务运行的主机设备进行有效监控。
a) 对设备的CPU利用率进行监控,如有多个CPU或多内核CPU的,应当对所有CPU或内核进行监控。CPU利用率设定的监控阀值应不超过75%。
b) 对设备的内存使用率进行监控,应监控物理内存的总量、已用量、余量以及虚拟内存的使用情况。内存使用率设定的监控阀值应不超过80%。
c) 对设备的硬盘使用率进行监控,应监控硬盘存储空间的总量、已用量、余量的使用情况。硬盘使用率设定的监控阀值应不超过80%。
d) 对磁盘阵列技术、磁盘柜以及各板卡间的I/O吞吐情况进行监控。
e) 以上监控内容24小时不间断监控,其监控报警应至少包含有声音和短信方式。
5.4 系统及应用监控策略
1) 应当根据优先级别,对支持业务系统运行的应用程序、进程、后台数据库、队列等运行情况采用技术手段进行重点监控。
2) 对程序和进程的监控应当对程序或进程的运行个数、窗体的运行个数进行有效监控。对于与重要应用系统密切相关的程序,应当进行重点监控,目的是防止重要程序或进程意外关闭或终止。
3) 对程序和进程的监控还应当包括对支持程序和进程运行的系统服务的监控,其运行状态也会影响到程序和进程的运行状态。
4) 对后台数据库的监控,重点是对数据库死锁现象进行监控。对数据库的监控应当每天24小时进行监控,目的是防止数据库死锁对业务的影响。
6 故障的处理
日常监控工作中所发现的问题和事件的处理参照《系统应急手册》执行。
相关记录
1. 【机房环境监控日报】
2. 【网络设备监控日报】
3. 【主机监控日报】
4. 【系统及应用监控日报】
展开阅读全文