1、系统监控管理办法第一章 总 则第一条 为有效保障关键信息系统运行安全,及早发现事故隐患并处理,规范信息系统监控管理,特制定本办法。第二条 监控点是指各系统有可能出现故障的隐患点包括硬件、软件、以及支持系统运行的基础环境。第三条 本办法适用于对硬件设备、应用程序,还包括机房环境、网络线路等的日常监控管理。第二章 监控分类第四条 根据关键系统的监控对象可进行如下监控对象分类:1机房环境监控:包括机房温度、机房湿度、监控视频、门禁、市电输入等.2设备硬件监控:包括CPU利用率、内存使用率、硬盘使用率,各硬件之间的I/O吞吐情况、空调运行情况、UPS运行情况等。3程序及进程监控:包括前端运行程序,后台
2、服务程序或进程、数据库系统以及中间件程序等。第五条 根据监控系统所发挥的监控作用可进行如下监控作用分类:1状态监控:指对监控点是否处在运行状态的监控;2容量监控:指对监控点的性能和容量是否满足设定指标要求的监控。第三章 监控策略原则第六条 系统监控应遵循以下原则:1有效性原则,即应根据系统的特点和在在所关注的信息系统整体所发挥的作用制定监控策略,确保监控功能能发挥应用的作用;2可靠性原则,即监控策略,尤其是关键功能点的监控策略应尽可能采用软件与硬件相结合、自动与人工相结合等方式,以使监控能对影响或可能影响服务的事件准确及时响应;3可行性原则,即制定的监控策略应能通过工具、巡查有效执行;4开放性
3、原则,即监控策略应具有较好的兼容性和可扩充性,可根据系统的增减和变化不断完善。第七条 监控策略制定时,应充分考虑被监控系统的对象分类,根据其系统特点和在信息系统中发挥的作用,来确定相应的监控点和监控策略。第八条 监控策略制定时,应对监控点分别考虑监控作用分类,即单一状态监控、单一容量监控、或两者同时监控。第九条 监控策略制定时,应充分考虑完成监控功能所需的条件,在技术条件许可的前提下,应尽量采用自动监控策略,如没有技术监控条件,应进行人工监控。第四章 机房环境监控策略第十条 根据机房环境的监控要求,对机房的温度湿度进行有效监控,要求对主机房的温度湿度监控作出如下要求:1监控时间:每日应24小时
4、对机房的温度湿度进行探测监控。2监控要求:要求监控超出规定范围时能够通过报警声和短信相结合的方式进行预警,如不能自动报警需要有人员24小时值守。具体监控范围参见下表.第十一条 根据机房环境的监控要求,对机房的人员进出进行有效管理,具体要求如下:1监控时间:每日应24小时对机房进行门禁管理、录像监控、保安值班和人员物品出入登记。2监控记录频次:实时记录.3监控要求:在机房各关键位置设置视频监控系统,在机房各出入口,应当配备门禁系统,只有经过授权的人员才能通过门禁系统进出机房,门禁监控系统应当能够详细记录人员进出情况。第十二条 根据机房环境的监控要求,对机房的火灾隐患进行有效监控,要求对机房采用烟
5、感监控,具体要求如下:1监控时间:每日应24小时对机房进行烟感探测,每次探测监控时间间隔不小于20秒.2监控记录频次:实时记录。3监控要求:机房内应当在每20平米配备至少一个烟感探测设备,烟感探测设备应与机房环境监控系统相连。并能够通过报警声及短信方式进行预警。4视频监控数据要求至少保留20天。第十三条 根据机房环境的监控要求,对机房的市电输入情况进行有效监控,要求对机房采用专用设备进行监控,具体要求如下:1监控时间:每日应24小时对机房市电输入进行监控,应采用持续探测监控。2监控记录频次:实时记录。3监控要求:应对市电输入交流电压监测(按三相考虑)、负载分配4交流电流监测(按三相考虑)、直流
6、电压输出配电监测。第五章 设备硬件监控策略第十四条 根据设备硬件的监控要求,按照关键业务的优先级别,对支持关键业务运行的设备进行有效监控。1应通过技术手段对设备的CPU利用率进行监控,如有多个CPU或多内核CPU的,应当对所有CPU或内核进行监控。CPU利用率设定的监控阀值应不超过75。2应通过技术手段对设备的内存使用率进行监控,应监控物理内存的总量、已用量、余量以及虚拟内存的使用情况。内存使用率设定的监控阀值应不超过80.3应通过技术手段对设备的硬盘使用率进行监控,应监控硬盘存储空间的总量、已用量、余量的使用情况。硬盘使用率设定的监控阀值应不超过80%。4应通过技术手段对诸如采用磁盘阵列技术
7、、磁盘柜以及各板卡间的I/O吞吐情况进行监控。5以上监控内容的监控间隔应控制在30秒以内,并通过技术手段对其进行24小时不间断监控,其监控报警应至少包含有声音和短信方式。第十五条 机房的空调系统作为重要的硬件设备,应当对其进行重点监控,对其监控的要求如下:1监控时间:每日应24小时对机房空调的运行情况进行监控。对于机房每次探测监控时间间隔不小于60分钟.2监控要求:要求监控超出规定范围时能够通过报警声和短信相结合的方式进行预警,具体监控范围包括机房空调制冷量、送风量、空调异常故障、空调断电自启动情况等。3如无自动监控条件可采用人工巡查方式实现空调系统监控。第十六条 机房的UPS后备电源系统,作
8、为重要的硬件设备,应当对其进行重点监控,对其监控的要求如下:1监控时间:每日应24小时对机房UPS的运行情况进行监控.机房每次探测监控时间间隔不小于60分钟。2监控要求:要求监控超出规定范围时能够通过报警声和短信相结合的方式进行预警,具体监控范围包括市电输入端电压电流变化情况、UPS负载情况、UPS输出电压电流变化情况、UPS电池供电情况、UPS旁路工作状态以及UPS的异常故障及报警状态等。3如无自动监控条件可采用人工巡查方式实现空调系统监控.第六章 程序及进程监控策略第十七条 应当根据关键业务系统的优先级别,对支持关键业务系统运行的程序、进程、后台数据库、队列等运行情况采用技术手段进行重点监
9、控。第十八条 对程序和进程的监控应当对程序或进程的运行个数、窗体的运行个数进行有效监控.对于与重要应用系统密切相关的程序,应当进行重点监控,目的是防止重要程序或进程意外关闭或终止。第十九条 对程序和进程的监控还应当包括对支持程序和进程运行的系统服务的监控,其运行状态也会影响到程序和进程的运行状态。第二十条 对后台数据库的监控,重点是对数据库死锁现象进行监控.对数据库的监控应当每天24小时进行监控,目的是防止数据库死锁对业务的影响。第七章 网络及线路监控策略第二十一条 网络及线路作为信息系统关键的支持部分,信息技术人员应当对其进行重点监控。对网络及线路的监控应当包括如下内容:1关键网络及安全设备
10、的设备运行日志;2关键网络及安全设备的性能监控和阀值预警;3关键广域网通信线路主备线路的通断;4局域网关键上行链路通断状态的监控;5关键通信线路实时网络流量的监控和阀值预警;6网络安全设备的网络异常行为监控;7对核心广域网和局域网关键通信链路的流量进行连续采样、记录、阀值预警和趋势分析;8对关键网络及安全设备的性能数据进行连续采样、记录、阀值预警和趋势分析。第二十二条 对网络及安全设备的性能监控,应当包括信息机房和各分信息中心关键防火墙设备、核心路由器设备、核心交换机设备的CPU利用率监控,各设备的CPU利用率监控阀值应当小于80。第二十三条 对广域网通信线路的监控应当包括对外部广域网、内部广域网、互联网连接质量、流量、中断情况的监控。第二十四条 对局域网的监控应当包括对各链路通断状态、各端口运行情况、网络异常行为的监控.以上监控内容应当对其采用技术手段进行监控,并在发现异常时能够及时通过报警声或短信、电话等方式及时报警。