1、目录阅读对象2修改记录31总则51.1目的51.2适用范围51.3管理对像52职责51.1机房基础设施监控人员职责:51.2网络监控人员职责:51.3主机监控人员职责61.4业务系统及相关应用监控人员职责:63监控目的64监控范围75监控策略85.1机房环境监控策略85.2网络监控策略95.3主机监控策略105.4系统及应用监控策略106故障的处置11相关记录111 总则1.1 目标为有效保障xxx运行安全,及早发觉事故隐患并处理,规范信息系统监控管理,特制订本管理要求。1.2 适用范围本管理要求适适用于xxx相关对硬件设备、应用程序,还包含机房环境、网络线路等日常监控管理。1.3 管理对像监
2、控点是指xxx有可能出现故障隐患点包含硬件、软件、和支持系统运行基础环境。2 职责1.1 机房基础设施监控人员职责:1) 负责机房基础设施监控工作,包含温湿度、空调、市电输入、UPS、消防设施、监控视频等,并每日填写【机房环境监控日报】;2) 确定监控策略并根据策略实施日常监控;3) 经过监控数据分析潜在问题;4) 发觉并立即上报安全事件和问题,并进行立即处理;1.2 网络监控人员职责1) 负责网络监控工作,包含:通讯线路、网络情况和网络设备,并每日填写【网络监控日报】;2) 确定监控策略并根据策略实施日常监控;3) 经过监控数据分析潜在问题;4) 发觉并立即上报安全事件和问题,并进行立即处理
3、;1.3 主机监控人员职责1) 负责主机、服务器监控工作,包含:监控CPU情况、内存情况、硬盘情况、磁盘柜和各板卡间I/O吞吐情况进行监控,并每日填写【主机监控日报】;2) 确定监控策略并根据策略实施日常监控;3) 经过监控数据分析潜在问题;4) 发觉并立即上报安全事件和问题,并进行立即处理;1.4 业务系统及相关应用监控人员职责:1) 负责xxx及其相关应用监控工作,包含:业务系统运行状态、相关应用运行情况,并每日填写【系统及应用监控日报】;2) 确定监控策略并根据策略实施日常监控;3) 经过监控数据分析潜在问题;4) 发觉并立即上报安全事件和问题,并进行立即处理;3 监控目标对于业务系统监
4、控监控对象,监控工作关键完成:1) 故障报警:针对监控系统、日常巡检、批作业、应用检验等渠道报警事件,根据日常监控工作步骤中判定方法及标准进行监控事件分级和处理,确保对于相关各类业务系统故障立即发觉和汇报,为故障处理奠定扎实基础;2) 潜在问题分析:对于全部监控渠道各类信息,在日常监控工作步骤中判定为关注问题监控事件,必需进行连续跟踪和研究,假如确定是非故障类事件,则经过相关步骤调整监控系统配置和判定方法,假如是故障类事件,则经过相关变更管理步骤进行根本处理;3) 性能管理:在进行业务系统监控过程中,将根据特定规则,实时采集系统硬件、软件及交易等数据,由相关人员进行性能数据分析,应做到:a)
5、分析并发觉系统潜在故障类问题;b) 对系统承载能力能充足了解,为业务扩展等需求提供科学依据;c) 整理并保留各类关键数据,为信息科技部其它工作提供数据基础。4) 可用性检验:根据业务系统特定要求,利用相关工具及手段,定时对业务系统服务状态进行检验,立即发觉业务系统非正常状态,并经过故障管理步骤进行控制处理;5) 知识积累:在业务系统监控过程中,如发觉各类系统配置及设计缺点问题,应根据日常监控工作步骤进行知识库登记和整理,为业务系统投产前评定工作提供技术参考标准。4 监控范围监控方法采取自动监控和人工监控两种。关键监控多种基础设施、硬件设备、软件系统状态点是否处于正常运行状态、其性能和容量是否满
6、足要求。所包含到监控范围以下:1) 机房环境监控:包含机房温湿度、空调、市电输入、UPS、消防设施、监控视频等。2) 网络监控:包含通信线路、网络设备运行情况、网络流量、用户行为等进行监测和报警。3) 主机监控:包含CPU利用率、内存使用率、硬盘使用率,各硬件之间I/O吞吐情况、用户行为等。4) 系统及相关应用监控:包含前端运行程序,后台服务程序或进程、数据库系统和中间件程序及用户行为等。5 监控策略123455.1 机房环境监控策略1) 依据机房环境监控要求,对机房温度湿度和空调运行状态进行有效监控,对机房温湿度、空调运行情况监控作出以下要求:a) 监控频次:每日9次。b) 监控要求:要求监
7、控超出要求范围时能够经过报警声和短信相结合方法进行预警,具体监控范围包含机房空调制冷量、送风量、空调异常故障、空调断电自开启情况等。如不能自动报警需要有些人员二十四小时值守。2) 依据机房环境监控要求,对机房市电输入情况进行有效监控,要求对机房采取专用设备进行监控,具体要求以下:a) 监控频次:每日2次b) 监控要求:应对市电输入交流电压监测(按三相考虑)、负载分配交流电流监测(按三相考虑)、直流电压输出配电监测。3) 机房UPS后备电源系统,作为关键硬件设备,应该对其进行关键监控,对其监控要求以下:a) 监控频次:每日4次。b) 监控要求:要求监控超出要求范围时能够经过报警声和短信相结合方法
8、进行预警,具体监控范围包含市电输入端电压电流改变情况、UPS负载情况、UPS输出电压电流改变情况、UPS电池供电情况、UPS旁路工作状态和UPS异常故障及报警状态等。c) 如无自动监控条件可采取人工巡查方法实现空调系统监控。4) 依据机房环境监控要求,对机房消防系统进行有效监控,要求对机房钢瓶间、烟感探测进行监控,具体要求以下:a) 监控频次:每日1次。b) 监控要求:七氟丙烷监控系统各项指标正常;烟感探测设备工作正常。并能够经过报警声及短信方法进行预警。5) 依据机房环境监控要求,对机房视频监控系统进行有效管理,具体要求以下:a) 监控频次:每日4次。b) 监控要求:检验视频监控系统运转是否
9、正常;检验机房各关键位置视频监控探头硬件是否有损坏,是否能够正常显示。机房环境监控具体内容参见【机房环境监控日报】。5.2 网络监控策略1) 通讯线路、网络情况和网络设备作为信息系统关键支持部分,信息技术人员应该对其进行关键监控。监控应该包含以下内容:a) 关键网络及安全设备设备运行日志;b) 关键网络及安全设备性能监控和阀值预警;c) 关键广域网通信线路主备线路通断;d) 局域网关键上行链路通断状态监控;e) 关键通信线路实时网络流量监控和阀值预警;f) 网络安全设备网络异常行为监控;g) 对关键广域网和局域网关键通信链路流量进行连续采样、统计、阀值预警和趋势分析;h) 对关键网络及安全设备
10、性能数据进行连续采样、统计、阀值预警和趋势分析。2) 对网络及安全设备性能监控,应该包含机房关键防火墙设备、关键路由器设备、关键交换机设备CPU利用率监控,各设备CPU利用率监控阀值应该小于80%。3) 对广域网通信线路监控应该包含对外部广域网、内部广域网、互联网连接质量、流量、中止情况监控。4) 对局域网监控应该包含对各链路通断状态、各端口运行情况、网络异常行为监控。 以上监控内容应该对其采取技术手段进行监控,并在发觉异常时能够立即经过报警声或短信、电话等方法立即报警。5.3 主机监控策略1) 依据主机硬件监控要求,根据业务优先等级,对支持业务运行主机设备进行有效监控。a) 对设备CPU利用
11、率进行监控,如有多个CPU或多内核CPU,应该对全部CPU或内核进行监控。CPU利用率设定监控阀值应不超出75%。b) 对设备内存使用率进行监控,应监控物理内存总量、已用量、余量和虚拟内存使用情况。内存使用率设定监控阀值应不超出80%。c) 对设备硬盘使用率进行监控,应监控硬盘存放空间总量、已用量、余量使用情况。硬盘使用率设定监控阀值应不超出80%。d) 对磁盘阵列技术、磁盘柜和各板卡间I/O吞吐情况进行监控。e) 以上监控内容二十四小时不间断监控,其监控报警应最少包含有声音和短信方法。5.4 系统及应用监控策略1) 应该依据优先等级,对支持业务系统运行应用程序、进程、后台数据库、队列等运行情
12、况采取技术手段进行关键监控。2) 对程序和进程监控应该对程序或进程运行个数、窗体运行个数进行有效监控。对于和关键应用系统亲密相关程序,应该进行关键监控,目标是预防关键程序或进程意外关闭或终止。3) 对程序和进程监控还应该包含对支持程序和进程运行系统服务监控,其运行状态也会影响到程序和进程运行状态。4) 对后台数据库监控,关键是对数据库死锁现象进行监控。对数据库监控应该天天二十四小时进行监控,目标是预防数据库死锁对业务影响。6 故障处理日常监控工作中所发觉问题和事件处理参考系统应急手册实施。相关统计1. 【机房环境监控日报】2. 【网络设备监控日报】3. 【主机监控日报】4. 【系统及应用监控日报】
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100