1、机房环境监控系统设计方案782020年4月19日文档仅供参考 机房监控管理系统设计方案书目 录一、项目背景4二、设计思路及要点4三、总体设计方案63.1 系统设计63.1.1 设计依据63.1.2 串口设计63.1.3 系统结构63.2 系统性能83.2.1 可靠性83.2.2 稳定性93.2.3 精确性93.2.4 实时性93.2.5 安全性93.2.6 维护性103.2.7 扩充性103.2.8 易操作性103.3 系统功能113.3.1 界面管理113.3.2 客户端管理123.3.3 报警管理123.3.4 故障管理123.3.5 联动管理133.3.6 安全时段功能143.3.7 数
2、据管理要求143.3.8 日志管理要求143.3.9 增强型IE权限管理153.3.10 双向短信查询功能163.3.11 增强型告警功能173.3.12 报表功能183.3.13 能效管理功能193.4 系统实现213.4.1 动力监控213.4.1.1 配电柜监测213.4.1.2 配电开关监测213.4.1.3 UPS监测223.4.1.4 蓄电池监测233.4.1.5 精密配电柜监测243.4.1.6 直流/交流配电屏监测253.4.2 环境监控263.4.2.1 精密空调监控263.4.2.2 普通空调监控273.4.2.3 新/排风机监控283.4.2.4 温湿度监测293.4.2
3、.5 机柜温度监测303.4.2.6 漏水监测313.4.3 安保监控323.4.3.1 防盗监控323.4.3.2 视频监控333.4.3.3 消防监测343.4.4 IT设备监控353.4.4.1 服务器监测353.4.4.2 路由器监测363.4.4.3 交换机监测373.5 推荐监控对象383.5.1 动力监控383.5.1.1 STS/ATS开关柜监测383.5.1.2 发电机监测393.5.2 环境监控403.5.2.1 照明监控403.5.2.2 防雷监测413.5.3 安保监控423.5.4 IT设备监控43四、售后服务444.1售后服务标准444.2售后服务支持体系444.2
4、.1例行性检查服务454.2.2系统应急维修服务464.2.3服务资料的管理464.2.4服务结果的确认474.3售后服务内容及范围474.3.1系统故障维护474.3.2咨询服务474.3.3备件保修和更换服务47五、运维外包485.1背景说明485.2平台设计理念485.3解决客户机房管理中的难题485.4平台架构495.5平台特点505.5.1网络接入安全505.5.2平台系统安全505.5.3”一站式”服务网站505.5.47x24小时远程监控值守515.5.5定时远程巡检525.5.6快速故障处理525.5.7专业运维分析53一、项目背景当前在信息技术全面深入支撑业务同时,企业主要投
5、资在防火墙(firewall),存储备份(backup)、加密(VPN)、防病毒(anti-virus)、入侵检测(intrusion detect)、Mail System、ERP System、网络设备、服务器等方面,用户对机房的监控管理受到了前所未有的压力:一是由于缺少对于机房基础设施、IT设备的监控,导致空调、电源异常、网络中断等情况时有发生,却得不到实时监控和解决;二是监控系统种类繁多,基础设施监控系统、IT监控系统、KVM系统等既相互独立又相互关联,纷繁复杂交织在一起,运维过程中难免”牵一发而动全身”的现象;三是新业务的需求不断涌现,支撑体系相应为之升级,甚至被迫”伤筋动骨”,软件
6、升级次数多、频率高、厂家售后服务系统不完善不能跟上用户需求的增长。这些因素都成为机房稳定运行的隐患,影响业务层的稳定运行,给企业带来不可估计的损失,同时也证明了一套功能完善、运行可靠的信息监控管理系统已成为机房规划建设中不可缺少的组成部分。二、设计思路及要点就全国各地机房信息监控管理系统建设和使用情况来看,由于参与建设的监控厂家水平良莠不齐,导致国内部分机房不能体现信息监控管理系统的价值所在。如何规划一套涵盖监控和管理,但又能够模块化逐步集成的解决方案;如何选择与业务层匹配的监控对象;如何确保系统的实时性、准确性而且具有实用,不花哨的功能;如何选择一个能够长期持续优质服务的监控厂家成为本项目的
7、设计要点。项目的设计要点:1)监控、管理、服务缺一不可信息监控管理系统设计往往注重数据监控采集,忽略监控数据的分析处理和售后服务的持续保障能力,使得项目容易出现虎头蛇尾的局面。为确保业务的稳定运行,须对机房的动力、环境、安防、IT设备设施进行全方位监控;监控发生告警时,如何经过系统管理功能高效地运维是设计考虑的关键因素;同时系统建设完成后,应确保可持续服务满足系统的正常连续运行。因此在系统建设时,须采用整体规划的方向,经过统一建设或分步实施的手段来承建机房监控、管理、服务相融合的系统。2)监控管理一体化是趋势当前基础设施(动力、环境、安保)与IT设备统一监控,各监控模块和功能模块一体化也成为必
8、然趋势,一体化是纲举目张的过程。一体化系统没有复杂的硬件连接和软件二次开发,一方面可经过一套平台实现对所有对象的统一监控管理;另一方面可经过完整的监控数据,对数据和报警进行综合分析诊断,判断故障根源,提高运维效率。系统具备更广泛的适应性和经济性,标志着系统更加成熟,易于升级换代。3)数据分析是降低运维难度的金钥匙原始的监控数据展示已不能满足用户的需要,如何把监控数据提炼成用户需要的数据是本项目设计的难点。例如当机房断电时,会产生一系列的故障时间,经过智能化分析手段,对告警进行过滤,可准确定位为”UPS市电供入断开”,而不会发出一系列无关告警;原始的动力数据经过分析模块,能够将机房内的能耗进行综
9、合计算分析,得出机房的PUE值及其它相关能耗指标值,为优化方案提供有力的支撑数据。4)管理需要为本单位人员结构量身定制为了实现运维管理的集成化、标准化和规范化,搭建运维服务台是提供了IT服务部门和业务部门用户之间的一个中心联络点,满足业务部门用户与运维人员之间的协调与沟通,并对问题的处理进行有效的跟踪和监控。ITIL是公认的it最佳实践,但如果没有经过量身定制,在实施时容易出现”水土不服”,如何针对本单位人员结构特点定制实用的运维管理功能,是本项目实现高效运维管理的关键。5)直观展示是提高工作效率的起跑线报警信息在所有监控数据中比例能够用”沧海一粟”来形容,大量数据有可能会让重要报警淹没在信息
10、流中。数据分析处理的结果,怎样以一种既最直观的方式展示,也是值得深究的学问。信息监控管理系统应当要有能力把用户所关心的设备集中一个页面或首页上展示,应当要有能力将所有正在报警的设备自动集中到一个页面或首页上展示,应当要有更快捷的报警页面展示方式,例如自动弹出报警页面、点击报警时间弹出报警页面等。6)服务是系统稳定运行的基石信息监控管理系统建设完成后,有形产品在需求的比例中下降,服务的价值正在变得越来越重要。解决系统软硬件发生的故障、业务体系扩容带来的系统升级、协助运维部门做好工作成为一家优秀服务提供商的工作重点。服务提供商和用户之间的量化服务级别指标(SLA)应当要成为客户满意度的评定标准之一
11、。三、总体设计方案3.1 系统设计3.1.1 设计依据3.1.2 串口设计对RS485/RS422接口类型的智能设备,经过手拉手总线连接,采用轮询通讯方式实现对设备数据的采集。单条串口总线串接的设备越多,采集周期越长。常量名称参数值单条命令采集周期0.11s(视被监控设备而定)单条命令平均包含的测点数10(根据设备厂家通讯协议而定)采集周期间隔0.11s(可配置)同端口下设备采集间隔时间0.1s页面刷新周期1s一条串口总线的采集周期=设备1采集周期 + 设备N采集周期 + (同一端口下设备个数 1) * 0.1s + 采集周期间隔。我司经过丰富的项目经验总结,针对不同设备,结合项目数据刷新要求
12、,给出本项目详细设计。3.1.3 系统结构为了确保系统的稳定可靠运行,系统采用了模块化的架构进行设计,确保任何模块出现故障不会影响同级别的其它模块的正常工作。同时为了满足本项目现在和以后的规模需要,采用分布式系统架构能够确保系统后续的扩容能力和系统反应速度。监控管理平台是一个高可用性的分布集中的机房弱电集成监控系统,从硬件来说能够分为监控单元(SU)、监控管理中心(SC)、监控业务台(SS),采用分布式系统结构,每个模块各施其职,互不干扰。整体架构图如下:各部分的主要作用如下:监控单元(SU):动力、环境、安防监控单元由各种I/O采控模块、传感器组成,直接连接各种被监控设备,采集如UPS、空调
13、、温湿度、漏水等的现场信号,将采集的现场信号经过RS485方式上传到监控服务器的串口。IT监控单元由各类被监控的IT设备经过TCP/IP方式,采用SNMP接口将信号上传到监控服务器。监控管理中心(SC):由主机房的监控管理服务器(主备机)组成,监控管理服务器可脱网工作并具有独立数据处理及数据存储能力,用于将现场监控信号进行存储、实时处理、分析和输出,处理所有的报警信息,记录报警事件,并负责将控制命令发往前端设备,实现对现场设备的远程控制。监控管理服务器支持采用”双机热备”方式设计,确保监控系统的稳定靠运行。监控管理服务器已经过国家3C认证,负责整体系统的集中管理与调度,收集与处理由监控单元(S
14、U)发送上来的数据和报警监控管理服务器支持IE的远程访问,用户能够实现各种统计报表、数据分析挖掘、告警管理、权限管理和系统配置管理等,经过运维管理模块能够实现设备管理、事件处理、服务台、检修计划、知识库、统计分析等功能,并完成各种统计报表。监控业务台(SM):用于进行远程的WEB浏览,系统能够提供三维的展示方式,便于管理人员随时随地了解机房的工作状况,可直接观看到与监控服务器一致的监控画面,在具有相应权限下还可对设备实现远程控制,如空调的开关机等。系统支持B/S分布模式的模块化结构,软硬件的安装与维护集中于监控服务器端,易于实施和维护。客户端负责展示用户界面,监控管理系统在B/S浏览时,在浏览
15、器登录监控管理系统时能够进行修改界面、配置等操作,数据处理放在监控管理中心(SC),当监控需求增加时,只需对监控单元(SU)进行升级或扩展成多个监控单元(SU)即可,大大地加强系统的伸缩性。各监控单元内都以分布式模块化设计,任何一个被监控对象发生故障时,不影响本监控单元或其它监控单元内的数据采集工作。3.2 系统性能3.2.1 可靠性 系统满足核心配套设备监控、管理需求作为第一要素考虑。 系统符合电磁兼容性和电气隔离性能设计要求,不会影响被监控设备的正常工作。 系统具有自诊断功能,对软硬件故障能够自动重启恢复。 监控设备具有良好的接地,抗干扰能力强。 设备选用高可靠的工业级设备,保障系统243
16、65小时不间断运行。 系统成熟稳定,支持3000种主流厂家设备的接口通讯协议。 监控管理服务器具备独立数据处理和存储能力,在TCP/IP网络完全中断的情况下,系统能持续正常采集总线接入设备的数据,并完成数据处理和对外报警,独立存储数据时间可长达一年以上,并可供随时查询,报表和曲线统计、打印功能。3.2.2 稳定性 系统采用多总线方式,某一子系统的故障不影响其它子系统的正常运行。 所有监控设备采用UPS供电,由所在机房UPS设备提供AC220V电源,并满足7*24小时不间断运行。 监控管理服务器支持双网卡链路备份,在出现单一网络链路故障时,不影响监控管理系统运行。3.2.3 精确性 直流电压优于
17、0.5%;其它电量优于2%;非电量一般优于5%,开关量100%准确。 监控管理系统经过终端采集的各类采集值保证不出现负值和数值明显漂移等现象,对于告警频率高的信号监控系统软件可自动识别,在告警栏显示告警最初时间。3.2.4 实时性 使用同类设备单总线采集方式,保证监控数据的实时性。 前端设备数据采控时间2S(和设备通讯协议有关)。 远程监控数据刷新时间4S。 短信、电话报警发出响应时间30S。3.2.5 安全性 系统具有多级权限管理。 系统无人操作一定时间后可自动注销、锁定。3.2.6 维护性 系统支持在线修改,在不停止监控系统的情况下对监控设备进行参数等的修改。 系统设计采用模块化结构,系统
18、软件采用组态工具实现方便的系统组建、维护、扩充,无需编程。3.2.7 扩充性 系统支持RS232/485/422、TCP/IP、SNMP、OPC、DDE、MODBUS、USB等各种标准化协议和接口,支持符合行业和国际标准的软件和硬件,可快速方便的将各种监控对象集成到系统中。 支持MYSQL、SQL SERVER等主流关系型数据库。 监控管理服务器可直接接入采控模块,完成对模拟量、数字量监控信号的采集。 系统经过标准化协议和接口,能够方便地和第三方系统进行信息交换。 系统经过模块化设计满足本次项目的监控需求,还能够方便地为扩容和升级,以适应业务的发展。 IT设备能够使用SNMP、Agent、Te
19、lnet/SSH、LogFile、Syslog、WMI等接口技术。采集IT设备参数监控方式是采用明文脚本,可由机房管理人员自行编写、修改,并经过安全审计,并非经过二进制程序获得。3.2.8 易操作性 系统针对监控对象的监控指标,可设置不同的报警阈值、并具有由用户选择是否保存数据的功能。 报表可根据用户需要进行自由定制,系统具有对被监控的设备进行管理的功能。 数据存储采用分级存储的方式进行,系统管理员能够根据需要对不同种类的数据灵活设置保存期限。对不在保留周期内的数据进行自动备份,并从生产数据库中自动清理,同时将清理的数据自动存储到历史数据库中。 平台以集中的方式,灵活地支持整个系统数据的存储、
20、备份和恢复,支持联机备份与恢复功能(包括主机、操作系统、数据库与应用软件系统等)。操作员能简单、灵活地设置系统数据的备份方式,操作员能在每次数据恢复后进行数据的一致性和兼容性的检测。3.3 系统功能3.3.1 界面管理监控平台界面显示为全中文界面,采用图形化设计,支持电子地图功能。界面的结构、层次清晰明了,页面风格能够按照用户需求进行定制,能够实时直观地显示设备的运行数据和运行状态,场景仿真。 监控系统的主界面为包含所有子系统内监控设备的电子地图,在该界面上可直接点击子系统内的任意监控设备进入其运行状态界面。同时,在本子系统的主界面上为各功能模组设置访问按钮,经过点击进入各功能模组界面(电子地
21、图),以便对分组的监控设备进行更清晰、更有针对性的监控。 以往监控页面不够直观时,系统为用户单独定制一张页面,以列表的方式能够置入用户关心的所有设备状态,方便用户能够方便快捷地查看到所有所关心设备;也能够在此页面上选择显示所有正在报警的设备,方便用户快速定位所有的故障设备数量、种类及相关信息。在系统发生报警时,系统支持自动弹出报警设备所在页面;当报警事件较多时,用户能够在事件栏点击报警事件,系统自动弹出所点击的报警设备所在页面。 当操作者点击主界面或功能模组界面上某一子系统后,画面会自动切换到该子系统的运行状态图或者弹出对相关的操作界面,以便管理人员查看和管理该子系统。在有报警或异常状态的情况
22、下,有问题的监控设备界面能够自动弹出; 页面轮询:系统允许管理人员针对系统中不同设备、环境的重要程度,自行定义监控画面按照预先设计好的顺序、时间间隔,在各功能模组之间进行轮询。当无人操作时,系统显示界面可按照设定的顺序(可随意更改编辑)自动显示。当进行手动操作或发生报警时,界面轮询功能应自动停止,直到手工再次启动轮询; 系统提供集成开发环境,利用各种界面元素(例如按钮、圆、矩形、直线、图片、实时曲线、历史曲线等)及编辑工具,使管理人员能够根据自己的需求设计个性化界面。例如对界面的框架结构进行调整、对监控单元的位置进行调整等。在使用过程中,对界面的修改应能在线进行,修改效果即时生效; 经过软件界
23、面应可直观的展示出机房内的情况,包括整体结构、空调、PMM柜、服务器机柜的摆放位置都要在图中体现出来;3.3.2 客户端管理系统采用B/S分布模式的模块化结构,软硬件的安装与维护集中于监控服务器端,易于实施和维护。同时采用B/S结构,客户端只负责用户界面显示,数据处理放在监控层,当监控需求增加时,只需对监控平台进行升级或扩展多个监控模块即可,大大地加强系统的伸缩性。 支持关键设备集中展示功能,能够在一个页面上组合若干重要设备的参数,如在同一界面上展示所有楼层的空调参数; 系统界面与用户权限绑定,不同权限的用户,其所看到的界面不同。3.3.3 报警管理机房管理员可根据国家标准和现场实际环境情况对
24、机房内的各类被监控设备设置其预警和报警阀值(出厂我方将会默认推荐值),所设定的值将保存在系统数据库内。机房监控管理系统将前端被监控设备的数据采集后将与数据库内所设定的数据值进行比对,当数据有有出入时且超过设定范围时,系统将产生报警事件。同时用户也可根据管理需要,将产生报警事件的设备安装重要性和危害性进行报警分级或做进一步处理,能够根据报警事件的报警级别提供不同的报警方式:短信、电话、邮件等告警模式。3.3.4 故障管理整个系统由于涉及软件、硬件,具有设备数量多、类型杂、系统结构复杂等特点,在运行过程中,时刻会受到来自外界的各种干扰,影响系统的稳定运行。例如来自电磁场和电源的干扰、设备自身故障、
25、通信链路的干扰等等。为此,整个系统提供了完善的故障管理机制,以应对异常情况的发生,并尽可能的减少故障所带来的影响。故障管理的作用体现在以下几个方面:1) 智能监测,尽早发现问题。2) 智能恢复,尽早解决问题。3) 智能屏蔽,尽可能的缩小故障影响范围。4) 智能分析,帮助维护人员尽快定位问题,尽早彻底解决问题。故障管理的范围包括以下三个方面:1) 应用层:对系统平台核心进程和线程的监控管理。2) 系统层:对操作系统的核心服务、系统资源进行监控和管理。3) 硬件层:对主机硬件资源进行监控管理。故障管理的具体实现是由软件看门狗和硬件看门狗两部分构成,软硬件看门狗相互配合,实现对硬件、操作系统、应用的
26、三级监控管理。3.3.5 联动管理 机房监控管理系统经过对采集到的设备或环境数据与数据库内相关设定数值进行对比,当采集数据与设定值不符时,便可触发相关系统动作,从而实现联动功能。另外,系统提供图形化动态逻辑组态功能,以图形化界面方式实现逻辑定义,从而更方便的实现联动功能。 经过设定联动逻辑,能够方便的将不同监控设备或不同子系统进行联动,即能够设定一些事件触发条件,当满足这些条件的时候,系统会自动执行某个功能或者启动另外一个设备工作等。例如:当火警发生时,监控系统自动对空调进行远程停机处理,同时联动门禁系统,开启所有通道及门禁(后期对门禁系统后才可实现)。 系统的联动功能具有足够的灵活性,当联动
27、逻辑需要改变时,系统提供方便的组态工具,快速修改联动逻辑,实现对系统或设备的灵活、有效的控制。联动逻辑的修改不需重新编程,系统的高级管理人员均可经过基础培训,掌握自行修改联动逻辑的方法。举例:3.3.6 安全时段功能整个系统在长期运行过程中,会遇到需要检修或演练的时段,如果任由系统进行报警会有大量的无关警报发送给运维人员。安全时段功能指在一个时间段内,报警事件将被屏蔽,不显示在事件栏,也不对外报警。在使用过程中,系统已经默认提供了11个时间段,还可添加、修改和删除时间段;在设备树中,可针对工程、所有设备、单个设备、单个测点和所有策略选择屏蔽的时间段,实现安全时段功能。安全时段结束后或者手动恢复
28、正常时,报警功能将恢复正常。3.3.7 数据管理要求实时数据:系统能够监控到指定设备的实时状态信息,支持实时查询,支持自定义采样频率;历史数据:系统能自动保存历史数据,保存时间不少于1年,可支持历史数据的定期清理,支持历史数据的导出备份,历史数据不可修改,支持多种形式的历史数据曲线查询,支持自定义时段。3.3.8 日志管理要求系统日志至少包括用户操作日志、系统运行状态日志、报警日志等;系统日志不可修改,支持系统日志到期提醒,可由指定用户对系统日志进行清理操作;系统日志的保存时间不少于一年,支持系统日志导出备份。当监控软件平台有相应管理人员进行操作或配置时,系统会有权限验证,经过验证后,会将操作
29、人员、操作内容、时间、类型、操作对象等信息进行记录。当管理员需要查询最近对系统的操作,可经过查询操作日志来实现。经过历史事件和日志查询程序,选择条件(设备范围、时间范围、类型范围和操作人员)组合查询,获取需要的操作日志,并可导出为报表。3.3.9 增强型IE权限管理用户的人员组织结构各有不同,对应的查看系统的权限、接受报警的级别、范围也各有不同。系统默认用户权限可按照机房区域、被监控设备、监控测点、监控页面、操作内容五个维度进行任意组合,首先能够设定不同的权限组,然后在不同的权限组内可设定不同的权限用户,使用户权限分配与公司组织架构、人员职能相符,如下示例:企业决策层级别:可对系统所有数据进行
30、查看,但无控制、设置、编辑权限,默认登录系统进入全局监控界面;超级管理员分组级别:可对系统所有功能和内容进行查看、操作、设置、备份、恢复,具有关闭系统的权限;一般管理员:可对系统所有内容进行查看,可选择性对部分设备、参数进行控制、设置、编辑;维护员:对某个专业的设备(如配电)具有查看权限,可选择是否具有控制权限,无编辑权限;值班员:对系统所有监控界面具有查看权限,无控制、设置、编辑权限,适用于外聘值班员及保安。不但可按操作进行授权之外,还可按资源(功能、设备、页面等)进行授权,实现按需管理,系统具有远程进行权限集中管理的功能,系统可为每个账号设定一个自己的主页,每次登陆时先显示各自设定的主页,
31、系统可为管理人员提供一套完善的排班管理、电子签到管理、交接班管理等一系列人性化管理体制,大大地提高了整个系统的可操作性。l 系统支持自由设置组权限、可操作功能多少,并具备人员管理器,可对每个用户的名称、口令、备注信息、隶属组信息进行添加、删除、编辑功能。l 智能告警发送:系统支持用户针对值班人员的上班安排,设定排班计划。当设定好排班计划后,该值班人员只能在上班时间登录到我们的监控系统进行监控和接收报警信息;当下班后她的账户就无法登录监控系统,而且也不会把报警信息发送给她,让她能够好好休息,所有的操作权限都移交给下一位值班人员。系统在进行操作时,须先输入用户名和密码,经系统验证后,根据不同的权限
32、定义,显示不同的操作界面和可管理工作范围。登录前系统处于锁定状态,但报警界面的自动弹出不受限制,管理人员退出操作状态后,系统自动锁定。在可操作深度范围内(系统未锁定),当管理员忘记注销账号时,超时(时间可进行自定义设置)后可自动锁定,使系统继续受到保护。系统操作记录:系统对所有操作者所进行的系统操作均作详细的操作记录,包括操作人、所操作的对象、操作内容、操作时间及权限用户登录、退出的系统的时间等,操作记录能够以列表的形式进行打印,以供查询之用。3.3.10 双向短信查询功能用户不在机房现场或不方便上网的时候,需要知道某个设备的实时数据、状态,某个时间段、某个级别的系统事件等信息,系统支持双向短
33、信查询,能够查询设备的实时数据、状态,也能够查询指定时间段、指定级别的系统事件。查询内容可由用户自行定义。每一组查询都有权限控制,只有经过授权的手机才能够执行相应的查询。3.3.11 增强型告警功能本集中监控管理系统提供灵活多变的告警管理功能: 报警机制:系统对报警事件按优先级的高低进行处理,并具备过滤机制。系统对所有报警事件进行判断,分析各报警事件的因果关系,经过预先设定的逻辑关系,屏蔽部分报警事件,减少突发性事件潮(如停电)带来的误报警和容量冲击,实现准确定位事件根源,从而提高了管理人员的工作效率,设置过滤组可对过滤时间,过滤条件,以及过滤报警的描述进行设置。系统可设置报警缓冲的次数,当多
34、次采集到该报警后才真正将报警在事件栏上显示出来,有效减少误报警的发生,提高监控系统的准确性。 报警方式:报警发生时系统界面可自动跳转到相应设备所在页面,同时告警信息能够限次播放,而且在两次告警间的停顿时间能够设置。 定时信息发送:系统可经过短信等方式定时或按指定时间段发送机房相关信息,如:每天8点至24点期间逢整点发送指定测点温度、定时(每天中午12点及晚上8点)发送机房整体运营状况等。 按管理范围报警:能够根据排班情况进行报警,报警只发给值班人员,休假时能够免除收到报警,避免形成”骚扰”;并可根据管理员管理范围划分进行报警,设置好后只会收到管辖范围内的报警,避免引起管理混乱。 报警屏蔽:能够
35、屏蔽掉不重要的报警信息,增强系统的灵活性、提高对数据的可信度。 报警分类:报警信息可分组或分级管理,用户能够根据按早实际发生的报警情况的紧急程度,划分为不同的报警组别或级别,对不同的报警组别或级别,系统会以不同的报警方式对外报警。 报警升级:当一条报警信息在规定时间内没有得到确认,变会以升级的方式向上一层用户报警。主要有人员升级与设备升级两种方式。人员升级是指第一级报警接收人员在规定时间内没有确定报警信息,报警信息便发送给系统中设定好的上一级用户,以使报警信息能够得到及时处理。设备升级是指当使用第一种报警方式发出的报警信息在规定时间内没有得到确认,系统便自动使用设定好的新一级报警方式发送报警信
36、息,以使报警信息能够得到及时处理。 报警对象的准确定位:对报警的设备、事件、内容等进行准确定位,例如:”XX机房的当前温度为27.5度,温度过高,请立即查看”。报警过滤机制:例如当某台UPS市电供入出现故障,可能会产生一系列的故障事件,如组电压偏低、单相参数为零、逆变器参数骤变等等,报警过滤机制则经过智能化的分析手段,对故障告警进行过滤,可准确定位故障为”UPS市电供入断开”,而不会发出一系列无关的告警事件,防止短信骚扰管理人员。 报警跟踪:系统提供对于任意一条报警信息的状态进行跟踪统计,包括报警时间,报警内容,确认时间,处理时间,处理日志以及处理人等情况的统计。并可对各项报警信息进行及时度统
37、计。 未恢复报警事件列表:提供设备报警状态的显示列表,可查看哪些设备有报警,是否报警恢复。 预警管理:设备告警支持预警功能。用户可为关键的数据点设定预警阀值,系统经过趋势判断,在设备产生真正的告警之前先产生预警,提醒用户及时处理,避免真正告警的产生。 告警发送记录与查询传统的监控管理平台在发生告警后都能够向用户发送告警,但发送的状态和结果确无从知晓。如果因网络或设备故障,导致告警未发送成功,用户往往并不知道情况,导致重要告警存在漏报的可能性。我们的告警平台支持对所有告警发送任务的跟踪和记录便于用户对历史的发送情况进行管理。3.3.12 报表功能针对于本项目具有大量数据的特殊性,我们为本系统设计
38、并提供强大的报表功能。系统具备统一的报表设计工具软件对平台数据进行有效统计、分析和展示,能够基于配置、性能、可用性、性能、报警事件等数据,自动创立专项指标和综合分析报表。报表模块可实现以下功能:n 提供报表模板;n 对相关数据进行分类归组,利用系统报表组态功能,可由管理员修改报表格式和报表数据存储、计算规则,形成报表模板,从而实现报表管理功能;n 支持以EXCEL和PDF形式导出;(待确定)n 可根据设定时间,自动生成指定报表,经过邮件的方式发送给指定人员;n 所有报表的生成分为自动和手动两种方式;n 不同管理员账户创立的报表应能够互相共享;n 保存数据和生成报表的方式能够选择定时保存和数据变
39、化间隔量变化保存,有效地降低系统负担,增加系统的可利用性和全面管理性能所有历史数据均存储在历史数据库内,数据能够根据用户实际情况设定存储策略,系统提供以下策略:n 按照时间进行存储,如每30分钟或每1小时整点存储一次数据;n 按照变化率方式进行存储,如温湿度变化0.5度以上才进行一次存储;n 按照时间+变化率方式进行存储,如果某个参数长时间不小范围波动,那就经过时间进行补偿方式存储。报表系统提供统一的报表门户,具备相应权限的用户可经过该门户登录报表系统。报表系统支持B/S,C/S两种访问方式,其监测内容和展现内容一致。 通用报表:系统提供多种机房运行报表,以时间维度来划分,有日报、周报、月报等
40、;以监测维度来划分,有模拟量报表、状态量报表、事件报表等;以展现方式来划分,有实时趋势图、历史趋势图、柱状图、饼图、雷达图等等。3.3.13 能效管理功能监控平台的PUE值分析模块经过将IT设备、和其它设备的能耗进行综合测算和分析,计算出机房的PUE,管理员可经过报表模块实时查看PUE数据。一方面对于日常维护过程中对能耗的分布情况”一目了然”,另一方面为机房优化提供相关支撑数据,打造绿色节能的机房。 PUEPUE是当前最流行的衡量机房电源能效比的指标,也是衡量一个机房是否节能的关键指标之一,(条件是在机房设计时要把IT设备用电与机房空调、照明等其它用电区分开)。经过对供配电系统的监控,在用户的
41、配电结构明确,并提供计算公式的条件下,能够计算出当前机房的PUE。3.4 系统实现3.4.1 动力监控3.4.1.1 配电柜监测 监控意义机房的进电直接影响到机房内所有用电设备的安全稳定运行,监控配电柜能让管理人员第一时间知道供电质量等问题,并有效采取预防、维护和优化措施。 实现方式经过安装(带液晶显示的)智能电量仪对配电柜供电进线进行各项供电参数监测。电量仪的RS485智能接口和通讯协议采用总线的方式将信号接入监控服务器(或串口服务器,由串口服务器将数据上传至监控服务器),由监控平台软件进行配电柜的实时监测。 监测内容实时监测配电柜供电进线的相电压、线电压、相电流、频率、功率因数、有功功率、
42、无功功率等参数。3.4.1.2 配电开关监测 监控意义机房的配电开关关联着其下联部分用电设备的通电状态,监控配电开关能让管理人员第一时间知道设备通电状态等问题,并有效采取预防、维护和优化措施。 实现方式对配电柜内重要配电开关的状态进行实时监测,经过隔离高压输入模块(或隔离数字量输入模块)采集配电开关下出线的强电信号(配电开关的辅助触点信号),经过隔离高压输入模块(或隔离数据量输入模块)的RS485智能接口及通讯协议采用总线的方式将信号接入监控服务器(或串口服务器,由串口服务器将数据上传至监控服务器),由监控平台软件进行开关状态的实时监测。 监测内容实时监测配电开关的通断电状态,一旦发生报警,系
43、统将自动切换到相应的监控界面,且发生报警的开关会变成断开状态且变红显示,同时产生报警事件进行记录存储并有相应的处理提示。3.4.1.3 UPS监测 监控意义机房的UPS是为持续运转的工业设备提供不间断的电力供应保证。监控UPS能让管理人员第一时间知道机房储备运行时间等问题,并有效采取预防、维护和优化措施。 实现方式对机房内UPS电源的各部件工作状态、运行参数等进行实时监测。经过UPS设备提供的RS485(或RS232或SNMP)智能接口及通讯协议,将UPS的监控信号采用总线方式(或经通讯转换模块将RS232转换成RS485信号后或经过网络方式)接入监控服务器(或串口服务器,由串口服务器将数据上
44、传至监控服务器),由监控平台软件进行UPS的实时监测。 监测内容(只监不控)实时监视UPS整流器、逆变器、电池(电池健康检测,含电压电流等数值)、旁路、负载等各部分的运行状态与参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的UPS所监控到的内容不同)。3.4.1.4 蓄电池监测 监控意义机房的蓄电池直接关系到UPS供电时间,供电质量等因素。监控蓄电池能让管理人员第一时间知道电池老化、后备电压不足等问题,并有效采取预防、维护和优化措施。 实现方式对机房内蓄电池的参数进行实时监测。经过加装蓄电池检测仪与每节电池进行连线监测,多台蓄电池检测仪经过RS485智能接口及通讯协议采用总线方式将信
45、号接入监控服务器(或串口服务器,由串口服务器将数据上传至监控服务器),由监控平台软件进行蓄电池的实时监测。 监测内容实时监测蓄电池组的总电压、充放电电流、单体电压、电池表面温度(选配)参数。3.4.1.5 精密配电柜监测 监控意义机房的精密配电柜是机房能源末端、为末梢IT设备智能分配高精度电力。监控精密配电柜能让管理人员第一时间知道末梢IT设备的用电质量等问题,并有效采取预防、维护和优化措施。 实现方式对机房内精密配电柜的运行参数及开关状态进行实时监测,经过精密配电柜设备提供的RS485(或SNMP)智能接口及通讯协议,将精密配电柜的监控信号采用总线的方式(或经过网络)接入监控服务器(或串口服
46、务器,由串口服务器将数据上传至监控服务器),由监控平台软件进行精密配电柜的实时监测。 监测内容实时监测精密配电柜进线电源的三相电压、三相电流、三相电能等参数,各支路的电流、功率因数、有功功率、电能等参数,以及各支路的开关状态(能监测到的具体内容由厂家的协议决定,不同品牌、型号的精密配电柜所监控到的内容不同)。3.4.1.6 直流/交流配电屏监测 监控意义机房的直流/交流配电屏是机房集中控制、合理向下级分配电源的单位。监控直流/交流配电屏能让管理人员第一时间知道电源分配等问题,并有效采取预防、维护和优化措施。 实现方式对机房内直流/交流配电屏的运行参数及状态进行实时监测,经过直流/交流配电屏设备提供的RS485(或RS232或SNMP)智能接口及通讯协议,将直流/交流配电屏的监控信号采用总线方式(或经通讯转换模块将RS232转换成RS485信号后或经过网络方式)接入监控服务器(或串口服务器,由串口服务器将数据上传至监控服务器),由监控平台软件进行直流/交流配电屏的实时监测。 监测内容实时监测直流/交流配电屏输出的电压、电流等参数,以及各支路开关、熔断丝的