资源描述
技术方案建议书
网络管理项目
华北电力调度数据网
目 录
1. 方案建议 4
1.1. 总体方案 4
1.2. 网络拓扑监控 7
1.2.1. 网络拓扑发现监控 7
1.2.2. 深入的网络拓扑监控 9
1.3. 网络故障管理 13
1.3.1. 事件采集 14
1.3.2. 事件过滤及处理 15
1.3.3. 事件关联定制 17
1.3.4. 事件信息增强 20
1.3.5. 事件告警 21
1.3.6. 事件管理与其他模块的接口 22
1.4. 网络性能管理 23
1.4.1. 基本网络性能管理 23
1.4.2. 网络性能分析 24
1.4.3. 网络设备性能管理 29
1.4.4. 网络延时监测 32
1.5. 网络流量管理 32
1.5.1. 拓扑图增强流量管理 32
1.5.2. 网络接口流量管理 34
1.5.3. Netflow采集分析 35
1.6. 对PLS-VPN的管理 37
1.6.1. MPLS-VPN的拓扑管理 38
1.6.2. MPLS-VPN的故障管理 40
1.6.3. MPLS-VPN的性能流量管理 40
1.7. Openview的扩展性 44
1.7.1. 管理功能的扩展 44
1.7.2. 管理范围的扩展 46
2.网元管理软件JUNOSSCOPE 46
3. 软硬件配置 50
3.1 软件配置 50
3.2 硬件配置 51
3.3 带宽占用 53
1. 方案建议
1.1. 总体方案
华北电力调度数据网建成后将覆盖华北三个省(山西、河北和山东)、一个自治区(内蒙)、两个直辖市(北京和天津)以及五个直属地调(唐山、秦皇岛、承德、廊坊、张家口)的调度中心及所属的直调厂站。
本工程网络按三层结构考虑:核心层、骨干层和接入层。华北电力调度数据网核心层、骨干层采用环形结构,接入层采用星形双归结构。在华北网调设置网管中心,统一进行全网的网络管理和业务管理。
华北电力调度数据网将建立一套网管系统全面负责网络的管理。网管系统应对全网各种网络设备实现统一管理,网管中心设置在华北网调。
华北电力调度数据网网管系统的逻辑架构如下图所示:
根据以上实际情况,本系统通过HP OpenView+JunosScope实现华北电力调度数据网基础干线网的管理需求。
1)北京总部建立网络综合管理平台
北京总部建立网络综合管理平台,实现对网络的综合管理,包括网络拓扑管理、网络故障管理、网络性能管理、VPN管理等管理工作,实现对全国的骨干网络监控。考虑到其为全国的管理中心,根据标书要求,配置为SUN 中高端 UNIX服务器。
2)网管平台的容错性
HP OpenView支持高可靠性的分布式管理工作方式,正常情况下,各省的网管系统负责采集和监控各省网络设备的状态,并将这些设备的状态上传到北京中心的管理站上,实现统一监控。当省中心的网管服务器出现故障时,北京中心的网管服务器可以接管其工作,直接轮训和监控省里的网络设备。
3) 分权管理,明确职责
对于各种管理工作和众多的管理设备,需要不同的管理员进行分工合作的管理。为了满足不同的管理员操作需求,可设置多种权限(管理员、操作员、监控员),多种方式的客户端设置(仿真终端、JAVA 终端、Web登录),HP OpenView支持多种客户端方式实现监控,主要如下所示:
UNIX管理站直接登录管理:全面管理功能,实现各方面管理设置
X WINDOWS模拟登录:实现全面管理,便于管理员操作
NT/2000客户端:网络管理终端,程序运行于本地,读取管理站数据,保证效率,方便操作。
JAVA Console: 全面事件监控,集中调用不同管理工具。
Web登录:方便管理员远程登录监控。
同时,不同管理员可设置不同管理权限,不同管理员登录后,监测到的管理界面不同,实现的管理功能不同,使用的菜单不同。其管理结构如下图所示:
6
1.2. 网络拓扑监控
华北电力调度数据网基础干线网网络是一个复杂的、分布式网络结构,单靠人工进行管理是很难了解整个网络系统配置及分布的,当前的网络系统中都有哪些节点,它们运行状态如何,有哪些是新增加的节点,是否有非法节点加入等都是难于解决的问题。
NNM的自动发现和监控机制能够发现网络节点 (包括路由器,交换机和第二层的交换设备等),检测网络设备连接,生成和保持TCP/IP网络图,通过色彩确定网络设备的运行状态,实现对网络设备状态、网络连接的直观监控。
1.2.1. 网络拓扑发现监控
拓扑管理作为网络管理的基本功能,是网管中最基本的也是最重要的组成部分之一;一般情况下,网络管理系统首先都要进行必要的拓扑发现、拓扑监控、拓扑操作;从而充分了解网络系统的运行情况;网络管理和其他的监控管理有类似之处,如电网的监控、交通网的监控,都是把直观的监控界面作为主要的监控手段,提供给监控人员一个直观、易用的操作平台。
NNM的拓扑发现和监控功能是全面和丰富的;可以满足网络设备的初始发现和网络设备的监控要求;可以形成多种角度的监控视图,包括Internet视图、网络邻居视图、逻辑监控视图、VLAN视图、VRRP视图等。可以方便管理员从多种角度了解网络设备的运行情况。同时,当网络发生事件时,可以及时更新网络拓扑图,并快速定位故障的发生点,且能了解故障点和其他设备间的联系,辅助解决问题。
NNM的拓扑监控界面实际上也是一个操作界面,当管理员要了解网络设备的具体信息时,可以通过方便的调用,查询网络设备的具体信息,包括设备信息、接口信息、VLAN信息等。
由此:拓扑管理可以方便的实现如下功能:
1)发现网络设备及其连接,获取最初的网络信息;
作为网络管理的基础,通过NNM首先对网络现状提供一个基本的了解,然后对网络进行有效的管理;
2)形成网络监控视图,使管理员可以直观的了解网络当前运行状况;
通过多种角度的监控视图,管理员可以从不同视角、不同深度了解网络的运行状况,从而发现潜在问题,了解网络运行情况。
3)图形化标识网络故障点,辅助解决网络问题;
管理员通过拓扑图中的连接关系,可以更为方便和快速的定位网络问题,从而减少故障修复时间。
4)集中的操作环境,可以从拓扑图中了解网络设备的详细信息;
提供给网管员一个方便的操作环境,可以从统一的、直观的监控界面,对所管辖的网络设备的详细信息进行了解,从而方便管理员的日常操作。
在实际的管理监控过程中,首先大屏幕显示网络拓扑结构,网络当前设备的运行情况(在确定网络管理范围,和对网络接口的定制后,网络正常的时候,全部网络设备应为绿色。出现问题的设备以不同颜色标识,并进行状态传递。)在整体监控视图中,可以直观的了解到当前哪些地域的设备有异常;哪些网段的设备有异常、哪些网络设备有异常、哪些端口有异常。如果把网管系统看作一个生产系统,整个网络视图一般情况下应为绿色显示。只有故障发生时,拓扑才会发生颜色变化。
对于管理员,如上所述,可以通过多种角度的监控视图,管理员可以从不同视角、不同深度了解网络的运行状况,从而发现潜在问题,了解网络运行情况。通过拓扑图中的连接关系,当故障发生时,可以了解故障设备和其他设备的连接关系,是否有关联故障,可以更为方便和快速的定位网络问题,从而减少故障修复时间,同时,可以从统一的、直观的监控界面,对所管辖的网络设备的详细信息进行了解,从而方便管理员的日常操作。
1.2.2. 深入的网络拓扑监控
同时,NNM的扩展视图功能提供更多的拓扑视图,对网络环境进行更为细化的拓扑管理。当网络出现异常时,可以调用详细的网络扩展监控视图,实现网络故障的诊断。主要包括:
网络邻居视图:真实表现网络设备物理连接
动态过滤视图:当前指定设备的动态视图
网络路径视图:端到端网络设备路径视图
VLAN视图:显示VLAN信息视图
VRRP视图:显示VRRP设备组状态视图
等等……
Ø 网络邻居视图监控
通过使用OpenView网络邻居视图,可以了解网络设备的具体连接关系,包括网络设备的端口连接信息;网络设备的PagP trunk连接信息;网络设备板卡信息;从而深入了解网络设备的连接状况,并消除隐患,保证网络设备的正常运行。
具体监控视图,如下所示:
Ø VLAN视图监控
对网络层的配置信息管理,仅提供网络拓扑互联信息是远远不够的。在网络中,基于网络安全方面的考虑,在交换机上为不同的应用划分成了不同VLAN子网。对网络的第二层管理来说,除了要知道交换机之间的互联,更主要的要能对VLAN进行管理。对VLAN的管理可以通过网络管理平台来实现。
通过网络管理平台,能够发现网络环境中VLAN的配置情况,了解网络中VLAN的数量和相应的VLAN号,并可以看到每个VLAN与网络中每个交换机的模块和端口之间的相互对应和归属关系。对网络中VLAN有总体的管理。同时,也可以把VLAN与网络设备之间的对应关系以网络拓扑的形式表现,可以看到在网络中有哪几台交换机配置有同一个VLAN,看到同一个VLAN与网络中相应交换机的对应关系:
如下表所示:
Ø VRRP组视图监控
对于华北电力调度数据网基础干线网的网络环境,基本上使用的都是cisco设备;且配置着大量VRRP组,如果VRRP组中的设备出现切换或相关VRRP组中的设备出现异常等情况,都是网管人员所需要快速了解的,NNM提供VRRP组监控视图,可以使管理员方便的了解VRRP组的工作状况。
具体如图所示:
1.3. 网络故障管理
事件管理是网络系统管理中一个重要的组成部分,NNM提供统一的网络系统管理平台,可以实现对网络事件的集中处理,包括syslog事件、trap事件、轮训事件等的集中处理。
NNM本身提丰富的事件管理和处理功能,并配合事件关联分析模块组成了整个网络管理系统的事件核心。同时还可以通过集中事件处理实现功能模块间的信息传递,与其它系统管理功能相集成。
NNM服务器在收到事件消息后可以对事件进行进一步的处理,包括压缩、确认、动作、报警、转发等处理,满足网管日常运维的要求。
1.3.1. 事件采集
Ø 对设备syslog及Trap事件进行采集
网管监控的事件来源主要有syslog、trap、轮训、性能告警等方面;通过NNM可以对网络设备的syslog事件和trap事件进行收集。主要实现功能如下:
Ø 对被管的所有设备的syslog信息进行采集;
Ø 对被管的所有设备的trap信息进行采集;(由于网络的syslog信息包含trap信息,所以可以屏蔽大量的网络设备的trap信息)
Ø 对轮训产生的故障信息进行采集
在实际的管理中,将被管理的设备的log server指定为Syslog采集器所在机器的地址,syslog事件首先存储在系统的syslog文件中,然后通过NNM的管理代理实现对syslog事件的解析,并发送到管理服务器;同样,将log server设置为网络设备Trap目的主机,所有的Trap事件将由NNM的Trap template进行解析并送往管理服务器。
通过NNM管理代理,可以对网络设备的、syslog、Trap信息进行解析,并发送到管理服务器,通过GUI界面及JAVA 控制台显示,如果不需要接收trap信息,可以简单的将trap模板定义为disable即可实现对trap 信息的屏蔽;
通过上述方法通常可以采集到以下事件:
网络设备环境相关的事件:电源电压、设备温度、风扇等的异常事件;
设备性能事件:设备CPU使用率、设备memory使用率异常事件;
链路层状态信息事件:监控重要端口的状态变化;
VRRP状态事件:VRRP的状态变化;
流量事件:监控通讯流量的异常;
设备故障事件:运行中的设备硬件故障信息、设备重启、软件故障信息;
网络设备配置事件:配置信息及变更的采集与监控
Ø 对节点宕机、性能事件进行采集
syslog事件和trap事件是由网管设备主动发送到网管服务器上的,但有些网络故障只能通过轮训方式进行监控,如节点宕机事件、性能阈值事件等,所以必须对此类事件进行监控处理。
所有被管设备的node down事件和性能告警事件均有NNM通过轮训进行监控产生,然后通过NNM实现对节点宕机和性能告警事件的解析,并发送到管理服务器。
1.3.2. 事件过滤及处理
在采集事件时通过对模板的定义,可以对指定的事件进行过滤。从而提高事件的处理效率和时效性;按照管理需要对原始事件中包含的信息,进行事件的重定义,其目的是提高信息的统一化,以方便操作人员的监控和后期进行信息的再加工。同时根据事件采集的规则,将不需要的事件在采集层直接过滤,可以减少管理服务器的事件量。事件过滤和处理主要包括以下工作:
1. 设置事件过滤规则,对指定的事件进行收集,对非匹配事件进行屏蔽。
2. 通过对模板的修改,对syslog事件的级别进行重定义,按照华北电力调度数据网要求,进行级别设定;
3. 对事件进行压缩处理,实现相同事件或相关事件的压缩;选择对压缩的事件的重复事件保留与否,是否添加重复事件到注解;
4. 信息修改,根据管理需要或事件的关联结果重新定义事件的内容,如级别、故障类型、描述等
5. 事件处理具有缓存的能力,即使在网络事件风暴中,NNM也不会崩溃,它首先会将事件放在一个缓存队列中,然后将事件送入到NNM的事件关联ECS引擎中处理,根据以往的经验,在单CPU服务器上可以达到300/s条的处理能力。
Ø 事件过滤:
网络事件中,有大量网管不关心的事件;所以需要对指定的不需要监控的事件进行过滤,如非syslog事件、SYS-5-LOGIN、SYS-5-CLOSE等。对指定的网络设备产生的接口事件进行过滤屏蔽处理,添加过滤规则进行告警屏蔽。
NNM提供对事件的处理,包括匹配告警、匹配抑制、不匹配抑制三种选项,并且可以通过匹配的运算符设置复杂的匹配关系,匹配的规则可以通过配置工具实现, 匹配规则的定义灵活且方便,包括<*> <n*> <#> <n#> <_> <n_> <@> 等匹配规则;-le -lt -ge -gt -eq -ne 等运算规则;[]、<>、=等表达式算法;
对于syslog文件,由于有一些非syslog信息,可以简单的通过定义不匹配抑制规则实现对非syslog事件的过滤,其规则定义为 %<*>;即如果文件中的信息,不含有%符合,则进行抑制。
在实际的操作环境中,对事件模板进行定义,设置过滤条件,如果事件信息不包含syslog标识符号%;则屏蔽不进行处理;设置过滤条件,如果事件信息类型为SYS-5-LOGIN或SYS-5-CLOSE则屏蔽此类告警;同理,可以对所有不需要监控的事件,通过模板匹配的方式,方便的实现事件过滤与屏蔽。
Ø 事件重定义
在实际的运维环境中,对于默认的事件级别,并不能和网管的实际要求匹配,所以需要对事件进行级别的重新定义。在模板中对特定的事件类型添加相关的模板条件,重定义后的事件分为四级:Normal、Warning、Major、Critical。对Critical事件需要实时语音告警并转发ECC。
首先,对华北电力调度数据网需要监控的几十种syslog事件进行重定义,根据业务需要,按照如下规则进行事件定义如下:
根据设备及端口不同的业务重要性对默认Critical事件进行重定义告警级别,关联规则如下:
1.恢复事件定义为Normal级别,由系统自动确认
2.在原来事件级别中没定义的事件为不确定事件(Warning),不作修改
3.对于破坏性事件(原始网管告警级别为Critical及端口Down),进行CMDB业务重要性关联:
3.1 重要设备的重要端口事件为Critical
3.2 重要设备的非重要端口为Major
3.3 非重要设备的重要端口为Major
3.4 非重要设备的非重要端口为Normal,自动确认
4. 通过使用ECS对破坏性事件进CMDB业务级别重新定义。
通过以上定义,实现的效果如下:
1. 恢复事件定义为Normal级别,由系统自动确认;
2. 在原来事件级别中没定义的事件为不确定事件(Warning),不作修改;
3. 对于破坏性事件(原始网管告警级别为Critical及端口Down),进行CMDB业务重要性关联生成Critical、Major、Normal事件。事件按照设定的规则进行显示输出;
Ø 事件自动关联
在网络中,经常会出现成对的事件,如节点down、up事件;端口down、up事件,管理员可以通过网管系统的自动关联确认功能,在up事件产生时,自动确认相关联的down事件,到历史事件中,从而减少手工的处理工作。
1.3.3. 事件关联定制
在网络故障的处理中,存在大量噪音事件和多源关联事件,这就需要管理员针对具体的事件管理要求实现事件处理逻辑的定制。NNM提供功能全面且易于使用的事件关联生成器,不但提供了默认的事件关联逻辑,同时,客户可以通过自定义的方式,实现客户化的事件关联处理。
Ø 默认事件关联举例
ü 路由器/ 交换机运行状况
路由器/ 交换机接口节点关联器可以将接口状态报警和与其相关的路由器或交换机的节点状态报警相关联。路由器或交换机内接口发出的OV_IF_Unknown状态报警和OV_IF_Down 状态报警被抑制,并嵌套在节点状态报警之下。
ü 多次重新引导路由器/ 交换机
Multiple Reboot 关联器检测并报告有关路由器和交换机在指定时间窗口内多次重新引导的问题。行为当相应的OV_Node_Up 报警到达时, ECS PairWise 事件关联会抑制OV_Node_Down 报警。该OV_MultipleReboots 关联器检测路由器和交换机内重复出现的失效/ 启动状况,并生成一个OV_Multiple_Reboots 报警,以警告您这一潜在问题。
ü 路由器/ 交换机的瞬断状态关联
路由器/ 交换机的瞬断状态关联器可以报告间断性启动/ 失效状态的路由器或交换机。行为如果接口连续处于先失效,然后又启动的状态,则当OV_IF_Up 事件到达时, ECS PairWise 事件关联将取消OV_IF_Down 事件。该关联器(OV_Connector_IntermittentStatus) 检测路由器或交换机内重复出现的接口失效/ 启动状况,并当OV_IF_Down 事件在指定时间(Window Period) 内发生指定次数(Count) 时生成一个OV_Intermittent 报警。
Ø 事件关联生成器
NNM不但提供默认的事件关联规则,同时通过事件关联生成器可以方便的定制用户在实际环境中的各种事件关联规则。事件关联生成器提供了最常用的事件关联逻辑的模板。使用这些模板,可以很容易地开发出自己的模板:
l 增强模板
用于触发一个或多个新报警的创建过程或扩充报警的信息量。
l 多源模板
用于定义任意数目报警之间的关系,这些报警可能来自不同的源,并一起构成了确定导致问题的逻辑集根源。当整组报警在定义的时间段内到达时,可以放弃、修改这些报警,或生成一个更有意义的新报警。
l 计数模板
用于计算在定义的时间段内接收事件的数目。接收到指定数目的事件后,可以选择放弃报警并生成一个更有意义的新报警。
l 重复模板
用于在定义的时间段内放弃重复报警,或在每次接收到附加报警时生成一个新报警,以便可以在报警消息文本中指定当前已接收到的报警的数目。
l 抑制模板
当需要放弃特定报警类别时使用,使这些报警并不显示到NNM的报警浏览窗口中。
l 瞬断模板
用于检测在定义的时间段内发生的已定义的成对事件的数目,如节点启动/ 节点失效。可以放弃成对事件并生成一个更有意义的新报警。
通过使用以上的这些事件关联模板,用户就可以方便的设计出满足自己需要的事件处理,从而实现对网络告警的智能处理,并快速定位关键故障,从而恢复网络故障,保障网络的正常运行。
事件关联界面如下图所示:
1.3.4. 事件信息增强
在网络事件管理中,经常需要对对于事件的原始信息可以相应增加其他的有意义的事件属性信息,如人员、地域、服务等内容,使管理员更为有效的实现对事件的监控。
Ø 文件丰富
在事件中增加节点位置字段。通过ECS查询设备位置信息对照文件,将返回值丰富到节点位置字段中,从而实现直观的告警显示,并辅助事件的解决。事件信息丰富通过ECS调用文件方式,或数据库方式进行扩充。
首先,匹配原始告警信息,获取需要关联的事件变量,如<source> <ifName>等;如图所示:
由此,可以提取原始信息中的变量,对指定变量进行关联丰富处理。
通过使用ECS增强规则查询设备位置对照表,可以获取相关的设备位置信息,并丰富事件属性:设备位置,显示在告警窗口中。
Ø 数据库丰富
实际的工作环境还可以通过数据库进行关联处理,通过ECS查询设备位置信息的数据库,将返回值丰富到节点位置字段中,从而实现直观的告警显示,并辅助事件的解决。事件信息丰富通过ECS调用数据库方式进行扩充。
首先,通过数据库查询守护程序:dbread及其client端testo。运行时,dbread建立一个对Oracle数据库保持长链接的守护进程,ECS通过并发调用testo向dbread进程输入查询条件并取回其返回值。这样避免了每次ECS事件关联时都需要链接数据库和关闭数据库的时间和性能损耗,保证在大事件量的压力下,NNM可以快速准确的进行CMDB事件关联。
由此,通过使用ECS增强规则在CMDB中查询设备位置对照表,可以获取相关的设备位置信息,并丰富事件属性:设备位置,显示在告警窗口中。
1.3.5. 事件告警
当重要事件产生时,网管系统将触发一些告警功能,以便通知和提醒运维人员及时处理,包括:弹出告警窗口、本地语音告警、email、短信等。由于此项操作的目的是对管理员进行通知,所以,程序必须在监控员本地执行,或指定的远端PC机上运行;如当监控到某地市的某节点发生故障时,相关的告警程序需要在地市管理员的的监控平台启动。
多功能故障报警系统iMessenger能够帮助IT部门有效的解决这些问题。iMessenger是一个基于硬件产品的故障与信息通知的解决方案。如下图所示,iMessenger通过不同的适配器(iMsgAdapter)与安装在服务器上的OV管理软件进行集成,获得告警、问题等信息,并通过电子邮件、手机短信、手机铃声、自动拨打电话等远程方式,根据用户定义的时间、故障条件等策略发送给指定的接受人,同时也支持传统的声音报警、弹出窗口报警、Windows Messenger报警、报警精灵等。通过短信指令,还能够远程查询相关设备和服务的运行状态,及时了解网络运行质量信息,帮助远程诊断问题。
系统还支持基于消息接口的编程集成,其他非IT管理软件也能够通过iMessenger进行消息的统一发送和管理。
1.3.6. 事件管理与其他模块的接口
NNM的事件管理通常使用下面的方法和其他模块进行交互,首先当任何一个事件到来时,NNM都可以执行自动的命令,通过这个命令可以将该事件转发出去。另外NNM的事件都提供MSI接口,即在NNM中,具有消息流的概念,MSI就是消息流,用户可以通过API在消息流上打开一个窗口,截获所有实时的消息。对于历史事件,可以通过NNM的数据库访问。
其他系统要想NNM中发送事件,可以通过SNMP,日志文件,命令行,消息API将事件导入到NNM中。
1.4. 网络性能管理
1.4.1. 基本网络性能管理
网络性能管理是网管系统的一项重要功能,一般情况下,网络性能的各项指标大部分可通过SNMP获得,包括设备的CPU,内存,缓冲区使用情况,设备的环境参数,如电源、温度、风扇、电压等。对于SNMP的基本网络性能数据NNM实现功能如下:
1)网络性能实时监测
NNM支持通过SNMP协议对网络性能进行管理。NNM支持SNMP v1、SNMP v2c和SNMPv3,能够管理的内容包括网络设备的性能(如CPU、Memory等)、端口流量、错误率等。
同时,管理员可定制自己的管理菜单,对自己关心的网络性能参数进行菜单定制,实现方便的调用监测。
NNM提供对网络性能进行实时监测的工具,能够以最小为1秒的间隔对网络性能数据进行收集,并即时生成曲线图,供管理员对网络性能进行观察和分析。
NNM可对网络设备的端口流量进行实时监控和历史采集,包括端口的流入流出量、端口的错误率、丢包率等一系列网络参数进行统计。同时这些采集数据都可存入相应数据库中,并可进行计算,得出各项百分比统计。通过对压缩前的流量采集和压缩后的流量采集的计算即可得到相应的压缩百分比。
1.4.2. 网络性能分析
对于网络性能的历史采集主要从以下四个方面体现:
1)数据采集
2)数据存储
3)数据管理
4)数据报告
通过Openview采集汇总的信息,管理员可了解当前的网络性能状况,并根据此来优化网络结构,并为将来的网络系统升级提供决策支持。
作为一个完整的解决方案,Openview提供从数据采集到数据报告的所有工具,使管理员可轻松完成对采集数据的管理和报告。
1) 数据采集
Openview支持基于标准SNMP来采集MIB数据,如RFC1213;或者设备厂商提供的私有MIB。用户可以方便的加载不同厂家的MIB库到Openview系统中,以供管理员对自己网络中的各种设备进行性能采集。
在OVPI中,针对不同种类的设备和性能参数,系统提供采集策略的定制,包扩采集的MIB值,采集的时间间隔,以及采集的对象。
2) 数据存贮
对于采集的历史数据,通常需要保持几个月或几年,甚至更长时间;用来为管理员提供日报、月报、年报等。这样采集的数据如果不用数据库存储,将会对管理和维护带来很大问题,使数据整合、报告生成很难进行。所以,作为一个成熟的性能管理软件,Openview从一开始就使用数据库对其数据进行存贮和处理,并支持多种开放形式供开发人员对其数据进行进一步处理。
3) 数据管理
原始数据采集后,NNM按小时、天、星期、月对原始数据进行整合处理,对于不同时间间隔的采集数据自动的存贮在不同的表中。同时包括其统计的最大、最小、平均值等统计信息都进行相应的存贮。这样在对大量数据生成报表的时候,效率就不会因为数据量的增大而受到影响。同时也为报告的生成提供了更大的灵活性,可以根据不同的统计数据生成相应的服务级别报告。
同时,数据处理是可预定义并自动完成的,管理员可以选择采集数据进行处理的时间间隔,数据在数据库中的保留时间等,系统将按管理员定义的时间进行自动处理。 对于采集到的性能数据,系统可以设置阈值告警,既可以对原始数据进行阈值告警,也可以对聚合数据和统计数据进行阈值告警。
收集原始数据之后,Openview就会把这些数据整合成为按小时、天、周、以及月的统计数据。出于效率考虑,每个时间段的信息都保存在单个表格中。Openview不但提供各种参数的基本集合(最小值,最大值,平均值,总值);而且还提供深入的统计数据分析,例如标准偏差、百分比、阈值、预测、以及更多。请参见下面的“Openview统计数据摘要”小节以获得更多详情。
Openview的数据老化过程是自动的,用户也可以进行配置。用户可以选择数据在每种数据表格中保留的时间。如果不再需要数据,那么就会自动从数据库中删除它。
OVPI中内置了很多管理和统计的算法,包括:
•Management
•Central storage
•Distributed storage
•Aging/Purging of data
•Manipulation
•Roll-up (time reduction)
•Grouping by variable
•Rotation of “narrow” data
•Analysis
•Delta calculation
•Conditional processing
•Mathematical Expressions
•SQL Expressions
•Grade-of-service indexes
•Thresholding
•Stepping
•Baseline Creation
•Forecasting
•Statistics
•Total of samples
•Minimum
•Maximum
•Times & Durations
•Sample Counts
•Simple Average
•Ranges
•Exception counts
•Equation counts
•Weighted average
•Standard deviation
•Median
•90th, 95th, 98th Percentiles
•30, 60, 90-day forecasts
•Least squares regression
•Days to threshold
•Ranking
4) 数据报告
OVPI提供几十种报告模板,管理员可通过图形界面方便的定义和生成各类报告。其中,报告可基于MIB-II或基于设备的私有MIB。管理员可通过对相应报告模板的增加和修改生成自己所需要的性能报告。并可以通过定义,定时生成报告,然后输出到WEB界面或打印以及输出到用户目录。
Openview的报告工具使得用户可以多种格式表示数据。用户可以使用下列方式查看报告:
· HTML
· On-Demand HTML
· JAVA Applet / Application
· 打印硬拷贝
这些报告可以包含下列组件的全部或者任意组合,从而使得用户可以容易的理解它们表示的数据:
· 表格
· 饼图
· 线图
· 条形图
· 面积图
· 服务等级图
· 堆叠条形图
用户也可以通过下列过程导出数据:
· 硬拷贝
· CSV
· ASCII
· HTML
· PDF
· GIF、位图、或者PostScript
这些功能可以通过Openview的标准GUI(图形化用户界面)或者Web接口来访问。管理员和高级用户通常使用强大的Openview标准GUI,而一般用户则使用简单的Web接口。
Openview提供了大量的报告。有些报告是基于MIB-II的,它们可以与几乎所有的支持SNMP管理的设备一起使用。其它报告是基于设备制造商提供的企业MIB的。客户通常使用这些报告作为自己报告系统的模板,然后创建少量附加报告来满足特定需求。Openview的设计和构造在所有方面都非常灵活和强大,其中包括报告。因此,用户可以方便的从头创建报告,或者使用现有报告作为新报告的模板。Openview的目标是满足客户的需求,而不是向客户指定需求。
Openview的报告预定工具使得用户可以按需预定报告,而且可以预定通过灵活的方式把报告递送给相应的用户,这可以是Web服务器、打印机、或者是用户目录。
1.4.3. 网络设备性能管理
提供网络设备性能的采集和报告,包括网络设备的CPU利用率、内存利用率、缓冲区利用率等等,并对相关的性能信息进行各种模式的统计分析,报告举例如下:
报告名称
报告描述
总体报告
为管理层提供了企业中路由器的性能概述,包括通信量、CPU、内存、以及缓存利用率。性能的关键指标会分别显示,然后组合成服务等级图表来显示路由器健康性。
容量规划报告
显示了利用率最高和最低的路由器。它使得用户可以分配通信负载从而尽可能的利用率路由器的潜能。容量规划报告有下列组件组成:过载利用率和利用率不足的路由器、GOS、CPU/内存利用率、每小时的缓存利用率、总字节数以及总丢包数。
热点报告
这个报告列出了超出了CPU利用率、内存利用率、缓存利用率、或者超过缓存故障阈值的路由器。每种异常都链接到一个下拉式报告中,从而可以在报告中显示单个的度量。
Top Ten报告
列出了以总利用率排序的前十个路由器,此外还列出了排名变化最大的前十个路由器。利用率变化图表指出了利用率变化最大的路由器,所以如果发生了增长趋势,那么就暗示存在潜在的容量过载
1) 总体报告:
2) 容量规划报告(由于数据有限,图为demo数据)
1.4.4. 网络延时监测
对于华北电力调度数据网基础干线网网络,下辖全国各省、地市,管理范围广,难免会出现网络效率低的情况,这时就需要网络路径延时的探测工具实现对各设备之间的延时进行监测。NNM针的设定,可方便的实现此类故障检测。
对于由Netpath探针监控的路径,提供:
端点间的所有路径表,包括:
Ø 每条(当前和以前使用的)路径的状态
Ø 最后使用日期和时间,跳转次数
Ø 每条路径的使用时间比率
详细路径分析表,包括:
Ø 每一跳的响应时间历史数据(最近、最低、最高、平均)
Ø 节点、节点状态、接口地址
路径的可视图,包括:
Ø 每台3层路由设备的节点类型、状态和接口信息
针对选定接口或设备启动实用程序的能力:
Ø 探测、跟踪路径、设备状态
Ø 用户可配置的实用程序
1.5. 网络流量管理
1.5.1. 拓扑图增强流量管理
iFlowVis是一个基于NNM的流量监控和趋势分析系统,作为网络运行质量的管理支持工具,紧密集成在NNM系统中,通过NNM提供的拓扑图,实时展示网络链路的流量等性能指标,还能够展现长期网络运行质量趋势图表,极大便利了流量管理与网络优化。提供对网络接口的流量统计分析,包括网络端口的利用率、端口流入量、端口流出量、错误率、误码率、丢包率等等网络接口的性能数据报告。
· 为NNM 网络拓扑图增强实时流量展示功能: 在NNM拓扑图中,链路实时流量信息能够直接在NNM拓扑图上显示,并通过动态改变链路(Connection Symbol)线的粗细来反应网络实时流量分布,主要包括网络链路带宽利用率、网络链路流量统计等性能指标。
图:在拓扑图上实时显示流量信息
· 支持多种网络链路连接形式:所有的链路均由NNM自动发现,用户对链路不需要作任何配置工作。支持常见的连接方式,包括路由器和路由器相连、路由器和交换机相连、路由器和网段相连、交换机和网段相连、路由器和主机相连、交换机和主机相连等。
· 网络流量实时阈值告警:根据网络当前性能指标和用户自定义告警策略,iFlowVis能够自动发现网络异常,并通过链路闪烁等方式来显示流量异常信息,即使告知管理人员。
· 配置监控参数:提供单一便捷的控制台界面,用户可以根据实际需求随时更改监控参数。
图:iFlowVis配置界面
· 提供流量数据的趋势综合分析统计功能: 提供流量等性能参数的趋势分析,包含每天、每周、每月、每年的分析报表,为网络优化和规划提供科学决策依据。
1.5.2. 网络接口流量管理
提供对网络接口的流量统计分析,包括网络端口的利用率、端口流入量、端口流出量、错误率、误码率、丢包率等等网络接口的性能数据报告。报告举例如下:
报告名称
报告描述
总体报告
向管理员提供了网络接口的网络流量和利用率的性能概述。性能的关键指标会分别显示,然后组合成服务等级图表来显示接口健康性。
容量规划报告
这个报告列出了有可能90天内会超出阈值条件的接口,从而指出可以采取何种措施来避免故障发生。如设置的阀值为:度量阈值是
展开阅读全文