资源描述
内控管理内网监控及数据库审计平台技术解决方案
117
2020年5月29日
文档仅供参考
上海东方CJ
内控管理、内网监控及数据库审计平台
技术解决方案
上海络安信息技术有限公司
02月
版权声明
上海络安信息技术有限公司是一家提供全面网络安全解决方案的咨询与服务为主的高科技企业,为中国广大的行业用户提供具有国际标准(如ISO17799、ISO15408、BS7799等)的网络安全全面解决方案及咨询服务,并向客户提供全面安全解决方案中所需的各项安全工具,及提供安全解决方案管理所需的管理决策平台、安全咨询、教育培训以及卓越的售后服务。
上海络安信息技术有限公司保留此文档的所有电子、纸张类文件资料和相关软件等的所有版权。任何单位和个人未经许可不得复制、转载或用于任何商业目的,上海络安信息技术有限公司保留追究法律责任的权利。
文档修改日志
日期
修改理由
修改章节
版本
.02.07
原始版本
1.0
目 录
第一章 项目综述 9
1.1 项目背景 9
1.2 络安简介 10
第二章 项目需求分析 2
2.1 内控管理需求分析 2
2.1.1 维护管理困难 2
2.1.2 使用共享帐号的安全隐患 2
2.1.3 密码策略无法有效执行 2
2.1.4 用户授权不清晰 3
2.1.5 访问控制策略不严格 3
2.1.6 用户操作无法有效审计 3
2.2 内网监控需求分析 3
2.2.1 功能需求分析 3
2.2.2 项目建设目标 5
2.2.3 项目效益分析 6
2.3 数据库审计需求分析 6
2.3.1 数据库管理 7
2.3.2 技术风险 7
2.3.3 审计风险 8
2.4 平台性能需求分析 8
2.5 自身安全性需求分析 9
第三章 WEBCARE智能网络监控软件解决方案 10
3.1 系统架构设计 10
3.2 关键功能简介 12
3.2.1 集中式监控平台 12
3.2.2 统一资源配置平台 13
3.2.3 统一展现平台 14
3.2.4 告警事件管理 14
产品功能介绍 16
3.3 基础设施监控 16
3.3.1 多种监测手段 16
3.3.2 监测器一览表 18
3.4 业务系统监控 19
3.4.1 面向业务可用性的监测 19
3.5 统一事件平台 20
3.5.1 故障管理 20
3.5.2 故障信息的采集 20
3.5.3 统一的事件处理平台 21
3.5.4 事件的自动通知 21
3.5.5 规范的告警处理机制 21
3.6 统一运行展现 22
3.6.1 IP拓扑视图 22
3.6.2 设备视图 23
3.6.3 业务视图 23
3.6.4 自定义视图 24
3.7 系统安全性设计 24
3.7.1 用户权限管理 24
3.7.2 系统状态监测 25
3.7.3 系统数据管理 25
系统技术指标 26
3.8 网络管理功能性 26
3.9 服务器监测 28
3.10 数据库监测 29
3.11 应用服务监测 30
3.12 扩展接口 31
3.13 系统影响评估 31
3.13.1 对网络带宽的影响 31
3.13.2 对采用SNMP监测的主机系统 32
3.13.3 对采用Agent监测的Windows服务器 32
3.13.4 对采用Agent监测的UNIX服务器 32
3.14 定制和客户化方案 33
3.14.1 二次开发必要性 33
3.14.2 二次开发能力和优势 33
第四章 LANSECS内控堡垒主机解决方案 35
4.1 方案目标 35
4.2 方案内容 35
4.2.1 设备集中管理 36
4.2.2 解决共享账户隐患 36
4.2.3 密码策略有效执行 36
4.2.4 解决客户授权不清晰 37
4.2.5 访问控制策略严格执行 38
4.2.6 操作审计可追踪 39
4.3 产品设计概要说明 40
4.3.1 整体设计 40
4.3.2 工作流程 40
产品功能介绍 40
4.4 系统架构 40
4.5 功能描述 41
4.5.1 统一资源管理 42
4.6 用户管理 43
4.6.1 用户生命周期管理 43
4.6.2 主账号管理 44
4.6.3 账号管理 45
4.6.4 用户角色管理 45
4.6.5 账号同步 45
4.6.6 账号策略管理 46
4.6.7 资源管理 47
4.6.8 密码策略 47
4.7 授权管理 48
4.7.1 集中授权 48
4.7.2 授权审批 49
4.7.3 资源授权 49
4.7.4 角色授权 49
4.7.5 细粒度授权 50
4.7.6 集中访问控制 51
4.7.7 单点登陆 52
4.7.8 B/S单点登录 53
4.7.9 C/S单点登录 53
4.7.10 动态短信口令 54
4.8 审计管理 55
4.8.1 内部的审计 55
4.8.2 审计范围 55
4.8.3 审计内容 56
4.8.4 审计查询 56
4.8.5 审计报表 56
4.8.6 还原审计 57
4.8.7 智能告警 57
4.9 集中管理平台 58
4.9.1 子系统管理 58
4.9.2 账号管理 58
4.9.3 用户自管理 59
4.9.4 单点登录 59
4.9.5 权限管理 59
4.9.6 数据查询 59
4.9.7 访问审计 59
4.9.8 系统自管理 59
产品优势及部署 62
4.10 LanSecS堡垒主机特色 62
4.11 LanSecS产品功能优势 63
4.11.1 可定制性 63
4.11.2 可扩展性 63
4.11.3 高安全性 64
4.11.4 高可靠性 64
4.11.5 易用性 64
4.12 LanSecS内控堡垒主机典型部署 65
4.12.1 单区域堡垒机部署 65
4.12.2 多区域堡垒机部署 66
第五章 IMPERVA数据库安全审计解决方案 67
5.1 Imperva公司数据库安全解决方案 67
5.1.1 SecureSphere® Database Activity Monitoring Gateway 67
5.1.2 SecureSphere Database Firewall Gateway 67
5.1.3 SecureSphere Discovery and Assessment Server 67
5.1.4 SecureSphere MX Management Server 68
5.1.5 Imperva Application Defence Centre (ADC) 68
5.1.6 SecureSphere优势(专利)技术 69
5.2 技术实现 69
5.2.1 SecureSphere 专用硬件平台 69
5.2.2 数据库代理(Agent) 71
5.2.3 集中管理架构 72
5.3 部署方案 72
5.3.1 嗅探部署方案 72
5.3.2 桥接部署方案 73
5.3.3 代理部署方案 74
5.4 工作原理图 75
5.5 SecureSphere®逻辑架构层次 76
5.5.1 用户界面层User Interface Layer 76
5.5.2 管理和报告层Management & Reporting Layer 76
5.5.3 分析层Analysis Layer 77
5.5.4 存储层Storage Layer 77
5.5.5 收集层Collection Layer 77
5.5.6 数据库访问层DB Access Layer 77
5.6 数据捕获 77
5.7 SecureSphere®多层安全检查机制 78
5.7.1 数据库 IPS 79
5.7.2 集成防火墙功能 80
5.7.3 动态建模 80
5.7.4 数据库协议验证 80
5.8 Imperva数据库安全方案的优势 81
第一章 项目综述
1.1 项目背景
随着信息技术的不断发展和信息化建设的不断进步,办公系统、商务平台的不断推出和投入运行,信息系统在金融行业内部的运营中全面渗透。而当前大部分企业系统管理员人数较少,不但管理和维护费时费力,而且帐号或密码外泄、违规访问和操作、人为误操作等安全事件时有发生,也无法对安全事件进行有效的责任定位,这些都会对部门或者企业声誉造成重大影响,并严重影响其经济运行效能。如何提高系统运维管理水平,满足国家或企业内部相关标准要求,防止内部或外部的违规行为,降低运维成本,提供控制和审计依据,越来越成为企业关心的问题。
经过自动化的技术手段分别从物理层、网络层、应用层三个方面对公司内网的核心服务器群、网络及应用系统进行7×24小时全天候监测预警,经过持续对各项资源运行状况的监控,建立性能基线,发现系统中的异常而且及时告警,以便快速作出应对措施,有力提高应用服务保障水平。
数据库的应用已经十分广泛,深入到各个领域,但随之而来也产生了很多数据的安全问题。各种应用系统的数据库中大量数据的安全问题、敏感数据的防窃取和防篡改问题,越来越引起人们的高度重视。数据库系统作为信息的聚集体,是计算机信息系统的核心部件,其安全性至关重要,关系到企业兴衰、成败。因此,如何保证数据库自身的安全,已成为现代数据库系统的主要评测指标之一。
上海东方希杰商务有限公司是做电子商务业务的,电子商务、电子贸易的着眼点集中于WEB服务器、Java和其它新技术的同时,应该记住这些以用户为导向和企业对企业的系统都是以Web服务器后的关系数据库为基础的。它们的安全直接关系到系统的有效性、数据和交易的完整性、保密性。系统拖延效率欠佳,不但影响商业活动,还会影响公司的信誉。不可避免地,这些系统受到入侵的可能性更大,可是并未对商业伙伴和客户敏感信息的保密性加以更有效的防范。另外,ERP和管理系统,如ASPR/3和PeopleSoft等,都是建立在相同标准的数据库系统中。无人管理的安全漏洞与时间拖延、系统完整性问题和客户信任等有直接的关系。因此,如何有效地保证数据库系统的安全,实现数据的保密性、完整性和有效性,已经成为业界人士探索研究的重要课题之一。
1.2 络安简介
上海络安的一站式运维服务立足于ITIL/ISO27001国际管理标准,集网络安全技术、产品和资深工程师为一体,向客户、合作伙伴提供增值、全面、完整的安全托管服务。服务范围包括全面的整体安全策略制定、定期、性能监控、流量监控、数据备份与复原、系统加固、"白客"攻击测试,安全配置、紧急响应、、7*24*365 安全监控服务等。依托于上海络安为IDC托管用户提供的高质代维服务,企业可专注于网站主要业务的运营。
上海络安致力于为企事业单位提供长远的、有效的信息服务解决方案,按需求提供一站式网络运维服务,不断降低企业运营风险水平和长期运营成本。
上海络安是以提供全面IT咨询与网络运维服务为主的高科技企业。
具有自主知识产权的安全监控软件,为各行业用户提供具有国际标准的网络安全全面解决方案及咨询服务。
拥有强大的后端技术支持平台,严格的服务流程专业的工程队伍、完善的监控体系。
本公司优势:
具完整咨询、设计、实施经验的服务能力
BCP(业务持续性计划)和DRP(灾难恢复计划)咨询服务能力
量身订作的业务持续性计划咨询及实施计划
企业容灾系统的架构设计
客户应用系统数据移植、数据优化和数据管理
大型容灾项目的实施经验
跨平台的系统集成能力
高素质的运维外包项目管理经验
上海络安金桥IDC机房,提供专业IDC服务
服务资质:
公司获得高新技术企业和双软件企业的证书;
获得工信部(工信部协[ ]42号)互联网安全接入试点工作的上海市试点工作任务承担单位;
获得上海世博会信息安全保障应急响应支撑单位;
获得工信部颁发的计算机信息系统集成资质
荣获上海世博会信息安全保障工作优秀集体(唯一一家企业单位)
公司荣获上海市创新型企业称号
公司获得工信部颁发的信息安全应急处理服务资质
公司获得中国信息安全测评中心颁发的信息安全服务
第二章 项目需求分析
2.1 内控管理需求分析
上海东方希杰商务有限公司是一家电子商务公司,使用在线网上银行交易系统,因此对数据库的安全性较高。企业数据中心拥有数量众多的Unix/Linux/Windows主机、网络设备、数据库服务器及必要的安全设备,用来支撑和保障电子商务、数据库应用、ERP和协同工作群件等的稳定、安全运行。
信息安全管理部门在对以上各种设备进行维护和管理的过程中,面临着如下问题:
2.1.1 维护管理困难
大量设备和系统的维护管理常常使得系统管理人员忙碌不堪,不同的IP地址登录、繁杂的帐号和密码记忆等,经常导致维护管理混乱、不到位和误操作等问题出现;出现问题后,也无法及时发现和处理,维护管理效率低下。因此,需要借助技术平台对设备和系统进行维护管理,以提高管理效能,缓解系统管理人员压力。
2.1.2 使用共享帐号的安全隐患
企业的支撑系统中的大量网络设备、主机系统和应用系统,分别属于不同的部门和不同的业务系统。各系统都有一套独立的帐号体系,用户为了方便登录,经常出现多人共用帐号的情况。
多人共用一个帐号在带来方便的同时,也导致了用户身份唯一性无法确定。发生问题后,无法准确定位恶意操作或误操作的责任人;如果其中有人离职或者将帐号信息外泄给其它无关人员,会使这个帐号的安全性无法保证。另外,如果更改密码,则需要通知所有需要使用此帐号的人员,使密码的管理工作复杂化。
2.1.3 密码策略无法有效执行
为了保证密码的安全性,安全管理员制定了严格的密码策略,如密码要定期修改,密码要保证足够的长度和复杂度等,可是由于管理的机器数量和帐号数量太多,往往导致密码策略的实施流于形式。
2.1.4 用户授权不清晰
设备多维护人员少是当前大部分企业面临的一个共同问题,一个维护人员可能会同时维护管理多台设备,也就会同时兼任各种系统角色,这就造成了用户权限分配的混乱性和不合理性,不合理和不清晰的用户授权使得系统的安全性无法得到充分保证。
2.1.5 访问控制策略不严格
当前,在网络管理中没有一个清晰的访问控制列表,无法一目了然看到哪个用户能够以何种身份访问哪些关键设备,同时缺少有效的技术手段来保证访问控制策略被有效执行。
2.1.6 用户操作无法有效审计
各系统独立运行、维护和管理,因此各系统的审计信息也是相互独立的。每个网络设备,每个主机系统分别进行审计,安全事故发生后需要排查各设备、系统的日志,费时费力;即使审计日志找到了,也很难定位到行为人。
另外,各系统的日志记录能力各不相同,日记记录功能也都存在着一定的缺陷。例如对于Unix系统来说,日志记录功能就存在以下问题:
u Unix 系统中,用户在服务器上的操作有一个历史命令记录的文件,可是用户能够随意更改和删除自己的记录;
u root 用户不但仅能够修改自己的历史记录,还能够修改她人的历史记录,系统本身的历史记录文件已经变的不可信;
u 记录的命令数量有限制;
u 无法记录操作人员、操作时间、操作结果等详细内容;
2.2 内网监控需求分析
2.2.1 功能需求分析
上海东方希杰商务有限公司内网监测预警平台是针对主机、网络、应用、数据库的运行性能及安全状态进行监测的应用系统,必须满足如下要求:
1、集中运行管理
信息系统管理人员面正确往往是异构的管理对象和多种管理需求,如果没有一套统一、集成的管理系统,需要花费很长时间和精力学习管理技能,导致管理效率无法有效的提升,因此需具备统一监测、集中管理功能:
(1) 解放人力,依靠智能化技术化的管理手段,降低故障发生率,降低维护成本,并同时提高维护效率。
(2) IT资源监测结果综合展现,消除各个监控工具之间各自为政、系统管理员在各个界面间频繁切换的情况,并经过统一的展现界面进行展现。
(3) 统一的告警平台,建立性能基线,发现系统异常并及时告警,将所有告警纳入监测管理平台,并经过短信、邮件统一告警。
(4) 以业务的角度将传统的技术设备的管理整合到基于业务的管理平台上来,不但能完成对设备监控的需求同时能满足根据业务的组成定位问题根源,定位性能瓶颈,预测业务发展趋势和稳定性。
(5) 提供各种报表和视图,呈现IT资源的运行状况和运行趋势。
(6) 统一的中文界面,浏览器管理方式,能够多人同时经过浏览器进行访问和操作。
2、网络监测
监测预警平台针对网络故障和性能瓶颈等各种问题能实现网络流量、网络质量和网络拓扑管理功能:
(1) 自动、准确地发现网络的拓扑结构;
(2) 可持续地监视、报告网络的运行情况;
(3) 提供网络运行状态和性能的多角度分析与统计;
(4) 对网络、安全设备告警事件进行采集和跨类型、跨厂商的分析。
3、主机系统监测
监测预警平台能够实现对各种服务器(Linux、AIX、Windows 等)的监测管理,包括主机硬件、操作系统、文件系统、进程和应用等。监测的重点是对操作系统关键指标,如CPU、内存、进程、文件系统等进行全面的监控管理,要求不但能够在状态改变或性能指标超越门限时生成告警,同时还应该提供实时和历史的性能数据展现,并能够保存历史性能数据,以形成统计分析报表。
4、应用监测
监测预警平台能够全面智能的监测各种与Web应用相关的服务,如Apache Server、MS IIS Server、FTP、DNS、News、Weblogic等。该监测基于TCP/IP协议族中的各种应用层协议(HTTP、FTP、DNS等),不需要对被监测服务进行配置。组合使用它们能够对WEB、Email、DNS、FTP、ERP、CRM、中间件等从应用可用性、系统资源占用和性能指标三个层面进行全面深入的监测管理,保证服务的可用性和性能。
5、数据库监测
监测预警平台能对Oracle、MS-SQL、MySQL、DB2等多种数据库从应用可用性、系统资源占用和数据库性能指标三个方面提供全面的监测管理策略,确保数据库的运行正常。
数据库监测主要是对关键参数,例如文件存储空间、系统资源使用率、配置情况、当前的各种锁资源情况、进程状态、进程所占内存空间、缓冲区命中率、可用性等实现监测。监测预警平台能够在数据库运行服务中断时捕获问题信息,而且自动发送到告警控制台,使系统管理员能够及时采取措施,避免灾难性的事故。
2.2.2 项目建设目标
经过上海东方希杰商务有限公司内网监测预警平台的建设,将做到IT系统故障早发现、早解决,确保计算机系统、网络和应用的连续、可靠、安全运行,降低发生故障的可能性,提高IT系统运行管理水平和服务保障能力。
实现对各业务系统、应用程序、服务器、存储设备、网络系统、网络设备以及安全系统等的监测和管理,直接提供与应用相关的集中监测的能力、手段和工具。
具体目标如下:
1、面向基础设施的管理:
1)全面管理系统资源:提供对网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面管理。
2)智能化故障管理:自动收集各种管理功能产生的故障事件,完成故障事件收集和自动告警等工作,以实现对故障的快速定位、处理。
3)性能管理与优化:对网络和应用等性能进行监控,定期提供性能报表和趋势表,为网络性能优化提供科学依据。
2、面向维护管理者:
1)运维服务管理:实现日常运维工作的自动化;
2)智能总控中心:实时展现当前IT系统的运行状态及趋势,帮助管理人员快速发现问题,分析故障问题所在;
3、面向决策者:
综合报表:对系统运行状况信息进行汇总,帮助领导更全面的了解网络系统的运行状况和趋势,为领导决策提供科学依据。
2.2.3 项目效益分析
经过预警监测平台建设和部署,能够实现如下积极和有益的目标:
建成提前预警、快速定位故障的综合监控系统,监测各种业务系统基础资源,如网络设备、数据库、服务器、中间件等,经过设定各个基础资源性能阀值,一旦触发性能阀值,就发出告警,而且以短信、声音、邮件等即时方式通知管理员,让管理员能够在众多的资源中提前定位故障源,把故障扼杀在萌芽之中,减少业务系统的故障风险。
建成规范、科学、灵活、符合用户使用习惯的运维电子流程,转变过去手工无序的运维模式为主动可控有序的运维服务模式,让运维过程能够跟踪、审计、量化,经过规范的流程服务,减少运维成本的投入,提高运维效率,提升信息部门的运维形象,增强运维工作的影响力。
建成针对业务系统可用性的状态监控机制,对业务系统可用性进行实时监控,经过醒目颜色图标表示业务系统状况,起到直观整体掌控业务的状态,提高管理员运维的效率和提高业务系统无故障率,让业务系统真正无忧运行。
建成经过集中的管理平台,集中展现各种视图,如网络拓扑视图、业务拓扑视图、机房视图等等,能够起到管理多系统展现目的。
2.3 数据库审计需求分析
上海东方希杰商务有限公司当前的业务系统中大多数关键数据均存储在数据库服务器中,这些关键的数据库系统也成为了公司信息系统和业务系统的心脏。这些数据库中储存着诸如银行账户、订单信息、客户信息、生产或交易明细、产品资料等极其重要和敏感的信息。
针对上海东方希杰商务有限公司的现状,我们总结了以下主要风险和需求分析:
2.3.1 数据库管理
Ø 内部人员误操作、违规操作、越权操作,损害业务系统安全运行
内部人员的误操作、违规操作、越权操作缺少实时告警和阻拦机制,一般在事件发生后并造成严重后果后才能被发现,这时可能已经对业务系统造成严重影响。因此,我们希望能够建立一套完善的实时告警机制,能对上述情况进行实时告警。能够第一时间消除潜在风险。
Ø 多人公用一个帐号,责任难以分清
当前,只能经过简单的数据库访问日志查看相关人员的操作记录。可是,因为维护人员多使用相同维护账号,很难区分责任。我们需要更为强大的审计工具,能够记录源地址、源应用程序、远程登录的OS主机名、OS主机账号等信息区分责任。
Ø 第三方维护人员的误操作,恶意操作和篡改
第三方人员的误操作、恶意操作、篡改、数据窃取也需要有系统能够监管。当前缺乏对这些人员的监管。
Ø 超级管理员用户操作难以监管和审计
超级管理员、特权用户都有着非常大的权限,当前缺少监管手段。而且,有很多数据库数据库管理员还能够访问和管理审计日志,这就明显违反了审计中权责分离的要求。
Ø 数据库权限分配问题
数据库用户权限分配混乱。随着应用的不断增加和时间的推移,存在大量赋予过高权限的数据库用户和长期没有人使用的数据库账号,我们需要定期对这些数据库账号进行清理,严格遵照”业务必须知道”的最小原则来进行数据库账号分配。
2.3.2 技术风险
Ø 数据库服务器操作系统漏洞攻击
我们需要定期针对数据库服务器操作系统进行安全漏洞扫描,确认其是否存在安全漏洞,并及时修补或者经过安全系统防护。
Ø 数据库系统漏洞攻击
数据库系统本身的漏洞以及不安全、不合理的配置也需要定期进行扫描,并修补。或者经过安全系统防护。
Ø 离职员工留下后门
需要对用户权限进行及时管理;对异常的数据库访问进行及时分析和处理。
2.3.3 审计风险
Ø 审计日志缺失或不完整
当前只有部分数据库系统能够提供的审计日志,而这些审计日志非常不完整。例如,缺少源程序的记录、数据库返回信息的记录、Bind参数的记录、等等。而且因为在数据库系统上启用审计功能会大大影响现有数据库系统的性能,因此,大多数数据库系统并没有都启用审计功能。
Ø 不同数据库的审计
当前公司内数据库系统越来越多、数据库的类型也不断增加,这为数据库系统审计的集中管理带来了相当大的挑战。因为,数据库种类不同,自身的审计功能也不同,这为审计日志的查看带来相当大的困难。同时,数据库数量的增加,又无法集中进行统一查看。因此,我们需要采用更为集中的、独立的、能够同时支持多种数据库平台、多个数据库的审计系统。
Ø 审计独立性的问题
启用数据库自身的审计功能,既影响自身性能,又存在了严重的审计独立性问题。审计规范中要求数据库管理员和审计人员必须权责分离。
Ø 安全事件难以追查和定位
当前的公司现状根本无法准确定位和最终相关数据库安全事件。需要进行技术方案的优化和改进。因此,我们建议上海东方希杰商务有限公司采用Imperva专业的数据库安全方案,能够完满的应对上述风险和场景。
2.4 平台性能需求分析
作为对企业内部各种服务器、网络设备和安全设备等核心资产的综合管理平台,除需要强大技术功能支撑外,系统本身也需要具有良好的性能,以保障正常、安全的对被管资源进行维护和管理。
2.5 自身安全性需求分析
作为内部服务器和网络设备的统一入口和集中管理平台,系统会成为非法用户攻击的重点,无论是系统的登录认证还是数据的传输,都需要进行严格的控制和保护,防止恶意用户经过各种非法手段进入系统或篡改数据。同时,也需要对进入系统的用户行为进行详细的审计,并对审计记录进行安全保护,防止篡改审计记录的情况发生,以保证审计数据的有效性。
第三章 Webcare智能网络监控软件解决方案
3.1 系统架构设计
上海络安提供的Webcare智能网络监控软件解决方案,能解决已往对网络、服务器、数据库、中间件、应用系统等的分割化管理,将各类资源进行统一监控与预警,从而实现对资源的集中、统一、全面的管控,以满足规划、维护、管理、审计的多方面要求的整合,实现规范化、细颗粒、标准化、流程化的统一业务信息监控管理平台能力,提升管理效率和服务水平。
上海络安的Webcare智能网络监控软件整体方案设计框架如下图:
图1. 系统架构
如上图,整个管理平台在保持技术的先进性、扩展性的基础上,采用系统化、层次化、模块化的设计理念,提供和主流管理厂商产品的对接,经过开放的接口来持续集成,同时解决方案对系统的实用性、合理性进行完善,经过合理的层次和角色来降低系统的使用难度,提高运维的效率,推动项目的生命周期管理。
从整个系统层次上看,系统按照逻辑层次上划分为:基础设施与业务系统数据采集层、监控制数据代理与传输层和监控数据处理服务层,经过综合事件库将所有采集上来的各种性能数据、故障告警以及各种事件信息进行统一的分析、处理和存储。
基础设施与业务系统数据采集层主要针对各类信息资源,包括基础架构的网络设备、服务器、操作系统、数据库、中间件、应用、文件系统以及各业务系统等基本实体。
监控数据代理与传输主要完成监控数据的上传和动态指令的下发,能够将基础设施监控系统所采集到的网络、IT资源和业务系统的运行信息、故障告警信息以及其它事件信息上传至综合事件库进行统一分析、整理、归类和存储。
而事件处理服务层实际完成基础设施和业务系统的数据分析、归并、处理、存储和展现功能,监控系统采集网络设备、服务器、操作系统、数据库、中间件、各种应用系统等性能、告警信息,经过各自的监控数据采集接口,经过代理与传输层上传给数据归并统计模块、经过统一性能分析和统一事件分析处理引擎、配置数据管理跟踪等功能模块,经过数据处理后,再为统一展现和处理提供数据支持。
统一事件分析引擎是大型管理平台的处理核心,是真正体现管理价值,提供完善运行服务的基础,系统应具备接入不同的基础监测系统的事件;利用事件规则库进行事件的过滤压缩、关联分析,大大压缩告警数量,定位真正故障原因;提供事件处理的策略,完成真正告警的通知和自动化处理;而且在此基础上提供业务关联性分析。
经过全面的展现和通知手段,使运行值班人员掌控各类IT系统运行状况,保障业务的稳定运行。经过集中化的各种视图,为不同角色的人员提供完整的运维监控界面。
事件处理服务层具备事件接口,将从底层采集到告警数据与运维服务流程管理实现双向数据操作。从监控管理系统,能够将告警事件信息传输给IT服务管理系统中的管理流程,由相应管理流程进行事件处理,事件处理完成之后,可经过接口传递给监控管理系统,对相应的事件状态进行同步。
上海络安根据多年管理系统的设计开发、项目实施和系统集成经验,在充分了解用户的现状,遵循了高度模块化设计、数据的采集与数据的分析分离、表示逻辑和处理逻辑分离、各个模块之间经过接口完成等最优设计原则,所采用的解决方案设计原则完全贴合用户需求。
3.2 关键功能简介
上海络安为本次项目提供的Webcare智能网络监控软件遵循IT综合运维平台一体化、标准化、高效性、扩展性等指导原则,采用先进的模块化建设理念来组织系统逻辑架构,使得系统间关系明确、流程清晰,功能界定准确,衔接紧密。
图2. Webcare智能网络监控软件操作界面
3.2.1 集中式监控平台
Webcare智能网络监控软件能够实现对IT基础设施的所有监控,包含有基础架构的网络设备、服务器、操作系统、数据库、中间件、各种应用系统的监控管理,实现所有IT基础设施的集中式监控管理等功能,做到”有故障、早发现、早解决”的建设思路。
Webcare智能网络监控软件定位于对网络和业务应用实施深入而全面的监控,提供高细粒度的全方位监控方案,保障业务应用健康有序的运行。
对监控对象提供基于”性能基线”的阀值告警机制,经过根据一段时间的运行参数采集,系统自动掌握信息系统在”忙时”和”闲时”的负荷情况,自动生成性能负荷基线,在超过(或低于)基线一定比例(如15%)为告警阀值,实现性能与故障监控的智能化,显著降低告警的误报比例,在为管理员提供了工具的同时,也提供了经验。
同时,以业务应用系统为主线,对业务应用提供”人工感知式”的可用性监测,系统自动模拟人工访问被监控的应用系统,从网站用户登陆-〉模拟操作-〉结束提出,全程掌控系统的可用性、服务响应时延等信息,从业务角度、”端到端”的保证服务的可用性。
经过底层监控平台,实现对IT基础设施的故障、性能、运行状态及服务可用性的监控,并提供统一的运行展现和故障告警,实现资源的集中监控。
经过统一事件平台处理机制,实现对各类告警的标准化、识别、过滤和关联分析,去伪存真,快速定位故障根源,并经过指定的告警方式(如手机短信、邮件等)及时通知到相关人员。
系统同时具备独立的告警通知平台,支持以短信猫或者短信接入平台的方式,实现以手机短信的方式故障告警发送。
3.2.2 统一资源配置平台
Webcare智能网络监控软件的资源库(ResourceDB)采用自动收集的手段,在提供设备实时CPU、内存、流量等性能数据的同时,还能提供设备的型号、厂商、责任人、联系方式、部门信息等等。
Webcare智能网络监控软件提供编辑工具,用户经过编辑工具,即可按照需建立资源与业务的关联关系,形成直观、易懂的资源展现视图。经过自定义的漂亮动态图表,客户能够根据实际需要实时关注网络系统运行情况,为用户带来非常实用的客户体验。
3.2.3 统一展现平台
Webcare智能网络监控软件为运维管理员提供了一个集中的展现与恢复处理的平台,管理员不需要跳转到各个不同的模块中进行相关操作。在设计上采用先进的可视化展现模型编辑器,以统一的资源配置为基础,基于FLEX展现技术,显示了动态的、变化的数据和图形,提高了技术人员在WEB平台上的交互式操作能力。
Webcare智能网络监控软件在展现内容上,基于先进的WEB Portal 技术,提供模块化、可定义的Portal浏览视窗,为用户提供了灵活定制的工作平台。
Webcare智能网络监控软件提供访问认证的控制机制、采用灵活的角色和权限控制,保障了系统访问安全性的同时,兼顾了系统访问的便捷性。
3.2.4 告警事件管理
Webcare智能网络监控软件支持多种告警信息的采集方式,如SNMP Trap、Syslog、主机监控Agent、配置变更触发以及性能阀值告警等。系统能够自动能够自动获得整个IT环境的各种事件,包括网络设备的故障、性能的过载、流量的异常、服务器的异常性能、各类应用的故障、各类终端的变更等等。
平台能够集中呈现所有的网络、系统、应用、安全等告警信息,包含告警的时间、告警源、告警类型、告警描述、当前处理情况等。能够根据告警类型分类浏览所有的告警信息以及查看详细的告警信息,包括:故障的名称、故障来源、故障的等级、故障发生的时间、故障的具体描述、故障当前的处理状态。
Webcare智能网络监控软件针对检测到的告警事件有一些处理过程:
1、 故障定位于相关性分析
Webcare智能网络监控软件提供的业务拓扑中的有向连接即直观地表现出了资源之间的影响依赖关系,沿着依赖关系链,追溯事件影响,直至发现问题根源,以提高统一事件管理平台的效率。
图3. 事件的影响视图
2、 告警通知、确认与清除
系统提供了丰富的故障通知方法,包括:声音、EMAIL、短信等方法,如果用户已经有自身的短信平台,可采用接入短信通知平台,实现告警通知自动化
系统能够根据设定的规则自动对已经恢复正常的告警事件进行标记确认,支持手工标记确认系统告警事件。对已经标记确认告警事件,系统自动将告警事件退出告警视图,将其加入历史告警记录中。
产品功能介绍
3.3 基础设施监控
Webcare智能网络监控软件的监测器负责从各种设备、主机、数据库及其它可达的软硬件资源中采集状态和性能数据。Webcare智能网络监控软件丰富灵活的监测器几乎能够支持所有通用的IT架构环境。
Webcare智能网络监控软件采用面向对象的开放体系,每一种监测器都是一个相对独立的小插件。这种基于以插件形式的监测器体系旨在适应复杂异构的网络环境、不断发展的网络技术、IT基础架构的频繁升级改造。新型监测器能够不断”插入”系统,易于扩展,伸缩自如。
3.3.1 多种监测手段
Webcare智能网络监控软件监测器的主要监测手段是基于SNMP协议实现的。同时也充分考虑到实际网络中复杂异构的设备类型和用户业务的不同要求,对于不支持或者不开放SNMP协议的被管理对象,提供基于SSH 和Agent(代理模块)、WMI、脚本等监测方式。当用户创立一个监测器的时候,能够选择适合自己的监测方式。
Webcare智能网络监控软件 对被管资源的数据采集支持”自动发现”和手工输入两种方式配置被监测对象的配置参数,并经过主动轮巡机制,使用SNMP、Agent等多种采集方式来实现性能数据的采集。
主要的监测方式:
系统能够依据管理的需要,定时向需要监测的管理对象(能够是一个设备或者一项服务)发出监测请求,并将记录返回数据作为告警和性能的依据。
具体的数据采集方式有以下几种:
n 支持SNMP轮巡的数据采集。
n 支持在被管服务器上使用代理程序Agent的采集方式;Agent方式应能够支持主流的Unix、Linux、Windows服务器平台;而且支持单一Agent模式,当主机服务器上的被监测应用项目发生变更或增加时,无需更换或添加额外Agent程序。
n 使用Agent数据采集方式,能够对被管服务器进行文件扫描、目录检测、接口调用等方法来扩展监测的范围;并能够实现对业务系统自身关键性能点的自定义监测。
n 系统还支持其它Socket方式,如TCP端口监测、JDBC数据源、HTTP协议等方式进行数据采集。
其中,系统提供SNMP、SSH、Agent三种主动监测方式能够互为补充
展开阅读全文