1、现状与痛点,&IT,监控运维管理诉求,云环境,监控系统,虚拟化,监控系统,基础设施监控系统,服务器,监控系统,网络,监控系统,!,日志,分析系统,!,应用性能,管理系统,!,!,!,风险根源问题,IT,运维人员,告警风暴,从一个真实的故事开始:,一天,轮到小李值班,突然几个系统同时发出告警(告警风暴),小李哪里见过这阵仗,顿时感觉手脚无措,能想到的就是马上给师傅打电话求助。,小李按照师傅的建议从服务器开始慢慢排查,从系统告警到问题解决,已经过去了几个小时,期间,由于用户没法访问系统服务,信息中心接到很多投诉电话。,最终的结果是,由于出现被投诉等不良事件,,IT,运维部被内部通报批评,小李也被扣
2、罚当月奖金,这也只是运维工作中一个小小的缩影。,客户场景之,N,IT,运维部门,?,天花板,主机,数据库,中间件,动力环境,存储,网络设备,.,IT,资源管理,功能使用是否方便,系统访问是否缓慢,系统故障响应和排除是否及时,.,用户体验管理,用户访问响应时间,用户满意指数,系统吞吐量,系统错误率,用户来源地,系统需求执行时长,网络传输时长,数据库,SQL,执行时长,用户体验指标,业务部门,IT,设备规模大且分散、管理困难,缺少可视化管理,&,自动化管理手段,IT,环境异构、业务系统繁多,无法快速适应复杂环境设备的监管,人员能力层次不齐,服务范围广,缺少规范的、自动的流程化管理,密室之内痛,密室
3、之外痛,业务负载逐年增加,无法确定功能完整可用性,业务形态更加多种多样,部署环境愈加复杂,为了适应发展的需求,业务调整日趋频繁,云技术的成熟,一定程度上减少了企业自建运维团队的需求,技术的快速演进,对运维团队提出了更高的要求,基础设施,网络,存储,服务器,虚拟化,数据库,中间件,业务应用,现状与痛点:,IT,监控运维密室的内与外,应用场景,运维主管,资源总览,容量规划,运行统计,IT,基础设施运维工程师,故障处理,根源分析,设备监管,运行报告,告警通知,流程优化,业绩考核,决策分析,流量分析,业务系统,数据中心,应用系统运维工程师,性能监测,健康检查,自动巡检,用户体验,预测分析,瓶颈定位,对
4、智能化,IT,监控运维的期待(岗位),IT,设施自动巡检,运维知识库,故障快照,/,自动处理,故障预测,/,主动预警,故障精准定位,应用性能监控预警,应用潜在风险预测,应用可用性巡检,工作量统计,持续优化的支撑数据,配置,/,资产管理,业务可用性,SLA,遵守情况,流程运转情况,战略决策支撑数据,部门运转分析支撑数据,业务优化支撑数据,应用体验分析,运维,主管,IT,运维,工程师,应用运维,工程师,对智能化,IT,监控运维的期待(管理),离散,人工,信息,被动,传统管理方式,自 动,知 识,一体化,主 动,信息展现,信息处理,信息提取,信息采集,智能管理方式,E,S,V,更好地进行业务保障,业
5、务的稳定性、可靠性要求越来越高,业务系统对,IT,支撑的依赖性越来越强。,切实地提高服务质量,IT,架构的复杂度不断加深;,IT,运维部门工作职责越来越重,真正地降低系统风险,IT,运维人员不足难以应对繁重的运维要求;,IT,事故将直接影响业务,责任重大,对智能化,IT,监控运维的期待(效果),度量中心,流程中心,监控中心,操作中心,配置管理,资产管理,可视,协作,智能,自动,运维可视化展示,运维大数据分析,服务流程管理,运维即时协同,远程桌面协助,运维知识库,资源集中监控,网络,/,应用拓扑应用性能监控,应用体验分析,运维门户,业务系统自动巡检,应用自动交付部署,基础设施自动体检,智能化,I
6、T,监控运维平台逻辑架构,统一访问门户,Portal,配置管理,配置管理,变更管理,配置模型维护,配置统计分析,IT,资产管理系统,资产规划,资产申请,资产配置变更,出入库与分发,维保管理,变更管理,配置更新,配置审计,资产统计分析,资产模型维护,资源分配,资产盘点,库存管理,报废管理,运维管理,工单管理,排班管理,事件管理,变更管理,配置管理,发布管理,问题管理,知识库管理,基础设施监控模块,供,配,电,多功能,电量仪,ATS,UPS,发电,机组,蓄电池,PDU,第三方,监控系统,制,冷,环,境,冷机,冷塔,温湿度,CO,2,精密空调,新风排风,微环境,漏水,安,全,防,护,视频监控,门禁,
7、入侵报警,消,防,系,统,消防报警,气体消防,消防喷淋,统一用户管理,统一配置管理,统一权限管理,统一菜单管理,IT,基础设施监控模块,服务器硬件,数据库,存储设备,应用拓扑,网络拓扑,机器数据分析,大屏展示系统,三维仿真,基于,DSL,的检索引擎,基于业务的数据分析,容量,管理,能耗,管理,容量计算,容量规划,容量分析,位置推荐及模拟影响,PUE,WUE,能耗可视化,节能策略,实时数据流式处理,应用性能监控模块,预测分析,用户体验监控,代码级监控,应用性能分析,云计算管理平台,网络设备,中间件,大数据环境,业务巡检,预测分析,用户体验监控,代码级监控,业务可用性巡检,服务器登录审计,数据库访
8、问审计,防火墙日志审计,移动设备管理模块,设备访问管理,在线情况监控,移动设备管理,智能化,IT,监控运维平台技术架构,统一访问门户,Portal,配置管理,配置管理,变更管理,配置模型维护,配置统计分析,IT,资产管理系统,资产规划,资产申请,资产配置变更,出入库与分发,维保管理,变更管理,配置更新,配置审计,资产统计分析,资产模型维护,资源分配,资产盘点,库存管理,报废管理,运维管理,工单管理,排班管理,事件管理,变更管理,配置管理,发布管理,问题管理,知识库管理,基础设施监控模块,供,配,电,多功能,电量仪,ATS,UPS,发电,机组,蓄电池,PDU,第三方,监控系统,制,冷,环,境,冷
9、机,冷塔,温湿度,CO,2,精密空调,新风排风,微环境,漏水,安,全,防,护,视频监控,门禁,入侵报警,消,防,系,统,消防报警,气体消防,消防喷淋,统一用户管理,统一配置管理,统一权限管理,统一菜单管理,IT,基础设施监控模块,操作系统监控,网络设备监控,数据库监控,应用中间件监控,存储设备监控,网络拓扑展现,应用拓扑展现,告警通知框架,采集策略框架,统计分析报表,应用性能监控模块,.Net,应用,预测,分析,用户体验监控,代码级监控,JAVA,应用,应用性能分析,PHP,应用,机器数据分析,大屏展示系统,三维仿真,安全合规,业务分析,自动化巡检平台,业务巡检,基础设施巡检,自动盲检,巡检定
10、义,巡检调度,巡检告警,巡检报告,基础设施,巡检,容量状况,巡检,性能状况,巡检,信息安全,巡检,容量管理,能耗管理,计算,规划,分析,推荐及模拟,PUE,WUE,能耗可视化,节能策略,智能化,IT,监控运维平台逻辑功能,应用系统自动化测试,自动化测试,,从目标系统真实操作环境中创建测试用例,有效降低开发和测试成本。,可视化用例录制,,轻松录制创建测试用例。,参数化测试数据,,保证测试覆盖度。,零编码断言配置,,配置选项方式设置断言。,无污染事务提交,,自动清理测试过程垃圾数据。,自动化测试任务,,,自动化执行定制测试任务。,图形化测试报告,,按需发布测试报告。,低效地手动构造测试数据,繁重的
11、环境搭建工作,难于管理庞大的配置文件,高昂的日常维护成本,凌乱的测试任务和报告,通过自动化测试手段来,有效提高开发效率和降低测试成本,接口测试,边界测试,单元测试,回归测试,冒烟测试,覆盖率测试,集成测试,恢复测试安全测试压力测试性能测试部署测试,系统测试,确认测试准则配置评审,A/B,测试,确认测试,网络拓扑及流量追踪,数据中心资源,网络拓扑手动设置,拓扑自动发现及故障预警,网络设备监控,流量分析,监管设备,Request,Syslog,Trap,Response,基于,SNMP,(,MIB,)协议的网络设备监控,基于,ICMP,(,ping,)、,CDP,、,LLDP,以及,SNMP,协议
12、的网络自动发现,IT,软硬件资源监控,Hypervisor,虚拟化,网络,CSS,Plugin Platform,SNMP,Hypervisor Adaptor,基础设施监控,PDU,UPS,ATS,空调,Windows,Linux,Solaris,AIX,NetAPP,EMC,防火墙,负载均衡,路由器,交换机,XenServer,Vmware,KVM,XEN,RHEV,PowerVM,数据库,(DB2,、,MySQL,、,Oracle,、,SqlServer),应用服务器,(Tomcat,、,WebSphere,、,Weblogic,、,JBoss),消息中间件,(ActiveMQ),行业应
13、用,第三方应用,采集周期:,1min,采集周期:,2min,采集周期:,3min,应用,中间件,JMX/JDBC,Rest/Webservice,Plugin Platform,CSS,新资源,SNMP/Modbus,存储,SNMP/SMI-S,动力,环境,服务器,SNMP,Plugin Platform,CSS,资源集中监控,资源监控配置,插件开发支持新类型资源监控,从动环基础设施,IT,基础设施硬件,数据库中间件,自定义脚本,快速满足不同客户实际的,IT,监控需求,IT,运维工程师,移动设备的安全管控,01,02,03,04,08,07,06,05,基本信息,获取,应用上传,管理,设备指标
14、检查,在线情况,监控,多维智能,分析,便捷,升级更新,合规使用,限制,使用情况,统计,移动设备,全面维护 提高运维工作效率,移动应用,高效管控 降低运维工作难度,业务应用性能监控,一站解决应用性能管理问题,全面监控核心业务,实现自动化的业务系统异常监控、风险检测,以及应用性能优化。,应用系统健康体检,业务流程巡检,巡检脚本录制,巡检脚本导入,业务检查点设置,交互数据管理,巡检流程编排,业务流程执行,系统遍历巡检,遍历规则配置,遍历检查项设置,移动应用巡检,安装启动监测,兼容性适配,巡检脚本录制,跨设备巡检执行,标准遍历执行,深度遍历执行,业务可用性体检,业务状态分析,业务可用性,僵尸门户监测
15、客户端性能分析,敏感词监测,坏死链检查,应用安全分析,系统日志分析,主机访问量分析,业务跳出率分析,HTTP,请求分析,区域用户量分析,业务办理量分析,系统状态报告,安全合规检查,业务应用系统,操作系统,中间件数据库,预处理建立关联模型,实时采集处理,日志数据分析平台,即席查询,统计报表,数据挖掘,实时告警,仪表板,索引存储,PB,级日志数据管理能力,实时采集处理,实时采集处理,基于业务系统的多层次机器数据,实现完善的安全合规审计保障,操作系统,-,日志,定期安全审计,自动化威胁检查,网络攻击分析,告警分析,页面告警,邮件告警,短信告警,微信告警,声音告警,应用故障根源分析,应用发生故障告警
16、应用监控,用户会话,并发连接数,可用性,线程池,性能,JMX,Rest,JMX,Web Service,HTTP,设置告警策略,实际故障点,故障分析模型,故障分析算法,分析结果,故障定位,通知,短信,邮件,页面告警,根据请求自动拓扑,应用故障快速定位,应用访问预测分析,业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。,!,应用,性能,未来负载变化趋势预测,潜在风险及问题分析定位,资源配置策略预测分析,历史实时未来,计算,存储,网络,可视化分析,&,展现,从分散粗放到统一精细,操作系统,网络流量,流量分析,虚拟化监控,硬件监控,存储监控,Zabbix,Nagios,Cacti,
17、PRTG,vCenter,自身管理端,一体化集中平台,Hypervisor,虚拟化,网络,SNMP,SDK,中间件,JMX/CLI,存储,SNMP/SMI-S,服务器,SNMP,Agent,数据库,JDBC,新资源,协议,统一展现,统一策略,统一告警,统一操作,不同类型资源不同单一管理工具,业务聚合指标实现故障根源追踪,应用响应时间突然增大,网卡,主机,磁盘,交换机,端口,G/0/2,NIC1,/opt/data,App-host,进程,java,业务,weblogic,server,webserver,App,webear2,中间件,数据库,负载,设备,App,webear1,形成业务拓扑,
18、发现业务异常,追踪故障根源,被动告警到主动式巡检,业务可用性自动巡检保障、追溯故障影响范围,业务巡检,网卡,主机,磁盘,交换机,端口,进程,server,App,中间件,数据库,负载,设备,App,发现问题,自动巡检,快速修复,告警通知,智能故障分析,业务拓扑钻取,解决告警,硬件巡检,重复运维工作自动化,运维工作,枯燥、重复、不及时,提取,脚本,发送邮件,.sh,清理磁盘,.sh,重启服务,.sh,关闭服务,.sh,数据备份,.sh,.,任务,自动巡检,计划报表,计划维护,计划备份,.,触发器,自动化,传统监控转向智能分析,操作系统磁盘使用率过高,服务器磁盘损坏,数据库表空间使用率过高,交换机
19、端口流量异常,虚拟化资源池容量不足,HDFS,磁盘使用率不足,.,IT,监控,应用性能监控,请求响应时间过长,SQL,执行时间过长,代码执行效率低下,系统软件配置失当,.,硬件故障率分析,Top,服务器硬盘故障分析,Top,服务器电源故障分析,Top,存储控制器故障分析,Top,存储硬盘故障分析,虚拟化资源池分析,Top,剩余量存储分析,Top,停机时长,vm,分析,Top,磁盘消耗,vm,分析,Top,磁盘日均增长,vm,分析,Top,磁盘读写效率,vm,分析,Top,内存使用,vm,分析,服务器性能分析,Top CPU,使用率机器分析,Top,内存使用率机器分析,Top,磁盘使用率机器分析
20、Top,性能故障告警分析,Top,磁盘读写速率分析,数据库性能分析,Top,表空间剩余量分析,Top SQL,性能分析,Top,缓存命中率分析,Top,日志日均增长分析,Top,磁盘读写速率分析,网络流量分析,Top,会话流量排行分析,Top,源,IP,流量排行分析,Top,源端口流量排行分析,Top,目标,IP,流量排行分析,Top,目标端口流量排行分析,Top,协议流量排行分析,各种统计报表,提升分析价值,提升运维能力积累,针对不同资源(服务器性能、硬件健康、日志状态、日志关键字、进程性能、数据库性能等)的告警处理,通过知识库可以实现运维方案的知识积累,方便知识的传递与故障的快速解决。,告警事件,告警时间,原因分析,处理方案,处理结果,告警资源,处理人,附件信息,告警类别,知识关键字,提升故障处理效率,知识共享,知识积累,知识转化,总结,预防,查找潜在风险,提供预防策略,预测,构建模型,预测未来趋势,分析,分析历史数据辅助根源问题分析,统计,整合历史监控数据,辅助,IT,系统综合管理,监控,监控当前,IT,系统整体运行状态,支撑运维智能化升级,以大数据分析能力支撑的智能化,IT,监控运维平台,机器数据分析,传统,ITSM,、,APM,、,NPM,、,SOC,、,Cloud Management,效率提升,构建智能化运维体系,智能,化,一体化,
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818