资源描述
单击此处编辑母版标题样式,编辑母版文本样式第二级第三级第四级第五级,#,云计算原理与实践,Principles and Practice of Cloud Computing,1,Outline,11.1,云服务环境的监控,11.2,云监控解决方案,11.3,智能运维,11.4,实例:智能运维在大视频运维中的应用,Data Science,Machine Learning,Domain expertise,Mathematics,Data engineering,2,2025/4/9 周三,11.1,云服务环境的监控,11.1.1,云监控概述,11.1.2,云监控特性,11.1.3,云监控需求,11.1.4,云计算的推动力,11.1.5,关键技术,3,2025/4/9 周三,11.1.1,云监控概述,云平台将众多的物理资源及虚拟资源进行整合并通过,虚拟化技术,实现服务量的动态伸缩将服务按需提供给用户。,监控,作为云平台中云服务稳定性支持方面一个重要的角色,它能为云平台中的资源调度、故障检测及分析预测等提供强有力的支持,对云平台中云服务质量的提高有着非常重要的作用。,典型的云计算场景由基础设施提供商(,InP,)、服务提供商(,SP,)和客户组成,,InP,负责提供可由,SP,租用的虚拟资源(例如,计算、存储、网络等资源),,SP,则将客户的需求考虑在内,并为客户提供相应的服务应用来满足这些需求。,4,2025/4/9 周三,11.1.1,云监控特性,可扩展性(,Scalability,),:可扩展性是指可通过增加计算资源来提高系统性能的能力。,弹性(,Elasticity,),:弹性是根据特定应用程序或系统的目标,按需增加或减少计算资源的能力。,可迁移性(,Migration,),:可迁移性体现了系统可根据特定应用程序或系统的目标来改变计算资源位置的能力。,5,2025/4/9 周三,11.1.2,云监控,特性,除此之外,云监控系统还必须能够适应云计算环境的动态性和复杂性。基于以上特性的要求,云监控系统具备功能的总结如下:,准确性,:准确性是指监测系统测量能力的准确程度。,自治性,:在云计算环境中,动态是一个关键因素,因为各种变化是非常激烈和频繁的。自治性是监控系统自行管理其配置以保持自身在动态环境中工作的能力。,全面性,:监控系统需要具备支持多种资源的监控和数据收集的能力。因此,监控系统必须能够从不同类型的资源、多种类型的监控数据以及大量的用户中获取更新状态。,6,2025/4/9 周三,11.1.3,云监控需求,对云平台的监控一般有如下的要求:,能从负载、,CPU,、内存、存储和网络等几个方面对物理节点进行监控;,可对云平台中所有物理节点按集群分组并进行监控;,可对监控得到的数据进行完整地持久保存,以便系统管理员查询及分析,为针对一些常见问题提出解决方案提供历史数据支持;,监控系统在发现云平台出现故障时,能及时判断故障的等级并在管理界面提示管理员或发出告警信息通知管理员;,7,2025/4/9 周三,11.1.3,云监控,需求,对操作系统中特定进程的流量进行监控,确保云平台中网络的通畅;,将所监控的信息采用图形化的形式形象直观地向系统管理员展示,便于管理员分析系统状态的未来趋势;,云平台的资源具有动态性,资源的分布也十分广泛。用户需要根据实际情况对监控的节点和资源进行配置。因此,云平台监控系统应具有良好的扩展性,能对新加入云平台的资源节点进行有效监控,并在主机节点有新的监控需求时能及时实现。,8,2025/4/9 周三,11.1.3,云监控,需求,图,11.1,监控系统管理员管理系统的用例图,9,2025/4/9 周三,监控系统,1,基本功能需求,(,1,)物理服务器监控,(,2,)物理节点上虚拟机资源监控,(,3,)对操作系统中特定进程的流量监控,(,4,)对云中的各类网络服务的监控,10,2025/4/9 周三,监控系统,1,基本功能需求,(,1,)物理服务器监控,(,2,)物理节点上虚拟机资源监控,(,3,)对操作系统中特定进程的流量监控,(,4,)对云中的各类网络服务的监控,11,2025/4/9 周三,监控系统,2,性能,需求,(,1,)可扩展性:云平台中的资源具有动态性,当云平台中的虚拟节点发生动态变化时,监控系统能适应这种变化,继续保持稳定的运行状态。,(,2,)高可靠性:可靠性高的系统,运行稳定,不易造成监控信息的异常丢失。,12,2025/4/9 周三,监控系统,3,数据处理需求,(,1,),数据完整持久存储,:监控系统应该具有将监控数据持久存储在数据库中的功能,以便管理员对历史监控数据进行查看与分析。,(,2,),Web,页面监控数据图形化显示,:监控系统需要为管理员提供一个清晰明了的图形化监控数据,以便管理员查看监控信息并分析云平台未来的走势,及时发现平台潜在的问题,尽可能地降低对用户造成的影响。,13,2025/4/9 周三,监控系统,4,故障管理需求,云平台正常运行需要有明确的告警机制,能在云平台出现故障时准确地诊断故障的级别并及时地向管理员通知告警消息。,故障管理不仅仅包括个人主机操作不规范的监控告知,还应包括对服务器运行状态不良的诊断和提示,监控系统需要对告警通知消息、告警联系人、告警级别等进行灵活配置,并将告警通知信息写入日志。,故障诊断的规则采用当收集到监控数据时,利用故障诊断则对故障进行等级评定,如果达到故障标准则系统自动发送告警通知系统管理人员。,14,2025/4/9 周三,11.1.4,云监控,结构,一般地,不同的云服务的服务模型是不同的,它们由不同类型的资源组成。对云资源的高效管理取决于对其结构的全面监控。为了提供全面的监控,一般将云监控的结构划分为三大组件:,云模型、监控视图和监控焦点,。,15,2025/4/9 周三,1,云模型,云模型由软件即服务(,SaaS,)、平台即服务(,PaaS,)和基础设施即服务(,IaaS,)三部分组成,:,软件即服务(,SaaS,),,该服务在向客户提供应用程序服务时体现,;,平台即服务(,PaaS,),,这一服务在向,SPs,提供一个平台时体现,在这个平台上用户可以部署应用程序服务,,InP,控制底层资源的分配,,SP,只需提供应用程序服务;,基础设施即服务(,IaaS,),在向,SP,提供访问虚拟机服务体现,,SP,可以安装自己的平台和应用程序。,16,2025/4/9 周三,2,监视视图,17,2025/4/9 周三,3,监控焦点,云监控解决方案的主要目标是根据它们的云模型来定义的,可以根据不同的云模型讨论具体目标,:,(,1,)在,IaaS,中,云资源是在物理硬件之上创建的,通常使用虚拟化技术来实现。,(,2,),PaaS,由编程环境和运行环境组成。,(,3,)在,SaaS,服务的模式下,其多样性必定会不断地增长。为了应对,SaaS,的多样性,云监控系统需要具备非同寻常的能力,既需要应对异构的,API,,还需要应对不同层面的监控。为此,,SP,和客户需要定义了,SLA,来规范两者之间的服务协议。,18,2025/4/9 周三,11.1.5,关键技术,1,SNMP,协议,简单网络管理协议(,Simple Network Management Protocol,,,SNMP,)是一种简单网络管理协议,属于,TCP/IP,五层协议中的应用层协议,主要用于管理网络设备。,SNMP,协议主要由两大部分构成:,SNMP,管理站和,SNMP,代理。,SNMP,管理站和,SNMP,代理之间是松散耦合,它们之间的通信是通过,UDP,协议完成的。,SNMP,的基本思想:为不同种类、不同生产厂家以及不同型号的设备,定义一个统一的接口和协议,使得管理员可以通过统一的外观对这些网络设备进行管理。,19,2025/4/9 周三,11.1.5,关键技术,1,SNMP,协议,图,11.4 SNMP,的工作方式,20,2025/4/9 周三,11.1.5,关键技术,2,代理监控技术,代理指的是在被监控主机上安装的一个或多个监控代理程序。代理程序主要用于被监控主机的状态或服务信息的收集,收集到的数据后再发送给主监控机。一般地,按被监控主机上是否部署监控代理将监控分为两种方式:无代理的监控和基于代理的监控。,无代理监控,是主监控机来完成监控请求及状态的监测,。,基于代理的监控方式,,监控请求的完成既可通过主监控机也可通过代理程序本身,但只能由代理程序完成监控对象状态的检测,并在检测完成后将结果上报给主监控机。,21,2025/4/9 周三,11.1.5,关键技术,3,主动监控与被动监控,描述,优点,缺点,主动监控模式,主监控机按检测周期主动地获取被监控端的数据。主要是由主监控机端向被监控端发送监控请求,被监控端监控代理采集数据后再反馈给主监控端,实时性较好,使用这种方式,需要主监控机主动收集被监控端的性能参数,开销较大,被动监控模式,被监控端主动发送数据到主监控机。被监控端监控代理按已经配置好的设置采集本地数据,并将数据处理完后主动发送给主监控机。主监控机只需要被动接收数据,再进行下一步处理,使用这种方式,处理数据的其他工作基本都由被监控机完成(包括数据的传输),从而避免了因被监控主机数量太大而造成的过长的轮询时间而引发的监控反应延迟的问题,实时性较差,22,2025/4/9 周三,11.2,云监控解决方案,11.2.1,云监控的通用技术,11.2.2,容器的监控,23,2025/4/9 周三,11.2.1,云监控的通用技术,类别,描述,通用解决方案,通用的解决方案用于监控通用的传统计算机系统,并不考虑系统有关的具体特征,这类监控方案包括:,Cati,,,Zabbix,、,Nagios,等,可以提供对计算机系统的基础信息的监控,如内存、,CPU,、网络和存储等的基本使用情况,并提供对监控信息的可视化展示功能。它们也可以用于监控云环境中的计算机的基本状态信息。但,Cati,、,Zabbix,、,Nagios,并非专门针对云监控的需求和特性而设计,如在云的弹性、自治性方面的监控信息的收集方面就相对较弱,集群和网格解决方案,这类监控方案用于监控集群和网格系统,针对集群系统的监控方案有,PARMON,和,RVision,等,针对网格系统的监控系统则有,GridEye,和,Ganglia,等。集群和网格解决方案与云监控解决方案的监控焦点有很大程度上的重合,例如,云环境中的集群也是由多台机器连接而组成的一个网络,然而,在云环境中的集群要比普通的集群在,SLA,的关注度上要高得多。在云环境中,对集群的监控在可视化方面的要求要比普通的集群监控的要求高得多,云监控解决方案,完全为云环境而设计的监控方案,如,Amazon,的,CloudWatch,,它能够收集如,CPU,、内存、网络和存储等基本的监控指标。同时,它还能够监控整个云环境的一些自配置信息。类似的解决方案还有,Accelops,、,Copperegg,、,Zennoss,、,Monitis,和,Rackspace Cloud Monitoring,等,24,2025/4/9 周三,1,Nagios,Nagios,具备的功能如下:,监控网络服务(,SMTP,、,POP3,、,HTTP,、,NNTP,和,PING,等);,监控主机资源(处理器负荷和磁盘利用率等);,简单的插件设计使得用户可以方便地扩展自己服务的检测方法;,并行服务检查机制;,定义网络分层结构的能力,用,parent,主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;,当服务或主机问题产生与解决时将相关信息发送给联系人(通过,E-Mail,、短信或用户定义等方式);,可定义一些处理程序,使之能够预防服务或主机发生故障;,自动的日志滚动功能;,可以支持并实现对主机的冗余监控;,可选的,WEB,界面用于查看当前的网络状态、通知和故障历史、日志文件等。,25,2025/4/9 周三,2,Cacti,Cacti,是一套基于,PHP,、,MySQL,、,SNMP,及,RRDtool,开发的,网络流量监测图形分析工具,。,它通过使用,SNMP,协议,获取远端网络设备和相关信息(其实就是使用,Net-SNMP,软件包的,snmpget,和,snmpwalk,命令获取),并使用,RRDtool,工具绘图,再通过,PHP,程序展现出来。,Cacti,可通过,snmpget,来获取数据,使用,RRDtool,绘画图形,而且用户可以完全不需要了解,RRDtool,复杂的参数。,26,2025/4/9 周三,3,Zabbix,Zabbix,是一个基于,Web,界面的提供分布式系统监视以及网络监视功能的企业级的,开源解决方案,。,Zabbix,能监视各种网络参数,保证服务器系统的安全运营,还提供的通知机制可以令系统管理员快速定位并解决存在的各种问题,。,Zabbix,由两部分构成,,Zabbix server,与可选组件,Zabbix agent,。,Zabbix server,可以通过,SNMP,、,Zabbix agent,、,ping,和端口监视等方法提供对远程服务器,/,网络状态的监视和数据收集等功能,并且,它可以运行在,Linux,、,Solaris,、,HP-UX,、,AIX,、,Free BSD,、,Open BSD,和,OS X,等平台上。,27,2025/4/9 周三,4,Ntop,Ntop,主要包含以下功能:,自动地从网络中识别有用的信息;,将截获的数据包转换成易于识别的格式;,对网络环境中通信失败的情况进行分析;,探测网络通信的时间和过程。,28,2025/4/9 周三,5,Ganglia,Ganglia,系统基本包含以下三大部分。,Gmond,:它运行在每台计算机上,主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。,Gmetad,:它运行在,Cluster,的一台主机上,作为,Web Server,,或者用于与,Web Server,进行沟通。,Ganglia Web,前端:主要用于显示,Ganglia,的,Metrics,图表。,29,2025/4/9 周三,11.2.2,容器的监控,近年来,容器技术不断成熟并得到广泛应用,,Docker,作为容器技术的一个代表,目前也处于快速发展中,基于,Docker,的各种应用也正在普及。与此同时,,Docker,对传统的运维体系也带来了冲击。在建设运维平台的过程中,用户也需要去面对和解决容器相关的问题。,Docker,的运维是一个体系,而监控系统作为运维体系中重要组成部分,在,Docker,运维过程中需要重点考虑。,30,2025/4/9 周三,1,Docker stats,Docker Engine,提供了访问大部分的、用户需要收集的、可以作为原生监控功能的核心度量指标的功能。,31,2025/4/9 周三,2,cAdvisor,cAdvisor,是来自,Google,的原生支持,Docker,容器的监控工具,它是一个集收集、整合、处理以及输出当前运行容器信息于一体的守护进程,,cAdvisor,就是运行,Docker stats-all,命令获得的信息的图形化版本。,32,2025/4/9 周三,3,Prometheus,Prometheus,是一个开源的监控系统和时间序列数据库。,33,2025/4/9 周三,4,Sysdig,Sysdig,有两个不同的版本,第一个是在宿主机上安装了一个内核模块的开源版本,第二个是名为,Sysdig Cloud,的云和本地解决方案。,图,11.8 Sysdig,的监控界面,34,2025/4/9 周三,4,Sysdig,图,11.9 Sysdig Cloud,的监控界面,35,2025/4/9 周三,11.3,智能运维,11.3.1,智能运维的,历史,11.3.2,智能运维的,内容,11.3.3,AIOps,的关键场景与技术,11.3.4,智能运维的展望,36,2025/4/9 周三,11.3,智能运维,图,11.10,智能运维涉及的范围,37,2025/4/9 周三,11.3.1,智能运维的历史,38,2025/4/9 周三,11.3.1,智能运维的历史,手工运维,自动化运维,运维开发一体化,智能运维(,Artificial Intelligence for IT Operations,,,AIOps,),39,2025/4/9 周三,11.3.2,智能运维的,内容,1.,AIOps,的团队角色,(,1,)运维工程师,(,2,)运维数据工程师,(,3,)运维开发工程师,40,2025/4/9 周三,11.3.2,智能运维的,内容,2.,AIOps,的基本运维场景,41,2025/4/9 周三,11.3.2,智能运维的,内容,质量保障方向,效率提升方向,成本管理方向,第一阶段,(尝试应用),在这个阶段,没有成熟的单点应用,主要是手动运维、自动化运维和智能运维的尝试阶段,这个阶段可以聚焦于数据采集和可视化,在这个阶段,尝试在预測,变更,问答,决策领域使用人工智能的能力,但是并没有形成有效的单点应用,这个阶段可以聚焦于数据采集和可视化,在这个阶段,运维的成本管理方向还在尝试引入人工智能的能力,但是并没有成熟的单点应用,这个阶段可以聚焦于数据采集和可视化,第二阶段,(单点应用),在这个阶段,在一些单点应用的场景下,人工智能已经开始逐步发挥自己的能力,包括指标监控,磁盘,网络异常检测等,在这个阶段,在一些小的场景下,人工智能已经可以逐步发挥自己的能力,包括智能预测,智能变更,智能问答,智能决策,在这个阶段,在一些小的场景下,人工智能已经开始逐步发挥自己的能力,包括成本报表方向,资源优化,容量规划,性能优化等方向,第三阶段,(串联应用),在这个阶段,人工智能已经将第二阶段(单点应用)中的一些模块串联在一起,可以综合多个情况进行下一步的分析和操作,包括多维下钻分析找故障根因等方向,在这个阶段,人工智能已经将单点应用中的一些模块串联起来,可以结合多个情况进行下一步的分析和操作,在这个阶段段,人工智能已经将单点应用中的一些模块串联在一起,可以以根据成本、资源、容量、性能的实际状况进行下一步的分析和操作,第四阶段,(能力完备),在这个阶段,人工智能已经基于故障的实际场景实现故障定位,然后进行故自愈、智能调度的操作。比如根据版本质量分析推断是否需要版本回退,,CDN,动调度等,在这个阶段,人工智能能力完备,已经可以基于实际场实现性能优化,然后进行预测,变更,问答,决策等操作,在这个阶段,人工智能的能力已经完备,能够实现基于成本和资源的实际场景实现成本的自主优化,然后进行智能改进的操作,第五阶段,(终极,AIOPS,),在这个阶段,人工带与的部分已经很少,从故障发现到诊断到自愈整个流程由智能大脑统一控制,并由自动化自主实施,在这个阶段,人工参与的成分已经很少,性能优化等整个流程由智能大脑统一控制,由自动化自主实施,在这个阶段,人工参与的成分已经很少,从成本报表方向,资源优化,容最规划,性能优化性等整个流程由智能大脑统一控制,由自动化自主实施,42,2025/4/9 周三,11.3.2,智能运维的,内容,图,11.13,智能运维在质量保障方面的应用,图,11.14,智能运维在效率提升方面的应用,43,2025/4/9 周三,11.3.2,智能运维的,内容,图,11.15,智能运维在效率提升方面的应用,44,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,45,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,1.,KPI,瓶颈分析,图,11.17 KPI,及影响因素,46,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,2.,KPI,异常检测,图,11.18 KPI,异常示例:某搜索引擎,PV,曲线的异常,47,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,2.,KPI,异常检测,图,11.19,突发事件的检测过程,48,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,智能诊断,(,1,)异构数据关联分析,图,11.20,时间序列数据与事件序列数据,49,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,智能诊断,(,2,)日志分析,50,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,智能诊断,(,3,)异常检测和自动诊断,51,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,智能诊断,(,3,)异常检测和自动诊断,图,11.23,指标间的关系图,52,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,4.,自动修复,衡量在线系统可靠性以及保证用户满意度的重要指标之一是,平均修复时间(,Mean Time to Restore,MTTR,),。如果想要减少,MTTR,,通常做法是通过人工修复使得服务重新启动,再去挖掘并修复潜在的根本问题,因为后者比前者需要更多的时间。,人工修复的缺点也显而易见,其一是浪费时间,研究表明人工时间大约占用到,90%MTTR,,其二是确定一个合适的修复方法需要很强的领域知识,并且很容易出错。,53,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,4.,自动修复,自动产生修复建议的方法可以解决人工修复的问题。其主要思想是当一个新问题出现的时候,利用过去的诊断经验来为新问题提供合适的解决方案。,54,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,5.,事故管理,事故管理过程一般分为事故检测接收和记录、事故分类和升级分发、事故调查诊断、事故的解决和系统恢复等环节。,事故管理的各个环节通常是通过分析从软件系统收集到的大量监测数据来进行的,这些监测数据包括系统运行过程中记录的详细日志、,CPU,及其他系统部件的计数器、机器和进程以及服务程序产生的各种事件等不同来源的数据。这些监测数据通常包含大量能够反映系统运行状态和执行逻辑的信息,因此在绝大多数情况下能够为事故的诊断、分析和解决提供足够的支持。,55,2025/4/9 周三,11.3.3,AIOps,的关键场景与技术,6.,故障预测,故障预测是指在互联网服务运行时,使用多种模型或方法分析服务当前的状态,并基于历史经验判断近期是否会发生故障。,故障预测的类别:,征兆监测,故障踪迹,错误记录,56,2025/4/9 周三,11.3.4,智能运维的展望,智能运维中常用的算法包括关联关系挖掘、隐式马尔科夫、蒙特卡洛树搜索、多示例学习、逻辑回归、聚类、随机森林、支持向量机、决策树、迁移学习、卷积神经网络等。在处理运维工作和人机界面时,自然语言处理和对话机器人也被广泛应用。智能运维系统在演进的过程中,不断采用越来越先进的机器学习算法。基于互联网的视频流媒体已经逐渐渗透到人们的日常生活中。,57,2025/4/9 周三,11.4,实例:智能运维在大视频运维中的应用,11.4.1,背景介绍,11.4.2,人工智能技术在大视频运维系统中的应用,11.4.3,总结,58,2025/4/9 周三,11.4.1,背景介绍,图,11.26,大视频运维系统架构,59,2025/4/9 周三,大视频运维系统由以下几个部分组成,:,数据源。,数据采集及预处理。,数据分析处理。,业务应用层。,11.4.1,背景介绍,60,2025/4/9 周三,大视频运维系统包括以下关键技术,:,大数据技术。,探针技术。,视频质量分析指标。,人工智能技术。,11.4.1,背景介绍,61,2025/4/9 周三,基于人工智能的端到端智能运维,(,1,)日志预处理模块,(,2,)日志离线分析模块,(,3,)实时分析模块,(,4,)智能故障定位及根源分析,11.4.2,人工智能技术在大视频运维系统中的应用,图,11.27,基于时间窗的依赖关系挖掘(左)与依赖概率(右),62,2025/4/9 周三,2.,基于人工智能的硬盘故障预测实例,11.4.2,人工智能技术在大视频运维系统中的应用,63,2025/4/9 周三,3.,总结,人工智能、机器学习技术在大视频运维的智能化提升重点体现在运维模式,从被动式事后分析转为积极主动预测、分析及决策,。伴随着人工智能技术的加速发展,大视频运维与人工智能技术的结合会越来越紧密,大视频运维技术将朝着更加智能化的方向演进,实现更加自动化和精准的故障预测和排查,主动发现业务系统中的故障或薄弱环节并加以修复。,在实现智能运维基础上,通过对视频业务使用者的行为分析、家庭及用户画像等一系列的建模分析,充分挖掘海量数据的价值,衍生出新的业务形态,实现智能化的运营系统,为运营商创造新的商机。,11.4.2,人工智能技术在大视频运维系统中的应用,64,2025/4/9 周三,云服务环境的监控,云监控解决方案,智能运维,实例:智能运维在大视频运维中的应用,小结,65,2025/4/9 周三,课内复习,1,云监控的概念和特性是什么?,2,云监控的结构包括哪些内容?,3,什么是智能运维?,4,智能运维包括哪些内容?,5,主动监控和被动监控有什么区别?,66,2025/4/9 周三,课外思考,1,智能运维一定需要大数据和机器学习技术的支持吗?为什么?,2,智能运维中的智能体现在什么地方?,3,监控数据和智能运维的关系是什么?,4,故障诊断和故障修复在智能运维的背景下是如何开展的?,67,2025/4/9 周三,动手实践,1,Ganglia,是,UC Berkeley,发起的一个开源集群监视项目,设计用于测量数以千计的节点。,Ganglia,的核心包含,gmond,、,gmetad,及一个,Web,前端。主要是用来监控系统性能,如:,CPU,、内存、硬盘利用率,,I/O,负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。,任务:通过,Ganglia,的官方网站下载并安装使用最新的软件,运行,Ganglia,自带的实例程序和演示项目。,任务:通过一个前面章节构建的实际系统,利用,Ganglia,采集实际的系统监控数据,并开展基本的智能运维活动,例如,异常检测、瓶颈分析等。,68,2025/4/9 周三,动手实践,2,Nagios,是一款开源的电脑系统和网络监视工具,能有效监控,Windows,、,Linux,和,Unix,的主机状态、交换机路由器等网络设置、打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。,任务:通过,Nagios,的官方网站下载并安装使用最新的软件,运行,Nagios,自带的实例程序和演示项目。,任务:通过前面章节构建的实际系统,利用,Nagios,采集实际的系统监控数据,并开展基本的智能运维活动,例如,异常检测、瓶颈分析等。,69,2025/4/9 周三,
展开阅读全文