1、场景一:年轻有为的小A今天刚刚升职,开始负责他们公司最核心业务系统的稳定性保障任务。这个系统非常复杂,既有像CPU使用率、内存使用率等基础指标,又有像响应时间、调用量等业务指标,又因为它有很多Java写的应用,可能还需要关注一下JVM指标,林林总总几百个指标。有没有合适的工具,告诉小A应该对哪些指标配告警?场景二:小A请教资深运维工程师“稳哥”,“稳哥”根据他从业10年的经验,给小A划了下需要重点监控的十几个指标。小A非常开心,开始回去配告警。但是,小A填告警阈值的时候,发现“阈值设置得太松,有可能漏掉问题;阈值设置的太严,一天下来告警999+”小A又回去请教“稳哥”,“稳哥”表示阈值这个东西
2、,必须参考每个指标的历史表现来设置。而且现在公司的业务不断壮大,需要不断地调整阈值,他也没有办法给出了一组永远有效的阈值。有没有合适的工具,给小A推荐合适的阈值?场景三:小A经过长时间不断地调整阈值和试错,终于慢慢得到了一组还算靠谱的告警阈值。但是小A发现,有的指标天然起伏不定,无论用什么阈值都不大合适。比如他们公司的打车软件,每天上下班的时段,下单接口每分钟有1000+的调用量,如果低于这个阈值,需要及时告警。但是,在非高峰期的时段,甚至可能是每分钟调用量可能是0,都不需要告警。有没有合适的工具,帮助小A监控起伏不定的指标?监控指标推荐文档:https:/ 体验Demo链接:https:/
3、调用次数 调用错误次数 调用错误率 调用响应时间应用依赖服务统计 应用依赖服务调用响应时间 JVM FullGC次数 JVM YoungGC次数 JVM堆内使用内存量 JVM非堆总使用内存量 JVM超时等待线程数 数据库调用次数 数据库调用错误次数 数据库调用响应时间 核心线程数 最大线程数 活跃线程数 队列大小 当前线程数 已执行任务数 线程池使用率 节点机CPU使用率 节点机空闲磁盘 节点机系统负载 节点机空闲内存HTTPHTTP状态码异常 HTTP接口状态码4xx调用次数 HTTP接口状态码5xx调用次数异常监控 异常发生次数 异常接口调用响应时间告警指标筛选页面Demo:静态阈值推荐Demo:区间检测页面Demo:对AIOps感兴趣的同学可以加一下:预祝大家元旦快乐:)