资源描述
,20XX,智能运维工作总结,汇报人:XX,WORK SUMMARY,目录,CONTENTS,工作概述,01,WORK PROFILE,工作现状,02,WORK CONTENT,工作总结,03,WORK SUMMARY,下步计划,04,NEXT PLAN,01,工作概述,WORK PROFILE,传统的,AIOps,基于算法的,IT,运维(,Algorithmic IT Operations,),是指利用算法对运维数据做分析,当前的,AIOps,人工智能运维(,AI for IT Operations,),是指利用人工智能技术来自动化管理运维事务,工作概述,DevOps,DevOps,,开发运维一体化,是一组过程、方法与系统的统称,用于促进开发和运维人员的沟通与协作。,工作概述,3,人,15,万,+,容器,15,人,1,万,+,存储,6,人,1,万,+,服务器,前期,中期,1.,人工作坊,人工运维,小规模,2.,脚本工具,后期,5.,智能运维,效率工具配置管理单体监控,大数据分析,立体监控,3.,流程系统,简单自动化,变更规范,4.,运维平台化,架构清晰,运维体系化,工作概述,20XX,年,3,月,提出智能运维的总要求,形成自主研发发展思路,20XX,年,10,月,开发了一系列自动化脚本,构建了自动化运维工具集,20XX,年,1,月,各类运营数据实时呈现,网络安全类设备全覆盖,20XX,年,5,月,智能运维体系初步建成,疫情期间成效逐渐显现,工作概述,02,工作现状,WORK CONTENT,3,2,1,业务应用,基础软件,基础设施,实现设备自动巡检、问题定位和报告生成;实时获取硬件状态信息,管理、监测设备各项指标;设备告警实时推送,运维人员第一时间介入处理,实现运行指标的精确信息采集与异常告警;实现智能运维替代人工巡检;根据自动生成的巡检报告制定工作任务,保障数据库稳定运行,关键性能监测指标缩短至分钟级,紧急告警实现准实时推送,大大降低故障响应时间,缩短业务系统故障窗口,工作现状,99,覆盖系统及平台,套,持续扩大智能运维的覆盖范围,向其它系统复制智能运维能力,900,获取关键数据,万条,15000,部署探针,个,25000,纳管设备,台,时长占比,硬件,40.86%,11%,14.5%,33.61%,软件,数据库,平台,运维水平显著提升,-65%,-73%,2021,年,2022,年,-78%,故障总数显著下降,申请软件著作权,XX,项,收获各级创新奖,XX,项,获得荣誉,03,工作总结,WORK SUMMARY,实现,2021,全年,“零”停运目标,智能运维场景调度,推送消息,10,万条,执行任务脚本,105,万次,工作总结,58,万次,以智能运维为核心,构建远程运维体系,人员最小化现场值守,,,所纳管业务系统实现,“零”故障运行,,有效保障业务可用性,工作总结,7800,余次,智能运维场景调度,执行任务脚本,推送消息,处理问题,10000,余次,4500,余条,200,余次,疫情期间,工作总结,运维对象,传统运维,智能运维,基础硬件层,故障告警不能远程推送,依赖人工发现,,响应被动,且响应时间长,故障人工处置,物理服务器、虚拟机、操作系统运行状态实时采集,故障告警实时远程推送,中间件数据库层,故障依赖人工发现,响应被动,,且响应时间长,故障人工处置,定时巡检中间件、数据库运行状态,发现故障可远程推送,业务应用层,人工运维,人工处置,业务系统关键进程、,URL,服务状态实时拨测,故障实时推送,网络安全,智能封禁,从,IP,地址扫描、定位、通告主机负责人,完全依赖人工处置,扫描、定位、通知均可自动完成,云平台,人工运维,人工处置,云平台健康巡检状态实时推送,云平台告警实时推送,云组件,人工运维,人工处置,目前运维、运行数据均可实时采集,故障告警实时远程推送,运行指标定时报送,云应用,人工运维,人工处置,ECS,应用资源使用率实时监测,04,下步计划,NEXT PLAN,全场景巡检,基础设施,硬件设备,数据库,业务应用,多维度分析,系统日志,操作日志,审计日志,安全日志,故障定位,对故障进行关联分析,定位根告警,故障预测,开展大数据分析,关联分析算法预测故障,故障自愈,预测到缺陷后自动处置,实现,724,小时不间断运行,下步计划,自动化,未来的,智能运维,移动化,体系化,智能化,下步计划,自主开发自动化工具,需求快速响应,减少重复性劳动,打造运维人员随身助手,实现远程无人化运维,知识经验数字化,通用化、标准化,提升问题处置效率,智能化运维实现业务的故障自愈、减少人工介入,汇报人:XX,谢谢观看,谢谢观看,
展开阅读全文