收藏 分销(赏)

中国移动IT云智慧运维创新实践.pdf

上传人:Stan****Shan 文档编号:1259301 上传时间:2024-04-19 格式:PDF 页数:35 大小:4.94MB
下载 相关 举报
中国移动IT云智慧运维创新实践.pdf_第1页
第1页 / 共35页
中国移动IT云智慧运维创新实践.pdf_第2页
第2页 / 共35页
中国移动IT云智慧运维创新实践.pdf_第3页
第3页 / 共35页
中国移动IT云智慧运维创新实践.pdf_第4页
第4页 / 共35页
中国移动IT云智慧运维创新实践.pdf_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、中国移动IT云智慧运维创新实践演讲人程宇中国移动IT云智慧运维创新实践运维数据中心统一服务入口标准化纳管能力统一服务目录标准SDN标准SDN标准无SDNIP承载网区域中心资源池A省节点资源池直管资源池单点资源池B省节点资源池单点资源池省级门户IT云统一门户区域中心资源池省节点资源池监控告警配置流程监控告警信息采集自动化运维智能运维资源运维资源监控端到端溯源全景监控视图东北区域中心东北区域中心华北区域中心华南区域中心华南区域中心华北区域中心华中区域中心华东区域中心华东区域中心原有资源池华中区域中心在建资源池总规模:9114总规模:16353总规模:11106总规模:9171西部区域中心总规模:3

2、9585总规模:19801总规模:11249总规模:29439总规模:7240总规模:2898统一规划建设“一云六中心”整体布局统一资源运营全网纳管,集中运营统一集中运维两级协同,统一运维中国移动IT云,是由移动总部统一规划建设、统一资源运营、统一集中运维,形成“一云六中心”布局,构筑泛在云边协同算力体系,为智慧中台、大数据等能力提供灵活调用的算力资源。截至2022年5月,全网IT云服务器规模为28.4万台。中国移动IT云智慧运维创新实践随着IT云设备数量的快速增长,一级IT云的运营和运维工作面临着越来越大的压力。从业界经验来看,运维人员数量无法随着设备数量线性增加,每万台服务器运维人员的数量

3、持续下降,因此亟需引入智能化运维手段,解决人力不足的矛盾,同时,也需要借助智能化工具提高资源的可用性,提升租户的使用体验。今天,由我来分享几个IT云AIOPS的工具。云翊数据中心精益管理系统星空雷达网络AI分析平台云鸽在线智能沟通机器人云秤磁盘健康检测平台中国移动IT云智慧运维创新实践云翊数据中心精益管理系统星空雷达网络AI分析平台云鸽在线智能沟通机器人云秤磁盘健康检测平台云翊数据中心精益管理系统云翊数据中心精益管理系统,依托3D数字孪生技术,结合数据中心设备资产数据,实现对数据中心从“园区-楼-机房-机架-U位-设备”的多层级3D可视化建模能力,对数据中心实现虚拟仿真展示。同时,支持根据客户

4、需求自定义全景视图大屏,并提供标准化扩展接口,满足对数据中心动环、视频、设备性能数据等各类数据对接展示,帮助客户清晰直观地掌握数据中心运营运维有效信息,实现立体式、透明化、可视化的数据中心“一站式”全景管理。一键式数据对接1.统一定义标准化扩展接口,可通过一键式调用接口实现数据统一展示2.支持数据中心视频监控、动环、IT设备监控等数据对接3.支持对数据中心运营运维管理应用集成扩展,跨系统集中展现。一站式3D建模1.根据数据中心园区实景照片、机房CAD图纸等对数据中心实现多层级、可下钻3D建模。2.支持300多类IT设备标准模板,覆盖不同设备品牌、类型、型号。3.支持根据设备资产数据自动匹配,实

5、现“一站式”建模。一体化全景展示1.实现数据中心一体化全景视图大屏展示。2.根据客户大屏尺寸与分辨率定制化适配展示。3.支持客户自定义展示内容,包括图片、简介等数据中心基础信息。依托数据中心全景视图大屏,展示数据中心实景图片、文字简介等基础信息;地图弹窗,直观呈现数据中心在本地的相对地理位置;应用扩展入口,可跳转至相应能力界面;3D入口,可下钻至数据中心3D场景。数据中心全景视图大屏地图弹窗扩展应用数据中心全景视图大屏云翊数据中心精益管理系统3D模型可从数据中心园区-楼-机房-机架-U位-设备,逐级下钻查看,根据真实环境1:1还原。数据中心3D展示云翊数据中心精益管理系统可实时查看设备告警、性

6、能数据,对设备及所在机柜高亮显示,不同颜色对应不同告警等级,并支持查看历史告警信息。设备监控对接展示云翊数据中心精益管理系统可实时查看机房内监控摄像头视频画面视频监控对接展示摄像头视频画面云翊数据中心精益管理系统可实时查看机房内温湿度传感器监测数据,并以温度云图方式呈现机房内温度分布情况,颜色越接近红色表示温度越高。动环监控对接展示云翊数据中心精益管理系统实现数据中心各类指标数据全量管理,使系统用于生产,提升协同作战、指挥调度的能力。形象直观的表达数据中心的信息状态形式,帮助运维人员及时了解整体数据中心的整体情况,缩短排障时间。提升客户整体的数字化、智能化、智慧化管理应用能力,加快整体数字化转

7、型进程。新基建推动下,数据的图形化、可视化展示为客户提供直观、优质的运营运维管理服务,提升客户在数据中心运营领域的差异化竞争力。云翊数据中心精益管理系统中国移动IT云智慧运维创新实践云翊数据中心精益管理系统星空雷达网络AI分析平台云鸽在线智能沟通机器人云秤磁盘健康检测平台星空雷达网络AI分析平台星空雷达网络AI分析平台,依托云网络基础设施,结合运维大数据,构建数字化网络平面,实现机器模型主导的逻辑推演,主要包含网络可视、运维自动、智能诊断、能力开放四个维度能力。网络可视网络架构、拓扑、网元状态、访问路径可视化运维自动从网络发现、更新、健康度计算、应急、配置管理全流程自动化智能诊断基于机器学习生

8、成动态基线,网络访问状态、网元指标智能检测、分析、定位恢复能力开放构建网络运维开放生态,功能面向不同运维角色,同时以标准接口对外开放功能与数据1个平台网络大屏动态拓扑网元健康度路径推演业务拓扑批量配置星空雷达2大场景配置下发指标预测异常检测根因分析能力封装统一调度智能运维能力开放互联关系访问策略转发路径网络日志网元容量网络质量网络架构配置模型3类数据运行状态解析模型IPv4/IPv6Underlay/OverlayDefalut/VRFNV/NFVIP平面网络虚拟化4个维度物理/逻辑路径租户隔离5类对象SDN控制器交换路由防火墙负载均衡DNS星空雷达网络AI分析平台星空雷达网络AI分析平台网络

9、路径发现端到端路径发现:基于数字化网络平面、进行端到端路径仿真推演,根据网络静态、动态数据等自动生成任意IP间网络访问所经过的设备、链路,回溯路径中任意时间的网元监测指标。网元自动发现:基于网络运行数据生成网络拓扑,从架构、区域、设备到链路整体可视化,包括网元指标、端口、日志等视图,覆盖边界网络,实时发现网络异常接入。全局网络拓扑探针与拓扑融合:根据探针主机名自动识别部署的区域,所有探针全MESH多协议探测,统一的健康度计算、告警,并呈现在态势感知拓扑。帮助运维人员快速判断应用故障是否与网络有关。网络健康态势子网聚合展示:对全网所有子网状态进行实时探测,按网段对资产进行聚合,以网络存活度、平均

10、响应时延、平均丢包率等指标进行监测,为运维人员提供实时和历史数据参考。设备响应矩阵多指标智能分析:对全网所有设备、链路、路径网元实时展现健康度拓扑,网元健康度按由小到大排序,通过标注不同颜色当前网元所处的状态,助力运维人员快速定位。网元健康评估自动发现网络 极简网络发现:基于标准协议,自动发现网络设备、连接关系 智能监测:发现网络后自动采集网络时延、丢包率、利用率等网元指标,动态更新构建数字孪生模型 网络拓扑:自动生成全局、局部、子网、探针等多维度网络拓扑,支持SDN控制器、ARP表、MAC表、LLDP、Next-Hop等多种方式 数字模型:将网络中的关联关系抽象为数字模型,如映射、策略、主备

11、、隧道等 网元健康度:根据实时指标、动态基线、异常检测、健康度模型自动评估设备、链路健康度 网络健康度:通过分布在不同网络位置的端到端拨测指标,自动生成网络健康度自动感知故障智能分析 路径推演:基于数字孪生模型自动计算任意两点网络访问路径及各节点健康状态 根因分析:以健康度评估模型为触点,构建故障场景,自动定位故障根因故障定界 自定义拓扑:基于网元、指标、业务架构、网络拓扑,按需定义融合网络与应用数据的自定义系统拓扑 自定义报表:按需抽取各维度网元指标,结合计算、汇总规则,生成自定义报表能力开放 数据查询:支持Rest、H5方式开放策略、指标、状态等数据检索能力 消息推送:支持短信、微信、邮件

12、等方式推送告警、诊断、定位等消息星空雷达网络AI分析平台星空雷达网络AI分析平台依托数据中心全景视图大屏,实时呈现全局网络运行状态,通过大屏展现全局网元及网络是否存在异常,同时支持告警回溯;以大屏为入口,可以下钻至多维度网络拓扑、全网网元健康状态的明细页面,直观的回溯任意时刻网络组网结构、运行状态。多维网络拓扑全景视图大屏全网网元健康状态通过大屏呈现网元、网络、网段实时健康状态,同时可根据需求展示、回溯各类关键日志、Top指标、告警趋势,通过大屏可下钻到各个维度拓扑、健康度、负载均衡等相关功能。星空雷达网络AI分析平台星空雷达网络AI分析平台模拟网络中运行的业务,通过ICMP、TCP、HTTP

13、等协议,所有探针Full-Mesh多协议探测,统一的健康度计算、告警,并呈现在态势感知拓扑中。自动从SDN控制器、设备ARP等表项同步全网存活的IPv4、v6地址进行实时探测,按网段对设备IP进行全量拨测以及聚合展示,以网络存活度、平均响应时延、平均丢包率等指标对批量设备的IP进行监测,星空雷达关注的重点不再是单个网元的故障,而是可能引起大规模故障的异常网元集合。星空雷达网络AI分析平台将网络抽象为设备、链路、路径三类网元,而网元健康度基于不同的计算因子采用扣分机制,结合历史波动、异常样本,自动分辨计算指标的异常状态,代入多维度的计算模型,形成网元健康值,如指标异常持续波动,采用梯度下降的方式

14、,有效规避瞬间波动产生的误判。星空雷达网络AI分析平台根据任意源目IP,自动计算实时、历史的两点访问路径及经过网元的健康状态,支持Overlay路径下钻。基于路由表实现任意源目IP秒级发现路径,支持回溯故障点源目IP路径、指标、状态、健康度等数据重放快速定位异常节点或链路。星空雷达网络AI分析平台运维自动网络可视智能诊断能力开放运行网元组网拓扑访问路径流属性自动发现配置下发自动演练异常检测场景化自动分析自动定位数据开放功能开放应急能力产品基于网络可视、运维自动、智能诊断、能力开放4个维度逐步演进,下一版本主要包含自动定位、自动演练、租户网络、流属性可视化等主要模块,实现更细粒度的故障感知、定位

15、、变更自动化,同时推进租户网络可视化,覆盖网络、主机、混合Overlay路径,基于知识图谱实现智能化的定界、定位能力建设,进一步推进网络自动驾驶。星空雷达网络AI分析平台显性价值隐性价值提升业务连续性:星空雷达基于数字化模型,通过网元、网络及端到端健康度评估,实时感知网络故障、风险隐患,降低故障发生率,缩短故障持续时长,提升业务连续性。提高运维效率:通过智能检索、分析、诊断等自动任务,有效提升运维人员工作效率,如服务咨询、问题分析、故障协同、割接变更等。降低人工经验依赖性:产品从全局网络、局部网络、网元、路径高度可视化,结合数字化方法,有效降低人工经验依赖性。推动网络能力开放:星空雷达相关数据

16、、功能通过标准接口、页面形式对外开放,提高数据利用率,释放更大的数据价值。提升故障协同沟通效率:通过负载均衡监测、业务拨测等方式,有效提升故障协同处理时的沟通效率。推进企业数字化转型:基于星空雷达屏蔽底层网络设备、组网架构差异性,提升运维自动化比率,运维人员可专注更具价值事务。星空雷达网络AI分析平台中国移动IT云智慧运维创新实践云翊数据中心精益管理系统星空雷达网络AI分析平台云鸽在线智能沟通机器人云秤磁盘健康检测平台“云鸽在线”智能沟通机器人“云鸽在线”智能沟通机器人,依托IM平台实现信息调度能力,代替人工的信息转发稽核过程。用户在消息群内按照模板规则发送文本信息,即可启用机器人的推送、转发

17、、稽核等功能,实现信息的智能、快效的传递共享。主要提供信息监控,信息核验、表单提交、数据推送四类维度服务。信息核验交付程序支持,提供文本信息的格式稽核、账号权限的配置审核,构建信息出入方式的智能控制途径。信息监控根据使用方提供平台开放能力或基于微信客户端,实现用户发送信息的实时监控与调度收发的基本功能。表单提交结合以上服务能力,向具备权限的用户,提供平台流程表单的请求提交途径,实现诸如工单快速创建、巡检脚本执行一键下发等服务。数据推送通过机器人自动定时获取运维信息数据,归一化后定向推送至相关人员处,由此解放人工巡检劳力,丰富工单审批提醒、设备指标自动巡检等信息的推送途径。工单一键创建基于信息权

18、限稽核及数据表单提交能力,运维人员可快速、批量创建系统事件跟踪或全网故障上报工单并反馈工单号或错误信息。由此,保证工单创建的规范性、及时性、正确性。基于自动化指令平台能力,代替运维人员获取、分析设备指标巡检结果,避免人工疏漏;或一键下发设备巡检脚本执行指令并反馈结果,提升运维应急响应效率。自动巡检推送实时同步系统日志记录,通过大屏可视化割接日历、属地值班 人 员 清单、系统调用历史等关键运维信息,快速定位相关人员联系方式,提供运维信息可读途径。智慧运维大屏通过内部系统开放能力API,提供告警、工单审批流程、待办工单清单、运维知识库等方面的自助查询服务,为租户与运维人员提供随时随地的信息关注途径

19、。运维信息查询对告警、割接工单流程进行自动化轮询,实现每日割接操作的自动更新汇总上报;并提供超时告警提醒、割接审批流程提醒等服务,提升关键工单的接单、审批及时率。工单流程轮询“云鸽在线”智能沟通机器人“云鸽在线”智能沟通机器人工单信息查询值班登记查询割接巡检上报设备指标巡检通过对接内部系统开放API,推送当日割接操作的清单记录并定时进行更新;或定时、手动下发设备脚本巡检指令,反馈本次巡检结果,并分析上报异常报告;通过对接内部系统开放API,可支持随时主动查询系统使用模板、所属区域告警数量、账号待办工单清单、工单流转过程等功能。或通过系统登记及稽核服务,提供值班人员信息登记及租户查询功能。显性价

20、值隐性价值沟通时间成本:通过信息校验及自动转发服务,缩短每次故障咨询的响应处理时间,提供信息稽核途径,避免信息误传漏传,节约沟通时间成本。智能化共享方案:基于“云鸽在线”的信息自动稽核、转发及开放自助查询服务,提供全新的智能化信息共享方案,有效提升沟通效率,运维人员可专注更具价值事务。自动化巡检支撑:“云鸽在线”可结合平台能力,对关键业务设备的部分运行指标进行自动巡检并推送巡检结果,提高运维故障处理效率。系统自研拓展:“云鸽在线”由自主人员团队开发,支持敏捷拓展系统功能场景,节省外部开发团队聘用费用。解放运维人力:通过“云鸽在线”提供运维信息的自助转发、查询服务,摆脱手动形式的转发、信息整理工

21、作,有效提升运维人员工作效率。“云鸽在线”智能沟通机器人中国移动IT云智慧运维创新实践云翊数据中心精益管理系统星空雷达网络AI分析平台云鸽在线智能沟通机器人云秤磁盘健康检测平台云秤磁盘健康检测平台磁盘健康检测平台,是提供针对服务器设备中HDD、SSD的多种主流品牌型号的磁盘开展健康AI模型建模与检测服务。平台支持基于API的磁盘运行数据采集,依托AI算法建立磁盘健康度预测模型开展磁盘健康评估,并将磁盘健康度预测结果通过监控大屏展示。统一数据采集支持多个主流厂家的SSD、HDD两大类磁盘的SMART性能数据采集。同时也支持多种接口的数据采集,如SAS、SATA等接口。健康智能评估基于AIOps技

22、术对磁盘性能指标历史数据进行机器学习模型训练,生成磁盘故障预测模型,基于该预测模型面向移动全网提供磁盘故障预测能力。可视大屏展示多个主题多个场景的大屏丰富报表展现,其中核心部分-磁盘异常检测,能够展示模型预测的磁盘故障时间 实现异常磁盘预警和精确定位。云秤磁盘健康检测平台表1 磁盘静态数据属性英文名属性中文名说明Vendor厂商生产商名称Product型号磁盘型号字符串User Capacity容量磁盘容量Logical block size逻辑块大小磁盘逻辑块大小Rotation Rate转速转速,如10000 rpmSerial number序列号磁盘序列号Device type设备类型设

23、备类型,如diskTransport protocol传输协议接口传输协议表2 磁盘动态数据属性英文名属性中文名属性说明Read Error Rate底层数据读取错误率硬盘表面读取数据时发生的错误率Spin-Up Time盘片启动时间盘片加速到稳定正常运行速度时间Start/Stop Count电机起停次计数一个盘片启动关闭周期的统计值Reallocated Sector Count重定向扇区计数记录损坏而被重映射的扇区计数Seek Error Rate寻道错误率统计磁头发生寻道错误的事件概率Power-On Hours硬盘通电时间硬盘自运行来的累计通电时间Power Cycle Count设

24、备开关计数该属性表示硬盘电源开关循环计数Soft Read Error Rate软件读取错误率操作系统读取数据时的出错率Airflow Temperature气流温度计量硬盘内气流温度G-sense Error Rate加速度错误率计量对硬盘做成损害的冲击次数在服务器部署Agent实现自动化采集主机磁盘属性信息,借助软件smartmontools采集磁盘的SMART数据,对数据进行预处理生成磁盘预测模型所需的标准数据。SMART数据是自我监测、分析及报告技术的缩写。它是磁盘故障预警和分析技术发展而来的,能够让用户评估磁盘使用状态和预期寿命。SMART数据有两种类型:一种是静态数据(见表1),另

25、一种是动态数据(部分数据见表2)。采集预处理HDD磁盘的预测模型由编码器-解码器-编码器子网络组成,其中所有网络均利用到卷积神经网络。包括下列过程:二维SMART数据图像构建过程、磁盘型号状态嵌入过程、磁盘型号融合过程、模型训练过程以及模型预测过程。通过模型输出的磁盘健康值,判断磁盘的健康状态。GAN通过对SMART表中的多个相关指标值进行预测研究,基于深度学习算法LSTM构建不同品牌SSD盘预测模型。首先选定模型输入过去30天的SSD盘 SMART各指标数据,输出未来30天的预测生命值数据,并与提前设定好的建议更换/报修阈值进行对比,若大于阈值,则磁盘处于健康状态,若小于阈值,则磁盘大概率会

26、发生故障。LSTM云秤磁盘健康检测平台健康度模型分为两种:一种是基于AIOps的深度学习 GAN 网络用于预测HDD磁盘健康度,另一种是基于LSTM 神经网络用于预测SDD磁盘健康度,两种算法模型介绍如下。健康度模型多指标智能分析:对检测出的磁盘故障进行全生命周期的跟踪。磁盘故障处理跟踪磁盘健康智能检测大屏多维度对纳管资源进行呈现:可以实时查看设备所在资源池、设备数量、磁盘数量等。AI检测进度多维度统计分析:基于不同品牌、型号对磁盘两种状态健康和故障进行统计分析。磁盘故障品牌型号分析云秤磁盘健康检测平台运营能力提升提升业务服务连续性:磁盘日常运行过程中,为降低系统风险,保证业务正常运行,通过对网络中的磁盘进 行检测和评估,实时感知磁盘的健康状态,对处于亚健康状态和极大风险的磁盘可通 过告警通知管理员,避免影响业务性能。主动运维响应:主动规划,预测故障时间点,估算数据提前规划故障的处理窗口,将运维人员被动响应、临时突发的工作状态,转变为主动规划、统一处理的节奏,提高运维人员的工作生活质量。避免关键数据丢失:提前发现可能出现故障的磁盘对数据进行迁移备份,避免磁盘故障导致关键数据丢失。设备采购决策分析通过对检测磁盘的品牌和型号进行统计分析,可以帮助设备采购人员选择性能更可靠的磁盘。云秤磁盘健康检测平台THANKS!

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服