收藏 分销(赏)

基于大数据的人工智能运维服务支撑方案.docx

上传人:精**** 文档编号:9476139 上传时间:2025-03-27 格式:DOCX 页数:23 大小:4.41MB 下载积分:10 金币
下载 相关 举报
基于大数据的人工智能运维服务支撑方案.docx_第1页
第1页 / 共23页
基于大数据的人工智能运维服务支撑方案.docx_第2页
第2页 / 共23页


点击查看更多>>
资源描述
基于大数据人工智能运维服务支撑方案 01概述 在运行商传统网络运维中,巡检、告警分析、故障处理等工作长久积累了丰富经验,其价值并未被充分挖掘。同时,现在人工运维存在系统复杂耦合度高、数据起源多个多样、人工维护风险度高,修复间隔时间过长、人员培养难度大等现实状况,造成了性能相关告警不明确、无效告警筛查规则缺失、故障维护只能被动处理,优化/维护工单重复派发等问题,影响网络运维效率和成本。为了优化网络运维工作模式,提升网络运维准确性及效率性,提出集中维护支撑服务项目,基于人工智能(Artificial Intelligence)运维处理方案意在强调实现以维护为中心,依靠大数据挖掘技术与深度学习算法, 实现问题早发觉,由被动处理问题改为主动预防问题,从而提升整体资源利用率和维护效率。 02 基于人工智能(AI)关键算法 2.1 聚类算法(KMeans) 经过对多维度求欧拉距离(或余弦距离),不停迭代对隐患进行聚类,找到关键关键点特征进行隐患挖掘。K-Means算法是基于多维度距离聚类算法,经过设置参数K,将样本点分为K个紧凑且独立簇,每个簇由与簇质心欧拉距离靠近样本点组成。 计算步骤: · 随机选取K个中心点遍历全部数据,将每个数据划分到最近中心点中 · 计算每个聚类平均值,并作为新中心点 · 重复2-3,直到这k个中线点不再改变(收敛了),或执行了足够多迭代 以每个基站作为样本点,以其性能指标参数及历史告警类别和频次作为特征,对全部有告警基站进行K-Means聚类,经过不停迭代将将告警类型依据相同性能指标进行聚类,深入挖掘各类告警关键关键特征,作为基站画像、隐患挖掘与管理基础。 2.2 常规分类算法(逻辑回归,KNN,决议树,随机森林) 经过把相同隐患进行归并,能够对隐患进行分级,从而方便查找隐患级别。常规分类算法是有监督机器学习算法,对于给定目标类别,将样本进行分类。 逻辑回归:基于Sigmoid函数多特征二分类/多分类广义线性回归。经过建立代价函数并利用梯度下降优化方法,实现多样本分类。 KNN:K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单方法之一。所谓K最近邻,就是将每个样本分类为它最靠近k个样本类别均值。 决议树:决议树又称为判定树,是利用于分类一个树结构,其中每个内部节点代表对某一属性一次测试,每条边代表一个测试结果,叶节点代表某个类或类分布。决议树决议过程需要从决议树根节点开始,待测数据与决议树中特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终决议结果。 随机森林:从样本集中选取n个样本,构建决议树,并重复这一步骤m次形成m个决议树,经过投票表决决定样本类别。 以基站作为样本点,经过分类方法能够将基站分为隐患基站和非隐患基站。经过对隐患基站性能指标参数、资产信息、地理信息及告警类型级别作为特征,对基站告警隐患进行分级,确定基站隐患级别,实现对基站健康度打分。并可依照已训练好机器学习模型对新样本进行健康度评定。实现设备状态预判。对于隐患级别高基站进行重点关注,并将其对应性能参数指标作为隐患基因统计进入隐患管理库。 2.3 异常检测算法 核密度估量(kernel density estimation)是在概率论中用来估量未知密度函数,属于非参数检验方法之一。所谓核密度估量,就是采取平滑峰值函数(“核”)来拟合观察到数据点,从而对真实概率分布曲线进行模拟。 核密度估量可用于进行异常检测,计算正常样本之外异常分布可能性,用于异常数据分析、特殊场景分析。对于完成画像基站样本点,对于未发生告警基站进行异常检测,能够发觉性能指标相对于正常值(不会触发告警性能值)发生偏离样本点,动态自适应设定告警阀值,触发维护工单。有效预警,降低站点告警故障。 2.4 深度置信网络(DBN) 深度置信网络是一个概率生成模型,与传统判别模型神经网络相对,生成模型是建立一个观察数据和标签之间联合分布,对P(观察值|标签)和 P(标签|观察值)都做了评定。 DBNs由多个受限玻尔兹曼机(Restricted Boltzmann Machines)层组成,一个经典神经网络类型如图所表示。这些网络被“限制”为一个可视层和一个隐层,层间存在连接,但层内单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来高阶数据相关性。深度置信网络能够用于样本目标数值预测以及样本类别分类。 对于样本类别分类,与常规分类算法应用相同。实现基站告警隐患分级,康度打分。并可依照已训练好机器学习模型对新样本进行健康度评定。实现设备状态预判。 对于样本目标预测值,经过深度置信网络实现基站特征异常概率分析等功效。针对网络性能指标特征异常情况,进行概率预判,即尝试对“亚健康”网络进行预判。预先判断网络问题,降低投诉和性能告警、设备故障实际发生概率。 2.5 堆叠自动编码器(SAE) 自编码器(AutoEncoder)是一个无监督学习算法,主要用于数据降维或者特征抽取。autoencoder经过深度置信网络进行预训练,从而确定网络权值初始值。其目标是让输入值等于输出值。首先用网络权值矩阵对输入进行编码,经过激活函数后,再用矩阵转置进行解码,从而使得输出数据等于输入。该过程能够看作是对输入数据压缩编码,将高维原始数据用低维向量表示,使压缩后低维向量能保留输入数据经典特征。 为实现智能站点画像,需要对站点性能指标,资产信息,地理信息,历史告警信息等多维特征进行梳理。经过自编码器能够对大量特征进行梳理并降维,最终形成组成基站健康度指标多维特征,可对后期异常检测,告警预测,隐患管理降低输入数据维度,降低计算成本。 2.6 循环神经网络(RNN) 循环神经网络可用于时间序列相关样本取值预测。在传统神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接,每层之间节点是无连接。RNNs之所以称为循环神经网路,即一个序列当前输出与前面输出也关于。详细表现形式为网络会对前面信息进行记忆并应用于当前输出计算中,即隐藏层之间节点不再无连接而是有连接,而且隐藏层输入不但包含输入层输出还包含上一时刻隐藏层输出。理论上,RNNs能够对任何长度序列数据进行处理。 03 端到端运维功效架构 3.1 网络运行中心NOC 端到端运维架构主要由两大部分组成:网络运行中心NOC(Network Operation Center)和现场外线。 Figure 1. end to end operational architecture 图1.端到端运维功效架构 NOC(网络运行中心)是实现远程实时监控服务运行和检测设备情况网络化中心,主要包括运维设计、运维监控、故障分析、诊疗测试等几大功效模块,可结合运行商EOMS(Electric Operation Maintenance System)电子运维系统进行任务工单派发,将NOC嵌入现有运维流程可提升相关技术、流程、组织及管理效率,进而提升网络与服务稳定性与可预见性。 现场外线主要是承载、处理、闭环EMOS电子运维系统所派发任务工单,包含现场维护人员任务调度、资源调度及最终排障巡检。 3.1.1 运维设计功效 运维设计功效主要包含两部分功效设计:运维规则设计与AI辅助规则设计。 Figure 2. design function of operation and maintenance 图2.运维设计功效 其中运维规则设计主要起源于运行商长久积累相关运维经验,制订分析规则、诊疗规则、派发规则、调度规则、激活规则等,将上述规则应用于可视化设计分析中,为自动化运维提供快速设计能力。 AI辅助规则设计则是由传统技术教授进行专业设计转变为经过AI技术辅助进行根因规则设计。将相关网元类型、告警类型、告警信息、告警码、位置信息等作为输入项,经过神经网络相关算法最终输出AI辅助规则。 3.1.2 运维监控功效 经过对数据源、数据表等分析进行场景监控设计,可视化展现多系统、多界面监控。 Figure 3. operation and maintenance monitoring function 图3.运维监控功效 场景运维监控可对网络全景监控,也可选择性针对主题监控,定制适合实际需求个性化监控功效。将之前被动运维、基本无故障预测转变为隐患故障可预测及躲避。 3.1.3 故障分析功效 经过布署RCA(RootCauseAnalysis)根本原因分析规则挖掘工具,依照算法学习出固有规律,形成规则放入RCA中进行告警根因查看和告警抑制压减。 Figure 4. fault analysis function 图4.故障分析功效 再结合性能指标、参数配置、相关变更情况、问题日志等进行多源关联分析,从而对故障深入确认,提升故障分析准确性及效率性。 3.1.4诊疗测试功效 诊疗测试功效主要包含人工诊疗指令及自动诊疗脚本两部分。 Figure 5. diagnostic test function 图5.诊疗测试功效 首先经过人工诊疗指令下发至EMS,再由EMS反馈诊疗结果至人工诊疗指令部分;自动诊疗脚本可批量生成指令,再由EMS反馈上报相关诊疗汇报,将诊疗结果或诊疗汇报中异常问题自动创建维护工单并指派现场处理,交由现场工单管理,进行后续流程处理。 3.1.5工单派发功效 工单关联RCA关联规则,进行根故障派单,子故障合并派单,综合考虑网络拓扑、运维经验等信息,比如同一基站下全部小区退服,则合并为一个业务工单,从源头降低派单量,提升故障处理效率。 Figure 6. distribution function of work lists 图6.工单派发功效 T1告警消除最大量时间点,T2为关联指派时间点,T3为告警派发最长时限,经过分析历史告警,给出最好关联时间点阈值,降低消除告警无效派单量,经过关联降低派单总量,提升运维效率,经过动态设置派单时间阈值,追加合并派单,降低无效派单、重复派单。 3.2 现场外线配合 3.2.1 故障单处理 集中故障告警平台针对告警监控进行结果输出,在创建TT(Trouble Ticket)工单之前,需要等候一定告警去除时间,防止相关工单追回。当系统收到TT告警清楚消息后,能够自动关闭TT单和相对应WO(Work Order)单。 Figure 7. fault single processing 图7.故障单处理 经过运维经验和对历史工单进行机器学习、挖掘工单相关性规则,开启策略归并重复工单,去除无效工单。 3.2.2 任务及资源调度 对于外部系统派发TT单,在一些应用场景下,不需要相关分析处理,能够直接派发至外场工程师处进行处理。对于这种应用场景,系统提供TT单自动受理并派发子单功效。当系统接收到TT单时,自动以系统超级用户来受理TT单,然后进行处理,在处理该步骤时可自动选择生成WO单,并生成子单。智能调度主要是将任务经过AI调度引擎进行工单计划制订、位置及路线规划、员工能力及工具需求分析,把任务与资源相结合达成最好匹配效果。经过人员调度、资源调度、路径规划等可实现工单“零”时间指派、合理安排人员工作任务量,提升派单准确率、提升平均工单响应时长及资源使用效率。 3.2.3 自动巡检管理 自动巡检管理主要包括巡检配置管理、巡检规则管理、巡检任务列表、指令适配/执行及自动输出巡检汇报功效。 Figure 8. automatic inspection management 图8.自动巡检管理 巡检配置管理包含基础数据配置管理、设备网元配置管理、任务/方案管理及门限管理/通知管理。 巡检规则管理是为制订相关巡检规则(专业网信息、作业计划)等以及配置解析规则。 巡检任务列表可对巡检计划接口定义、巡检定时任务、巡检任务列表查看。 指令适配及执行由自动巡检功效发觉维护类问题,经过模板初始化规则及指令创建规则生成巡检测试工单,再与指令模板进行匹配映射创建巡检任务,指令执行后将指令结果反馈闭环输出巡检汇报。 Figure 9. automatic inspection process 图9.自动巡检流程 将相关维护要求结合站点资产信息;历史数据包含告警次数、故障处理次数、站点话务量、数据量等信息;地理位置、区域、地形特征(高山、平原、河岸、洼地等)、耐候性;气象机构输出相关天气数据,共同制订动态巡检计划,聚焦故障高发站点,主动预防历史故障重发,降低维护资源浪费。 3.2.4 隐患管理 隐患管理主要针对异常项目生成智能巡检告警,自动完成对告警信息分析,自动生成维护作业计划告警工单,维护人员依照隐患工单来处理隐患问题。 Figure 10. intelligent inspection 图10.智能巡检 在巡检设备上(铁塔、基站等),放置NFC(Near Field Communication)标签,经过近距离无线通讯技术,巡检人员按照路线设置,依次到每个地点进行巡检,自动显示巡检内容并依照需求填写巡检内容。 04 端到端运维软件架构 Figure 11. end to end operation software architecture 图11.端到端运维软件架构 端到端运维系统软件架构主要包含5个部分,原始数据、数据ETL(Extract-Transform-Load)、数据存放和后台业务处理、业务处理控制、业务展现层。 其中原始数据可经过北向平台、EOMS工单系统、代维资产管理系统、动环检测系统及外部相关API接口数据(地理天气数据信息)。经过数据ETL处理用来将数据从起源端经过抽取(extract)、交互转换(transform)、加载(load)至目标端,从数据源抽取出所需数据,经过数据清洗,最终按照预先定义好数据仓库模型,将数据加载到数据仓库中去。将相关数据存放至Hadoop集群中,经过AI平台算法及功效(聚类算法、常规分类算法、异常检测算法、深度置信网络、堆叠自动编码器、循环神经网络等)结合教授知识库进行智能任务调度及后台业务处理。业务处理控制主要细化各模块功效,经过相关业务逻辑中间件实现模块功效。业务展现层,基于前端公共模块相关技术对站点画像、区域画像、隐患管理、地理化分析等界面化展现。 05 基于AI运维实施应用 5.1 站点画像 经过学习借鉴互联网用户画像技术,基于多维网络运维数据,引入AI特征画像和异常检测算法、输出网络特征站点画像,为智能运维各模块提供全景式特征画像和数据支撑,实现隐患站点分级标签化。整合系统本身大量多渠道、多维度基础数据作为输入,经过无监督学习算法进行聚类及异常检测,输出具备网络特征站点画像标签及指标异常站点列表。 (1)站点健康度评定 基于站点设备种类、性能情况结合站点环境、停电情况、备电时长、站点历史故障等信息建立站点健康度评定指标体系,并设定告警阈值自动触发维护工单,并有效预警,降低站点告警故障。 Figure 12. site health assessment 图12.站点健康度评定 (2)区域可视化 采取多个代维指标和站点客观运行指标,能够实现区域综合可视化,以区域为对象,提供整体指标统计分析,用于运维提升支撑。 Figure 13. Table evaluation of regional indicators 图13. 区域指标评定评定 (3)站点维护成本分析 经过对历史故障维护数据包含维护人员、车辆、油机、故障发生频率等信息提供站点维护成本数据;为过程成本量化、站点维护预算及后续投标成本核实提供数据支撑。 利用AI算法实现告警智能分类,针对详细故障提供智能决议,指导运维人员故障处理,建立员工与工单之间映射,实现工单精准指派,降低工单派发数量,提升工单派发质量,同时关联APP,缩短故障恢复时长。达成“降本增效”目标。 Figure 14. Maintenance process management 图14 .维护过程管理 (4)制订站点维护计划 基于站点主要级别、历史故障信息、天气情况等制订维护计划;对维护备件提供预测管理并降低站点故障率,降低单站维护成本。 Figure 15. Site maintenance plan management 图15 .站点维护计划管理 5.2运维效率分析 (1)GIS资产全景图 对资源信息(人员、车辆、站点、油机)进行实时位置展示,工单关联、轨迹回放;实时了解资源情况,方便调度管理。 Figure 16.GIS asset panorama 图16.GIS资产全景图 (2)“赛马”Dashboard 经过现场大屏监控对项目基础维护信息、人员效率指标、车辆效率指标、油机效率指标进行实时和趋势分析展现,监控中心随时了解项目整体效率情况及区域赛马情况。 Figure 17. monitoring information on large screen 图17.现场大屏监控信息 (3)人员效率指标分析 对人员工单效率指标进行统计分析,包含上站任务详细信息及工作时长信息;对车辆效率指标分析,包含上站里程、规划里程分析;发觉人员运维效率短板进行改进,提升效率。  Table 1. overall statistical data for efficiency indicators 表1. 效率指标总体统计数据 (4)APP掌上运维 管理人员可经过移动APP应用实时掌握了解项目运维情况及人员效率情况,并为管理人员提供实时运维决议效率数据支撑。 Figure 18.APP management cockpit 图18.APP掌上运维 (5)故障预测 过去运维工作都是在进行大量事后处理工作,现在,经过运维教授梳理,选取动力环境、历史工单、网络性能、天气停电、故常告警、综合资管等多个维度特征,构建训练数据集。同时,我们选取了多个AI模型进行对比测试,最终确定选取多层LSTM循环神经网络实现小区退服告警预测,以达成故障预警分析目标,实现了变被动处理为主动预防运维思绪转变,摆脱“救火队员”运维状态,达成对故障事先预判。 Figure 19. Fault prediction 图19.故障预测 06 总结 经过运行商网络部、网管、分企业、县企业一线维护人员目标使用者,基于人工智能(AI)运维处理方案,可提升维护效率和能力,预防性主动运维能力、快速响应汇报能力、快速应急处理能力、自动化降低人为工作量、经验移植减低人员要求、支持市场前线分级保障能力。使平台融入运维生产中,实现商业目标。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服