1、主题聚焦:算网一体与智能运营63移动通信智慧运维平台的设计与实现摘要 网络智能化转型对支撑网络强国战略、凝聚产业共识、服务公司业务发展等具有重要战略意义。其中网络智能化分级又是网络实现智能化的重要评估环节,其主要为引导产业向着长期目标分阶段演进,又能为产业提供客观的、可观测、可量化、可实施的评估依据。文章主要是基于自智分级策略在无线网络维护域中实现智慧维护平台的设计及实现,针对传统无线网络运维模式,从故障发生到处理闭环均是被动解决模式,巡检、告警分析、故障处理等运维过程中的价值数据未被充分关联挖掘等问题进行分析解决,并通过大数据+AI支撑手段优化整体维护工作模式,提前发现/预警和解决网络故障点
2、,最大限度发挥预先解决故障的能力,实现主动维护,在提升网络质量、最终提升用户感知等方面提供参考借鉴。关键词 自智网络;分级策略;智慧维护何璐璐1 杜智超1 嵇 聪1 章 勇1 刘 璐21 中国移动通信集团云南有限公司 昆明 6502282 中国移动通信集团设计院有限公司重庆分公司 重庆 401121引言在运营商传统网络运维中,因智慧维护演进路线及自智分级评估不明确,较难对无线网络运维域中各项核心能力、子场景进行有效评价,导致出现实际工作目标不清晰、资源投放精准性不高等问题,严重影响网络运维的效率和成本。针对现有维护域的工作模式,在TMForum自动驾驶网络分级框架的指导原则下,依据集团自智能力
3、分级细则,并结合省内智慧网络运维管理的实际需求出发,亟需构建智慧维护平台,由被动处理问题改为积极预防问题,从而提高整体资源的利用率和维护效率,实现2025年L4的整体智能水平。1 自智网络架构设计理念1.1 自智网络框架TMForum自动驾驶网络旨在面向消费者和垂直行业客户提供全自动、零等待、零接触、零故障的创新网络服务与ICT业务,打造自服务、自修复、自优化的通信网络,为通信网络运维数智化转型明晰了目标架构和实现路径1。自智网络目标框架如图1所示。PE?PE?XVE?VE?NBusiness Operation?Business Growth?Operation Efficiency?Res
4、ource Operation?Resource Operation?Service Operation?图1 自智网络目标框架1.2 自智网络分级评估思路结合自动化基础理论和通信网络特征,完成分级方法标准制定,基本形成产业共识,并在网络运维层面,已进一步细化形成相对完善的分级评估体系,开展规模主题聚焦:算网一体与智能运营64评估验证,如图2所示。分级评估体系的制定过程包括以下四个方面:1)流程抽象:基于自动化/智能化基础理论,抽象出网络管控通用工作流程;2)确定原则:以“系统”替代“人工”完成工作流程的自主程度作为智能化水平评判基本原则;3)制定方法:根据各流程的需求优先级和产业成熟度,制定
5、其在分级方法中的演进顺序、代际特征;4)评估量化:对单点应用/任务流程分别评估确定级别,对评估范围整体进行综合量化统计。?图2 自智网络分级方法和代际特征其中图2中自智网络等级L0-L5具体内容如下。L0:全流程人工完成。L1:辅助人工,在执行和感知环节实现线上采集(记录),提高工作效率。L2:自主执行,依赖人工预定义的固化规则辅助感知和分析过程。L3:自主感知,根据人工配置/编排的规则(规则解耦),辅助分析/决策。L4:自主分析/决策,根据用户意图需求自动生成规则/策略(规则注智)。L5:全流程智能化,具备完全意图管理能力,实现自动演进。以某省为例,2021年底省内运维域中共涉及6个自智网络
6、核心能力,共有42个子场景,其中绝大部分处于L2水平,即基于固定规则的辅助分析阶段,整体评级约为2.2,如图3所示,与L3(网络自主感知)近期目标及L4(网络自主分析/决策)中远期目标仍有较大差距,亟需通过建设智慧维护平台满足目前集团现有自智网络维护域演进需求,以及契合省内实际生产维护“降本增效”的发展需要。?图3 自智网络能力评估结果2 智慧维护平台技术架构设计为实现提升智慧维护网络的自智水平目标,通过智慧维护平台的设计与实现,在故障识别、隐患识别、定界定位、处理方案关联、故障处理、指令巡检等六大核心能力方面进行重点研究。智慧维护平台技术架构主要包括原始数据采集、数据ETL(Extract-
7、Transform-Load)、数据存储和后台业务处理、业务处理控制、业务展现层5个部分,如图4所示。?LTE?PM+KPI?HBase1HBase2HBaseNAI?Mysql?PM+KPI?ETL?ETL?ETL?ETL?rel l or tnoC?(TBD)?(TBD)?(TBD)?(TBD)?ETL(TBD)?ETL(TBD)?ETL(TBD)?ETL(TBD)?UI?UI?UI?UI?UI?UISSM?MR?MR?ETL?VueJqueryAjaxleafletcanvasBootstrapSpringSrpingMVCMybatisShiorGeoServerQuartzRedis
8、ActiveMQ?图4 端到端运维软件架构其中原始数据可通过北向平台、EOMS工单系统、代维资产管理系统、动环检测系统及外部相关API接口数据(地理天气数据信息)进行采集。按照通用数据ETL处理方式,将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端,从数据源抽主题聚焦:算网一体与智能运营65取出所需的数据,经过数据清洗,最终依据预先定义好的数据仓库模型,将数据加载到数据仓库并存储至Hadoop集群中,通过AI平台算法及功能(聚类算法、常规分类算法、异常检测算法、深度置信网络、堆叠自动编码器、循环神经网络等2-3)结合专家知识库进行智能任务调度及
9、后台业务处理。业务处理控制主要细化各模块功能,通过相关业务逻辑中间件实现模块功能。业务展现层基于前端公共模块相关技术对站点画像、区域画像、隐患管理、地理化分析等进行界面化呈现。3 智慧维护平台功能架构设计3.1 网络运营中心NOC智慧维护平台功能架构主要由两大部分组成:网络运营中心NOC(NetworkOperationCenter)和现场外线,如图5所示。NOC?图5 智慧维护平台功能架构NOC是实现远程实时监控服务运营和检测设备状况的网络化中心,主要涉及运维设计、运维监控、故障分析、诊断测试等几大功能模块,可结合运营商EOMS(ElectricOperationMaintenanceSys
10、tem)电子运维系统进行任务工单派发,将NOC嵌入现有运维流程可提高相关技术、流程、组织及管理效率,进而提升网络与服务的稳定性与可预见性。其中运维监控、故障分析、诊断测试等模块主要提升维护域中故障识别、隐患识别、定界定位、处理方案关联等自智网络核心能力。现场外线主要是承载、处理、闭环EMOS电子运维系统所派发任务工单,包括现场维护人员的任务调度、资源调度及部分指令巡检无法解决的,需要最终现场进行排障巡检。3.1.1 运维设计功能运维设计功能主要包括两部分功能设计:运维规则设计与AI辅助规则设计,主要应对自智网络L3评级标准要求,即将经验规则从系统中解耦,系统支持图形化界面自主配置故障识别特征和
11、识别模板,系统基于规则自动关联跨域故障、隐患,识别网络故障事件或隐患事件,并按照解耦的规则自动定界定位故障原因,生成结构化处理方案,当规则需要调整时,只需二次配置。其中运维规则设计主要来源于运营商长期积累的相关运维经验,制定分析规则、诊断规则、派发规则、调度规则、激活规则等,将上述规则应用于可视化设计分析中,为自动化运维提供快速设计能力4。AI辅助规则设计则是由传统技术专家进行专业设计转变为通过AI技术辅助进行根因规则设计。将相关网元类型、告警类型、告警信息、告警码、位置信息等作为输入项,通过神经网络相关算法最终输出AI辅助规则5-6。3.1.2 运维监控功能通过对数据源、数据表等分析进行场景
12、监控设计,可视化呈现多系统、多界面的监控。场景运维监控可对网络全景监控,也可选择性针对主题监控,定制适合实际需求的个性化监控功能。将之前被动运维、基本无故障预测转变为隐患故障可预测及规避。3.1.3 故障分析功能通过部署RCA(RootCauseAnalysis)根因分析规则挖掘工具,根据算法学习出固有规律,形成规则放入RCA中进行告警根因查看和告警抑制压减。再结合性能指标、参数配置、相关变更情况、问题日志等进行多源关联分析,从而对故障进一步确认,提高故障分析的准确性及效率性。3.1.4 诊断测试功能诊断测试功能主要包含人工诊断指令及自动诊断脚本两部分。首先通过人工诊断指令下发至网元管理系统主
13、题聚焦:算网一体与智能运营66(ElementManagementSystem,EMS),再由EMS反馈诊断结果至人工诊断指令部分;自动诊断脚本可批量生成指令,再由EMS反馈上报相关诊断报告,将诊断结果或诊断报告中异常问题自动创建维护工单并指派现场处理,交由现场工单管理,进行后续流程处理。3.1.5 工单派发功能工单关联RCA的关联规则,进行根故障派单、子故障合并派单,综合考虑网络拓扑、运维经验等信息,例如同一基站下所有小区退服,则合并为一个业务工单,从源头减少派单量,提高故障解决效率,如图6所示。?T1T2T3图6 工单派发功能T1为告警消除最大量时间点,T2为关联指派时间点,T3为告警派发
14、最长时限,通过分析历史告警,给出最佳关联时间点阈值,减少消除告警的无效派单量,通过关联减少派单总量,提升运维效率,通过动态设置派单时间阈值,追加合并派单,减少无效派单、重复派单。3.2 现场外线配合3.2.1 故障单处理集中故障告警平台针对告警监控进行结果输出,在创建TT(TroubleTicket)工单之前,需要等待一定告警清除时间,避免相关工单追回。当系统收到TT的告警清除消息后,可以自动关闭TT单和相对应的WO(WorkOrder)单,如图7所示。通过运维经验和对历史工单进行机器学习、挖掘工单相关性规则,启动策略归并重复工单,去除无效工单。3.2.2 任务及资源调度对于外部系统派发的TT
15、单,在某些应用场景下,不需要相关分析处理,可以直接派发至外场工程师处进行解决。对于这种应用场景,系统提供TT单自动受理并派发子单的功能。当系统接收到TT单时,自动以系统超级用户来受理TT单,然后进行处理,在处理该步骤时可自动选择生成WO单,并生成子单。智能调度主要是将任务通过AI调度引擎进行工单计划制订、位置及路线规划、员工能力及工具需求分析,把任务与资源相结合达到最佳匹配效果。通过人员调度、资源调度、路径规划等可实现工单“零”时间指派、合理安排人员工作任务量,提升派单准确率、提升平均工单响应时长及资源使用效率。3.2.3 自动巡检管理自动巡检管理主要涉及巡检配置管理、巡检规则管理、巡检任务列
16、表、指令适配/执行及自动输出巡检报告功能,如图8、图9所示。巡检配置管理包括基础数据配置管理、设备网元配置管理、任务/方案管理及门限/通知管理。巡检规则管理的功能是制定相关巡检规则(专业网信息、作业计划等)以及配置解析规则。巡检任务列表可对巡检计划定义接口、巡检定时任务,以及查看巡检任务列表。指令适配及执行由自动巡检功能发现维护类问题,通过模板初始化规则及指令创建规则生成巡检测试工?TT?FO?WO?FE?TT?Wait AcceptWait FO ProcessWait WO Process?图7 故障单处理主题聚焦:算网一体与智能运营67?图9 自动巡检流程单,再与指令模板进行匹配映射创建
17、巡检任务,指令执行后将指令结果反馈闭环输出巡检报告。系统可将相关维护要求结合站点资产信息进行综合呈现;历史数据包含告警次数、故障处理次数、站点话务量、数据量等信息;地理位置、区域、地形特征(高山、平原、河岸、洼地等)、耐候性;气象机构输出的相关天气数据,共同制定动态巡检计划,聚焦故障高发站点,主动预防历史故障重发,减少维护资源的浪费。3.2.4 隐患管理隐患管理主要针对异常项目生成智能巡检告警,自动完成对告警信息的分析,自动生成维护作业计划告警工单,维护人员根据隐患工单来处理隐患问题7。在巡检设备上(铁塔、基站等),放置NFC(NearFieldCommunication)标签,通过近距离无线
18、通讯技术,巡检人员按照路线的设置,依次到每个地点进行巡检并自动显示巡检内容。4 基于智慧维护平台的应用4.1 站点画像4.1.1 站点健康度评估基于站点设备种类、性能情况,结合站点环境、停电情况、备电时长、站点历史故障等信息建立站点健康度评估指标体系,并设定告警阈值自动触发维护工单有效预警,降低站点告警故障。4.1.2 区域可视化采用多种代维指标和站点客观运行指标,可以实现区域综合可视化,以区域为对象,提供整体指标统计分析,主要提升运维质量监控能力。4.1.3 站点维护成本分析通过对历史故障维护数据包括维护人员、车辆、油机、故障发生频率等信息提供站点维护成本数据,为过程成本量化、站点维护预算及
19、后续投标成本核算提供数据支撑。4.1.4 制定站点维护计划基于站点重要级别、历史故障信息、天气状况等制定维护计划,对维护备件提供预测管理并减少站点故障率,降低单站维护成本。4.2 运维效率分析4.2.1 GIS资产全景图以维护网格为基础单元,对资源信息(人员、车辆、站点、油机)进行实时位置展示,工单关联、轨迹回放,实时了解资源状况,方便调度管理。4.2.2 板卡板件全量监控通过对现网板卡板件的入网时长、现网设备的返修总数/比例统计,按省市县的地理维度、厂家维度、板卡板件的类型维度进行全量监控,对存在硬件隐患、频繁老化返修等问题设备构建“机历卡”“病例库”,监控中心可全面掌握板卡板件的资源使用及
20、健康度情况。4.2.3 人员效率指标分析对人员工单效率指标进行统计分析,包括上站任务详细信息及工作时长信息,对车辆效率指标分析,包括上站里程、规划里程分析,发现人员运维效率短板进行改进,提升效率,如表1所示。5 结束语智慧维护平台在提升自智网络水平评级方面,由图8 自动巡检管理?主题聚焦:算网一体与智能运营68L2.2提升至L3.0,有效提高了维护域内各项工作的管理能力,以及主动预防性运维及快速应急处理能力。随着实际应用的进一步深入,将继续完善智慧维护系统的技术架构演进,并将核心能力应用深度嵌入问题识别、问题分析、问题处理、问题质检等实际生产环节,达到助力网络运营降本增效的目的。参考文献1 中
21、国移动通信集团.自动驾驶网络白皮书:面向流程定义场景化分级标准分布迭代提升网络运维自智水平R.20212 林尧瑞,马少平.人工智能导论M.北京:清华大学出版社,20013 王万良.人工智能及其应用M.北京:高等教育出版社,20054 王西点,王磊,龙泉,等.人工智能及其在网络优化运维中的应用J.电信工程技术与标准化,2018,31(7):81-865 杜永生.智能运维,基于自学习的自动化运维J.信息通信技术,2018,12(1):8-136 刘凤岐.人工智能M.北京:机械工业出版社,20117 王新东,王一大,庞国际,等.智能运维(AIOps)在中国联通分布式架构下的研究与应用J.电信工程技术
22、与标准化,2021,34(1):48-54 工作类 次数工时/时故障处理46告警清理916临时任务62光缆日常检修44应急通信保障(传输线路)46安全隐患处理44其他816表1 效率指标总体统计数据作者简介何璐璐工程师,主要从事无线网络设备运行维护、优化及无线维护自智能力提升优化工作。嵇 聪工程师,主要从事无线网设备容灾、高铁BSC维护及隐患管理工作。刘 璐高级工程师,高级咨询设计师,主要从事无线网络智能优化业务及相关咨询设计工作。杜智超主要从事无线网元维护、负荷分析、故障管理工作。章 勇主要从事无线设备故障分析处理及工程建设验收测试工作。(下转84页)技术广角 84Abstract Thei
23、ntelligentInternetofThings(IoT)isaproductofthedeepintegrationofartificialintelligenceandIoTtechnology.Itismovingtowardsahigh-endcutting-edgefieldwithbroadmarketsandbusinessprospects,achievinganevolutionfromintegrationofallthingstointelligentconnectivityofallthings.Thearticlestartswiththebasicconcept
24、sandcharacteristicsoftheintelligentInternetofThings,elaboratesonthesystemframeworkoftheintelligentInternetofThings,aswellastheadaptabilityandoperationalsolutionsofAIoTinvariousapplicationscenarios.ItproposesthedirectionforthefuturedevelopmentofAIoTapplicationscenarios,whichistojointlybuildanewecosys
25、temofintelligentInternetofThings.Keywords ArtificialIntelligence;AllThingsIntelligenceAlliance;ApplicationScenarios;IntelligentInternetofThingsResearch on the Concept and Application Scenarios of Intelligent Internet of ThingsGao WeiChen XinyuanWang RongguoFuzhouTechnologyandBusinessUniversity,Fuzho
26、u350715,ChinaAbstract Thenetworkintelligenttransformationhasimportantstrategicsignificanceinsupportingthestrategyofnetworkpower,gatheringindustrialconsensus,andservingthebusinessdevelopmentofcompanies.Amongthem,networkintelligenceclassificationisanimportantevaluationlinkfortherealizationofnetworkint
27、elligence,whichmainlyguidestheindustrytoevolvetowardslong-termgoalsinstages,andprovidesanobjective,observable,quantifiableandimplementableevaluationbasisfortheindustry.Thispaperismainlyaboutthedesignandimplementationofintelligentmaintenancesysteminthewirelessnetworkmaintenancedomainbasedontheselfint
28、elligentclassificationstrategy.Aimingatthetraditionalwirelessnetworkandmaintenancemode,fromthefaultoccurrencetotheclosed-loopprocessing,itisapassivesolutionmode,andthevaluedataintheoperationandmaintenanceprocess,suchaspatrol,alarmanalysis,andfaultprocessing,isnotsufficientlycorrelatedandmined.Italso
29、optimizestheoverallmaintenanceworkmodethroughbigdata+AIsupportmeans,finds/alertsandsolvesnetworkfailurepointsinadvance,givesfullplaytotheabilitytosolvefailuresinadvance,realizesactivemaintenance,andprovidesreferenceforimprovingnetworkqualityandfinallyimprovinguserperception.Keywords SelfIntelligentN
30、etwork;GradingStrategy;SmartMaintenanceDesign and Implementation of Intelligent Operation and Maintenance PlatformHe Lulu1Du Zhichao1Ji Cong1Zhang Yong1Liu Lu21 YunnanBranchofChinaMobileCommunicationsGroupCo.,Ltd.,Kunming650228,China2 ChongqingBranchofChinaMobileCommunicationsGroupDesignInstituteCo.,Ltd.,Chongqing401121,China(上接68页)
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100