1、第 14 期2023 年 7 月无线互联科技Wireless Internet TechnologyNo.14July,2023作者简介:翁先正(1981),男,贵州黔西南州人,高级工程师,学士;研究方向:全光算力网络,自智网络新技术。基于大数据分析的通用光模块智能运维系统研究翁先正,姜志鹏,蔡 勇,张 刚,饶倩胤,杨红强(中国移动通信集团贵州有限公司,贵州 贵阳 550081)摘要:文章研究通过网管采集光模块性能数据,如光模块温度、激光器温度、出光功率、入光功率、激光器偏置电流、工作电压、链路工作状态等参数,结合大数据分析和 AI 算法,识别光模块工作状态,并根据光模块的状态对光模块进行健康
2、评估,将光模块健康程度分为正常、亚健康、损坏等几个等级。亚健康又分为高、中、低 3 个等级,健康度越差,表示后续一定时间内发生故障的概率越高。通过对光模块健康度的预测,与传统的在光模块失效后再处理的方式相比,文章研究方法可实现主动预防性维护,如可提前做好备件储备或直接替换亚健康为中高等级的光模块,避免或降低光模块失效后带来的影响,为用户提供稳定的业务感知。关键词:光模块;大数据;AI 智能分析;预警中图分类号:TP319 文献标志码:A0 引言 近年来,网络直播、在线教育、远程会议等数字业务伴随着物联网、云计算、5G 移动互联网一起蓬勃发展,通信网络规模不断扩大,与之相伴的传输网的光模块不断向
3、更高速率发展(25 G50 G200 G400 G800 G)发展,新型光模块在推广应用初期,故障率也必然随之升高。1 光模块运维存在的问题 随着网络规模越来越大,局点数量越来越多,光模块运维面临以下 3 个方面的挑战。1.1 故障无法提前预判 光模块目前都是根据设定的 DDM 阈值,简单判断出好与坏两种结果。随着器件的长时间使用,一些光模块持续处于劣化趋势,这种劣化的趋势无法识别,只有达到阈值后才会产生告警。这种情况下,业务故障会突然触发。此外,多数阈值均比较宽泛,单纯阈值不能做到准确预警。1.2 故障处理时限长 某些场景下,当光模块失效后,如业务无法绕转故障光模块所在端口,将直接导致业务受
4、损。这时,往往只能更换光模块进行故障修复。故障处理时限往往受备件储备量、备件到达时间、备件替换操作时间等因素影响。若故障光模块为骨干汇聚节点的业务汇聚端口,则影响范围较大,将给电信运营商造成重大损失。1.3 用户满意度低 光模块长时间运行,尤其在恶劣环境下会引起光器件的性能衰减从而导致链路不稳定。而这种不稳定的亚健康状态既没有故障告警,又影响数据收发的完整性。传统手段无法在光模块已劣化、故障之前及时识别风险并进行预警。而光模块这种亚健康状态会导致网络提供的业务服务质量下降,影响客户感知。针对现状,构建光模块智能运维系统,可以提前识别光模块状态及运行风险,主动做好预防性维护,避免业务受损或降质事
5、件发生。2 智能运维系统实现2.1 系统总体设计 光模块失效预警系统整体设计如图 1 所示。针对海量光模块性能数据采用 AI 技术和大数据技术进行学习和训练,建立光模块失效算法模型,并结合现网光模块数据不断优化模型和算法,最终输出光模块健康状态分析结果。运维人员可调用分析结果,在光模块失效前进行风险预判,对于高中风险状态的光模块可考虑直接更换,避免出现业务故障后引起的用户投诉。对整个系统网络中的光模块进行类型、批次、性能的聚类分析,识别出有不同类别隐患风险的光模块,并作为网络巡检数据提供给运维人员进行风险跟踪及介入处理。如图 2 所示,系统首先对模块的状态进行分析分类,其次对亚健康模块进行风险
6、分布统计,并持续进行风险跟踪:(1)当模块风险等级持续变高时,则表明模块会逐步失效,系统会指示人工介34第 14 期2023 年 7 月无线互联科技智能控制No.14July,2023入处理;(2)对于已处于损坏模式的模块,系统会指示人工介入处理;(3)同时对故障模块进行批次、故障模式记录并进行同批次模块的故障跟踪,当发现有批次质量风险后,系统会提示该批次风险,指示人工介入处理。图 1 光模块失效预警系统整体设计图 2 光模块风险及故障处理环节2.2 AI 算法实现 本文通过采集海量光模块性能数据,对光模块的性能指标进行提取,对各项指标进行阈值判定、趋势分析以及数据性能波动分析,构建光模块链接
7、网络地图,建立光模块失效分析算法多维度 AI 训练模型和特征信息库模型。只需输入一段时间的待分析光模块数据,即可输出光模块健康状态(已损坏、亚健康、正常)。AI 算法具有自动学习的功能,依据光模块状态的反馈,不断对算法阈值、趋势、波动等分析算法各项参数进行修正,如图 3 所示。分析模块数据越多,匹配度越好,算法准确率就越高。2.2.1 光模块特征信息库提取和 AI 分析 建立光模块初始特征信息库,通过机器学习方式,不断对信息库进行修正和扩充。算法优化期间要不断地将光模块分析数据和在网模块进行数据匹配,不断对算法进行优化,分析模块数据越多,匹配度越好,算法准确率就越高。本文针对提取到的光模块性能
8、指标建立光模块失效分析算法模型,并结合 AI 对各项指标进行阈值判定、趋势分析和数据性能波动分析。图 3 AI 智能状态诊断系统架构(1)光模块特征提取。AI 阈值分析。AI 模型中加入阈值分析,如损44第 14 期2023 年 7 月无线互联科技智能控制No.14July,2023坏门限、有风险门限等,超过对应阈值,则报不同的光模块状态。AI 趋势分析。如图 4 所示,AI 模型中加入性能趋势分析,对数据进行持续跟踪,抓取模块的动态趋势,如持续发生劣化,处于不同劣化区间,报不同的光模块状态1-2。图 4 AI 趋势分析针对性能数据,假设数据的采样时间为 t,取数据值 Y(t),选取其前后各
9、N 个数据做为数据聚合计算和生成特征数据的窗口,性能数据指标分别为 Y(-N),Y(1-N),Y(2-N),Y(N-1),针对该 2N 个值进行算术平均获得 Paverage 数据,然后将针对 2N 个点与平均数据进行偏离计算,如 P1=Average(Y(-N)Y(-1)-Paverage、P2=Average(Y(0)Y(N-1)-Paverage,获得偏离实际值 P1,P2,然后 =P2-P1,则获得性能的趋势数据,循环往复,则可获取性能趋势数据。AI 波动分析。AI 模型加入对性能量的跟踪分析,分析动态波动,在环境稳定情况下,波动应该在一定范围,超出该范围,则可认为模块或链路有故障,需
10、告警以提示模块的状态或者链路的状态。采用 ARIMA 的算法1-2进行实现。采用光模块性能量的差分值进行光模块的波动分析。if d=0,yt=Ytif d=1,yt=Yt-Yt-1if d=2,yt=(Yt-Yt-1)-(Yt-1-Yt-2)=Yt-2Yt-1+Yt-2AI 性能劣化分析。将模块长期运行后的数据与模块初始值进行类比分析,当性能量劣化到一定情况时,给出模块的对应状态3-4。基于光模块性能的劣化趋势特性满足指数发展规律,结合各性能量特征的多个维度,采用非线性回归的方式,可以判定 N 小时后光模块是否正常工作。PP=exp(EakT)atm根据运行时间和性能劣化之间的关系,可换算出光
11、模块正常运行状态时间。(2)光模块特征工程。针对历史故障,提取出故障的数据特征,并放入特征工程库5-6。通过 AI 多维训练模型不断提炼并丰富故障特征信息库,从而提升光模块的故障诊断准确率和故障诊断覆盖率,如图 5 所示。图 5 光模块特征工程2.2.2 光模块状态判定 AI 组网分析将光模块的收端、发端、光纤、连接器等都考虑进去,联合光模块的性能量特征,与光模块链路故障特征信息库进行比对以确认链路的状态,确定故障发生的位置7。通过相应的模型判定,最后光模块状态自动输出为已损坏、亚健康或正常。2.2.3 光模块状态显示及长期跟踪 系统通过看板形式可呈现光模块各项性能的风险趋势,如图 6 所示,
12、按时间维度区分模块类型,展示过往识别出的风险模块数量。系统通过图表的形式可展示当前全网在监控中的模块状态,如图 7 所示。模块状态分为 4 种:未投54第 14 期2023 年 7 月无线互联科技智能控制No.14July,2023入分析、正常、亚健康、故障。风险分布统计即将风险模块所属种类及对应种类模块的基数进行对比展示,统计批次故障信息。图 6 光模块性能趋势分析图 7 光模块状态和风险分布统计2.3 应用成效 光模块智能运维系统在现网部署后,经过一年的算法智能演练和学习,光模块预警分析准确率达到90%的预定目标,发现了 67 个低风险光模块,3 个高风险光模块,如表 12 所示,有效支撑
13、网络稳定运行及业务安全保障。表 1 光模块预警算法演练结果(1)模块总数/个正常/个损坏/个亚健康高风险/个中风险/个低风险/个损坏比/%亚健康比/%初始算法2 9832 584872103002.9210.46第一次优化9 7269 39117623100.173.27第二次优化9 8149 785000290.000.30第三次优化9 8709 800030670.000.7064第 14 期2023 年 7 月无线互联科技智能控制No.14July,2023表 2 光模块预警算法演练结果(2)状态数量/个位置模块 SN亚健康(高风险):第 3 天下午开始采集的功率、激光器电流值下降近一半
14、1都匀大十字街道-6700-24-PHCA4T10-1-7-50GE:2QK9Q190997亚健康(高风险):第 3 天下午开始采集的功率、激光器电流值下降近一半1都匀腾龙溪苑-6190H-OIHC1A0-1-15-50GE:1QK9Q192180亚健康(高风险):光功率的波动范围超出 2.0 dB1松桃县一机楼-SPE 主-PCGE2T10-1-8-100GE:1CK881200943 结语 基于采集海量光模块性能数据分析,并利用 AI算法开发的光模块智能运维系统,实现对光模块劣化趋势的可视化分析,支撑从被动响应式运维向预测主动性运维的转变,对提升光传输网的运行稳定和业务感知体验起到重要提升
15、作用。本文中提到的光模块智能运维系统对光模块网络拓扑进行还原,基于系统的分析而不是基于光模块单点分析,使得光模块状态分析更加准确,随着光模块资源池的增加,风险特征库不断增加,会使得故障分析更加精准。参考文献1ZHENG Z,CAO H,GAO H Y,et al.An arima prediction model based on weighted markov chain correctionJ.Computer Applications and Software,2020(12):63-67.2ZHAO Y,ZHAI Y W,CHEN J J,et al.Time series forec
16、asting model based on LSTM-prophet nonlinear combination J.Computer and Modernization,2020(9):6-11.3甘文斌,廖原,钟洪,等.一种光模块组件的加速硫化腐蚀寿命预估模型J.光通信研究,2020(4):48-53.4黄晓雷.一种支持光器件寿命预测和失效原因分析的装置和方法:CN201110234049.XP.2012-01-18.5葛建军,胡毅.高速 SFP 光模块的失效分析:2010通信理论与技术新发展 第十五届全国青年通信学术会议论文集(上册)C.北京:国防工业出版社,2010.6彭磊.光模块的失
17、效模式与嵌入式监测方法研究D.长沙:国防科学技术大学,2015.7丁国庆,胡长飞,李晶林,等.光模块一般失效模式分类及两种新的失效模式J.电子世界,2012(12):69-70.(编辑 王雪芬)Research on intelligent optical module O&M system based on big data analysisWeng Xianzheng Jiang Zhipeng Cai Yong Zhang Gang Rao Qianyin Yang Hongqiang China Mobile Guizhou Co.Ltd.Guiyang 550081 China Ab
18、stract This paper studies the performance data of optical module collected by network management such as optical module temperature laser temperature output power input power laser bias current working voltage link working state and other parameters combined with large data analysis and AI algorithm
19、 to identify the working state of optical module and according to the state of optical module.The health degree of that optical module is divide into normal sub-health damage and other grades and the sub-health is divide into three grades of high medium and low.The worse the health the higher the pr
20、obability of failure in a certain period of time.Through the prediction of the health degree of the optical module compared with the traditional way of reprocessing after the failure of the optical module the active preventive maintenance is realized for example the spare parts can be reserved in advance or the sub-healthy optical modules with medium and high levels can be directly replaced so as to avoid or shorten the impact caused by the failure of the optical modules and provide users with stable service perception.Key words optical module big data AI intelligent analysis warning74