1、59 2023年7月 第 7 期(第36卷 总第312期)月刊电信工程技术与标准化运 营 与 维 护基于设备日志的异构网络问题发现及预警方法杨天昊1,李大伟1,梁童2,吴伟嘉2(1 中国移动通信集团有限公司,北京 100032;2 中国移动通信集团设计院有限公司,北京 100080)摘 要 本文主要研究在NFV场景下应对接入种类繁多的日志,基于预警规则的日志问题发现及预警方法。具体方法为基于全量日志正文数据,对细分网元的日志量进行统计,得到网元日志量监测数据和日志正文表达式监测数据,结合自动化处理与AI算法初步生成问题发现规则集和历史预警数据集,引入时间序列异常检测算法,提升问题预警的智能化水
2、平,进一步对自动生成的规则通过专家经验进行确认,得到有效的规则集合。经过验证,采用以上方法在生产环节可得到有效规则,并生成预警数据,实现精准监测日志量异常、发现问题日志并产生预警。关键词 日志问题;异常检测;专家经验;预警规则中图分类号 TN915 文献标识码 A 文章编号 1008-5599(2023)07-0059-06收稿日期:2023-04-21网络设备日志作为重要数据组成部分,在网络质量问题发现与定位中发挥重要作用。通过日志数据的采集处理和分析,对网络问题进行预警,对提高网络运行稳定性和改善网络质量有着重要意义。通信网络中设备种类繁多,在如此复杂的异构网络场景中,影响端到端网络质量的
3、问题可能存在于无线接入网、传输网和核心网等众多网络设备中。尤其是近年来随着 NFV 和 SDN 等技术的不断发展,虚拟化平台和虚拟化网元的类型及数量成倍增长,如何在大量繁杂的日志中快速筛选出异常概率较高的日志正文,从而发现有效的问题日志并产生预警成为一项重要课题。日志数据是按照网络系统或设备在设计完成阶段就固定好格式产生的。对于网络功能虚拟化的场景,服务器系统及上层应用所有的事件都记录在日志中,各厂家原始日志数据差异较大难以直接进行使用。若全部依赖人工对原始日志数据进行提炼归纳,得到问题预警规则用于监控,对于人工分析数据环节要求较高,规则梳理难度较大。面对异构的数据源,传统的做法是通过数据字典
4、对异构数据进行标准化后进行分析,需要处理的日志数据量巨大,耗时耗力并且难以持续高效输出规则。因此人工梳理日志规则的方法在复杂的通信网络设备中并不适用,引入自动化和智能化手段辅助挖掘问题日志的发现预警规则显得尤为重要。在 NFV 场景下,为应对接入种类繁多的日志,本文提出并验证了一套结合自动化处理与 AI 算法得到批量日志问题识别规则,结合专家经验判别确认后得到有60 2023年7月 第 7 期(第36卷 总第312期)月刊电信工程技术与标准化运 营 与 维 护效规则,再基于规则发现及预警日志问题的方法。1 整体方案1.1 整体分析方法及流程本文所述的日志问题发现及预警整体分析流程大致可分为以下
5、 4 点。(1)通过原始日志正文数据计算得到监测数据。(2)基于监测数据引入自动化和智能化方法挖掘得到问题发现规则。(3)引入专家经验对算法挖掘的规则进行标注和判别得到有效的预警或告警规则。(4)基于各类预警或告警规则对原始日志正文及日志监测数据进行匹配计算,最终输出统一格式的预警数据。1.2 构建数据处理及分析平台通过构建数据处理及分析平台,将以上方法流程自动化,从而以数据流的方式处理和分析日志数据支撑生产分析,最大程度减轻日志问题监测预警分析所耗费的人工成本。处理分析平台功能框架包括数据采集、监测数据生成及规则预警数据处理、应用能力模块 3 大部分,如图 1 所示。数据采集环节实现网元层、
6、虚拟层和硬件层的运行日志、操作日志、系统日志、事件日志等全量日志正文的采集与标准化处理。采集的日志按日志来源的网元或设备类型分门别类进行存储。监测数据生成环节实现原文告警规则匹配、日志监测数据统计计算,并存储匹配和计算结果数据。此外,提供短时段内的日志原文查询运行日志原文告警规则匹配和日志监测数据统计计算网元日志量监测数据应用能力模块正文表达式监测数据网元日志量预警数据系统日志操作日志事件日志日志原文查询接口网元日志量预警规则标注及配置专家经验正文表达式预警规则标注及配置统一格式的日志问题预警结果输出日志正文表达式管理AI算法日志原文告警规则标注及配置预警信息查询预警信息监控网元日志量预警规则
7、计算日志原文告警数据正文表达式预警数据历史预警数据查询接口正文表达式清单下发日志原文告警规则下发原文告警日志推送日志监测数据推送日志正文表达式提取正文表达式预警规则计算时间序列异常检测算法单元预警结果数据推送监测数据生成规则预警数据处理数据采集图1 日志问题发现及预警流程61 2023年7月 第 7 期(第36卷 总第312期)月刊电信工程技术与标准化运 营 与 维 护接口用于获取日志原文。规则和预警数据处理环节存储日志原文告警规则、日志正文表达式规则清单,并基于预警规则计算自动生成网元日志量预警数据、正文表达式预警数据。应用能力层引入自动化方法和智能算法挖掘预警规则,并提供基于 AI 算法的
8、日志量时间序列异常检测单元;进一步提供专家经验交互界面对网元日志量预警规则、日志正文表达式预警规则、日志原文告警规则进行标注和配置;提供统一格式的日志问题预警结果输出能力,实现预警信息监控、查询和对外推送功能。2 问题发现预警的具体实现方法2.1 日志数据分类监测根据原始日志正文数据计算得到监测数据,包括网元日志量监测数据和正文表达式监测数据两个类别。通过对单位时间切片内经过标准化处理后的全量日志正文数据集,按照网元或设备类型、网元名称、空间标识信息、设备标识信息、数据层、日志类型等维度进行日志量统计,得到网元日志量监测数据集。同时,为便于对不同类型日志的深入挖掘分析,引入文本聚类算法依据相似
9、度对日志正文进行分组,并对每组日志正文进行归纳提取得到日志正文表达式,通过表达式级别的正文挖掘分析,与网元日志数量监测数据的宏观分析相结合,共同开展日志数据挖掘分析。2.2 日志问题发现规则自动识别本环节基于监测数据引入自动化和智能化方法挖掘得到问题发现规则,自动生成配置的规则属性包括网元或设备类型、日志类型、空间标识信息、设备标识信息、日志正文表达式、规则门限类型、规则门限、预警时间粒度等。其中规则门限类型可选项包括固定门限值、增幅门限值、动态参考值和该条规则的优先级信息等。固定门限值情况下,判别切片周期内日志量超过阈值则生成预警信息;增幅门限值情况下,判别切片周期内的日志量相对于历史参考时
10、间段内均值或峰值的百分比,高于特定门限则生成预警信息;动态参考值情况下,与时间序列异常检测单元给出的参考值比较,高于参考值则生成预警信息。规则自动配置具体实现方法如图 2 所示。对每一种类别下的所有正文表达式提取一段历史时间内的正文表达式监测数据,按照默认设置的切片周期,计算各正文表达式出现的时间切片周期数量占比,依据该占比和单位时间切片内该正文表达式日志量的均值及峰值等信息自动识别并配置不同门限类型的规则。2.3 时间序列异常检测算法对于动态参考值情况的预警规则,引入时间序列异常检测算法自动生成动态参考值预警规则,具体实现方案如下。以网元或设备类型、日志类型、空间标识信息、设备标识信息为索引
11、,建立日志时间序列异常检测 API 信息索引。存储信息包括模型算法名称、算法 API 参数、模型属性参数、是否存在预训练模型文件等。默认运行状态下基于 Prophet 时间序列预测算法构建时间异常检测模块,发布 API,允许预警数据生成模块调用得到波动参考值门限,从而智能判别是否满足预警条件。步骤如下。(1)根据监测规则信息判断是否存在预训练模型,如果存在,加载预训练模型。(2)如果不存在,调用历史日志预警监测时间序列数据生成预训练模型,预训练模型存储并将信息入库到API 信息索引表。(3)基于预训练模型预测该网元在待分析时间段内的日志量置信区间。预测结果的基线值依据 Prophet 算法得到
12、,算法原理表达式如下。y(t)g(t)+s(t)+h(t)+et其中,g(t)表示时间序列中的趋势性变化;s(t)表示时间序列中的周期性变化;h(t)表示节假日带来的潜在影响;et为噪声项。根据实际日志量是否在预测的置信区间内,判断每个告警时间粒度是否异常。若实际日志量在预测的置信62 2023年7月 第 7 期(第36卷 总第312期)月刊电信工程技术与标准化运 营 与 维 护区间内,则正常;若实际日志量超出预测的置信区间,则为异常。2.4 基于专家经验的规则有效性判定在对算法挖掘的规则进行标注和判别得到有效的预警或告警规则环节,引入专家经验进行进一步判定,确保规则的有效性。专家登录平台调取
13、查看基于自动生成规则产生的网元日志量预警数据,对于特定网元级别或特定正文表达式级别的预警规则,由专家结合上文中提图2 自动规则配置流程图到的规则属性信息,基于该规则生成预警数据的历史出现频次、日志数量统计曲线与时间序列异常检测算法计算所得参考值的对比结果等信息,进一步进行有效性判定,并对预警规则进行进一步的优化调整,具体内容包括但不限于如下。(1)判定自动识别规则的有效性,并对自动识别的规则门限进行修正。(2)判定自动触发的日志正文表达式规则有效性,63 2023年7月 第 7 期(第36卷 总第312期)月刊电信工程技术与标准化运 营 与 维 护对经过专家经验确认的规则,作为实时触发规则及时
14、进行告警前转处理,预警网络问题。2.5 预警结果输出基于上文所述经过自动化发现和专家经验判别标注的各类预警或告警规则对原始日志正文及日志监测数据进行匹配计算,对满足规则预警条件的日志或日志监测数据产生预警数据。同时,应充分考虑日志数量巨大对算力资源的需求,引入实时流式处理技术,提升数据处理性能,做到网络问题及时发现及时预警。3 方法验证结果分析以动态参考值类别的预警规则为例,基于时间序列异常检测算法,自动监测到 TOR 网元日志量在某个时间点出现激增,如图 3 所示,触发异常预警。经日志详情分析发现,该类问题的原因为 TOR 网元出现频繁连接异常,通过及时预警推动运维人员进行问题定位与解决。因
15、此,基于时间序列的异常检测算法可以在宏观分析基础上有效发现并预警日志问题。以固定门限类别的预警规则为例,基于日志维度的监测预警规则,经过专家经验确认后,通过平台的配置能力形成预警识别规则并完成配置,基于预警规则实时进行日志问题匹配,出现与预警规则一致的日志关键词后,可触发相应的成功预警。基于以上操作,触发某MME 网元在相近两天内陆续出现的 nocPMFailure 问题和 nocHardwareLos 问题并产生预警信息。经运维人员排查,nocPMFailure 问题是与功率管理相关的故障,该故障产生时会短暂影响该设备控制 UE 的功率模式功能;nocHardwareLos 问题是硬件接口的
16、短暂失效,对网元性能产生影响,如频繁出现该类问题,需及时对硬件接口进行升级或替换处理。4 结束语本文论述了面向异构网络设备日志的问题发现及预警的整体方案和具体的实现方法。通过历史数据分析,引入自动化和智能化方法自动生成规则集合,进一步经过专家经验判别标注得到有效的规则,进而基于这些预警规则自动化发现复杂网络中大量设备日志中的问题,并产生统一格式的预警结果数据,可为网络问题的发现日志量(个)时间2 0001 5001 0005000图3 日志量时间序列异常检测门限对比64 2023年7月 第 7 期(第36卷 总第312期)月刊电信工程技术与标准化运 营 与 维 护Problem discove
17、ry and warning method for the logs of heterogeneous networkYANG Tian-hao1,LI Da-wei1,LIANG Tong2,WU Wei-jia2(1 China Mobile Group Co.,Ltd.,Beijing 100032,China;2 China Mobile Group Design Institute Co.,Ltd.,Beijing 100080,China)Abstract This paper mainly focus on the problem discovery and warning me
18、thod of log data based on warning rules for dealing with various types of logs accessed in the NFV network scenario.The specifi c method is as follows:fi rst,based on the full amount of log text data,the log volume of subdivided network elements is counted to obtain the network element log volume st
19、atistic data.After that,combined with automatic processing and AI algorithm to initially generate a set of discovery rule and a set of historical warning data.Meanwhile improves the intelligent level of problem warning based on a time series outlier detection algorithm.Further,obtains an eff ective
20、set of rule by adding the stage of confi rming the automatically generated rules based on expert experience,so as to generate warning data based on effective rules in the production process,and realize accurate monitoring of abnormal logs,discover the problems and generate alerts.Keywords log proble
21、ms;outlier detection;expert experience;warning rules参考文献1 黄文博,王祎珺,陈佩佩,等.一种基于机器学习的日志预警发现方法J.中国科技信息,2019(9).和网络质量改善提供有力的支撑。2 湛林福,杨澎涛,范永合,等.一种基于日志分析的智能告警技术J.信息技术与信息化,2020(9).3 王栋,张云龙,唐琨.基于数据挖掘的服务器日志预警方法研究J.价值工程,2020(2).4 王小平.基于系统日志搭建高质量运维服务平台的分析J.电子产品可靠性与环境试验,2018(6).5 胡聪,刘翠玲,吴尚.基于大数据日志的预警技术分析J.电气技术,2017(6).
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100