1、广播与电视技术 2023年 第50卷 第6期72有线网络 CATV传输覆盖广电网络综合业务智能网管的开发与实现【摘 要】本文根据广电网络运维人员面对机房多、分布广、网管杂、操作乱的现状,提出了建设运维管理系统的设想。论文围绕平台架构、数据采集、数据中心平台的建设及运维智能机器人的开发等内容进行详细阐述。【关键词】数据采集,数据中心平台,运维机器人【中图分类号】TP311 【文献标识码】B 【DOI编码】10.16171/ki.rtbe.20230006013【本文献信息】肖慧娟.广电网络综合业务智能网管的开发与实现J.广播与电视技术,2023,Vol.50(6).Development and
2、 Implementation of Integrated Service Intelligent Network Management in Radio and Television NetworkXiao Huijuan(Huzhou Wasu Radio and Television Network Co.,Ltd.,Zhejiang 313000,China)Abstract According to the current situation that the radio and television network operation and maintenance personn
3、el are faced with many computer rooms,wide distribution,complex network management and disorderly operation,this paper puts forward the idea of constructing the operation and maintenance management system.The platform architecture,data acquisition,the construction of data center platform and the dev
4、elopment of operation and maintenance intelligent robot are expounded in detail.Keywords Data acquisition,Data center platform,Operation and maintenance robot肖慧娟(湖州华数广电网络有限公司,浙江 313000)0 引言湖州华数公司现有中心机房及分机房 60 多个,机房分布在市区、吴兴、南浔各区域。随着业务发展、技术进步,机房在逐年添加和更新设备后,造成设备品牌类型杂、网管多、操作乱、日志与报警堆积且缺乏关联组织等多种问题。运维人员需要熟
5、记各种账号密码,掌握多种业务网管操作配置,抄录技术数据,人工编写运维报告等,驱车 1 个多小时去机房现场也是常事,工作强度大,应急处置效率不高。基于此,亟需搭建一个运维管理系统来减轻技术人员的压力,提升工作效率。1 平台架构系统采用分布式 B/S 结构,通过 SNMP 协议与被控设备完成业务数据交互。平台部署在私有云 ECS 上,应用和交互端采用 Linux+Nginx+MySQL+JAVA+Python+PHP 的架构进行开发,与中心机房的数字电视前端系统、分机房的光放和动力环境系统深度对接。根据数据获取、数据处理存储及人机交互三大板块形成 6 个层级的设计:一是运行环境层,包括支撑系统运行
6、的基础软硬件以及各被控设备等。二是数据库层,完成数据的采集存储。三是数据层,对底层数据库层实时抽取数据,进行转换、分析、分类存储等。四是业务(应用)层,告警、资产管理、监测、日志统计和权限管理等各种功能模块。五是展示层,页面展示和数据交互。六是前端 UI 层。2 数据采集通过与机房各网管系统的对接,对各类设备运行数据库、B/S 架构数据采集、SNMP 协议网管数据进行采集汇聚,搭建了支持多协议采集的机房设备网管数据中台。广播与电视技术 2023年 第50卷 第6期73CATV 有线网络 传输覆盖2.1 SNMP+MIB Browser监测数据搜集为获取中心机房的卫星接收机、复用器、IPQAM
7、和核心交换机的监测数据,系统以 SNMP 协议为基础,引入了SNMP 管理站,导入了厂商提供的每一类机器的 MIB 库(记录了对机器监测的各项数据所代表的节点),来查找机器中需要监测的数据。由于很多数据使用的是厂家私有的 OID 值,这些 OID 的描述和解释又保存在厂家的私有 MIB 库中。因此方案使用 MIB Browser 工具对卫星接收机、复用器、IPQAM和核心交换机的 MIB 库文件进行扫描,找到 tuner、CI、ASI、Gbe、Platform、Qam、输入、输出、光功率、端口状态、接口流量和 POWER 等需监测参数与相应的 OID 值之间的对应关系,再使用 snmpwalk
8、+设备 IP 地址+OID 值命令来获取所需监测设备的实时状态信息,然后结合设备端进行验证,经过验证的数据将自动上传至中心平台。2.2 基于Kettle工具的多平台数据抽取为解决分机房光放、动环的 Sqlserver 数据库迁移到新开发的 Mysql 数据库后存在数据结构和数据库类型不同无法使用的问题,通过基于 Kettle 的前置机将 Sqlserver 上的数据按照数据标准进行提取,然后使用 Kettle 中的 Job 工作流模块,设置 START、DUMMY、Transformation、SQL 等环节,工作流保障系统的搭建能自动执行整个数据抽取流程。最后将原有 Sqlserver 的数
9、据同步到 Mysql 数据库中完成数据 抽取。3 数据中心平台的建设系统根据中心机房数字电视前端、分机房动力环境和光放平台的报警数据,结合智能运维诊断算法快速生成故障点位、故障路由和故障处理等建议信息。同时卫星接收机、核心交换机、复用器、IPQAM、UPS、温度感应器和光放设备由 Websocket 实时通讯技术模块与中心平台进行接口对接,获取展示关键数据,分析汲取有用数据,进行归类整理,形成综合展示数据链,用于展示上屏模块处理,并呈现在大屏幕上,从而让运维人员及时掌握设备的运行情况、数据流量变化等情况,以提前做出判断和预警,达到综合分析评估和科学化管理。3.1 可视化的网管系统驾驶舱网管系统
10、驾驶舱采用基于 ECharts 的图形展现技术,屏幕两边通过 scroll.js 实现轮播方式,循环播放设备运行状态和实时告警信息。驾驶舱中央使用 GIS 数据可视化技术,从GIS 数据图形平台获取到湖州市、区、县地图数据,搭建矢量地图。然后在地图上放置以电视中心机房为中心,扩散出去的各个分机房,通过贝塞尔曲线进行连接。当在线设备出现异常时,通过 Echarts 组件对不同类型的数据添加不同的显示设置,出现异常警告的机房点和中心点的传输路径将会与其他机房点和中心点的传输路径呈现出不同的状态,异常机房点状态与其他机房点状态也会显示不一致。从地图上可以直观地看到异常机房点的名称、在湖州市的地理位置
11、以及到中心点的传输路径等信息,运维人员可以通过点击这个机房查看该机房的实时数据、告警信息、机房出入记录和历史数据图表,从而实现可视化拓扑图和统一的集中告警监控。如图 1 所示。3.2 WebGL三维渲染技术在机房运维的运用基于 canvas 3d 技术运用 Three.js 框架构建初始化 3D 场景,借助 XYZ 坐标轴,利用 AxesHelper 工具对机房、设备和机架完成 WebGL 三维渲染。在虚拟场景中组建了中心机房的所有设备,以及设备之间的关联关系。系统可以将出现问题的相关设备通过 3D 画面的形式显示出来,方便值班人员第一时间找到故障设备。图1 智能运维监测系统广播与电视技术 2
12、023年 第50卷 第6期74有线网络 CATV传输覆盖4 智能运维机器人的开发智能运维机器人是采用 CNN 卷积神经网络,对采集到的数据集进行灰度模拟,构造二维数据,通过 Tensorflow 深度学习库自研开发 DKBase 广电设备故障预判知识库训练开发而成。主要有神经网络和分析决策管理两个主要模块。神经网络则由故障点链路分析和故障业务分析组成。机器人的整体流程如图 2 所示。当采集到一台设备数据时,机器人拿到了设备的告警信息,首先调用神经网络模块对信息进行故障点链路分析,如:采集到核心交换机有一个端口状态 DOWN 的告警,神经网络提取到的是核心交换机上*的业务端口断了,此时触发“*节
13、目中断”的 Idea,往下执行程序,机器人会返回如何解决*节目中断的建议。建议中会提问备路是否正常,如备路正常则返回主路故障的处理建议。当故障的节目套数不止一套的时候,则会根据“频点故障”“复用器端口故障”等等 Idea 往下执行,直到匹配成功为止,如匹配不成功则采取模糊匹配把最有可能故障的点位和路由呈现出来,同时也会调用故障业务分析。机器人每一次故障诊断都是基于 Idea 给出处理建议。前期必须编写足够多的 Idea 思路集,才能满足绝大部分故障的真实处理场景。故障诊断类似于多叉树,从采集到一个故障开始,可能会匹配上 n 个 Idea,因此机器人需要在生产环境之前,收集足够多的真实故障处理案
14、例,才能达到精准匹配。也就是说每一次的故障诊断,都是在促进机器人的 成长。对于机器人运维诊断的开发,前期需要有很多准备工作。1.采集的设备告警信息要转化为机器人所能理解的意思,比如采集到复用器 1 主的 1-1 口断了,会调用故障点线路分析和故障业务分析,将故障信息转化为机器人所能理解的意思是该复用器端口所带的哪些节目断了,涉及哪些业务,从而匹配解决这些节目中断所对应的 Idea 思路集。2.基于设备告警信息,创建 Idea。Idea 就是设备告警和机器人之间的诊断集合,设备出现相应的告警,而机器人的响应表示为相应的诊断名称。每个设备告警会对应机器人的响应,此时有三种情况。一种是固定的图文响应
15、显示,比如:告警信息是*卫视卫星接收机断电了。机器人会返回图2 机器人工作流程广播与电视技术 2023年 第50卷 第6期75CATV 有线网络 传输覆盖固定的内容:3D 画面显示卫星接收机所在的机柜和位置,建议检查电源情况。第二种是需要运维人员互动的响应。比如复用器的一个端口 down 了,需要运维人员确定是与它连接的设备问题,还是它们之间的链路问题。第三种是故障无法诊断,这就需要外部接口的响应,比如机器人通过微信联系求助技术人员解决相关问题。这样就实现了机器人的人机 互动。3.添加足够多的思路集,来满足运维诊断需求。智能运维诊断机器人需要根据设备故障告警来判断故障原因,引导值班人员处理,若
16、无法处理则自动通过微信求助技术人员解决。因此在神经网络中设置了直播电视和城域网两种类型设备、链路和业务的 Idea 思路集。利用 Tensorflow 深度学习库自研开发 DKBase 广电设备故障预判知识库,并对运维诊断机器人进行训练,如遇到新的故障,再进一步完善机器人,让机器人更加智能。5 系统总结系统按照集中监控、集中管理、集中告警、集中调度的原则进行开发,通过与各机房网络系统的对接,打通了中心机房和 60 个分机房的管理壁垒,搭建支持多协议采集的机房设备网管数据中台,实现了全市华数网络运行的统一监管。并自研开发 DKBase 广电设备故障预判知识库,通过训练运维诊断机器人,实现机器人快
17、速诊断网管数据中台中的异常信息,方便技术人员第一时间定位设备和故障的具体位置、节点,快速对问题做出响应,大幅提高运维效率。主要解决以下问题:5.1 摆脱信息孤岛化、故障定位难现状机房的设备类型众多,各系统相对独立,无法集中管理,容易形成信息孤岛。当发生异常情况时,缺乏统一集中的告警平台,无法对告警的先后主次进行分析定位;定位故障和解决问题的效率基本依靠个人的经验和主观判断。特殊情况下,还需要厂家技术支持协助,沟通过程中还需正确描述故障详细情况,影响对故障的判断与定位,故障恢复时间不可控。事后的维护经验无法共享与推广。5.2 提升可视化管理水平基于 3D 技术,对机房、机柜以及机柜内的设备采用X
18、YZ 三轴立体展示,解决了复杂网络以及众多机房设施的可视化管理问题,在机柜资源管理、机房布局以及机柜内设备定位,具有传统的图纸和人工记忆不可比拟的优势。系统可以在每个设备节点上集成关键数据,实现更多的管控与实时显示。5.3 解决智能化程度低和告警分析难题驾驶舱的图形展现技术可循环播放设备运行状态和实时告警信息。通过实施统一网管系统,加入拥有深度学习算法的智能运维机器人,可实时监测各种设备、各种信号的状态,从而生成连续运行图表,研判各系统状态,解决以前只能监测中断状态和记录离散数据的问题,可以预知劣化风险;智能运维机器人可以形成可视化的拓扑图,通过深度学习算法将突发告警的相关设备显示出来,让运维
19、人员迅速定位设备位置。5.4 解决远程协助问题分机房大部分分布在乡镇,由于各分公司技术人员的水平参差不齐,维护工作过于依赖上级技术部门,复杂的网络故障经常需要技术骨干去现场解决,造成运维工作量加大,也导致人力物力的浪费,迫切需要一个有效的可视化的故障定位手段和远程协助手段来远程排查故障。6 推广应用情况项目于 2022 年 10 月完成建设投入使用后,在全程监测数字电视信号安全、实时持续检测设备状态、提前发现安全隐患等方面发挥了突出作用。尤其在党的“二十大”重保期间,提前预判设备故障,消除了多个安播隐患,有力地保证了数字电视平台的安全播出、网络的平稳运行,运维保障能力明显得到提升。参考文献:1
20、 崔冬梅.济宁市广电网络统一网管信息系统建设D.山东大学,2017.2 宋立芳.基于广电传输网的综合运维管理系统的应用J.产业与科技论坛,2013,12(21):87-88.3 柯立新,陈家琪,吴开军.基于web的智能网管系统设计与实现J.上海海洋大学学报,2010,19(2):4.4 孙海波,徐志强,张亮,等.智能变电站网管系统通信业务的自动发现的研究J.电力系统保护与控制,2018,46(2):6.5 王海良,李卓桓,林旭鸣.智能问答与深度学习M.北京:电子工业出版社.2019(1).第一作者简介:肖慧娟(1970),女,高级工程师,主要从事广播电视技术研究。曾主持湖州市数字电视平台的建设、湖州华数电视中心机房改造、湖州华数数据中心机房建设、湖州华数 IP 城域网与 OTN 的建设等重大项目。