1、2023年9月计算机应用文摘第39 卷第17 期基于多协议运维系统的故障管理优化研究张圣壮,丁鑫,蔡先睿,王贞贞,徐育毅,刘东海,陈树兰,张有辉,黎久(1.充矿能源集团股份有限公司,山东济宁2 7 2 0 0 0;2.北京广通优云科技股份有限公司,北京10 0 0 0 0)摘要:目前,由于传统运维系统存在监测手段单一、运维数据孤立、运维人员劳动强度过大等问题,随之产生的故障现象也更为明显。为了让企业实现信息的互联互通,以及为企业提供重要的信息化基础,文章以某大型煤矿公司为例,提出了一种多协议运营管理系统,针对系统运行期间出现的数据传输难点,给出相应的改善措施,以期为煤炭行业的相关工作人员提供参
2、考。关键词:多协议;运维系统;故障管理优化中图法分类号:TN915Research on fault management optimization of multi-protocol operationAbstract:At present,because the traditional operation and maintenance system has the problems ofsingle monitoring means,isolated operation and maintenance data,operation and maintenancepersonnel lab
3、or intensity is too high,the resulting fault phenomenon is more obvious.In order toenable enterprises to realize the interconnection of information and provide important informationbasis for enterprises,this paper takes a large coal mine company as an example,proposes a multi-protocol operation mana
4、gement system.In view of the difficulties in data transmission during theoperation of the system,the corresponding improvement measures are given,in order to provideimportant reference for the relevant staff in the coal industry.Key words:multi-protocol,operation and maintenance system,fault managem
5、ent optimization文献标识码:Aand maintenance systemZHANG Shengzhuang,DING Xin,CAI Xianrui,WANG Zhenzhen,XU Yuyi,LIU Donghai,CHEN Shulan,ZHANG Youhui,LI Jiu(1.Yankuang Energy Group Co.,Ltd.,Jining,Shandong 272000,China;2.Beijing Guangtong UYUN Technology Co.,Ltd.,Beijing 100000,China)1引言目前,我国信息化建设的重点是工业领域,
6、特别是在现代运营管理系统方面。随着煤矿信息化的不断深人,煤矿联网的部门和设备也逐渐增多。运维系统可以在不改变网络拓扑结构的前提下,无需在终端上安装任何客户端软件,也不需要改变管理员和运维人员的操作习惯,只允许用户在portal页面上登录,加强对互联网数据的协议代理,取代用户与运维设备的连接,就能够实现对服务器的实时访问和审核以及运营数据的可视化。然而,目前的运维数据监控普遍存在方法单一的问题,并且在监控的过程中还存在较多的不对称信息,若单个的数据不能提供精确的数据,则容易导致系统出现故障,因此对多协议运维系统进行故障管理的优化具有十分重要的意义。2网络运维管理需求分析网络运维管理系统是企业网络
7、运行的重要组成部分,该系统的核心任务即对企业的网络运行状态进行实时监测,监测的主要目的是保证企业网络安全、稳定、有序运行。运维管理系统依托网络不间断、不可逆、高风险、高度集中的技术特性,收集网络运行过程中的数据信息,判定网络运行过程中是否存在异常现象。特别是随着互联网技术的飞速发展,它已经成为公司网络运行的重要组成部分,是顺应市场发展的需要,也是信息化时代企业网络化运营管理的必然趋势 1企业网络运行管理系统必须具有下列核心功能。一是性能管理,它是企业网络运营管理的核心职能,主要工作是对内联网络中的所有指标和相关设备进2023年第17 期行状态监测、性能监测、故障预警等管理,并对网络的运行性能进
8、行实时监测。二是故障管理,各种因素的影响导致企业的网络系统出现故障。通过对故障发生的原因进行查找,使网络能够及时、高效地恢复到正常的工作状态。三是网络资源的管理,网络资源的特性是多种多样的,它包含网络地址空间、网络宽带和网络设备等多种软件与硬件资源。由于网络所需的资源和代价各不相同,在实际应用中,为了减少网络的开销,必须对各网络的参数进行适当的调整。网络运行管理系统中的资源管理将根据不同的业务需要,设定合理的网络带宽、防火墙等资源参数,以保证系统的正常工作,并能按需分配资源。四是更改管理,主要是针对网络配置的更新来更改有关参数的管理。五是组态管理,主要是指网络装置与网络的资源组态及相关逻辑组态
9、,包含网络组态资料及其他需要人工输入的网络资料,并能即时取得,主要负责对网络的操作参数和有关的设定进行管理。六是日志管理,将系统的各种运行状况和用户的操作信息进行保存和管理,以便对各种操作进行跟踪和追溯。3面向流程的网络运维管理系统优化设计根据企业网络运营管理的需求,结合流程管理技术,设计一个基于过程的网络运营管理系统,并实现其在实际中的应用 2 3.1过程管理模块流程化管理技术是基于整个企业的运作过程,从整体上将各个部门的运作看作一个整体,以客户为中心,对各个部门进行全面管理,从而使各部门的运作更加高效。从根本上说,网络运维管理系统的首要任务就是根据企业的办公特性,将企业内部的运营管理工作逐
10、一细化,优化企业日常的业务流程,提升企业在业界的竞争能力,使之成为企业目标的管理软件系统,以便后续的流程化网络运营管理系统的优化与设计。因此,在对网络运营管理系统进行分析与设计时,将过程化管理技术与之相结合,构建一个基于过程的网络运营管理体系,以更好地维持网络的有效运作,从而使企业内部的网络基础架构具备较强的竞争优势。当前,流程管理的重要性已得到了业界的普遍认可,并在企业的各个业务中得到了广泛的应用 33.2事件筛选模块智能运维监测平台能够在采集器、报警服务器、用户接口等层面上实现告警过滤。(1)告警信息筛选。针对数据获取层次的告警信息筛选,可以依据告警对象、告警级别、告警内容或3种情况的结合
11、,设置对应的条件,对符合条件的告警进行屏蔽,筛选出由计算机应用文摘下层抽取的告警信息中的不相关信息,完成数据层与传输层告警的技术对接,并对重要信息赋予不同的权重,建立符合实际情况的标签数据集,再对数据进行可行性分析,以提高监测效率和信息处理的速率。其主要包括周界入侵报警信息、进出口门禁信息、工业电视视频监控信息、报警信息、外部访问模块提供的信息。以下过滤过程由规则设置提供。利用相关处理,对LAN访问装置的U-Down事件进行筛选;利用PDO界面进行数据采集和功能查询;设置报警内容,在默认策略中直接过滤不需要注意的事件;该方法通过设置报警目标来筛选出一些不需要被监视的事件。(2)Server P
12、rotocol 层筛选在处理层次,智能运维监测平台通过图形化的形式,提供一种具有较强性能的状态判定程序,用于过滤接收到的报警事件,并将用户不感兴趣的报警信息剔除。数据管理员可以使用可视化管理界面来管理和维护各种数据,包括新增项目、数据录人、数据清理、数据备份等。(3)使用定制的设置筛选。智能运行监测平台具有自定义报警设定功能,可以设定报警阈值、报警状态、自动屏蔽报警等,对用户不感兴趣的报警进行筛选。该系统可以根据设备获取的数据来设定在设备协议中所包含的数据集,预测设备未来运行状态的健康趋势,同时对历史数据进行日常存储与存取,并展现在人机交互界面上,对目标区域开展灵活管控,将数据通过有线/无线网
13、络传输至地面数据中心,实现对设备异常信息的智能、实时监控。3.3警报模式本系统支持微信、邮件、短信等各种报警方式,一旦出现问题,及时向管理员报告。通过远程登录,实现对系统的远程更新及远程维护。在运行过程中,它能够定期向使用者发出一种工作信号,使用者若久未收到信号,便会产生错误,以便使用者侦测该装置的状况。智能运维监测平台的警报装置是通过主机和业务的检测逻辑来实现的。当主机和服务出现故障和恢复时,系统会向负责此主机或业务的联络群组发出通知。联络群组可能包含一个或多个彼此不相关的联络人。联系人会收到用户的通知,比如电子邮件、短信等。主机接收到该请求信息后,将该反馈信息传送至该客户机,客户机在收到反
14、馈信息后,再次将该信息发送至该主机,并切断与该主机的通信。技术人员可以根据故障事件、故障地点和设备等关键词,对9192系统产生的故障事件进行确认、删除或检索。3.4#报警记录监视模块维修人员可以在后台查看故障汇总,也可以查看个别设备或服务的故障信息,并且可以按照授权进行还原或相关操作。本系统为平台管理单位、管理人员、运维人员等提供添加、删除、修改等技术权限,并可由指定的管理单位、管理人员、运维人员等对其管理、维护的目标进行查询。同时,还能够通过主机对报警情况和故障现象进行数据汇总,所有的报警信息都会被自动存人历史告警库,预设的存档期限是一年,也可以自行设定。通过对故障用户名称、用户户号、地址的
15、查询,实现对故障情况的实时监测。同时,通过无线短消息的发布,可以使值班人员、管理者在任何时候都能了解设备的运行状况,并做出相应的维修反应。3.5誉警报事件处理的注释和检视操作人员可以为主机和服务器增加注解,以便在解决问题时记录各个主机的运行状况和故障原因,特别是在轮班管理模式下,必须增加注解。使用者可以将注解加人主机或服务检查指令中,并通过更改运行时的基础配置参数来修改现有服务的行为,以便工作人员实时查看系统状况。如发生突发事件,通过对日志信息的查询,能够全面监测网络的运行状况,让网络管理者顺利判断系统出现的故障现象与具体的故障点位,从而及时地发现施工现场的安全事故及网络瘫痪事件,并对此做出及
16、时响应 44基于多协议运维系统的故障管理应用效果4.1多协议支持,运行效率得到有效提升全面支持Telnet,SSH 等主流运行协议,能够对每一个字符进行详尽的审核和筛选。同时,还能在多个平台上进行多个图形终端的升级,能适应各种不同的文档处理要求,提高工作效率,如RDP,x w i n d o w,VNC等图形终端的运行。具有文件上传、下载、查看文件细节等功能,有效地解决了文件的负载平衡问题,并确保了文件的安全性、保密性和隐私。提供了多种操作系统、数据库、网络设备、网络应用系统和中间件,并在此基础上完成了对 CS/BS 基础架构的设置,在保证用户体验的基础上,为其提供了一个新的登录程序,可兼容不
17、同尺寸、不同类别的浏览器,为用户提供大部分应用程序的密码。4.2精确的存取控制,有效降低运营风险根据时间、IP、命令黑白名单、用户组、服务器组、角色,对运维人员进行精确地实时访问。通过远程登录,实现对系统的远程更新和维护。该系统还支持双重审核授权,当外部维护人员在设备上登录并键入重要指令时,必须经过高级操作人员的审核,该功能尤计算机应用文摘其适合于有业务外包的大公司。通过对用户进行角色访问,可以降低权限管理的复杂性以及管理费用,增强系统的安全性。4.3精确的操作恢复,便于事后取证运维管理系统通过动作恢复技术,可以实时监控用户的一举一动,以判断用户的行为是否会危及内部网络的安全。动作恢复功能可以
18、减少恶意操作的发生。一次登录,网络连接,高效提升工作效率;采用多种验证方法,有效地提升了系统的运行安全;细粒度存取控制函数实现了最大限度地授权;现场审核/视频重播,有效地控制了作业风险的双重审核,对代维工进行有效的监督;满足IT内部控制审核的需要,保证遵守相关法律法规。它具有很好的容错性和自适应能力,能够保证系统在最短的时间内稳定工作,并且能够在最短的时间内进行维修或恢复。该系统通过Token认证、md5密码和授权管理等技术确保系统的安全性、一致性、数据完整性和数据的正确性 5。在系统发生故障或意外时,能够确保数据的准确性、完整性和一致性,并具备快速的恢复能力以及完整的系统管理策略,从而确保系
19、统的安全。5结束语以多协议技术为基础的网络运维管理系统具有功能多样、可扩展性强和多层次的突出特征,有利于提高网络运维服务的质量。同时,其提供云时代业务应用和基础架构的自动化能力,内置丰富的运维操作功能,灵活编排各种运维场景,标准化各种操作流程,可根据企业现状按需扩展,最大限度地节约人力成本、降低管理风险、提升运维效率和服务满意度,为企业的信息化建设打下了良好的技术基础,但其仍有缺陷,有待于后期的强化与改进。参考文献:1刘兆炜.基于故障预测与健康管理的智能化运维系统的设计与实现 D.沈阳:中国科学院大学(中国科学院沈阳计算技术研究所),2 0 19.2李凯,完颜绍澎,顾舒娴,等.基于IMS运维管理平台的智能化故障处理研究 J.山东电力技术,2 0 2 0,47(7):13-17.3罗俊.关于煤矿皮带机电控系统故障分析及优化改造研究J.工业设计,2 0 15(9):16 8+17 4.4 陈晓鸣.基于智能运维系统的地铁车辆故障维修模式和车队管理模式优化 J.城市轨道交通研究,2 0 2 1,2 4(S1):146-148.5赵立波.电子运维系统中故障管理模块的设计与实现D.长春:吉林大学,2 0 14.作者简介:张圣壮(1995一),助理工程师,研究方向:应用软件系统开发及运维。2023年第17 期
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100