1、调度集中系统是以铁路行车指挥为核心的自动控制系统,内部设备的日常运维作业具有业务量大和参与人员多的特点,为减轻劳动强度、提高运维效率,设计了调度集中系统智能运维方案,并按照侧重点的不同划分为自动化方案和智能化方案。调度集中系统智能运维方案运用运维模块和智能分析算法,能够拓展调度集中系统运维活动系统监控环节的状态信息监测范围,增强调度集中系统运维活动事件管理和问题管理环节的主动性问题管理过程。调度集中系统智能运维方案能够提升运维效率,并为后续的实际应用提供有益的设计思路和参考方案。关键词:调度集中;智能运维;控制台指令;深度学习算法;时间序列分析算法文章编号:()中图分类号:文献标识码:,(,;
2、,;,)铁道技术标准 :,:,:,(),:;:():引言调度集中系统(,)是保证列车正点运行,提高旅客服务质量的铁路行车指挥核心设备。系统由位于调度中心的终端设备、通信服务器和位于车站的各类专用机和网络接口设备构成。系统的日常维护包括按规定周期进行日常巡视、检查、测试和故障处理,实行日常维护和故障处理相结合的维护作业制度。系统运维活动具有业务量大和参与人员多的特点,为减轻劳动强度和提高运维效率,文献 提出了管理对象多元化的监控一体化平台,设计并实现了运行监控、资产管理、告警管理、决策服务功能;文献 开发了基于框架的综合监测维护系统,该系统能够监测和管理系统设备,帮助运维人员及时发现和解决异常问
3、题,系统编码采用前后端架构,具备定时采集设备指标、监控设备状态和异常告警功能;文献以保障系统高效稳定运行为基础,讨论了面向系统的智能运维总体框架、实现方法及发展趋势。总体而言,系统运维活动的工作强度和运维效率能够通过改进设备监测手段和管理手段的方式得到显著优化。本文在已有成果的基础上,以提高系统运维活动效率为目标,分析并研究系统的智能运维模式的运用方案,以期为系统运维的降本增效提供设计依据和参考思路。系统智能运维方案分析由于系统内部设备的种类和数量十分庞大,需要依靠高效的综合维护系统来集中监控设备运行状态并快速定位故障,确保系统整体的稳定性和可靠性。综合维护系统与相应层级的核心网直接连接,能够
4、获取设备运行数据,具备本局管内的设备运行监视、网络通道监视、系统故障分析、系统故障处理、制定和实施维修计划、运行日志集中存储以及软件数据版本管理功能。调度室及相关分管岗位、车站电务值班员能够通过维护终端上报故障处理情况、设备巡检情况和施工停用情况。综合维护系统在调度中曾壹:调度集中系统智能运维方案研究心车站级别的综合维护网络结构见图。综合维护系统与系统共用网络通道,在调度中心设置数据库服务器、综合维护数据库和电务段维护终端,在车站设置车站电务维护终端。图 综合维护系统网络结构从计算机系统运维角度而言,现有综合维护系统具备系统监控、事件管理和变更管理功能,具体分述如下:()系统监控功能综合维护系
5、统的拓补图能够展示被监控设备运行状态和各级广域网、局域网的连接状态。系统能够实时监控系统网络设备的逻辑通信状态以及重要设备的主备状态,在通信中断或主备状态发生变化时产生报警信息。()事件管理功能综合维护系统记录所有运维人员的操作步骤和操作时间。当系统网络设备出现报警时,综合维护系统会弹出窗口文字提示和播放语音,并在拓补图中将该设备图标做明显标记,报警消除后标记消失。综合维护系统能够按照影响范围将网络设备和数据链路的报警记录分为不同类别,并生成给定时间段、设备范围的报警分析表。综合维护系统能够设置天窗检修时间段,天窗检修时间段内的报警信息不予监控。()变更管理功能综合维护系统可以显示网络设备面板
6、的拓补图,在拓补图上能够增加、修改和删除被监控设备及设备管理信息,使得维护终端操作员可以更加方便地配置和管理网络设备。综合维护系统有维护员和管理员两种权限,维护员能使用设备监控功能和报警管理功能,不能使用配置管理功能,管理员能使用全部功能。智能运维是计算机系统运维的一种模式,特点是在系统监控、分析和诊断过程中采用自动化以及智能化手段,起到提高计算机系统稳定性、可靠性和效率的作用。系统引入智能运维模式,就是在综合维护系统需求规格的基础上,运用自动化和智能化手段来增强系统运维活动中的系统监控、事件管理、问题管理、变更管理、应急管理等环节,达到提高运维效率和减少人工干预的效果。系统的智能运维方案按照
7、系统运维活动的侧重点不同,分为系统运维自动化方案和系统运维智能化方案两个部分。系统运维自动化方案在系统运维活动中,系统监控环节需要自动收集与网络设备相关的报警数据、操作数据和性能数据,帮助管理员实时了解系统关键指标,及时发现系统内存在的异常情况。系统运维自动化方案在综合维护系统自动监测设备报警信息、逻辑通信状态和主备状态的基础上,增加进程状态、端口状态等网络设备信息的自动监测功能。为强化应急管理环节的故障恢复措施,降低运维人员的主观因素导致故障修复过程出现不确定因素,系统运维自动化方案应增加网络设备故障监测的自动辅助功能。系统运维自动化方案设计见图。系统运维自动化方案在现有综合运维平台和运维子
8、系统的设计方案和软件实现基础上,新增加网络设备端的运维模块。运维模块集成在子系统进程内,受到进程内部定时器的控制,能够调用解释器进程、读取指令文件、向通信服务模块写入数据,完成执行指令和状态上传的操作。运维模块在执行指令时,先从指令文件中获取单个指令模板并加载为控制台指令,通过进程通信函数发起解释器进程,来执行控制台指令并读取执行结果。控制台指令是由操作系统提供的计算机控制方法,能够高效完成计算机网络管理操作。系统网络管理工作中常用的控制台指令以指令模板铁道技术标准图 系统运维自动化方案设计的形式存储在文件中,见表。运维模块获取指令模板后根据具体的应用案例来加载进程名称、地址、超时时间、服务名
9、称和端口号等具体参数,形成最终执行的控制台命令。表中相同应用案例在不同操作系统内的指令内容存在差异。表 系统网络管理工作中常用控制台指令模板应用案例控制台指令控制台指令检查进程是否存在 进程名称 进程名称检查网络传输路径和响应时间 最大跳数地址 最大跳数地址查看所有网卡状态 测试网络连接状态 请求次数超时时间,单位为毫秒地址 请求次数地址获取当前系统时间检查服务启动状态 服务名称 服务名称检查本地端口状态 端口号 相比于调用应用程序编程接口的传统方法,运维模块通过控制台指令来完成网络管理,能够避开传统方法复杂的异常处理开发过程,只需管理进程通信函数的输入输出即可实现预期的网络管理功能。由于控制
10、台指令存储在模块外部的指令文件中,在不同的操作系统下,运维模块不用更新代码,只需更换指令文件就能满足应用程序跨系统运行以及运维工作的需要。指令文件经过加密处理,无法由文本编辑器直接打开,只有运维模块能够读取指令文件中存储的指令模板内容。子系统进程通过定时器来控制运维模块执行状态上传操作。在定时器的控制下,运维模块从指令文件中加载控制台指令并按照固定的时间间隔执行,获取进程状态、端口状态等网络设备的指标参数。运维模块从解释器进程获取执行结果,如果参数获取成功,运维模块就将具体的指标参数按照系统专用通信协议的格式要求传送到通信服务模块,如果参数获取失败,运维模块就将无效标记按照系统专用通信协议的格
11、式要求传送到通信服务模块。通信服务模块收到指标参数或无效标记的状态数据后,都通过数据链路上传到综合维护系统的服务端,服务端再将获取的网络设备状态数据发送到客户端,客户端使用拓扑图形、报表、曲线的图形化形式来展示系统网络设备的实时状态。系统运维自动化方案增加的运维模块能够在现有综合运维平台设计方案的前提下,运用控制台指令来拓展状态信息的监测范围,使系统能够具备不同操作系统环境下的系统时间偏差、进程或服务未按预期启动、端口被占用、端口无法连接、网络连接异常、数据包丢失、数据包损坏等网络设备故障的监测能力,在系统运维活动的系统监控环节起到良好的辅助作用。系统运维智能化方案在系统运维活动中,事件管理环
12、节需要统计系统内部网络设备故障。在确认设备故障现象后,调度中心或车站人员能够在综合维护系统中查看网络设备故障的报警信息和操作信息,并在维护终端的事件记录表中查看报警信息和操作信息的详细记录,包括等级、时间、来源、设备、内容、原因分析和确认人信息。维修终端的事件记录表在后台数据库内长期存储,是设备故障处理和恢复过程的原始记录,用于跟踪网络设备故障的维修过程。常见的系统网络设备故障在事件记录表中按照原因和影响范围进行分级和分类。系统运维活动的问题管理环节在事件管理的基础上分析系统网络设备故障,以找出网络设备状态数据和设备故障之间的关系。曾壹:调度集中系统智能运维方案研究系统网络设备故障的常用分析方
13、法是将设备故障现象、故障判断依据和修复作业流程总结为故障案例库,在系统出现故障现象后,运维人员能够依据故障案例库存储的分析结果,来判断故障类型并确定修复方法。为及时分析和判断系统潜在风险,系统运维智能化方案在充分收集设备状态数据和故障信息的前提下,增加智能分析算法来提高系统故障判定能力,同时增强系统异常检测和资源优化方面的运维效率。系统运维智能化方案设计见图。图 系统运维智能化方案设计在系统运维智能化方案中,智能分析算法通过运用深度学习算法或时间序列分析算法来监测故障现象关联的监测指标,在系统运维活动中起到与故障案例库相同的故障判定作用,能够提高现有设备故障分析的效率并加强主动性问题管理过程。
14、智能分析算法通过特征数据集和标签数据集来调整模型参数,再通过实例数据集和验证数据集来评估算法是否能够泛化并运用于系统实时故障判定。由于综合维护系统每秒都会收到来自多个网络设备的状态数据,实时故障判定需要能够处理大量不同类型数据。深度学习算法是一种基于神经网络的机器学习算法,具备高精度、自适应性和可拓展性的特点,适用于处理大规模、高维度的复杂数据。在主流深度学习算法中,卷积神经网络的注意力机制能够很好提取时序数据中的特征值,长短时记忆网络的门控单元能够捕捉序列数据中的重要信息,深度置信网络的无监督学习机制能够从数据中提取复杂数据特征。上述类型的深度学习算法可被设计并用于设备故障的时序特征提取,在
15、系统运维智能化方案中起到故障判定的作用。深度学习算法适合处理复杂的数据模式,利于发现设备故障的内在规律。然而,深度学习算法也存在一定的问题,比如优化过程复杂和调参耗时长。相比之下,时间序列分析算法的优化过程简单,适合处理单个监测指标下的时间序列数据。常用的时间序列分析算法包括移动平均法、指数平滑法、自回归移动平均模型和广义自回归条件异方差模型。移动平均法和指数平滑法通过对一定时间内的数据进行平均或加权平均来反应数据的长期趋势。自回归移动平均模型和广义自回归条件异方差模型通过计算时间序列的自相关函数、偏自相关函数和波动性,建立数据的趋势和波动性模型。时间序列分析算法能够用于确定单个监测指标的正常
16、范围,当状态数据偏离该范围后,即可做出的故障判定。智能分析算法的准确性和泛化能力不仅与具体运用的算法相关,还取决于数据集质量。为避免智能分析算法出现非平稳态、过拟合、梯度消失等性能问题,系统运维智能化方案中使用的数据集需要满足以下可靠性要求:()特征数据集和标签数据集的数据应具有代表性,数据集所对应的监测指标和故障记录应能准确匹配系统中的典型设备故障。()特征数据集和标签数据集的数据应包含足量的设备故障历史数据,使数据具备连续性。连续数据便于解析和统计,使智能分析算法能够更好地发现设备故障的内在规律和趋势并提升算法准确性。()所有数据集必须包含时间信息,使不同数据集的数据具备相关性,以便智能分
17、析算法对数据进行数据排序和数据切分操作。()为提高算法的准确性,标签数据集和验证数据集可以进一步对故障内容进行细化分类并定义新的标签参数。()为提高算法的泛化能力,特征数据集和实例数据集可以执行数据清洗和归一化等数据预处铁道技术标准理操作。系统运维智能化方案增加的智能分析算法能够在实时监测故障现象关联的监测指标的基础上,通过调用深度学习算法或时间序列分析算法,主动发现单个或多个监测指标与故障记录之间的内在规律和变化趋势,在系统运维活动中完成与故障案例库相同的故障判定功能,起到加强主动性问题管理过程的作用。结语智能运维是在信息化系统监控、分析和诊断过程中采用自动化以及智能化手段,起到降低运维成本
18、、提高运维效率和业务可用性的运维模式。通过分析综合维护系统功能和系统运维活动的特点,智能运维模式可以增强系统监控、事件管理和问题管理环节的运维效率。应用于系统的智能运维方案分为自动化方案和智能化方案两个部分。自动化方案使用运维模块来拓展系统监控环节的状态信息监测范围,增强网络设备故障监测能力。智能化方案运用智能分析算法来主动发现设备故障的内在规律,能够加强问题管理环节的主动性问题管理过程,提高系统运维活动的故障判定效率。系统智能运维方案在现有综合维护系统的基础上,运用智能运维模式提升系统性能,为后续的实际应用提供了有益的技术方案。参考文献:刘朝英中国铁路分散自律调度集中北京:中国铁道出版社,:曹龄兮,陈建译调度集中系统监控一体化平台的设计与应用 铁道通信信号,():王国兰基于框架的 综合监测维护系统成都:西南交通大学,:晏子峰铁路调度集中系统智能运维构建探讨 铁道通信信号,():靳俊高速铁路列车运行控制技术调度集中系统北京:中国铁道出版社,中国国家铁路集团有限公司 铁路信息系统运行维护管理办法 北京:中国国家铁路集团有限公司,:许伟铁路列车调度指挥系统综合运维平台的设计与实现北京:中国科学院大学(工程管理与信息技术学院),:王子维调度集中系统运维子系统的设计和实现北京:北京工业大学,:责任编辑:张航