收藏 分销(赏)

数据中心智能运维系统的研究_郭东旭.pdf

上传人:自信****多点 文档编号:460520 上传时间:2023-10-11 格式:PDF 页数:4 大小:1.17MB
下载 相关 举报
数据中心智能运维系统的研究_郭东旭.pdf_第1页
第1页 / 共4页
数据中心智能运维系统的研究_郭东旭.pdf_第2页
第2页 / 共4页
数据中心智能运维系统的研究_郭东旭.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering255在数据中心的运维管理中,需要结合实际情况建立监控体系,其中包含着综合布线系统、安全管理系统以及能源监控系统等,在各个系统运行过程中保持系统之间的明确分工,让各系统在运行中发挥应有的作用与价值。然而,很多系统在运行过程中并不能实现系统之间的联动,无法发挥联动效果,因此,对数据中心进行智能化运维体系的建立是极为关键的工作内容,而目前国内外对数据中心的统一管理研究力度不足。本文主要结合数据中心的运维管理要求,加大智能化运维管理体系的建立

2、,确保数据中心发挥最大的价值,实现运维管理效率的提升,满足企业降本增效。1 数据中心智能化运维管理的需求(1)可用性要求。在机房运行过程中,配备的电力设施、空调设施等一旦发生了事故,能够及时提供电力,确保机房基础设施的稳定运行。(2)安全性要求。在机房运行过程中,在发生安全突发事故时,比如,火灾、水灾或者非法入侵等现象,能够及时精准的进行安全警示,并且采取应急措施降低受到的损害。(3)经济性要求。企业在管理过程中对经济性要求的关注度非常高,数据中心在运行与维护过程中需要根据环境温度等进行自动调整,实现对出风大小的自动感知与调节,并且对照明系统进行自动控制,降低能源损失。(4)无人化要求。在机房

3、运行过程中,通过机器设备能够自动获取机房内部的设备运行状况、环境管理状况,满足对机房运维过程中人员的规范化管理,结合获取的数据和信息进行发展趋势的判断分析,机房在运行中可能存在的风险,并且,给予警报,提出针对性的防治方案,减少人为失误给机房运行带来的损失,也降低工作人员的劳动强度。2 现有数据中心系统管理现状(1)系统分散,缺乏统一的管理机制。在数据中心的运行过程中,各个系统之间功能分散,不同的系统有着不同的应用范围,而且并未形成统一的管理机制,无法落实对系统的统一监管,各个系统只需要进行职责范围内的工作,而且一些系统在运行过程中只存在简单的通信和联通功能,与其他系统之间的关联性较低,也缺乏数

4、据之间的互通,无法及时查看整个数据中心的运行状况。由于存在的系统数量较多,在进行系统的查看过程中工作人员需要结合运行要求对各个系统进行及时分析,配备较多的监控系统以及工作人员,造成了物力和人力的增加。(2)缺乏自动化的运维手段。在数据中心的运行过程中,针对机房管理时,无论是环境监测还是变配电系统的监测,只能实现对数据和信息的推送以及历史数据的查看与分析,并未实现智能化的运维管理体系,也缺乏自动化的管理流程。由于在机房中涉及到的设备种类较多,而且包含着物理资源、逻辑资源以及数据资源,单靠某一工作人员进行数据中心的机房运维,将难以满足运维要求,而且需要工作人员不断实现对数据和信息的录入,缺乏自动化

5、的管控手段,将会造成较大的工作负担,也在一定程度上增加了人力资源成本。(3)对故障的分析与定位相对薄弱。在数据中心运维过程中出现故障时,对于故障的判断与排除手段不够先进,无法结合自动化技术实现对故障情况以及故障数据中心智能运维系统的研究郭东旭(中国石油化工集团有限公司 北京市 100728)摘要:本文主要结合数据中心的运维管理要求,加大智能化运维管理体系的建立,确保数据中心发挥最大的价值,实现运维管理效率的提升,满足企业降本增效。数据中心是企业发展的基础环节,也是关键组成部分,如果出现了数据中心的异常状况,将会给企业带来巨大的经济损失,因此,在数据中心的运维管理中,要融入智能化的运维体系,保障

6、运维效果的提升。关键词:数据中心;智能化运维;运维管理数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering256影响范围的判断,如果故障无法及时排除,将会造成较大的资源消耗。(4)缺乏对知识库的维护与管理。在现阶段系统维护过程中,并不具备电子知识库的管理,而且不同的系统设定了相应的负责人,在出现突发事故时需要进行资料的查找,并未建立统一的数据库管理厂家资料以及设备管理信息表,在发生设备故障时不能及时实现对故障的判断与定位。由于数据中心运维过程中工作人员更换频繁,很多工作人员并不能快速了解

7、数据中心的以往运维状况,对于历史故障的查询缓慢。因此,在数据中心的运维管理中,需要及时建立知识库,满足对历史故障的查询,做好相应的记录为后续故障,排除提供支持。(5)缺乏综合性的管理办法。在数据中心的管理过程中,综合管理类的系统相对完善,但是并不能达到与其他系统之间的联动,缺乏人员与物品的出入管理,而且在当前的管理过程中,很多管理内容都实现了电子化,但是,在实际的管理过程中仍然存在着大量的纸质化管理,而这一情况将会造成大量的资源浪费,也缺乏对相关工作人员的考核。在运维系统管理过程中,只能进行一部分系统的分析或者发出警报,而且很多系统属于老旧系统,需要通过手动控制并未达到自动化的管理要求。3 数

8、据中心智能运维系统的应用3.1 机房AI智能监测(1)AI 智能导航。在数据中心的智能运维管理体系建立中,需要结合机器人等智能体实现自动巡检系统的建立,满足在机房环境中有较高的定位能力,实施对机房的全天候自主巡视,满足无人化和自动化的设备巡检以及故障排除,降低在巡检和运维工作中投入的精力和成本,让数据中心设备在运行维护管理时有较高的质量与效率。通过 AI 智能导航的建立,能够满足运维过程中的自主移动和自主定位,强化设备的巡检效果。(2)指示灯识别。在数据中心的智能运维管理体系的建立中,需要建设高清摄像头,通过高清摄像头和设备的自主识别算法对机房巡查过程中存在的指示灯进行识别,可以及时进行电源指

9、示灯识别模型的训练,结合模型训练以及故障指示灯的显示,在识别过程中及时分析存在的报警信息,并且将报警信息传递给后台进行预警,满足对预警信息的推送及时实现故障排除。(3)温度与湿度监测。在数据中心的运维过程中,巡检过程中不同的房间对于温度与湿度的要求有着一定差异,在运维管理过程中设置的温度和湿度监测功能能够不间断的进行,数据和信息的收集,明确坐标点的温度湿度状况,并且将采集到的数据和信息进行整理之后上传给后台服务器,满足在云存储器上的记录,并且要求在客户端平台进行数据和信息的实时展示。(4)空气洁净程度的监测,在数据中心智能化运维体系建立时,需要根据机房内部的空气洁净程度进行监测,通过此功能能够

10、满足对机房运行状况的分析,将采集到的数据和信息上传给服务器,保持云端存储,需要结合实际情况在客户端平台进行数据的展示。(5)噪声监测功能,在数据中心的机房运维过程中,噪声监测功能能够在运维过程中实现对异常噪音状况的收集,并且满足预警噪声监测功能,可以对特定位置以及特定场景下的声音数据进行收集,判断声音分贝,通过在系统内设置规范值,在超过规范值时能够发出预警信息,并且对存在的异常状况进行判断,满足对噪声的识别与处理。(6)红外测温。红外测温功能应用中,需要结合相应设备,满足对机房内运行状况的拍照,及时判断设备温度,在温度超过了设定值,能够给出高温警报信息,方便工作人员对存在的问题进行查找与处理。

11、(7)显示屏识别。在数据中心的运维管理过程中,结合搭建的高清摄像头满足与自身识别算法的融合,对空调、列头柜等设备进行信息识别,精准的读取温度和湿度信息、电流信息,可以将识别到的数据和信息在显示屏上进行显示,如果超出设定值可以给出警告信息,并且满足对信息的及时推送。(8)开关柜情况识别。结合高清摄像头对柜门开关状态的识别,在数据中心的运维管理过程中,结合搭建的高清摄像头,对柜门的开关状态进行分析与识别,可以根据开关柜门的状态进行模拟训练,如果存在了状态异常,能够将异常结果及时反馈给工作人员,对存在的异常状况进行及时处理。(9)语音报警。在数据中心智能化运维管理中设置的运维管理体系,能够满足语音提

12、示功能,语音提示包含着软件以及硬件之间的联合调试、播报自检以及存数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering257在的异常状况,在系统收集到紧急事件或者异常状况时,可以通过语音提醒及时将存在的问题推送出去,满足工作人员对紧急状况的解决。3.2 机房巡检管理(1)巡检任务管理。由建立的智能化管理平台对巡检管理任务进行分析,满足对任务的新建与调整,另外,在用户管理后台可以实时实现对任务执行情况的监控,通过远程控制机器人查看巡检任务以及相关数据,满足对巡检任务的分级,在巡检任务完成之后

13、,由系统自动生成巡检报告。(2)随工管理。在数据中心机房的巡检过程中,首先需要对不同的运维人员进行鉴权。然后在运维过程中满足对工作人员工作流程的全程跟随,实现视频的实时录制,通过将视频上传给后台,及时查看数据中心的运维状况。(3)资产管理。在智能化运维平台建立过程中,可以根据二维码技术以及标签技术等进行设备物理位置的定位,结合视觉检验机制以及标签技术获取设备信息,并且将这些信息传递到后台管理系统中,后台管理系统可以结合信息满足资产管理平台的建立,实现对资产状态的分析与评估,满足资产的实时监测。(4)人员管理。在自动化巡检中可以结合建立的机器人巡检系统,导入工作人员的信息,满足人员信息的录入,并

14、且对接待系统采用人脸识别技术进行数据的录入。后台接口可以将获取的人员授权信息发送给智能巡检机器人,并且,满足人脸识别权限数据库的建立,对进入机房的工作人员进行权限设定,满足自动人脸识别功能的应用,减少无关人员进入到机房巡检中。(5)门控管理。在智能巡检过程中建立与门禁系统之间的联动,通过智能巡检机器人满足配套系统的建立,对进入的巡检区域进行管理,结合与门禁系统之间的联动能够确保工作人员顺利进入到规定的巡检区域内。(6)后台管理。后台管理包含的内容较多,在视频采集过程中系统能够实现数据和信息的采集,并且将采集到的视频信息利用云存储进行保管。在巡检工作完成之后,可以由自动巡检机器人实现,对巡检报告

15、的生成,结合巡检要求制定相应的报告模板,满足对模板的定制。智能巡检机器人在运行过程中需要保持多台机器人之间的相互协调,利用后台管理可以实现对多个巡检机器人的精准调度,满足智能巡检机器人路线的规划与调整,保障各项工作的顺利开展。在报表管理过程中,需要满足报表的订阅管理与查询,并且需要支持对报表的自定义,满足紧急事件的上传。在报警事件的管理过程中,需要对报警信息进行统一的设定与管理,其中包含事故类型、发生时间、发生等级以及具体的事件内容,结合数据和信息管理状况,形成事件日志。巡检视频管理中需要满足视频的播放、停止与录屏等功能,在数据的存储过程中,需要根据智能巡检机器人的运行要求,在数据存储中满足应

16、用程序巡检数据以及巡检视频的管理系统,需要结合数据应用情况进行数据的加密,满足数据的自动备份,而且,需要具备双机容错功能,确保数据和信息具备较强的精准性。(7)系统接口。在系统接口设置时,工作人员需要结合设定的巡检机器人满足对运行状态的查看,及时进行巡检任务下发,在巡检完成之后,满足对巡检报告的填写,自动生成转工单,对存在的异常状况进行判定。3.3 一体化智能运维管理平台建立的一体化管理平台能够在数据中心的运维管理工作中,及时实现机房信息的收集,包含监控系统、运维服务管理系统以及自动化系统,整合信息的科学处理,并且一体化管理平台融合了大数据技术、云存储技术等,满足了对数据发展状况的分析与预判,

17、能够向各个系统发出相应的报警信息,满足对故障的及时排除。在数据中心运行与维护是针对根因分析以及异常检测,需要采用带有插拔扩展模块的硬件架构,结合数据中心的建设规模,采用有效的模块组合,形成数据采集装置产品,具备较高的灵活性,能够满足数据采集装置,接口的扩展和功能多样性,降低数据采集装置开发涉及到的成本投入和时间投入。通过模块化的数据采集装置能够形成相互组网,促进传感网络容量的扩大,而且模块化的数据采集装置具备较高的集成性,接口模块的灵活性较强,能够满足多种协议要求,形成互联网协议,采用多样化的通讯方式,能够为客户指令进行通信协议的开发。根据数据中心基础设施的运行状况以及涉及到的数据特征,在数据

18、中心基础设施进行相关问题的诊断时,数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering258形成专家诊断规则库,以此为基础,进行智能模型的搭建,通过智能模型以及专家规则库的二者融合,能够有效解决在专家诊断过程中存在的问题,结合专家相关经验确保问题诊断的高效性,同时,也满足诊断规则具备较高的适用性。3.4 空间管理在数据中心的设备运维时,结合三维场景运行要求提供关键字搜索,能够快速定位设备的空间位置,结合搜索设备满足对数据中心平台内资产状况的查看,准确显示设备所处的位置以及信息,能够实现设

19、备定位到相应的层级,可以根据用户需求,在搜索框内输入搜索名称以及检索位置等,满足可视化查找,而且还能够形成检索条件的自定义添加。在空间管理过程中,结合物理场景以及虚拟场景进行一一对应,不同的空间资源采用不同的标签化管理方式,实现设备的自动化更新与维护。另外,在进行设备的管理时,可以利用二维码进行管控,在出现了设备资产信息变化,不需要在电脑上进行操作,在机房进行上下架设备,直接进行扫码,便能够满足对设备信息的更新。包含登记时间、设备编号、设备名称、维修日期等各类信息。另外,空间资源可以实现查询,在查询过程中将所有的信息进行显示,点击信息列表,可以将这些信息定位到具体的模型中。根据数据中心容量进行

20、管理,结合容量计算以及资产的智能推荐管理等进行分析,将其放置在指定位置,包含空间、电力、制冷能力等多方面内容,共同组成了数据中心设备的最大上架率。3.5 数据处理与分析关键技术研究(1)数据的预处理与降维。通过数据中心进行数据预处理与数据降维能够确保数据质量的提升,减少数据计算花费的成本。在数据中心包含着庞大的数据量,基础设施运行数据使用成分分析法进行数据降维,针对安全运行以及节能运行的影响因素进行判断,采用数据挖掘相关系数,结合多元回归数据的进行相关分析,找到影响安全与节能的关键因素,实施数据降为降低数据的计算成本。针对数据计算过程中存在的数据值恒定、异常以及缺失情况等进行判断,利用异常数据

21、诊断模型对存在的异常问题进行处理。在数据的处理过程中,结合回归分析以及支持向量及聚类分析等满足机器学习方法的运用,满足对原始数据的清洗与预处理,确保数据具备较高的完整性。(2)结合专家诊断规则与机器学习算法进行融合。在数据中心的运维过程中,将专家诊断规则与计算机学习算法进行融合,能够确保诊断的智能性和适用性,将影响数据中心运行的因素进行判断,将其作为研究对象,从节能、健康等多个角度满足对数据的分析,形成智能诊断以及智能调控。4 结束语总而言之,数据中心涉及到的信息量非常大,通过智能巡检体系的应用,能够在运维工作中掌握更多的数据和信息,对机房内部环境基础设施运行状态进行分析,确保数据中心运维管理

22、工作效果的提升。在数据中心运维工作中,结合智能化巡检体系构建应用场景,融合数据管理流程以及智能巡检机器人等多个系统,通过对巡检对象的分析以及状态评估,能够检测出由人工巡检难以发现的故障问题,保障了巡检范围的扩大,实现了无死角的智能巡检,为数据中心的运行提供了保障。参考文献1 李冰.数据中心 AR 智能运维管理系统的设计与实现 J.信息系统工程,2019(10):125-126.2 王军燕.电子信息系统机房环境建设的绿色节能技术 J.广播电视信息,2019(06):94-97.3 曹建军.基于大数据的云计算中心智能运维系统的研究 J.计算机产品与流通,2019(07):150.4 陈洪雁,齐宏为,尹航.云数据中心在航天试验任务领域智能运维一体化解决方案 J.微电子学与计算机,2019,36(05):33-37.5 毛开梅.大数据智能运维系统设计及应用 J.电子测试,2018(14):62-63.作者简介郭东旭(1984-),男,辽宁省新民县人。大学本科学历,高级工程师。研究方向为信息化。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服