1、2023年1 1 月计算机应用文摘第39 卷第2 1 期基于AIOps智能运维的云原生多云管理的研究与改进王晓曦(新华三技术有限公司,北京1 0 0 1 0 2)摘要:文章对基于AIOps智能运维的云原生多云管理技术展开了研究,旨在帮助企业提高多云环境中应用程序的管理质量和效率。其中,首先分析了多云环境下应用程序管理面临的挑战,并介绍了AIOps智能运维技术的概念和原理;其次,设计并实现了一个基于AIOps的云原生多云管理系统,其中包括需求分析、系统架构设计、功能模块实现和测试等环节;最后,通过实验和结果分析验证了该系统在多云环境中对应用程序管理的有效性和可行性。研究表明,基于AIOps智能运
2、维的云原生多云管理技术可有效解决多云环境下应用程序的管理问题,能提高管理效率和质量,具有一定的实用价值。关键词:AIOps智能运维;云原生多云管理;多云环境WANG Xiaoxi中图法分类号:TP311Research and improvement of cloud native multi-cloud managementbased on AIOps intelligent operation and maintenance(New H3C Technologies Co.,Ltd.,Beijing 100102,China)Abstract:This article research o
3、n cloud native multi-cloud management technology based on AIOpsintelligent operation and maintenance,aiming to help enterprises improve the management qualityand efficiency of applications in multi cloud environments.First,the challenges faced by applicationmanagement in multi-cloud environment were
4、 analyzed,and the concept and principles of AIOpsintelligent operation and maintenance technology were introduced,Secondly,a cloud native multi-cloud management system based on AIOps was designed and implemented,including requirementsanalysis,system architecture design,functional module implementati
5、on,and testing.Finally,theeffectiveness and feasibility of the system for application management in multi-cloud environmentwere verified through experiments and result analysis.Research has shown that cloud native multi-cloud management technology based on AIOps intelligent operation and maintenance
6、 can effectivelysolve the management problems of applications in multi-cloud environments,improve managementefficiency and quality,and have certain practical application value.Key words:AIOps intelligent operation and maintenance,cloud native multi-cloud management,multi-cloud environment1概述1.1 研究背景
7、随着云计算、大数据及人工智能等技术的不断发展,云原生架构和多云管理已成为企业数字化转型和信息化建设中的热门话题。然而,由于多云环境在实际应用中存在不同云平台之间的互操作性和集成性困难,以及应用程序的动态迁移和弹性伸缩等挑战,企业正面临一系列的管理问题 1 3。为了解决这些问题,近年来有专家学者提出了基于 AIOps 智能运维技术的云管理系统。AIOps智能运维技术是一种结合人工智能、机器学习、自动化和数据分析等技术的新文献标识码:A型运维方式,有助于企业对多云环境进行智能管理和优化,从而提高其管理效率和质量 4 6 本文对基于AIOps智能运维的云原生多云管理进行了深人研究,结合相关理论知识、
8、技术和实际场景,设计并实现了一个基于AIOps智能运维的云原生多云管理系统,并对其进行了实验和结果分析。本文旨在探索AIOps智能运维技术的利用方法,优化云原生多云管理的效率和质量,从而为企业数字化转型和信息化建设提供参考。1.2石研究意义(1)推动云原生理念的落地及实施。随着云计算86技术的不断发展,越来越多的企业开始采用云原生架构进行应用开发和部署。本文有助于更多的企业了解云原生理念 7 8(2)提高多云管理效率。企业往往会同时使用多家云服务商提供的云资源,由于各个云服务商之间存在差异,多云管理常面临数据迁移、监测和调度等方面的挑战 9 10 。(3)推进人工智能技术在运维领域的应用。作为
9、人工智能技术在运维领域的重要应用之一,AIOps智能运维有助于企业更好地利用自身数据资源,从而实现运维自动化、智能化 1(4)推进数字化转型。随着数字化时代的到来,企业需要不断进行转型升级以适应新的市场环境,基于AIOps智能运维的云原生多云管理是数字化转型的重要方向之一。1.3研究方法(1)文献综述:本文将查阅相关文献以了解当前云原生环境下多云管理和AIOps的应用现状、问题及未来发展趋势。(2)实证研究:本文将通过案例分析或实验设计验证AIOps智能运维在多云管理中的可行性和有效性,并探究其优化效果和实现方式。2多云环境下的管理问题分析2.1云云原生架构云原生架构是一种基于容器、微服务和云
10、技术的应用程序开发和部署方式。相较于传统的应用程序开发和部署方式,云原生架构具有更高的灵活性、可扩展性和敏捷性,可以更好地满足当今企业数字化转型和信息化建设的需求,云原生架构包含以下3个主要组件:(1)容器。容器是一种轻量级的虚拟化技术,可将应用程序及其依赖项打包为一个独立的运行环境,并在不同的计算机中进行部署和运行;(2)微服务。微服务是一种通过面向服务的方式组织应用程序的方法,可将复杂的应用程序拆分为多个小型服务,其中每个服务都可以进行独立的开发、测试、部署和扩展;(3)云技术。云技术是指通过互联网提供计算资源、存储资源和软件服务等技术手段,帮助企业实现快速部署、弹性伸缩、自动化管理等功能
11、,从而降低成本并提高效率、质量。2.2多云管理面临的挑战(1)运维效率低下。多云环境下,由于各个云平台之间存在差异,企业常需要进行各种监测、调度、配置等工作,这些工作将耗费大量的人力物力,从而导计算机应用文摘致运维效率低下。(2)系统稳定性难以保证。多云环境下,系统稳定性难以得到保障。例如,在应用部署过程中可能会遭遇网络延迟、硬件故障等问题,这些问题可能会导致系统崩溃或异常,从而影响业务的正常运行。(3)业务高可用性难以保障。多云环境下,业务高可用性难以得到保障。例如,在应用部署过程中可能会遭遇容器故障及服务异常等问题,这些问题可能导致业务停滞,从而影响业务的正常运行。2.3多云管理的解决方案
12、分析AIOps智能运维的云原生多云管理有助于企业实现多个云端资源的统一管理和监控,从而提高其管理效率和质量。多云管理平台的部署是实现云原生多云管理的关键。该平台可提供多种功能,如账户管理、资源调度、性能监控与安全管理等,可对多个云端资源进行统一管理和监控。同时,该平台采用云镜像管理,从而减少不必要的重复工作,进而确保不同云端的服务器中均可快速部署相同的应用程序和服务。在多云环境中,数据的传输和存储需要考虑到安全性,可通过加密技术保证数据的机密性和完整性,还可对数据进行备份以避免数据丢失。此外,可采用AIOps智能运维技术对多云环境中的应用程序和服务进行自动监控,并对异常情况进行检测和自愈处理3
13、AIOps智能运维技术的原理与应用3.1AIOps智能运维技术的概念AIOps智能运维技术是一种结合人工智能、机器学习、自动化与数据分析等技术的新型运维方式。该技术的核心思想是对系统数据进行实时监控、分析和处理,从而预测和诊断系统问题,并自动采取措施解决问题,从而提高IT系统的可用性、性能和效率。在AIOps 智能运维技术中,机器学习算法是一个重要的组成部分。利用机器学习算法对历史数据进行分析和建模,有助于用户快速了解系统的状态和趋势,及时发现异常情况并进行处理。3.2AIOpss智能运维技术在多云管理中的应用在基于云原生的多云管理中,AIOps 智能运维技术可被用于自动化监测和故障排查、自动
14、化调度和优化、自动化安全检测和漏洞修复、自动化容错和自愈、自动化资源规划和成本控制等,具有广阔的应用前景。利用该技术,企业可实现多云环境下的自动化监测、调度、安全检测、容错和成本控制等,从而有效提高自身运维效率和业务可靠性。2023年第2 1期2023 年第 2 1 期4基于AIOps的云原生多云管理系统的设计与实现4.1系统设计在设计和开发基于AIOps 智能运维的云原生多云管理系统时,既需要结合AIOps技术并充分考虑多云环境的特点和需求,还需要对系统进行不断的完善和改进,从而适应持续变化的多云环境和市场需求,系统设计的主要内容如下。(1)系统架构设计一个分布式、多层次的系统架构(包括数据
15、采集层、数据处理层、应用服务层和用户界面层),使各层次间通过API或其他方式进行通信和协作,从而实现数据的采集、处理和展示。(2)数据采集模块:设计一个数据采集模块,该模块负责采集多云环境中的各种指标数据(如服务器状态、网络流量及存储容量等),可使用不同的监控工具(如Prometheus 和Grafana等)和API来获取数据。(3)数据处理模块:在数据处理层使用AIOps技术进行数据分析和处理,旨在识别潜在的异常和风险,并根据预设的策略进行自动告警和处理。该模块可以使用机器学习算法和深度学习技术来处理大规模数据,以提高处理效率和精度。(4)应用服务模块:在应用服务层设计和开发相应的应用程序和
16、服务,包括资源调度、性能监控、安全管理等。该模块可通过API或其他方式,与不同的云服务商平台进行交互和集成,从而实现多云环境下的统一管理和控制。(5)安全性设计:针对多云环境中可能存在的安全威胁,系统需要采取相应的安全性设计,如加密数据传输和存储、访问控制和认证等措施,从而保障系统的安全性和稳定性。4.2系统实现与测试在基于AIOps智能运维的云原生多云管理系统的实验中,本文主要进行了性能、压力、容错和应用程序管理效果等方面的测试和分析。通过模拟不同负载下的应用程序访问情况,本文测试了该系统在高并发场景下的性能表现,结果显示该系统具有较高的性能和稳定性,能够满足大部分应用场景的需求。同时,本文
17、对系统进行长时间的压力测试,实验结果表明该系统可承受长时间的高压力运行,并保持稳定的性能表现。此外,本文还针对系统的异常情况进行了容错测试,实验结果表明该系统具备较强的容错能力,能够自动地采取措施解决问题,可有效提高业务的可靠性和稳定性。综上所述,基于AIOps智能运维的云原生多云管理系统在实验中表现出较强的性能、稳定性和可靠计算机应用文摘性,可有效解决多云环境下应用程序管理的问题。通过自动优化等手段,该系统还能提高应用程序的性能和效率,具备一定的实用价值。5结束语基于AIOps智能运维的云原生多云管理是当前云计算领域中的热点研究方向。本文旨在通过AIOps智能运维技术实现多云环境下资源的自动
18、化调度、监测和优化,从而提高企业的运维效率和业务可靠性。多云管理面临的挑战主要集中于平台异构性、数据安全、运维效率、系统稳定性和业务高可用性等方面。为了应对这些挑战,需要采用AIOps智能运维技术,通过自动化监测、调度、安全检测、容错和成本控制等方式提升多云环境下的资源利用率和业务可靠性。总之,基于AIOps智能运维的云原生多云管理的研究与改进具有重要意义,不仅能推动云原生理念的落地与实施,同时能提高多云管理的效率,还能推进人工智能技术在运维领域的应用及企业的数字化转型。参考文献:1赵东,王铮.一种基于大数据技术的银行智能运维系统设计 J.软件,2 0 2 2,43(7):1-3+52.2赵晨
19、钦.智能运维中异常检测与关联分析方法研究 D.北京:北京交通大学,2 0 2 2.3】陶玉东.面向微服务智能运维的异常检测与故障定位方法研究 D.西安:西安电子科技大学,2 0 2 2.4罗安源.基于知识图谱的AIOps 根因分析系统的设计与实现 D.南京:东南大学,2 0 2 1.5王雪.智能运维下故障预警和故障根因定位问题的研究D.南京:南京大学,2 0 2 1.6程鹏.AIOps智能运维在中国工商银行的探索与实践J.中国金融电脑,2 0 2 1(5):6 8-7 1.7周黎明.基于AIOps 的智能告警分析系统的设计与实现D.成都:电子科技大学,2 0 2 1.8徐代刚,姜磊,梅君君.面向视频云微服务系统的智能运维技术 J.中兴通讯技术,2 0 2 1,2 7(1):6 8-7 6.9王新东,王一大,庞国际,等.智能运维(AIOps)在中国联通分布式架构下的研究与应用 J.电信工程技术与标准化,2021,34(1):48-54.10 薛龙,陆钢,周奇,等.面向云原生的智能运维架构和关键技术 J.电信科学,2 0 2 0,36(12):10 5-112.11施育军.基于Spark的AIOps系统的设计与实现 D.厦门厦门大学,2 0 2 0.作者简介:王晓曦(198 7 一),本科,高级工程师,研究方向:云计算、专有云、AIOps、D e v o p s、虚拟化。87