收藏 分销(赏)

确定性运维白皮书——稳定可靠篇2.0.pdf

上传人:宇*** 文档编号:4200864 上传时间:2024-08-22 格式:PDF 页数:153 大小:17.42MB
下载 相关 举报
确定性运维白皮书——稳定可靠篇2.0.pdf_第1页
第1页 / 共153页
确定性运维白皮书——稳定可靠篇2.0.pdf_第2页
第2页 / 共153页
确定性运维白皮书——稳定可靠篇2.0.pdf_第3页
第3页 / 共153页
确定性运维白皮书——稳定可靠篇2.0.pdf_第4页
第4页 / 共153页
确定性运维白皮书——稳定可靠篇2.0.pdf_第5页
第5页 / 共153页
点击查看更多>>
资源描述

1、前言 -01第一章 确定性运维稳定可靠之路 -03第二章 运维管理体系能力实践 -07第三章 运维技术体系能力实践 -094.1 业务可用性度量(SLO/SLI)设计 -124.2 架构高可用设计 -234.3 监控设计 -35第四章 高可用能力实践 -125.1 生产准备度评审(PRR)-49第五章 持续交付能力实践 -496.1 故障快恢 -566.2 混沌工程 -676.3 性能压测 -766.4 告警管理 -85第六章 运维能力可信实践 -567.1 变更风控 -937.2 护航 -1027.3 数据驱动运营-106第七章 风险治理能力实践 -938.1 容量管理 -1128.2 成本

2、管理 -120第八章 资源治理能力实践 -1129.1 安全生产 -1359.2 出海运维合规-147第九章 安全合规能力实践 -135CONTENTS目 录当企业的 IT 智能化水平不高时,对 IT 运维运营的业务连续性要求并不严格。随着科技的进步和市场竞争的加剧,企业在数字化转型的浪潮中迎来了新的挑战与机遇。在这一转型过程中,企业的生产力发生了深刻的转移,从传统的依赖人工操作和有限的信息处理能力,转变为高度依赖智能化的 IT 系统和数据分析能力。传统运维模式在应对数字化业务需求时,显得力不从心。随着信息技术的迅猛发展,大数据、云计算、人工智能等新技术不断涌现,对运维工作提出了更高要求。因此

3、,从运维入手进行数字化转型,不仅是对技术的升级,更是对业务流程和管理模式的全面革新。这一变革使得企业对业务“安全可靠”的依赖程度大幅提升。在数字化时代,企业的运营数据、客户信息和业务流程都高度集中在 IT 系统中,一旦系统出现故障或数据泄露,将对企业的运营和声誉造成巨大损失。因此,确保IT 系统的稳定运行和数据安全成为了企业不可忽视的重要任务。同时,数字化转型也提升了企业对业务“智能运营”的需求。通过大数据分析和人工智能技术,企业能够实现对业务数据的实时监控和预测分析,从而更精准地把握市场趋势和客户需求,优化业务流程和决策过程。这种智能运营能力不仅提高了企业的运营效率,还为企业带来了更多的商业

4、机会和创新空间。此外,数字化转型还提升了企业对“资源高效”的诉求和“业务敏捷”的要求。在数字化时代,企业需要能够快速响应市场变化和客户需求,同时实现资源的优化配置和高效利用。这就要求企业具备强大的 IT 基础设施和灵活的运维管理能力,以确保业务的快速部署和稳定运行。确定性运维作为保障企业业务高效稳定运行的重要一环,其核心在于确保系统的稳定性、可靠性以及高效性,从而助力企业实现安全可靠、智能运营的目标。确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障,同时也要有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间

5、做到可防、可控、可治,要把数字化带来的“不确定性”通过运维变成“确定性”。在确定性运维的推动下,企业可以实现资源的高效利用。通过合理的资源规划、分配和调度,企业能够避免资源的浪费和闲置,提高资源的利用率。此外,确定性运维还能够通过自动化、智能化的手段,降低运维成本,提高运维效率,为企业节省大量的人力和物力资源。业务的敏捷发展是确定性运维的另一大目标。随着市场竞争的加剧,企业需要能够快速响应市场需求,调整业务策略。确定性运维通过提供快速迭代、持续集成的运维环境,帮助企业加快业务创新的步伐,可以帮助企业更快地响应市场变化,提高效率和生产力,提高客户满意度。展望未来,确定性运维在数字化转型中的作用将

6、更加凸显。随着人工智能、大数据等技术的不断发展,确定性运维将实现更高级别的自动化和智能化。通过引入机器学习算法和数据分析技术,运维人员能够更精准地预测系统性能、优化资源配置,进一步提升系统的稳定性和可靠性。前言01在数字化转型过程中,运维团队扮演着至关重要的角色。他们需要对现有系统进行深入分析和评估,识别出潜在的优化点和改进空间。同时,还需要积极引入新技术和新工具,提升运维的自动化和智能化水平。通过构建高效的云管平台,实现资源的统一管理和优化调度,从而提高企业的运营效率和服务质量。数字化转型不仅涉及技术的升级和工具的引入,更需要对企业的组织架构和业务流程进行深度优化。通过优化组织架构,打破部门

7、壁垒,实现跨部门协同作战,提高企业的响应速度和创新能力。同时,对业务流程进行重塑,实现业务的数字化和智能化处理,进一步提升企业的运营效率和市场竞争力。可以说,确定性运维已经成为数字世界变革的加速器,是新质生产力的核心组成部分。它不仅推动了企业数字化转型的深入发展,还为企业带来了更多的商业价值和竞争优势。从运维入手全面启动数字化转型是一个复杂而系统的工程,需要企业高层领导的重视和支持,以及全体员工的共同努力和协作。通过引入新技术、优化组织架构、重塑业务流程、保障数据安全等措施,企业可以逐步构建出符合自身特点的数字化转型路径,实现业务的全面升级和转型。总之,确定性运维可以确保企业在安全可靠、智能运

8、营、资源高效、业务敏捷四个维度上实现业务目标。而安全可靠中的稳定可靠是企业数字化转型的生命线,本册白皮书,我们将重点探讨如何从管理体系和技术体系的角度构建确定性运维稳定可靠体系,帮助企业实现运维体系的革新,支撑企业的业务数字化转型。02第一章确定性运维稳定可靠之路智能运维是未来自动恢复智能告警智慧故障定位数据&演算法质量文化是基础确定性的高质量文化开发与运维共同 SLO运维组织变革高可用架构是前提确定性失效率确定性恢复时长确定性爆炸半径动态风险治理是保障全生命周期主动运维作业可信确定性恢复数据智能运营稳定可靠体系框架图确定性运维的稳定可靠实现之路是一条系统性和综合性的路径,基于华为云实

9、践总结,需要从质量文化、高可用架构、动态风险治理以及智能运维工具这四个方面全方位入手。1.质量文化质量文化是确定性运维的基石。一个注重质量的文化能够激发团队成员对运维工作的责任感和使命感,从而确保工作的精细化和标准化。为了构建高质量文化,需要:a.自上而下,从最高层面强调和践行质量的重要性,并将其纳入核心价值观;b.构筑开发与运维团队共同的质量目标和方法;c.在运维团队开展组织变革,不断提升组织能力,牵引用软件工程的方法解决问题,从“消防员”向“建构师”转型。2.高可用架构高可用架构是确定性的前提,通过设计合理的架构,可以降低系统故障的风险,缩短故障恢复的时长,并且控制故障的影响范围,高可用架

10、构的设计与落地需要关注如下三点:a.瞄准 SLO 的目标,运用科学的方法进行架构的设计,对可用性架构的选择以及落地时间进行管理;b.在产品规划设计、上线运行阶段,给运维团队授予相应的责权利,对开发和商用计划有所制约,确保可用性需求落地;c.在产品运行维护期间,有计划地对高可用设计进行验证,以确保系统符合设计要求。3.动态风险治理动态风险治理是应对不确定性和突发事件的重要保障手段。其本质也是对变更、故障模式、业务运行数据的识别开展全生命周期的主动运维和能力构建:03a.针对变更作业的风险,开展全面的能力建设,包括版本发布架构体系建设、账号权限管理、自动化变更能力建设等;b.针对已知和未知的故障风

11、险,通过科学的方法梳理故障模式库(树),并目的地进行快恢能力建设,一方面制定应急预案和响应机制,确保在突发事件发生时能够迅速响应和处理,另一方面定期组织演练和复盘,验证可用性架构运行情况以及团队应急响应能力;c.业务运行态数据的智能运营,是指导团队开展工作持续改进的核心基础能力,需要构建一套实时的采集以及数据运营系统,以支撑业务决策。4.智能运维工具智能运维工具能够提高运维工作的效率和质量,降低人力成本。尤其是 AI 时代,通过引入自动化、智能化等技术手段,团队可以更加高效地管理和维护系统,有几个原则:a.选择合适的工具和技术,确保其与业务需求和技术栈相匹配,如自动化部署、故障预测、智能定界定

12、位等;b.将工具与现有系统进行整合,根据实际需求进行定制和优化,以满足特定的运维需求;c.关注新兴技术和发展趋势,不断更新和升级智能运维工具,提升运维水平。确定性运维的达成确实是一个自上而下、全技术团队共同努力,以及意识、组织、文化、方法和模式的转变。1.转意识转变意识是达成确定性运维的首要任务。团队成员需要认识到运维不仅仅是一个支持性的角色,而是业务连续性和稳定性的关键保障。这要求大家从传统的“救火队员”角色转变为前瞻性的“守护者”,以预防性的思维来规划和执行运维工作。2.转组织组织结构的调整对于实现确定性运维至关重要。团队需要打破传统的部门壁垒,建立跨部门协作的机制,确保从开发到运维的各个

13、环节能够无缝衔接。同时,建立明确的责任划分和沟通渠道,确保问题能够迅速定位和解决。3.转文化企业文化的转变是实现确定性运维的重要支撑。团队需要倡导一种注重质量、向前端要质量的文化氛围。鼓励成员开放、合作、创新的文化氛围。此外,建立奖惩机制,对质量工作中表现突出的个人或团队给予表彰和激励、同时也对忽视质量的团队和个人予以警示。4.转方法方法的转变是实现确定性运维的关键环节。团队需要引入先进的运维理念和技术手段,如自动化、智能化等,提高运维效率和质量。同时,建立标准化的操作流程和监控体系,确保运维工作的规范化和一致性。此外,利用数据分析和预测技术,提前发现并解决潜在问题,降低故障发生的概率。5.转

14、模式模式的转变是实现确定性运维的长期保障。团队需要探索并建立适合自身业务特点和技术栈的运维管理模式。这可能包括采用 DevOps 理念实现开发与运维的紧密结合,建立敏捷的响应机制以快速应对突发事件等。通过模式的创新,不断提高运维工作的灵活性和适应性。04稳定可靠“1+N”:“1”为标准化运维,即为管理体系,“N”为稳定可靠专项能力,即为技术体系。基于 ITIL 标准构建标准化运维,建立三线运维支撑团队,建立覆盖关键运维活动的流程规范,建设统一运维平台。在标准化运维的基础上开展运维变革,构建稳定可靠能力。根据运维运营生命周期,稳定可靠共有六大领域能力,六大领域能力下有多个专项能力。一.专项能力定

15、义N 个专项能力,包括:高可用:业务可用性度量(SLO/SLI)设计、架构高可用设计、监控设计;持续交付:生产准备度评审(PRR);运维能力可信:故障快恢、混沌工程、性能压测、告警管理;风险治理:变更风控、护航、运维驱动运营;资源治理:容量管理、成本管理;安全合规:安全生产、出海运维合规;01稳定可靠 1+N 能力体系 稳定可靠 1+N 架构图确定性运维白皮书 稳定可靠能力全景“N”专项能力技术体系“1”标准化运维管理体系高可用运维组织运维流程运维工具持续交付运维能力可信风险治理资源治理安全合规 监控设计 架构高可用设计 业务可用性度量SLO/SLI设计 生产准备度评审PRR 告警管理 性能压

16、测 混沌工程 故障快恢 数据驱动运营 护航 变更风控 成本管理 容量管理 出海运维合规 安全生产05二.能力体系升级数以万计的客户,虽然所运维的对象不同,但是面对的挑战却有不少的共同之处。当企业在业务快速增长、数字化转型或深入云化改造,可能遇到可用性管理、责任分工、容量管理、云资源配置、安全生产、效率提升、智能运维能力构建等问题,华为云 SRE 将自身的“稳定可靠”实践结合云上应用维护实践,梳理出如下适用于业务系统的“稳定可靠”体系,相较于传统运维体系,有如下变化:传统运维关注问题快速定界定位,关注产品的可维护性,稳定可靠体系中,运维团队不仅关注可维护性,更多地参与到产品的架构设计中,落实“产

17、品高可用架构”;传统运维以被动响应为主、主动巡检为辅,稳定可靠体系中全面加强了主动运维的活动,开展“动态风险治理”;传统开发模式下版本交付经过较长周期的质量管理且变更并不频繁(趋于稳态),但现在多数企业执行的是“持续交付”流程(趋于敏态),为保障业务稳定,须强调自动化变更及管控,以降低高频变更带来的风险;传统业务体量小的时候,安全合规的压力并不大,业务上云后体量变大,DevOps 模式下交付越发频繁,参与团队增多,安全生产的压力越来越大且能力诉求越来越高;基础设施云化以后,面对种类繁多的云化资源(包括 OS、网络、数据库、容器等),需要自动化的“资源治理”能力,以提升质量和效率;传统运维模式使

18、用的工具通常以 ITSM 工具为主,主要满足运维管理要求。稳定可靠体系中,由运维/运营团队瞄准 MTTR 和效率、成本目标,基于日常活动,自行设计、集成或采购工具以提升质量和作业效率。06确定性运维“一个”标准化运维体系组织流程工具监控中心组CMDBITOA 运维实施组ITSM质量管理组ITOM运维管理组可用性管理组 服务请求采集工具服务修复变更可用性管理运维合规管理确定性运维管理体系示意图第二章运维管理体系能力实践01管理体系背景在确定性运维 1+N 体系中,“1”的能力建设称之为“管理体系”建设。随着企业数字化转型,当前运维管理体系正在面临颠覆性的变化和转型。业务范畴从保障网络、设备资源的

19、稳定到涉及企业业务应用稳定和研发业务敏捷开发的支撑等,同时企业在快速发展过程中,多云环境以及大量业务系统需要运维管理。当前企业运维遇见一些问题:1.系统规模和复杂度增加,导致的运维难度和运维成本增加。2.多云环境下的资源管理和数据管理难度增大,业务的监控和故障排查难度增加。3.安全合规管理中所涉及人员现网操作管理,导致的更多资源精力投入。但企业发展早期形成的管理体系在分工、协作、效率、成本和可持续化发展上,通常并不能很好的适配。因此非常多的企业诉诸运维体系转型,通过引入合适的运维管理体系和先进的理念及技术,不断提升运维能力,以应对挑战。确定性运维管理体系助力运维变革,使运维成为数字化转型的生产

20、力。运维管理体系的理论研究与企业实际转型过程中的问题并无法通过简单的推演获取,这就导致企业需要付出的高昂的经济和时间成本去摸索和积累。确定性运维管理体系来源于华为云 SRE 多年实践,既强调标准为纲,也重视经验总结。主要包含组织、流程、工具三个核心要素组成,规划了组织架构和岗位,优化和重构了全生命周期的流程框架,统筹布局了工具体系,使运维管理工作不断走向规范化、标准化、工具化,在质量和效率上获得提升。07组织转型是企业人力资源再分配与再布局,是效率、成本、竞争力和可持续化发展的集中体现。上述示意图中的实践,其运维组织架构是一种阶梯式的分工和协作架构,区别于传统运维架构,它大幅度缓解了高成本的人

21、力资源投入到低价值的活动中造成的不合理投入和成本浪费,同时规避了低成本的资源由于高价值资源的投入引起的惰性和依赖性,从而滋生的一些意识形态的对抗和埋怨。此架构中,一线负责受理用户的服务请求、响应并处理客户反馈问题(包括报障),第一时间闭环服务请求和报障,无法闭环的工单上升二线或三线处理;二线负责处理一线升级的工单,处理监控发现问题,部分时间处理告警、事件和故障的恢复,其余时间开展高阶主动运维活动,对现网的稳定性和可用性负责;三线聚焦解决软件版本缺陷问题。这种分工方式具备明显的阶梯型,三条线即需要独立完成相当比例的工作,也需要相互协同和促进,非常有助于消除运维的冗余和低效的环节,可以实现企业人员

22、高效率与饱和化的运作。流程体系涵盖了产品全生命周期运维活动,它驱动了不同分工团队在业务和体系上的融合和发展。确定性运维流程是强调运维活动标准化、规范化,且不断迭代提升运维能力的流程体系。通过对各环节进行规范化和自动化管理,来避免人为因素对整体稳定性和效率的影响,提升管理体系能力。包含事件、问题、变更、回溯等多个核心运维流程,涵盖了产品全生命周期运维活动,帮助企业优化了运维相关活动。确定性运维的流程本身来源于大量的实践,但在企业实践中仍需充分考虑自身系统的复杂性和变化性,进行特定设计调整,并测试和验证。运维工具是管理体系和组织效能的催化剂,在效率、可靠性、安全性、可用性和管理水平等多个方面都发挥

23、着重要作用。运维工具是实现高效、稳定、安全的运维管理和提高业务运营效率和质量的重要手段,确定性运维管理体系将之视为三个核心要素之一。一个优秀的工具体系至少需包含配置管理和流程管理的功能支撑,以及可观测、自动化、可运营的能力支撑。一个优秀的工具体系能够向运维人员提供集中、统一的维护界面方便运维人员的集中维护,提高自动化和运维效率,减少不必要的手动操作和人为干预。综上所述,上图(图:企业确定性运维管理体系优秀实践)优秀实践案例中,企业已初步完成了基于确定性运维理念的运维体系构建。第一,运维活动在流程体系的指引下,已形成高效协同,大幅度削减了内部沟通成本。第二,运维业务根据场景分散到不同的成本中心,

24、三线运维机制下各运维团队既可独立完成自身运维业务,也可在流程体系驱动下与上下游协同,不断的优化组织结构和流程体系。第三,运维工具覆盖日常运维业务、运营管理、质量管理等,通过持续的运维过程数据分析,不断提升运维工具能力,提高运维效率和质量。通过迭代组织绩效目标、质量目标与业务目标,促进业态发展,淘汰低效、不确定性成分。引入自动化、智能化元素,简化运维交付工作,降低技能依赖和安全合规风险,提高运维效率,降低运营成本。02管理体系实践企业确定性运维管理体系优秀实践示意图企业确定性运维管理体系优秀实践数字化可观测中心配置管理流程管理自动化中心运营中心一线运维团队研发团队二线运维团队质量管理团队数据运营

25、团队服务请求事件管理告警管理应急演练/混沌工程自动发现故障变更引入事故首次上线/大版本上线应用上线规范小版本迭代重大事故处理事件转问题实施提交变更变更完后更新配置库验收转维账号权限安全生产授权管理应用上线/生产准备度评审交付实施版本发布War Room 运作问题管理变更管理配置管理流程驱动团队改进团队改进,提升流程作用协同、集中、统一的运维工具体系流程体系组织架构工具体系08在确定性运维 1+N 体系中,我们将 N 能力建设称之为“技术体系”建设,是指对基础设施、中间件、业务系统和网络进行监控、管理和维护的一系列技术手段和实践的组合。随着业务数字化转型的深入,业务规模的快速增长及业务频繁更新,

26、现网稳定性和业务上线速度之间的冲突加剧,运维研发边界逐渐模糊、缺乏协同机制。传统被动运维模式的技术能力和知识体系,已无法保障现网业务系统稳定、可靠、安全、有效地运行,运维技术体系能力需要匹配业务转型,加强全生命周期主动运维能力建设,消减潜在风险,引领运维变革的导向和向心力,明确实施路径,构建全面确定性运维能力体系,保障业务可用性目标达成。企业存在的部分现状问题摘选:第三章运维技术体系能力实践序号部分现状问题领域能力1可用性目标不清、未构建 SLI 指标体系,未建立 SLO 生命周期管理机制;产品的 SLO 承诺未与用户及利益相关人的期望形成互锁,导致落地效果差,无法支撑可用性运营管理及业务持续

27、优化改进高可用2系统架构高可用未形成规范并有效执行,依靠个人经验导致高可用设计能力不足,如:可故障管理、过载控制、故障隔离、超时与重试等引发现网故障,造成企业业务损失和品牌受影响3企业业务系统庞杂,分层监控指标覆盖不全,监控分散在不同的工具上,难以统一监控,业务的黄金可用性指标覆盖不全,无法实现异常快速感知、快速定界和定位4业务系统发布上线前,非功能性需求的生产准备度评审不完善,导致风险识别和闭环不到位,部署到生产环境后引发现恶性现网事件,影响可用性持续交付5同一故障重复发生,故障模式库梳理以及对应的应急预案有效性验证不充分,导致故障恢复时长不确定;缺乏统一的故障管理标准和流程,无法实时监控和

28、预测故障,缺乏有效的故障管理工具和平台运维能力可信6应急演练资源投入不足,覆盖范围有限,演练频率不足,影响应急预案的有效性验证,进而影响故障恢复效率;缺乏有效的应急演练工具和平台7产品发布前的测试不充分,尤其是产品性能和全链路方面。当业务量激增的情况下,现网业务稳定受到严重挑战,当发生故障后,故障的恢复时间会很长8告警数量多、告警不准确、大量无效告警引起告警泛滥,且处理效率低,导致运维资源投入增加,也影响告警处理效率09确定性运维构建了高可用、持续交付、运维能力可信、风险治理、资源治理、安全合规六大领域的主动运维能力,涵盖了从设计态、部署态到运行态的全生命周期的技术能力。通过专项能力的实践分享

29、指导企业解决运维过程中的问题。高可用能力是现网高质量的源头,是围绕质量结果不断溯源优化和迭代的过程。在华为云发展过程中,对高可用能力进行了优化和迭代。这个过程分为四个阶段:第一阶段重点讲事件数据在线化,主要目标是以现网数据运营为驱动力,通过收集和分析现网的数据,来发现和解决现网中的重要问题。第二阶段讲的是华为云主动识别现网问题,分析高可用架构的短板,通过混沌工程来演练和解决这些问题。第三阶段是高可用的正向设计能力,华为云开始在架构设计阶段正向构筑能力,建立服务韧性需求基线。此外,容灾和流控架构也开始在这个阶段持续落地。第四阶段重点讲量化关系研究,华为云开始研究站点质量要素与高可用质量结果之间的

30、量化关系,建立站点熵与质量确定性之间的数学关系。华为云开始尝试用数学模型来量化站点的质量和高可用的关系,以便更好地理解和管理现网的质量。这四个阶段形成了一个迭代的过程,华为云通过不断的迭代和优化,提升了其高可用的能力。持续交付是运维全生命周期中部署态的关键过程,本次重点分享生产准备度评审(PRR)能力实践。华为云生产准备度评审借鉴业界 SRE PRR 模型,与服务开发团队共同完成提升运维能力的相关需求规划、设计和开发工作,使产品能够高质量快速上线。在商用发布前需要进行一系列可用性评审,只有通过 PRR 标准基线的验收才能进行版本发布,确保版本发布质量。9存在变更风险审视不足引入现网事件,未有效

31、降低变更操作的风险;当前还是依靠专家进行变更方案的评估,缺少变更风控管控的工具和平台风险治理10缺少有效的保障机制和能力,运维风险未能有效识别和制定预案,业务高峰期,经常出现影响服务可用性的问题11数据来源不统一,也未构建运维数据的标准,数据质量问题会影响数据分析和决策的准确性,运维人员通常缺乏数据分析能力,无法深入挖掘数据背后的价值,导致数据无法充分利用12资源利用率低,缺乏可视化和实时监控机制,预测和规划不准确,缺乏自动化的容量管理工具和流程,导致管理效率低下资源治理13资源利用率低,使用成本高,资源不可视、不可管,难以精准发放、回收,难以实现成本精细化管理14合规内控风险管理机制不完善,

32、现网权限管控不足,人员登录生产环境权限过大,现网操作风险不可控安全合规15企业业务走出国门,尤其是向欧美发展,但是没有匹配本地法律法规的运维团队和机制,有数据安全与隐私保护风险10运维能力可信是运维全生命周期中运行态的一类技术能力,本次重点分享在故障快恢、混沌工程、性能压测、告警管理等能力的实践。故障快恢的核心构建重大事件的快速发现、快速定位和快速止血的能力,华为云在故障快恢能力上已经积累了丰富的实践经验。可观测能力的建设是面向上层的业务系统,要聚焦业务系统的运行状态进行观测感知,并辅助运维人员主动识别业务系统的健康度,构建先于客户发现故障的能力;华为云 SRE 事故恢复团队从冗余、容灾、超载

33、、依赖、安全和数据备份 6 大场景构建了 200 多种故障模式库,并完成预案的开发,通过混沌工程不断进行预案的演练,确保预案的有效性和确定性。通过告警 ID 关联故障模式库 ID,故障模式库 ID来推荐已验证过的应急预案的能力,实现故障场景和恢复预案的精确匹配,实现故障的快速恢复。性能压测管理确保业务系统可以在达到设计最大负载(或 QPS)时依然可以正常运行,压测管理通常包括负载测试和压力测试,以模拟生产环境中的实际负载情况。告警管理是通过减少无效告警和衍生告警的数量,提升告警准确率和先于客户发现率,减少对运维人员的干扰。运维风险治理是运维全生命周期中运行态的另一类关键技术能力。变更风控是基于

34、“人因”方法论构建了作业可信体系,从组织、流程和工具能力进行变更风险的拦截,降低变更引入事件率。数据驱动运营是构筑确定性运维的基石,借助数据治理和数据运营能力实现察打一体“察(数字化 BI 看板)”“打(业务决策与执行)”,帮助运维人员构建数字化运营能力,实现提质增效的目标。资源治理从容量管理入手,建立了云资源的性能规格基线,以确保云资源的扩容有据可依。同时,我们建立了CPU、内存、磁盘、带宽等的容量水位线,通过资源管理可视化大屏,可以掌握资源利用情况,及时指导云资源的扩缩容。通过成本中心进行精细化成本管理,我们可以预测、预算、分配、监控全场景可视化,持续优化客户使用云资源成本。我们始于可视化

35、和跟踪成本规划,并在运行时及时管控异常,避免意外高额账单。在使用过程中,我们更要关注成本分配,让业务部门成本透明。最终,通过规划与创新,我们对云上资源、数据成本进行优化,达到性能与成本平衡点。安全合规建设当前版本聚焦于运维安全生产和出海运维合规的建设。安全生产的目的是确保各项运维活动在满足运维管理要求的同时,提高运维管理的效率和质量,降低运维风险和成本,增强企业的安全生产能力。安全合规作为网络安全的一部分,依赖专业的技术工具及团队,从人员资质、运维通道、运维工具等方面确保运维安全可信。建设资质中心,明确华为云运维岗位人员资质的管理原则和总体要求,防止因人员资质带来的现网安全问题;运维堡垒机包含

36、主机管理,授权管理,账号密码管理等功能,以实现安全运维和轻松审计。网络安全给全球各行业带来巨大威胁,各国积极立法进行网络安全保护实施,全球 150+国家已将网络安全/数据安全保护进行立法,中资企业出海的运维合规存在诸多挑战,需探索行稳致远的合规之路。可从管理能力和技术能力等方面进行建设,保障业务稳定、数据安全、质量可靠、作业可信,全球化运维,数据处理遵从本地法规,助力业务全球扩展。通过人员外派和本地招聘,数据不出境,避免数据安全与隐私保护风险。11第四章高可用能力实践类别内容业务目的 明确了对外承诺服务可用性 SLA 加强主动运维工作,降低服务高可用过于依赖现网负向事件回溯的现状 团队做出数据

37、驱动型运营决策依据,加快开发速度,而不会影响稳定性 基于 SLO 目标,指导服务的高可用架构设计度量指标 服务 SLI 的目标值或目标范围,证明其预期性能和实际可用性 对设计阶段的 SLO 度量指标评估,识别高可用架构短板 服务质量可量化客观指标:可用性监控关键指标项、可用性告警事件度量指标 基于量化分析进行高可用能力改进的度量指标参考 基于度量指标改进运维质量管理,如:违规变更流程和事件处理流程导致的 SLO 受损4.1业务可用性度量(SLO/SLI)设计4.1.1 业务可用性度量(SLO/SLI)设计目的可用性设计旨在为了平衡开发和运维,度量业务质量承诺和业务中各模块的责任,通过业务可用性

38、数据考核开发,以数据为依据促进研发和运维协同不断优化业务可用性平衡各团队的指标和帮助企业更好的设计和管理业务系统可用性。在产品规划与设计阶段前,设置业务系统可用性度量评估环节,提前评估当前可承诺的真实可用性目标,以及业务系统在现网运行中验证实际可用性,并对业务系统可用性目标达成和优化提供依据。4.1.2 业务可用性度量(SLO/SLI)设计能力4.1.2.1 管理能力组织通过 SLO 度量,研发团队有明确的改善业务系统的质量目标,运维团队有明确的质量预期,依据数据驱动研发团队有效进行质量改进,因此 SLO 可用性度量指标的达成,需要多个组织的角色共同参与完成,严格遵循 SLO 中每个环节的要求

39、,首先要明确岗位角色和职责分工,SLO 可用性度量角色定义和职责分工如下:12团队角色职责描述技术部门产品经理产品经理根据客户需求或商业设计,制定产品 SLO 目标可用性架构师根据 SLO 目标设计高可用架构满足 SLO/SLI 要求,并持续优化研发干系人干系人指研发、架构师等指定接口人,在产品立项/设计阶段,对 SLO/SLI 相关指标要求进行规划设计与开发,满足可用性要求运维部门运维经理参与业务上线 SLO 评审(PRR 评审会),确保业务设计方案满足 SLO 设计目标,负责现网 SLO 度量与运营改进SLO/SLI 度量流程包含:1.立项规划:产品负责人或研发负责人负责产品的立项规划,需

40、根据产品商业要求,设定 SLO 目标,交付可用架构师进行高可用能力设计。2.产品设计与实现:SLO 设计:可用性架构师根据 SLO 目标,设计产品可靠与可用性架构 RBD 框图,分解需求交付研发开发。产品实现:根据 SLO 设计进行产品可靠与可用能力详细设计与开发,并测试验证。3.PRR 评审:产品开发通过测试后,由研发团队自评,自评通过后提起 PRR 上线评审。4.上线运营:产品上线:PRR 上线评审通过后,由运维经理联合产品负责人发布评审结论,产品部署上线。SLO 运营:根据现网监控 SLI,计算 SLO,对影响 SLO 的事件分析闭环处理,持续改进产品可靠性与可用性。产品负责人研发干系人

41、可用性架构师运维经理立项规划产品实现产品上线SLO 运营PRR 评审SLO 设计是否通过否是业务可用性度量流程示意图业务可用性度量(SLO/SLI)指标评审流程包含立项规划、产品设计与实现、上线评审、上线运营 4 个阶段。流程13工具业务可用性度量体系主要由两套工具来承载。能力划分如下:1.SLO 可靠可用设计工具,主要给予产品、研发人员、可用性架构师角色使用和参考。工具模块功能如下:明确被评估服务的 SLO 目标 识别被评估服务的核心功能 基于核心功能绘制 RBD 模型框图 标定依赖服务或硬件的可用度 选取高可用组件关联依赖服务与组件SLO 设计SLO 目标SLI 指标分解RBD 平台负载均

42、衡灰度流控仲裁SLI 设计可靠可用架构设计可靠可用组件库可用性设计管理平台功能框架图2.SLO 运营工具SLO 运营工具应包括业务 SLI 监控数据采集(拨测、监控、告警)、业务 SLO 可用性度量(SLO 计算)、SLO 对问题分析跟踪的运营能力(SLO 看板、SLO 分析、需求跟踪)三个主要功能模块,给予运维角色使用和参考。可用性运营管理平台功能框架图SLO 运营SLO 度量SLI 监控SLO 看板SLO 分析需求跟踪SLO 计算拨测监控告警4.1.2.2 技术能力一.业务系统架构 SLO 评估技术能力分析业务系统的核心功能及组成核心功能的业务单元,由每个业务单元的可用度推算出整个业务系统

43、的可用度,因此评估方法将上溯到每个业务节点粒度进行可用度计算(物理机、虚拟机或者容器实例),然后基于 RBD 模型框图的可用性计算为基础方法进行可用度计算。RBD 模型图IEC 61078,NASA1359-1994,GB-T37981-2019RBD(Reliability Block Diagram)模型1+1 主备其中 Aa:主用单元可用度 c:倒换成功率 As:备用单元可用度 等效的修复率简单参考主用修复率,为 u。等效失效率根据修复率和可用度采用入等效=u(1-A)获得主用备用N+1 冗余其中 An+1:并联后的系统可用度 Aa:主用(active)单元的可用度 As:备用(stan

44、dby)单元的可用度 c:倒换成功率 n:主用单元个数U2U1UnUs14从串联公式,我们可以得到以下结论:系统中任何单元的可靠性降低(提高),那么整个串联系统的可靠性降低(提高)。系统中串联的单元数增加(减少),那么整个串联系统的可靠性降低(提高)。串联系统的可靠性低于串联系统中任一单元的可靠性。在串联服务中,任何依赖服务失效,都将导致本服务的业务故障。如果本服务由 n 个依赖服务组成,那么本服务的最终可用度指标的评估公式表示如下:其中:串联后的服务可用度 第 i 个依赖服务的可用度 依赖服务个数串联服务可用性评估公式单元 MTBF 为单元失效率的倒数:MTBF=1/失效率,串联服务如下图所

45、示:服务串联可靠性功能框图S(1)S(2).S(n)并联服务可用性评估公式并联结构如图所示:并联结构示意图(a)(b)12n在此基础上分析其他中断因素并建模,逐项叠加到基础模型上。实现整个 SLO 评估模型的建模工作。同时使用 CMDB 应用拓扑实现业务之间的 RBD 框图,结合各模块 SLO 计算权重,并在业务 SLO 看板中观测业务可用性。SLO 建模工作流图服务中断基础设施因素运维因素(变更)软件因素(含依赖服务不可用)外部因素(流控/安全)15二.N+M 主备服务可用性评估公式主备 RBD 图一般如下图所示:主备 RBD 图(a)(b)12S在并联服务中,所有依赖服务都是同时处理同一个

46、业务的,任何一个依赖服务处理成功,本服务的业务处理都会成功,所以本服务的不可用是所有依赖服务同时不可用,如果本服务由 n 个依赖服务组成,那么本服务的最终可用度指标的评估公式表示如下:其中:并联后的服务可用度 第 i 个依赖服务的可用度 依赖服务个数从并联公式,我们可以得到以下结论:系统中任何单元的可靠性降低(提高),那么整个并联系统的可靠性降低(提高)。系统中并联的单元数增加(减少),那么整个串联系统的可靠性提高(降低)。并联系统的可靠性高于并联系统中任一单元的可靠性。是二项系数,或者称为组合数,也会记为 N+M 主备服务可用性评估公式如下:其中的16(其中:a:N+M 冗余系统的单元可用度

47、;c:倒换率成功倒换的概率,通过故障检测率乘以倒换成功率计算。N+1 负荷分担服务可用性评估公式如下,是上式 M=1 时的特例:当并联的各个 block 的功能相同时,并联公式可以认为是 N+M 负荷分担公式 C=1 和 M=1 时的特例。1+1 主备的可用性评估公式可以简化为:其中:a:N+M 主备系统的单元可用度;C:倒换率成功倒换的概率,使用 Ca*Cs;Ca 故障检测率;Cs 切换成功率。三.N+M 分布式可用性评估公式投票结构的 RBD 图一般如下所示:需要 N 个节点协作才能完成,M 个节点冗余,故障节点数大于 M,则集群整体不可用。与 N+M 主备的区别在于,M 个冗余节点也要负荷分担的处理业务。N+M 负荷分担在RBD 图中被称为 koon(k-out-of-n)投票结构(k 对应 N,n 对应 N+M)。投票结构 RBD 图(a)(b)1232/34.1.2.3 运营能力SLO 运营的目标:通过持续度量现网 SLO,分析影响业务SLO 的事件,及时响应治理,最终保障可用性目标达成。一.SLO 运营

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服