SDDC之运维管理V1.5.docx_咨信网zixin.com.cn

资源描述

/*客户公司项目名*/ SDDC之运维管理 2025/3/29 文档名称 SDDC之运维管理作者高园、周晶邮箱 gaoy@；jingz@ 版本 V1.5 变更记录 2013.11.04 V1.0 初稿 2013.11.11 V1.1 修改格式、封面、补充章节题目 2013.11.19 V1.3 统一格式、封面、增加缩略语解释 2013.11.28 V1.4 增加专业咨询服务和服务支持章节 2014.02.24 V1.5 勘误目录 1 软件定义数据中心要求新的管理模式 4 1.1 现有的管理方案在软件定义数据中心下的挑战 4 1.2 VMware软件定义数据中心的管理解决方案 6 2 软件定义数据中心的运维管理 7 2.1 软件定义数据中心的运维挑战 7 2.2 软件定义数据中心对运维管理的新需求 8 3 VMware软件定义数据中心之运维管理方案概述 10 3.1 整体概述 10 3.2 功能特性 12 3.3 实现基础设施的全面可见性 12 3.4 解决方案框架 13 3.5 解决方案设计 13 4 方法论概述 14 4.1 容量管理 14 4.2 性能管理 16 4.3 事件与问题管理 20 4.4 配置与合规性管理 25 5 解决方案成员 29 5.1 运营可见性和性能管理 29 5.1.1 产品概览 29 5.1.2 vCenter Operations Manager主要价值 29 5.1.3 vCenter Operations Manager产品架构 29 5.1.4 vCenter Operations Manager基本功能 30 5.1.5 vCenter Operations Manager基本仪表版说明 31 5.1.6 vCenter Operations Manager提供定制化功能 41 5.2 变更、配置和合规性管理 45 5.2.1 产品概览 45 5.2.2 vCenter Configuration Manager主要价值 46 5.2.3 vCenter Configuration Manager功能例举 46 5.3 性能监控、分析、告警 47 5.3.1 产品概览 47 5.3.2 Hyperic的优势特性 48 5.3.3 Hyperic的典型功能举例 51 5.4 日志分析 54 5.4.1 产品概览 54 5.4.2 vCenter Log Insight的主要价值 54 5.4.3 vCenter Log Insight的优势特性 55 5.4.4 vCenter Log Insight的典型功能例举 57 5.5 应用依赖关系映射 60 5.5.1 产品概览 60 5.5.2 主要价值 60 5.5.3 vCenter Infrastructure Navigator 的优势特性 60 5.5.4 vCenter Infrastructure Navigator 的体系结构 61 5.5.5 vCenter Infrastructure Navigator 的功能例举 62 5.6 成本计量和报告 67 5.6.1 产品概览 67 5.6.2 vCenter Chargeback Manager体系结构 67 5.6.3 vCenter Chargeback Manager功能例举 68 6 方案总结 72 6.1 方案要点 72 6.2 方案优势 72 7 配置清单及说明 73 7.1 硬件配置需求 73 7.2 虚拟化软件配置需求 73 8 专业服务 74 9 支持服务概述 75 10 缩略语解释 76 1 软件定义数据中心要求新的管理模式 1.1 现有的管理方案在软件定义数据中心下的挑战近些年来，虚拟化在市场中的采用呈现稳定一致的态势，虚拟化的比例越来越高。从虚拟化利用率的角度来讲，虚拟化的发展可以分为三个阶段：第一阶段为0-30% ，第二阶段为最多70%，第三阶段则达到 70% 以上。而成本节约贯穿上述所有阶段，第一阶段通过整合在资金开销方面实现节约，第二阶段则在此基础上通过自动化的管理模式实现了运维开销降低，最后到第三阶段，又实现了敏捷性的提高。图：虚拟化三个阶段除了虚拟化利用率及其价值的变化，每个阶段都有其独特的一套计划，IT 部门所获得的一系列优势也是不同的。图：软件定义数据中心三个阶段目前，市场上的 VMware 虚拟化程度大约在65%以上，随着虚拟化比率的不断提高，客户也在不断扩大对虚拟化功能的运用范围，开始采用软件定义的存储以及网络与安全模式，从而逐步完全过渡到软件定义的数据中心（Software Defined Data Center, 以下简称SDDC）。而这一转变使得IT 部门能够转变运维方式，从本质上被动反应也就是往往需要竭力应付业务需求并面对日益积压的应用请求的部门，转变为主动创新的部门，将节约的 IT 资源重新投入到有助于实现关键业务目标的新应用、服务和计划。主动创新的部门更能与业务目标保持一致，并且对企业的发展、创新和竞争能力起着更为关键的作用。在软件定义数据中心下，现有的管理方案已经不能满足数据中心对管理的需求，因此IT部门转变运维模式也是势在必行的事情。现有管理方案的不足主要体现在资源调配和运维管理两个方面，如下图所示。图：管理对比 1.2 VMware软件定义数据中心的管理解决方案为解决以上问题，VMware提出了软件定义数据中心的管理解决方案，该方案主要分为运维管理与服务调配两个方面，如下图所示。图：SDDC之管理与自动化运维管理解决方案可以在服务质量，运维效率以及控制与合规性方面满足客户的需求，而服务调配解决方案则包括基础设施调配与应用调配两项功能。在软件定义数据中心下，通过使用VMware提供的高效快捷的服务调配与运维管理解决方案，客户可是获得非常可观的投资回报收益，如下图所示。图：投资回报三个阶段通过上图可以看出，即使是处于虚拟化早期阶段的客户也已经获得了稳步上升的投资回报。但是，随着客户进一步加大投资力度，也就是将虚拟化用作整个数据中心自动化和新 IT 交付形式的平台，例如按需功能，投资回报率得到大幅度上升。这一上升的主要原因是，IT 部门能够改进向企业交付 IT 服务的方式。这使得 IT 部门能够将资源从往往与维护现有系统相关的人工任务中解脱出来，重新投入到推动实现提升企业效率、收入和竞争优势等企业目标的计划当中。 2 软件定义数据中心的运维管理 2.1 软件定义数据中心的运维挑战如今，虚拟化已成为大多数 IT 部门数据中心的基石，许多组织利用虚拟基础设施向云计算迁移。然而, 由于传统的管理工具和方法是为了支持孤立的计算环境而设计的，IT 团队面临着如何利用传统管理工具和方法有效地支持新的动态IT基础设施，即软件定义的数据中心的挑战，这些挑战主要包括：首先，其环境中有大量数据需要管理，相对于物理环境而言，管理员可管理的虚拟机数量要多出达 5–10 倍，服务器和变更的数量也明显增多。这些都使得 IT 专业人员在尝试部署新的虚拟化管理计划时要面对重重困难。同时，环境中的伪警报数量大幅度增加，使得客户非常难以应对其环境所面临的挑战和性能问题。图：传统运维其次，现有的运维模式容易导致大家相互指责，同时无法迅速查明问题的源头、在哪方面需要立即采取措施，以及如何尽快恢复服务。最后一个问题就是“过度调配”，它会损害组织最初在节约成本（资金开销和运维开销）方面寻求的核心价值。此外，这还会使组织无法实现最初部署虚拟化和云计算时所寻求的敏捷性。下图显示的是在一项调查中，众多客户选出的他们在运维管理方面所面临的主要难题，这项数据从另一方面展示了传统的运维管理方法在软件定义数据中心下存在的主要问题。图：运维管理的棘手问题通过上图可以看出，容量监控与规划，协同合作，性能监控与调优以及根本原因定位是组织在运维管理中所面临的主要难题。 2.2 软件定义数据中心对运维管理的新需求由于传统运维管理方法在软件定义数据中心下存在上述诸多不足，因此，运维管理方面的新需求应运而生。首先，对于虚拟化平台的管理员而言，工作中遇到的问题大多是性能方面的问题，处理性能问题所花费的精力大约占到全部管理任务的80%，要迅速定位并解决性能问题，需要好的工具来辅助，单纯地使用“红黄绿”三色交通灯的性能指示可能不够清楚明了。其次，管理员在使用虚拟化平台时会面对两个对立的目标：一方面，要尽可能地增加虚拟机的密度以充分利用硬件平台的处理能力，增加投资回报。另一方面，虚拟化的主要特征就是资源池化，资源整合以后，调配资源的灵活性大大提高，但同时也对性能和容量的管理带来了更大的挑战，如果不能有效地管理资源分配，则可能出现资源滥用，资源匮乏等情况，因此，管理员需要随时保证业务增长对性能和容量的要求。可见，在软件定义数据中心对运维管理提出了很多新的需求，这些需求可以从如下三个方面进行概括。图：运维管理三个维度首先，新的方案应该能够保证服务质量，能够迅速缩短问题的平均解决时间、提高基础设施和应用可见性、能够主动快速解决影响业务的问题，这些都是客户所追求的基本能力，因为这个能力直接关系着服务的质量。其次，新的方案应该可以像虚拟化的早期阶段一样，在降低资金开销和运维开销方面获得收益。这意味着该方案不仅需要优化环境中的计算资源，同时也需要优化该环境中的人力资源。最后，现有的组织中，有很多需要竭力解决这些环境所面对的配置合规性问题，尤其是与虚拟化相关的问题。对许多组织来说，他们以前就已经碰到过这个难题，但由于部署了新的虚拟环境，并且缺少专用于这些虚拟环境的工具集，因此，如何能够确保虚拟和云计算环境中的合规性就成了一项主要挑战。 3 VMware软件定义数据中心之运维管理方案概述鉴于上述挑战以及新的需求，VMware 推出了 vCenter Operations Management Suite，此解决方案有助于客户应对这些核心挑战并满足新的需求。 3.1 整体概述 vCenter Operations Management Suite 可使用户更全面地了解基础设施所有层的情况。它可收集和分析性能数据、关联异常现象，并可识别出构成性能问题的根本原因。它提供的容量管理可优化资源使用率，基于策略的配置管理则可确保合规性并消除数量剧增和配置偏差问题。应用发现、依赖关系映射和成本计量功能为基础设施和运维团队带来了更高级别的应用感知和财务责任。 vCenter Operations Management Suite 使 IT 部门可以获得更好的可见性和可操作的智能信息，从而主动确保动态虚拟环境和SDDC中的服务级别、资源利用率优化和配置合规性，它具有如下三个基本特征 : Ø 自动化：根据 Forrester 的调查，凭借获得专利的自学式分析方法，该产品可实现比传统管理工具高得多的自动化程度，使工作效率提高近70%，资源消耗减少 30%，还可带来更多业务优势。 Ø 集成式：本产品采用集成式方法实现性能、容量和配置管理，以集成式套件的方式提供，它聚合了各种管理规程，并将不同基础设施和运维部门的团队统一成一体。 Ø 全面性：vCenter Operations Management Suite 以开放且可扩展的操作平台为基础而构建，可提供一整套全面的管理功能，包括性能、容量、变更、配置和合规性管理、应用发现和监控，以及成本计量。借助 vCenter Operations Management Suite，基础设施和运维团队可获得全面可见性、智能自动化和主动式管理，从而能以尽可能高效率的方式确保服务质量。 vCenter Operations Management Suite的核心功能如下图所示：图：运维管理产品体系架构第一个功能是环境状况的统一视图，该视图支持虚拟环境。这是组织的运维团队关注的主要功能，因为该功能可以提供有关环境状况的统一视图。想要获取一个有关虚拟云计算环境状态的统一视图，是很难做到的，而VMware提供了一个解决方案。其次，该方案还提供了一套全面的集成功能。在虚拟环境中，遗留给 IT 运维团队的问题是需要不同的运维团队管理网络资源、存储资源和计算资源。但在虚拟化环境中，所有这些资源一一具备，虚拟团队能够一起管理所有这些资源，vCenter Operations Management Suite为此提供了全面的集成解决方案。另外，就管理性能而言，该方案所采用的方法与该领域其他传统供应商所采用的方法颇为不同，它更加注重分析。VMware了解什么对环境而言是正常的并将该信息用于智能警报，而不是依赖会导致产生大量误报的某些传统阈值方法。此核心功能是该产品组合的核心组成部分，该产品组合能够提供大量的优势功能，与虚拟化和SDDC管理领域的传统管理供应商和新供应商的功能有很大的差异。由于客户需要管理虚拟环境，而且管理的虚拟环境是基于物理环境构建的，并且他们需要通过云来进行管理。因此，该方案提供了一套异构功能，不仅能够解决物理和虚拟环境的问题，而且能够满足同时跨私有云和公有云或混合云管理的需求，这套功能对客户非常重要。最后，该方案还提供可延展性和开放式框架，以用于将该解决方案以及将其他解决方案集成到软件定义的数据中心中。由于vCenter Operations Management Suite所具备的上述全面且强大的功能特性，它可以有效地满足软件定义数据中心在服务质量、运维效率以及合规性与控制等方面所提出的新需求并提升客户的价值，具体如下。图：带来的客户价值首先，该方案非常注重处理异构环境的运行状况、风险和效率的方法，它在控制面板中提供这些组件的集成视图。另外，智能警报不依赖会产生大量伪警报的阈值，而伪警报会大大消弱对环境中发生的事件迅速响应的能力。这些做法可以缩短问题的平均解决时间进而保证服务质量。其次，从运维开销的角度来说，该方案能够迅速查明问题源头并提高运维效率。本方案能够迅速查明、隔离并解决问题，这有助于帮助客户降低运维开销。该套件还能处理容量的利用，可让客户完全了解容量利用情况，对其建模，并了解应当为资源分配的正确容量以及将信息返回给客户。实践证明，这对客户也极其重要。最后，该方案能够满足控制力与合规性要求。该套件的功能可让客户将虚拟基础设施和物理基础设施以及操作系统的配置标准化，无论是出于运维目的还是出于遵守安全最佳实践或法规要求而将这些配置标准化。该套件的功能可让客户有效执行这些任务并降低开销，同时还使客户能够应对部署虚拟环境和SDDC时碰到的审核问题。 3.2 功能特性 3.3 实现基础设施的全面可见性更全面地了解计划内和计划外配置变更,并修正不必要的变更以确保运维和法规合规性。利用即时可用的配置模板自动管理合规性。利用跨数据中心基础设施虚拟和物理方面的策略控制及主动式智能警报来确保合规性。 u 通过预构建的可配置运维控制面板，可以实时洞悉基础设施的行为、即将发生的问题以及效率提高机会。 u 可自动分析监控数据，并以运行状况、风险和能效测量值来表示，使 IT 部门能更轻松地检测到环境中的潜在问题。 u 容量分析可识别过度配置的资源，以便能够适当调整资源规模以最高效地利用虚拟化资源。而通过使用假设场景，将不再需要电子表格、脚本和经验法则。 u 即时可用的模板可确保对最佳安全实践、强化指导原则和法规要求的持续合规性。 u 应用依赖关系发现和直观显示可帮助基础设施和运维团队了解应用级别的信息，从而确保所有关键应用服务的服务级别和灾难恢复保护。 u 应用组件和版本号会自动命名并持续更新。借助一流的可扩展性,单个部署即可监控多个站点、数千项指标和 10 万多个虚拟机。vCenter Operations Management Suite 专为 VMware vSphere而设计,并针对云计算而构建,是用于管理动态 VMware 环境的最佳解决方案。与第三方监控工具的集成使 IT 部门能够充分利用现有的投资。 Ø 智能地实现运维管理自动化以提高效率和敏捷性利用获得专利的分析技术和集成式管理方法来实现性能、容量和配置管理的自动化。利用自动化根本原因分析避免互相推诿, 改进团队协作,使解决问题所需要的手动工作减少多达 40%。 · 基础设施和运维分析可通过自动根本原因分析消除耗时的问题解决过程。 · 基础设施和客户操作系统级别的运行状况、性能和变更事件自动关联可帮助查明久拖不决的性能问题。 · 自动的配置变更回滚和补救使管理员能够强制实施 IT 策略。 · 灵活的容量和成本报告功能提供了对资源使用趋势的深入可见性。 · 自动调配和配置分析可检测出不必要的变更,并帮助 IT 部门持续遵从运维最佳实践和法规要求。 Ø 主动管理整个基础设施的服务级别在性能问题和容量短缺影响终端用户之前提前获得警报。通过使用实时性能控制面板,使用户能在终端用户察觉性能问题之前就找到该即将形成的性能问题,从而满足服务级别协议 (SLA) 要求。优化基础设施的效率,并最大限度减少整个虚拟和物理基础设施的性能风险。 · 自学式性能分析方法和动态阈值可适应环境以简化运维管理并消除假警报。 · 集成的运行状况、性能和容量降级智能警报可以提前识别即将形成的性能问题,从而避免对终端用户造成影响。 · 高级容量分析功能使管理员能够优化虚拟机密度,并提前识别容量短缺问题,从而避免对终端用户造成影响。 · 通过实时的集成式性能、容量和配置变更事件控制面板,可实现主动式管理方法,并帮助确保满足 SLA 要求。 · 基于策略的配置管理可确保数据中心基础设施所有方面 (包括虚拟和物理资源)的合规性。 3.4 解决方案框架 3.5 解决方案设计 4 方法论概述 VMware软件定义数据中心的运维管理解决方案主要包括容量管理，性能管理，事件与问题管理以及配置与合规性管理。本节将从“方法论”的角度阐述这些功能。 4.1 容量管理 “容量管理”侧重于提供 SDDC 所需的容量以满足现有和将来需求，从而为服务产品提供支持。对于服务提供商，容量规划的目标是在 SDDC 基础设施中提供足够容量，以满足为客户提供的服务的当前和未来的需求。必须在 SDDC 基础设施中保有足够的储备容量，才能防止虚拟机在正常情况下争夺资源，继而导致违反商定的服务级别事件发生。服务提供商组件必须管理以下各项： u 包含用于创建和管理 SDDC 的所有组件的管理集群 u 向使用者提供资源的资源集群如果无法预测组织虚拟数据中心等服务使用者资源的使用情况。要调整使用者资源的大小，需估计所需的初始容量，并使用 SDDC 容量管理技术，基于过去的使用趋势来预测将来的使用量需求。需进行容量规划以确保提供给租户的 SDDC 资源已得到适当使用、可在需要时提供，并可根据当前和未来需求扩展或缩减。 Ø 容量管理流程的定义和组成要素一直以来，容量管理通常在系统实施时执行，并且涵盖对系统整个生命周期的容量要求。这在系统生命周期的早期会造成巨大浪费，因为多余的容量只有在较晚时候才需要使用。还有许多其他因素可能会在系统生命周期早期造成巨大浪费，包括高估了使用量或由于技术发展而导致提前停用等。即使对于虚拟化，确保有足够容量随时可用也始终是用户担心的问题。虚拟化环境通过减少资源争用（通常通过降低虚拟机与主机的比率）来管理容量。如果采用的比率较低，此方法将导致资源浪费。要成功实施 SDDC，必须避免资源浪费。容量管理流程必须变为主动流程，并且能够随条件变化来调整容量配置，“一劳永逸”的设置并不能满足要求。通过致力于主动容量管理，可以增加主机上的虚拟机密度，这可以使提供商经济高效地实施 SDDC，而不影响其上运行的服务。主动容量管理流程与传统容量管理流程看似相同，但 SDDC 动态性需要主动流程更加敏捷并更少依赖于手动干预。对容量进行手动管理可能适用于物理基础设施或采用虚拟化的早期阶段，但要提供 SDDC 所需的主动容量管理，只有通过配备相应工具和实现自动化才能做到。管理员应及早发现长期容量问题，以免对服务造成影响。通过配备适当的工具，可提供早期警报，可以指出历史容量使用行为，并将其与已知的未来需求结合以提供 SDDC 容量预测。此外，管理员还需及早发现短期容量违规现象，以便实施修复措施以避免违反 SDDC SLA。通过发现短期和长期的容量问题，自动化有助于用户为各环境提供所需的相应资源。对于短期违规，自动化有助于指出一个环境中利用率低下的资源，并暂时将其传输到资源不足的环境中。对于长期容量问题，可以预测并明确定义新资源的自动调配流程。这样，即可根据需要调配新资源（例如主机、集群或组织虚拟数据中心容量），而不违反服务。概括来说，容量管理包括以下内容： · 确定当前的容量储备 · 预测新要求 · 规划更多容量要想让 SDDC 基础设施发挥出最大价值，持续改进至关重要。通过由定期容量扩展支持的定期规划活动以及日常运维活动，即可取得此方面的成效。 Ø SDDC 容量管理运维的流程发展历程要提供健全的容量管理，需尽可能实现自动化并尽可能消除对手动干预的需求。容量管理的发展需要时间和人力，因此组织应该分阶段完善流程，而不要试图一蹴而就。最初的难题是要记录和维护容量管理的流程、策略和方法。任何用于辅助管理 SDDC容量的工具都必须经过精挑细选，并且必须适用。所有容量管理角色和职责都应明确定义。 SDDC组织会日渐成熟，工具自动化将被引入，以便能够轻松识别规模设置不当的 SDDC 组件，并用最少的手动交互加以调整。评估自动化的可能性，以指出可进一步提高效率的其他容量情形。此外，组织还应确定具体的 SDDC KPI 指标并报告给主要相关人员。短期和长期容量计划应在组织中根深蒂固。 Ø 流程自动化以及工具调整与集成 SDDC中的容量管理不能依赖于手动流程和活动。鉴于容量管理不断变化的特性，若要有效管理 SDDC，必须了解服务和基础设施的最新使用量与可用容量信息。手动流程和大多数容量工具均无法提供实时容量数据。服务提供商必须为服务使用者提供达到商定 SLA 所需的容量。如果提供商要实现 ROI，还需要一定程度的资源共享。必须在容量管理工具中内置智能功能，以便更好地了解 SDDC 环境的动态使用情况，并明确了解任何重复的使用行为。组织必须对 SDDC的整体环境有所了解，才能了解所调配的容量、对资源的需求以及任何重复的资源使用行为。要提供敏捷的容量管理，就必须避免其他流程影响额外容量的提供。例如，变更管理流程必须与调配流程紧密结合，以便快速配备额外的容量。容量调配可以在基础设施层（主机、存储和 vSphere）和服务层（新虚拟数据中心、为现有虚拟数据中心提供的额外容量）进行。如果变更管理流程需要冗长的变更票证和 CAB 的参与，则 SDDC 的某些优势便会丧失，冗长的变更管理流程会使得向 SDDC 引入额外容量的过程发生延迟。 VMware的容量管理解决方案可以了解SDDC实施的复杂性，该方案可以通过分析功能分析 SDDC 环境当前和过去的资源使用模式，并通过情景假设确立未来的容量要求。 4.2 性能管理 “性能管理”侧重于解决 SDDC 性能问题，性能管理的目标是避免或快速解决 SDDC 基础设施中的性能问题，并针对向客户提供的服务满足性能方面的要求。需要对 VMware SDDC 基础设施进行监控，才能防止所承诺的服务级别落空。 Ø 性能管理流程的定义和组成要素性能管理的概要事件、突发事件和问题流程对服务提供商和租户同样适用。这些流程看起来与任何传统的性能管理流程一样。然而，SDDC 的动态特性和降低运维开销的迫切要求决定了此流程必须更具敏捷性，并减少对手动干预的依赖。手动性能管理可能适用于物理基础设施环境和采用虚拟化的早期阶段，但要提供 SDDC 所需的性能管理级别，只有通过配备相应工具和实现自动化才能做到。简要地说，性能管理的事件、突发事件和问题流程的目标是尽可能实现自动化并最大程度提高第 1 级操作员可执行的任务数量，而非增加第 2 级管理员或第 3 级领域专家 (SME) 的工作量。下面按偏好列出了处理事件、突发事件或问题的可行方法： · 自动工作流 — 这些工作流完全自动化，可由预定义的事件或支持人员启动。 · 交互式工作流 — 这些工作流需要手动干预，可由预定义的事件或支持人员启动。 · 第 1 级支持 — 由操作员负责监控系统中的事件。他们需要遵循操作手册中的规程对事件做出反应，其中可能包括执行预定义的工作流。 · 第 2 级支持 — 由具有基本技术专长的管理员处理大多数的常规任务，并执行预定义的工作流。 · 第 3 级支持 — 由擅长多种不同技术的 SME 处理最棘手的问题，还负责定义工作流和操作手册中的规程，以使第 1 级操作员和第 2 级管理员能够处理更多的事件和突发事件。 1. 性能管理的事件管理流程生成性能事件的方法有很多种。 u vCenter Operations Manger 早期警告智能警报 — 这些警报通常由显示行为发生变化的多个指标触发。一般由第 2 级管理员负责审查，以确定是否发生了突发事件。 u vCenter Operations Manager 关键绩效指标 (KPI) 智能警报 — 这些警报通常由预定义的 KPI 或超级指标的异常行为触发。由于这些警报更有针对性，因此更容易通过工作流自动处理。 u 服务台接听用户报告性能问题的电话。 u 第 1 级操作员收到监控系统发送的关于性能问题的警报。如果性能事件被指定为已知问题，则可能触发预定义的操作，例如自动工作流、交互式工作流或操作手册中的规程。如果事件没有相关定义，则成为第 2 级管理员或第 3 级 SME 必须处理的突发事件。 2. 性能管理的突发事件管理流程解决性能突发事件的方法有很多种，具体取决于突发事件的生成方式。 u 租户容量不足 — 当租户的容量用尽时，根据租户租约中定义的方式可触发不同的事件。如果租户购买了“突发”功能，则超出基本使用量时可通过支付额外的费用来添加额外的资源。如果没有购买突发功能或不提供此功能，则租户会收到关于容量已用尽的通知。 u 提供商容量不足 — 如果制定了主动式容量管理设计指导原则并已实施，应该绝对不会发生这种情况。如果容量已用尽，服务提供商必须添加更多容量或迁移来可用容量解决此问题。这种情况应报告给容量管理部门，并可能会导致违反向租户承诺的 SLA。 u 硬件或软件故障 — 性能问题可能会由主机故障、配置错误、软件更新错误、其他可修复问题等软件或硬件错误导致。如果在总体 SDDC 中构建的冗余度不足，此类错误还可能会导致违反向租户承诺的 SLA。如果突发事件优先级很高或是一个长期的问题，请将其转交给问题管理部门，以进行更深入的分析。 3. 性能管理的问题管理流程问题管理的主要目标是指出问题的根本原因。指出根本原因后，应制定并实施行动计划，以避免未来出现同样的问题。 u 首选的方法是从根本上解决问题，以免问题再次发生。 u 如果无法消除问题，则必须定义工作流和操作手册程序，以便在问题再次发生时快速解决它。可定义 KPI 和超级指标以帮助在问题形成前提早进行识别。 Ø SDDC 性能管理的流程发展历程要提供健全的性能管理流程，组织就要尽可能实现自动化并消除对手动干预的需求。性能管理流程的发展需要投入时间和人力，组织应该一步一个台阶地完善流程，而不要试图一蹴而就。最初的难题是要记录和维护性能管理的流程、策略和方法。任何辅助进行 SDDC 性能管理的工具都必须经过精挑细选，并且必须适用。所有性能管理角色和职责都应明确定义。 SDDC 组织会日渐成熟，工具自动化将被引入，以便能够轻松识别性能问题，并用最少的手动交互加以纠正。评估自动化的可能性，以指出可进一步提高效率的其他性能情形。更有效的指标和更全的事件覆盖面对于应用的各个方面都是必要的，包括收集以下方面的性能指标的能力： · 组成部分（虚拟设备、操作系统、物理设备） · 中间件（数据库、Web 服务器、Java、消息传递） · 应用 · 虚拟化 · SDDC · 包括主动和/或被动的终端用户体验监控在内的服务。此外，还应确定具体的 SDDC KPI 指标并报告给主要相关人员。要将性能管理完全集成到 SDDC 中，组织应该实施自动性能补救以使环境变得稳定并提供令客户满意的服务性能。 Ø 流程自动化和工具调整/集成 SDDC 中的性能管理不能依赖于手动流程和活动，考虑到 SDDC 性能的动态特性，需要配备相应工具和设备才能进行有效管理。手动流程和传统的性能工具主要关注性能上升或下降的状态，无法提供所需的性能数据级别。要进行有效的性能管理，必须了解“指标覆盖面”的影响。在应用体系的所有级别安装工具可更好地深入了解应用的整体性能。对于“终端用户体验监控”尤其如此，它可向管理员提供关于使用者体验的信息。使用传统方法时，管理员依赖组件级别的监控来粗略估计服务的可用性或性能。这种方法仅能提供部分结果，很少能识别出真正的性能问题。要解决此问题，就需要使用分析工具进行深入分析，而不只是像传统监控工具一样只显示上升或下降状态。管理员通过分析工具可基于动态生成的基准查看系统的相对性能。使用 VMware vCenter Operations Manager可以了解到 SDDC 实施中的这一细节信息，这对于揭示更为复杂的性能管理问题大有用处。 1. 事件管理 vCenter Operations Manager 的一项主要功能就是基于组织环境内数百万个指标确立动态基准。建立这些基准时还会将具体时间、具体工作日以及其他循环模式考虑在内，以便了解常态行为。随后，当过多指标同时开始出现异常行为时，这些基准即可用于确定早期警告智能警报。如果定义了 KPI 或超级指标来捕获已知问题领域，可能会触发具有关联自动化或交互式工作流的 KPI 智能警报。图：自定义 UI 的 vCenter Operations Manager 事件管理功能 2. 突发事件管理识别出性能突发事件后，管理员可使用 vCenter Operations Manager 找到对此负责的底层系统。运行状况徽标可提供对性能管理突发事件的深入分析结果，如下图所示。图：vSphere UI 中的 vCenter Operations Manager 性能管理功能 vCenter Operations Manager 分析功能可分析 SDDC 环境内资源当前和过去的使用模式，并为用户提供其环境运行状况的概览视图和详细视图。 3. 问题管理解决突发事件后，管理员可使用 vCenter Operations Manager 识别对此负责的系统以及问题的根本原因。通过考察为性能问题负责的底层系统，可揭示它与应用内其他层的关系、与其关联的所有智能警报以及受影响组件的性能历史。此流程有助于识别问题的根本原因。 4.3 事件与问题管理过去，“事件、突发事件和问题管理”侧重于监控 SDDC 提供的服务以及将计划外事件的影响降至最低。此外，尽快还原服务并防止重复的事件影响服务也是核心功能。现在，人们越来越重视降低 SDDC 运维开销和提高可靠性。要满足这一需求，就要提高自动化水平，以使操作员可以处理更多常规任务，并在突发事件影响终端用户之前主动检测出并消除它们。 “事件管理”侧重于如何对监控和分析工具的输出结果进行分类和处理。根据预定义的规则，事件管理的输入内容称为“事件”，可用于与各种可能的操作关联起来 — 从抑制到触发自动化工作流，再到在出现性能突发事件或真实停机时触发创建突发事件的操作。 “突发事件管理”侧重于如何应对性能突发事件或停机。此类情况被称为“突发事件”。突发事件管理主要侧重于管理突发事件，直至其得到解决。重复出现的突发事件或具有高优先级的突发事件可转交给问题管理部门，以进行更深入的调查。 “问题管理”侧重于识别重复出现的和高优先级的突发事件的根本原因。识别出根本原因后，将制定在理想状态下可修复根本问题的行动计划。如果无法解决问题，可能要实施更多的监控和事件管理操作，以尽可能减少同一问题在未来的发生次数或使其不再发生。实施 SDDC的一项主要好处在于可以持续降低运维开销。实现这一目标的关键是 SDDC 事件、突发事件和问题管理的流程自动化，其中包括： u 尽可能自动响应事件。 u 对于需要操作员执行某输入操作以支持决策的其他事件，创建高度自动化的工作流。 u 创建操作手册程序、工作流和自动化作业，以使操作员（而非管理员或领域专家）可以应对更多的事件。 u 自动执行 SDDC 事件、突发事件和问题管理流程与其他需要的流程和关联系统之间的交互。 u 识别、装备和设定可用于建立工作流和自动化作业的关键性能指标 (KPI)。 Ø 事件、突发事件和问题管理流程的定义和组成部分要成功管理 SDDC 事件、突发事件和问题，必须做好以下准备： u 监控 SDDC 环境。 u 配备一个事件管理系统，例如 Manager of Manager (MoM)，用于向事件应用可启动工作流或可将事件路由至相应的支持团队的规则。 u 选择一种票证系统和方法，以便高效地为各支持团队分配票证。 u 定义了突发事件的优先级和严重程度。 u 已充分了解角色和职责。 u 能够查看 KPI 状态。下图显示了事件、突发事件和问题管理的总流程及各组成部分间的相互关系。这三个主题领域之所以在一起显示，是因为它们本质上互相关联。事件管理将信息馈送到突发事件管理，而突发事件管理则将信息馈送到问题管理。然后，问题管理再将信息馈送到事件管理，从而完成这一循环。由于 IT 是不断发展变化的，因此事件、突发事件和问题管理必须持续更新才能跟上变化的步伐。图：概略事件、突发事件和问题管理流程事件管理的首要步骤之一是监控各组成部分和服务。然后事件可馈送到事件管理系统（例如 MoM），指标可馈送到分析引擎（例如 vCenter Operations Manager）进行处理。事件管理的一个重要组成部分是事件分类。对事件进行分类后，可制定规则和文档（例如操作手册和工作流），以便在下次发生时该事件时对其进行处理。这种主动式方法可减少新的突发事件数量，缩短所发生的停机和性能突发事件的持续时间并降低其严重程度。突发事件管理的核心流程包括通过确定优先级和影响力管理支持票证、客户通信、促进技术和管理通信（包括电话网桥）及停用票证。重复出现或高优先级的突发事件将发送到问题管理部门，以便指出根本原因。指出根本原因后，将会制定一个解决方案用于解决问题，或建立监控或事件处理机制，从而消除问题或降低问题再次发生时的严重程度。 Ø SDDC 事件与问题管理的流程发展历程要提供健全的事件、突发事件和问题管理流程，组织就要尽可能实现自动化并消除对手动干预的需求。最初的难题是要记录和维护性能管理的流程、策略和方法。任何辅助进行 SDDC 事件、突发事件和问题管理的工具都必须经过精挑细选，并且必须适用。所有事件、突发事件和问题管理角色和职责都应明确定义。随着分析引擎对 S

展开阅读全文