收藏 分销(赏)

云上自动化运维宝典.pdf

上传人:Stan****Shan 文档编号:1239893 上传时间:2024-04-19 格式:PDF 页数:248 大小:19.71MB
下载 相关 举报
云上自动化运维宝典.pdf_第1页
第1页 / 共248页
云上自动化运维宝典.pdf_第2页
第2页 / 共248页
云上自动化运维宝典.pdf_第3页
第3页 / 共248页
云上自动化运维宝典.pdf_第4页
第4页 / 共248页
云上自动化运维宝典.pdf_第5页
第5页 / 共248页
点击查看更多>>
资源描述

1、阿里云开发者“藏经阁”海量电子手册免费下载扫码回看全部课程推荐语随着企业在云上进行 DevOps 实践进入深水区,企业对充分利用云本身的优势提升业务交付的效率和质量提出了更高的要求。对此,阿里云提供的 ECS 自动化运维套件 CloudOps,帮助企业借助云上原生的自服务能力,快速解决业务面临的成本、性能、稳定性和安全性挑战,加速企业的价值交付与业务创新。云上自动化运维 CloudOps 的系列文章,将以阿里云 CloudOps 的产品矩阵为基础,从典型应用场景出发,为大家提供具有实操指导建议的自动化运维最佳实践。目录页万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定

2、运行5ECS 省钱指南来啦!万字长文教你如何选择与业务形态最匹配的付费方式.37高弹性、高可用、低成本的云上资源管理最佳实践.74ECS 多场景迁移上云最佳实践.92多云基础设施的统一纳管与运维实践分享.112如何使用 OOS 有效进行云上自动化运维.133一文读懂云上大规模资源管理的最佳实践.153提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具.176最佳实践分享:如何体系化提升 ECS 安全性.202一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例.227万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行5万字长文带你了解 CloudOps

3、 自动化运维的奥秘,助力云上业务高效稳定运行为了更好地帮助用户提升云上 DevOps 实践效率,缩短开发周期提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps 云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用 CloudOps 工具实现运维提效、弹性降本。该系列共 10 节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN 独家支持。【弹性计算技术公开课】-Clou

4、dOps 云上运维季系列课程,首节课程由阿里云弹性计算高级产品专家马小婷主讲,课程主题为CloudOps 云上自动化运维,助力云上业务高效、稳定运行,课程涵盖:云上业务持续运行面临的挑战、ECS 自动化运维(CloudOps)的产品大图解析、ECS 使用成熟度评估与洞察(ECS insight)等相关内容,点击下方链接进入【CloudOps 云上运维】课程专题页即可观看课程回放,还可了解最新课程预告。【CloudOps 云上运维:https:/ CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行61.云上业务持续运行面临的挑战大多数企业上云第一步就是购买算力,即云服务器。不同行业和规

5、模的客户,由于他们的能力和行业属性有所区别,故对云服务器的诉求也不一样。根据阿里云 ECS 客户的调研和反馈,我们发现 ECS 客户在使用 ECS 的过程中,面临的主要问题大致可以分为以下五个方面:成本问题:当前大环境下,不少企业对成本优化的诉求非常强烈。由于云上是按需付费的服务模式,即我们使用了多少资源,就要为所买的资源付费,这与传统的提前一次性采购所有服务器的模式不一样,不受约束的按需购买就非常容易出现资源浪费的问题。如果我们不能对云上的资源进行很好的成本管理,很容易出现云上的资源成本超出线下支出的情况。所以,如何在不影响业务持续正常发展的基础上进行成本管理和优化是不少企业面临的首要挑战。

6、效率问题:提效降本总是相伴相随的,资源的成本是显而易见的,但人效的问题很多时候却无法直接衡量或看得见。众所周知,自动化是提升运维效率的最佳方式,但自动化工具的建设和维护成本也是隐含成本。与线下 IDC 相比,云服务提供商也提供了丰富万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行7的工具和能力来帮助企业提升云服务器的运维效率,而如何利用工具或者服务能力降低云上资源的维护和管理成本,是不少企业面临的痛点。稳定性问题:虽然云上客户无需管理和维护底层物理基础设施,但并不意味底层基础设施是 100%可靠的。虽然目前阿里云提供了业界领先的单实例 SLA,即 99.975%,

7、但也不意味着底层基础设施 100%不会出问题。站在业务应用的视角上来看,我们要做的是构建并提升整个应用的稳定性和可靠性,而不是单纯的依赖单个 ECS 实例的稳定性来保障整个系统的稳定性诉求。同时,当底层服务的稳定性出现任何问题时,我们业务侧如何快速恢复,缩短业务受损的时间,这也是 ECS 客户在云上面临的重要挑战。可用性问题:对于类似电商、社交平台等行业的客户而言,上云带来的最大便利性是资源便捷的可获取性以及云上的深度弹性。在线业务一般都会面临明显的峰谷波动,而服务的可用性是业务的重中之重,尤其是在业务高峰期的时候,我们需要快速的创建大量资源来满足临突发的流量需求,确保服务的可用性。但如何更好

8、的利用云上弹性来实现业务的高可用,是不少客户在真正落地过程中面临的问题。安全合规问题:安全问题是不少企业在上云时最为关心和担心的问题,这也是很多人对云直接的条件反射,即很多人认为上云意味着所有数据都托管在公有云服务提供商上,那是不是所有人都可以访问我的资源?是不是业务很容易被攻击?那我的数据安全是否有保障?尤其是银行类或证券类类的客户,他们对数据的安全和合规尤为关注。其实云上也提供了非常丰富的安全能力,包括数据安全、计算安全、应用安全、操作系统安全,来保障业务在云上运行的安全可靠,但如何利用这些安全能力设计一个符合安全规范和合规的应用体系,是不少企业面临的痛点。以上五个问题是目前 ECS 客户

9、面临的主要问题,接下来我们一起看一下它和行业内客户面的问题是否具有一定的相似性。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行8前面我们介绍了 ECS 客户所面临的云上运维的五大挑战,回归到整个行业维度,根据上图展示的 Flexera 2023 年 State of the cloud report 分析报告可以看到,对于大型企业,面临的 Top 3 的挑战是:管理云上成本、资源/技能不足、多云管理和安全问题。对于中小企业,面临的 top 3 的挑战是:管理云上成本、安全问题和合规问题。但对于所有企业而言,大家面临的最主要的问题还是:管理云上成本、安全问题和资源

10、/技能不足等问题。对于管理云上成本和安全这两个痛点,相信很多人都是有目共睹的。关于资源/技能不足的问题,我想详细展开介绍一下。与线下 IDC 相比,云上除了提供标准的各种算力外,它还提供非常多的标准化的自助服务能力,用户可以通过控制台或者 OpenAPI 自助使用。这意味着云上的运维方式和传统的运维方式是不一样的。我们不再需要像过去一样,从零开始什么都自己来构建,而是需要基于云厂商已经提供的能力,提升运维效率和体验。所以,在技能和资源方面,我今天的分享就是要告诉大家,我们有什么样的能力能够帮助大家解决什么样的问题,提升大家对云厂商能力的认知,让大家站在云厂商的肩膀上专注于业务本身价值的高效交付

11、。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行9综合 Flexera 的行业分析报告与 ECS 客户面临的主要问题,我们可以看到,所有企业在云上进行业务运营时面临的挑战无非是以下五个:成本管理:这里我用的是成本管理,而不是降成本,因为抛开管理讲优化和降本是非常简单粗暴的。成本管理的终极目标是以合理的成本来保障业务的正常运行,做到既不浪费也不短缺。自动化提效:自动化是运维从诞生之初就一直追求的目标,所有运维人员都知道自动化可以提效,但是正如 flexera 分析,由于资源或能力的缺失,不少企业的自动化的能力和水平并不是很高,所以借助云上原生能力快速提升自动化能力

12、和水平,也可以缓解业务所面临的挑战。弹性高可用:对于电商、社交媒体等在线服务而言,会存在业务的明显峰谷波动,业务的高可用离不开资源的弹性。在业务高峰期,我们需要根据实际的业务需求快速扩容资源,满足突发流量需求,这在互联网行业是非常明显的痛点。在传统模式下,所有资源的准备和购买都需要提前规划和采购,如果是超出规划以外的计算资源,就很难满足了。而云上最大的特征之一就是提供了非常快的弹性速度,以及“深不可见”的弹性容量。但如何充分万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行10利用云上弹性能力来提升业务的高可用是很多线上业务面临的挑战。稳定可靠:对于游戏类客户而言,

13、业务的稳定性是重中之重,尤其是在游戏开服的前期,如果出现机器宕机,导致部分玩家突然被强制下线影响了游戏体验,会直接影响游戏的体验和口碑,严重情况下还可能会导致几千万上亿的宣发投资“打水漂”。所以如何利用云上的可观测能力、监控报警的能力以及故障演练的能力来提升整个业务的稳定性以及整个应用的可靠性,也是现在很多线上客户所面临的挑战。安全合规:安全性和合规其实是两个方向。正如前面所说的,安全问题是很多客户在上云初期就持有的顾虑,前面的 Flexera 分析报告也印证了这一点,说明云上安全的重要性始终处于 C 位。但如何体系化地提升安全能力,尤其是基于云上默认已经提供的安全能力来构建安全体系是很多客户

14、所关注的。至于合规,主要以银行、证券等金融行业为主,包括物理隔离、数据安全等,它需要端到端体系化的合规解决方案。以上就是我们发现的云上业务持续运营面临的五大挑战。2.ECS 自动化运维(CloudOps)的产品大图万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行11首先,看一下 CloudOps 的基础概念。很多人在听到 CloudOps 的时候可能会好奇它究竟是什么,我们听说过 DevOps、FinOps、AIOps,那 CloudOps 是什么呢?顾名思义,CloudOps 其实就是云上自动化运维,和 FinOps 一样是一种运维理念。CloudOps=Clo

15、ud x DevOps,强调的是充分利用云本身的特性更好地实践 DevOps,加速业务价值的快速稳定交付,它的核心点是强调了云本身的特性,而不需要我们重复性的开发。云本身的特性包括云的高弹性、高度标准化、高自动化和自助服务模式等,这就意味着用户能够根据自己的需要按需取用,不需要依赖任何其他能力的支持。CloudOps 定义了企业在上云、用云以及管云过程中重点关注的五个维度,它和我们前面说到的云上客户常见的五个痛点是相呼应的,分别是成本 Cost、自动化 Automation、可靠性 Reliability、弹性 Elasticity、安全性 Security,缩写为 CARES。另外,Clou

16、dOps 是阿里云提供的一套自动化运维套件的总称。为了持续提升客户业务在云上的可靠性和稳定性,阿里云提供了非常丰富的自动化工具,帮助客户实现云上 DevOps全流程的可感知、可控制以及可衡量的能力,持续帮助客户解决成本、效率、稳定性、可用性、安全性的问题。比如,成本优化工具解决的就是成本的问题,自动化能力解决了自动化运维提效的问题,可靠性能力可以用于提升业务的稳定性、缩短业务受损时长,弹性能力解决了应用的可用性问题,安全合规能力提升了业务的安全性。所以,CloudOps 既是一种运维理念,也代表了阿里云在围绕运维体验为大家提供了一套标准化的工具的总称。上图右侧是去年发布的 CloudOps 云

17、上运维白皮书 2.0 的内容,欢迎大家扫描文末二维码进行下载和阅读。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行12接下来我将介绍一下 ECS CloudOps 套件。CloudOps 这个名字听上去非常抽象,它究竟代表了什么样的工具,能够解决什么样的问题,以及它过去十年是怎样发展的呢?上面这张图可以给大家一个详细的说明。2010 年,阿里云发布了第一款云服务器,这也是阿里云提供的第一款云产品。2014 年阿里云推出了第一款 CloudOps 产品,弹性伸缩服务,它能够根据业务的峰谷波动自动进行ECS 资源的水平扩缩容,在需要时扩容,在不需要时缩容,既解决了应

18、用可用性的问题,也解决了使用成本的问题。2015 年,阿里云推出了资源编排 ROS,它是第一款 IaC(Infrastructure as Code,简称IaC)的产品,它提升了整个 IasS 层资源的部署效率。比如,一个正常的业务架构,它可能包含多种云产品,包括 LB、VPC、ECS、RDS 等等。在传统购买模式下,我们需要单独购买每个产品,再去做一些配置。通过 ROS 我们可以一次性交付这些资源,如果这些资源需要跨地域部署,我们也可以把这个应用架构在另外一个地域快速拉起来。2016 年,阿里云推出了标签 Tag,它的功能是对所有的云资源打标签分组,只有打完多维度的标签之后,我们才能根据多维

19、度对资源进行更精细化的管理。标签 Tag 解决了管理的万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行13效率问题,也解决了安全的问题,还可以帮我们做多维度的成本分析来优化成本。2017 年,阿里云推出了弹性供应 APG,它能够大规模交付 ECS 的算力,尤其是 spot 的算力,它解决了交付效率和交付成本的问题。2018 年,阿里云推出了云助手,它是 ECS 自动化运维的通道。云助手是 ECS 内部安装的一个插件,通过这个插件用户可以在不需要登录 ECS 的情况下,就能执行远程命令完成对资源的配置。它对标开源的 ansible 工具,是做大规模批量运维的基础,解

20、决了效率和安全的问题。2019 年 6 月,阿里云推出了服务器迁移中心 SMC,它能够帮助用户在不停机的情况下,一键把应用和数据迁移上云,同时也能实现业务跨可用区迁移。2019 年 7 月,阿里云推出了运维编排 OOS,它是云上统一的自动化运维平台,能够提供定时任务、批量任务以及工作流等编排工作,解决了效率和安全性的问题。2020 年,阿里云推出了镜像构建服务,它能够帮我们做镜像的定制和自动化的构建,能够实现镜像的持续集成,还解决了 DevOps 里的持续集成的问题,提升了持续集成的效率。在提供了这么多自动化能力的基础上,2021 年阿里云推出了自动化运维套件 CloudOps的概念,它是一站

21、式 DevOps 的实践工具集,包含了我们前面提到的所有的自动化工具。2022 年阿里云发布了一个新的产品叫应用管理,以应用的维度打通 DevOps 的全流程。以上就是阿里云 CloudOps 套件过去十年的发展历程。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行14前面主要介绍了 CloudOps 套件的核心产品,但它包含的产品远不止这些,还包含很多小的工具。上图展示了目前阿里云 ECS CloudOps 全部的产品。最底层是服务于 IaaS 层的所有资源,可以分成两大块:平台侧基础能力包括计算形态、基础镜像、基础安全防护,客户侧的原子能力包括 Guest O

22、S 管理、资源分组管理等等。对于 IaaS 层基础资源的管理,我们提供的所有 CloudOps 能力可以分成五个维度。成本优化方面,CloudOps 提供了支持多种付费方式,也提供了一些成本优化的基础能力。自动化服务方面,CloudOps 提供了运维托管、批量自动化、运维通道的能力,包括刚刚提到的云助手。除此之外,我们还提供类似于 VNC workbench 的访问通道。可靠性服务方面,CloudOps 提供的能力也分成四个维度:最底层是资源的可观测能力,包括实例的健康状态、云监控,它能够对资源最底层的 Metrics 进行持续的观测。在此基础上,CloudOps 还提供了事件服务,当底层出现

23、问题的时候,我们可以通过事件的方式来通知到用户。此外,CloudOps 还提供了自助问题排查的能力,能够从实例内外部的所有配置上给用户做问题的定位和排查,快速缩短业务受影响的时长。最后,CloudOps 还万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行15提供了应用的管理来提升整个应用的可靠性。CloudOps 在弹性服务方面的能力也可以分成两个维度。最底层是根据业务需求进行弹性的扩缩容,包括弹性伸缩,能去做水平的扩缩容,此外还支持垂直的升降配,能够做预测性的扩缩容。同时,CloudOps 还提供了弹性保障的能力,当业务有计划性的大规模的资源诉求的时候。比如双十

24、一这种情况下,很多电商或者平台都会去做活动,所有服务都会有额外的算力需求。为了保证当时的业务需求能够得到资源的保障,用户可以借助CloudOps 的资源预留或者购买一些预留实例进行资源锁定的,来保证业务在最高峰期,它的资源能够得到响应和保证。安全合规服务方面主要围绕实例安全和操作安全。实例安全包括基础设施安全、数据安全、网络安全、GuestOs 安全;操作安全包括访问控制、操作审计。在这两方面,CloudOps都提供了对应的产品能力。以上五大维度最终服务于整个 ECS 的全生命周期运维。在此基础上,阿里云推出了一个新产品,ECS 使用成熟度评估与洞察(ECS Insight)。它在这五大维度的

25、基础上,识别客户在使用 ECS 的过程中面临的风险,提供优化推荐的建议,帮助业务持续提升在这五个维度上的能力。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行16下面我将围绕 CARES 这五个维度,分别举一个例子,让大家对每个工具的使用方式和适用场景有更直观的体感。第一个是成本管理。线下我们在做资源的分权和分账的时候,更多的是依赖于个人所属的组织关系。在云上,我们可以通过标签服务,对云资源的使用方和所属的部门进行详细的标识,帮助用户对具有相同特征的云资源进行分类、搜索和聚合,提升资源的管理效率。那么标签是什么呢?标签本质上就是一个键值(Key:Value),我们

26、的云资源最多可以绑定 20 个标签。举个例子,我们可以根据资源所属的地域、部门以及使用环境进行多维度的区分。因此,我们可以创建三个标签,对于每个资源,我们根据这三个维度对资源进行打标。一旦完成了打标,我们就可以从标签的视角来看详细的分类了。比如打完标之后,我们就能快速的查看北京地域所包含的资源有哪些,信息科技部这个部门包含的资源有哪些,生产环境的资源是哪些。我们也可以组合来看,北京地域下信息部的生产环境包含的资源是哪些。除了查看资源外,我们还可以对这些打完标的资源进行多维度分析。比如,我们能通过阿里云的费用中心,查看打了特定标签资源的账单和费用支出是怎样的,这是我们进行成本优化的前提。此外,一

27、旦我们给每个资源打了标签,我们就可以通过身份认证管理 RAM 功能,来指定基于标签的策略。通过这种方式我们可以制定一些标签策略,对资源的创建和管理等等合规行为进行限制。比如,我们希望限制环境=生产部门的标签资源,它只能通过什么样的方式购买,或者什么样的人才能购买环境=生产环境的资源。这样既能使整个账号下的所有资源管理是符合规定的,也能限制未来新创建的资源也符合我们所制定的合规和成本的限制。通过标签我们就能实现资源的分账和分权,提升整个资源在成本和安全维度上的管理的效率。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行17第二个是自动化。这里主要介绍一下使用运维编排

28、 OOS+云助手,实现大规模资源的管理。运维编排本质上是一个云上自动化任务编排的平台,它能够提供自动化任务的管理和执行。所谓的自动化任务包含批量操作、定时运维任务、事件驱动的自动化操作、跨地域操作等。最终,运维编排提供的是一个类似于自动化任务的管理平台,它能够实现基础设施运维即代码的能力。而云助手是一款针对 ECS 的原生自动化运维通道,它是安装在 ECS 里面的一个插件。通过云助手,我们可以在不需要密码也不需要登录实例的情况下,在实例内部做一些命令的执行、文件的上传下载、批量任务执行等等。同时,云助手还能将非阿里云的服务器注册为阿里云的托管实例。在完成托管以后,我们就可以通过运维编排的工具,

29、对阿里云的机器和非阿里云的机器进行统一的编排,实现混合云统一管理的场景。上图下侧是通过运维编排实现蓝绿发布例子。在 DevOps 的过程中,当应用出现了新版本的时候,我们需要把业务的新版本逐步更新上线,这也就意味着我们需要对老版本的 ECS进行逐步的升级,确保在业务在不中断的情况下完成新版本的升级。在传统模式下,我们只能自己写脚本或者手动实现,不仅效率低,而且容易出错。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行18通过运维编排,我们可以把一组老版本的 ECS 打上同一个标签,运维编排可以分批次的把这些 ECS 实例从负载均衡上卸载,并通过镜像更新的方式或者执

30、行脚本的方式,分批次把目标 ECS 进行升级。在升级的过程中,可能需要先把 ECS 从负载均衡上解绑,更新版本,更新完之后再把 ECS 挂载回原来的负载均衡上对外提供服务。如果这个过程失败了,我们可以进行回滚。当第一批 ECS 执行完毕后,我们可以观察一段时间,确保没有问题后再进行第二批 ECS 进行重复的操作进行升级,直到最后一批资源被替换成新版本,这个滚动升级才结束。与之前手动或脚本方式相比,通过运维编排我们只需要指定好需要分几个批次对这些资源进行升级、升级的方式以及在这个过程中我们要执行哪些额外的操作。运维编排会自动的把这个版本进行升级,提升整个应用的发布效率。第三个是可靠性。阿里云提供

31、了非常多精细化的运维能力来提升整个应用的可观测性和可靠性。可观测性解决了异常提前识别的能力,而可靠性是提升了整个应用的可靠性。虽然阿里云提供了业界领先的 SLA,即单个实例的 SLA 在 99.975%,而跨 AZ 多实例的可靠性的 SLA 是 99.995%,但我们也无法说 ECS 是 100%可靠的。如何进一步提升应用的可靠性万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行19呢?这里我们主要提供了三个能力。第一,系统事件。阿里云在过去十几年服务上万家企业客户的经验中,沉淀了非常完善的故障预测机制和热迁移能力,当发现底层宿主机存在软硬件异常时,通过热迁移将其上

32、的ECS 无感地迁移到健康的宿主机上去,避免单个 ECS 实例不可用,最终实现了阿里云单个实例 SLA 为 99.975%,业界领先。虽然单个实例的 SLA 非常高,但并不意味着 ECS 是 100%可靠的。当 ECS 因为底层基础设施出现异常的时候,比如 ECS 底层的宿主机出现宕机,影响了上面的 ECS,阿里云会及时的给用户推送运维事件,告诉用户,方便用户快速的感知基础设施的问题。同时,阿里云的故障预测能力识别到 ECS 底层宿主机的潜在宕机风险,如果 ECS 无法通过热迁移进行规避,阿里云也会通过主动运维事件(也叫计划内运维事件)提前通知用户,让用户选择业务低谷期进行响应。所以系统事件反

33、映的是对底层基础设施可靠性的可观测能力。第二,部属集。如果应用对底层基础设施的可靠性非常敏感,我们可以通过部署集来指定集群里的 ECS 在不同宿主机上的分布策略。比如我们可以指定 ECS 尽量打散在不同的宿主机上,这样能降低单台宿主机出现的问题,给整个业务集群带来的风险的影响面。第三,ECS 诊断工具。诊断工具可以一键扫描并识别 ECS Guest OS 的内部异常和外部风险。ECS 外部问题主要包括 ECS 的售卖状态、安全组的配置策略、管控的状态是否正常;内部异常包括 Guest OS 系统配置、重要文件配置、常见服务状态等。通过 ECS 的诊断工具,我们能够快速的定位并解决 ECS 无法

34、远程连接、无法启动、性能受损、重复宕机的问题等。借助这三个能力,我们就能快速地提升应用的可观测性和可靠性,够缩短业务的受损时长。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行20第四个是弹性。这里主要介绍一下通过弹性伸缩提升应用高可用的能力。弹性能力其实是云最基本的能力,也是最能体现云厂商实力的能力。弹性伸缩是根据业务负载的波动自动调整算力的管理服务,所以它所支持的扩缩容的模式越多,能够适配的场景也越多。目前,阿里云的弹性伸缩支持定时的模式、动态的模式、手动的模式、智能模式等组合使用,来更好地匹配业务的变化方式。弹性伸缩支持配置多个可用区和多种实例规格,这样能够

35、避免应用经受单个可用区出现问题时候的高可用能力。给大家看一个简单的例子,对于线上服务而言,在传统的方式下,如果是人工的方式去响应,它会存在一些问题。如果我们前期按照峰谷的方式配备资源,我们就会发现在业务低谷期时,就会产生严重的资源浪费。反之如果出现了超出业务需求的场景下,我们也会出现资源不足的情况。同时当业务的变化比较频繁的时候,如果我们需要人工去介入,那么整个人工介入的时效性以及数量规划的要求是很高的。人工响应也会比较慢,一旦人工没有及时响应或者判断失误,就会导致业务受损。所以,在这种情况下,弹性伸缩可以很好地解决这个问题。此外,我们在弹性伸缩过程中组合使用按量和 spot 实例能够进一步的

36、降低成本,但它的确也是有门槛的。因为 spot 实例的成本非常低,但它只有一个小时的保护期。如果超过了一万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行21个小时,就需要根据市场的价格波动来决定用户是否能继续使用该实例了,如果出价低于它的市场价,这个 spot 实例可能会被回收。目前,弹性伸缩组可以和负载均衡包括 SLB、ALB、NLB 进行自动的联动,也可以和 RDS、PolarDB、ADB 等数据库进行自动关联。我们只需要通过伸缩配置和启动模板来指定伸缩组每次扩容出来的实例长什么样,以及通过伸缩规则指定扩缩容的时间。在这个过程中,弹性伸缩就会根据业务的波动自动

37、的进行扩缩容,最终让资源的量和业务的负载波动进行完美的匹配,实现业务的高可用,同时也能够降低使用成本。第五个是安全。ECS 的安全能力是需要云厂商和客户共同构建的,所以云上的安全能力遵循责任共担的模型。云厂商负责云本身的安全性,即云厂商需要对底层的基础设施和操作系统之上的虚拟化和云产品负责,它是 ECS 所依赖的底层基础设施。而客户负责云上的安全,即客户则需要负责和配置使用 ECS 所有相关的配置来提升 ECS 本身的安全性。要体系化建设 ECS 的安全能力,首先需要了解 ECS 的系统架构。上面这张图其实展示了 ECS的完整架构,分成上下两大部分,与前面提到的云厂商和客户各自负责的范围是对应

38、的。底层是基础设施,比如地域、可用区、硬件设备,它包括计算资源、服务器、存储、网络万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行22设备等硬件设备,还有底层虚拟化的软件服务,这是 ECS 依赖的基础设施。这部分的安全性是由云厂商来保障。上层就是 ECS 实例本身,也是客户直接能看到并能管理操作的部分。实例操作系统内属于客户的范畴,云厂商无权查看或访问实例内的数据,所以,ECS 实例本身的安全需要客户自己来把控。从业务角度来说,ECS 实例也会分成几层,包括最底层的 Guest OS,即镜像和操作系统,应用程序,然后是客户数据等。因此,要提升 ECS 本身的安全性

39、,我们可以把它分成几个方面。Guest OS 安全,主要指的是操作系统的安全。比如我们使用的镜像有没有进行安全加固,我们是否需要使用等保合规的镜像,这是操作系统安全的基础。访问安全,主要指的是哪些用户能够访问 ECS,哪些用户不允许访问,访问的时候是否要使用非 root 的账号等。访问安全决定了实例是否会被非授权访问。网络安全,更多指的是做网络的隔离和网络的访问控制。比如 VPC 的网络隔离,ACL的访问控制,以及安全组的安全规则的限制,来提升整个网络的安全。以上几个安全性更多是单个垂直维度,如果我们想提升 ECS 的数据安全,它就涉及到端到端的安全体系建设,包括对计算中的数据进行加密,对数据

40、的落盘、存储进行加密,以及当灾难出现的时候,能够做到快速恢复数据等。由于这部分属于客户的数据范围,需要客户自己进行配置,但阿里云在这个维度上也为用户提供了非常多自动化的能力,来帮助用户提升 ECS 在云上的安全性。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行23通过前面五个维度的介绍,我相信大家对 CloudOps 在成本、自动化、可靠性、弹性、安全合规,这五个维度能够帮大家解决的问题有了一个初步的了解。但还有一个产品我没有介绍,就是 ECS 使用成熟度评估与洞察,下面我们来看一下这个产品能够帮大家解决什么问题。3.ECS 使用成熟度评估与洞察(ECS Ins

41、ight)介绍万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行24ECS Insight 是一站式的业务风险识别与修复中心,它是 CloudOps 一脉相承过来的产品。ECS Insight 从 CloudOps 定义的 CARES 五大维度出发,基于客户在云上沉淀的最佳实践和当前客户在 ECS 的使用情况,最终分析当前客户在 ECS 上存在的业务风险,并提供优化推荐。只不过 ECS Insight 在 CloudOps 的五大维度上,增加了基础能力,作为阿里云的额外补充。所以,它的工作原理是对整个账号下以 ECS 为核心的相关资源的使用情况进行分析,包括对资源的

42、分布、权益类的服务、工具的使用情况等。为了提升风险识别的完整性,我们需要覆盖更多的资源类型,并对这些资源的使用情况进行全方位和长周期的数据采集和分析,之后我们结合云上企业在行业的最佳实践,给用户提供指南。最后 ECS Insight 的产出包含两个部分:第一部分是刚刚提到的 CARES 五大维度再加一个 ECS 的基础能力,从六大维度上给用户提供对应分值的评估。第二部分是在这些分值评估中,我们会识别这些问题的严重程度,并针对每个程度给用户推荐优化建议。对于一些高危项和警告项,我们希望用户尽快修复。而对于一些提示项和不适用项,我们会建议用户忽略。这就是 ECS Insight 的大概工作原理。万

43、字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行25接下来我将给大家看一下 ECS Insight 的一个简单的 Demo。ECS Insight 这个产品在 2023 年 3 月份做了第一次的版本发布。上面的截图是一个老版本的视图,它可以分成三个大模块。第一个是对整个账号下的 ECS 的使用成熟度进行全面的评估,能够看到当前的账号,在各个维度上的分数以及分布情况;第二个是对于失分项的概况;第三个是快速了解失分项,以及对应的最佳实践,及时进行风险修复。在此基础上,我们计划在今年的 10 月份对 ECS Insight 进行第二次的版本迭代。上面的截图是新版本的 UI

44、 视觉,这个新的视觉和旧版的一样也分成了三个大模块。首先,还是对整个成熟度进行全面的评估,之后我们会在失分项这里,根据问题的严重程度进行分别的展示;对于高危项我们会呼吁用户尽快修复,否则真的会对业务造成一个比较严重的影响;对于警告项,我们需要及时的采取行动;对于不适用项用户是可以忽略的。对于这些高危项,我们在新的版本里面增加了一些内容。第一个是告诉用户受影响的资源是哪些,第二个是它带来的风险是什么,第三个是我们把修复建议写的更明确。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行26在这个基础上,用户可以对于失分项展开看它的详情。比如这个评分项的评分规则是怎样的、

45、当前的问题是什么以及修复受影响的资源有哪些。在这里,对于受影响的资源我们也提供了快捷的操作入口,方便用户快速的采取修复行动,降低整个业务受影响的时长。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行27下面我将对 ECS Insight 各个维度的能力进行一个简单的介绍,方便大家快速地了解 ECSInsight 在每个维度上能够识别什么样的风险,以及能够帮我们解决什么样的问题。首先看一下 ECS 的基础能力。这一部分主要在计算、存储、网络、账号与资源管理这四个维度,来看一下当前的 ECS 和关联资源的分布是否合理,在性能和高可用维度是否存在风险,并且提供优化建议。

46、这个能力评估来源于以下三大客户痛点:第一,ECS 实例规格繁多且不断演进。目前为止阿里云提供了超过 1000 种实例规格,而且每年还会推出新的实例规格。同时对于一些老的规格,比如经典网络的实例,这些实例不仅性价比低,而且对于一些实例的新特性它们无法使用。那么在这种情况下,如果我们持续的保有老规格,不仅性价比比较低,而且限制也会比较多。第二,云盘类型和性能无法满足要求。阿里云早年推出的高效云盘或者老的本地盘,它们已经非常久远了,且已经无法满足当前业务读写的性能要求了。如果我们没能对这些老旧磁盘或者性能偏低的磁盘进行及时的升级,也会导致业务受到一定的影响。第三,大规模资源管理复杂。如果我们的资源只

47、有一两台倒还好,当我们的资源规模达到一定程度之后,我们想要对资源进行快速地查找,以及对于资源的管理也会面临挑战。所以在这种情况下,我们如何进行一些比较精细化的管理,避免一些误操作,也是我们面临的风险。基础能力就是基于以上三个维度识别 ECS 当前面临的风险,并且提供优化建议。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行28第二个是成本洞察的能力。正如前面所说的,大家对云上成本的管理和优化都有非常强的诉求。但如何进行成本管理和优化,其实是很多客户的痛点。云上客户在成本管理面临的痛点包括:第一,ECS 付费方式和实例规格繁多。阿里云提供了包年包月、按量、抢占式、预

48、留实例券 RI、节省计划 SP 等多种付费方式和权益,方便用户灵活选择。但如何选择和业务形态最匹配的实例规格,并且能够根据业务的波动判断当前的实例规格和业务的形态是否最匹配,来实现业务的高可用,同时降低成本。第二,无法快速根据不同维度核算成本支出。因为在云上是很多用户共同使用这个账号,不同的团队/人员,在创建资源的时候可能没有按照标准进行打标和分类,就会导致我们无法根据不同的维度快速的核算成本。所以如何快速的识别这一部分风险,并对它进行区分是目前客户面临的第二大痛点。第三,实践 FinOps 持续优化成本面临数据不足。成本的持续优化离不开资源历史使用率的数据支撑,存储和分析大量历史数据面临门槛

49、高、数据不足等多个问题。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行29在这个基础上,ECS Insight 成本洞察的能力,它也分成了三个层级来给用户做风险的识别和推荐。初级是识别闲置或低使用率资源,推荐用户通过降配、停机不计费等方式进行优化,避免资源浪费。进一步是借助权益类产品,比如通过预留实例 RI、节省计划 SP 等权益产品,进一步降低按量资源的使用成本。更进一步就是借助标签、财务单元、预算管理等多种工具,进行成本精细化分析与优化,端到端持续管理并优化成本。以上就是 ECS Insight 在成本管理方面的产品能力。第三个是自动化的能力。它主要解决的用

50、户痛点包括以下三个:第一,自动化能力不足,从前面 Flexera 的分析报告也可以看到,很多客户就是因为能力或资源不足,导致很多的日常运维都需要人工操作,或者需要自己写脚本来做,那么就会万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行30导致整个操作周期长,很多脚本无法正常维护的问题,还容易出现误操作,导致运维风险非常高。第二,脚本难统一维护或形成规范,如果运维团队的管理不规范,每个运维脚本都会由每个工程师独立去维护,整个操作是不透明的,很容易出现和预期不符的误操作,最终导致运维风险。第三,自服务能力缺失,在传统的模式下,基本上所有的日常运维都需要运维团队的人工响

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服