资源描述
CloudOpsCloudOps自动化运维,助力云上业务高效稳定运行自动化运维,助力云上业务高效稳定运行马小婷阿里云弹性计算高级产品专家借助云上原生工具与能力,实现业务的持续优化Contents内容提纲云上业务持续运行面临的挑战0102ECS自动化运维(CloudOps)的产品大图03ECS使用成熟度评估与洞察(ECS insight)介绍04总结与展望云上业务持续运行面临的挑战01安全合规问题系统安全应用安全数据安全如何在云上构建系统的安全合规等级?提升安全合规等级可用性问题Fast如何快速创建大量的资源来满足业务需要?充分利用云上弹性稳定性问题requests如何构建可靠的系统来满足稳定性要求?提升平均无故障时间(MTBF)效率问题Auto如何降低云上的资源维护和管理成本?降低运维成本 Opex成本问题如何以更低的资源成本来满足变化的业务场景?降低拥有成本 CapexECS客户面临的主要问题数据来源:Flexera 2023 State of the Cloud Report管理云上成本治理中心云团队/业务部门责任平衡多云管理安全资源/技能不足合规软件许可证管理云迁移云上Top 3挑战:成本、安全、资源/技能不足自动化提效成本管理弹性高可用稳定可靠安全合规云上业务持续运营面临的挑战ECS自动化运维(CloudOps)的产品大图02CloudOps是什么?1.CloudOps指的是云上自动化运维,是一种运维理念 CloudOps=Cloud x DevOps,强调的是充分利用云本身的特性更好地实践DevOps,加速业务价值的快速稳定交付,包括云的高弹性、高度标准化、高自动化和自助服务模式等。CloudOps同时定义了企业在上云、用云以及管云过程中重点关注的五个维度,分别是成本Cost、自动化Automation、可靠性Reliability、弹性Elasticity、安全性 Security,缩写为CARES。2.CloudOps是阿里云提供的一套自动化运维套件的总称 围绕着CloudOps理念的CARES五大维度,阿里云均提供了对应的自动化和自服务工具,助力企业实现DevOps全流程的可感知、可衡量、可控制,持续解决成本、效率、稳定性、可用性和安全性的问题。自动化能力Automation弹性能力Elastic可靠性能力Reliability安全合规能力SecurityCostC A R E S 五大维度成本优化成本安全稳定效率可用CloudOps的基础概念2010云服务器ECS阿里云的第一款云产品弹性伸缩ESS第一款CloudOps产品,实现ECS的自动水平扩缩容20142015资源编排ROS第一款IaC产品,提升基础设施部署效率2016标签Tag多维度资源分组管理工具,实现ECS精细化管理2017弹性供应APG大规模ECS算力混合交付工具2018云助手ECS自动化运维通道,无需登录即可远程执行命令2019.6服务器迁移中心SMC不停机一键迁移上云,或跨可用区迁移2019.7运维编排OOS云上统一的自动化运维平台,提供自动化编排、批量编排,配置管理等能力2020镜像构建服务镜像定制与自动化构建服务,实现基于镜像的持续集成2021自动化运维套件CloudOps一站式云上DevOps实践工具集,提升Ops全流程的效率2022应用管理从应用维度进行devOps全流程打通成本可用安全稳定效率效率成本效率安全效率安全效率效率效率效率成本ECS CloudOps套件-10年发展历程平台侧平台侧基础能力基础能力用户侧原子用户侧原子能力能力Guest OS管理(CloudInit、userdata等)资源分组管理(标签、资源组、RAM等)计算形态(ECS、EBM等)基础镜像(Linux、Windows等)基础安全防护(基础版DDOS高防等)成本优化Cost资源报表性能优化推荐成本优化包年包月按量付费抢占式实例 Spot预留实例券 RI节省计划 SP多种付费模式应用管理ROS资源复制可靠性服务Reliability应用管理实例健康状态云监控可观测能力日志服务 SLS应用监控 ARMS实例健康诊断实例无法启动自助排障网络端到端诊断安全组诊断运维+资源状态变化事件事件订阅事件服务基础设施安全安全合规服务Security实例安全数据保护网络安全GuestOs安全访问控制RAM操作安全操作审计ActionTrail日志服务 SLS弹性伸缩 ESS弹性服务Elasticity弹性扩缩容垂直升降配智能预测扩缩容预留实例 RI弹性资源保障预留容量宝容量预定弹性供应组自动化服务Automation标签服务Tag服务器迁移中心批量自动化能力运维编排 OOS资源编排 ROS实例启动模板阿里云客户端Aliyun clientworkbenchVNC云助手Session Manager实例运维通道实例托管Managed Instances托管运维补丁管理patch manager配置清单InventoryLicense管理LicenseManagerIAAS层基础能力面向ECS全生命周期运维CloudOps落地指南ECS使用成熟度评估与洞察(ECS Insight)CloudOps的产品大图ECSOSSECSECSOSSOSSVPCVPCVPCKeyValue地区部门环境北京区信息部生产标签资源视角VPC地区:北京区部门:信息科技部环境:生产ECSECSOSSOSSECSECSECSOSSVPCECSOSSVPC标签视角无当前标签:环境生产测试预发1、费用中心支持标签维度查看账单,实现精细化分账不带标签,则没有权限进行操作2、RAM支持基于标签的策略,实现精细化权限控制标签服务(Tag)是对云资源的一种标识方式,帮助用户对具有相同特征的云资源进行分类、搜索和聚合,提升资源的管理效率。标签是由键值对(Key:Value)组成,一个资源最多允许绑定20个标签,分为系统标签、创建者标签、预置标签和自定义标签。用户可以通过定义标签策略,对资源进行创建、管理等合规限定操作,提升企业在标签分账、标签分权、基于标签的自动化运维等场景上的管理效率。【成本】使用标签Tag,实现资源分账和分权运维编排(Operation Orchestration service,OOS)是一个云上自动化任务编排平台:提供了自动化任务的管理和执行,包括批量操作、定时运维任务、事件驱动的自动化操作、跨地域操作等,最终实现基础设施运维即代码(Ops asCode)。云助手是一款针对ECS的原生自动化运维通道:支持免密码、免登陆、免跳板机进行批量运维、执行命令、发送文件等操作。云助手还支持将非阿里云服务器注册为阿里云托管实例,注册完成后,可直接使用OOS等云服务直接管理该托管实例。Rolling开始VPCECSECSECSECSECSECSECSECSECS批次一批次二批次三ECS从负载均衡卸载,不提供服务更新镜像执行脚本ECS挂载到负载均衡,对外提供服务重试回滚继续执行下一批执行下一批Rolling结束利用OOS完成蓝绿发布、金丝雀发布等,实现业务不中断的持续发布【自动化】使用运维编排OOS+云助手,实现大规模资源的管理云厂商单个实例 可用性 SLA跨AZ多实例 可用性 SLA阿里云99.975%99.995%友商A99.5%99.99%友商B99.95%99.99%业界领先的SLA丰富的可观测能力精细化运维30个全球区域89个可用区120+POP节点3200+边缘节点分布广泛的基础设施在单实例提供99.975%SLA的基础上,提供更精细化的运维能力:系统事件:提升对底层基础设施可靠性的观测能力,及时感知基础设施风险 部署集:指定ECS在不同宿主机上的分布策略,减少单台物理机故障带来的影响面。ECS诊断工具:一键识别ECS外部风险和Guest OS内的异常问题,快速定位并解决实例不可用或异常问题。部署集ECS诊断工具系统事件【可靠】精细化的运维能力,提升应用的可观测性和可靠性弹性伸缩服务(ECS Elasticity Service,ESS)是一种根据用户业务负载波动,自动的经济地调整弹性计算资源的管理服务。支持多种扩缩容模式组合使用,包括定时模式、动态模式、手动模式和智能模式等,实现业务负载波动与资源需求的动态匹配。支持同时指定多个可用区和多种实例规格,提升应用的高可用能力 支持按量与spot实例组合交付,结合成本最优的扩容策略,实现双重成本优化业务负载资源量资源浪费资源不足人工介入业务负载资源量人工介入资源无法有效满足业务变化响应速度慢自动伸缩,减少人工介入有效满足业务变化降低资源费用响应速度快数据库定时扩缩容动态扩缩容手动扩缩容最小实例数期望实例数最大实例数VPC多可用区多实例规格伸缩模式生命周期挂钩挂起扩缩容流程通知自动化处理伸缩配置/ECS启动模板SLBSLB、ALBALB、NLBNLB自动挂载自动关联RDS、PolarDB、ADB等传统模式下的弹性场景弹性伸缩组使用弹性伸缩后【弹性】使用弹性伸缩,提升应用的高可用客户客户“云上”的安全性责任云服务商云服务商“云本身”的安全性责任客户数据平台、应用程序、身份和权限管理操作权限、网络和防火墙配置客户端数据加密与数据完整性验证服务器端加密(文件系统和/或数据)网络流量保护(加密、完整性、身份)软件计算存储数据库网络硬件及基础设施区域可用区边缘站点 云平台:负责基础设施和操作系统之上的虚拟化和云产品层的安全 客户:负责配置和使用各种云上产品,构建自己的云上应用和业务安全的责任共担模型 基础设施的安全性:包括物理主机安全、硬件安全加固、虚拟化安全等,提供安全、合规、可靠服务所需的基础设施 云服务的安全性:包括ECS控制平面的安全与合规性,数据安全、通信安全及合规性等全方位的安全保障。数据安全:故障容灾恢复、快照备份恢复、存储加密、可信计算、加密计算等能力。网络安全:通过使用VPC网络隔离、网络ACL访问控制、PrivateLink私网连接、安全组实例,级别虚拟防火墙等方式提升网络安全性。访问安全:身份与访问安全支持用户维度的访问控制。GuestOs安全:镜像安全加固、等保合规镜像、非root身份登录、系统补丁修复云厂商:“云本身”的安全性客户:“云上”的安全性双方的责任边界【安全】共同构建全方位的ECS安全能力平台侧平台侧基础能力基础能力用户侧原子用户侧原子能力能力Guest OS管理(CloudInit、userdata等)资源分组管理(标签、资源组、RAM等)计算形态(ECS、EBM等)基础镜像(Linux、Windows等)基础安全防护(基础版DDOS高防等)成本优化Cost资源报表性能优化推荐成本优化包年包月按量付费抢占式实例 Spot预留实例券 RI节省计划 SP多种付费模式应用管理ROS资源复制可靠性服务Reliability应用管理实例健康状态云监控可观测能力日志服务 SLS应用监控 ARMS实例健康诊断实例无法启动自助排障网络端到端诊断安全组诊断运维+资源状态变化事件事件订阅事件服务基础设施安全安全合规服务Security实例安全数据保护网络安全GuestOs安全访问控制RAM操作安全操作审计ActionTrail日志服务 SLS弹性伸缩 ESS弹性服务Elasticity弹性扩缩容垂直升降配智能预测扩缩容预留实例 RI弹性资源保障预留容量宝容量预定弹性供应组自动化服务Automation标签服务Tag服务器迁移中心批量自动化能力运维编排 OOS资源编排 ROS实例启动模板阿里云客户端Aliyun clientworkbenchVNC云助手Session Manager实例运维通道实例托管Managed Instances托管运维补丁管理patch manager配置清单InventoryLicense管理LicenseManagerIAAS层基础能力面向ECS全生命周期运维CloudOps落地指南ECS使用成熟度评估与洞察(ECS Insight)CloudOps的产品大图ECS 使 用 成 熟 度 评 估 与 洞 察(ECS insight)介绍03默认包含用户单个UID下所有的IaaS资源与分布、权益类服务及对应工具的使用情况,包括快照、节省计划、ESS、ROS、OOS。020406080100ECS基础能力成本洞察能力自动化能力可靠性能力弹性能力安全性能力自动从云监控、操作日志、资源管控行为等获取IaaS资源在基础、成本、自动化、弹性、稳定性和安全性六大维度过去30天的历史数据,并利用ML建模并分析资源覆盖面ECSSpot实例快照运维编排资源编排标签弹性伸缩节省计划云助手丰富的数据来源行业最佳实践指南长周期的数据分析全方位的数据采集与分析ECS Insight1、ECS使用成熟度现状(T+1天)2、成熟度提升的优化推荐ECS Insight:一站式的业务风险识别与修复中心 从CloudOps定义的五大维度出发,基于客户的ECS使用数据以及云上最佳实践,为用户提供ECS业务风险识别与优化推荐。ECS使用成熟度评估与洞察(ECS Insight)-工作流程1、查看ECS使用成熟度评估现状全貌(T+1天 更新)2、了解每个维度的评分项与得失分详情3、快速了解失分项,以及对应的最佳实践,及时进行风险修复ECS使用成熟度评估与洞察(ECS Insight)-老版本1、查看ECS使用成熟度评估现状全貌(T+1天 更新)2、了解各个维度失分项对应问题的严重程度3、查看失分项存在的问题和风险,以及修复方案ECS使用成熟度评估与洞察(ECS Insight)-新版本4、查看受影响资源,并快速采取修复行动ECS使用成熟度评估与洞察(ECS Insight)-新版本ECS基础能力评估计算基础能力存储基础能力网络基础能力账号与资源管理能力用户痛点1.ECS实例规格繁多且不断演进:阿里云目前提供超过1000+种实例规格,经典网络实例和老的实例规格不仅性价比相对较低,而且也无法使用部分新的功能和特性,限制较多。2.云盘类型和性能无法满足要求:高效云盘已无法满足业务读写的性能要求,可能导致业务受损,需及时进行升级。3.大规模资源管理复杂:当资源数量达到一定规模后,资源查找面临挑战;同时随着用户数增长,如何进行精细化的资源管理避免误操作等风险也面临巨大挑战。产品能力从计算、存储、网络、账号与资源管理四个维度,评估当前账号下所有ECS和关联资源分布是否合理,识别业务在性能、高可用等维度存在的潜在风险,并提供优化建议。评估ECS实例的磁盘再过去一段时间内是否存在性能风险评估ECS实例对应的网络访问配置是否存在高危风险评估ECS实例在地域、可用区、实例规格族的分布上是否合理,避免所有资源聚集在单一可用区的高可用风险,以及老旧实例规格带来的稳定性风险评估账号下是否做了合理的资源分组、分权等管理配置ECS Insight-ECS基础能力用户痛点产品能力1.ECS付费方式和实例规格繁多:如何选择跟业务形态匹配的实例付费方式,并根据业务波动调整实例规格,在实现业务可用性的同时降低持有成本面临较大挑战。2.无法快速根据不同维度核算成本:如何根据不同团队,不同业务等多个维度核算云上支出,依赖底层资源的分类和使用者识别。3.实践FinOps持续优化成本面临数据不足:成本的持续优化离不开资源历史使用率的数据支撑,存储和分析大量历史数据面临门槛高、数据不足等多个问题。成本洞察能力基础的成本优化能力按量权益抵扣能力高级成本分析能力ECS降配ECS停机不计费购买抢占式实例使用性价比更高的实例规格1.(初级)识别闲置或低使用率资源,避免浪费:推荐通过降配、停机不计费、抢占式购买等ECS能力,满足不同使用场景,避免资源浪费2.(中级)借助权益类产品,进一步优化成本:通过预留实例、节省计划SP等权益产品,进一步降低按量资源的使用成本。3.(高级)支持成本精细化分析与优化:借助标签、财务单元、预算管理等多种工具,端到端持续管理并优化成本。购买预留实例RI购买并使用节省计划 SP使用分账能力使用预算管理使用成本分析包年包月节省计划按量抢占式ECS Insight-成本洞察能力(Cost)用户痛点产品能力1.自动化能力不足:受技术能力或业务发展阶段限制,日常运维管理都需要人工操作,比如资源部署,应用发布等,不仅操作周期长,而且还容易误操作,运维风险不可用。2.脚本难统一维护或形成规范:运维脚本由每个运维工程师独立管理和维护,操作不透明,难以维护和复用。3.自服务能力缺失:所有日常运维都需要运维团队人工响应,研发团队无法自助完成简单的运维场景,协同成本高效率低。1.(初级)通过控制台或OpenAPI完成资源的基础管控操作:通过半手动、半自动化的方式进行基础管控,包括资源创建、释放、排障等。2.(中级)借助云上自服务工具,实现自动化管理:借助ROS、云助手、实例访问工具等进行自动化集成,基于trigger方式实现高度自动化管理。3.(高级)组合多种自服务工具,实现统一的标准化运维:借助云上统一运维中心OOS、软件包、参数管理等工具,构建平台系统,实现标准化作业和统一化运维。自动化能力自动化基础能力自动化进阶能力自动化高阶能力借助ECS控制台或Open API进行类似开机、关机、创建、释放等基础管理操作借助资源编排、运维编排等工具,完成部分的IaC、Ops as code的管理组合使用OOS、ROS、运维事件等工具,实现devOps等流程完全自动化响应ECS Insight-自动化能力(Automation)用户痛点产品能力1.应用的高可用能力不足:业务的稳定性过度依赖底层基础设施的稳定性,应用本身不具备高可用架构,导致单个资源的故障直接影响业务的可用性。2.无法满足差异化的稳定性诉求:不同业务团队对基础设施稳定性的诉求不同,核心业务对变更周期、运维窗口等要求较高,线下协同不仅成本高、周期长,而且还存在无法支持的情况。3.问题定位周期长:当发生故障时,缺少自动化工具快速进行常规异常的排查,导致问题定位周期长,业务难快速恢复。1.(初级)基础设施资源部署在多个可用区,避免大规模故障:将业务底层基础资源进行分开部署,不仅可以充分利用单个实例的稳定性,还能借助精细化的运维能力提升业务的可靠性。2.(中级)多地域部署,且具备高可用架构:对核心业务跨地域部署,且周期性进行备份,同时提升业务和数据的高可用水平。3.(高级)备异地多活的能力和应用维度的监控策略:对应用进行多维度的监控,结合可观测工具、故障演练、故障注入等方案对应用可靠性进行验收。稳定性能力实例稳定性数据可靠性性能可靠性借助运维窗口,运维属性等能力,降低单个实例对整个业务的稳定性影响程度借助快照进行周期性数据备份,提升关键业务上数据的可靠性实时监控实例在CPU、内存、网络等关键性能维度的波动,快速响应性能异常ECS Insight-可靠性能力(Reliability)用户痛点产品能力1.临时弹性需求规模大,交付周期长:对于类似年度大促等大规模活动的临时弹性需求,在线下IDC中不仅需要提前规划,而且交付周期长。2.资源交付无法很好地匹配业务波动:如果提前扩容,会存在资源浪费的情况,如果人工进行扩容,则可能因扩容不及时导致业务受损,影响客户体验和业务效果。3.资源管理不灵活导致成本浪费:当业务负载下降之后,如果不及时释放不需要的资源,会带来资源和成本的浪费。1.(初级)手动或半自动满足临时弹性需求:包括通过控制台或OpenAPI批量交付或释放按量的ECS实例,满足临时突发的弹性需求。2.(中级)自动根据业务波动进行资源管理:根据业务关键指标的波动,自动创建或释放人为指定数量的资源,但是无法满足超出预期的资源需求。3.(高级)全自动化地弹性资源管理:根据业务负载与当前资源的偏差,自动计算资源缺口,并动态调整资源进行自动化响应,实现业务高可用和低成本的双重价值。弹性能力基础弹性能力进阶弹性能力弹性韧性充分利用云上的弹性优势,包括按量付费、弹性扩容等能力利用弹性伸缩的能力,实现资源跟随业务峰谷波动,自动水平扩缩容,提升业务可用性借助弹性伸缩的生命周期挂钩、弹性强度评估等能力,实现个性化的弹性联动,提升弹性的灵活性需求资源资源浪费资源浪费资源需求资源浪费资源浪费不好的用户体验损失用户损失收入提前扩容,超配资源人工扩容1.资源利用率低2.前期成本投入大1.人工成本高、反应慢2.用户体验差ECS Insight-弹性能力(Elasticity)用户痛点产品能力1.安全意识不足:对于关键业务的关键数据,缺少安全防护意识,导致实例被攻击或入侵后重要数据被删除。2.日常运维操作缺少安全审计与限制:不管是登录ECS,还是对ECS做一些高危操作,由于权限管控不够精细化,导致误操作的问题难回溯;3.安全实践落地门槛高:如何系统化地推进安全实践落地(DevSecOps),包括及时扫描并发现不符合安全规范的安全问题。1.(初级)访问安全:对于资源的访问设置更安全的访问方式,并支持对各种方式访问资源的行为进行安全审计,实现ECS的安全访问。2.(中级)数据安全:通过定期数据备份和数据加密的能力,提升关键业务和高敏数据的安全性。3.(高级)应用安全:通过安全组端口访问规则、漏洞自动化修复、以及WAF、DDOS等能力端到端提升应用的安全性。双方责任边界安全性能力访问安全性数据安全性应用安全性对资源的访问方式和访问行为进行操作审计,并支持访问权限管理,提升资源访问的安全性通过数据备份、数据加密等方式,实现数据容灾和数据隔离,提高重要数据的安全性从实例、端口、系统本身、应用本身等端到端保障业务的安全性ECS Insight-安全性能力(Security)总结与展望04ECS使用成熟度评估与洞察(ECS Insight)提供更完善、更精细化的指标分析,识别业务潜在风险,并指导业务进行定向优化持续完善CloudOps服务支撑能力为提升用户的CloudOps成熟度提供能力支持,赋能用户真正充分发挥云的优势,助力业务高质量交付010203040506070800-ECS基础能力1-成本洞察能力2-自动化能力3-可靠性能力4-弹性能力5-安全性能力持续优化并提升CARES五大维度的评分准确度总结与展望CloudOps 自动化运维白皮书附录 白皮书下载ECS 省钱指南:如何选择与业务形态最匹配的付费方式省钱指南:如何选择与业务形态最匹配的付费方式蒋超阿里云弹性计算技术专家云上成本优化:ECS付费方式与资源规格选购Part 1Part 1创建ECS的各种方式及使用场景Part 2Part 2云上成本控制的重要性Flexera 2023年云状态报告数据显示:十年来,云成本管理首次超过安全成为云使用者面临的首要问题。82%的受访者认为当前最大的挑战是管理云计算支出。中国信息通信研究院的云MSP服务发展调查报告显示:成本优化成为企业云管理的首要需求。云上成本优化的方法选取合适的付费方式01包年包月按量抢占式实例预留实例券节省计划选取合适的资源规格02通用计算异构计算高性能计算提升资源利用率03资源使用率优化抵扣产品覆盖率优化架构优化选取合适的付费方式01付费方式介绍基础:资源交付类基础:资源交付类演进:折扣权益类演进:折扣权益类进阶:保障权益类进阶:保障权益类按量付费抢占式实例预留实例券节省计划容量预定灵活性经济性确定性灵活性经济性确定性经济性经济性确定性(可用区级)确定性确定性经济性包年包月灵活性经济性、灵活性、确定性 三者的平衡按量体系包年月体系竞价体系抢占式实例合理使用ECS抢占式实例,客户最高可节省90%经营成本(相比按量付费),可以使用相同的预算,最多可以将计算容量提升10倍1.抢占式实例对客的价值创建抢占式实例实例创建成功用户设置价格市场价格同时库存资源充足实例稳定运行1小时1小时后,每5分钟系统自动检测用户设置价格和市场价格,以及库存资源供需情况实例继续运行实例被自动释放用户设置价格市场价格同时库存资源充足用户设置价格 触发一次自动清理程序示例:应用系统负载过高-触发应用弹性扩容磁盘空余不足磁盘空间清理调用云助手执行命令云监控多云主机云助手运维编排系统负载过高加入到应用组创建新实例云监控应用分组云服务器弹性伸缩自动处理报警事件希望能自动处理报警内容,减少人工参与的环节用户的诉求:保障服务器运维的安全保证权限被正当的使用希望能审计用户的操作历史使用云助手任务记录希望能按内容搜索操作记录将操作记录投递到SLS日志希望能长期低成本保存记录将操作记录投递到OSS文件运维操作审计团队多人负责运维一组机器,怎样能证明谁做过什么,和没有做过什么,保证权限被正当的使用用户的审计需求:适用的审计途径:用户的诉求:-明文密码的使用问题(泄漏风险)关键的信息,可能被其他人员审计查看;发送命令时,请求链路上容易留下日志;-内容加密的使用方式(内容安全)1发送请求:在云服务内生成一个密钥对1审计与保密的冲突问题当命令包含高度机密的内容时,不希望被他人查看2云服务器内生成密钥对,并返回公钥信息2用户在本地环境,使用公钥加密密码内容33新命令:含解密指令,和使用解密的结果441.1.在使用密码登录吗?在使用密码登录吗?字典攻击 暴力破解 网络钓鱼 社会工程 彩虹表攻击 键盘记录 爬行搜集密码记忆与管理成本2.2.改用改用SSHSSH密钥登录吧?密钥登录吧?需要网络可达或公网IP3.3.在用公网在用公网IPIP登录吗?登录吗?IP 欺骗 SYN Flooding UDP Flooding TCP 重置攻击 模拟攻击 中间人攻击 DDoS网络防火墙管理成本4.4.机器账号管理负担机器账号管理负担帐号分配与回收服务器远程登录的安全问题基于账密的远程连接认证基于RAM权限的连接认证 服务器不需公网IP,避免暴露在公网上 远程登录不要密码,避免密码密钥管理 统一由RAM权限配置用户的连接权限 能够支持终端连接与远程桌面连接 能够支持从本地访问服务器内部端口 支持终端会话内容的记录与审计会话管理会话管理 一站解决远程登录的各种问题一站解决远程登录的各种问题 服务器不需有公网IP,免于暴露到互联网上 不需要提供登录密码,不产生密码泄露问题 操作内容可以投递到SLS日志,方便进行审计 访问权限可以通过RAM集中进行配置和管理保证安全保证安全 在有授权后,可以免于输入凭据,直接连接主机提升效率提升效率易于集成易于集成会话管理(Session Manager)工作原理示意工作原理工作原理 以会话管理服务+云助手Agent作为桥梁,建立三条连接,并且在连接上转发两端的输入&输出 基于标准API和WebSocket,可以在程序中集成安全与便捷的远程登录客户侧应用会话管理服务器ECS 实例托管实例ECS:StartTerminalSession13RAM访问控制连接 WebSocket返回 WebSocket 地址6终端程序数据中转内容投递连接权限可管理标准接口易于集成会话内容可审计2SLS日志端口连接连接到远程终端连接到内部端口云助手AgentshellportECS4ECS 实例5 提示:会话管理的使用工具有“云服务器 实例 远程连接 会话连接”,或阿里云客户端应用程序。Contents内容提纲多云的发展和管理挑战0102多云服务器的统一纳管03多云服务器的统一运维04多云服务器的工作协同使用云监控,统一监控多云主机/托管实例使用云效,向多云主机/托管实例部署应用使用运维编排,执行工作流使用云助手,发送命令多云服务器的运维协同云服务器运维监控、部署、运维,可以使用的阿里云服务使用会话管理,远程登录可以在一个平台上,执行多云的运维任务用户的诉求:1.创建托管脚本 2.注册为托管实例主机托管 3.查看云监控 4.加入监控组配置监控组 5.创建伸缩组 6.配置伸缩规则配置伸缩组云上弹性伸缩配置云上弹性伸缩配置本地数据中心ECS云服务器多云服务器统一运维:弹性伸缩业务低谷时使用云下机器,业务高峰时弹出云服务器业务高峰时,保留云下机器,扩容云上机器用户的诉求:阿里云阿里云托管实例托管实例线下IDC机房私有云服务器友商云服务器阿里云服务器多云服务器多云服务器执行命令分发文件远程登陆操作审计权限管理会话审计标签管理资源组运维编排服务器监控弹性伸缩应用部署主机托管多云服务器,统一纳管与运维在一个云平台上,高效、安全与免费的完成多云管理免费安全高效使用使用OOSOOS进行云上自动化运维进行云上自动化运维郑大禹郑大禹阿里云弹性计算技术专家1.云上资源运维面临的挑战内容提纲内容提纲2.OOS自动化运维能力揭秘3.使用OOS云上CloudOps实践4.总结云上资源运维面临的挑战云上资源运维面临的挑战0101效率安全成本资源种类多场景复杂云上资源特点挑战云上资源运维面临的挑战云上资源运维面临的挑战规模大202120222023202420252026202720282029202120222023202420252026202720282029如何提高运维效率,批量复制运维操作?云资源规模随业务发展快速增长,企业需要管理更多的计算、存储、网络等资源。这将大大增加运维的复杂性,需要企业投入更多的时间和人力资源来管理和监控这些资源。企业需要建立有效的运维流程和工具,以提高资源的运维效率和可靠性。Web服务(启动期)API/大数据服务(发展期)云资源规模快速增长云资源规模快速增长某云账号下云资源规模202120222023202420252026202720282029某云账号下云资源成本云资源成本如何通过提升云资源的利用率降成本?云资源成本随资源规模相应增长,企业需要进行有效的成本管理和优化。包括分析和监控资源的使用情况,以及采取适当的成本节约措施。例如,节省停机模式、临时带宽升级等。于此同时如何自动的应用这些成本优化运维措施,也成为一个挑战。引入基础云资源成本优化引入更多云资源成本优化引入更多云资源如何自动成本优化?云资源成本快速增长如何自动应用安全合规最佳实践?如何自动修复安全漏洞?漏洞管理和补丁更新:随着云资源规模的增长,企业需要定期更新和升级系统的补丁,修复已知的安全漏洞。云资源合规要求:需要满足公司或行业的云资源合规要求。企业需要定期对云资源进行合规性检查,修复不合规的资源。安全合规问题日益重要滥用云服务数据泄露系统漏洞账号劫持拒绝服务攻击不安全应用接口安全合规面对云上众多的最佳实践,如何自动化应用到云资源?云上运维操作-OpenAPI最佳实践场景往往是一系列运维操作的组合。CloudOps最佳实践如何落地OOS运维编排OOSOOS自动化运维能力揭秘自动化运维能力揭秘0202运维编排服务(简称OOS)是全面、免费的云上自动化任务编排平台,提供自动化任务的管理和执行。作为平台提供一系列自动化和半自动化的平台能力,实践基础设施运维即代码(Operation as Code)理念。支持编排70+常用阿里云产品。提供200+运维任务场景公共模板,开箱即用。托管服务,稳定可靠,无需安装配置。操作可审计。自动化功能批量操作跨地域操作条件控制并发控制半自动化功能审批暂停自动触发类型立即操作定时操作告警触发操作事件驱动操作OOSOOS简介简介OOS任务平台能力 编排能力示例:启动ECS实例并安装软件启动实例动作ACS:ECS:StartInstance启动实例StartInstance等待实例启动DescribeInstances运行安装命令动作ACS:ECS:RunCommand运行安装命令RunCommand等待命令执行完成DescribeInvocations查询命令输出DescribeInvocationResultsOOS任务流程OpenAPI调用流程常用运维任务常用运维任务批量操作实例批量管理软件定时开关机带宽临时升级创建或更新镜像清理磁盘在实例中安装阿里云Agent或软件包管理工具可管理的软件软件包管理提供对参数的存储和管理服务,支持文本数据或加密数据两种格式参数管理获取云服务器的GuestOS内部的信息配置清单对ECS实例的补丁进行扫描或安装补丁管理OOSOOS构建运维场景构建运维场景使用OOS云上CloudOps实践03全部实例手动选择上传CSV文件指定标签指定资源组指定配置清单启动停止修改实例属性导出实例属性续费更换系统盘批量操作ECS实例执行命令重启下载文件更改续费类型添加角色删除角色并发控制批次控制失败重试跳过取消实例选择方式速率控制类型高效运维:批量操作ECS场景VPCECSECSECSECSECSECSECSECSECS批次一批次二批次三ECS从负载均衡卸载,不提供服务更新镜像执行脚本ECS挂载到负载均衡,对外提供服务重试回滚继续执行下一批执行下一批滚动升级结束OOS通过将SLB、ECS、云助手的原子能力,包装为任务场景的云产品动作。辅加OOS的自动分批、并发控制、错误暂停、重试继续等控制功能,完成ECS应用滚动升级的场景。开始滚动升级结束滚动升级高效运维:ECS应用滚动升级系统管理员可以定期更新基础镜像安全补丁,并将镜像Id更新到参数仓库中。Golden Image(普通参数)Dev/GoldenImageIdTest/GoldenImageIdProd/GoldenImageIdROSTerraformCDK对接IaC系统创建ECS实例ECS实例密码(加密参数)Test/EcsPasswordTest/RdsPasswordProd/EcsPasswordProd/RdsPassword更新云资源密码应用中获取密码配置应用管理员可以定期轮转ECS/RDS密码,并将密码更新到参数仓库加密参数中。运维操作中使用密码使用场景高效运维:使用参数仓库管理基础设施配置临时带宽升级08:0012:0016:0000:0004:0008:0020:00时间开机开机关机运行中已停止场景1:定时开关机+节省停机模式【用户痛点】机器周期性空闲浪费成本操作开关机需要自己编写脚本来完成自动化【解决方案】定时配置高峰期自动开机低峰期自动关机场景2:周期性临时带宽升级【用户痛点】固定带宽浪费成本希望可以仅在高峰期升级临时带宽自动周期性操作提高效率【解决方案】定时对带宽临时升级节约费用成本优化:自动化云资源成本优化安全合规:系统补丁扫描和修复 ECS实例自动补丁修复:自定义补丁修复范围-补丁基线:操作系统、补丁类型、严重级别、发布时间多种实例选择方式:手动选择、指定标签/资源组、选择全部、配置清单条件选择多种修复方式:仅扫描、扫描并安装(按需重启实例)灵活的触发方式:立即修复、定时修复覆盖多种操作系统:Linux、Windows支持9种常见操作系统及其发行版本Linux:Alibaba Cloud 2/3、Anolis 8、CentOS 7、RHEL 7/8/9、Debian 9/10/11、Ubuntu 18.04/20.04/22.04、Alma Linux 8/9、Rocky Linux 8/9Windows:Windows Server 2012/2016/2019/2022补丁基线补丁管理Linux实例Windows实例扫描/修复安全合规:结合配置审计安全合规自动修复配置审计(Config)是一项资源审计服务,确保资源持续性合规。可以结合OOS进行自动化合规修复。通过配置审计服务对各种云资源进行审计,可以根据规则检查云资源的配置是否符合安全最佳实践和合规性要求。对于每个审计规则,用户可以配置OOS自动修复的方案。配置审计服务发现不合规的云资源时,通过调用OOS来进行自动修复。ECSOSSECSECSOSSOSSVPCVPCVPC资源标签ECSOSSECSECSOSSOSSVPCVPCVPC配置审计合规规则存在指定标签(部门)运维编排对不合规资源打指定标签资源合规检测触发自动修复修复资源标签资源KeyValue地区部门环境北京区信息部生产总结04自动化运维平台总结云上最佳实践+OOS任务编排平台=专属自动化运维平台OOS任务编排+辅助能力效率成本安全联系我们扫码了解OOS产品详情扫码加入OOS支持群如何实现云上“人、财、物”管理云上大规模资源管理最佳实践林小平阿里云弹性计算高级技术专家目录企业大规模资源管理面临问题企业大规模资源管理面临问题:不同管理模式下的问题:不同管
展开阅读全文