收藏 分销(赏)

智算时代的容器技术演进与实践.pdf

上传人:Stan****Shan 文档编号:1240685 上传时间:2024-04-19 格式:PDF 页数:244 大小:30.95MB
下载 相关 举报
智算时代的容器技术演进与实践.pdf_第1页
第1页 / 共244页
智算时代的容器技术演进与实践.pdf_第2页
第2页 / 共244页
智算时代的容器技术演进与实践.pdf_第3页
第3页 / 共244页
智算时代的容器技术演进与实践.pdf_第4页
第4页 / 共244页
智算时代的容器技术演进与实践.pdf_第5页
第5页 / 共244页
点击查看更多>>
资源描述

1、ACK 产品免费试用阿里云开发者“藏经阁”海量电子手册免费下载容器服务 Kubernetes 版 ACK容器镜像服务 ACR分布式云容器台 ACK One服务网格 ASM阿里云云原生公众号阿里云云原生视频号导论今天,能想到的或是想不到的领域,对容器和 Kubernetes 的需求都居高不减,使这项技术正在真正走向无处不在。从 2015 年正式对外提供服务至今,阿里云容器服务产品家族已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器

2、基础设施。2023 年,阿里云容器产品能力持续受到业界的广泛认可。2023 年 9 月,在权威咨询机构 Gartner 发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。在 2022 年4 季度,Forrester 公共云开发与基础设施平台 Q4/22 评测中,阿里云是中国云原生开发者的最佳选择。智算时代已来。正如一个文明社会的科技水平取决于其对能源的利用能力,企业的智能化水平取决于其对算力的利用能力。云计算为智算时代带来无限可能,2023 年云栖大会上,阿里云容器服务宣布了以加速企业构筑现代化应用平台、最大化利用阿里云强大弹性算力为使

3、命,在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构 5 大核心方向带来的产品能力全新升级。本书精选 2023 云栖大会中“容器技术与服务”专题分享精华,集合容器服务产品家族最新发布、容器 AI 工程化创新、容器前沿技术与大规模生产实践、典型场景企业案例等方向内容,希望能够帮助您了解如何基于容器技术与服务,拥抱智算时代,为现代化应用构建加速!目录页第一章:容器产品最新发布阿里云 ACK 新升级,打造智算时代的现代化应用平台.6第二章:容器服务典型企业案例云原生场景下月省 10 万元资源成本,这家企业做对了什么.26米哈游大数据云原生实践.45第三章:容器 AI 工程

4、化创新智算时代,基于 ACK 落地云原生 AI.66云原生场景下,AIGC 模型服务的工程挑战和应对.88第四章:容器前沿技术与大模型生产实践阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战.104基于阿里云 ACK 与 ACR 构建企业级端到端 DevSecOps 流程.123机密计算容器前沿探索与 AI 场景应用.143Koordinator 助力云原生应用性能提升小红书混部技术实践.158轻松搭建基于服务网格的 AI 应用,然后开始玩.176阿里云云原生弹性方案:用弹性解决集群资源利用率难题.212基于 ACK One 实现简单的跨云协同,让业务管理更高效.227阿

5、里云 ACK 新升级,打造智算时代的现代化应用平台6第一章容器产品最新发布阿里云 ACK 新升级,打造智算时代的现代化应用平台6阿里云 ACK 新升级,打造智算时代的现代化应用平台作者:易立,阿里云研究员&容器服务负责人今天,能想到的或是想不到的领域,对容器和 Kubernetes 的需求都居高不减,使这项技术正在真正走向无处不在。在 2023 云栖大会上,阿里云云原生产品线容器服务负责人易立关于容器服务 ACK 在本届亚运会上应用的介绍,让现场观众眼前一亮,“以杭州亚运会为例,作为云原生技术底座,为亚运一站通、亚运钉等众多核心应用提供了高弹性、高可用、异地多中心的架构支持,确保了赛事系统万无

6、一失。”阿里云容器服务 ACK 已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。阿里云 ACK 新升级,打造智算时代的现代化应用平台7在过去一年,阿里云容器产品能力持续受到业界的广泛认可。2023 年 9 月,在权威咨询机构 Gartner 发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。在 2022 年 4 季度,Forrester 公共云开发与基础设施平台

7、 Q4/22 评测中,阿里云是中国云原生开发者的最佳选择。智算时代已来,易立介绍了为助力企业构建现代化应用平台,阿里云容器服务在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构 5 大核心方向带来的产品能力全新升级。1.新一代云原生算力,提升企业计算效能更大规模:弹性算力池新突破阿里云提供了丰富的弹性算力,包括 Intel/Amd/倚天 Arm 等多 CPU 架构,GPU/RDMA等多种异构加速器,以及按量、Spot、节省计划等多样化的售卖形态。使用 ACK,客户能够最大化利用阿里云整体弹性算力池能力,根据自己的需求灵活选择,增效降本。阿里云 ACK 新升级,打造智算

8、时代的现代化应用平台8ACK 集群支持托管节点池、虚拟节点两种不同的数据面形态:托管节点池,支持任何 ECS 裸金属和虚拟机实例作为 K8s 工作节点,一个工作节点可以运行多个 Pod,全兼容 K8s 语义,兼具灵活性与易用性。虚拟节点,每个 Pod 运行在独立的弹性容器实例 ECI 之中。每个 ECI 实例是一个独立安全沙箱,具备高弹性、强隔离,免运维等特点。阿里云弹性计算基于 CIPU 可以统一生产ECS 裸金属实例、虚拟机实例和弹性容器实例。这意味这 ECI 支持弹性计算丰富的算力类型,具备充足的库存保障。今年 ACK 集群通过与弹性计算调度相互感知,可以更好调度 ECI 实例,支持将

9、K8s 对集群资源调度能力扩展到整个弹性算力池,确保了 ECS 节点池与虚拟节点的调度统一和能力一致,用户无需修改现有 K8s 应用定义即可最大化使用云资源。越来越多的客户基于 ACK 集群,构建大规模微服务架构应用和大规模数据计算任务。同时为了满足对集群规模增长的诉求,ACK 单集群最大支撑的节点从 10000 提升至 15000,ECI 实例从 20000 提升至 50000 实例。我们的控制面组件会根据数据面规模按需伸缩,保障稳定性。阿里云 ACK 新升级,打造智算时代的现代化应用平台9更优性价比:倚天架构专属优化越来越多的 ACK 客户选择倚天芯片作为新算力选择。客户选择倚天架构实例主

10、要有如下三个原因:高性价比:相比 G7 实例族,Web 应用提升 50%,视频编解码提升 80%,Spark 任务提升 28%。高吞吐:采用 Arm V9 架构,提供独立物理核心,提供更确定性的性能;相比 G7 实例族,Web 应用吞吐提升 22%;Spark TPC-DS Benchmark 速度提升 15%。专属优化:容器镜像服务 ACR 联合基础软件团队、龙蜥社区在制品中心,提供了面向倚天芯片专属优化的基础软件及应用软件镜像。通过基于 AI 和专家知识库的KeenTune 为倚天架构提供专项参数调优。在主流场景中,优化后相比优化前性能提升 30%。为了支持容器应用向倚天架构平滑切换,AC

11、R 提供了多架构镜像构建能力,支持一份源码构建出包含 x86、Arm 架构的应用镜像,同时 ACK 集群可以同时包含 Arm/x86 节点池阿里云 ACK 新升级,打造智算时代的现代化应用平台10或虚拟节点,让客户 K8s 应用在不同 CPU 架构下按需调度,逐步切换。更高弹性:全新发布节点池即时弹性能力最大化利用云的弹性能力是客户对容器产品的重要诉求,易立也带来了 ACK 的一项全新发布:“在阿里云上,容器服务每天有数百万核的算力资源按需扩缩容,帮助客户优化计算成本。今天,我们正式发布 ACK 节点池即时弹性能力”。ACK 节点池即时弹性 Scaler 拥有以下特点:更快的弹性速度:在 10

12、0 节点池的规模上,保持平均 45s 的端到端扩容速度,相比社区 Cluster Autoscaler 提升 60%。支持用户定义灵活的规格匹配策略:在社区的 Cluster Autoscaler 中,每个节点池中节点 CPU/Memory 规格是固定的,如需满足不同需求需要创建多个节点池,会带来配置管理复杂性、资源碎片引入的可能,并增加由于库存不足导致弹性稳定性降低的风险。即时弹性 Scaler 支持用户定义灵活的规格匹配策略,不同机型节点规格匹配条件下,系统会根据待调度的 Pending Pod 集合的资源请求和调度约束,及对 ECS 的库存感知,生成优化的装箱结果。这样,只需一个节点池就

13、可以完成对多规格、多可用区阿里云 ACK 新升级,打造智算时代的现代化应用平台11的节点弹性。在降低节点池配置复杂度的同时,减少了资源碎片,提升了弹性的成功率。即时弹性完全兼容现有节点池能力和使用习惯,可以配合托管节点池实现节点的自动化运维。更简运维:ContainerOS 与全托管节点池结合对于 K8s 集群,节点运维是保障系统稳定性与安全的重要日常工作,但是手工操作非常复杂繁琐。ACK 托管节点池支持节点的全生命周期自动运维,包括 CVE 高危漏洞自动修复、节点故障自愈、OS/节点组件自动升级,其中节点自愈成功率 98%;集群节点运维时间减少 90%。ContainerOS 是龙蜥社区发布

14、的面向容器优化的操作系统,采用不可变基础设施理念构建,具备精简、安全、可编程等特点。千节点弹性时间 P90 55s,相比 CentOS 等节点弹性时间降低 50%。ContainerOS 与全托管节点池可以完美结合,进一步优化了节点池的弹性和可运维性,让企业聚焦在自己的自身业务,而非 K8s 基础设施维护。更丰富场景:Serverless 容器为 AI 场景增效降本阿里云 ACK 新升级,打造智算时代的现代化应用平台12对 Serverless Container 的支持是 K8s 演进的重要方向,基于 ECI 的 ACK Serverless在客户场景中得到了广泛的应用。ACK、ECI 不但

15、帮助微博热搜,钉钉会议等在线应用的弹性伸缩,也在助力众多 AI 和大数据客户降本增效。深势科技基于基于 ACK 与 ECI 实现多地域部署 AI 科研平台,免运维,按需创建实验环境,支持大规模 AI 镜像秒级拉取,资源利用率提升 30%。米哈游基于 ACK 与 ECI,统一全球各区服大数据平台架构,单日创建 200 万 以上 ECI实例执行 Spark 计算任务。通过高效利用 ECI Spot 实例,整体资源成本下降 50%。今年 ECI 弹性容器实例有四个重要发布:普惠降本:新增经济型规格,相比当前通用型价格下降 40%,面向成本敏感的Web 应用、计算任务、开发测试等工作负载。此外现有通用

16、型实例价格也将在近期下调,最高下降 15%。极致性能:计划新增性能增强型规格,面对计算密集型业务场景,如科研、高性能计算、游戏,相比现有通用型实例,提供更高性能的算力、更具确定性的性能。弹性加速:ECI 通过对用户负载特征自学习和预测,实现底层资源的预调度,扩容速度阿里云 ACK 新升级,打造智算时代的现代化应用平台13提升至 7000 Pod/min,非常适于大规模数据任务处理场景。此外业界首家支持 GPU驱动版本选择,为 AI 应用提供更多灵活性的同时,冷启动提速 60%。灵活提效:ECI 今年发布了对倚天 Arm、AMD 架构的支持,ACK 也在近期上线了Windows 容器支持,支持更

17、加丰富的企业应用场景。并且发布对细粒度内存规格支持,帮助用户精细化资源适配,消除空闲资源开销。2.云原生智算基础设施,构筑高效现代应用平台全面支持灵骏集群,为大模型训练提效过去一年,AIGC/大语言模型无疑是 AI 领域最重要的进展。随着大模型参数规模、训练数据和上下文长度的增长,训练大模型所消耗的计算量呈现指数级增长。ACK 全面支持阿里云灵骏智算集群,为大规模分布式 AI 应用提供高性能、高效率的 Kubernetes 集群。ACK 提供了对灵骏高性能算力的全面支持,以及批量 AI 任务调度,数据集加速,GPU 可观测与自愈等能力。通过软硬件协同设计与云原生架构优化,ACK 助力 PAI

18、灵骏智算方案高效利用强大的算力,为 AIGC、自动驾驶、金融、科研等众多智算业务场景提效。阿里云 ACK 新升级,打造智算时代的现代化应用平台14ACK 云原生 AI 套件增强,构筑企业专属 AI 工程化平台。ACK 去年推出云原生 AI 套件,帮助用户基于 Kubernetes 充分利用阿里云上弹性算力,支持弹性训练与推理等场景。在此之上既服务了阿里云 PAI、灵骏智算、通义千问等 AI 平台与服务,也提供对开源 AI 框架和模型的容器化支持。今年,针对大模型场景,AI 套件新增了对开源大模型框架 DeepSpeed,Megatron-LM,TGI 的容器化支持与优化。通过云原生 AI 套件

19、的调度优化与数据访问加速,AI 训练速度提升 20%;大模型推理冷启动速度提升 80%,数据访问效率提升 30%。ACK AI 套件已被广泛应用于众多海内外企业,帮助客户构建自己专属的 AI 平台,显著提升 GPU 资源效率和 AI 工程效率。国产 AI 绘画工具海艺 AI:基于 Fluid 数据集加速和 AIACC 模型优化方案,推理性能提升 2 倍。任意门 Soul:基于 ACK 构建近千卡规模 AI PaaS 平台,开发迭代效率提升 2-5 倍。ACK 集群调度器,面向 AI/大数据负载优化扩展阿里云 ACK 新升级,打造智算时代的现代化应用平台15ACK 集群调度器基于 Koordin

20、ator 项目。它是基于阿里巴巴大规模混部实践孵化出的开源 Kubernetes 调度器实现,可以统一、高效地支持微服务、大数据、AI 应用等多样化的工作负载。其中我们针对 AI、大数据负载进行了如下优化和扩展:在全面兼容 Kubernetes 现有调度能力基础上提供批量任务的调度元语,如 GangScheduling,弹性配额、优先级调度等,可以与 Kubeflow,KubeDL 等社区项目无缝集成。支持拓扑感知性能优化,根据 PCIe、NVSwitch,以及 RDMA 网卡等互联链路的拓扑信息,自动选择能够提供最大通信带宽的 GPU 卡组合,有效提升模型训练效率。支持对 GPU 的细粒度资

21、源共享调度,有效提升模型推理场景 GPU 资源利用率。近期我们与小红书在社区合作,将发布 Hadoop Yarn 任务与 Kubernetes 负载混部的能力,进一步提升 Kubernetes 集群的资源效率。相关工作帮助小红书 ACK 集群资源效率提升 10%。我们也在推进 Koordinator 捐赠到 CNCF 基金会,保持项目长期健康的发展,也欢迎大家在社区共建。阿里云 ACK 新升级,打造智算时代的现代化应用平台163.智能自治体系,降低容器运维管理成本ACK AIOps 智能产品助手,加速 K8s 问题定位与解决Kubernetes 自身技术复杂性是阻碍企业客户采用的一个重要因素。

22、一旦 K8s 集群发生故障,对应用、集群、OS、云资源的问题排查,即使对经验丰富的工程师也充满挑战。ACK 全新升级容器 AIOps 套件,通过大模型结合专家系统的方式,让管理员可以通过智能产品助手,使用自然语言与系统进行交互,加速 Kubernetes 问题定位与解决。当问题发生时,AIOps 套件会采集上下文相关的 Kubernetes 对象与云资源的定义,状态与拓扑信息。比如 Deployment,Pod 和关联的节点等。以及相关的可观测信息,如日志,监控,告警等。然后会基于大模型进行数据分析与归集,给出当前问题的可能原因与修复方案。ACK 背后的大模型方案面对云原生开发和运维知识库进行

23、了调优,提升了问题分析的准确度。用户可以进一步利用智能诊断中的专家经验系统,进行根因定位。现有 AIOps 套件包含 200+诊断项,覆盖 Pod,节点,网络等问题场景,可以对网络抖动,内核死锁、资源争抢等问题进行深入排查。除了用户驱动的问题诊断,AIOps 套件也在加强对自动化巡检和异常事件自动化实时处理,为集群稳定性、安全提供更加全面的防阿里云 ACK 新升级,打造智算时代的现代化应用平台17护,防患于未然。ACK FinOps 套件全面升级,精细场景化分析与分摊策略ACK 去年发布了 FinOps 成本管理套件,为企业管理员对 K8s 集群现了成本的“可见,可控,可优化”。在过去的一年中

24、,FinOps 套件支持了不同行业的上百家客户,其中:乾象投资利用 FinOps 套件,优化应用配置,集群资源利用率提升 20%成本节省超过 10万元/月。极氪汽车通过 FinOps 套件实现混合云弹性降本,一年节省了数百万 IT 成本。今年,FinOps 套件全面升级,增加了更多场景化的分析与分摊策略,例如:在 AI 场景,可以基于 GPU 卡、显存等维度进行成本可视化。此外,FinOps 套件还发布了一键资源浪费检查功能,可以快速发现集群中空置的云盘、SLB 等未被使用的资源,让集群的整体资源利用率进一步提升。4.端到端容器安全,为构建可信 AI 应用护航阿里云 ACK 新升级,打造智算时

25、代的现代化应用平台18可信化应用交付增强,ACK 与 ACR 提供 DevSecOps 软件供应链软件供应链安全是企业落地云原生技术的最大关切,Gartner 预计到 2025 年,全球 45%的组织都会遭受过软件供应链攻击。阿里云 ACK 和 ACR 服务提供 DevSecOps 最佳实践,实现了从镜像构建、分发到运行的自动化风险识别、阻断与预防能力。帮助企业构建安全可信的软件供应链。DevSecOps 的实践依赖研发、运维、安全团队的深入协同,今年,我们推出了集群容器安全概览,帮助企业安全管理员更好感知集群配置、应用镜像、容器运行时的安全风险,让供应链流程更加透明高效。通过使用我们的 De

26、vSecOps 供应链安全能力:著名的汽车制造商路特斯每月实现千次安全配置巡检,预防高危风险配置上线;招联金融基于供应链策略治理能力,在每日 CI/CD 流程中实现千次风险镜的拦截阻断,保障金融业务安全。两全其美:Sidecarless 与 Sidecar 模式融合的服务网格新形态阿里云 ACK 新升级,打造智算时代的现代化应用平台19服务网格已经成为云原生应用的网络基础设施。阿里云服务网格 ASM 产品进行了全新的升级,成为业界首个发布托管式 Istio Ambient Mesh 的产品,提供对 Sidecarless 模式与 Sidecar 模式的融合支持。经典服务网格架构采用 Sidec

27、ar 模式,需要为每个 Pod 注入 Envoy Proxy Sidecar,实现流量拦截与转发。具备极高的灵活性,然而引入了额外的资源开源,增加了运维复杂性和与建联时延。在 Sidecarless 模式下,L4 代理的能力被移到节点上 CNI 组件中,可选L7 代理独立于应用程序运行。应用程序无需重新部署即可享受服务网格带来的安全加密,流量控制和可观察性等功能。在典型客户场景中,采用 Sidecarless 模型服务网格,可以减少资源开销 60%,简化运维成本 50%,降低时延 40%。托管式 Istio Ambient Mesh 有效地降低服务网格技术复杂度,推动零信任网络技术落地。新推隐

28、私增强型算力,护航可信 AI 应用构建阿里云 ACK 新升级,打造智算时代的现代化应用平台20为解决企业对数据隐私日益关切,阿里云、达摩院操作系统实验室与 Intel 和龙蜥社区一起,推出基于可信执行环境(TEE)的机密计算容器(Confidential Containers,简称 CoCo)在云上的参考架构,结合可信软件供应链、可信数据存储,实现端到端安全可信容器运行环境,帮助企业抵御来自外部应用、云平台,甚至企业内部的安全攻击。ACK 基于阿里云八代 Intel 实例所提供的 Trust Domain Extension TDX 技术,全新推出对机密容器以及机密虚拟机节点池支持。使用 TD

29、X 技术,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,为金融、医疗、大模型等数据应用,提供隐私增强型算力。阿里云 ACK 新升级,打造智算时代的现代化应用平台21在 AI 时代,模型和数据成为企业核心业务资产。基于机密计算容器,阿里云基础软件、容器、以及英特尔团队提供了可信 AI 应用一个演示方案。在这个示例架构中。应用、AI 模型和微调数据集都被加密存储在云端服务中,在运行时由机密容器在 TEE 中对其进行解密后执行。模型推理与微调过程安全可信,保障数据的机密性与完整性。高性价比,基于 AMX 指令集优化,32 核 CPU 可以实现秒级 Stable Diffusion

30、出图。低损耗,TDX 带来的性能给损耗可以控制在 3%以内。5.更简单的跨云协同,让业务管理更高效阿里云 ACK 新升级,打造智算时代的现代化应用平台22ACK One Fleet 为不同地域的多个 K8s 集群提供了统一的控制平面,我们可以对公共云集群、边缘云集群和本地数据中心集群,实现统一的集群管理,资源调度、应用交付以及备份恢复能力。智联招聘使用 ACK One 实现混合云负载感知弹性,使用 ECI 5 分钟实现业务数万核扩容。极氪汽车使用 ACK One 统一管理数十个混合云 K8s 集群,提升安全水位和业务连续性,减少 25%的资源用量,运维效率提高 80%。阿里云 ACK 新升级,

31、打造智算时代的现代化应用平台23在模拟仿真、科学计算等大规模数据计算工作流场景中,一个批次的计算可能需要数万,甚至数十万核算力,超出单地域的弹性供给能力,需要依赖跨地域的计算供给。在 IoT 以及医疗等场景中,海量数据分散在不同地域,需要具备就近计算能力。为此,ACK 推出全托管 Argo 工作流集群,具备事件驱动,大规模、免运维、低成本、跨地域等特点。Argo 工作流集群充分利用多 AZ、多地域的弹性算力,自动化利用 ECI Spot,有效降低资源成本。相比自建 Argo 工作流系统,可实现 30%的资源成本节省。集群内建分布式数据缓存,提供更大的聚合读取带宽,数据吞吐相比直接访问提高 15

32、倍。集群提供优化 Argo 引擎,并行计算规模提升 10 倍。泛生子使用全托管 Argo 工作流集群在 12 小时内完成处理数千例肿瘤基因样本的处理,速度提升 50%,成本下降 30%。6.阿里云容器服务 ACK,智算时代云原生基础平台阿里云 ACK 新升级,打造智算时代的现代化应用平台24正如一个文明社会的科技水平取决于其对能源的利用能力,企业的智能化水平取决于其对算力的利用能力。云计算为智算时代带来无限可能,阿里云容器服务以为企业构筑现代化应用平台,最大化利用阿里云强大弹性算力为使命:通过对多样化算力的场景化高效利用,提升计算效能通过弹性与调度,提升资源利用率;通过智能自治,降低运维成本通

33、过最佳实践与技术创新,提供端到端安全、可信运行环境阿里云 ACK 新升级,打造智算时代的现代化应用平台25第二章容器服务典型企业案例云原生场景下月省 10 万元资源成本,这家企业做对了什么26云原生场景下月省 10 万元资源成本,这家企业做对了什么作者:冯诗淳,阿里云技术专家&ACK 成本套件研发负责人相信近期从事基础设施工作的各位,对 IT 成本治理,以及 FinOps 体系的概念已经有了一些认知。在 Google 近 5 年的热度趋势中,FinOps 的趋势也在持续上升。在阿里云的同学与客户实际工作协同中,我们发现成本治理是几乎每位客户都存在的普适需求,特别是各位技术管理者重要的关注点之一

34、。据 FinOps 基金会 2023 年的报告,有 43%、24%、17%的公司,是由 CTO、CIO、CFO 直接指派 FinOps 团队向他汇报,只有 14%的公司处于还未建立体系化的降本增效的 KPI。根据 FinOps 基金会的报告,建设 FinOps 体系 Top 的痛点非常复杂,包括技术方面问题、如何驱动工程师进行优化、如何减少浪费的资源、如何在容器场景做成本报告分析;同时也存在管理等问题,比如如何让团队组织适应 FinOps 体系等等。我们希望阿里云在提供产品功能的同时,也能正确真正地帮助我们的客户落地自己的 FinOps 体系,真正让客户降本增效。云原生场景下月省 10 万元资

35、源成本,这家企业做对了什么27在 2023 年云栖大会现场,我们有幸邀请到某头部科技型量化投资公司的云基础设施负责人,为我们提供基于阿里云容器服务成本套件 ACK FinOps 落地的云原生场景成本治理案例,帮助大家了解在容器场景下的企业成本治理现状、挑战,以及如何结合 ACK 成本套件产品功能构建云原生用户自己的 FinOps 体系。1.容器场景成本治理挑战与实践本次分享的企业是中国领先的以人工智能和机器学习为基础的科技型量化投资公司,使用了大量的 AI、大数据作业来辅助量化交易决策,需要大量弹性的算力的同时,也需要更好的实现成本的控制,通过 Kubernetes 将 AI、大数据、工作流等

36、作业放在一个集群中分时、弹性运行。以该企业为例,业务系统大致分为几类应用部署形态:稳定的系统应用不特定时间的按需任务测试开发环境的应用云原生场景下月省 10 万元资源成本,这家企业做对了什么28这几类应用都会消耗基础计算资源,并产生成本。目前该企业部分业务在使用阿里云容器服务 ACK 集群做容器化部署,通过 Kubernetes 进行量化交易的数据执行与决策,及阿里云 ACK FinOps 套件实现成本的洞察与分摊,经过治理后实现了近 30%资源水位的提升。在企业成本治理的实践过程中,该企业主要遇到规划难、分账难、管理难、优化难这 4方面的挑战。规划难在进行成本治理方面工作时,首先遇到的挑战是

37、按需任务、测试开发环境的容量规划问题。开发、测试应用在容器化部署架构下,实现快速迭代的同时,难以较准确地给出分配的资源量。过度分配资源会导致资源浪费,资源超售过度则会导致稳定性问题。分账难该企业的云基础设施每天为很多的上层应用提供服务,多个容器应用共享一个 K8s 集群。一个计算节点上可能运行多个 Pod,而且 Pod 可以弹性伸缩,在节点间动态迁移。多个业务应用混部在同一个池化的 K8s 集群中,难以把整个集群的账单分摊到应用和人。应用层与资源层计量计费在空间、时间等多个维度都无法做到一一对应,成本治理的复杂性业因此而来。云原生场景下月省 10 万元资源成本,这家企业做对了什么29管理难另外

38、,由于各个应用的使用场景存在很大差别,每当找出闲置浪费的资源后,往往难以“爽快地”马上缩容下线资源,如何在优化资源成本浪费的同时保障业务的稳定性,一直是一个难以回答的问题。优化难容器化后是拥有各种丰富的成本优化手段,但“这样调低 request 资源分配水位后,是否影响业务?”,“现有的 HPA 弹性伸缩策略,是否能在业务真正需求资源时正确工作”,甚至于“我现在要下线的网络、存储资源是不是真的没人使用?”云原生技术中例如弹性、混部、Serverless、超卖等技术都有各自适合的典型场景。如果使用不当,比如弹性配置错误,可能带来意想不到的资源浪费甚至稳定性问题。如何解决分账难题首先要面对分账难问

39、题,理清花费在哪儿是最重要的工作。站在 Infra 团队的视角,一直以来和上层业务、应用层的部门同事的协作工作方式都是:云原生场景下月省 10 万元资源成本,这家企业做对了什么30当新业务需要上线、或老业务需要扩容时,业务部门会申请告诉我们他们“期望”使用多少的容量,为了保证业务稳定性,资源需求往往拍脑袋定义,且业务团队都希望申请冗余远远超过实际预期的资源量。长此以往,集群的水位就会出现大量闲置。由于业务是容器化混合部署的应用在同一集群中,应用的水位分布也往往呈现长尾效应,稳定的大规模应用往往经过重点优化已经有较高的资源利用率,但大量小规模应用使用大量闲置资源。传统部署模型下的资源成本统计方式

40、,是按业务使用的节点维度分析成本,但是在 K8s 场景下,业务使用的资源统一从资源池中调度,业务对资源浪费也隐藏在整个集群、节点的水位中难以发现。要算清这本糊涂账,一定要把成本归因到具体某个业务应用,甚至是具体到某个人,才能推动真正地降本。怎么把成本归因到具体业务,首先需要精细化的监控数据,来看清业务对资源的使用情况。阿里云 ACK 团队可以为企业提供详细的成本、资源观测数据,包括:每天每笔云上资源的真实花销成本账单每个容器部署的资源使用量、使用水位部门、业务、个人这些业务层层级关系,该企业通过按集群的 namespace、不同工作负载、任务通过打特定 label 的方式,最终与具体 K8s

41、集群中的花费资源成本的 Pod 进行映射。最终通过结合阿里云 ACK 成本洞察数据的方式,可构建多个不同视角的成本资源监控大盘,包括:每天每笔不同云资源账单维度的监控大盘归因到业务应用/个人的监控大盘由此,便于分析发现应用维度的浪费,如形成 Top 浪费的应用报表,进行数据驱动地成本优化推进。云原生场景下月省 10 万元资源成本,这家企业做对了什么31面对成本管理难题Infra 团队在推动降本增效时往往是无力的,更多需要推动跨团队的协作。站在一个业务应用的上线过程来看协同关系,Infra 团队往往职责是接受上层业务层同事的需求,以及保证提供资源,这里的需求关系是从业务层到 Infra 层是至顶

42、向下的。然而 Infra 团队与成本资源花销的距离是最近的,感知是最深切的,所以往往需要由 Infra团队来推动成本治理,构建 FinOps 体系的建设。这里的路径在跨部门的协同关系上反而是至下而上反方向的。Infra 团队就算找到对应的业务团队,推动他们缩容、下架掉闲置的云资源,往往由于没有数据驱动或对降本增效清晰的认识而难以开展工作,最终会导致极其低效的降本增效,白白浪费 Infra 团队工程师们宝贵的时间。我们不妨换个思路拆解一下解决方案。首先需要明确,所有人都需要对降本增效负责,且需要划分清晰的责任范围。以该企业为例,业务协同主要分为三大类角色:云原生场景下月省 10 万元资源成本,这

43、家企业做对了什么32业务应用团队:负责业务应用的具体研发业务平台团队:负责为业务应用提供通用业务能力Infra 团队:为以上团队提供基础设施顺着成本治理的至下而上的路径,该企业划分了成本治理清晰的权责范围,以及通过构建不同视角的成本监控大盘构建统一的数据驱动成本洞察体系。首先对成本资源感知距离最近的 Infra 团队:拿数据说话,驱动业务团队优化。通过集群的 overview 整体视角的监控大盘,从集群、各项云资源、节点等视角,界定确定性的浪费资源,以及通过对各集群资源使用的 breakdown 分析,找到成本问题的症结所在。对于业务平台团队,从业务预算、Quota 层面驱动业务成本优化。每个

44、业务也需要从财务层面做成本治理,这里业务平台团队通过成本洞察的数据,结合财务的预算,形成统一的报表、监控。如预算超标,需要透传分配 Infra 团队根据 breakdown 数据,进行成本分析。业务应用团队,需要选择科学可靠的成本优化手段。作为应用的研发,使用业务平台、Infra平台,他们是对业务、代码最了解的专家,也是需要平衡资源浪费与应用稳定性的最终负责人。在 FinOps 体系中,ACK 成本套件为他们提供应用视角的监控大盘,清晰观测自己应用资源、成本水位的同时,判断收敛后的资源水位是否合理,以及对自身业务变化规律来制定科学的弹性策略以满足动态资源的需求。云原生场景下月省 10 万元资源

45、成本,这家企业做对了什么33如何规划资源&成本有了以上的分账、跨团队协作的解决方案后,我们来看规划难的问题。新业务上线需要规范流程,制定合理的容量规划。而新业务、跑批任务等,经过上线前压测,通过经验值或成本套件资源画像等只能推荐出科学的资源规格配置。针对这个问题,在上线过程可以使用 ACK AHPA 等智能弹性策略来做到动态业务趋势的智能资源调整。每个业务都不应该无限申请成本。把成本、资源归因到个人,同时也需要根据业务量、资源趋势制定财务预算,以及成本 Quota 计划。合理地进行成本控制。部门、业务、个人的成本预算,应按应用使用比例分摊到集群中的应用部署、Pod。该企业的做法主要是通过 na

46、mespace、给容器副本打业务 label 的方式进行映射。最终预算与归因到对应业务后的实际成本花费进行比对。成本控制方面也是通过 API 集成 ACK 成本洞察的成本数据后,细粒度到业务应用、个人云原生场景下月省 10 万元资源成本,这家企业做对了什么34来配置的成本超预算报警。寻找稳定和成本间的平衡最后,在真正进行资源优化过程中。平衡稳定性和成本浪费是非常重要的。首先对于浪费发现,存在两部分浪费:首先需要发现确定性的浪费。完全没有使用的网络 SLB、EIP 等资源,长期空闲的节点等,这些可以通过 ACK 限制资源检查找到这些确定性的浪费。第二部分是非常普遍的,应用的资源浪费。虽然平均集群

47、资源利用率经过优化达到了约50%。由于是容器化混合部署的应用在同一集群中,应用的水位分布也往往呈现长尾效应,稳定的大规模应用往往经过重点优化已经有较高的资源利用率,但大量小规模应用使用大量闲置资源,隐藏在整个集群中难以发现。这里可以通过拉取 ACK 成本洞察的Pod 维度的成本资源数据,归因浪费到具体应用/个人后,会使这些应用的碎片化浪费逐个暴露出来。云原生场景下月省 10 万元资源成本,这家企业做对了什么35科学合理的 Quota 设置对 K8s 有经验的使用者,对 K8s 资源分配量(Request)、资源限制(Limit)两个值应该会有深刻的理解。科学地配置工作负载的 Request 量

48、可以帮助进行容量规划控制资源成本,Limit 资源限制则可以实现混部的超卖和保证应用的稳定性。通过统一 K8s 集群上应用的 request、limit 设置规范,通过业务量压测、预估经验值,结合根据历史资源使用量的 ACK 资源画像智能推荐的 request、limit 值,该企业可以做到科学地为各个应用设置合理 Quota,平衡业务稳定性和成本浪费。合理地使用弹性策略HPA 很先进,但激进的 HPA 配置会导致应用不符合预期地扩缩、甚至导致业务稳定性;保守的 HPA 配置可能会导致还是会有大量闲置资源,起不到太多成本节省的效果。云原生技术中例如通过业务指标进行 HPA、CronHPA 等都

49、有各自适合的典型场景。在该企业中也有部分业务应用使用 HPA 策略。首先比较确定性的场景如周期性的业务,使用CronHPA;同时,参考成本、资源监控数据优化阈值,通过 HPA 的历史数据,保证资源的流转效率。在决定 HPA 的指标的选择上,该企业会先区分 CPU 密集型的业务还是内存密集型的业务,根据调度的关键资源指标作为 HPA 的决定值。在一些新的业务,没有能参考的资源指标场景,也在使用 ACK AHPA 智能 HPA 策略,形成动态智能的弹性扩缩。云原生场景下月省 10 万元资源成本,这家企业做对了什么36整个成本治理工作是一个复杂且综合性的事务。经过近一年多,目前在 IT 成本上节省约

50、25%的成本,超过月 10w+的成本节省,部分集群资源利用率从 20%提升至 50%。在整个实践的过程中,该企业也定义了资源流转效率指标,一个业务应用通过弹性扩缩对新资源的使用率,来反映一个应用对资源的浪费程度,资源流转效率越大代表越节约。目前经过IT 成本治理,资源流转效率有了 20%的提升。“我们也希望通过本次分享我们在 IT成本治理方面的工作经验,帮助其他互联网金融客户等云上客户更好地建设 FinOps 体系。”2.阿里云 ACK FinOps 套件助力容器成本数字化治理阿里云 ACK 团队希望提供真正能帮助用户在容器场景构建 FinOps 体系的产品能力。在深入沟通、了解企业对于容器成

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服