1、ACK-智算时代的现代化应用平台容器服务 ACK 加速企业应用现代化升级阿里云云原生高级产品专家安绍飞采用云原生容器技术正成为企业上云、用云新常态容器服务作为企业上云、用云的新界面,正在成为很多企业加速 IT 转型的第一选择基于云原生容器技术,在云上快速构建起企业安全、稳定、智能、弹性的基础设施,正在数字化转型企业间成为广泛的共识96%的受访组织正在使用或评估KubernetesCNCF(1)容器基于 GPU 的计算的增长速度超过了非容器化计算DATADOG(2)托管在云中的Kubernetes 集群正在以 127%的 YoY增长Dynatrace(3)引用:(1):http:/cf.io/r
2、eports/cncf-annual-survey-2021/(2):https:/ Digital Innovations for Everyone with Alibaba Cloud Container Services容器服务助力企业智能化数字创新ACK-Kubernetes ServiceACS Container Compute ServiceACK One多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付ACK Edge-边缘容器ACK 专有云企业版ACK Distro飞天技术底座与基础云服务客户 IaaS中心云本地云/专属云/云盒ASM统一应用通信ACR统一应用
3、资产管理公共云边缘云专有云Alibaba Cloud Named Leader for Container Platform行业认可Gartner未在其报告中支持任何厂商、产品或服务,也并不建议技术用户只选择有最高评分或其它特征的厂商。Gartner研究出版物代表的是Gartner研究机构的意见,不应解释为对事实的陈述。Gartner对与本研究有关的所有明示或暗示的保证概不负责,包括对适销性或特定用途的适用性的任何保证。Gartner和Magic Quadrant是Gartner 有限公司和/或其附属公司在美国及全球的注册商标和服务商标,经许可在此使用。保留所有权利。本图表由Gartner,I
4、nc.发表,是某个研究文件的一部分,应当在整个研究文件的背景下理解本图表。可以通过阿里云获得完整的Gartner研究文件。数据来源:Gartner 2023容器管理魔力象限数据来源:Forrester 2022 Q4中国公共云开发与基础设施平台象限Gartner 容器管理魔力象限全球领导者,亚洲唯一Forrester 中国公共云开发与基础设施平台Q4/22 中国第一一键打通所有基础设施 企业级 生产级可用,云上 Kubernetes 运行环境容器服务 ACK 产品优势高效 优化资源调度能力,全面支持新一代云原生芯片 软硬协同、一体优化的新一代容器网络平面 高效的新一代资源调度 Cybernet
5、es智能 容器智能化运维体系 云原生 AI 套件升级,全栈优化 AI 效能和成本安全 全方位、一体化的容器安全 DevSecOps无界 ACK Anywhere 计算无界,承载无限 边缘容器服务Optimized Scheduling for AI,Big Data and Other Workloads产品核心功能-高效:面向AI、大数据负载的调度优化Enhanced兼容 Kubernetes 调度能力,无侵入生产系统大规模应用支持 GPU 细粒度共享与调度支持拓扑感知性能优化标准化大规模高效率项目捐赠 CNCF 推进中 阿里巴巴蚂蚁科技小红书intel小米360得物趣玩社区合作伙伴:CPU
6、GPUNPUVPC/RDMANAS/CPFS资源调度KubeflowKubeDLAI任务管理异构资源管理Kube-queueOSSGPU共享与隔离PodPodPod任务调度设备拓扑感知调度针对AI、大数据工作负载编排优化,支持与Yarn混部PodPodPodPodPodPod异构算力资源管理PodHigher Elasticity-Just-In-Time Cluster Auto Scaler产品核心功能-高效:更高弹性,节点池即时弹性NEW差异Cluster-Autoscaler即时弹性Scaler扩容速度-10节点池60s45s扩容速度-100节点池120s 150s45s节点池实例规格
7、单一根据策略自动优选库存感知N/A有易用性中等简单(阿里云容器服务团队测试结果)托管节点池A事件驱动、更高效、更易用的新一代弹性伸缩控制器Estimator 模拟调度生成 Scaling Plan实例规格匹配ecs.c7.xlarge/ecs.c7.2xlargeProvisioner根据 Scaling Plan 创建节点自动筛选资源供给最优预装箱策略ACK 控制面即时弹性Scaler托管节点池B实例规格匹配ecs.c8.*Pending PodsPodPodPod装箱结果PodPodPodScaling Plan节点池、规格Better Cost-effectiveness -Yitian
8、 710产品核心功能-高效:更优性价比-倚天710EnhancedACR 多架构容器镜像平滑切换 _提供针对倚天优化的基础镜像及应用镜像制品中心-倚天专属优化镜像Alibaba Cloud Linux/龙蜥 OS镜像支持多架构镜像构建、统一管理、能力同享统一镜像 TAGx86架构Arm架构多架构构建ACK 多架构算力高效调度_同时调度与管理 x86 与 Arm 算力资源Arm 节点池/虚拟节点x86 节点池/虚拟节点音视频转码音视频转码一致镜像分发加速高性价比相比 G7 实例族,Web应用提升50%,视频编解码应用提升80%,Spark任务提升28%高吞吐相比 G7 实例族,Web应用吞吐提升
9、22%;Spark TPC-DS加速提升15%专属优化ACR制品中心提供优化的基础软件及应用软件镜像,基于 AI 和专家知识库的KeenTune 提供倚天专项调优,主流场景相比优化前提升30%New(阿里云容器服务团队测试结果)ACK Lingjun-Stable and Efficient Cloud-Native AI Infrastructure产品核心功能 智能:ACK 灵骏集群-云原生智算基础设施NEW云原生智算基础设施智算工程平台人工智能平台Platformfor AI(以下简称PAI)灵骏智算AIGC智算场景容器服务 ACK 灵骏集群高性能计算节点高性能网络高性能存储自动驾驶科研
10、金融智算资产管理智算运维管理模型管理代码管理数据集管理镜像管理资源组管理数据标注交互式开发分布式训练模型推理科学计算大数据计算安全资源告警任务告警集群管理资源监控GPU/RDMA拓扑感知优化批量任务调度Fluid 数据集加速GPU可观测/自愈软硬件协同设计,云原生架构优化ACK Kubernetes 集群某自动驾驶模型训练速度170XGPU利用率3X某互联网数百亿参数大模型训练单机加速82%集群加速70%(以上数据为客户业务场景应用结果)Cloud-Native AI Suite Boosts Efficiency in Large Model Engineering产品核心功能 智能:云原生
11、AI套件助力大模型工程提效EnhancedAI训练速度提升20%数据访问效率提升30%大模型推理启动速度提升80%任务调度和队列数据&模型访问加速大模型训练推理框架支持基础资源层ACK云原生AI套件云原生AI基础设施层AI任务调度增强任务队列GPU共享GangGPU 拓扑感知CapacityKube-queue数据加速FluidAI作业管理弹性训练ElasticTrainingJob人工智能平台PAIAI平台/服务Serverless推理Kserve灵骏集群CPU/GPU/NPUOSS/CPFSVPC/RDMA智能计算灵骏AIACC通义大模型开源AI能力阿里云提供和支撑的 AI 平台与服务网络
12、拓扑感知模型加载加速DatasetProcessKubeflowArenaPipelineMLFlowTGIFasterTransformerDeepspeedJobDeepspeed-Chat(以上数据为客户业务场景应用结果)SeaArtSoul加速 AIGC 模型推理服务基于 AIACC 推理加速与 Fluid 分布式数据缓存加速方案,推理性能提升2倍构建近千卡规模 AI PaaS 平台,开发迭代效率提升2-5倍加速 LLM 分布式训练产品核心功能-智能:完善的智能运维管理体系全托管节点池端到端可观测性智能化诊断全托管节点池端到端可观测性智能化诊断 主动风险识别,秒级问题定位,避免线上业务
13、受损 100+诊断项,80+场景根因定位,覆盖节点、容器、网络异常诊断场景 ARMS 容器监控-无侵入,低损耗的资源与应用监控能力 成本中心 精细化的成本管理、预测与优化 事件中心-统一的事件、告警管理,统一的 EventBridge 编程接口 安全中心 统一的安全监控、策略治理、基线巡检能力 自升级自愈 安全自修复异常检测监控/日志免运维自动更新与升级风险识别成本中心自愈节点故障自愈全链路诊断事件中心安全修复CVE、Patch自修复异常预测安全中心性能极速启动扩容产品核心功能-智能:完善的智能运维管理体系产品核心功能-智能:一体化的可观测性MetricsAggregableTracingRe
14、quest scopedLoggingEventsLow volumeHigh volume支持完整调用链路还原、链路拓扑提供托管版Prometheus/Grafana提供 ARMS 应用实时性能和业务监控提供事件中心(免费),实时汇聚Kubernetes 中所有事件并提供存储、查询、分析、可视化、告警等能力链路追踪ARMS 应用实时监控服务SLS 日志服务Prometheus 监控服务检索分析服务Elasticsearch 版阿里云可观测产品云监控与阿里云可观测产品深度集成,支持公共云、混合云多场景产品核心功能-安全:端到端的云原生安全容器镜像服务 ACR(镜像安全扫描/镜像加签)容器服务
15、ACK(镜像验签/策略治理/安全巡检/Network Policy)云安全中心(容器运行时防护)安全容器机密计算用户业务层容器 CaaS 层网络层物理主机/虚拟主机层证书服务DDoS 高防 IP云防火墙SLB 白名单云安全中心(容器运行时防护)应用风控ARMS RASP产品核心功能-安全:端到端的云原生安全硬件安全身份管理构建访问控制(RBAC/RRSA/RAM)资源隔离/限制密钥管理证书管理策略管理(PSP/OPA)镜像扫描镜像加签镜像验签交付链(事件通知、风险阻断)入侵检测安全沙箱容器机密计算网络可视/隔离(Network Policy)数据安全部署运行镜像修复安全配置巡检运行时安全修复安
16、全加固(CIS/可信云/等保)日志审计(ActionTrail/SLS)凭证安全供应链安全云平台安全容器基础设施安全运行时安全物理安全虚拟化安全云产品安全云平台安全,构建夯实的平台底座最小化攻击面,提供安全稳定的基础设施平台纵深防御,构建从供应链到运行时的一体化安全流程产品核心功能-无界:ACK One管理任意Kubernetes集群提供一致的管理体验云原生支持主流AI/大数据平台云端中间件/数据库下沉到本地能力下沉统一管理负载按需扩容到云端秒级伸缩备份、容灾、迁移一体化简化跨地域和混合云应用容灾弹性调度简化容灾本地云边缘云专有云中心云简化跨地域应用管理(多集群应用分发及流量调度)内建数据备份
17、与恢复(实现云上低成本容灾备份)标准云服务能力下沉(线下集群获取公共云产品能力)阿里云分布式云容器平台 ACK One统一集群管理统一资源调度统一业务容灾统一应用交付实现 K8s 多集群、多环境管理简化简化混合云弹性(线下集群获取公共云资源弹性)以公共云为标准服务界面,提供面向分布式云多集群的统一容器平台,让任意基础设施容器集群拥有云产品服务级别的支持。产品集成组合:云原生微服务+ACK,容器化微服务Kubernetes 原语扩展支持生产可用微服务生态体系一体化部署、运维、监控、告警自动化弹性伸缩混合部署、兼容已有微服务体系自动化故障恢复企业级安全ACK产品能力产品集成组合:神龙裸金属服务器+
18、ACK,高性能计算ACK产品能力容器服务Podeth0Terway Network on VPCPodeth0ENI0ENI1神龙Podeth0Podeth0ENI0ENI1神龙X-Dragon Hypervisor物理服务器神龙子系统VPC/EBSEBS云盘神龙超强网络计算性能稳定企业级安全适配 RDMA 技术Terway 容器网络,充分发挥硬件性能跨宿主机容器带宽超过 30 Gbit/s自研芯片取代 Hypervisor无虚拟化开销,无资源抢占Offload 技术降低系统开销物理级别加密,支持 Intel SGX 加密可信计算环境,支持区块链等应用支持安全容器(runV)FinOps fo
19、r Kubernetes Cluster:Digitalized Financial Governance容器FinOps套件 数字化成本治理Enhanced公共云IDC容器服务 ACK集群成本可视化大盘多云成本适配器智能弹性策略智能资源画像成本采集组件开放成本API在离线混部智能资源巡检成本洞察成本优化成本控制多维度成本分析简化预算管理智能资源检查与推荐混合云、多集群成本优化,每年节省数百万的 IT 成本。FinOps 治理流程FinOps 套件(以上数据为客户业务场景应用结果)DevSecOps Security InsightDevSecOps 安全洞察EnhancedACR EEKMS
20、 sign策略部署安全管理员策略仓库路特斯使用容器 DevSecOps 能力,每月实现千次安全配置巡检,预防高危风险配置。招联金融使用策略治理能力,每日实现千次风险的拦截阻断,保障金融业务安全。一键修复OPA Policy GatekeeperBinary AuthZ Policy Kritispolicy-controller 镜像漏洞校验 镜像签名校验 应用部署模版校验配置巡检任务主机和容器监控ACK集群Admission WebhookNode策略治理报告安全概览安全配置巡检报告运行时安全监控ACK -Cloud Native Infrastructure for AI Era智算时代云原生基础平台高效算力弹性调度智能自治安全可信






