资源描述
前言DPU 是当下算力基础设施的核心创新之一。如果把 CPU 比做大脑,那么 GPU 就好比是肌肉,而 DPU 就是神经中枢。CPU 承载了应用生态,提供了通用型算力;GPU 提供了高密度各类精度的算力,特别是在智算领域,对系统算力大小有决定性作用;DPU负责数据在各种 CPU 之间、CPU 与 GPU、以及 GPU 与 GPU 之间高效流通,很大程度上决定了系统是否能协同工作。DPU 作为数据中心的第三颗“主力芯片”,主要通过其专用处理器优化数据中心的网络、存储、安全等处理性能,助力服务器运行效率显著提升,有效降低成本。因此,在新型数据中心建设时,围绕 DPU 构建数据中心网络的基础设施,在其上挂载了各种计算、存储资源的节点,对于系统的资源弹性、运行效率、性能都大有益处。但是这种使用方式的变化,需要对现有云计算架构进行一定程度的变革,才能充分发挥出 DPU的优势。云计算中的头部企业 AWS 与阿里云在 DPU 的应用方面也有成功案例,借助其软硬件全栈自研的优势,快速完成了云计算系统的改造工作,实现了 DPU 大规模落地部署,在降低自身运营成本的同时为客户提供更好的使用体验,并产生了可观的经济效益。这种正向循环促进了相关技术栈的快速迭代与成熟,也帮助他们发展成为云计算业务领域的领军企业。随着众多芯片厂商投身到 DPU 技术领域后,业界对 DPU 的产品形态定义逐渐清晰,DPU 的技术标准也在不断完善。从此 DPU 不再是行业巨头的“专享”技术,基础设施与云计算相关产业参与者都在寻求一种简单高效的方法,将 DPU 的优势运用到自身业务系统之中,例如 Red Hat、VMware、Palo Alto 等公司纷纷推出相关解决方案。这些方案背后共同的本质思想是:将云计算的 IaaS 层组件从服务器侧卸载后围绕 DPU 构筑高性能算力底座,与 AWS、阿里云的技术路线不谋而合。我们将这种思想所代表的技术路线统一归纳命名为“IaaS on DPU(IoD)”技术路线,简称 IoD。本文重点阐述了 IoD 技术的构成以及与当前主流云计算体系的融合方案,从计算、网络、存储、安全、管控等几个方面进行深度分析,论证了基于 DPU 构建云计算基础设施服务(IaaS)的性能优势与建设路径。随着 DPU 技术的成熟,不论从功能完备性、系统稳定性还是性价比角度,DPU 均已经具备在大规模生产环境落地应用的条件。某种程度上,IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。目录前言ii第 1 章 云计算发展趋势11.1云计算系统已经成为数字世界的“操作系统”.11.1.1云计算的发展历程.11.1.2云计算技术特点.21.2AI 产业催生高性能云计算需求.31.2.1AI 技术发展概述.31.2.2云计算性能对 AI 计算影响重大.41.2.3主流 AI 训练的云计算支撑架构.51.3IaaS on DPU(IoD)算力底座技术路线.61.3.1IoD 发展历程.61.3.2IoD 技术路线解析.71.3.3高性能云计算的规格定义.101.4IoD 高性能云计算应用范式.131.4.1“兼容并包”的公有云.131.4.2“安全强大”的私有云.141.4.3“小巧精美”的边缘云.151.4.4“异军突起”的智算云.151.4.5“电光火石”的低时延云.16第 2 章 云计算业务模型分析182.1当前主流云计算体系结构.182.1.1硬件部分.182.1.2基础软件.192.1.3云管平台.192.1.4业务服务.202.2计算业务分析.202.2.1裸金属服务器.21目录2.2.2虚拟机.212.2.3容器.222.2.4GPU 服务器.222.2.5应用场景与选择策略.232.3网络业务分析.242.4存储业务分析.252.5安全业务分析.262.6平台服务业务分析.272.6.1数据库.272.6.2中间件.272.6.3服务治理.28第 3 章 高性能云计算基础设施建设路径293.1通用算力技术分析.293.1.1CPU 的计算能力发展历程.293.1.2云计算卸载技术为 CPU 算力提升带来的优势.303.1.3IoD 技术为 Hypervisor 卸载提供最佳支撑.323.2智算算力技术分析.343.2.1GPU 的计算能力发展历程.343.2.2GPU 算力提升带来与网络吞吐的矛盾现状.353.2.3无损网络技术为 AI 训练带来的性能提升.363.3云计算网络技术分析.383.3.1云计算网络是算力连通的基础.383.3.2云计算网关是算力开放的门户.393.3.3高性能云计算需要网络卸载进行性能提升.393.4云计算存储技术分析.423.4.1单一存储技术方案无法满足云计算要求.423.4.2云存储需要引入新技术突破性能限制.433.4.3IoD 技术可以提升存算分离架构下的处理性能.443.5云计算安全技术分析.453.5.1纷繁庞杂的云计算安全体系.453.5.2安全处理性能提升需要异构算力加持.46All Rights Reservediv目录3.5.3安全卸载技术在高性能云安全中至关重要.473.5.4DPU 将成为可信计算服务中的重要组件.473.5.5IoD 技术助力构建“零信任”网络.483.6云计算服务治理技术分析.503.6.1服务治理技术是云原生时代的重要基础.503.6.2传统服务治理技术的局限性.503.6.3IoD 技术带来新的服务治理模式.513.7IaaS on DPU(IoD)高性能云计算全景.51第 4 章 高性能云计算系统架构持续演进534.1高性能云计算可观测性建设.534.1.1可观测建设是云计算运维体系的关键环节.534.1.2当前观测方法所面临的难题.544.1.3高性能云可观测性建设建议.554.2轻量级虚拟化系统演进架构革新.564.2.1轻量级虚拟化技术演进路线.564.2.2轻量级虚拟化技术为云计算带来新气象.574.2.3DPU+轻量级虚拟化=新一代技术革命.584.3“一云多芯”系统融合.594.3.1“一云多芯”的应用困境.594.3.2IoD 技术有助于完善“一云多芯”的服务评估体系.59第 5 章 高性能云计算为 PaaS 服务赋能615.1高性能大数据计算服务.615.2高性能中间件服务.625.3高性能数据库服务.62第 6 章 未来展望64All Rights Reservedv第 1 章 云计算发展趋势1.1 云计算系统已经成为数字世界的“操作系统”1.1.1 云计算的发展历程云计算技术的最初起源可以追溯到 20 世纪 50 年代 Christopher Strachey 发表的Time Sharing in Large Fast Computer论文,开启了对虚拟化技术探讨的大门。随后的 60 年代,以 IBM 与 MIT 为首的产业与学术巨头纷纷投入相关研究并在虚拟化领域取得了众多突破,最具代表性的事件是 1974 年,Gerald J.Popek 和 Robert P.Goldberg发表论文Formal Requirements for Virtualizable Third Generation Architectures,提出了波佩克与戈德堡虚拟化需求(Popek and Goldberg virtualization requirements)和 I 型与 II型虚拟化类型。随着虚拟化技术的不断成熟与基础算力设施能力的提升,使得具备“弹性、按用计量、在线、无限”这几个云计算典型特征的业务类型逐步具备了落地应用的可行性,期间虚拟化技术领域也涌现出了 Qemu、Xen、KVM 等众多明星项目。终于在 2006 年,Google 时任 CEO Eric Schmidt 在搜索引擎大会上首次提出“Cloud Computing”概念,亚马逊在同年成立了亚马逊网络服务公司(AWS),云计算产业轰轰烈烈的发展起来。2010年,OpenStack 项目创建,标志着云计算技术进入平民化时代,将云计算行业发展正式推向了高潮。云计算技术的另一个分支,容器技术起源于 20 世纪 70 年代 Unix V7 引入的 chroot工具,并在 2009 年以 LXC 形式成为 Linux 内核的容器管理器。容器技术凭借显著的轻量化优势取得快速发展并借助 CNCF 社区进行大力推广,在 2018 年发布的云原生技术定义中,容器被确立为云原生的代表技术之一。随着业务的多样化发展,云原生技术逐渐显现出强大的统治力,成为未来发展的主要方向。伴随着云计算的蓬勃发展,当前世界上的主要算力基础设施几乎都是通过云计算技术进行管理与调度,可以说云计算技术已经成为数字世界的“操作系统”。1.1 云计算系统已经成为数字世界的“操作系统”1.1.2 云计算技术特点云计算的发展呈现出显著的业务驱动特征,当前 AIGC、IoT、5G/B5G、Web3.0 等行业的发展一方面要求云计算技术能为其提供融合性的底层技术支撑,能够按需以裸金属、容器或虚拟机形式承载上层业务,另一方面对云计算性能也提出了前所未有的要求。于是我们看到,OpenStack 社区涌现出大量容器相关项目,如 Zun、Magnum、Kyrur等,CNCF 社区中的 Kubevirt、Metal3等项目也逐渐成熟,这些都是为提供多模态服务类型做出的努力。同时,融合了 CPU、GPU 与 DPU 的“3U 一体”新型服务器成为当前云计算算力基础设施的主力形式,CPU 负责调度管理与运行业务进程,是通用“算力”的承载组件,GPU 负责提升大规模并行运算能力,是智算“算力”的核心引擎,DPU 负责算力集群基础设施卸载与集群的联通,三者通力合作,构成了高性能云计算的基础底座。历史的经验告诉我们,技术的发展总是呈现出螺旋式上升的样貌。也总有人调侃,当前的问题都可以在故纸堆中找到答案。虽然异构运算并非新鲜事物,但随着单项技术的突破与不同技术领域间的融合,在当下,如图1.1所示的基于“3U 一体”的融合算力基础设施构建的融合性云计算平台,正是支撑不断爆发的上层业务应用运转的最佳实践方案。图 1.1:“3U 一体”融合基础设施总体来说,当前云计算技术的发展呈现出如下典型特征:业务承载多模化为了满足业务向云端平滑迁移的需求,会要求云平台能够适配业务系统的当前情况,从容器、虚拟机、裸金属中选择最佳的云上承载方式。例如对硬件设施有特All Rights Reserved21.2 AI 产业催生高性能云计算需求殊需求的业务需要通过裸金属承载,对操作系统有特殊需求的业务以虚拟机承载,其余业务以容器承载。计算性能极致化在 AIGC 大爆发的背景下,上层业务系统从网络性能、存储性能、安全性能等众多方面都对云平台提出了更高的要求,百 G 级别的以太网络接入能力已经逐渐成为云计算系统的标配,400G 的无损网络接入也逐渐在行业落地。系统构成组件化云计算技术体系越来越庞杂,单独的封闭体系很难满足来自业务系统层出不穷的各种需求,良好的模块划分与 API 设计已经成为主流云计算系统的构成基础。“开放、可替换”模式已经成为云计算技术架构的主旋律。1.2 AI 产业催生高性能云计算需求1.2.1 AI 技术发展概述人工智能(Artificial Intelligence,简称 AI)是指通过计算机技术和算法模拟人类智能的一种技术。目标是使计算机能够模拟人的思维方式和行为,让计算机可以像人类一样思考和学习,并最终实现自主决策的智能化行为。进入 21 世纪后,互联网的普及和大数据的爆发为 AI 提供了丰富的训练材料,加速了算法的发展。2006 年加拿大 Hinton 教授提出了深度学习的概念,极大地发展了人工神经网络算法。2012 年,AlexNet 在 ImageNet 竞赛中取得突破性成果,标志着深度学习时代的到来。当前人工智能处于深度学习和生成式 AI 大发展的时期。过去十多年基于深度学习的人工智能技术主要经历了如下的研究范式转变:从早期的“数据标注监督学习”的任务特定模型,到“无标注数据预训练+标注数据微调”的预训练模型,再到如今的“大规模无标注数据预训练+指令微调+人类对齐”的大模型,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程,人工智能技术正逐步进入大模型时代。自 2017 年 Google 提出 Transformer 模型以来,AI 大语言模型(LLM,Large LanguageModel)已取得飞速进展。2022 年底,由 OpenAI 发布的基于 GPT3.5 的语言大模型 ChatGPT 引发了社会的广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT 能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力。以 ChatGPT 为代表的All Rights Reserved31.2 AI 产业催生高性能云计算需求大模型技术可以在经济、法律、社会等众多领域发挥重要作用,引发了大模型的发展热潮。2024 年被称为 AGI 元年,文生视频大模型 Sora 的问世再次引爆了行业热点,在通用问题上 AI 通过自学习实现从 GPT 到 GPT-Zero 的升级,开启了 AGI 时代。1.2.2 云计算性能对 AI 计算影响重大随着大模型和生成式 AI 的迅速发展,大模型参数规模和数据集不断增加,2017 年到 2023 年 6 年间,AI 大模型参数量从 Transformer 的 6500 万,增长到 GPT4 的 1.8 万亿,模型规模增长超过 2 万倍。业界对智算算力的需求也水涨船高,据 Al Now计算能力和人工智能报告指出,早期 Al 模型算力需求是每 21.3 个月翻一番,而 2010 年深度学习后(小模型时代),模型对 Al 算力需求缩短至 5.7 个月翻一番,而 2023 年,大模型需要的 Al 算力需求每 1-2 个月就翻番,摩尔定律的增速显著落后于社会对 Al 算力的指数级需求增长速度,即“Al 超级需求曲线”遥遥领先传统架构的 Al 算力供给,带来了Al 芯片产能瓶颈涨价等短期市场现象。根据工信部等部委 2023 年 10 月发布算力基础设施高质量发展行动计划,截至 2023 年 6 月底,我国算力总规模达到 197EFLOPS,智能算力规模占比达 25.4%。按照该计划,我国 2023 年底智算算力要达到 220EFLOPS,2024 年要达到 260EFLOPS,2025 年要达到 300EFLOPS。如此庞大的智算算力需求对底层智算基础设施性能、稳定性、成本及安全性方面带来巨大技术和成本挑战。特别是智算云基础设施在算力、网络、存储、调度等方面的性能对 AI 训练过程有关键影响,是决定 AI 大模型训练质量(效率、稳定性、能耗、成本、信任等)的关键因素。底层智算云基础上设施性能对 AI 训练的质量有着重大影响,体现在多个方面:1.数据处理能力:千亿级模型的训练需要使用文件、对象、块等多种存取协议处理处理 PB 级规模的数据集,万亿级模型的训练处理 checkpoint 的读写吞吐性能要求高达 10TB/s。现有智算存储设施在协议处理、数据管理、吞吐性能等方面面临诸多挑战。传统智算的分布式文件存储系统仅支持百节点级别扩展,节点规模小,难以满足万卡级集群的数据吞吐性能要求。高性能云计算平台能够高效地存储和处理海量的训练数据。数据预处理、清洗和标注等步骤可以在云端高效完成,确保输入模型的数据质量,从而提升模型的准确性和泛化能力。2.算力支持:云计算提供了弹性且强大的计算资源,特别是 GPU 和 TPU 等加速器,能够大幅缩短 AI 模型的训练时间。大规模并行处理能力使得处理复杂的深度学习模型成为可能,这对于模型收敛速度和训练质量至关重要。All Rights Reserved4userid:529794,docid:169819,date:2024-07-27,1.2 AI 产业催生高性能云计算需求3.分布式训练:云计算平台支持模型的分布式训练,通过多节点并行计算,可以处理更大规模的数据集和更复杂的模型,同时减少训练时间。这对于大型语言模型、图像识别模型等尤为重要。4.模型优化:利用云计算资源,可以进行大量的模型调优实验,比如超参数调优、模型架构搜索等,找到最优模型配置。云计算的灵活性允许数据科学家和工程师快速迭代,提高模型性能。5.存储与 IO 性能:高速的存储系统和优化的 IO 性能减少了数据读写瓶颈,确保训练过程中数据的快速存取,这对于大规模数据处理和模型训练至关重要。6.资源调度与自动化:云平台的智能资源调度能力可以根据 AI 训练任务的需求动态调整资源分配,保证计算资源的高效利用。自动化工具和服务进一步简化了模型训练流程,降低了操作复杂度。7.成本效益:云计算的按需付费模式降低了进入门槛,使得企业和研究机构无需前期大量投资硬件设施,就可以开展高级 AI 项目,促进了 AI 技术的普及和创新。综上所述,云计算不仅提供了必要的基础设施来支撑 AI 训练,还通过其灵活、高效、可扩展的特性,直接促进了 AI 模型训练质量和效率的提升,推动了 AI 技术的快速发展和广泛应用。1.2.3 主流 AI 训练的云计算支撑架构智算云数据中心架构可划分为基础设施层、管理调度层、大模型平台层、AIGC 应用层,各层的作用说明如图1.2所示:图 1.2:智算中心架构基础设施层适度超前建设,满足面向未来客户的算力多元化需求,基于开放计算,兼顾软硬All Rights Reserved51.3 IaaS on DPU(IoD)算力底座技术路线一体协同,构建多元融合型架构,将通用 CPU 与多元异构芯片集成,融合多种算力,充分释放算力的价值。基于领先的 AI 服务器为算力单元,支持成熟丰富的软件生态,形成高性能、高吞吐的计算系统,为 AI 训练和 AI 推理生产输出强大、高效、易用的计算力。管理调度层硬件资源与 AI 应用松耦合,CPU 算力与 AI 算力按需配比,AI 算力资源按需调用,随需应变,显存可扩展、算力可超分。系统调度层一般采用云计算技术,根据资源池内算力资源使用情况,统一调度 AI任务,AI 算力资源采用声明式申请,实现资源自动聚合,满足单机单卡,单机多卡及多机多卡不同场景要求。大模型平台层覆盖 AI 模型开发部署全生命周期,提供预置行业算法、构建预训练大模型,推进算法模型持续升级、提供专业化数据和算法服务,让更多的用户享受普适普惠的智能计算服务。AIGC 应用层使用云计算技术作为底层支撑,利用训练过的模型对外提供 AI 服务,包括语音交互服务、文本交互服务、图像生成服务与视频生成服务等。需要满足业务系统高可用性与快速迭代等需求。当前,主流 AI 框架主要采用云原生技术作为底层支撑,主流 AI 分布式训练框架如图1.3所示。1.3 IaaS on DPU(IoD)算力底座技术路线1.3.1 IoD 发展历程为了将算力基础设施的能力充分发挥出来,云计算系统整体架构也在不断演进。传统的 IaaS 平台组件功能全部由 CPU 算力承载,但是随着对云计算性能需求的提升以及极致利用 CPU 算力需求的发展,基于 DPU 构建 IaaS 平台的理念被提出与论证。这其中的佼佼者以亚马逊网络服务(AWS)为代表,根据披露的材料分析,自 2013 年发布 Nitro(DPU)设备以来,AWS 的云计算服务体系逐渐改造为基于 DPU 构建并运行在 Nitro 设备中,服务器上的 CPU 算力被完全池化并以近乎 100%的原始算力性能向客户售卖。以此为基础,AWS 构建了一整套高性能、高稳定性的云服务体系,成为全球范围内最大All Rights Reserved61.3 IaaS on DPU(IoD)算力底座技术路线图 1.3:主流分布式训练框架的云服务供应商。国内阿里云也采用类似的体系,其云服务体系与其自研的 DPU 设备紧密配合,帮助阿里云取得了巨大的成功。因此,IaaS on DPU,简称为 IoD,并非全新的概念,而是已经被业内头部企业充分论证过的技术方向,其商业价值也已经经过市场的考验。但是如 AWS 等企业的 DPU 与云平台经过高度订制化,难以简单在业内推广开来。随着 Nvidia、Intel、AMD 等芯片行业的领军企业进军 DPU 赛道后,如何探索出一条通用云计算系统与标准 DPU 产品结合的路径成为业内关注的焦点。上述芯片企业通过行业论坛或技术文章等方式发表过众多类似的解决方案,将部分 IaaS 平台能力下沉到 DPU 中。众多云计算供应商如 RedHat、VMware 等也顺应趋势,展开了相关研究并在其产品中纳入了相关能力。其中关键性事件是 OPI 与 ODPU 等标准化组织的成立,云厂商与 DPU 供应商纷纷参与其中探讨 DPU API 规范,DPU API 规范可以将云平台与 DPU 设备解耦,将 IoD 技术规范化并全面推向云计算行业。1.3.2 IoD 技术路线解析IoD 技术的核心思想是依托于 DPU 的异构运算能力,将云计算平台的基础设施组件尽可能下沉到 DPU 承载,实现节约 CPU 开销与提升 IaaS 服务性能的目的。同时,基All Rights Reserved71.3 IaaS on DPU(IoD)算力底座技术路线础设施组件下沉到DPU之后,可以为服务器侧运行的各种业务提供一致的网络、存储与安全底座,可以更好的将虚拟机、容器与裸金属的业务调度收敛到统一平台。如图1.4所示为 IoD 架构下的系统模型。图 1.4:IoD 系统模型当前开源领域最主流的云计算平台有 Openstack 体系与 Kubernetes 体系,虽然二者在虚拟技术和容器编排方向各有侧重,但它们可以互补使用,并且随着不断地技术迭代,二者的业务覆盖范围也有所重叠。总的来说,Openstack系统更注重对物理设备的模拟,对业务隔离性与复杂业务系统的支持更加友好,适合作为重点以虚拟机为主并需要复杂网络管理和多租户环境的企业级 IaaS 平台使用。它在虚拟机管理、网络配置和企业级特性方面表现出色。Kubernetes系统则是从上层业务的架构设计与生命周期管理角度出发,提供更好的业务编排特性与抽象层次更高的网络与存储特性,拥有更加丰富的系统组件和更加灵活的插件机制,更适合作为以容器业务为主的 IaaS+PaaS 综合平台使用,尤其是在需要高效管理容器化应用和自动化运维的场景中。值得一提的是,Kubernetes 体系中提供的 Service Mesh 组件,在底层平台提供了丰富的服务治理能力,其内置的服务发现、负载均衡、业务自愈、高可用、业务跟踪、滚动发布等特性大幅简化了业务系统的架构设计难度。借助于Kubernetes 体系更友好的插件机制,CNCF 社区发展迅速,也逐渐补足了 Kubernetes 其在虚拟化与业务隔离性方面的劣势。从另一个方面来讲,据 Gartner 统计,新建云计算平台中选择基于 Kubernetes 构建的比例越来越高,尤其是以 AI 相关的云计算基础设施中,Kubernetes 体系占据绝对数量优势,已经成为云计算技术发展与应用最主要的方向。由于以上原因,IoD 技术架构更推荐选择采用扩展 Kubernetes 的形式,通过众多插All Rights Reserved81.3 IaaS on DPU(IoD)算力底座技术路线件将 DPU 能力引入到云原生技术栈中,并将 Worker 节点的基础设施组件完全运行在DPU 中。图 1.5:IoD 技术架构图如图1.5所示,典型的 IoD 技术部署在 DPU 上的核心组件包括:BM-Agent:裸金属业务组件,裸金属系统盘采用 DPU 虚拟的磁盘,通过在虚拟磁盘中挂载用户镜像,可以实现裸金属业务的快速切换与业务温迁移。VM-Agent:虚拟机业务组件,通过监控本机虚拟机声明和实例资源,实现对服务器上所有虚机实例的管理。CM-Agent:容器业务组件,定期从 Kubernetes 接收新的或修改的 Pod 规范,并确保 Pod 及其容器在期望规范下运行。CNI-DPU:网络插件,提供高性能网络卸载方案,同时提供高性能网络接入组件、可以灵活高效对接各种外部网络。CSI-DPU:存储插件,提供高性能存储卸载方案,同时兼容多种存储方案。Sec-DPU:安全插件,提供高性能分布式安全方案,是集群网络安全策略执行的锚点。Service Agent:服务治理组件,可以根据业务需要通过流量劫持的方式实现服务治理功能,为虚拟机、容器以及裸金属业务提供通用的服务治理能力。Image-Preheater:镜像预加载组件,对通用的基础镜像进行多节点缓存,容器优先调度使用具有预热镜像的 Worker 节点,以避免其频繁拉取远端镜像。Target Abstraction:驱动抽象层,用来对接各种 DPU 产品,屏蔽底层差异,需要与不同 DPU 开发套件进行适配。All Rights Reserved91.3 IaaS on DPU(IoD)算力底座技术路线同时,为了将 DPU 融入进 Kubernetes 系统,IoD 体系下的 Kubernetes 平台也需要进行相应扩展,核心扩展包括:BM-Component:实现裸金属业务定义与生命周期管理。VM-Component:实现虚拟机业务定义与生命周期管理。Kubernetes 原生组件:实现容器业务定义与生命周期管理。CNI-Controller:实现网络服务定义与管理。CSI-Controller:实现存储服务定义与管理。Sec-Controller:实现安全服务定义与管理。Service-Mesh:服务治理组件,实现服务治理规则定义与管理。Image-Controller:镜像管理组件,提供容器、虚拟机、裸金属镜像统一管理与预热策略下发功能。Cluster-Provider:提供集群部署与 DPU 节点生命周期管理功能。API-Server:提供对外 API 服务,暴漏底层 IaaS 能力。通过以上设计,已经完成了云计算 IaaS 体系与 DPU 的结合并将主要组件下沉到DPU 系统。类似的设计方案对 Openstack 体系也完全适用。值得一提的是,通过前述方案中 API-Server 暴露的能力,在已经完成 IoD 基础环境搭建之后,不管是 Openstack 体系或者其他云平台体系,都可以通过简单的 API 集成,实现集群的 IoD 改造。通过 IoD 技术,可以为云计算体系提供以 DPU 为核心构造、软硬件一体化高性能计算底座,对外提供统一管理、高可扩展性、高性能、低成本的 IaaS 服务。在硬件层面为“3U 一体”和“一云多芯”的异构算力管理提供更好的解决方案。通过对网络、存储、安全、管理等负载的卸载,释放服务器的硬件资源,实现性能加速,提升基础设施运行效率。此外,通过 IoD 的统一底座技术,可以为云计算系统提供容器、虚拟机、裸金属业务的统一调度和运维管理能力,提升运维管理效率。1.3.3 高性能云计算的规格定义1.3.3.1 高性能网络规格定义在高性能云计算底座中,高性能网络需要满足一系列严格的要求:1.带宽(Throughput):高性能计算集群通常需要处理大量数据传输,因此网络必须All Rights Reserved101.3 IaaS on DPU(IoD)算力底座技术路线提供极高的带宽,以确保数据可以在节点间快速流动,减少传输瓶颈。例如,在科学计算、大数据处理、深度学习训练等场景中,数据集可能达到 PB 级别,要求网络带宽至少达到百 GB 甚至更高。2.延迟(Latency):对于需要频繁通信和数据交换的应用,网络延迟需要控制在微秒级甚至纳秒级,以保证系统的响应速度和实时性。3.并发连接(Concurrency):在高负载和大规模分布式环境中,单节点需要同时处理成数万并发连接,确保每个连接都能得到及时响应。4.网络服务质量(QoS):不同类型的数据流和服务对网络资源的需求和优先级不同,QoS 功能允许网络管理员根据服务类型动态分配带宽和其他资源,确保关键应用的性能不受非关键流量的影响。5.冗余:(Redundancy)高性能网络应具备高度的弹性和冗余设计,即使部分组件出现故障,也能保持网络的连通性和稳定性。这意味着网络需要有多条路径和备份链路,以及自动故障检测和恢复机制。6.可管理性(Manageability):网络应易于管理和监控,提供详细的性能指标和日志记录,帮助运维人员及时发现和解决问题。1.3.3.2 高性能存储规格定义在云计算场景下,存储处理性能直接影响着系统的整体性能和用户体验,高性能存储对于处理性能的规格定义通常包括以下关键指标和参数:1.吞吐量(Throughput):吞吐量是指存储系统能够处理的数据量或信息流量。高性能存储目前主流性能在 100-400Gb/s,根据云规模的不同略有浮动。2.IOPS(Input/Output Operations Per Second):IOPS 是指存储系统每秒钟可以执行的输入/输出操作次数。高性能存储后端需要提供至少千万级的总 IOPS 数据处理能力,特定场景如 AIGC 应用中,单个存储前端也需要百万级的单磁盘 IOPS 能力。3.延迟(Latency):存储系统的延迟是指数据请求从发起到完成所需的时间。考虑到存储系统的额外延迟开销,高性能云计算的延迟总体开销应控制在亚毫秒级(即百微秒量级)。4.容量(Capacity):存储系统的容量指的是其可以存储的数据量。在高性能存储方案中,存储容量可以达到 EB 级。5.鲁棒性(Robustness):高性能存储系统需要具备高可靠性和高可用性,以确保数据的安全性和持续性。这包括数据冗余、故障恢复能力、备份与恢复机制等。All Rights Reserved111.3 IaaS on DPU(IoD)算力底座技术路线6.数据保护(Security):高性能存储系统需要提供有效的数据保护机制,包括数据加密、访问控制、数据备份等,以确保数据的安全性和完整性。7.扩展性(Extendibility):高性能存储系统应具备良好的扩展性,能够根据需求灵活扩展存储容量和性能,以适应不断增长的数据需求。8.融合性(Integration):高性能存储系统通常支持多种存储访问协议,如 NFS、SMB、Object、iSCSI、FC、NVMe-oF 等,以满足不同应用场景的需求。1.3.3.3 高性能安全规格定义对于高性能云计算场景,传统安全设备通常部署在网络边界处,无法部署在安全计算环境中,而传统网络安全软件无论是防火墙、VPN、IPS 等产品都非常消耗服务器主机算力资源,这将严重影响服务器所承载业务应用的客户体验,也是当前计算环境的安全防护比较薄弱的一个重要原因。1.算力损耗(Loss-rate):不因开启网络安全功能而导致处理高性能网络处理性能明显下降;安全计算环境开启网络安全软件功能后,服务器主机算力资源消耗小,平均算力占用率不超过 5%。2.吞吐量(Throughput):吞吐量是在各种帧长的满负载双向发送和接收数据包而没有丢失情况下的最大数据传输速率,开启安全功能后,安全吞吐量可能为正常情况的 70-90%。3.延时(Latency):开启安全功能后,网络延时需要控制在微秒级。4.会话数量(Number of session):最大会话数量指基于防火墙所能顺利建立和保持的最大并发 TCP/UDP 会话数,对于高性能网络,最大会话数量至少为千万级。5.每秒新建连接数(Connection Per Second,CPS):每秒新建连接数指一秒以内所能建立及保持的 TCP/UDP 新建连接请求的数量,每秒新建连接数通常需要几十万级。6.误报率(False alarm rate):误报率是指某种类型的网络业务流量被误识别为其它类型网络业务流量在所有被测试网络业务流量样本中的占比,此指标需要接近于0%。7.漏判率(Miss rate):漏判率是指网络业务流量中预期应该被识别出来的业务类型没有识别到的网络业务流量占总网络业务流量样本的百分比,此指标接近于 0%。8.识别准确率(Identification accuracy):识别准确率是指测试用的网络业务流量样本中被准确识别的比例。此指标识别准确率接近 100%,至少要求在 95%以上。All Rights Reserved121.4 IoD 高性能云计算应用范式9.隧道会话数(Number of IPSec tunnels):最大 IPSec 隧道会话数量指 IPSec 隧道会话所能顺利建立和保持的最大并发会话数,IPSec 隧道会话数量至少为数万级到数十万级。10.每秒新建 IPSec 会话数(IPsec Connection Per Second):每秒新建连接数指一秒以内 IPSec 所能建立及保持的 IPSec 隧道会话的数量,至少要求在几千或数万级。1.4 IoD 高性能云计算应用范式1.4.1“兼容并包”的公有云公有云服务是最典型的云计算应用场景,通过互联网将算力以按需使用、按量付费的形式提供给用户,包括:计算、存储、网络、数据库、大数据计算、大模型等算力形态。基础设施能力的提升会为公有云服务商带来很多优势:拓展用户宽度:云计算服务的性能是对部分客户至关重要,云计算服务的网络带宽、存储性能、响应时间等往往成为客户是否选择一家云厂商的关键因素,因此更高的性能有助于云计算厂商有效的拓展用户宽度。降低客户成本:更高的性能意味着云计算客户可以用更短的时间完成任务,直接关系到客户的使用成本,高性能云计算平台可以帮助云服务商在价格竞争中取得身位领先。极致资源利用:通过卸载技术降低 CPU 负荷意味着相同集群规模可以提供更多的可售卖资源,因此高性能云底座将直接关系到云服务商的生产能力。提升 ROI:IoD 技术不仅仅可以提升算力资源池的服务性能,在网络资源池、安全资源池与存储后端等领域也可以通过性能提升为云服务商带来更高的经济效益。整体看来,部分公有云厂商在选定技术路线后会采用自研 DPU 的方式来获得更高的业务定制性,但芯片研发的巨额资金投入也带来了巨大的不确定性。其余大部分云服务厂商会选择引入硬件供应商的设备来构筑自己的技术体系,此时 DPU 设备的规范性、可定制能力以及服务支持能力将成为至关重要的因素。All Rights Reserved131.4 IoD 高性能云计算应用范式1.4.2“安全强大”的私有云私有云是仅为单一组织或企业专用的一种云计算环境,相对于公有云,它提供了更高的控制权、隐私性和定制化能力。私有云一般部署在企业内部的自有数据中心(本地私有云),也可以托管在第三方服务提供商的数据中心(托管私有云)。由于其承载的业务范围相对固定,因此除了个别应用类型为,私有云对性能的需求往往聚焦在某个方向,并不像公有云需要全方位的性能提升。但是,私有云的应用对于运维隔离、安全管控等需求更为强烈,IoD 技术也将为私有云带来诸多好处:运维隔离:通过 IoD 技术,云平台的基础设施层与业务运行环境做到了最大限度的隔离,并且各种基础设施能力仅通过虚拟设备形式对业务系统呈现,最大限度的完成了运维与业务的解耦部署。高安全性:借助 DPU 的能力,可以更好的实施“分布式防火墙”与“零信任”网络方案,并且通过 DPU 参与到数据收发路径的方式,能够更方便的实现集群业务监控。性能提升:通过定向的性能提升,能够帮助私有云延续老式设备的服役周期,保护既有投资。节能减排:通过 IoD 技术提升集群整体性能,可以用更少的设备与能耗提供同等算力,帮助客户实现节能减排的目标。IoD 技术对于私有云建设的优势非常明显,但是目前在运行的私有云改造确面临着诸多问题,涉及适配改造、业务迁移等方面,典型的建设方案有:1.新建集群并逐步完成业务迁移与 IoD 集群扩容,此方案要求新建的 IoD 集群能够与源集群较好的适配与互通,能够实现安全方案的平滑迁移以及能够共享存储系统。此方法优势是迁移过程较平滑,但是整体项目实施周期可控性较低,迁移启动时无法充分验证系统对上层业务需求的支持情况。2.推动当前云平
展开阅读全文