中国移动NICC新型智算中心技术体系白皮书.pdf-资源下载-咨信网-让知识获取变得高效

中国移动NICC新型智算中心技术体系白皮书.pdf

1、01中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White PaperChatGPT 系列大模型的发布，不仅引爆全球科技圈，更加夯实了人工智能（Artificial Intelligence,AI）在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。当前各国政府已全面布局 AI，作为 AI 技术发展的关键底座，智算中心的建设和部署在全球范围内提速。然而，早期建设的智算中心，以承载中小模型、赋能企业数智化转型为主要目的，在技术标准、生态构建、业

2、务发展和全局运营等各方面仍有待提升。当追逐大模型成为行业标准动作，面向大模型的新型智算中心（New Intelligent Computing Center，NICC）成为新时期关注的焦点。新型智算中心的建设是一个系统工程，需要“算存网管效”多个维度的协同设计。中国移动从自身战略转型出发，为构建智能服务的核心和基础，定义新型智算中心技术体系架构，并面向未来大模型孵化，从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议，希望本白皮书能够为合作伙伴在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助。本白皮书在中

3、国移动集团有限公司技术部和计划建设部指导下，由研究院牵头编写，期间得到了来自华为、浪潮信息、新华三、曙光、超聚变、中兴、寒武纪、燧原、壁仞、趋动科技、星网锐捷、昆仑芯、天数智芯、盛科、云合智网、云豹智能、云脉芯联、星云智联等多家企业的大力支持。新型智算中心技术体系的构建与成熟需要产业链各方凝聚共识，明确行业应用和服务的共性要求，中国移动希望同行业一道，共同推动智算关键技术成熟，共同繁荣国内 AI 生态发展。前言02中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework

4、White Paper目录 contents第一章智算中心行业发展现状/041.1 智能算力跃升为全球第一大算力，智算中心建设如火如荼/041.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战/07第二章 NICC 新型智算中心技术体系架构和发展路径/082.1 NICC 新型智算中心技术体系架构/082.2 NICC 新型智算中心技术发展路径/09第三章新互联打破算力瓶颈/113.1 集群内的高速卡间互联/113.1.1 大模型分布式训练需要高速卡间互联/113.1.2“七国八制”的卡间高速互联技术现状/143.1.3 未来万亿级模型的卡间高速互联演进建议/163.2 集群间的高

5、速无损网络/173.2.1 InfiniBand 与 RoCE 是当前主流方案/173.2.2 全调度以太网突破无损以太性能瓶颈/193.2.3 智算中心网络关键技术演进/23第四章新算效重塑计算架构/254.1 下一代 AI 芯片设计思路/254.2 存算一体构建新型计算范式/264.3 DPU 实现计算、存储和网络的深度协同/2803中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper第五章新存储挖掘数据价值/315.1 计算与存储的交互

6、过程/315.2 智算场景存储面临的三大挑战/335.3 多协议融合存储贯通异构数据/335.4 全局统一存储打破单体局限/345.5 基于计算总线构建统一内存池/35第六章新平台融通无限生态/376.1 池化技术优化资源使用效率/376.2 算力原生融通多样算力生态/406.3 分布式训练提升模型训练效率/416.4 跨域分布式调度促进广域资源利用/43第七章新节能实现可持续发展/45第八章总结和倡议/48缩略语列表/50参考文献/5204中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Techn

7、ology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper1.1 智能算力跃升为全球第一大算力，智算中心建设如火如荼1956 年第一次 AI 发展浪潮信息伊始，60 多年来，从理论探索到大数据驱动，从深度学习到大模型智能涌现，AI 正在成为一项新兴的通用型技术，向多场景、规模化、AIGC（AI Generated Content）等方向快速演进。智能算力作为 AI 的底座型技术迎来需求井喷。据统计，

8、到 2030 年，全球智能算力需求增长约 390 倍，增速远超摩尔定律。据中国算力发展指数白皮书（2022）指出，我国智能算力也在近几年保持快速增长态势。2021 年我国智算规模已达到 104E FLOPS，占比超过总算力的 50%，预计到 2030 年将升至 70%，成为算力的主要增长极。智算成为全球第一大算力已是大势所趋。随着 AI 在赋能产业发展、促进数实融合方面发挥出愈加显著的作用，各国政府纷纷发布政策引导其发展。美国为加强其在 AI 领域研发和部署的领导地位，于 2019 年签署美国人工智算中心行业发展现状1 105中国移动 NICC 新型智算中心技术体系白皮书China Mobil

9、e New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper智能倡议（American AI Initiative）1，旨在从国家战略层面重新分配资源，用于 AI 研发，以应对来自“战略竞争者和外国对手”的挑战。之后，在 2021 年颁布美国创新与竞争法案2，高度关注 AI 与机器学习、高性能计算、半导体等十大关键技术领域

10、欧盟在 2021年发布2030 数字指南针：欧洲数字十年之路3，要求到 2030 年 75%的欧盟企业使用云计算、大数据和 AI 技术。我国也高度重视 AI 技术发展，自 2017 年以来国家各部委和地方政府相继出台政策，指导 AI 产业发展规划，鼓励企业加大人才引进和研发力度，并明确指出要积极推动智算中心有序发展。至此，智算中心作为一种新型算力基础设施为大家所熟悉。不同于传统的云数据中心和超算中心，智算中心是以GPU、AI加速卡等智能算力为核心、集约化建设的新型数据中心，为人工智能应用提供所需的算力服务、数据服务和算法服务，使能各行各业数智化转型升级。智算中心的战略地位不断提升，为构造未来

11、竞争发展优势，很多国家都在积极开发和部署智算中心。其中，美国能源部及国家科学基金会主导，将智算中心和超算中心结合，建设超大规模智能超算中心，为科学研究提供高性能计算资源（如图 1-1），例如，橡树岭国家实验室的 Summit（3.4E）4，阿贡国家实验室的 Polaris 和 Aurora（约 10E）5，劳伦斯伯克利实验室的 Perlmutter（3.8E）等，这些智能超算中心往往具有单体算力大、技术领先等特点。美国科技巨头也是智算中心的主要建设者，包括谷歌的开放机器学习中心（9E），特斯拉 Dojo 集群（据称 2024 年末规模达到 100E），Meta AI 超级计算机（9.9E）等。

12、图 1-1 美国智能超算中心06中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper国内智算中心建设热潮始于 2020 年，目前已有 40+城市建成或正在建设智算中心（如图1-2），包括武汉人工智算计算中心（200P）、南京智能计算中心（800P）

13、合肥先进计算中心（12P）、鹏城云脑 II（1E）等，其中 12 个位于“东数西算”八大枢纽，这些智算中心主要由地方政府与企业合建，总体投资规模超千亿，旨在带动当地产业智能化升级。国内互联网和 AI 企业自建的智算中心是国内智能算力的重要组成，如阿里在张北和乌兰察布建设的总规模达 15E 的智算中心，旨在结合智能驾驶、智慧城市等业务，探索云服务后的智算服务新业态；百度在山西阳泉建设规模4E 的智算中心，孵化国内首个正式发布的大模型“文心一言”；商汤作为国内头部 AI 企业，投资 56 亿在上海临港建设人工智能计算中心，规模超 4E，主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块，发展

14、 AIaaS（AI as a Service）服务。图 1-2 国内部分智算中心07中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper1.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战当前智算中心主要以单供应方全栈体系构建为主，尚未形成

15、业界统一的设计方案，因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。由此可见，未来智算中心亟需朝着技术先进、标准统一、软硬协同、兼容开放的方向发展。在标准方面由于各地智算中心大都是当地政府与 AI 芯片、整机厂家合作建设为主，技术方案深度绑定，容易形成多种派系。亟需通过制定行业标准，一方面降低客户学习和使用的时间成本，另一方面加强产业链上下游企业的协同，促进智算产业的高质量发展。在运营方面各地智算中心的服务对象多为区域内的行业客户、科研院所和高校，较少考虑全局协同，随着东数西算、东数西渲等应用需求不断丰富，需要提前布局跨区域的全局算力调度，提升算力高质量供给和数据高效率流通。在技术方

16、面早期建设的智算中心以承载中小模型为主，AI 服务器大多是 PCIe 机型，配备独立的文件存储，互联方式则以节点内 PCIe 通信与节点间传统以太网为主。随着通用大模型的普及，智算中心的设计思路需要从原先以单芯片、单服务器粒度提供算力服务的模式，转变为支持巨量并行计算，提供高吞吐、高能效的集群算力。在生态方面因为 AI 是软硬深度耦合的技术栈，国外主流产品“先入为主”，主导生态发展，相比之下国内 AI 起步较晚，在芯片算力和软件栈适配方面均存在差距。在智算生态竖井式发展的当下，需要加强引导，为后续 AI 应用的适配和跨架构迁移奠定基础。08中国移动 NICC 新型智算中心技术体系白皮书Chin

17、a Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper2.1 NICC 新型智算中心技术体系架构结合大模型技术的发展趋势以及对智算中心建设和使用现状的分析，我们认为 ChatGPT 等预训练大模型的出现，必将带来 AI 基础设施的变革，传统的算力堆叠方式已然失效，智算中心需要在互联、算效、存储、平台、节

18、能五大领域进行系统化的重构，才能支撑起大模型对千行百业的革新与改造。为此，中国移动结合自身转型战略和一线客户需求，提出 NICC新型智算中心（New Intelligent Computing Center）。区别于早期建设的智算中心，NICC 新型智算中心是以高性能 GPU、AI 加速卡等集群算力为核心，集约化建设的 E 级超大规模算力基础设施，具备从硬件设施到软件服务的端到端 AI 全栈环境，支撑超大规模、超高复杂度的模型训练和推理业务，最终赋能行业数智化转型升级。2 2NICC 新型智算中心技术体系架构和发展路径09中国移动 NICC 新型智算中心技术体系白皮书China Mobile

19、New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White PaperNICC技术体系由“三层两域”构成（如图2-1），分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。其中基础设施层提供计算、存储、网络等硬件资源；智算平台层作为资源管理的核心，提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力，在此之上搭建算力

20、原生平台提供应用跨架构迁移能力；应用使能层集成行业主流 AI 开发框架以供应用开发调用。智算运维域主要负责对底层 IaaS（Infrastructure as a Service）资源进行管理维护，确保系统的稳定运行；智算运营域对接外部客户，提供计量计费、访问、交易等界面，对内根据上层任务进行资源编排调度。2.2 NICC 新型智算中心技术发展路径为释放智能算力极致性能，NICC的设计方案既要考虑计算、存储、网络三大维度的横向协同，也要兼顾软件平台与硬件资源的纵向协同，同时锚定技术先进、标准统一、软硬协同、兼容开放的目标，广泛且高效地支撑智能化应用场景。我们认为 NICC 的发展将分为两个时期

21、1)集群时期：这个时期最显著的特征是数据及模型出现巨量化趋势，千亿级的模型已经出现，对智算底座的算力能力和扩展性均提出高要求。在设备形态方面，GPU、AI 芯片以扣卡模图 2-1 新型智算中心技术体系架构10中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework Whit

22、e Paper组为主，服务器形态多为单机 8 卡，DPU 按需引入解决裸金属管理、存储加速等业务痛点；硬件资源开始按照集群的方式部署，相比提升单芯片算力，芯片间的高速互联方案落地更为关键。互联方案以服务器节点为界限，节点内外高速互联技术各自发展，节点内采用高速计算总线，节点间采用 100G/200G 高速无损网络；在存储方面，原先独立部署的文件、对象存储逐渐向融合存储演进，提升数据交互效率；平台应具备池化算力分配能力，实现底层智算资源的细粒度分配、动态调度和一体管理。分布式并行训练框架需要引入提升模型训练效率。为配合高算力需求，散热系统逐渐从风冷向冷板式液冷过渡。2)超级池化时期：当大模型迈进

23、万亿参数量规模，算力、显存和互联的需求再次升级，智算中心将真正进入超级池化时代，高速互联的百卡组成的“超级服务器（Super Server，S2）”可能成为新的设备形态。传统以单机8卡为最小单元的智算中心设计思路需要革新，“超级服务器”内需要打造统一的协议实现 CPU、GPU、AI 芯片、显存、存储等池化资源的无缝连接，进而通过 GSE 等高性能交换网络，达到极高吞吐、极低时延的系统算力；为推动算效能力进一步提升，基于存算一体架构的大算力芯片将开始逐步应用；存储系统在“超级服务器”内支持内存池技术，对外扩展支持全局统一存储；针对日益割裂的智算生态，需要构建基于算力原生平台的跨架构开发、编译、优

24、化环境，屏蔽底层硬件差异，从软件层面最大化使能异构算力融通。散热系统方面，为匹配“超级服务器”设施发挥出最大算力能力，浸没式液冷也将逐渐规模落地。我们认为，新型智算中心当前已处在“集群时期”，中国移动和部分企业已经按照集群的思想构建 AI 基础设施；面向中远期，我们应重点攻关“超级池化时期”的关键技术，尽快形成行业共识，加速相关核心技术和产业成熟。图 2-2 新型智算中心技术发展路径11中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动

25、 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper3.1 集群内的高速卡间互联大模型浪潮除了带来算法及软件革命，也拉开了 AI 基础设施变革的序幕。一方面，算法结构的创新影响了 AI 芯片在算力精度范围和专用加速电路等方面的设计，但单芯片算力提升的速度仍无法赶上模型参数的发展速率（如图 3-1）；另一方面，由于巨量参数和庞大的数据样本，模型的尺寸已经远超出单个 AI 芯片甚至单台服务器的计算能力，亿级以上的模型需要部署在高速互联的多个 AI 芯片上，分

26、布式并行训练。当前，相较于单芯片能力提升，多芯片集群的规模化能力及效率是产业研究的重点。3.1.1 大模型分布式训练需要高速卡间互联在大模型迸发出知识涌现能力之前，AI 的主流场景是中小模型承载的计算机视觉类（Computer Vision，CV）应用，模型参数在亿级以下，如 ResNet50（25M）等。此类模新互联打破算力瓶颈3 312中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China

27、 Mobile New Intelligent Computing Center Technology Framework White Paper型显存占用集中在单卡或者单服务器节点，训练模式多采用单卡运行或单节点内多卡数据并行，每张卡或节点上都有完整的模型结构，卡间通信主要传输训练数据，因此通信需求不频繁，带宽要求在几十 GB 级别，传统的 PCIe 设备形态即可满足其训练需求（如图 3-2）。图 3-1 模型参数量和 GPU 算力的发展趋势 6图 3-2 PCIe 形态的插卡和整机设备当模型参数量迈进千亿规模，如 GPT3（1750 亿），训练模式也从单芯片运行转变成多芯片分布式运行，数据

28、样本和模型结构被切分到多张卡或者节点上，卡间或者节点间不仅有数据样本的通信，还有模型梯度的频繁传递，对卡间的互联能力在带宽和拓扑结构两大方面产生高要求。常用的分布式并行策略主要分为数据并行（Data Parallel，DP）和模型并行（Model 13中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Tech

29、nology Framework White PaperParallel，MP）两大范畴，两者通信操作不同，对卡间的带宽和互联拓扑要求也不同：数据并行的实现思路是每个计算设备上（每张卡或者节点）都有一个完整模型，将数据集拆分到多个计算设备上同时训练，在反向传播中，各个设备上的梯度进行归约操作求平均（AllReduce），再更新模型参数。通信操作中主要使用到 Ring-Allreduce 算法，多个计算设备采用环状互联拓扑，通信带宽要求多为几-几十 GB/s。模型并行主要分为流水线（Pipeline Parallel，PP）和张量并行（Tensor Parallel，TP），其中流水线并行最早由

30、谷歌在 Gpipe 算法 7 中提出，将模型按照层的维度拆分成多个 Stages 放在每个计算设备上，训练过程是逐层顺序计算，通信数据量比数据并行小，对拓扑无特殊要求，点对点互联即可，通信带宽要求在几-十几 GB/s；张量并行由英伟达在Megatron-LM 论文 8 中提出，将模型在层内进行切分，训练过程中前向和反向传播中都涉及 Allreduce 操作，通信量大且频繁，计算设备通常要求是全互联（Fully connected，FC）甚至交换拓扑（Switch），带宽需求在几百 GB/s。表 3-1 不同的分布式并行策略及对应的卡间互联要求策略通信模式互联拓扑，带宽需求数据并行 DPAllr

31、educe环状或全互联，常规需求，几几十 GB/s流水线并行 PPP2P点对点相连，常规需求，几十几 GB/s张量并行 TPAllreduce环状或全互联，带宽需求高，几百 GB/s由于大模型训练对芯片互联提出高带宽、低延时以及拓扑结构高扩展性等要求（如表 3-1），PCIe 形态设备在通信带宽和模式上都难以为继。在带宽方面，PCIe 4.0*16 最高为 64 GB/s，无法覆盖百 G 带宽需求；在通信模式方面，卡间通信必须经过 CPU 绕转甚至跨 CPU NUMA，不仅带来通信延迟，还增加 AI 算法开发难度；在扩展性方面，部分厂家曾采用桥接器搭配自研的通信协议实现卡间高速互联，但因整

32、机主板设计和桥接器的机械应力限制，互联数量基本在 4 卡及以下，扩展能力有限。因此，PCIe 设备形态逐渐被扣卡模组形态的产品（如图 3-3）替代，成为业界大模型训练的主流解决方案。14中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper图 3-3

33、 GPU 扣卡模组形态3.1.2“七国八制”的卡间高速互联技术现状针对中小模型训练，基于 PCIe 设备形态的解决方案已经非常成熟，面向大模型场景，基于扣卡模组的卡间高速互联方案则呈现“七国八制”的局面。目前行业主要分为私有和开放技术两大类。私有方案以英伟达 NVLink 为代表，目前已经发展到第四代（如图 3-4）。第一代到第二代的演进主要体现在互联拓扑的转变，从 cube 直连演变为 Switch 交换拓扑，第三代在交换拓扑的基础上，通过增加单卡的 NVLink 通道数提升点对点（Peer to Peer,P2P）带宽，第四代则通过完善多种协议内容，进一步实现 C2C（chip to ch

34、ip）、AI 卡间以及服务器节点间的统一连接，达到最高至 900GB/s 的 P2P 带宽，以及 256 个 H100 的全互联能力，极大地提升了大模型并行训练的效率。图 3-4 NVLink 卡间互联演进路线15中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework Wh

35、ite Paper开放的互联标准来源于 OCP 组织发起的开放加速器基础设施项目（Open Accelerator Infrastructure，OAI）9，其定义了业界通用的 AI 扣卡模组形态（OCP Accelerator Module，OAM）和基板拓扑结构（Universal Baseboard，UBB），从而降低整机厂家集成多家 AI 芯片的适配难度。基于该标准，目前可实现 128GB/s 卡间互联 P2P 带宽，若采用全互联的拓扑结构，整板 8 卡的聚合带宽可高达 896GB/s。当前主流拓扑为 cube 立方和全互联，未来将增加 Switch 拓扑设计

36、使卡间 P2P 带宽能力大幅升级（如图 3-5 所示）。在通信协议方面，OAM 推荐采用标准的 PCIe PHY 接口，未对链路层、事务层通信协议进行规范，因此，各 AI 芯片厂家多采用自研的通信协议，如寒武纪的 MLU-LINK、燧原的 GCU-LARE和壁仞的 B-LINK 等。OAM 和 UBB 的技术生态已日趋成熟，国内外已有整机厂家根据 OAM UBB 规范研发相关服务器，并与多家 AI 芯片开发适配，在国内多地智算中心也有应用落地。图 3-5 OAM 模块的主流互联拓扑卡间互联能力与 AI 芯片的吞吐性能、芯片间的互联拓扑以及通信协议设计息息相关。其中，AI 芯片的吞吐性能主要由

37、 SerDes 接口速率和通道数（lane）决定，两者增加会带来互联带宽的提升，但也会引起功耗上升、PCB 布局布线困难等问题，是芯片工程实现的经典 PPA16中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper（Power、Performance

38、Area）问题；芯片间的互联拓扑决定了整个集群的吞吐能力和扩展能力，当前国际主流水平已经采用 Switch 交换或全互联的拓扑结构达到 8 卡或百卡级别的互联，国内则大多采用 cube 类拓扑实现 8 卡成环连接，相比之下在集群总吞吐和规模能力上均有代际差；芯片的通信协议设计决定了集群的互联效率，同时反过来影响芯片的 IO设计与卡间拓扑，当前互联协议栈多为 AI 芯片企业自研设计。3.1.3 未来万亿级模型的卡间高速互联演进建议基于 Transformer 的大模型演进趋势遵循 Scaling Law10，参数量走向万亿级是可预见的必然趋势。新型的算法结构带来了新的分布式训练策略，如专家系统

39、Mixture-Of-Experts，MoE）并行，高速通信需求进一步扩展至百卡级别，卡间互联的最优解指向 Switch 交换拓扑，构建基于交换拓扑的“超级服务器”是未来 AI 基础设施的趋势。目前由于 AI 芯片的互联协议均各自为“栈”，且多数企业缺乏从 AI 芯片到交换芯片的全产品设计能力，导致交换芯片与AI芯片之间的互联技术难以匹配，因此交换拓扑的集群方案实现面临强生态门槛，导致芯片互联规模发展受限，在一定程度上制约了 AI 基础设施的先进性。为降低设计难度，我们建议从统一高速互联协议入手，以实现百卡规模互联为设计目标，收敛技术路线，推动国内高速互联技术生态从能用到好用的跃变。目前国内

40、主流方案中，大多数跨机互联主要通过网络协议实现。考虑万亿参数模型对卡间互联的扩展性及开放性要求，可采用统一的计算总线协议作为百卡互联的通信方式，逐步推动总线交换芯片的统一，但现有计算总线的设计仍需在带宽、可靠性等方面进行优化：第一，推动 GPU、AI 加速卡支持统一高效计算总线协议。在大规模并行计算中，各个设备之间高效的数据传输是数据一致性的基本保障，避免由此带来的延迟影响模型训练的效率。统一的计算总线协议避免了不同协议之间的转换，可以确保设备之间数据及时共享。该总线协议的设计应聚焦多个 GPU、AI 加速卡之间在大带宽、低时延的基础诉求，并实现缓存一致性的数据访问，确保简化上层应用研发难度，

41、提升流量控制、拥塞控制、网络无损、重传等通信和数据传输能力。第二，推动 GPU、AI 加速卡与 CPU、内存等其它核心部件形成开放协议生态。传统的计算架构在解决异构设备互联问题时会使用不同的通信协议和数据格式，协议转换会引入额外的复杂性和延迟，对整体性能产生不利影响。因此，构建多异构设备之间的高速连接通道，将CPU、GPU、AI 加速卡、DPU、内存、FPGA、SSD 等核心部件进行统一协议互联，使 CPU cache、GPU HBM（High Bandwidth Memory 高带宽内存）、DPU cache、主机 Memory17中国移动 NICC 新型智算中心技术体系白皮书China M

42、obile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper等设备间进行统一寻址，将有利于降低用户开发难度，提升设备间的系统资源共享（内存和带宽）能力。第三，推动 GPU、AI 加速卡在功耗和面积上进一步实现集约化设计，满足单芯片计算能力提升和数据中心节能要求。通过引入更高速率的 SerDes IP，对计算总线协议

43、进行优化，减少芯片上所需的硬件资源和物理面积，以减少通信过程中的能量消耗。低功耗的协议有利于降低单芯片能耗，从而提升大规模并行计算的能效。未来，期望结合计算总线协议推广、产品规模研发、生态系统建设、优化软件和算法与产业开展广泛合作，构建一个灵活强大的计算总线互联生态系统。3.2 集群间的高速无损网络3.2.1 InfiniBand 与 RoCE 是当前主流方案新型智算中心网络从逻辑上可以分为：出口网络、管理网络、参数网络、存储网络和业务网络，如图 3-6 所示。其中，参数网络主要用于承载 AI 模型训练业务，其通信流量主要具备周期性、流量大、同步突发等特点。尤其在大模型训练过程中，通信具有非常

44、强的周期性，且每轮迭代的通信模式保持一致。在每一轮的迭代过程中，不同节点间的流量保持同步，同时流量以 on-off 的模式突发式传输，以上通信流量的特点要求参数网络必须具备零丢包、大带宽、低时延、高图 3-6 新型智算中心功能模块18中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Fr

45、amework White Paper可靠等特征。参数网络性能的好坏决定了智算中心提供算力的效率。现阶段，参数网络存在两种主流的 RDMA 技术，分别是 InfiniBand（简称 IB）和基于以太技术的 RoCE（RDMA over Converged Ethernet），如图 3-7 所示。图 3-7 InfiniBand 与 RoCE 协议栈InfiniBand 由 IBTA（InfiniBand Trade Association）组织于 1999 年提出，是最早出现的RDMA 技术。InfiniBand 不仅基于网卡硬件实现 L1L4 层网络协议栈，而且基于集中管理器及端到端的流控机

46、制实现网络无损转发。因此，InfiniBand 机制能够提供超低延迟和超大带宽的网络效果。目前市场上只有 NVIDIA 可提供 IB 交换机、IB 网卡、子网管理器的整套解决方案，但设备采购和维护成本相对较高。由于从以太网切换到 InfiniBand 网络的成本过于高昂，为推动 RDMA 技术普及，IBTA 在2010 年提出 RoCE 协议标准，允许应用通过以太网实现远程内存访问，使用者只需要更换网卡，而不需要更换现有的以太网网络设备及线缆就可以享受到 RDMA 带来的网络性能提升和 CPU 负载下降等收益，大幅降低硬件成本和维护成本。随着智能计算业务的快速发展和部署规模不断扩大，采用 Ro

47、CE 技术的智算中心网络在性能和规模方面存在的弊端也渐渐显露出来，主要挑战表现为如下几个方面：挑战一：传统基于流的等价多路径路由（Equal Cost Multi Path，ECMP）负载均衡技术在流量数小、单流流量大的情况下可能失效，导致链路负载不均。当某些物理链路负载过大时，容易出现拥塞甚至网络丢包。挑战二：分布式训练的多对一通信模型产生大量 In-cast 流量，造成设备内部队列缓存的瞬时突发而导致拥塞甚至丢包，造成应用时延的增加和吞吐的下降。PFC（Priority-based 19中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent

48、Computing Center Technology Framework White Paper中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White PaperFlow Control）和 ECN（Explicit Congestion Notification）都是拥塞产生后，再进行干预的被动拥塞控制机制，它们无法从根本上避免拥塞。挑战三：业界通过 CLOS 架构搭建大规模分布式转发结构来满足日益增长的转发规模需求，在该架构下，各节点分布式运行和自我决策

49、转发路径导致无法完全感知全局信息和实现最优的整网性能。3.2.2 全调度以太网突破无损以太性能瓶颈综合当前所面临的挑战，新型智算中心网络将向三个方向进行演进：一是从“流”分发到“包”分发演进，通过提供逐报文容器动态负载均衡机制，实现单流多路径负载分担，提升有效带宽，降低长尾时延。二是从“推”流机制到“拉”流机制演进，即从被动拥塞控制，到依赖“授权请求”和“响应机制”的主动流控，最大限度避免网络拥塞的产生。三是从“局部”决策到“全局”调度演进，即全局视野的转发调度机制，实现集中式管理运维、分布式控制转发，优化网络性能。基于以上三大演进方向，中国移动创新提出全调度以太网（Global Schedu

50、led Ethernet，GSE）技术方案 11，打造无阻塞、高带宽、低时延、自动化的新型智算中心网络，助力AIGC 等高性能业务快速发展（如图 3-8）。图 3-8 全调度以太网（GSE）技术架构如图 3-8 所示，全调度以太网（GSE）技术架构主要包括计算层、网络层和控制层 3 个层级，包含计算节点、网络边缘处理节点（Global Scheduled Processor,GSP）、网络核心交20中国移动 NICC 新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Pap

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？