收藏 分销(赏)

2023智算中心网络架构白皮书.pdf

上传人:Stan****Shan 文档编号:1288575 上传时间:2024-04-22 格式:PDF 页数:47 大小:16.88MB
下载 相关 举报
2023智算中心网络架构白皮书.pdf_第1页
第1页 / 共47页
2023智算中心网络架构白皮书.pdf_第2页
第2页 / 共47页
2023智算中心网络架构白皮书.pdf_第3页
第3页 / 共47页
2023智算中心网络架构白皮书.pdf_第4页
第4页 / 共47页
2023智算中心网络架构白皮书.pdf_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、 引言随着 AI 技术的逐步成熟和应用场景的不断丰富,人工智能产业正在迅速发展,AI 相关的产品与服务也在各行业中落地和普及。企业通过人工智能技术提高生产力,进行数字智能化新范式转型的需求也更加迫切。人工智能技术目前已被广泛应用于智慧金融、智能家居、智能医疗、智能交通、智能制造等领域。大模型技术因其良好的通用性与泛化性,显著降低了人工智能应用的门槛,其溢出效应正在加速推进新一轮的科技革命和社会产业的变革。近期,ChatGPT、文心一言等生成式人工智能应用的出现,使大模型的发展成为 AI 领域最重要的热点趋势,越来越多的科技巨头竞相推出千亿、万亿参数的大模型。而训练超大参数规模的大模型也给智能计

2、算基础设施带来了前所未有的挑战。大模型的训练过程需要数千张 GPU 卡协同计算数周或数月,这就要求智能计算网络能够提供更强大的性能和更高的稳定性与可靠性。因此,提供一种高速、低延迟且可扩展的网络互联方案成为了智能计算领域的重要课题。通常,大中型政务、金融及企业客户对网络安全与数据隐私保护有着更严格的要求,需要通过私有云建设模式在自有数据中心中构建自主可控的智能计算资源池,为人工智能的创新服务提供底层算力支持。智算网络作为智算中心基础设施的重要组成部分,其选型、设计和建设方案是非常关键的环节,网络架构设计的合理性直接影响智算集群的性能、可靠性与稳定性。智算网络的选型和建设阶段的典型问题包括:1.

3、智算网络是复用当前的 TCP/IP 通用网络的基础设施,还是新建一张专用的高性能网络?2.智算网络技术方案采用 InfiniBand 还是 RoCE?3.智算网络如何进行运维和管理?4.智算网络是否具备多租户隔离能力以实现对内和对外的运营?本白皮书将分析智算业务对网络的核心需求,深入介绍智算网络的架构设计以及智算中心高性能网络的运维和运营管理方案,并结合典型实践,提供智算网络选型建议,为客户建设面向大模型的智算中心提供网络建设、运维和运营参考。智算中心网络架构白皮书目录CONTENTS智算业务对网络的核心需求01031.1 智算业务关键应用场景和案例 1.2 智算业务对网络的关键要求01智算网

4、络方案选型0712172.1 InfiniBand网络介绍2.2 RoCEv2网络介绍2.3 InfiniBand和RoCEv2网络 方案对比02物理网络架构设计19 2022253.1 传统云网络架构承载智算业务存 在的挑战 3.2 智算网络架构3.3 智算网络可容纳的GPU卡的规模 3.4 物理网络设计典型实践03智算高性能网络运维管理4.1 可视化网管系统4.2 高精度流量采集4.3 数据可视化展示4.4 智能化4.5 高性能网络运维典型实践293132333304 智算高性能网络运营管理 5.1 云平台产品化的多租户能力AI-VPC5.2 InfiniBand网络的多租户方案5.3 R

5、oCE网络的多租户方案5.4 通过RDMA网络提供公共服务5.5 高性能网络运营典型实践353637383805总结和展望总结和展望 推荐阅读4041066智算中心网络架构白皮书01 智算业务对网络的核心需求101智算业务对网络的核心需求 1.1 智算业务关键应用场景和案例智能计算是指利用人工智能技术和算法,对海量数据进行分析、处理和挖掘。智能计算已广泛应用于自然语言处理、图像识别、预测分析、金融科技和自动驾驶等场景。基于大模型在自然语言处理领域的出色能力,智能计算为机器翻译、文本分类、文本总结、文本创作、搜索助手、辅助编程、图像视频创作等应用场景提供强有力的技术支持。智能计算已成为帮助企业提

6、高效率、降低成本、打造核心竞争力所不可或缺的技术能力,其在金融和汽车行业的应用已经非常成熟。例如:在金融行业:智能计算应用于风险管理和控制,辅助量化交易、信用评估以及趋势预测,帮助金融机构做出更明智的业务决策。在汽车行业:智能计算为自动驾驶提供高效精准的感知与识别、行驶决策与规划、车辆控制与执行,并不断进行算法优化以提高自动驾驶的安全和可靠性。1.1.1 金融风控与智能推荐金融行业历来是数字化与智能化的先驱者,已经将人工智能技术广泛应用于各项业务中,包括智能风控、交易欺诈检测、智能客服、投资决策、信用评估、量化交易等。金融风控是人工智能技术在金融行业中最典型的应用场景。通过大数据分析、机器学习

7、等技术对金融交易、投资、借贷等活动进行风险识别、评估、控制和监测,对金融风险进行有效识别和预警,以保障金融机构和客户的资产安全,满足监管要求。在金融风控领域,度小满拥有非常丰富的实践经验。度小满将大型语言模型(LLM)应用于海量互联网文本数据、行为数据、征信报告的解读,将小微企业主的信贷违约风险降低了 25%。而且随着模型的迭代,大模型在智能风控上的潜力还会进一步释放。除了智能风控领域,度小满基于生成式大模型自主生成新的数据、图像、语音、文本等信息,成为理财师、保险经纪人等金融行业从业人员的得力助手,帮助他们为客户个性化推荐理财、保险产品,大幅提升服务效率和服务体验。1.1.2 自动驾驶得益于

8、人工智能技术,自动驾驶技术越来越成熟。自动驾驶的渗透率呈现逐步上涨的趋势。全球知名 IT 市场研究机构IDC 发布的中国自动驾驶汽车市场数据追踪报告显示,2022 年第一季度 L2 级自动驾驶在乘用车市场的新车渗透率达 23.2%,L3 和 L4 级自动驾驶的能力也越来越成熟。在自动驾驶场景中,每车每日会产生 T 级别数据,每次训练的数据达到 PB 级别。大规模数据处理和大规模仿真任务的特点十分显著,需要使用智算集群来提升数据处理与模型训练的效率。2智算中心网络架构白皮书重庆长安汽车股份有限公司在智算领域进行了规模化实践,建设了全新的智能车云平台和专用智算中心。当前计算能力突破 100 亿亿次

9、,支撑自动驾驶的算法自研、虚拟仿真、智能网联等数字服务。智能车云平台提供统一的基础网联、数字产品、AI 决策分析、智能汽车大数据四大平台能力,为用户提供智能化、远程化、个性化的车辆服务,打造更加便捷、高效、安全的车辆使用体验。1.2 智算业务对网络的关键要求1.2.1 AI 模型训练和推理的核心是数据计算在 AI 系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段。离线训练,就是产生模型的过程。用户需要根据自己的任务场景,准备好训练模型所需要的数据集以及神经网络算法。模型训练开始后,先读取数据,然后送入模型进行前向计算,并计算与真实值的误差。然后执行反向计算得到参数梯度,最后更新

10、参数。训练过程会进行多轮的数据迭代。训练完成之后,保存训练好的模型,然后将模型做上线部署,接受用户的真实输入,通过前向计算,完成推理。因此,无论是训练还是推理,核心都是数据计算。为了加速计算效率,一般都是通过 GPU 等异构加速芯片来进行训练和推理。图 1.AI 模型训练和推理的核心是数据计算1.2.2 AI 模型参数规模不断扩大随着以 GPT3.0 为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和

11、千亿规模参数的方向发展。01 智算业务对网络的核心需求3:语言模型 :中文语言模型 :多模态模型 :视觉模型ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)PaLM(562B)PaLI(17B)LaMDA(137B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNIE-VILG(10B)Plato-XL(11B

12、),0.050.55505002017201820192020202120222023图 2.AI 模型参数演进1.2.3 大模型训练集群的网络要求大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。算力墙储存墙传统训练GPU 0ZELOPs计算量大规模参数GPT-3:314 ZFLOPs175B参数小模型、小样本、单卡训练梯度更新反向计算前向计算 Traini

13、ng Data大模型的变化参数量与计算量激增A100算力312TFLOPS单卡需要32年需要分布式加速千亿参数需要2TB存储单卡现存80GB,放不下需要更多储存空间图 3.传统训练和大模型的不同分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。(1)低时延分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是

14、存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此,降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。4智算中心网络架构白皮书分布式全局加速单卡加速卡数加速比=分布式单计算时间单卡计算时间卡间通信时间=图 4.分布式全局速度计算公式降低多机多卡间端到端通信时延的关键技术是 RDMA 技术。RDMA 可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。应用内核态用户态硬件层应用OSOS交换机CPU旁路BufferBufferBufferBufferBufferBufferBufferBuf

15、fer服务器服务器图 5.RDMA 通信示意图实 现 RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、iWARP 四 种。其 中 RoCEv1 技 术 当 前 已 经 被 淘 汰,iWARP 使用较少。当前 RDMA 技术主要采用的方案为 InfiniBand 和 RoCEv2 两种。Orange content defined by the IBTAGreen content defined by IEEE/IETFRDMA application/ULPRDMA software stackIB transport protocolIB network laye

16、rIB network layerUDPIPTCPIPIB link layerInfiniBand managementEthernet/IP managementEthernet/IP managementEthernet/IP managementEthernet link layerEthernet link layerEthernet link layerIB transport protocolIB transport protocoliWARP*protocolRDMA APIRDMA 协议栈RoCE v1Typically hardwareSoftwareRoCE v2iWAR

17、P图 6.RDMA 协议栈01 智算业务对网络的核心需求5在 InfiniBand 和 RoCEv2 方案中,因为绕过了内核协议栈,相较于传统 TCP/IP 网络,时延性能会有数十倍的改善。在同集群内部一跳可达的场景下,InfiniBand 和 RoCEv2 与传统 IP 网络的端到端时延在实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。图 7.不同技术的端到端通信时延50usIP5us200Gbps-400Gbps 演进,整体转发能力在不断提升。图 22.H3C 以太网交换机端口演进(3

18、)连接件RoCEv2 承载在以太网上,所以传统以太网的光纤和光模块都可以用。(4)RoCEv2 流控机制PFCPFC(Priority Flow Control)是 Hop By Hop 的流控策略,其特点就是通过配置水线合理的使用交换机的缓存,在以太网络中实现完全的无丢包能力。1502 智算网络方案选型具体实现步骤是,当下游交换机端口的入队列缓存达到阈值 Xoff 时,该交换机就会向上游设备(交换机或者网卡)发PFC PAUSE 帧。上游设备收到 PFC Pause 帧后,该端口会停止发包,从而减少下游设备的缓存区压力。而在这个过程中上游设备已经发送到链路中的报文不会被丢弃,依旧会发送到下游

19、交换机并存储在下游交换机预先分配的 Headroom 缓存中。由于 PAUSE 帧的发送,下游交换机的 buffer 占用开始下降。等到该端口的 buffer 计数器下降到 Xon 这个值的时候,端口 A 将会向上游发送一个持续时间为 0 的 PAUSE 帧,上游设备开始进行数据包发送。图 23.PFC 原理图Egress PortIngress PortData PacketPFC PauseXOFF ThresholdECN显式拥塞通知(ECN,Explicit Congestion Notification)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。ECN 是 IP

20、 层的机制,它主要是用来在拥塞场景下,通过在交换机上标记报文特定向服务器端传递拥塞信息,从而通知到服务器端发生了拥塞。然后服务器端再通过发送 CNP 报文至客户端通知源端降速从而实现拥塞控制的目的。在RFC 3168 中定义了 ECN。需要注意以下两点,第一点是必须在端点上以及端点之间的所有中间设备上启用 ECN。若传输路径中有不支持 ECN 的任何设备,将中断端到端 ECN 功能。Server 端的网卡收到了存在 ECN 标记的报文,会向 Client 端的网卡发送 CNP 报文,CNP报文中包含着QPs(Queue Pairs)等相关信息。第二点是CNP报文一般需要和RDMA业务报文处在不

21、同的队列中,并且设置合适的 QoS 策略保证 CNP 报文的发送,要确保 CNP 报文不会被丢弃,进而避免流控失效。DCQCN图 24.DCQCN 示意图DCQCN Congested Traffic Congested Traffic(ECN marked)Congested Notification Sender NICReaction Point(RP)SwitchCongestion Point(CP)Receiver NICNotification Point(NP)16智算中心网络架构白皮书数据中心量化拥塞通知(DCQCN)是 ECN 和 PFC 的组合,可支持端到端无损以太网。D

22、CQCN 的设计理念是在拥塞时通过 ECN 让发送端降低传输速率,从而尽量避免触发 PFC,因为 PFC 被触发,发送流量会完全停止,DCQCN 需要考虑如下两个关键点:确保 PFC 不会太早触发,即先使用 ECN 发送拥塞反馈使流量变慢。确保 PFC 不会太晚触发,即拥塞较严重产生缓冲区溢出进而出现丢包。通过合理设置下面三个参数,可以满足上述需求:Headroom Buffers:发送至上游设备的 PAUSE 消息需要一些时间到达并生效。为避免丢包,PAUSE 发送方必须保留足够的缓冲区,以处理在此期间可能收到的任何数据包。这包括发送 PAUSE 时正在传输的数据包,以及上游设备在处理 PA

23、USE 消息时发送的数据包。PFC Threshold:这是一个入口阈值。当到达该阈值时,会向上游发送 PFC PAUSE 报文。ECN Threshold:这是一个出口阈值。ECN 阈值等于 WRED 开始填充级别值。一旦出口队列超过此阈值,交换机将开始为该队列中的数据包进行 ECN 标记。DCQCN 要有效,此阈值必须低于入口 PFC 阈值,以确保 PFC 不会在交换机有机会使用 ECN 标记数据包之前触发。设置非常低的 WRED 填充级别可提高 ECN 标记概率。例如,使用默认共享缓冲区设置,WRED 开始填充级别为 10%可确保标记无丢失数据包。但是,如果填充级别较高,则 ECN 标记

24、的概率降低。2.2.2 RoCEv2 网络方案特点RoCE 方案相对于 InfiniBand 方案的特点是通用性较强和价格相对较低。除用于构建高性能 RDMA 网络外,还可以在传统的以太网络中使用。但在交换机上的 Headroom、PFC、ECN 相关参数的配置是比较复杂的。在万卡这种超大规模场景下,整个网络的吞吐性能较 InfiniBand 网络要弱一些。2.2.3 RoCE 网络设备供应商支持 RoCE 的交换机厂商较多,市场占有率排名靠前的包括新华三、华为等。支持 RoCE 的网卡当前市场占有率比较高的是 NVIDIA 的 ConnectX 系列的网卡。1702 智算网络方案选型2.3

25、InfiniBand 和 RoCEv2 网络方案对比从技术角度看,InfiniBand 使用了较多的技术来提升网络转发性能,降低故障恢复时间,提升扩展能力,降低运维复杂度。图 25.InfiniBand 和 RoCEv2 的技术对比8*100Gbps8*400GbpsInfiniBand对比项RoCEv22us同集群端到端时延5us基于Local ID转发基于IP转发转发模式逐包的自适应路由ECMP方式路由负载均衡模式Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收敛故障恢复通过UFM实现零配置手工配置网络

26、配置基于Credit的流控机制PFC/ECN,DCQCN等流控机制具体到实际业务场景上看,RoCEv2 是足够好的方案,而 InfiniBand 是特别好的方案。业务性能方面:由于 InfiniBand 的端到端时延小于 RoCEv2,所以基于 InfiniBand 构建的网络在应用层业务性能 方面占优。但 RoCEv2 的性能也能满足绝大部分智算场景的业务性能要求。业务规模方面:InfiniBand 能支持单集群万卡 GPU 规模,且保证整体性能不下降,并且在业界有比较多的商用实践案例。RoCEv2 网络能在单集群支持千卡规模且整体网络性能也无太大的降低。业务运维方面:InfiniBand

27、较 RoCEv2 更成熟,包括多租户隔离能力,运维诊断能力等。业务成本方面:InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交换机的成本要比以太交换机高一些。业务供应商方面:InfiniBand 的供应商主要以 NVIDIA 为主,RoCEv2 的供应商较多。图 26.InfiniBand 和 RoCEv2 对比示意图InfiniBand性能供应商运维成本功能和规模RoCEv218智算中心网络架构白皮书1903 物理网络架构设计03物理网络架构设计3.1 传统云网络架构承载智算业务存在的挑战 传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要

28、是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。图 27.云数据中心 VPC 网络的 Spine-Leaf 架构和流量模型互联网SpineLeaf1*N3*N云到用户(南北向)流量示意图云内部(东西向)流量示意图服务器0 服务器服务器服务器服务器 服务器N服务器0 服务器服务器服务器服务器 服务器NSpineLeaf1*N3*N承载 VPC 网络的底层物理网络架构,对于承载智算业务存在如下挑战。有阻塞网络:考虑到并非所有服务器都会同时对外产生流量,为了控制网络建设成本,Leaf 交换机的下联带宽和上联带宽并非按照 1:1 设计,而是存在收敛比。一般上联带宽仅有下联带宽的三分之

29、一。云内部流量时延相对较高:跨 Leaf 交换机的两台服务器互访需要经过 Spine 交换机,转发路径有 3 跳。带宽不够大:一般情况下单物理机只有一张网卡接入 VPC 网络,单张网卡的带宽比较有限,当前较大范围商用的网卡带宽一般都不大于 200Gbps。20智算中心网络架构白皮书3.2 智算网络架构对于智算场景,当前比较好的实践是独立建一张高性能网络来承载智算业务,满足大带宽,低时延,无损的需求。大带宽的设计智算服务器可以满配 8 张 GPU 卡,并预留 8 个 PCIe 网卡插槽。在多机组建 GPU 集群时,两个 GPU 跨机互通的突发带宽有可能会大于 50Gbps。因此,一般会给每个 G

30、PU 关联一个至少 100Gbps 的网络端口。在这种场景下可以配置 4张 2*100Gbps 的网卡,也可以配置 8 张 1*100Gbps 的网卡,当然也可以配置 8 张单端口 200/400Gbps 的网卡。图 28.智算服务器的网卡配置和商用部署情况8*100Gbps8*200Gbps8*400Gbps网卡配置800Gbps1.6Tbps3.2Tbps单机对外带宽广泛应用网卡和交换机都很成熟400Gbps网卡开始商用,处于规模上量的初期规模部署情况Infiniband:200G网卡和交换机很成熟RoCE:200G以太交换机少无阻塞设计无阻塞网络设计的关键是采用 Fat-Tree(胖树)

31、网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有64 个 100Gbps 的端口,那么上联也有 64 个 100Gbps 的端口。此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。低时延设计 AI-Pool在低时延网络架构设计方面,百度智能云实践和落地了基于导轨(Rail)优化的 AI-Pool 网络方案。在这个网络方案中,8 个接入交换机为一组,构成一个 AI-Pool。以两层交换机组网架构为例,这种网络架构能做到同 AI-Pool 的不同智算节点的 GPU 互访仅需一跳。在 AI-Pool 网络架构中,不同智

32、算节点间相同编号的网口需要连接到同一台交换机。如智算节点 1 的 1 号 RDMA 网口,智算节点 2 的 1 号 RDMA 网口直到智算节点 P/2 的 1 号 RDMA 网口都连到 1 号交换机。在智算节点内部,上层通信库基于机内网络拓扑进行网络匹配,让相同编号的 GPU 卡和相同编号的网口关联。这样相同GPU 编号的两台智算节点间仅一跳就可互通。不同GPU编号的智算节点间,借助NCCL通信库中的Rail Local技术,可以充分利用主机内GPU间的NVSwitch的带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号的互通。2103 物理网络架构设计图 29.同智算资源池 AI-Pool

33、 机间互通示意图Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3

34、GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/2对于跨 AI-Pool 的两台物理机的互通,需要过汇聚交换机,此时会有 3 跳。图 30.跨智算资源池 AI-Pool 机间互通示意图Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Por

35、t4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/222智算中心网络架构白皮书3.3 智算网络可容纳的 GPU 卡的规模 网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网

36、络的层次多,承载的 GPU 卡的规模会变大,但转发的跳数和时延也会变大,需要结合实际业务情况进行权衡。3.3.1 两层胖树架构8 台接入交换机组成一个智算资源池 AI-Pool。图中 P 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为P/2 个,即单台交换机最多可以下联 P/2 台服务器和 P/2 台交换机。两层胖树网络可以接入 P*P/2 张 GPU 卡。图 31.两层胖树网络架构示意图Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交

37、换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/23.3.2 三层胖树架构三层网络架构中会新

38、增汇聚交换机组和核心交换机组。每个组里面的最大交换机数量为 P/2。汇聚交换机组最大数量为 8,核心交换机组的最大数量为 P/2。三层胖树网络可以接入 P*(P/2)*(P/2)=P*P*P/4 张 GPU 卡。在三层胖树组网中,InfiniBand 的 40 端口的 200Gbps HDR 交换机能容纳的最多 GPU 数量是 16000。这个 16000 GPU 卡的规模也是目前 InfiniBand 当前在国内实际应用的 GPU 集群的最大规模网络,当前这个记录被百度保持。2303 物理网络架构设计图 32.三层胖树网络架构示意图接入交换机-8Port1GPU1Port2GPU2Port3

39、GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机组-11P/2汇聚交换机接入交换机AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port

40、7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8核心交换机PP/2P/2P/2P/2汇聚交换机组-81P/2核心交换机组-11P/2核心交换机组-P/21P/23.3.3 两层和三层胖树网络架构的对比可容纳的 GPU 卡的规模两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模,P 代表单台交换机的端口数量。比如对于端口数为 40 的交换机,两层胖树架构可容纳的 GPU 卡的数量是 800 卡,三层胖树架构可容纳的 GPU 卡的数量是 16000 卡。24智算中心网络架构白皮书图 33.不同网络架构容纳的

41、GPU 节点数量两层胖树Leaf-spine三层胖树Leaf-spine-core800Gbps单机对外带宽Nmax/2=P2800(P=40)8,192(P=128)2,048(P=64Nmax/4=P316,000(P=40)65,535(P=64)524,228(P=128)Nmax代表可支持的最大GPU卡数量,P代表单个交换机的端口数转发路径两层胖树和三层胖树网络架构另外一个区别是任意两个节点的网络转发路径的跳数不同。对于同智算资源池 AI-Pool 的两层胖树架构,智算节点间同 GPU 卡号转发跳数为 1 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优

42、化的情况下转发跳数为 3 跳。对于同智算资源池 AI-Pool 的三层胖树架构,智算节点间同 GPU 卡号转发跳数为 3 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 5 跳。图 34.两层胖树和三层胖树网络架构对比8*100Gbps8*400Gbps1跳同GPU卡号转发跳数两层胖数架构架构三层胖树架构3跳3跳5跳不同GPU卡号转发跳数(无优化情况)2503 物理网络架构设计3.4 典型实践不同型号的 InfiniBand/RoCE 交换机和不同的网络架构下所支持的 GPU 的规模不同。结合当前已成熟商用的交换机,我们推荐几种物理网络架构的

43、规格供客户选择。Regular:InfiniBand 两层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 800 张 GPU 卡。Large:RoCE 两层胖树网络架构,基于 128 端口 100G 数据中心以太交换机,单集群最大支持 8192 张 GPU 卡。XLarge:InfiniBand 三层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 16000 张 GPU 卡。XXLarge:基于 InfiniBand Quantum-2 交换机或同等性能的以太网数据中心交换机,采用三层胖树网络架构,单集群最大支持 100000 张 GPU 卡

44、。图 35.不同规格的物理网络架构8*100Gbps规格描述Regular基于InfiniBand 40端口HDR交换机构建两层胖树网络架构最大支持800张GPU卡Large基于以太网128端口100G交换机构建两层胖树网络架构最大支持8,192张GPU卡XLarge基于 InfiniBand 40端口HDR交换机构建三层胖树网络架构最大支持16,000张GPU卡XXLarge基于InfiniBand Quantum-2交换机或以太网高性能交换机构建三层胖树网络架构最大支持100,000张GPU卡3.4.1 Large 智算物理网络架构实践由度小满建设的“智能化征信解读中台”工程,将大型语言模

45、型 LLM、图算法应用在征信报告的解读上,荣获了“吴文俊人工智能科学技术奖”。度小满也凭借该工程成为唯一入选的金融科技公司。支撑上层创新应用和算法落地的关键环节之一是底层的算力,而支撑智算集群的算力发挥其最大效用的关键之一是高性能网络。度小满的单个智算集群的规模可达 8192 张 GPU 卡,在每个智算集群内部的智算资源池 AI-Pool 中可支持 512张 GPU 卡。通过无阻塞、低时延、高可靠的网络设计,高效的支撑了上层智算应用的快速迭代和发展。26智算中心网络架构白皮书图 36.度小满智算集群网络架构Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU

46、5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器

47、P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/28导轨优化的两层架构ROCEv2网络网络架构 可支撑8,192卡规模 结合网络流量特点,重点优化同号卡AlIReduce操作 一个AI-Pool由8台接入交换机组成,每台接入交换机连接64台机器同端口号的RNIC网口,每个AI-Pool最大支持512卡 多个AI-Pool间通过第二层交换机连接,并使能异号卡间的Rail Local优化与Dragonfly、Torus拓扑比较的优势 网络带宽更充足 节点间跳数少更稳定3.4.2 XLarge 智算物理网络架构实践为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的

48、InfiniBand 网络架构。该网络已稳定运行多年,2021 年建设之初就直接采用了 200Gbps 的 InfiniBand HDR 交换机,单台 GPU 服务器的对外通信带宽为1.6Tbps。2703 物理网络架构设计这个架构优化了网络收敛比,提升了网络吞吐能力,并结合容错、交换机亲和,拓扑映射等手段,将 EFLOPS 级算力的计算集群性能发挥到极致。经过内部 NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下,整体训练效率是普通 GPU 集群的 3.87 倍。图 37.百度智能云智算集群网络架构8导轨优化的三层CLOS架构网络架构 IB可支撑

49、16000卡规模,RoCE可支持30000+卡 结合网络流量特点,重点优化同号卡AllReduce操作 一组机器由8台Tor组成,分别连接20台机器对应编号的GPU网卡 多组Unit间的同号卡通过Leaf层连接,支持最大400卡AllReduce互联 异号GPU网卡通过Spine层连接,使能异号卡网络通信与Dragonfly、Torus拓扑比较的优势 网络带宽更充足 节点间跳数少更稳定20X Unit20X UnitSP1SP2SP19SP20ToR1ToR2ToR7ToR8LE1LE20LE1LE20402020202020X 8X 20X SP1SP2SP19SP20ToR1ToR2ToR

50、7ToR8LE1LE20LE1LE20202028智算中心网络架构白皮书2904 智算高性能网络运维管理04智算高性能网络运维管理RDMA 的通信方式和传统的 TCP/IP 不同,因此,智算高性能网络的运维管理也和之前的 IP 网络的运维管理方式有所不同。具体来讲,RDMA 网络有如下特点:需要高精度的流量采集能力:RDMA 的流量一般呈现较强的突发性。通过 SNMP,以 30 秒的采样精度来采集流量数据已经无法呈现网络的关键带宽业务指标。更精细化的流量统计能力:RDMA的流量是通过端口的某个队列发送的,流量统计的维度要从端口级别细化到队列级别。全面的 RDMA 流控指标的采集和统计:RoCE

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服