收藏 分销(赏)

智算中心网络架构白皮书 2023.pdf

上传人:Stan****Shan 文档编号:1300866 上传时间:2024-04-22 格式:PDF 页数:45 大小:16.90MB
下载 相关 举报
智算中心网络架构白皮书 2023.pdf_第1页
第1页 / 共45页
智算中心网络架构白皮书 2023.pdf_第2页
第2页 / 共45页
智算中心网络架构白皮书 2023.pdf_第3页
第3页 / 共45页
智算中心网络架构白皮书 2023.pdf_第4页
第4页 / 共45页
智算中心网络架构白皮书 2023.pdf_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、 智算中心网络架构白皮书目录CONTENTS智算业务对网络的核心需求01031.1 智算业务关键应用场景和案例 1.2 智算业务对网络的关键要求01智算网络方案选型0712172.1 InfiniBand网络介绍2.2 RoCEv2网络介绍2.3 InfiniBand和RoCEv2网络 方案对比02物理网络架构设计19 2022253.1 传统云网络架构承载智算业务存 在的挑战 3.2 智算网络架构3.3 智算网络可容纳的GPU卡的规模 3.4 物理网络设计典型实践03智算高性能网络运维管理4.1 可视化网管系统4.2 高精度流量采集4.3 数据可视化展示4.4 智能化4.5 高性能网络运维典

2、型实践293132333304 智算高性能网络运营管理 5.1 云平台产品化的多租户能力AI-VPC5.2 InfiniBand网络的多租户方案5.3 RoCE网络的多租户方案5.4 通过RDMA网络提供公共服务5.5 高性能网络运营典型实践353637383805总结和展望总结和展望 推荐阅读4041066智算中心网络架构白皮书01 智算业务对网络的核心需求101智算业务对网络的核心需求 1.1 智算业务关键应用场景和案例智能计算是指利用人工智能技术和算法,对海量数据进行分析、处理和挖掘。智能计算已广泛应用于自然语言处理、图像识别、预测分析、金融科技和自动驾驶等场景。基于大模型在自然语言处理

3、领域的出色能力,智能计算为机器翻译、文本分类、文本总结、文本创作、搜索助手、辅助编程、图像视频创作等应用场景提供强有力的技术支持。智能计算已成为帮助企业提高效率、降低成本、打造核心竞争力所不可或缺的技术能力,其在金融和汽车行业的应用已经非常成熟。例如:在金融行业:智能计算应用于风险管理和控制,辅助量化交易、信用评估以及趋势预测,帮助金融机构做出更明智的业务决策。在汽车行业:智能计算为自动驾驶提供高效精准的感知与识别、行驶决策与规划、车辆控制与执行,并不断进行算法优化以提高自动驾驶的安全和可靠性。1.1.1 金融风控与智能推荐金融行业历来是数字化与智能化的先驱者,已经将人工智能技术广泛应用于各项

4、业务中,包括智能风控、交易欺诈检测、智能客服、投资决策、信用评估、量化交易等。金融风控是人工智能技术在金融行业中最典型的应用场景。通过大数据分析、机器学习等技术对金融交易、投资、借贷等活动进行风险识别、评估、控制和监测,对金融风险进行有效识别和预警,以保障金融机构和客户的资产安全,满足监管要求。在金融风控领域,度小满拥有非常丰富的实践经验。度小满将大型语言模型(LLM)应用于海量互联网文本数据、行为数据、征信报告的解读,将小微企业主的信贷违约风险降低了 25%。而且随着模型的迭代,大模型在智能风控上的潜力还会进一步释放。除了智能风控领域,度小满基于生成式大模型自主生成新的数据、图像、语音、文本

5、等信息,成为理财师、保险经纪人等金融行业从业人员的得力助手,帮助他们为客户个性化推荐理财、保险产品,大幅提升服务效率和服务体验。1.1.2 自动驾驶得益于人工智能技术,自动驾驶技术越来越成熟。自动驾驶的渗透率呈现逐步上涨的趋势。全球知名 IT 市场研究机构IDC 发布的中国自动驾驶汽车市场数据追踪报告显示,2022 年第一季度 L2 级自动驾驶在乘用车市场的新车渗透率达 23.2%,L3 和 L4 级自动驾驶的能力也越来越成熟。在自动驾驶场景中,每车每日会产生 T 级别数据,每次训练的数据达到 PB 级别。大规模数据处理和大规模仿真任务的特点十分显著,需要使用智算集群来提升数据处理与模型训练的

6、效率。2智算中心网络架构白皮书重庆长安汽车股份有限公司在智算领域进行了规模化实践,建设了全新的智能车云平台和专用智算中心。当前计算能力突破 100 亿亿次,支撑自动驾驶的算法自研、虚拟仿真、智能网联等数字服务。智能车云平台提供统一的基础网联、数字产品、AI 决策分析、智能汽车大数据四大平台能力,为用户提供智能化、远程化、个性化的车辆服务,打造更加便捷、高效、安全的车辆使用体验。1.2 智算业务对网络的关键要求1.2.1 AI 模型训练和推理的核心是数据计算在 AI 系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段。离线训练,就是产生模型的过程。用户需要根据自己的任务场景,准备好

7、训练模型所需要的数据集以及神经网络算法。模型训练开始后,先读取数据,然后送入模型进行前向计算,并计算与真实值的误差。然后执行反向计算得到参数梯度,最后更新参数。训练过程会进行多轮的数据迭代。训练完成之后,保存训练好的模型,然后将模型做上线部署,接受用户的真实输入,通过前向计算,完成推理。因此,无论是训练还是推理,核心都是数据计算。为了加速计算效率,一般都是通过 GPU 等异构加速芯片来进行训练和推理。图 1.AI 模型训练和推理的核心是数据计算1.2.2 AI 模型参数规模不断扩大随着以 GPT3.0 为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术

8、演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。01 智算业务对网络的核心需求3:语言模型 :中文语言模型 :多模态模型 :视觉模型ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)PaLM(562B)PaLI(17B)LaMDA(137B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-

9、MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNIE-VILG(10B)Plato-XL(11B),0.050.55505002017201820192020202120222023图 2.AI 模型参数演进1.2.3 大模型训练集群的网络要求大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。算力墙储存

10、墙传统训练GPU 0ZELOPs计算量大规模参数GPT-3:314 ZFLOPs175B参数小模型、小样本、单卡训练梯度更新反向计算前向计算 Training Data大模型的变化参数量与计算量激增A100算力312TFLOPS单卡需要32年需要分布式加速千亿参数需要2TB存储单卡现存80GB,放不下需要更多储存空间图 3.传统训练和大模型的不同分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网

11、络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。(1)低时延分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此,降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。4智算中心网络架构白皮书分布式全局加速单卡加速卡数加速比=分布式单计算时间单卡计算时间卡间通信时间=图 4.分布式全局速度计算公式降低多机多卡间端到端通信时延的关键技术是 RDMA 技术。RDMA 可以绕过操作系统内核,让一台主机可以直接访问另外一

12、台主机的内存。应用内核态用户态硬件层应用OSOS交换机CPU旁路BufferBufferBufferBufferBufferBufferBufferBuffer服务器服务器图 5.RDMA 通信示意图实 现 RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、iWARP 四 种。其 中 RoCEv1 技 术 当 前 已 经 被 淘 汰,iWARP 使用较少。当前 RDMA 技术主要采用的方案为 InfiniBand 和 RoCEv2 两种。Orange content defined by the IBTAGreen content defined by IEEE/IE

13、TFRDMA application/ULPRDMA software stackIB transport protocolIB network layerIB network layerUDPIPTCPIPIB link layerInfiniBand managementEthernet/IP managementEthernet/IP managementEthernet/IP managementEthernet link layerEthernet link layerEthernet link layerIB transport protocolIB transport proto

14、coliWARP*protocolRDMA APIRDMA 协议栈RoCE v1Typically hardwareSoftwareRoCE v2iWARP图 6.RDMA 协议栈01 智算业务对网络的核心需求5在 InfiniBand 和 RoCEv2 方案中,因为绕过了内核协议栈,相较于传统 TCP/IP 网络,时延性能会有数十倍的改善。在同集群内部一跳可达的场景下,InfiniBand 和 RoCEv2 与传统 IP 网络的端到端时延在实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。

15、图 7.不同技术的端到端通信时延50usIP5us200Gbps-400Gbps 演进,整体转发能力在不断提升。图 22.H3C 以太网交换机端口演进(3)连接件RoCEv2 承载在以太网上,所以传统以太网的光纤和光模块都可以用。(4)RoCEv2 流控机制PFCPFC(Priority Flow Control)是 Hop By Hop 的流控策略,其特点就是通过配置水线合理的使用交换机的缓存,在以太网络中实现完全的无丢包能力。1502 智算网络方案选型具体实现步骤是,当下游交换机端口的入队列缓存达到阈值 Xoff 时,该交换机就会向上游设备(交换机或者网卡)发PFC PAUSE 帧。上游设

16、备收到 PFC Pause 帧后,该端口会停止发包,从而减少下游设备的缓存区压力。而在这个过程中上游设备已经发送到链路中的报文不会被丢弃,依旧会发送到下游交换机并存储在下游交换机预先分配的 Headroom 缓存中。由于 PAUSE 帧的发送,下游交换机的 buffer 占用开始下降。等到该端口的 buffer 计数器下降到 Xon 这个值的时候,端口 A 将会向上游发送一个持续时间为 0 的 PAUSE 帧,上游设备开始进行数据包发送。图 23.PFC 原理图Egress PortIngress PortData PacketPFC PauseXOFF ThresholdECN显式拥塞通知(

17、ECN,Explicit Congestion Notification)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。ECN 是 IP 层的机制,它主要是用来在拥塞场景下,通过在交换机上标记报文特定向服务器端传递拥塞信息,从而通知到服务器端发生了拥塞。然后服务器端再通过发送 CNP 报文至客户端通知源端降速从而实现拥塞控制的目的。在RFC 3168 中定义了 ECN。需要注意以下两点,第一点是必须在端点上以及端点之间的所有中间设备上启用 ECN。若传输路径中有不支持 ECN 的任何设备,将中断端到端 ECN 功能。Server 端的网卡收到了存在 ECN 标记的报文,会向

18、Client 端的网卡发送 CNP 报文,CNP报文中包含着QPs(Queue Pairs)等相关信息。第二点是CNP报文一般需要和RDMA业务报文处在不同的队列中,并且设置合适的 QoS 策略保证 CNP 报文的发送,要确保 CNP 报文不会被丢弃,进而避免流控失效。DCQCN图 24.DCQCN 示意图DCQCN Congested Traffic Congested Traffic(ECN marked)Congested Notification Sender NICReaction Point(RP)SwitchCongestion Point(CP)Receiver NICNoti

19、fication Point(NP)16智算中心网络架构白皮书数据中心量化拥塞通知(DCQCN)是 ECN 和 PFC 的组合,可支持端到端无损以太网。DCQCN 的设计理念是在拥塞时通过 ECN 让发送端降低传输速率,从而尽量避免触发 PFC,因为 PFC 被触发,发送流量会完全停止,DCQCN 需要考虑如下两个关键点:确保 PFC 不会太早触发,即先使用 ECN 发送拥塞反馈使流量变慢。确保 PFC 不会太晚触发,即拥塞较严重产生缓冲区溢出进而出现丢包。通过合理设置下面三个参数,可以满足上述需求:Headroom Buffers:发送至上游设备的 PAUSE 消息需要一些时间到达并生效。为

20、避免丢包,PAUSE 发送方必须保留足够的缓冲区,以处理在此期间可能收到的任何数据包。这包括发送 PAUSE 时正在传输的数据包,以及上游设备在处理 PAUSE 消息时发送的数据包。PFC Threshold:这是一个入口阈值。当到达该阈值时,会向上游发送 PFC PAUSE 报文。ECN Threshold:这是一个出口阈值。ECN 阈值等于 WRED 开始填充级别值。一旦出口队列超过此阈值,交换机将开始为该队列中的数据包进行 ECN 标记。DCQCN 要有效,此阈值必须低于入口 PFC 阈值,以确保 PFC 不会在交换机有机会使用 ECN 标记数据包之前触发。设置非常低的 WRED 填充级

21、别可提高 ECN 标记概率。例如,使用默认共享缓冲区设置,WRED 开始填充级别为 10%可确保标记无丢失数据包。但是,如果填充级别较高,则 ECN 标记的概率降低。2.2.2 RoCEv2 网络方案特点RoCE 方案相对于 InfiniBand 方案的特点是通用性较强和价格相对较低。除用于构建高性能 RDMA 网络外,还可以在传统的以太网络中使用。但在交换机上的 Headroom、PFC、ECN 相关参数的配置是比较复杂的。在万卡这种超大规模场景下,整个网络的吞吐性能较 InfiniBand 网络要弱一些。2.2.3 RoCE 网络设备供应商支持 RoCE 的交换机厂商较多,市场占有率排名靠

22、前的包括新华三、华为等。支持 RoCE 的网卡当前市场占有率比较高的是 NVIDIA 的 ConnectX 系列的网卡。1702 智算网络方案选型2.3 InfiniBand 和 RoCEv2 网络方案对比从技术角度看,InfiniBand 使用了较多的技术来提升网络转发性能,降低故障恢复时间,提升扩展能力,降低运维复杂度。图 25.InfiniBand 和 RoCEv2 的技术对比8*100Gbps8*400GbpsInfiniBand对比项RoCEv22us同集群端到端时延5us基于Local ID转发基于IP转发转发模式逐包的自适应路由ECMP方式路由负载均衡模式Self-Healing

23、 Interconnect Enhancement for Intelligent Datacenters路由收敛故障恢复通过UFM实现零配置手工配置网络配置基于Credit的流控机制PFC/ECN,DCQCN等流控机制具体到实际业务场景上看,RoCEv2 是足够好的方案,而 InfiniBand 是特别好的方案。业务性能方面:由于 InfiniBand 的端到端时延小于 RoCEv2,所以基于 InfiniBand 构建的网络在应用层业务性能 方面占优。但 RoCEv2 的性能也能满足绝大部分智算场景的业务性能要求。业务规模方面:InfiniBand 能支持单集群万卡 GPU 规模,且保证整

24、体性能不下降,并且在业界有比较多的商用实践案例。RoCEv2 网络能在单集群支持千卡规模且整体网络性能也无太大的降低。业务运维方面:InfiniBand 较 RoCEv2 更成熟,包括多租户隔离能力,运维诊断能力等。业务成本方面:InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交换机的成本要比以太交换机高一些。业务供应商方面:InfiniBand 的供应商主要以 NVIDIA 为主,RoCEv2 的供应商较多。图 26.InfiniBand 和 RoCEv2 对比示意图InfiniBand性能供应商运维成本功能和规模RoCEv218智算中心网络架构白皮书1903

25、 物理网络架构设计03物理网络架构设计3.1 传统云网络架构承载智算业务存在的挑战 传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。图 27.云数据中心 VPC 网络的 Spine-Leaf 架构和流量模型互联网SpineLeaf1*N3*N云到用户(南北向)流量示意图云内部(东西向)流量示意图服务器0 服务器服务器服务器服务器 服务器N服务器0 服务器服务器服务器服务器 服务器NSpineLeaf1*N3*N承载 VPC 网络的底层物理网络架构,对于承载智算业务存在如下挑战。有阻塞网络:考虑到并非所有服务

26、器都会同时对外产生流量,为了控制网络建设成本,Leaf 交换机的下联带宽和上联带宽并非按照 1:1 设计,而是存在收敛比。一般上联带宽仅有下联带宽的三分之一。云内部流量时延相对较高:跨 Leaf 交换机的两台服务器互访需要经过 Spine 交换机,转发路径有 3 跳。带宽不够大:一般情况下单物理机只有一张网卡接入 VPC 网络,单张网卡的带宽比较有限,当前较大范围商用的网卡带宽一般都不大于 200Gbps。20智算中心网络架构白皮书3.2 智算网络架构对于智算场景,当前比较好的实践是独立建一张高性能网络来承载智算业务,满足大带宽,低时延,无损的需求。大带宽的设计智算服务器可以满配 8 张 GP

27、U 卡,并预留 8 个 PCIe 网卡插槽。在多机组建 GPU 集群时,两个 GPU 跨机互通的突发带宽有可能会大于 50Gbps。因此,一般会给每个 GPU 关联一个至少 100Gbps 的网络端口。在这种场景下可以配置 4张 2*100Gbps 的网卡,也可以配置 8 张 1*100Gbps 的网卡,当然也可以配置 8 张单端口 200/400Gbps 的网卡。图 28.智算服务器的网卡配置和商用部署情况8*100Gbps8*200Gbps8*400Gbps网卡配置800Gbps1.6Tbps3.2Tbps单机对外带宽广泛应用网卡和交换机都很成熟400Gbps网卡开始商用,处于规模上量的初

28、期规模部署情况Infiniband:200G网卡和交换机很成熟RoCE:200G以太交换机少无阻塞设计无阻塞网络设计的关键是采用 Fat-Tree(胖树)网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有64 个 100Gbps 的端口,那么上联也有 64 个 100Gbps 的端口。此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。低时延设计 AI-Pool在低时延网络架构设计方面,百度智能云实践和落地了基于导轨(Rail)优化的 AI-Pool 网络方案。在这个网络方案中,8 个接入交换机为一组,构成一个 AI

29、-Pool。以两层交换机组网架构为例,这种网络架构能做到同 AI-Pool 的不同智算节点的 GPU 互访仅需一跳。在 AI-Pool 网络架构中,不同智算节点间相同编号的网口需要连接到同一台交换机。如智算节点 1 的 1 号 RDMA 网口,智算节点 2 的 1 号 RDMA 网口直到智算节点 P/2 的 1 号 RDMA 网口都连到 1 号交换机。在智算节点内部,上层通信库基于机内网络拓扑进行网络匹配,让相同编号的 GPU 卡和相同编号的网口关联。这样相同GPU 编号的两台智算节点间仅一跳就可互通。不同GPU编号的智算节点间,借助NCCL通信库中的Rail Local技术,可以充分利用主机

30、内GPU间的NVSwitch的带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号的互通。2103 物理网络架构设计图 29.同智算资源池 AI-Pool 机间互通示意图Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Por

31、t3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/2对于跨 AI-Pool 的两台物理机的互通,需要过汇聚交换机,此时会有 3 跳。图 30.跨智算资源池 AI-Pool 机间互通示意图Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU

32、8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8P

33、P/2P/222智算中心网络架构白皮书3.3 智算网络可容纳的 GPU 卡的规模 网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多,承载的 GPU 卡的规模会变大,但转发的跳数和时延也会变大,需要结合实际业务情况进行权衡。3.3.1 两层胖树架构8 台接入交换机组成一个智算资源池 AI-Pool。图中 P 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为P/2 个,即单台交换机最多可以下联 P/2 台服务器和 P/2 台交换机。两层胖树网络可以接入 P*P/2 张 GPU 卡。图 31.两层胖树网络架构示意图Port1GPU1Port2GPU2Por

34、t3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GP

35、U6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/23.3.2 三层胖树架构三层网络架构中会新增汇聚交换机组和核心交换机组。每个组里面的最大交换机数量为 P/2。汇聚交换机组最大数量为 8,核心交换机组的最大数量为 P/2。三层胖树网络可以接入 P*(P/2)*(P/2)=P*P*P/4 张 GPU 卡。在三层胖树组网中,InfiniBand 的 40 端口的 200Gbps HDR 交换机能容纳的最多 GPU 数量是 16000。这个 16000 GPU 卡的规模也是目前 InfiniBand 当前在国内实际应用的 GPU 集群的最

36、大规模网络,当前这个记录被百度保持。2303 物理网络架构设计图 32.三层胖树网络架构示意图接入交换机-8Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机组-11P/2汇聚交换机接入交换机AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Po

37、rt7GPU7Port8GPU8服务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8核心交换机PP/2P/2P/2P/2汇聚交换机组-81P/2核心交换机组-11P/2核心交换机组-P/21P/23.3.3 两层和三层胖树网络架构的对比可容纳的 GPU 卡的规模两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模,P 代表单台交换机的端口数量。比如对于端口数为 40 的交换机,两层胖树架构可

38、容纳的 GPU 卡的数量是 800 卡,三层胖树架构可容纳的 GPU 卡的数量是 16000 卡。24智算中心网络架构白皮书图 33.不同网络架构容纳的 GPU 节点数量两层胖树Leaf-spine三层胖树Leaf-spine-core800Gbps单机对外带宽Nmax/2=P2800(P=40)8,192(P=128)2,048(P=64Nmax/4=P316,000(P=40)65,535(P=64)524,228(P=128)Nmax代表可支持的最大GPU卡数量,P代表单个交换机的端口数转发路径两层胖树和三层胖树网络架构另外一个区别是任意两个节点的网络转发路径的跳数不同。对于同智算资源池

39、 AI-Pool 的两层胖树架构,智算节点间同 GPU 卡号转发跳数为 1 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 3 跳。对于同智算资源池 AI-Pool 的三层胖树架构,智算节点间同 GPU 卡号转发跳数为 3 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 5 跳。图 34.两层胖树和三层胖树网络架构对比8*100Gbps8*400Gbps1跳同GPU卡号转发跳数两层胖数架构架构三层胖树架构3跳3跳5跳不同GPU卡号转发跳数(无优化情况)2503 物理网络架构设计3.4 典型实

40、践不同型号的 InfiniBand/RoCE 交换机和不同的网络架构下所支持的 GPU 的规模不同。结合当前已成熟商用的交换机,我们推荐几种物理网络架构的规格供客户选择。Regular:InfiniBand 两层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 800 张 GPU 卡。Large:RoCE 两层胖树网络架构,基于 128 端口 100G 数据中心以太交换机,单集群最大支持 8192 张 GPU 卡。XLarge:InfiniBand 三层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 16000 张 GPU 卡。XXLarge:

41、基于 InfiniBand Quantum-2 交换机或同等性能的以太网数据中心交换机,采用三层胖树网络架构,单集群最大支持 100000 张 GPU 卡。图 35.不同规格的物理网络架构8*100Gbps规格描述Regular基于InfiniBand 40端口HDR交换机构建两层胖树网络架构最大支持800张GPU卡Large基于以太网128端口100G交换机构建两层胖树网络架构最大支持8,192张GPU卡XLarge基于 InfiniBand 40端口HDR交换机构建三层胖树网络架构最大支持16,000张GPU卡XXLarge基于InfiniBand Quantum-2交换机或以太网高性能交

42、换机构建三层胖树网络架构最大支持100,000张GPU卡3.4.1 Large 智算物理网络架构实践由度小满建设的“智能化征信解读中台”工程,将大型语言模型 LLM、图算法应用在征信报告的解读上,荣获了“吴文俊人工智能科学技术奖”。度小满也凭借该工程成为唯一入选的金融科技公司。支撑上层创新应用和算法落地的关键环节之一是底层的算力,而支撑智算集群的算力发挥其最大效用的关键之一是高性能网络。度小满的单个智算集群的规模可达 8192 张 GPU 卡,在每个智算集群内部的智算资源池 AI-Pool 中可支持 512张 GPU 卡。通过无阻塞、低时延、高可靠的网络设计,高效的支撑了上层智算应用的快速迭代

43、和发展。26智算中心网络架构白皮书图 36.度小满智算集群网络架构Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7CPU7Port8CPU8服务器1接入交换机-1汇聚交换机-1汇聚交换机接入交换机汇聚交换机-P/2AI-Pool-2Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器1Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服

44、务器Port1GPU1Port2GPU2Port3GPU3Port4GPU4Port5GPU5Port6GPU6Port7GPU7Port8GPU8服务器P/2接入交换机-1AI-Pool-1接入交换机-8PP/2P/28导轨优化的两层架构ROCEv2网络网络架构 可支撑8,192卡规模 结合网络流量特点,重点优化同号卡AlIReduce操作 一个AI-Pool由8台接入交换机组成,每台接入交换机连接64台机器同端口号的RNIC网口,每个AI-Pool最大支持512卡 多个AI-Pool间通过第二层交换机连接,并使能异号卡间的Rail Local优化与Dragonfly、Torus拓扑比较的优

45、势 网络带宽更充足 节点间跳数少更稳定3.4.2 XLarge 智算物理网络架构实践为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。该网络已稳定运行多年,2021 年建设之初就直接采用了 200Gbps 的 InfiniBand HDR 交换机,单台 GPU 服务器的对外通信带宽为1.6Tbps。2703 物理网络架构设计这个架构优化了网络收敛比,提升了网络吞吐能力,并结合容错、交换机亲和,拓扑映射等手段,将 EFLOPS 级算力的计算集群性能发挥到极致。经过内部 NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业

46、时,同等机器规模下,整体训练效率是普通 GPU 集群的 3.87 倍。图 37.百度智能云智算集群网络架构8导轨优化的三层CLOS架构网络架构 IB可支撑16000卡规模,RoCE可支持30000+卡 结合网络流量特点,重点优化同号卡AllReduce操作 一组机器由8台Tor组成,分别连接20台机器对应编号的GPU网卡 多组Unit间的同号卡通过Leaf层连接,支持最大400卡AllReduce互联 异号GPU网卡通过Spine层连接,使能异号卡网络通信与Dragonfly、Torus拓扑比较的优势 网络带宽更充足 节点间跳数少更稳定20X Unit20X UnitSP1SP2SP19SP2

47、0ToR1ToR2ToR7ToR8LE1LE20LE1LE20402020202020X 8X 20X SP1SP2SP19SP20ToR1ToR2ToR7ToR8LE1LE20LE1LE20202028智算中心网络架构白皮书2904 智算高性能网络运维管理04智算高性能网络运维管理RDMA 的通信方式和传统的 TCP/IP 不同,因此,智算高性能网络的运维管理也和之前的 IP 网络的运维管理方式有所不同。具体来讲,RDMA 网络有如下特点:需要高精度的流量采集能力:RDMA 的流量一般呈现较强的突发性。通过 SNMP,以 30 秒的采样精度来采集流量数据已经无法呈现网络的关键带宽业务指标。更

48、精细化的流量统计能力:RDMA的流量是通过端口的某个队列发送的,流量统计的维度要从端口级别细化到队列级别。全面的 RDMA 流控指标的采集和统计:RoCE 网络是通过发送 PFC 和 ECN 报文进行流量控制的,运维管理系统相应地也需要提供对 PFC 和 ECN 等关键指标的采集和统计。只有具备了上述基础的 RDMA 网络业务可视化能力,才能更好地使用 RDMA 网络,快速的发现和定位问题。4.1 可视化网管系统当前 RDMA 网络的可视化网管系统主要是由设备厂商支持。云厂商中,提供私有化部署的云原生 RDMA 网络可视化管理系统的厂家比较少。百度智能云在这方面具备领先性,已经支持了私有化输出

49、的 RDMA 网络可视化管理系统 AI-NETOP,并在度小满等客户中完成了部署与实际使用。云原生的 RDMA 网管系统最大的优势在于可以和云平台的告警策略,告警规则无缝对接,真正成为用户云平台运维管理体系中的一部分。非云原生的 RDMA 网管系统最大的问题在于没有真正的融入到用户云平台的运维体系中,游离在云平台之外,无法做到及时和有效的运维管理。云平台对 InfiniBand 网络的管理主要是实现和 UFM(Unified Fabric Manager)的对接和数据的打通。目前看百度智能云的 RDMA 网络可视化管理系统 AI-NETOP 在和 UFM 进行深入打通和深度融合方面也走在了业界

50、前列。百度智能云私有化输出的 RDMA 可视化运维管理平台,可提供如下能力:1.提供高精度秒级端口级和队列级监控能力,流量 TOP 大盘展示能力;2.提供完善的 RDMA 流量监控指标,包括 PFC,ECN 等关键指标;3.提供自定义告警规则能力并提供告警大盘展示功能;4.提供网络诊断工具,方便用户快速进行问题排查和故障定位。30智算中心网络架构白皮书4.1.1 集群网络可视化智算集群内,多机之间存在的频繁和高速的 RDMA 流量交互。RDMA 流量可视化能帮助运维人员实时地查看高性能RDMA 网络的实际运行状态,并具备快速发现和定位网络问题的技术手段和能力。为了满足 RDMA 网络高精度流量

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服