在网计算（NACA）技术白皮书解读.pdf

资源描述

在网计算（NACA）技术白皮书解读2023年8月中国移动提出“算力网络”新理念中国移动充分发把握算力时代发展脉络，以网强算提出“算力网络”全新理念，两年多来持续开拓创新，全力推进算力网络发展，形成一系列创新成果，在业界取得了广泛共识，引起了巨大反响qRvNxOmMtRoMtNtQrMqRqM6MaO6MnPpPpNpMkPpPwPkPmMpQ9PqQuNvPsOrOMYrRwP“算网一体”是中国移动算力网络发展的深化3算力网络的发展经过三个阶段的发展，逐渐深化2021-2023 2024-20252025 十四五阶段十五五阶段及更长期起步阶段：泛在协同发展阶段：融合统一跨越阶段：一体内生网随算动智能编排算网一体一站服务：一站开通算网服务协同运营：云网运营双入口拉通融合服务：产品融合、确定性服务统一运营：统一入口、统一平台一体服务：多层次智简无感服务模式创新：多方算力可信交易运营服务编排管理基础设施算网融合智慧内生协同编排算网一体架构及总体设计4极致互联混合控制联合感知算力信息网络信息前提支撑作用ISP1ISP2CSP4CSP3CSP2CSP1拓扑信息拥塞状态SLA指标CPU利用率异构算力算力规模集中式控制分布式控制任务分解与调配节点1节点2消费侧节点3节点4算网一体通过“联合感知”“混合控制”“极致互联”构建面向智能化时代的数字基础设施架构关键技术算力路由在网计算创新互联网架构协议，基于算网资源联合感知实现动态融合决策选路网络内生算力，基于集中式控制，实现计算任务跨云、网、边、端分布式协同ISP：网络服务提供者；CSP：算力服务提供者算网数字孪生基于网络大模型的算网数字孪生构建可视、可管、可控的算网基础设施广域RDMA突破RDMA长距传输瓶颈，实现广域高性能互联分布式系统面临通信开销瓶颈问题5 分布式应用场景采用8个workers和8个PSs的网络训练AlexNet模型，网络通信时间占比可高达80%以上面向AI场景的网络优化需要更细粒度的通信算子优化方案在网计算主要面向分布式应用，随着分布式系统规模不断扩大，计算节点间的通信量激增，通信模式更加复杂，通信开销已成为AI、大数据、HPC等分布式应用的性能瓶颈，严重制约系统规模扩展模型训练时长分布11 Parameter Hub:a Rack-Scale Parameter Server for Distributed Deep Neural Network Training，https:/dl.acm.org/doi/10.1145/3267809.3267840需要尽可能压缩通信的时延占比，同时结合不同类型的通信过程优化分布式系统通信性能计算时间每轮迭代总时间分布式训练管道中模型训练时间分解1不同模型在进行分布式训练时，各阶段的时间分布不同ResNet 269的通信时间最长，且还有较长的Aggregator，AlexNet还具有较长的Synchronization，等等问题主要来源6衡量分布式应用通信性能的重要指标是任务完成时间，负载均衡策略、计算节点多打一现象以及物理与逻辑通信模式不匹配等因素引发通信瓶颈问题，导致任务完成时间过长发送发送接收接收接收交换机网络负载严重不均衡接收100%0%接收发送发送网络侧ECMP实现AI训练流量调度，AI训练以巨型流为主，HPC业务以高并发小流为主，传统网络调度方式难以满足AI、HPC等计算密集型业务场景流量调优目标。多对多逻辑通信需求与点对点物理通信实现：进程间MPI接口设计包含多对一、一对多及多对多的通信需求，计算节点间目前以单播实现MPI接口，物理网络存在大量冗余信息通信模式不匹配大数据流式计算多对一的数据处理模式：训练最后一级交换机和接收方之间Incast拥塞，造成计算流长尾时延，计算任务完成时间过长。Incast交换机发送发送发送发送接收流量需求不对等通过网络与分布式应用各通信阶段紧耦合的设计方式优化分布式处理是重要发展方向在网计算有望攻克分布式系统通信瓶颈问题7在网计算突破现有计算模式，重构应用处理逻辑，为系统算效提升带来质变主要优势流量压缩在网聚合，数据消冗与求和网内处理，实现Sub-RTT通信缩短传输路径交换机Tbps处理能力线速处理处理模式在网计算设备在网计算将计算卸载至网络，实现数据随转随算，实现系统加速，提升算网资源利用率。性能跃升与传统软件实现消息同步相比，IB SHARP方案性能提升近9倍与传统软件实现聚合操作相比，IB SHARP方案性能提升近5倍单次聚合时延单次同步时延在网计算发展现状产业已逐步布局在网计算的研究和实践，中国移动积极推进试验验证和标准制定产业与学术进展在网计算方向已有一定共识，但仍面临多方面发展挑战，需要产学研协同攻关训练提速：相比参数服务器架构BytePS，通信密集型任务最高可提升60%以上带宽优化：相比RAR架构Horovod，降低智算集群网络带宽占用约1倍左右中国移动CFITI试验网创新验证架构AlexNetVGG19VGG16VGG11ResNet152ResNet101ResNet50BytePS330110120130110155250Horovod500130150210100148235在网计算540155175215115165265测试基准：GPU型号：2080 单位：图片数/秒标准推进：在CCSA TC3 WG3牵头完成业界首个在网计算行标立项基于多级可编程交换机参与参数聚合，基于IP协议设计 ATP 报文头在网聚合ATPSHARPIB based MPI-Bcast基于IB智能网卡和IB交换机，基于IB传输层QP，实现参数聚合基于IB交换机的硬件组播能力，实现MPI广播在网组播在网聚合NSDI 21IPDPS 04COMHPC 16基于NP交换机实现参数聚合，基于UDP协议设计Trio-ML 报文头Trio基于FPGA和商用交换机实现传输层透明的参数聚合NetReduceASPLOS 23SIGCOMM 22在网计算发展挑战在网计算发展面临应用场景竖井式、协议实现封闭化、以及编程范式不友好等挑战基于IB协议栈及专用硬件的在网计算，性能优势明显，但成本高，协议栈封闭不兼容现有在网计算方案面向单一场景竖井式设计，在协议设计和硬件实现等方面缺乏通用性开发模式有差异：应用程序开发模式和网络开发模式不匹配，开发者学习门槛高运行框架不支持：Tensorflow、Spark等分布式开发框架不支持在网计算能力调用需要从产业、生态等方面破除技术壁垒，构建统一通用的在网计算能力训练专用网元大数据处理专用网元RDMA软件栈应用IB传输层IB网络层IB链路层InfiniBand服务器应用程序编程网络设备在网计算程序编程训练HPC参数向量计算消息数据类型多元应用大数据键值流高性能计算专用网元IB物理设备封闭化竖井式编程不友好在网计算NACA10编程范式统一逻辑物理统一通信原语统一网内资源统一在网计算NACANetwork Assisted Computing AccelerationNACA以提升在网计算通用性为目标，重构应用处理模式，构建全新的在网计算通信库，围绕拓扑映射、编程范式、计算实现、资源管理形成”四个统一”，实现网络辅助计算加速，提升分布式系统算能算效异构网元高性能互联分布式应用DC交换机端侧适配器边缘汇聚交换机园区网关编排管理资源管理拓扑管理任务管理跨架构统一编译管理运行时管理在网计算通信库可靠传输InfinibandOmni-PathSlingshot同步/异步控制多对一通信一对多通信多对多通信AI训练/推理大数据MVAPICHHPC标识转发拓扑感知RoCE在网计算NACA技术架构NACA架构核心在“一横一纵”，横向在网计算通信库承上启下，以异构网内算力实现统一在网计算服务，纵向编排管理全栈贯通，优化应用开发模式、协同端网任务部署、统筹网内资源管理编排管理编程范式统一网内资源统一通信原语统一逻辑物理统一核心特征1：逻辑物理统一交换机/路由器物理链路主机计算节点逻辑链路参数服务器传统计算在网计算NACA在网计算物理实现比传统计算实现方式更加亲和业务逻辑拓扑，网络与业务紧密耦合在网计算相较传统计算与逻辑拓扑映射更亲和统一逻辑拓扑物理拓扑核心特征2：通信原语统一579123456a:1b:2a:3a:2c:4a:6b:2c:4NACA面向差异化应用定义统一在网计算通信库，以统一的设备原语实现通信库，提升在网计算的通用性类型数据结构统一原语数值聚合 Array Map.get,Map.add,Map.clear 键值对聚合 Map Map.get,Map.add 广播同步聚合散播AI应用参数向量聚合（数据类型：数值）大数据处理键值聚合（数据类型：键值对）在网计算通信库聚合算子物理实现统一调用相同的聚合算子核心特征3：编程范式统一NACA面向不同应用程序设计，提供统一编程语言及通用开发模式，简化异构设备开发入口AI训练/推理大数据HPC软件框架TensorFlowPyTorch Spark Flink MVAPICH应用开发网络运维语言LyraP4all领域专用语言P4NPLMicro-C网络设备开发统一在网计算编程框架分布式应用前端编译中间转译及程序综合网络设备1多种在网计算程序统一编译应用1应用2网络设备2转译至异构在网计算网元核心特征4：网内资源统一NACA基于RDMA、CXL等高性能互联协议构建统一在网计算资源池，优化网络资源管理，提升网内资源利用率高性能互联协议（RDMA、CXL等.）CPU在网计算节点GPUDDRDDRNIC，交换芯片CPU在网计算节点GPUDDRDDRNIC，交换芯片CPU在网计算节点GPUDDRDDRNIC，交换芯片关键技术1：计算语义映射16消息是分布式应用进程间通信的传递内容。传统网络设备基于数据包转发，在网计算设备基于消息处理，因此需要把消息和数据包的语义映射起来链路层协议头路由层协议头传输层协议头携带消息相关信息负载自定义协议栈优势：设计灵活、高效劣势：开发复杂度高，技术封闭基于现有协议栈（如RDMA）优势：兼容性高，可复用现有成熟加速技术劣势：方案不灵活，传输效率相对较低链路层协议头路由层协议头自定义头负载两种封装机制PacketMessage数据包转发消息处理主机传统网络设备在网计算设备主机数据包转发应用传输层网络层IB、TCP/IP链路层IB Link、Eth应用传输层网络层IB、TCP/IP链路层IB Link、Eth关键技术2：计算正确性保障17在网计算要保证与端侧计算的结果等价，即保证计算正确性。计算正确性还受丢包影响，网络拥塞和乱序则会加剧丢包，因此网络拥塞控制、可靠性传输是在网计算正确性和计算效率的保障a1a2a3？a1+a2+？发送端接收端问题：丢包、重复包影响计算正确性聚合时发生丢包方案：依靠拥塞控制和可靠性传输降低丢包利用bitmap高效记录已收到和已处理包的序号；基于现有可靠性传输协议如Go-Back-N、选择性重传等，针对在网计算进行改进。优化网络负载均衡方案，避免负载不均导致的拥堵；基于现有PFC、ECN、DCQCN等流量控制机制针对在网计算进行改进接收数据包（MID=1，PSN=2）PSN范围0-2已经接收的 PSN丢弃聚合第一次接收重复数据包所有数据包聚合完毕后转发01a1a2a3？a1+a2+a3+a3发送端接收端聚合时收到重复数据包a3构造IR块，解耦硬件、拓扑和指令依赖动态规划算法，实现程序段高效放置程序段DAG表示法，合并DAG指令除冗异构适配程序段连接和加载关键技术3：计算程序网内编排18 在网计算多级编译编排部署架构实现程序、元素、执行一致性保证INC 程序1.INC 设备 1INC 程序2INC 程序 MINC 设备 2INC 设备 N.硬件、拓扑、指令、能力多级依赖多任务共享设备，程序段集成困难分布式分段部署，编译加载难异构设备多、组合多、指令冗余多级编译编排部署在网计算程序1在网计算程序2前端编译器IR程序1IR程序2程序分割与编排指令块1指令块2指令块3指令块4转发程序转发程序程序综合可执行文件1可执行文件2可编程交换机可编程交换机FPGA智能网卡关键技术4：网内资源池化虚拟化和池化管理技术，统一北向接口，屏蔽异构硬件差异计算、传输周期交替，内存利用率待提高设备内存虚拟化多租户、多实例、细粒度、动态分配作业1作业2网络设备计算资源分区服务器 1.作业1服务器 n.服务器 1.作业2服务器 n 异构网络设备对接，端网资源一致性跨设备资源统一池化北向统一对接调度、南向注册异构网络、南向通知计算服务器、一致性更新协议调度器调度策略作业-资源建模服务器计算资源管理计算服务器 1北向资源分配接口计算服务器 2计算服务器3在网计算统一资源管理网络设备3网络设备2网络设备1网内资源上报和分配网内资源请求和通告总结与展望20 深化在网计算技术攻关围绕在网计算关键技术挑战进行联合攻坚，共同探索解决方案，推进在网计算成为网络内生的普适能力。推动在网计算技术开源及标准化逐步开展在网计算标准制定及开源工作，突破行业技术壁垒，共同构筑开放共享的在网计算发展局面。开展在网计算联合试验验证基于中国移动CFITI试验平台，联合开展在网计算创新技术验证，不断推进产业成熟。希望携手产业界推进在网计算NACA技术的开拓和研究！

展开阅读全文