收藏 分销(赏)

算网一体及其网络技术问题探索.pdf

上传人:Stan****Shan 文档编号:1246263 上传时间:2024-04-19 格式:PDF 页数:18 大小:4.39MB
下载 相关 举报
算网一体及其网络技术问题探索.pdf_第1页
第1页 / 共18页
算网一体及其网络技术问题探索.pdf_第2页
第2页 / 共18页
算网一体及其网络技术问题探索.pdf_第3页
第3页 / 共18页
算网一体及其网络技术问题探索.pdf_第4页
第4页 / 共18页
算网一体及其网络技术问题探索.pdf_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、算网一体及其网络技术问题探索孙滔中国移动研究院2023.10目 录算力网络及算网一体01几个网络问题探索02智算DSN展望032常规内容页标题 微软雅黑 30号字算力网络迎接智算时代我国数据中心规模近五年年均增速达到近30%;截至2023年8月,我国在用标准机架超过760万架,算力总规模达197EFLOPS,位居全球第二(工信部 2023.10 世界5G大会)中国移动对外可用IDC机架47.8万架,累计投产算力服务器超80.4万台,算力规模达到9.4EFlops(半年报2023.8)2022年2月,“东数西算”工程正式全面启动,8个国家算力枢纽节点,规划10个国家数据中心集群算力网络从未来网络

2、的技术名词成为产业发展的旗帜,3端侧算力20ms骨干时延圈枢纽算力省级/区域算力城市边缘算力枢纽算力5m省域时延圈1ms地市时延圈打造“1-5-20ms”三级算力时延圈连续两年财报公布算力规模中国移动呼和浩特智算中心,总能力将达到5.8EFLOPS,万片级AI加速芯片单位/EFLOPS2022年报2023半年报89.4建设亚洲最大单体智算中心哪些“东数”要“西算”?4是否存在一个量化的指标,来指导“东数西算”仍然是待研究的问题数据传输时延不敏感 短视频、电子游戏、网络即时通信等时延敏感应用,异地计算无法保障用户体验。数据交互不频繁西部东部 HPC天气预报等计算过程中不需要频繁交互的应用,可以异

3、地计算。当前,大模型训练往往是同一数据中心内跨框跨机架训练,不会涉及跨数据中心联合训练大模型训练方式大模型训练通信需求 训练过程中的数据同步延迟可能导致整体训练流程停滞 模型规模扩大造成通信量剧烈增长,需提供充足的网络带宽例如,在100Gbps网络下,在16 GPU之间执行128MB AllReduce需要至少消耗5ms;数据量进一步增加,理论传输时间会等比例上升。中电联中国电力行业年度发展报告2023报告显示2022年全国电力传输线损率4.82%量化指标 东数西算协同调度,需要考虑多种因素,如业务需求、时延、成本、能效等。F=A1Delay+A2Cost+A3Energy+.张量并行:将单个

4、数学运算拆分到不同的 GPU 上运行 流水线并行:在不同 GPU 上运行模型的不同层 数据并行:在不同 GPU 上运行不同的 batch data1 Jaeyong Song,Jinkyu Yim,Jaewon Jung,Hongsun Jang,Hyung-Jin Kim,Youngsok Kim,Jinho Lee,2023,Optimus-CC:Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression,https:/arxiv.org/pdf/2301.09830.pdf端

5、、边、云协同主要包括资源层面和服务层面的协同,不同协同模式在实际应用时均会面临挑战端边云协同是工程领域的难题5协同调度需要获取端、边、云的状态信息,跨域、跨主体信息获取难度大需找到开销和性能提升的平衡点,目标场景仍需明确协同带来了性能提升的同时也引入了额外的开销等,需进一步量化分析开销,寻求性能提升和开销的均衡点需仔细论证现有研究假设,如端侧、边侧资源不足需要协同或云侧提供服务无法满足时延需求等问题在现网中的实际情况,避免“为了协同而协同”,需继续明确协同场景服务协同需要改动已有服务支持服务分解,但服务改动驱动力不足对网络提出了新的需求,网络需增强服务能力同一个服务分散部署在端、边、云不同位置

6、的服务流量特点不同,需提供差异化的网络服务协同拉长了服务提供环节,任一个环节的状态变化都需要网络灵活反应,对网、端、边、云的融合与协同提出新需求,保障服务一致性和稳定性;且有隐私性和安全性问题协同将单个服务分解为多个子服务分散部署,对服务提出新需求缺乏协同对服务性能提升的有效量化机制,服务侧改动现有机制的驱动力不足需均衡考虑协同各参与方的目标诉求,在提升性能的同时均衡各方诉求,以驱动服务协同端、边、云分属不同信息域,信息域内存在不同资源供给主体打破不同信息域的信息边界缺乏需求驱动,缺乏实际机制屏蔽差异性统一获取状态信息如即便在云计算信息域内,存在多家大中型云计算提供商,且信息不互通,难以实现跨

7、资源供给主体的协同调度 算网一体算力网络技术发展的方向趋势:网络和计算需要一体化统筹考虑业务:网络和计算时延需求趋于同一数量级(10Gbps传输时延:20ms50ms网络复杂多样,无法完全无损链路层误码率不可避免大象流负载不均,存在拥塞丢包多流竞争,存在微突发丢包传统TCP协议在广域数据传输中吞吐受限,有效吞吐与链路时延、丢包率成反比TCP网络吞吐=1.22*MSSRTT*Sqrt(L)单流传输时,时延由1ms增加到10ms时,吞吐下降约10倍多流传输使得单流吞吐下降,且受主机CPU性能限制,同样存在吞吐瓶颈科学计算、影视制作,云间灾备等亟需广域超高吞吐传输RFC 3649:HighSpeed

8、 TCP for Large Congestion Windows1.如何设计匹配的协议?(2/2)9端网协同的广域高吞吐网络协议体系广域高通量网络云PE云PE 超算中心数据源(私有云/公有云)RoCE协议优化新型拥塞控制快速丢包恢复 智算中心 数据源(存储卡/磁盘)多路径传输贵州到北京数据快递测试贵州FAST北京国家天文台传输距离远:约2200km链路时延长:RTT约45ms链路带宽大:10Gbps网络类型复杂:云专网、传输网、城域网、DC网络长肥管道传统TCP协议单流435MbpsRoCE协议优化单流7.36GbpsRoCE协议优化是传统TCP协议吞吐的16倍数据传输测试结果端侧RoCE协

9、议优化,消除端侧吞吐瓶颈新型拥塞控制算法,提升网络有效利用率丢包快速恢复算法,降低数据重传尾时延端到端多路径传输,实现带宽聚合与均衡4个关键技术,实现广域高效数据传输2.路由转发中如何结合算力信息?(1/3)10在路由系统中引入计算因子,实现网络和计算的联合调度优化算力路由AR/VR 时延需要低于20ms保障用户体验,包括:传感器采样延迟:1.5ms(客户端)显示刷新延迟:7.9毫秒(客户端)GPU的帧渲染计算延迟5.5ms(服务器)网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络)观察1:计算延迟和网络延迟在同量级仅根据负载选择边缘站点1,总延迟22.4ms仅根据网络选择边缘

10、站点2,总延迟23.4ms根据两者选择边缘站点3,总延迟19.4ms观察2:仅根据网络或计算资源状态,找不到最佳服务器实例结论:需要同时考虑网络和计算资源状态,将流量动态引导到适当的服务节点问题:在对网络和计算都有高要求的场景中,算网的协同调度仍存在待优化的空间IETF立项文稿:draft-ietf-cats-usecases-requirements1.当前缺乏将计算资源与网络状态相结合以决定最优路径和节点的方案。2.现有的解决方案通常为off-path,如DNS、ALTO或L4/L7负载均衡,查询地址/状态的时延随着协议层的升高而升高!技术路径分析L4 Scheduler L7 Sched

11、uler Upper L7 Scheduler 重定向数据库查询L3 CATS随路调度结论:算力路由将具备更高的性能IETF文稿:draft-draft-yao-cats-gap-analysis2.路由转发中如何结合算力信息?(2/3)算力路由在路由系统引入计算信息,是对传统互联网设计理念的挑战在距离矢量上叠加算力向量,改变了传统选路方法,简单叠加将导致路由不收敛算力信息维度较多,需要定义面向路由的高可用性计算信息,兼顾报文封装成本以及可用性构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost技术方向:新型算网多因子算路

12、算法提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告通过仿真建模量化分析算力信息通告信令开销的影响,得到通告信令开销与路由调度成功率的最优解 技术方向:简单高效的算力信息封装通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点技术方向:自适应的算力通告挑战3:多维路由选址挑战2:算力感知和通告挑战1:算力建模和度量统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGP Path Attribution扩展封装计算时延信息112.路由转发中如何结合算力信息?(3/3)12已经完成场景和需求立项,即将推动面向AI大模型的场景

13、写入项目标准 基于CATS的分布式推理 基于CATS+AI的内容获取阿里:draft-an-cats-usecase-aiAI-based Media Distribution and Traffic SteeringBBC:ai4me.surrey.ac.uk中国移动在IETF发起成立算力路由工作组(CATS,Computing-Aware Traffic Steering)推动CATS架构立项Ingress CATS-Router:CATS Traffic Classifier(C-TC):区分是否是CATS流量,决定服务节点CATS Path Selector (C-PS):选择网络转发

14、路径Egress CATS-Router:CATS Network Metric Agent(C-NMA):收集和分发网络指标CATS Service Metric Agent(C-SMA):收集和分发服务和计算指标CATS-control center:CATS Computing information Base(C-CIB):维护细粒度的计算信息CATS Network Metric information Base(C-NIB):维护细粒度的网络信息CATS Path Calculation Unit(C-PCE):计算最合适的网络路径和选择服务节点CATS-SBI interface

15、:CATS-control center与CATS-Router的接口https:/datatracker.ietf.org/wg/cats/document/数据中心多节点之间联合推理,基于CATS完成高效地计算和调度任务多边缘计算节点同时提供内容获取服务,基于CATS完成智能化的多媒体内容获取和调度123.如何高效的算?(1/2)13需求:大规模AI计算集群通信瓶颈问题显著手段:引入在网计算实现AI集群计算性能跃升单次聚合时延单次同步时延与传统软件实现特定集合通信操作相比,Infiniband 在网计算SHARP方案性能提升近5-9倍带宽资源占用高数据迁移成本大通信模式不匹配 千亿参数大模

16、型基于MoE并行模式训练,单机单轮次Allreduce流量达数10GB,占用大量带宽资源【1】大模型约37%的运行时间消耗于访存算子【2】,计算节点间存在大量数据搬运进程间多对一、一对多及多对多的通信在计算节点间以单播实现,物理网络存在大量冗余信息考虑基于开放Ethernet设计在网计算架构,优化应用处理逻辑,为系统算效提升带来质变【2】Data Movement Is All You Need:A Case Study on Optimizing Transformers在网计算主要优势压缩流量缩短传输路径优化通信模式【1】DeepSpeed-MoE:Advancing Mixture-of

17、-Experts Inference and Training to Power Next-Generation AI Scale3.如何高效的算?(2/2)14在网计算改变互联网数据传输模式,从“端到端”到“端网端”主机传统网络设备主机数据包转发消息处理在网计算设备数据包转发应用传输层网络层IB、TCP/IP链路层IB Link、Eth应用传输层网络层IB、TCP/IP链路层IB Link、Eth123MessagePacket操作管理内存管理拓扑管理链路状态计算原语4理念转型拓扑感知+在网计算4“端网端”可靠性1消息-报文语义映射2应用-IP一发多收机制3TCP、QUIC等传输层可靠性机制

18、面向点到点设计,难以实现多对一通信可靠性机制进程message传输与网络packet转发需要映射匹配,将影响packet组合、buffer管理以及消息收发速率AI业务中集合通信的一发多收逻辑目前基于点到点IP通信实现,需要进一步与IP组播结合优化复杂网络拓扑结构下,拓扑感知算法需要与在网计算相结合,实现计算任务网内合理分配技术挑战https:/wiki.ietf.org/meeting/118/sidemeetings预告:中国移动将在11月9日,IETF 118次会议组织在网计算研讨会:Title:Collective Communication Optimization(CCO)联系人:目

19、 录算力网络及算网一体01几个网络问题探索02智算DSN展望0315“算网一体”的架构如何设计?16面向核心问题提出架构设计:匹配的协议:需要支持长距离高吞吐传输,打造一体化极致互联的基础。优化的路由:需要支持算网信息的相互感知,打破系统的壁垒,打开互通的可能。高效的计算:需要支持计算任务特征属性的通信模式,制定一体化控制策略。极致互联混合控制联合感知算力信息网络信息前提支撑作用ISP1ISP2CSP4CSP3CSP2CSP1拓扑信息拥塞状态SLA指标CPU利用率异构算力算力规模集中式控制分布式控制任务分解与调配节点1节点2消费侧节点3节点4参考架构ISP:网络服务提供者;CSP:算力服务提供者智算领域定制网络展望数据中心高性能网络展现出智算时代“DSN”的潜质智算DSN的深化及广域发展,引领未来网络走向算网一体算网一体的架构及关键技术仍是Open Problem东数西算,主要处理计算远大于传输类的业务广域高吞吐的协议设计对算和传耗时可比的业务,进行路由和计算资源的联合优化算力路由算力路由、在网计算等关键技术都对传统互联网的设计理念发起了挑战,将引发网络的深刻变革17T H A N K S

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服