收藏 分销(赏)

对算力网络新型智算和开放DPU发展的思考和实践.pdf

上传人:Stan****Shan 文档编号:1292433 上传时间:2024-04-22 格式:PDF 页数:24 大小:3.70MB 下载积分:25 金币
下载 相关 举报
对算力网络新型智算和开放DPU发展的思考和实践.pdf_第1页
第1页 / 共24页
对算力网络新型智算和开放DPU发展的思考和实践.pdf_第2页
第2页 / 共24页


点击查看更多>>
资源描述
对算力网络新型智算和开放DPU发展的思考和实践中国移动研究院 段晓东2023.082目录01中国移动算力网络总体进展02围绕GPU,打造NICC新型智算中心03围绕DPU,构建开放解耦产业生态3中国移动算力网络的发展历程中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年来持续开拓创新,全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响。中国移动算力网络白皮书算力网络是以算为中心、网为根基,网、云、数、智、安、边、端、链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。杨杰董事长提出“算力网络”概念与愿景成为“5G+算力网络+能力中台”新型信息基础设施的关键一环发布算力网络技术白皮书,提出十大技术方向提出新概念发布中国移动算力网络白皮书和发展倡议发布新理念融入新战略开创新方向算力网络子链组建14支攻关战队联合攻关产业问题组建新战队5G智慧中台算力网络发布算力网络科技创新成果,CFITI试验网与中国算力网、中科院信息高铁联合打造科学装置构建新装置启动算力网络试验网CFITI 1.0,发布算网服务体系1.0打造新平台4中国移动算力网络体系架构算网一体的基础设施融数注智的算网大脑融合统一的运营服务算网基础设施层OTN/OXCOTN/OXC全光底座OTN/OXC统一IP算网底座分布式算力(端)分布式算力(边)分布式算力(网)分布式算力(中心)分布式算力(中心)分布式算力(边)分布式算力(网)分布式算力(端)编排管理层 数据湖 算网统一编排 基础算网管理 人工智能引擎 算网智能化运营服务层TaaS意图感知统一运营能力开放算力并网MaaS绿色算网运营算网大脑算网底座数字孪生一体编排泛在调度意图网络算网自智算力解构安全5体系化推动算力网络发展中国移动从算网基础设施构建、业务融合创新、创新技术引领三条主线体系化推进算力网络建设和发展,取得了一系列重大成果主线一面向算网基础设施构建主线二面向业务融合创新主线三面向创新技术引领“4+N+31+X”布局,1000余边缘节点构建E级超大规模单体智算中心打造20ms、5ms、1ms三级时延圈产品算力化和算力产品化创新服务体系,发布算网服务1.0融数注智构筑算网大脑1.0三横两纵总体架构创新提出十大技术发展方向布局攻关三十二大核心技术6构建核心技术体系,打造技术策源高地中国移动持续推动算力网络技术的创新突破,构建算力网络核心技术体系,打造原创技术策源高地。算力网络核心技术体系在网计算打破算网边界全调度以太突破无损以太性能瓶颈移动算力5G、6G新增计算面算力路由突破互联网架构协议存算一体突破冯氏架构算力原生实现应用跨架构迁移OIF牵头成立全球首个CFN开源社区,IETF主导成立算力路由工作组并担任主席广域RDMA突破广域传输性能瓶颈空芯光纤新型光纤介质与系统400G/800G超高速大容量全光网络SRv6/G-SRv6统一IP承载协议DPU多算力形态统一底座算力网络创新技术突破新型智算打造算力高峰提出十大技术发展方向和核心技术体系加强关键核心技术攻关和原创技术突破7算力网络发展推动新型算力不断演进数据体量激增、结构多样,对计算效率提出了更高要求,以数据为中心的多样化新型计算架构迅速兴起,中国移动围绕CPU+GPU+DPU三大芯片全面发力,推动多样性算力发展成熟数据中心计算架构由CPU向CPU+XPU异构化演进行业数字化转型带来多样化的海量数据处理需求,传统以CPU为中心的计算架构面临瓶颈,以数据为中心的新型计算架构迅速兴起,GPU、DPU相继成为数据中心第二、第三颗大芯片CPU内存网卡存储总线CPU内存网卡存储总线.DPUDPUDPUCPUCPUCPUCPU.GPUGPUGPUGPU.存储存储存储存储.加速器加速器加速器加速器.DPUNetwork FabricCPU为主的通用计算CPU+GPU+DPU等混合的异构计算面向x86、ARM、RISC-V三大CPU架构,系统性打造“芯巢”算力孵化平台,从标准制定、芯片评估、行业赋能等多种途径,促进多样性算力成熟CPU围绕GPU性能的极致利用,以新型智算为核心,打造智能算力高峰。构建新型智算技术体系,打造E级超大规模单体智算中心,支撑通用AI大模型的训练与孵化GPUDPU通过DPU实现极致性能极低损耗,构建业内首套DPU软硬解耦系列标准,形成“1+5+4”标准化体系,成立“DPU创新开放实验室”,推动DPU技术成熟和产业繁荣发展“3U”一体推动多样性算力发展8目录01中国移动算力网络总体进展02围绕GPU,打造NICC新型智算中心03围绕DPU,构建开放解耦产业生态9打造新型智算中心,发展算力高峰智能算力将成为未来算力主流,中国移动加快发展智能算力,以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁新型智算中心NICC(New Intelligent Computing Center)以GPU、AI加速卡等智能集群算力为核心集约化建设的E级超大规模新型算力基础设施,软硬件全栈环境,支撑AI大模型的高效训练,支撑行业数智化转型升级NICC新型智算中心技术体系智算设施智算原生ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepspeed九天文件对象块多元融合存储GPU集群算力CPUGPU高速无损网络高性能全以太RoCE液冷整机柜高效供电智算基建冷却水系统智算框架AI 应用使能.跨架构编译器算力抽象运行时“芯合”算力原生智算运营编排调度计量计费算力交易能力开放算力管理存储管理网络管理FCAPS管理日志管理资产管理裸金属实例虚拟机实例容器实例异构算力池化算存网管效10近中期:五大核心技术特征全面升级面向大模型孵化,实现“算、存、网、管、效”五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座传统云数据中心算力以CPU为主,单机双路GPU为主,单机8卡,扣卡互联,最高带宽600G风液结合,冷板或浸没液冷,单机柜40KW普通以太网络,10G/25GNFS、Posix、S3多协议融合,海量非结构化数据RoCE高速无损网络,200G/400GGPU池化,算力原生跨架构迁移单一存储协议,结构化数据为主CPU虚拟化、容器化传统风冷,单机柜7KW新型智算中心算存网管效11中远期:跨学科技术融合创新引领突破面向中远期,中国移动提出具有中国特色的三大原创技术,推动新型智算中心在算、存、网、管、效五个方面融合创新,引领技术突破全调度以太网网新一代全调度以太网技术生态,形成端网协同新型智算中心网络算力原生打破异构算力技术生态竖井,实现应用跨架构迁移算 管 效算力路由改变互联网基础架构,协议上实现算力与距离向量叠加融合算 网 效12算力原生:智算应用跨架构迁移部署中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署 发布面向智算的算力原生白皮书 提出“两层架构”和“三大核心技术”统一编程模型及源源转换基于SYCL的单源编程模型范式跨架构综合编译机制多级IR互转,图算融合编译优化原生程序格式规范Host侧、Deivce侧指令元语及执行策略的一体承载 OIF成立开源工作组,牵头国内外多项标准立项 进行算力原生技术理念原型验证探索“芯合”beta平台,实现视频分析、图像识别两类智算应用在GPU T4、MLU 370间的跨架构部署迁移牵头在OIF成立算力原生子工作组牵头在ITU、CCSA进行标准立项三大核心技术:算力抽象、跨架构编译优化、原生运行时三阶段发展路径:异构算力资源池化、应用跨架构迁移、全局泛在融通原生运行时算力抽象跨厂商运行时接口/指令集的可变力度映射机制繁冗开发、复杂适配、各自为栈一次开发、一次封装、跨芯迁移13全调度以太GSE:突破无损以太性能瓶颈全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,构建标准开放技术体系,助力产业发展 从“流”分发到“容器”分发 基于虚拟容器的逻辑转发单元逐“容器”的动态负载均衡机制 从分布式管控到集中式管理集中式全局网络信息维护及调度分布式管理面、控制面及数据面 从“推”流到“拉”流 VOQ调度,最大限度避免拥塞精细反压机制,避免HOL等问题发布业界首个全调度以太网技术架构白皮书,展开芯片、协议、设备、管控及架构等关键技术攻关与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络中国移动携手中国信通院、腾讯、鹏城实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、Intel、Marvell、盛科等十余家合作伙伴,联合发布全调度以太网技术架构(GSE)白皮书14算力路由:推动算网一体创新发展创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度进行算网资源全局优化,实现用户体验、资源利用率和网络效率的最优组合14CA-BGP-LS:出口节点向算力控制节点通告算力状态信息CA-BGP:采集算力信息,通过扩展BGP协议进行通告CA-OSPF:在域内泛洪算力信息为路由提供参考CA-Restful/json:通过restful协议接口收集Json消息算力信息CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置算力路由协议簇算力路由组网架构历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席2023年3月 CATS WG成立暨首次会议,是路由域最受欢迎的工作组之一算力路由的提出发现问题云边以及边边调度之间出现“性能反转”问题本质计算和网络是独立系统算的负载和网的拥塞信息没有产生关联解决思路在路由中引入计算信息,进行联合调度工作组范畴和计划15目录01中国移动算力网络总体进展02围绕GPU,打造NICC新型智算中心03围绕DPU,构建开放解耦产业生态16DPU是算力网络算力基础设施坚实底座DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现低损耗、高性能、高灵活、强安全,支撑算力网络多样化业务需求DPUCPU、GPU、AI芯片管理运维系统虚拟机容器裸金属业务网络、存储网络算力节点算力服务形态算力服务管理编排智能计算AI训练科学计算视频渲染 云XR 全景视频远程控制远程驾驶工业控制云游戏传统云游戏云VR游戏低损耗CPU“零”损耗算力资源极致利用高性能线速转发、极低时延无损网络高灵活裸金属弹性发放网络可编程强安全防火墙等安全功能加速虚拟化安全能力增强业务场景17技术体系不完善、产业生态不健全是DPU行业面临的核心挑战当前各自为营、定向适配的集成模式不利于DPU产业的健康发展,亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态繁荣产业生态技术体系DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地 技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高 技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键服务器DPU云平台18中国移动DPU标准和生态推进为应对DPU产业发展难题,基于中国移动三云DPU引入需求,中国移动持续推动DPU软硬解耦标准体系和开源生态构建,发布DPU技术白皮书,在业内首次提出DPU“1+5+4”标准化体系TC1WG4 DPU总体技术要求TC3WG3 智能网卡虚拟网络加速技术标准TC606WG1 裸金属服务器定制技术要求在OIF CFN社区成立算力卸载工作组中国移动三云DPU引入需求网络云移动云IT云网络加速弹性裸金属弹性裸金属云主机弹性裸金属2022年7月,中国移动在全球数字经济大会发布DPU技术白皮书一套总体架构、五大软件模块、四大硬件系统DPU“1+5+4”标准体系中国移动DPU标准开源进展19基于DPU的一套算力基础设施总体架构DPU算力基础设施由服务器硬件层、DPU软硬融合层、平台应用层三层组成,包含管理、网络、存储、计算、安全五大软件模块和供电系统、散热系统、带外管理、运维策略四大硬件系统,可支持弹性裸金属、无损网络、高性能存储等功能,支持虚机、容器、裸金属的统一承载和管理 DPU管理系统虚拟机容器裸金属计算系统安全系统 服务器 弹性裸金属 统一管理运维 Hypervisor卸载 虚拟机零抖动 网络数据加解密 虚拟化安全增强结构与供电系统带外管理运维策略散热系统服务器硬件层DPU软硬融合层平台应用层网络系统存储系统 虚拟交换网络 RDMA高性能网络 云盘灵活挂载 NVMe高性能存储基于DPU的算力基础设施架构五大软件模块四大硬件系统20DPU软件“五大模块”标准化面向DPU与云平台软件定向开发适配成本高的问题,围绕管理、网络、存储、计算、安全“五大模块”定义功能要求和交互接口,形成DPU软件标准化体系管理模块01弹性裸金属管理功能虚拟机、容器、裸金属统一管理运维方案网络模块02vSwitch,RDMA控制面与转发面解耦接口vDPA接口、RDMA兼容性编程接口存储模块03存储网络协议iSCSI、NVMe-oF存储接口virtio-blk/NVMe计算模块04Host OS裁剪,内核协议栈精简优化Hypervisor前后端分离架构,libvirt标准安全模块05网络数据加解密虚拟化安全增强DPU裸金属CPU硬件加速引擎PCIe总线Host OS虚拟机/容器virtio-netvirtio-blk/NVMe管理模块Cloud agentGuest OS计算模块Front EndHypervisorBack EndHypervisorOpenStackSDN控制器存储网络业务网络存储网络存储模块NVMe-oF(RDMA)virtio-backend/NVMe backend控制面iSCSI/Cephvirtio-netvirtio-blk/NVMe控制路径数据路径 网络模块网络控制面网络转发面virtio-backend21DPU硬件“四大系统”标准化DPU对当前服务器硬件定制要求高,产业存在异厂家DPU卡与服务器设备不能适配的问题。针对DPU引入,以四大硬件系统统一为方向推进服务器硬件标准化,突破新技术规模应用瓶颈统一整机结构及供电最大能力约束整机可支持卡的最大结构规格及最大功耗门限约束整机可支持卡在整机Standby状态启动统一散热能力约束整机支持Standby状态对卡进行散热及调速处理策略01030402统一硬件边带信号定义及带外管理功能边界约束整机能够提供给DPU的边带信号。逐步收敛带外管理设备的交互框架,最终做到边界清晰统一运维策略定义裸金属场景上下电、复位、固件升级、异常下电、故障处理等情景的开关机流程及软件22构建创新开放实验室,推动DPU生态成熟中国移动于2022年11月成立DPU创新开放实验室,希望以业务需求为引导,凝聚产业合力、完善技术方案、制定行业标准,锚定业务场景孵化器、技术方案实验床、产业聚合平台三大定位,推进DPU产业稳步健康发展构建DPU创新开放实验室已汇聚29家云平台、服务器、DPU厂商23构建创新试验网CFITI,打造科学装置构建“1+9+9”节点布局、AB双平面引擎的算力网络试验示范网(CFITI),并与“中国算力网”、“信息高铁”等互联,同步建设智算科学装置,面向新型智算、DPU等基础学科和前沿技术创新形成稳定实验床“1+9+9”节点布局北方国际信息港广东江苏浙江山东河南山西甘肃内蒙古贵州9个集团级节点福建北京湖南四川新疆云南重庆河北宁夏9个省级节点1个中枢节点形成覆盖广泛、融通东西、多节点互联的创新试验科学装置打造算力网络科学装置启动科学装置建设:2022年中国移动携手鹏城实验室、中国科学院计算技术研究所共同启动“大规模科技研发基础设施算力网络科学装置合作”,以构筑公共基础实验平台类国家重大科技基础设施为目标,为算网基础科学研究及应用提供关键实验平台和测试支撑打造新型算力创新高地推动算力网络纵深发展
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服